Alinhamento de sequencias

Transcrição

Alinhamento de sequencias
Métodos de alinhamento de
sequências biológicas
Marcelo Falsarella Carazzolle
Resumo
- Introdução
- Alinhamentos ótimos
- Global
- Local (Smith-Waterman)
- Semi global
- Matrizes de alinhamento (BLOSUM)
- Alinhamentos heurísticos
- BLAST
-PHI-BLAST, PSI-BLAST, MEGABLAST e BLAST2SEQS
Introdução
?
- Uma forma rápida de agregar alguma informação sobre uma
sequência desconhecida é compará-la com um banco de dados de
sequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a par entre
as sequências. Isto é, se o banco de dados possuir 1000 sequências
conhecidas serão realizados 1000 alinhamentos
- Tipicamente são usados os bancos de dados mundiais (NCBI,
EMBL)
Fonte: http://www3.ebi.ac.uk/Services/DBStats/
- Atualmente uma busca nesses bancos faz 100,000,000 de
alinhamentos
- Existem vários programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado é o BLAST
Relevância biológica
- Essencialmente esses alinhamentos devem tentar indicar uma
homologia entre as sequências (ou pelos menos terem uma
similaridade estatisticamente significante)
- Similaridade x Homologia
- identidade = número que indica a quantidade de nucleotídeos
alinhados
- similaridade = é uma medida que considera a probabilidade
do alinhamento ter ocorrido por acaso (e-value). Considera
todos os outros possíveis alinhamentos
- homologia = similaridade entre sequências que dividem a
mesma ancestralidade. Possui um significado evolutivo
10
1
0.1
0.01
E-value
value
0.001
0.0001
0.00001 = 1 x 10-5 = 1e-5
1e-10
1e-50
1e-100
1e-180
0
Probabilidade do alinhamento ocorrer por acaso
E-value x probabilidade
Quanto maior o banco de dados, maior o e-value
Outras aplicações de alinhamentos
- Reconstrução
da sequência consensu a partir de sobreposições
de fragmentos de sequências (montagens de sequências de
DNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- Comparação entre proteínas e DNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
Alinhamentos
-A
comparação entre sequências de DNA de organismos
diferentes é baseada no conceito de que estes organismos
originaram-se de um ancestral comum.
- No contexto de evolução as sequências de DNA sofrem
mutações. Estas modificações locais entre os nucleotídeos podem
ser :
- Inserções : inserção de uma base ou várias bases na
sequência
- Deleções : deleção de uma base ou mais bases na sequência
- Substituições : substituição de uma base por outra
- Portanto um programa de alinhamento de sequências biológicas
tem que considerar essas mutações
Exemplo :
Gap = -2
Match = 1
Mismatch = -1
- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que
maximiza o score :
- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
= 24 – 4 – 10 = 10
Modelos para alinhamentos
- Alinhamento
global
- útil quando as duas sequências tem tamanhos próximos
- Exemplo de programa : CLUSTAL
- Alinhamento local
- útil para alinhamento entre sequências de tamanhos diferentes
e também para sequências com apenas alguns trechos
conservados
- Exemplo de programa : BLAST E FASTA
- Alinhamento semi-global (ou pontas livres)
- útil para encontrar sobreposições de fragmentos de
sequenciamento
- Exemplo de programa : PHRAP E CAP3
Programação dinâmica
- Motivação
: gerar e testar o score de todos os possíveis alinhamentos
é exponencial no tamanho das seqüências (nn ), onde n é o tamanho
das sequências :
- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo,
o alinhamento de duas sequências de 1000 bp levaria trilhões de anos.
- Abordagem alternativa : programação dinâmica. Com programação
dinâmica o tempo de processamento e memória ficam quadráticos
(n2):
- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o
alinhamento de 2 sequências de 1000 pb leva 100 segundos
- Mas ainda não está bom, pois alinhamento de sequências de 10
Mpb (genoma de Saccharomyces) levaria 377 anos
Alinhamento global
- Alinhamento de GACATTG com GATCAATG
1a linha e 1a coluna da matriz são fáceis de computar:
- G A C A T T G
G
A
T
C
A
A
T
G
0
-2
-4
-6
-8
-10
-12
-14
-16
-2
G
-
-4 -6 -8 -10 -12 -14
GA
- -
Lembre-se, penalidade
de 1 gap = -2 e de dois
gaps = -4
http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
-
G
A
T
C
A
A
T
G
- Para
0
-2
-4
-6
-8
-10
-12
-14
-16
G
A
C A T T G
-2
-4
-6
-8
-10 -12 -14
[i,j]=p(i,j)
um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.
-
G
A
T
C
A
A
T
G
-O
0
-2
-4
-6
-8
-10
-12
-14
-16
G
A
C A T T G
-2
-4
-6
-8
-10 -12 -14
[i-1,j-1] [i-1,j]
[i,j-1] [i,j] = max([i-1,j] - 2,
[i-1,j-1] + p(i,j),
[i,j-1] - 2)
valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1]
(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
- Construindo o alinhamento
A
G
C
0
-2
-4
-6
A
-2
1
-1
-3
A
-4
-1
0
-2
A
-6
-3
-2
-1
C
-8
-5
-4
-1
No alinhamento global o alinhamento deve ser construído a partir
do extremo da matriz
Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html
G
A
T
C
A
A
T
G
- No
-
G
A
C A T T G
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
[i-1,j-1] [i-1,j]
[i,j-1] [i,j] = max([i-1,j] - 2,
[i-1,j-1] + p(i,j),
[i,j-1] – 2,
0 zero)
alinhamento local a primeira linha e coluna são inicializadas com
zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
No alinhamento local o alinhamento deve ser construído partir do
maior score da matriz e para quando encontrar um score=0
Alinhamento semi-global
- Não penaliza espaços nas extremidades do
alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC
|| | | | |
- - - CAGCGTGG - - - - - - - - No global teríamos,
CAGCA – CTTGGATTCTCGC
CAGC - - - - - - G - T - - - - - - Qual dos dois alinhamentos é mais
interessante ?
- No
alinhamento semi-global a primeira linha e coluna são
inicializadas com zeros. O resto é igual ao alinhamento global
- A abordagem de programação dinâmica é importante pois garante o melhor
alinhamento entre duas seguências, mas ainda temos um problema :
- Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1
segundo, o alinhamento de sequências de 10 Mpb (genoma de
Saccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qual
não é garantido encontrar o alinhamento ótimo (heurística) mas é
significantemente mais rápido. Com esse método os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
(1990), 3389
- FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma das
sequências (word size) e depois realiza uma busca exata por essas palavras nas
sequências a serem comparadas, filtrando assim os possíveis candidatos.
Alinhando proteínas
- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
Matrizes de substituição
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )
- I e V => Hidrofóbicos
- D e W => D (carga negativa) e W (aromático)
- C => pontes de sulfeto (estrutural)
A matriz foi construída a partir de alinhamentos
múltiplos globais de 504 grupos de proteínas
-
- BLOSUM 62 : grupos com similaridade >62%
- BLOSUM 80 : grupos com similaridade >80%
- BLOSUM 45 : grupos com similaridade >45%
Query Length
Substitution Matrix
<35
PAM-30
35-50
PAM-70
50-85
BLOSUM-80
>85
BLOSUM-62
PNAS 89 (1992), 10915-19919
BLAST
• Basic Local Alignment Search Tool
• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local (linux)
• Consulta de seqüências em BDs biológicos (nt ou proteínas)
• Alinhamento – sobreposição de trechos semelhante de duas
seqüências (seqs). BLAST traz pontuação e mostra
alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum
• BDs – nucleotídeos, proteínas, domínios,
genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
Query
BD
Compara Programa
nt
nt
nt
blastn
nt (trad)
aa
aa
blastx
aa
aa
aa
blastp
aa
nt (trad)
aa
tblastn
nt (trad) nt (trad)
aa
tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
BLAST interface
BLASTp
http://www.ncbi.nlm.nih.gov/blast/
Limita a região da sequência
que será usada na consulta
Pode ser usado um arquivo com várias
sequências gravadas no formato fasta
Pode ser colocado várias sequências ao mesmo tempo ou
vários GI’s (genbank identifier)
Filtro por organismo, use o banco de
taxonomia do NCBI para ver a forma
correta de escrever o organismo
Banco de dados de proteínas do NCBI
Filtros mais elaborados usando as opções
avançadas de busca do NCBI :
protease NOT hiv1[organism] => retornará
apenas resultados com proteases que não sejam
do organismo HIV 1
Banco de dados de proteínas curadas
pelo EBI
Banco de dados de proteínas com a
estrutura tridimensional conhecida
Número máximo de sequências alinhadas
E-value de corte
Número de bases que serão
utilizados para formar as k-tuplas
Altera as penalidades de criação e
extensão de gaps no alinhamento
Mascara regiões de repetição
Link
Corte 1e-5
1
64
query
subject
1
71
134
BLASTx – diferenças importantes
Diferentes códigos genéticos para diferentes organismos
A mudança no
frame de leitura
gera a quebra do
alinhamento
formando
dois
HSP´s
(high
scoring pair)
91
1
63
95
243
query
subject
1
11
10
60
BLAST local
• Pode ser instalado localmente
• Bancos de dados próprios e atualizações
• Facilidades
–
–
–
–
–
Velocidade de buscas
Maleabilidade
Automatização
Dados locais
Independe de internet
PHI-BLAST
-É
um blastp com a opção de passar uma outra sequência curta ou
um padrão servindo como um vínculo para a consulta
N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
N(2,4) - Uma sequência de 2,3 ou 4
nucleotídeos
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
Ex :
[CG](5)TG{A}N(1,5)C
PSI-BLAST
-É
um blastp interativo no qual a matriz (BLOSUM), após a primeira
interação, é refeita com base nos alinhamentos entre as proteínas
resultantes da consulta :
- uma posicão conservada no alinhamento recebe um score
alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
BL2SEQS
- Faz um alinhamento de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn)
- http://www.ncbi.nlm.nih.gov/BLAST/bl2seq/wblast2.cgi
Spliced alignments
http://mobyle.pasteur.fr/cgi-bin/MobylePortal/portal.py?form=est2genome
Alinhamento de genomas
http://asap.ahabs.wisc.edu/mauve/
FIM

Documentos relacionados

Alinhamento Simples

Alinhamento Simples • Obter valores a partir de alinhamentos que correspondam à divergência esperada para as sequências que vão ser alinhadas

Leia mais

sites de bioinformática - Rodrigo Mendes

sites de bioinformática - Rodrigo Mendes encontrar uma seqüência de resíduos de aminoácidos que melhor se adequem a uma estrutura terciária conhecida e vice-versa.

Leia mais

update: 5 Dez 2001 - Atelier de BioInformatique

update: 5 Dez 2001 - Atelier de BioInformatique A forma exacta: As sequências a ser comparadas são arrumadas ao longo da matriz. A cada célula (i,j) da matriz associa-se um ponto se i=j ou se i e j se assemelham segundo um qualquer critério (e.g...

Leia mais