View

Transcrição

View
Instituto Superior de Ciências da Saúde-Norte
Curso de Bioquímica 2ºAno
Projecto Tutorial
2006-2007
BIOINFORMÁTICA
Bioinformática
PROJECTO TUTORIAL
YFP – YOUR FAVORITE PROTEIN
Introdução
A bioinformática é um campo em franca expansão, e o número e variedade
de métodos computacionais utilizados para análise de sequências de DNA e
proteínas cresce de dia para dia. A sequência do primeiro genoma completo
(Haemophilus influenzae) data de 1995. A sequenciação completa do primeiro
genoma eucariota (Saccharomyces cerevisae), resultante de uma colaboração
internacional, terminou em 1996. Este estudo serviu de pioneiro para a
sequenciação do genoma humano, a qual foi levada a cabo pela Celera Genomics,
uma empresa privada de biotecnologia, e por um consórcio internacional de
laboratórios sem fins lucrativos, projecto este terminado em 2000.
A bioinformática surge assim como um novo campo de pesquisa essencial
em áreas como bioquímica, biologia molecular, sistemática, biologia estrutural,
biologia do desenvolvimento...O aumento exponencial de informação contida nas
bases de dados e o desenvolvimento contínuo de novas ferramentas informáticas
para a análise dessa informação, representa hoje em dia um novo desafio para a
Bioquímica/Biologia Molecular. Torna-se assim necessário o acesso às bases de
dados existentes com informação actualizada. As bases de dados mais conhecidas
e actualizadas são: i) O GenBank, EMBL (European Molecular Biology Laboratory
Database), DDBJ (databank of Japan) e GSDB (Genome Sequence Database) para
sequências de DNA e RNA. ii) SWISS-PROT e PIR (Protein Identification Resource)
para sequências proteicas. iii) PDB para estruturas macromoleculares.
O
GenBank
pode
ser
acedido
através
do
endereço
http://www.ncbi.nlm.nih.gov/genbank. No site do NCBI encontram-se depositadas
diversas bases de dados de importância extremamente relevante para a
comunidade científica, nomeadamente: i) bibliografia na área das ciências naturais e
das ciências biomédicas sob a forma de publicações periódicas (PubMed), ii)
sequências nucleotídicas e proteicas, iii) estruturas proteicas, iv) genes, proteínas,
bibliografia e informação relativa a dornças genéticas (OMIM), v) livros de texto na
área das ciências biomédicas, vi) genomas completos, entre muita outra informação.
Como diz no site: “Established in 1988 as a national resource for molecular biology
information, NCBI creates public databases, conducts research in computational
biology, develops software tools for analyzing genome data, and disseminates
biomedical information - all for the better understanding of molecular processes
affecting human health and disease…”
Entre as diversas bases de dados disponíveis no NCBI, existe uma base de dados
muito importante ao nível da saúde, a OMIM (Online Mendelian Inheritance in
Man). A OMIM é um catálogo de genes humanos e doenças genéticas, que
fornece informação histórica, aspectos clínicos, mapa genético, referências
bibliográficas, sequências, etc, relacionados com esse gene/doença genética.
Uma outra aplicação muito importante da bioinformática consiste na pesquisa
de bibliografia, essencial para qualquer trabalho de investigação. A PubMed é das
bases de dados bibliográficas mais completa e também a mais utilizada pela
comunidade científica.
No trabalho do projecto tutorial proposto irão ser utilizadas ferramentas disponíveis
na Internet para pesquisar genes/proteínas já conhecidos e cuja informação está
disponível nas bases de dados públicas, assim como procurar artigos científicos na
base de dados PubMed, relacionadas com essas pesquisas efectuadas.
BLOCO 1
Extracção de informação a partir das sequências
Procura nas bases de dados:
Como foi referido a EMBL (versão europeia) e o GenBank (versão americana) são
as duas maiores bases de dados nucleotídicas. Estas duas bases de dados estão
em colaboração e sincronizadas, pelo que contêm a mesma informação e são
actualizadas diariamente. Na pesquisa de proteínas, a base de dados mais utilizada
é a SWISS-PROT da Suíça. Alguns servidores, como o SRS (Sequence Retrieval
System), interrelacionam a informação contida numa vasta quantidade de bases de
dados, entre as quais:
GenBank – Sequências nucleotídicas, National Center for Biotechnology Information
(NCBI) – EUA.
EMBL - Sequências nucleotídicas, European Molecular Biology Laboratory,
Cambridge.
PIR – Sequências proteicas. Protein Identification Resource, EUA.
SWISS-PROT – Sequências Proteicas. Suíça.
NRL-3D – Previsão da estrutura em proteínas.
PROSITE – Motivos de proteínas.
BLOCKS – Motivos de proteínas
PDB – Estruturas macromoleculares.
Exercício:
Neste exercício vamos usar o SRS para a pesquisa de algumas sequências. O SRS
permite-nos encontrar, se depositados na base de dados, um gene ou proteína em
estudo, a sua função, a bibliografia relacionada, etc, a partir de links apropriados.
Essa pesquisa faz-se por exemplo, a partir de um nº de acesso (número através do
qual se pode aceder a uma determinada sequência depositada na base de dados), a
partir de uma palavra-chave, organismo, etc. Estes critérios podem ser combinados.
Vá para a página de web do SRS através da morada: http://srs.ebi.ac.uk e vá para a
library page.
Aí escolha a base de dados SWISS-PROT
Depois de escolhida a base de dados proteica, clique em “query form” no topo da
página. Aí irá introduzir os seus critérios de pesquisa, nomeadamente o nome da
proteína que pretende estudar e o organismo, tal como pode ver no seguinte
exemplo:
1. Apresente os resultados obtidos, relativos à proteína que se encontra a
estudar. Retire a sequência proteica correspondente.
2. Identifique o gene que codifica para a proteína escolhida. Identifique também
o número de acesso da SWISS-PROT e o nome de entrada da proteína. O
código Swissprot para proteínas é constituído por letras ou por letras e
números, respeitantes ao nome da proteína, seguido de traço (underscore) e
de uma abreviatura do organismo. Ex: Hexocinase em levedura HXKA_YEAST.
3. Identifique a função dessa proteína e, se possível, a sua localização na
célula. Indique também, se possível, proteínas que interactuam com a
proteína escolhida.
4. Retire a sequência nucleotídica correspondente ao RNAm. Use a base de
dados EMBL.
BLOCO 2
Procura de homologias
A disponibilidade das bases de dados referidas veio também permitir a procura
de semelhanças entre sequências desconhecidas e as sequências existentes
nessas bases de dados. A identificação de sequências homólogas ao gene/proteína
em estudo pode dar pistas valiosas na identificação da função. Em geral, a
existência de níveis de semelhança significativos corresponde, com um elevado
nível de confiança, a uma proteína homóloga. No entanto, o inverso não é
necessariamente verdade, a inexistência de similaridade não é garantia de não
homologia. Para uma pesquisa de homologia, é aconselhável a procura de
semelhanças em bases de dados de proteínas em primeiro lugar, dado que há uma
maior divergência a nível nucleotídico. Os programas mais utilizados para a
pesquisa de sequências são o BLAST (Basic Local Alignement Search Tool) e o
FASTA (Fast Homology Search All Sequences). Ambos os programas usam
algoritmos que calculam o nível de semelhança local e a possibilidade dessa
semelhança ter ocorrido ao acaso. O pacote de programas BLAST está acessível no
NCBI (http://www.ncbi.nlm.nih.gov/BLAST) e compreende os seguintes programas:
BLASTP – Compara uma sequência proteica com sequências das proteínas
existentes nas bases de dados.
BLASTN - Compara uma sequência nucleotídica com sequências nucleotídicas
existentes nas bases de dados.
BLASTX - Compara os seis quadros de leitura correspondentes à tradução de uma
sequência nucleotídica com sequências das proteínas existentes nas bases de
dados.
TBLASTN – Compara uma sequência proteica com sequências nucleotídicas
existentes nas bases de dados, traduzidas nos seis quadros de leitura.
TBLASTX - Compara os seis quadros de leitura correspondentes à tradução de uma
sequência nucleotídica com os seis quadros de leitura de sequências nucleotídicas
existentes nas bases de dados.
Quando se faz uma pesquisa no BLAST, tem que se ter em atenção se o
programa escolhido está de acordo com o tipo de procura que se quer fazer.
Quando aparece o resultado as melhores homologias aparecem em primeiro lugar.
Correspondentes a essas homologias aparecem também um “score value” e um “Evalue”. O “score value” mostra o nível de semelhança entre as duas sequências
(deve ser alto) e o “E-value” dá-nos a probabilidade desse alinhamento ter sido feito
ao acaso (deve ser baixo).
Exercício:
Faça uma pesquisa no BLASTX com a sequência nucleotídica que obteve no
exercício anterior. Identifique as cinco proteínas que apresentam maior homologia,
os organismos a que pertencem e a sua função. Faça uma pesquisa no BLASTP
com a sequência proteica que obteve no exercício anterior. Identifique as cinco
proteínas que apresentam maior homologia, e verifique se correspondem às
anteriormente identificadas. Identifique a proteína que lhe aparece com o E-Value
mais alto possível. Compare a função dessa proteína com as proteínas previamente
identificadas, assim como com a sua YFP (your favorite protein).
BLOCO 3
Vias metabólicas
O
KEGG
(Kyoto
Encyclopedia
of
Genes
and
Genomes):
http://www.genome.ad.jp/kegg/kegg2.html é um servidor japonês utilizado na
pesquisa de vias metabólicas. A função ou funções de uma proteína podem ser
determinadas neste servidor, bem como a sua posição na(s) via(s) metabólica(s) em
que está envolvida. O KEGG utiliza o número de EC (Enzyme Comission) para a
pesquisa. Este pode ser determinado no SRS. O EC atribui a cada enzima o nome
recomendado e um número que permita que a enzima seja identificada. As seis
classes de enzimas existentes no EC são: oxidoredutases (EC1), transferases
(EC2), hidrolases (EC3), liases (EC4), isomerases (EC5), ligases (EC6).
Exercícios
1. Determine no SRS, se possível, o EC para uma enzima que pretenda estudar.
2. No KEGG, verifique quais as vias metabólicas em que a proteína está envolvida.
Para isso, clique em “search objects in a pathway”.
Vão-lhe aparecer as diversas vias metabólicas em que essa enzima participa.
Indique quais são. Clique numa delas. Vai-lhe aparecer o mapa metabólico. Siga o
“link” que vem na enzima: a proteína que está a pesquisar vem a vermelho. Retire a
informação que lhe é dada sobre a enzima a pesquisar.
3. Existe alguma doença associada a uma deficiência nesta proteína? Siga o “link”
que vem no OMIM.
BLOCO 4
Estudo de uma Sequência Proteica - Pesquisa sobre a localização subcelular
de uma proteína
Um bom teste ao nível de conhecimentos adquiridos numa área de
estudo é a capacidade de fazer previsões quantitativas. Para proteínas de
membrana isto significa previsões da topologia e estrutura a partir da
sequência amino-acídica. O prémio Nobel da Fisiologia ou Medicina de
1999 foi atribuído a Gunter Blobel pela descoberta de sinais intrínsecos nas
proteínas que governam o seu transporte e localização na célula. Pela
pesquisa e identificação destes locais nas sequências de aminoácidos,
determinados programas possibilitam-nos a previsão da localização
subcelular proteica bem como da topologia membranar das proteínas de
membrana. O servidor EXPASY apresenta uma série de ferramentas para
análise proteómica, que poderá utilizar neste exercício.
O ExPASy ou Expert Protein Analysis System, é um servidor do
Swiss Institute of Bioinformatics que permite a análise de proteínas, desde
a análise da estrutura e função, à análise proteómica com recurso a
electroforeses bidimensionais de proteínas. Este servidor recorre a
diversas bases de dados, nomeadamente:
- SWISS-PROT e TrEMBL (sequências proteicas),
- PROSITE (famílias de proteínas e domínios),
-
SWISS-2DPAGE
(análise
de
proteínas
por
electroforese
bidimensional),
- SWISS-3DIMAGE-3D (imagem de proteínas a 3D e de outras
moléculas),
- ENZYME (nomenclatura de enzimas) e ligações para muitas outras
bases de dados.
Podemos ainda encontrar neste servidor software e ferramentas
para análise de sequências de DNA (tradução para proteína, busca de
similaridades e alinhamentos,…) e de proteínas (tradução reversa para
DNA, busca de similaridades e alinhamentos, análise da estrutura primária
e previsão da estrutura secundária e terciária, detecção de domínios
transmembranares. O servidor inclui ainda serviços tutoriais e links para
diferente domínios da Bioquímica e da Biologia Molecular.
Exercícios
1 - Utilize o programa Psort para determinar a localização subcelular da
proteína do exercício SRS. Utilize o PSORT II prediction para sequências
de animais ou leveduras e o PSORT prediction para sequências de plantas
ou bactérias. Que informação fornece o programa?
2 - Utilize os servidores seguintes para prever a topologia membranar da
proteína: TMHMM e SOSUI. Quantas hélices transmembranares são
previstas por cada servidor? Será uma proteína de membrana? Os
resultados são consistentes com os obtidos no exercício anterior?
3 – Determine o ponto isoeléctrico, o peso molecular, o número de
aminoácidos e o tempo de semi-vida da proteína que se encontra a
estudar. Utilize o programa ProtParam.
4. Determine a estrutura terciária da proteína utilizando o programa Protein
DataBank (PDB: http://www.rcsb.org/pdb) e clique em search. Na nova
página que lhe aparece clique em sequence. Visualizar e analisar a proteína,
quanto à sua estrutura terciária, com os programas Jmol Viewer disponível neste
site.
Ex. Hexocinase II de levedura
BLOCO 5
Estudo de doenças genéticas
Como foi referido, a OMIM é uma base de dados de genes envolvidos em
deficiências genéticas. Neste exercício vamos utilizar esta base de dados para obter
informações sobre doenças relacionadas com a YFP.
Exercícios
1 – Que gene humano está relacionado com essa proteína? Em que
cromossoma está localizado? Que outra informação relevante encontra.
BLOCO 6
Pesquisa bibliográfica
Em qualquer projecto científico é necessária uma actualização dos
conhecimentos na área em estudo, o que pode ser efectuado através de uma
pesquisa bibliográfica cuidada. O desenvolvimento de bibliotecas digitais tem sido de
grande utilidade para a comunidade científica, para essa pesquisa de referências
literárias. A PubMed, como referido, é a base de dados de bibliografia mais utilizada
para esse fim. A pesquisa de artigos científicos na PubMed pode ser efectuada
através do autor, palavra-chave, revista da publicação, ano de publicação, etc, ou
ainda através de uma combinação destes items.
Exercício
1 – Encontre os 5 artigos mais recentes referentes à proteína que se
encontra a estudar. Indique os autores, título do artigo, ano de publicação,
revista, nº da revista e das páginas referentes ao artigo.
BLOCO 7
Análise de uma sequência de DNA
Para este bloco de exercícios irá utilizar a sequência de nucleótidos que guardou
no primeiro exercício, referente à proteína que se encontra a estudar.
1.
Determine
o
mapa
de
restrição
do
DNA
no
programa
WebCutter
(http://rna.lundberg.gu.se/cutter2). Encontra enzimas de locais de corte único?
Identifique-as.
2. Utilize no servidor EXPASY, o programa Translate para efectuar in silico a
tradução da sequência nucleotídica. Vai verificar que existem 6 fases de
leitura. Qual o quadro de leitura mais adequado? Utilize o programa
Reverse Translate para fazer o inverso (determinar a sequência
nucleotídica a partir da sequência proteica). Explique os resultados
obtidos.
3. Tente identificar possíveis regiões codificantes (Regiões entre o codão
que codifica para a 1ª Met e o codão STOP) com o seguinte servidor:
http://www.ncbi.nlm.nih.gov/gorf/gorf.html.
Informação adicional
Muitas das pesquisas actuais em ciências biomédicas baseiam-se na análise
da expressão genética. Hoje em dia é possível fazer essa análise de expressão de
uma forma global, em que numa única experiência se consegue comparar a
expressão de todo o genoma em situações distintas de estudo. Uma das formas de
fazer essa análise global é recorrendo ao uso dos microarrays ou chips de DNA, que
quantificam os níveis relativos da abundância do RNAm em diferentes amostras
(figura 1). Esses estudos podem compreender a compilação dos dados de
expressão de células afectadas por diferentes doenças, como por exemplo cancro e
arteriosclerose. A expressão global destas células é comparada com os níveis de
expressão em condições normais, tentando desta forma identificar genes que sejam
diferencialmente expressos nestas doenças. Esta informação pode servir de base
para a explicação das causas da doença e fornecer pistas para uma possível cura.
Pode dar indicações dos genes sobre os quais se pode actuar de modo a
desenvolver compostos farmacológicos que actuem nessas doenças. Uma vez
sintetizados esses compostos, as experiências de microarrays podem ainda dar
informações sobre a sua possível toxicidade. A bioinformática é para esta análise
essencial, de modo a poder fazer o armazenamento e processamento de um tão
grande número de dados. O servidor de Stanford Genomic Resources compila os
dados referentes de várias experiências de microarrays realizadas, podendo-se
nesse URL (http://genome-www.stanford.edu) pesquisar os padrões de expressão
não só de genes humanos, como também de leveduras e plantas, em diferentes
condições testadas.
Figura 1 – Exemplo de uma experiência de microarrays. Um microarray de cDNA
contendo 19,200 ESTs (sequências expressas) foi utilizado para identificar genes
envolvidos em metástases de tumores do cólon. Os genes sobre-expressos em
fenótipos altamente metastizantes aparecem a vermelho (+ escuros) e os que são
sub-expressos
a
verde
www.tigr.org/tdb/microarray/images.shtml
(+claros).
Retirado
de
ENDEREÇOS URL UTILIZADOS
SRS
http://srs.ebi.ac.uk
BLAST
http://www.ncbi.nlm.nih.gov/BLAST
KEGG
http://www.genome.ad.jp/kegg/kegg2.html
NCBI
http://www.ncbi.nlm.nih.gov
EBI
http://www.ebi.ac.uk
EMBL
http://www.embl.org
EMBL nucleotide database
http://www.ebi.ac.uk/embl/index.html
Expasy
http://expasy.org
Psort
http://psort.nibb.ac.jp
TMHMM
http://genome.cbs.dtu.dk/services/TMHMM
DAS
http://www.sbc.su.se/~miklos/DAS
Stanford Genomic Resources
http://genome-www.stanford.edu
PubMed
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed
OMIM
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
WebCutter
http://rna.lundberg.gu.se/cutter2/