View
Transcrição
View
Instituto Superior de Ciências da Saúde-Norte Curso de Bioquímica 2ºAno Projecto Tutorial 2006-2007 BIOINFORMÁTICA Bioinformática PROJECTO TUTORIAL YFP – YOUR FAVORITE PROTEIN Introdução A bioinformática é um campo em franca expansão, e o número e variedade de métodos computacionais utilizados para análise de sequências de DNA e proteínas cresce de dia para dia. A sequência do primeiro genoma completo (Haemophilus influenzae) data de 1995. A sequenciação completa do primeiro genoma eucariota (Saccharomyces cerevisae), resultante de uma colaboração internacional, terminou em 1996. Este estudo serviu de pioneiro para a sequenciação do genoma humano, a qual foi levada a cabo pela Celera Genomics, uma empresa privada de biotecnologia, e por um consórcio internacional de laboratórios sem fins lucrativos, projecto este terminado em 2000. A bioinformática surge assim como um novo campo de pesquisa essencial em áreas como bioquímica, biologia molecular, sistemática, biologia estrutural, biologia do desenvolvimento...O aumento exponencial de informação contida nas bases de dados e o desenvolvimento contínuo de novas ferramentas informáticas para a análise dessa informação, representa hoje em dia um novo desafio para a Bioquímica/Biologia Molecular. Torna-se assim necessário o acesso às bases de dados existentes com informação actualizada. As bases de dados mais conhecidas e actualizadas são: i) O GenBank, EMBL (European Molecular Biology Laboratory Database), DDBJ (databank of Japan) e GSDB (Genome Sequence Database) para sequências de DNA e RNA. ii) SWISS-PROT e PIR (Protein Identification Resource) para sequências proteicas. iii) PDB para estruturas macromoleculares. O GenBank pode ser acedido através do endereço http://www.ncbi.nlm.nih.gov/genbank. No site do NCBI encontram-se depositadas diversas bases de dados de importância extremamente relevante para a comunidade científica, nomeadamente: i) bibliografia na área das ciências naturais e das ciências biomédicas sob a forma de publicações periódicas (PubMed), ii) sequências nucleotídicas e proteicas, iii) estruturas proteicas, iv) genes, proteínas, bibliografia e informação relativa a dornças genéticas (OMIM), v) livros de texto na área das ciências biomédicas, vi) genomas completos, entre muita outra informação. Como diz no site: “Established in 1988 as a national resource for molecular biology information, NCBI creates public databases, conducts research in computational biology, develops software tools for analyzing genome data, and disseminates biomedical information - all for the better understanding of molecular processes affecting human health and disease…” Entre as diversas bases de dados disponíveis no NCBI, existe uma base de dados muito importante ao nível da saúde, a OMIM (Online Mendelian Inheritance in Man). A OMIM é um catálogo de genes humanos e doenças genéticas, que fornece informação histórica, aspectos clínicos, mapa genético, referências bibliográficas, sequências, etc, relacionados com esse gene/doença genética. Uma outra aplicação muito importante da bioinformática consiste na pesquisa de bibliografia, essencial para qualquer trabalho de investigação. A PubMed é das bases de dados bibliográficas mais completa e também a mais utilizada pela comunidade científica. No trabalho do projecto tutorial proposto irão ser utilizadas ferramentas disponíveis na Internet para pesquisar genes/proteínas já conhecidos e cuja informação está disponível nas bases de dados públicas, assim como procurar artigos científicos na base de dados PubMed, relacionadas com essas pesquisas efectuadas. BLOCO 1 Extracção de informação a partir das sequências Procura nas bases de dados: Como foi referido a EMBL (versão europeia) e o GenBank (versão americana) são as duas maiores bases de dados nucleotídicas. Estas duas bases de dados estão em colaboração e sincronizadas, pelo que contêm a mesma informação e são actualizadas diariamente. Na pesquisa de proteínas, a base de dados mais utilizada é a SWISS-PROT da Suíça. Alguns servidores, como o SRS (Sequence Retrieval System), interrelacionam a informação contida numa vasta quantidade de bases de dados, entre as quais: GenBank – Sequências nucleotídicas, National Center for Biotechnology Information (NCBI) – EUA. EMBL - Sequências nucleotídicas, European Molecular Biology Laboratory, Cambridge. PIR – Sequências proteicas. Protein Identification Resource, EUA. SWISS-PROT – Sequências Proteicas. Suíça. NRL-3D – Previsão da estrutura em proteínas. PROSITE – Motivos de proteínas. BLOCKS – Motivos de proteínas PDB – Estruturas macromoleculares. Exercício: Neste exercício vamos usar o SRS para a pesquisa de algumas sequências. O SRS permite-nos encontrar, se depositados na base de dados, um gene ou proteína em estudo, a sua função, a bibliografia relacionada, etc, a partir de links apropriados. Essa pesquisa faz-se por exemplo, a partir de um nº de acesso (número através do qual se pode aceder a uma determinada sequência depositada na base de dados), a partir de uma palavra-chave, organismo, etc. Estes critérios podem ser combinados. Vá para a página de web do SRS através da morada: http://srs.ebi.ac.uk e vá para a library page. Aí escolha a base de dados SWISS-PROT Depois de escolhida a base de dados proteica, clique em “query form” no topo da página. Aí irá introduzir os seus critérios de pesquisa, nomeadamente o nome da proteína que pretende estudar e o organismo, tal como pode ver no seguinte exemplo: 1. Apresente os resultados obtidos, relativos à proteína que se encontra a estudar. Retire a sequência proteica correspondente. 2. Identifique o gene que codifica para a proteína escolhida. Identifique também o número de acesso da SWISS-PROT e o nome de entrada da proteína. O código Swissprot para proteínas é constituído por letras ou por letras e números, respeitantes ao nome da proteína, seguido de traço (underscore) e de uma abreviatura do organismo. Ex: Hexocinase em levedura HXKA_YEAST. 3. Identifique a função dessa proteína e, se possível, a sua localização na célula. Indique também, se possível, proteínas que interactuam com a proteína escolhida. 4. Retire a sequência nucleotídica correspondente ao RNAm. Use a base de dados EMBL. BLOCO 2 Procura de homologias A disponibilidade das bases de dados referidas veio também permitir a procura de semelhanças entre sequências desconhecidas e as sequências existentes nessas bases de dados. A identificação de sequências homólogas ao gene/proteína em estudo pode dar pistas valiosas na identificação da função. Em geral, a existência de níveis de semelhança significativos corresponde, com um elevado nível de confiança, a uma proteína homóloga. No entanto, o inverso não é necessariamente verdade, a inexistência de similaridade não é garantia de não homologia. Para uma pesquisa de homologia, é aconselhável a procura de semelhanças em bases de dados de proteínas em primeiro lugar, dado que há uma maior divergência a nível nucleotídico. Os programas mais utilizados para a pesquisa de sequências são o BLAST (Basic Local Alignement Search Tool) e o FASTA (Fast Homology Search All Sequences). Ambos os programas usam algoritmos que calculam o nível de semelhança local e a possibilidade dessa semelhança ter ocorrido ao acaso. O pacote de programas BLAST está acessível no NCBI (http://www.ncbi.nlm.nih.gov/BLAST) e compreende os seguintes programas: BLASTP – Compara uma sequência proteica com sequências das proteínas existentes nas bases de dados. BLASTN - Compara uma sequência nucleotídica com sequências nucleotídicas existentes nas bases de dados. BLASTX - Compara os seis quadros de leitura correspondentes à tradução de uma sequência nucleotídica com sequências das proteínas existentes nas bases de dados. TBLASTN – Compara uma sequência proteica com sequências nucleotídicas existentes nas bases de dados, traduzidas nos seis quadros de leitura. TBLASTX - Compara os seis quadros de leitura correspondentes à tradução de uma sequência nucleotídica com os seis quadros de leitura de sequências nucleotídicas existentes nas bases de dados. Quando se faz uma pesquisa no BLAST, tem que se ter em atenção se o programa escolhido está de acordo com o tipo de procura que se quer fazer. Quando aparece o resultado as melhores homologias aparecem em primeiro lugar. Correspondentes a essas homologias aparecem também um “score value” e um “Evalue”. O “score value” mostra o nível de semelhança entre as duas sequências (deve ser alto) e o “E-value” dá-nos a probabilidade desse alinhamento ter sido feito ao acaso (deve ser baixo). Exercício: Faça uma pesquisa no BLASTX com a sequência nucleotídica que obteve no exercício anterior. Identifique as cinco proteínas que apresentam maior homologia, os organismos a que pertencem e a sua função. Faça uma pesquisa no BLASTP com a sequência proteica que obteve no exercício anterior. Identifique as cinco proteínas que apresentam maior homologia, e verifique se correspondem às anteriormente identificadas. Identifique a proteína que lhe aparece com o E-Value mais alto possível. Compare a função dessa proteína com as proteínas previamente identificadas, assim como com a sua YFP (your favorite protein). BLOCO 3 Vias metabólicas O KEGG (Kyoto Encyclopedia of Genes and Genomes): http://www.genome.ad.jp/kegg/kegg2.html é um servidor japonês utilizado na pesquisa de vias metabólicas. A função ou funções de uma proteína podem ser determinadas neste servidor, bem como a sua posição na(s) via(s) metabólica(s) em que está envolvida. O KEGG utiliza o número de EC (Enzyme Comission) para a pesquisa. Este pode ser determinado no SRS. O EC atribui a cada enzima o nome recomendado e um número que permita que a enzima seja identificada. As seis classes de enzimas existentes no EC são: oxidoredutases (EC1), transferases (EC2), hidrolases (EC3), liases (EC4), isomerases (EC5), ligases (EC6). Exercícios 1. Determine no SRS, se possível, o EC para uma enzima que pretenda estudar. 2. No KEGG, verifique quais as vias metabólicas em que a proteína está envolvida. Para isso, clique em “search objects in a pathway”. Vão-lhe aparecer as diversas vias metabólicas em que essa enzima participa. Indique quais são. Clique numa delas. Vai-lhe aparecer o mapa metabólico. Siga o “link” que vem na enzima: a proteína que está a pesquisar vem a vermelho. Retire a informação que lhe é dada sobre a enzima a pesquisar. 3. Existe alguma doença associada a uma deficiência nesta proteína? Siga o “link” que vem no OMIM. BLOCO 4 Estudo de uma Sequência Proteica - Pesquisa sobre a localização subcelular de uma proteína Um bom teste ao nível de conhecimentos adquiridos numa área de estudo é a capacidade de fazer previsões quantitativas. Para proteínas de membrana isto significa previsões da topologia e estrutura a partir da sequência amino-acídica. O prémio Nobel da Fisiologia ou Medicina de 1999 foi atribuído a Gunter Blobel pela descoberta de sinais intrínsecos nas proteínas que governam o seu transporte e localização na célula. Pela pesquisa e identificação destes locais nas sequências de aminoácidos, determinados programas possibilitam-nos a previsão da localização subcelular proteica bem como da topologia membranar das proteínas de membrana. O servidor EXPASY apresenta uma série de ferramentas para análise proteómica, que poderá utilizar neste exercício. O ExPASy ou Expert Protein Analysis System, é um servidor do Swiss Institute of Bioinformatics que permite a análise de proteínas, desde a análise da estrutura e função, à análise proteómica com recurso a electroforeses bidimensionais de proteínas. Este servidor recorre a diversas bases de dados, nomeadamente: - SWISS-PROT e TrEMBL (sequências proteicas), - PROSITE (famílias de proteínas e domínios), - SWISS-2DPAGE (análise de proteínas por electroforese bidimensional), - SWISS-3DIMAGE-3D (imagem de proteínas a 3D e de outras moléculas), - ENZYME (nomenclatura de enzimas) e ligações para muitas outras bases de dados. Podemos ainda encontrar neste servidor software e ferramentas para análise de sequências de DNA (tradução para proteína, busca de similaridades e alinhamentos,…) e de proteínas (tradução reversa para DNA, busca de similaridades e alinhamentos, análise da estrutura primária e previsão da estrutura secundária e terciária, detecção de domínios transmembranares. O servidor inclui ainda serviços tutoriais e links para diferente domínios da Bioquímica e da Biologia Molecular. Exercícios 1 - Utilize o programa Psort para determinar a localização subcelular da proteína do exercício SRS. Utilize o PSORT II prediction para sequências de animais ou leveduras e o PSORT prediction para sequências de plantas ou bactérias. Que informação fornece o programa? 2 - Utilize os servidores seguintes para prever a topologia membranar da proteína: TMHMM e SOSUI. Quantas hélices transmembranares são previstas por cada servidor? Será uma proteína de membrana? Os resultados são consistentes com os obtidos no exercício anterior? 3 – Determine o ponto isoeléctrico, o peso molecular, o número de aminoácidos e o tempo de semi-vida da proteína que se encontra a estudar. Utilize o programa ProtParam. 4. Determine a estrutura terciária da proteína utilizando o programa Protein DataBank (PDB: http://www.rcsb.org/pdb) e clique em search. Na nova página que lhe aparece clique em sequence. Visualizar e analisar a proteína, quanto à sua estrutura terciária, com os programas Jmol Viewer disponível neste site. Ex. Hexocinase II de levedura BLOCO 5 Estudo de doenças genéticas Como foi referido, a OMIM é uma base de dados de genes envolvidos em deficiências genéticas. Neste exercício vamos utilizar esta base de dados para obter informações sobre doenças relacionadas com a YFP. Exercícios 1 – Que gene humano está relacionado com essa proteína? Em que cromossoma está localizado? Que outra informação relevante encontra. BLOCO 6 Pesquisa bibliográfica Em qualquer projecto científico é necessária uma actualização dos conhecimentos na área em estudo, o que pode ser efectuado através de uma pesquisa bibliográfica cuidada. O desenvolvimento de bibliotecas digitais tem sido de grande utilidade para a comunidade científica, para essa pesquisa de referências literárias. A PubMed, como referido, é a base de dados de bibliografia mais utilizada para esse fim. A pesquisa de artigos científicos na PubMed pode ser efectuada através do autor, palavra-chave, revista da publicação, ano de publicação, etc, ou ainda através de uma combinação destes items. Exercício 1 – Encontre os 5 artigos mais recentes referentes à proteína que se encontra a estudar. Indique os autores, título do artigo, ano de publicação, revista, nº da revista e das páginas referentes ao artigo. BLOCO 7 Análise de uma sequência de DNA Para este bloco de exercícios irá utilizar a sequência de nucleótidos que guardou no primeiro exercício, referente à proteína que se encontra a estudar. 1. Determine o mapa de restrição do DNA no programa WebCutter (http://rna.lundberg.gu.se/cutter2). Encontra enzimas de locais de corte único? Identifique-as. 2. Utilize no servidor EXPASY, o programa Translate para efectuar in silico a tradução da sequência nucleotídica. Vai verificar que existem 6 fases de leitura. Qual o quadro de leitura mais adequado? Utilize o programa Reverse Translate para fazer o inverso (determinar a sequência nucleotídica a partir da sequência proteica). Explique os resultados obtidos. 3. Tente identificar possíveis regiões codificantes (Regiões entre o codão que codifica para a 1ª Met e o codão STOP) com o seguinte servidor: http://www.ncbi.nlm.nih.gov/gorf/gorf.html. Informação adicional Muitas das pesquisas actuais em ciências biomédicas baseiam-se na análise da expressão genética. Hoje em dia é possível fazer essa análise de expressão de uma forma global, em que numa única experiência se consegue comparar a expressão de todo o genoma em situações distintas de estudo. Uma das formas de fazer essa análise global é recorrendo ao uso dos microarrays ou chips de DNA, que quantificam os níveis relativos da abundância do RNAm em diferentes amostras (figura 1). Esses estudos podem compreender a compilação dos dados de expressão de células afectadas por diferentes doenças, como por exemplo cancro e arteriosclerose. A expressão global destas células é comparada com os níveis de expressão em condições normais, tentando desta forma identificar genes que sejam diferencialmente expressos nestas doenças. Esta informação pode servir de base para a explicação das causas da doença e fornecer pistas para uma possível cura. Pode dar indicações dos genes sobre os quais se pode actuar de modo a desenvolver compostos farmacológicos que actuem nessas doenças. Uma vez sintetizados esses compostos, as experiências de microarrays podem ainda dar informações sobre a sua possível toxicidade. A bioinformática é para esta análise essencial, de modo a poder fazer o armazenamento e processamento de um tão grande número de dados. O servidor de Stanford Genomic Resources compila os dados referentes de várias experiências de microarrays realizadas, podendo-se nesse URL (http://genome-www.stanford.edu) pesquisar os padrões de expressão não só de genes humanos, como também de leveduras e plantas, em diferentes condições testadas. Figura 1 – Exemplo de uma experiência de microarrays. Um microarray de cDNA contendo 19,200 ESTs (sequências expressas) foi utilizado para identificar genes envolvidos em metástases de tumores do cólon. Os genes sobre-expressos em fenótipos altamente metastizantes aparecem a vermelho (+ escuros) e os que são sub-expressos a verde www.tigr.org/tdb/microarray/images.shtml (+claros). Retirado de ENDEREÇOS URL UTILIZADOS SRS http://srs.ebi.ac.uk BLAST http://www.ncbi.nlm.nih.gov/BLAST KEGG http://www.genome.ad.jp/kegg/kegg2.html NCBI http://www.ncbi.nlm.nih.gov EBI http://www.ebi.ac.uk EMBL http://www.embl.org EMBL nucleotide database http://www.ebi.ac.uk/embl/index.html Expasy http://expasy.org Psort http://psort.nibb.ac.jp TMHMM http://genome.cbs.dtu.dk/services/TMHMM DAS http://www.sbc.su.se/~miklos/DAS Stanford Genomic Resources http://genome-www.stanford.edu PubMed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed OMIM http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM WebCutter http://rna.lundberg.gu.se/cutter2/