Análise Comparativa de Genomas Procarióticos
Transcrição
Análise Comparativa de Genomas Procarióticos
Pesquisa Análise Comparativa de Genomas Procarióticos Pesquisa POR QUE, COMO E O QUE COMPARAR? Ilustrações cedidas pelos autores iniciativa pioneira do Departamento de Energia NorteAmericano (DOE) de obter uma seqüência genômica humana de referência que pudesse atender melhor os seus propósitos de compreender os riscos potenciais para a saúde e para o meio ambiente decorrentes da produção e do uso de novas fontes de energia e novas tecnologias, culminou no lançamento do Projeto Genoma Humano, em 1990; mais tarde, os recursos tecnológicos gerados por este projeto estimularam o desenvolvimento de muitos outros projetos genoma, tanto por setores públicos quanto por setores privados (HGP 2001) (Figura 1). Desde a década de 1990, portanto, os esforços internacionais no sentido de obter seqüências genômicas completas levaram à determinação de todo o código genético de mais de 700 organismos, entre estes, procariotos, leveduras, protozoários, plantas, invertebrados e vertebrados, incluindo o próprio Homo sapiens; atualmente, aproximadamente 3.000 outros projetos genoma estão em andamento, representando interesses médicos, comerciais, ambientais e industriais, ou contemplando organismosmodelos importantes para o desenvol- Marcos Catanho, MSc Doutorando em Biologia Celular e Molecular Laboratório de Genômica Funcional e Bioinformática Instituto Oswaldo Cruz - Fiocruz Rio de Janeiro – RJ [email protected] Wim Degrave, PhD Pesquisador Titular Laboratório de Genômica Funcional e Bioinformática Instituto Oswaldo Cruz - Fiocruz Rio de Janeiro - RJ [email protected] Antonio Basílio de Miranda, PhD Pesquisador Associado Laboratório de Genômica Funcional e Bioinformática Instituto Oswaldo Cruz - Fiocruz Rio de Janeiro – RJ [email protected] http://www.dbbm.fiocruz.br/labwim/ bioinfoteam/ 20 Biotecnologia Ciência & Desenvolvimento - nº 37 Figura 1. Evolução do número (cumulativo) de genomas eucarióticos e procarióticos completamente seqüenciados e depositados em bancos de dados públicos desde 1995 até 2007 (gráfico de barras) e a distribuição dos projetos genoma segundo suas áreas de interesse (gráfico de pizza): biomedicina, evolução, meio ambiente, biotecnologia e agricultura. Observe que há uma nítida preferência pelo seqüenciamento de genomas bacterianos (de menor tamanho em relação aos genomas eucarióticos e, portanto, mais fáceis de serem analisados) e genomas com importância biomédica (42%) ou biotecnológica (28%). Fonte: Genomes Online Database (GOLD 2008) vimento de pesquisas científicas (GOLD 2008) (Figura 1). Ao mesmo tempo, a obtenção e análise de seqüências genômicas completas de inúmeros organismos (genômica) (Carraro & Kitajima 2002), juntamente com dados de expressão gênica e protéica de células, tecidos e órgãos inteiros, gerados por outras tecnologias de alto desempenho como a transcriptômica (Passos et al 2000) e a proteômica (Sousa et al 1999; Ciero & Bellato 2002), aliados ao vertiginoso avanço da computação e desenvolvimento de algoritmos mais eficientes, por sua vez resultantes do surgimento e consolidação de ciências como a Computação, a Bioinformática e a Biologia Computacional nas últimas décadas (Binneck 2004; Prosdocimi et al 2002), tem permitido à comunidade científica o uso de abordagens holísticas e ao mesmo tempo inovadoras no estudo da estrutura, organização e evolução de genomas (Abby & Daubin 2007), no estudo da expressão diferencial de genes e proteínas (Patterson & Aebersold 2003), na análise da estrutura tridimensional de proteínas (Ginalski 2006), no processo de reconstrução metabólica e na predição e classificação funcional de genes (Galperin & Koonin 2000; Stein 2001; Gabaldon & Huynen 2004; Francke et al 2005; Lee et al 2007; Skrabanek et al 2008). prosperar em virtualmente todos os ecossistemas terrestres (refletida na incrível diversidade morfológica, fisiológica e metabólica destes microrganismos), mantendo populações de tamanho muito variado (desde muito pequeno até incrivelmente grande), e a capacidade de adquirirem e usarem freqüentemente material genético de organismos muito distantes (Coenye et al 2005; Binnewies et al 2006; Abby & Daubin 2007), oferecendo, por tudo isto, um campo fértil para o desenvolvimento de pesquisas em diferentes áreas como a microbiologia, a genética, a bioquímica, a evolução e a taxonomia destes microrganismos. Por que comparar? Seqüências genômicas completas constituem uma fonte de dados singular porque, em princípio, elas representam tudo o que é necessário para criar um organismo, juntamente com fatores epigenéticos e sua interação com os mesmos (Figura 2). Mas o que fazer com toda esta informação? Acredita-se que o genoma de um único organismo, visto isoladamente, fora de seu contexto evolutivo, não é capaz de nos revelar muito sobre si mesmo e que para tanto os genomas de diferentes espécies ou cepas devem ser estudados comparati- Dentre estas abordagens destaca-se a análise comparativa de genomas (também conhecida como genômica comparativa ou comparação de genomas), que consiste na análise e comparação do material genético de diferentes espécies ou cepas, com o propósito de estudar a estrutura, organização e evolução dos genomas (e das espécies correspondentes) e também as funções dos genes e regiões não codificantes nestes genomas. Nesta revisão, apresentamos um resumo das diferentes abordagens utilizadas na análise comparativa de genomas, ressaltando, através de exemplos, sua importância e algumas contribuições para o desenvolvimento da Biologia. Enfocamos nossa revisão em um grupo particular de organismos unicelulares: os procariotos. Pertencentes aos reinos Archaea e Bacteria, estes seres representam quase a totalidade dos genomas seqüenciados até o momento (Figura 1) e dos projetos genoma em andamento (GOLD 2008); além disso, estas espécies reúnem características fascinantes, tais como uma enorme (e insuspeitada) diversidade genética (até mesmo entre espécies e populações), a capacidade de sobreviver e Figura 2. Representação esquemática do processamento da informação genética e epigenética (adaptado de Strohman 1997) vamente (Clark 1999). De fato, análises comparativas entre as seqüências genômicas de diferentes microrganismos têm contribuído enormemente para a elucidação de aspectos fundamentais da genética, da bioquímica e da evolução de inúmeras espécies (Galperin & Koonin 1999; Kondrashov 1999; Fraser et al 2000; Galperin & Koonin 2000; Koonin et al 2000; Wei et al 2002; Huynen et al 2005; Abby & Daubin 2007). Por exemplo, desde o seqüenciamento dos primeiros genomas bacterianos em 1995, análises comparativas de genomas procarióticos têm nos revelado cada vez mais a natureza complexa da estrutura e organização destes genomas e a enorme diversidade genética entre estes organismos, muito acima daquela esperada, mesmo entre isolados de uma mesma espécie, levando a questionamentos importantes sobre os mecanismos pelos quais estes microrganismos evoluem e como devem ser classificados taxonomicamente (Coenye et al 2005; Binnewies et al 2006; Abby & Daubin 2007). As forças que moldam a estrutura, composição e organização dos genomas destes microrganismos – como, por exemplo, a eficiência nos processos de replicação, transcrição e regulação da expressão gênica - e aquelas responsáveis pela geração de variabilidade e da capacidade de adaptação destas espécies aos mais diversos nichos ecológicos em nosso planeta – tais como eventos de duplicação gênica, transferência lateral de genes, desfuncionalização de genes (formação de pseudogenes), eliminação (deleção) de genes e rearranjos cromossômicos , têm sido pouco a pouco desvendadas e intensamente estudadas (Ochman & Davalos 2006; Abby & Daubin 2007). A reconstrução da história evolutiva dos seres vivos - baseada em métodos matemáticos para inferir o passado a partir de características presentes nas espécies contemporâneas - também tem se beneficiado com o seqüenciamento e a análise comparativa de um número cada vez maior de genomas, envolvendo os três domínios da vida - Archaea, Bacteria e Eukarya. Por exemplo, novas abordagens para análises filogenéticas, baseadas na comparação e alinhamento de seqüências primárias de múltiplos genes de inúmeras espécies ou, ainda, na comparação de características associadas aos genomas inteiros de dezenas ou centenas de organismos, como o repertório completo de genes ou a ordem (localização) dos mesmos nos genomas, têm sido desenvolvidas (Delsuc et al 2005; Dutilh et al 2007), assim como novos métodos para calcular a distância entre os genomas Biotecnologia Ciência & Desenvolvimento - nº 37 21 de distintas espécies têm sido propostos (Otu & Sayood 2003; Henz et al 2005; Kunin et al 2005a e referências contidas neste trabalho; Kunin et al 2005b; Tekaia et al 2005), resultando em melhorias na resolução da árvore da vida e na superação de problemas antigos e comuns aos métodos tradicionais de análise filogenética, como por exemplo, a escolha de marcadores evolutivos apropriados, a saturação de determinadas posições nos códons e desvios nas análises provocados por estes fatores (Delsuc et al 2005). Outro exemplo importante refere-se ao estudo da variabilidade metabólica e da conservação de funções enzimáticas nas diversas vias bioquímicas entre os organismos. Comparações entre as vias bioquímicas preditas a partir da análise de genomas completamente seqüenciados têm revelado a existência de vias incompletas ou mesmo ausentes em várias espécies analisadas (Cordwell 1999; Galperin & Koonin 1999; Huynen et al 1999; Morett et al 2003; Peregrin-Alvarez et al 2003). Em algumas situações, isto poderia representar o resultado de adaptações a diferentes nichos ecológicos, como, por exemplo, em bactérias estritamente simbiontes, as quais codificam um número menor de enzimas e vias metabólicas em comparação com seus parentes de vida livre, uma vez que o hospedeiro oferece um ambiente constante e rico em metabólitos (nutrientes e compostos químicos intermediários) essenciais ao desenvolvimento destes microrganismos (Galperin & Koonin 1999; Huynen et al 1999; Ochman & Moran 2001; Moran 2002; Moya et al 2008). Em muitos casos, entretanto, as enzimas desaparecidas foram substituídas por proteínas funcionalmente equivalentes, ou seja, capazes de catalisar as mesmas reações, mas exibindo virtualmente nenhuma similaridade ao nível de suas seqüências primárias (de aminoácidos) e tampouco ao nível de suas estruturas terciárias (tridimensionais) (Galperin et al 1998; Huynen et al 1999; Morett et al 2003). Estas formas alternativas, conhecidas como proteínas análogas (Fitch 1970, 2000) (Figura 3), originam-se a partir de processos evolutivos independentes, convergindo para uma mesma função biológica (neste caso para uma mesma atividade enzimática), e podem estar associadas a diferentes linhagens filogenéticas e/ou possuir distintos mecanismos de catálise (Galperin et al 1998). Alguns trabalhos sugerem que a fração de atividades enzimáticas nas quais ocorreram múltiplos eventos de origem independente pode ser substancial (Morett et al 2003), somando-se a outras evidências, também oriundas de análises comparativas de genomas, que apontam a importância (muito maior do que se supunha) do papel desempenhado pelo que se pode chamar de homologia funcional na evolução dos seres vivos; um bom exemplo é a indicação de que o número total de genes homólogos compartilhados entre as espécies atualmente conhecidas (genes Figura 3. Homologia versus analogia. O esquema representa os processos evolutivos que levam à formação de genes homólogos (genes A1, A2, B1 e B2 nas espécies X1 e X2; genes C1 e C2 nas espécies Y1 e Y2) e análogos (B2 e C1), através da evolução independente de dois genes hipotéticos pertencentes a duas linhagens distintas (adaptado de Jensen 2001). Na linhagem X a evolução do gene ancestral hipotético ocorreu através de dois eventos seqüenciais, resultando na formação de genes divergentes, porém relacionados a um ancestral evolutivo comum (homólogos): primeiro através de uma duplicação gênica (descendência horizontal), gerando os genes homólogos A e B na própria espécie ancestral X0; em seguida, através de um evento de especiação (descendência vertical), que deu origem às espécies X1 e X2 e aos pares de genes homólogos A1 e A2 (descendentes do gene A) e B1 e B2 (descendentes do gene B) nestas espécies. Na linhagem Y, o gene ancestral hipotético pertencente à espécie ancestral Y0 evoluiu através de um único evento de especiação, que originou as espécies Y1 e Y2 e o par de genes homólogos C1 e C2 (descendentes diretos do gene ancestral desta linhagem) nestas espécies. Os pares de genes homólogos A e B (na espécie ancestral X0), assim como os pares A1 e B1 (na espécie X1) e A2 e B2 (na espécie X2) são denominados parálogos, uma vez que o evento responsável pela origem de todos eles, a partir do gene ancestral comum mais próximo entre os mesmos, foi uma duplicação gênica (Fitch 1970, 2000); já os pares de genes A1 e A2 (entre as espécies X1 e X2), A2 e B2 (também entre as espécies X1 e X2) e C1 e C2 (entre as espécies Y1 e Y2) são denominados ortólogos, uma vez que estes pares de genes homólogos foram originados, a partir de seus respectivos genes ancestrais comuns mais próximos, através de um evento de especiação (Fitch 1970, 2000). Os genes B2 e C1, pertencentes às espécies X2 e Y1, respectivamente, são denominados análogos, isto é, genes originados a partir de genes ancestrais não relacionados entre si (pertencentes a linhagens distintas) que, entretanto, convergiram para uma mesma função biológica (Fitch 1970, 2000) 22 Biotecnologia Ciência & Desenvolvimento - nº 37 ubíquos) é inferior a 100, envolvendo principalmente os genes responsáveis pelos processos de tradução (na grande maioria), transcrição e replicação/ reparo do DNA (Koonin 2003). Este número incrivelmente pequeno de genes presumidamente compartilhados entre os diversos organismos sugere que inúmeras funções essenciais (e também não-essenciais) - que obviamente variam de acordo com as condições nas quais uma dada espécie ou população tem de sobreviver (estilo de vida e nicho ecológico) - são desempenhadas por genes que mantêm entre si relações de parentesco distante (parálogos originados por duplicações ancestrais ou que evoluíram muito rapidamente, muitas vezes divergindo ao ponto de não poderem mais ser reconhecidos como tais) ou que não dividem ancestralidade alguma (análogos) (Koonin et al 1996), ou ainda por genes taxonomicamente restritos, isto é, exclusivos de uma espécie, família ou linhagem em particular (genes únicos). De um ponto de vista aplicado, tecnologias de alto desempenho (genômica, transcriptômica e proteômica) possibilitam que pesquisadores, através de análises e mineração criteriosas de dados, aumentem não somente nosso conhecimento sobre a biologia dos seres vivos, mas também sejam capazes de desenvolver novos métodos de diagnóstico, vacinas mais eficazes, novas drogas, novos marcadores prognósticos e uma variedade de aplicações biotecnológicas. No que se refere aos microrganismos patogênicos, por exemplo, e às micobactérias em especial, várias aplicações potenciais da análise comparativa de genomas têm sido reportadas, visando sobretudo à prevenção (através do desenvolvimento de vacinas mais eficazes), o tratamento (pelo desenvolvimento de novas drogas) e o diagnóstico (através da criação de métodos mais rápidos, sensíveis e específicos) da tuberculose e outras doenças causadas por micobactérias. Algumas dessas aplicações incluem: a identificação de genes únicos de uma espécie em particular, a identificação de fatores de virulência e a reconstrução metabólica (Gordon et al 2002); a caracterização de patógenos, a identificação de novos alvos para diagnóstico e para procedimentos terapêuticos (Fitzgerald & Musser 2001); a investigação sobre a origem molecular da patogênese, do espectro de hospedeiros e das diferenças fenotípicas entre isolados clínicos e populações naturais de patógenos (Behr et al 1999; Brosch et al 2001; Cole 2002; Kato-Maeda et al 2001) e a investigação dos fundamentos genéticos da virulên- cia e da resistência a drogas de micobactérias causadoras de tuberculose (Randhawa & Bishai 2002). Como comparar? A análise comparativa de genomas consiste na análise e comparação entre todo ou grande parte do material genético de diferentes espécies ou cepas. Por tratar-se de uma abordagem holística, em larga escala, exige métodos computacionais para sua realização. Apesar de ser uma abordagem relativamente recente, tendo início com o seqüenciamento dos primeiros genomas na década de 1990, suas ferramentas mais importantes têm origem nas técnicas clássicas de análise computacional de seqüências: (i) algoritmos de alinhamento global e local de pares ou de múltiplas seqüências, (ii) métodos de análise filogenética e (iii) as implementações destes métodos e algoritmos (Needleman & Wunsch 1970; Smith & Waterman 1981; Felsenstein 1981, 1989; Lipman & Pearson 1985; Pearson & Lipman 1988; Feng & Doolittle 1987; Altschul et al 1990, 1997; Thompson et al 1994). De fato, ela se beneficia não somente de ferramentas desenvolvidas no passado, mas também da criação de novas ferramentas e do aperfeiçoamento de ferramentas já existentes, ambos estimulados pela imensa, diversificada e complexa quantidade de dados produzida com os projetos de seqüenciamento em larga escala. Sendo os genomas basicamente longas seqüências de DNA, poder-se-ia analisálos alinhando-os como se fossem seqüências comuns, utilizando um dos algoritmos de análise de seqüências citados anteriormente. No entanto, isto só pode ser feito com genomas de espécies ou cepas muito próximas, uma vez que mudanças na organização do genoma (inserções, deleções, inversões, rearranjos, trocas e duplicações) ocorrem com uma taxa muito elevada. Além disto, por tratar-se de seqüências de tamanho extremo, torna-se computacionalmente inviável a análise de mais de um par de genomas de uma só vez, mesmo com o uso de algoritmos e programas eficazes, especialmente desenvolvidos para esta finalidade (Morgenstern et al 1998, 1999, 2002; Jareborg et al 1999; Delcher et al 1999, 2002; Kent & Zahler 2000; Batzoglou et al 2000; Ma et al 2002; Bray et al 2003, 2004; Schwartz et al 2003; Brudno et al 2003a, 2003b; Kurtz et al 2004) (para uma revisão abrangente sobre este assunto, consulte Blanchette 2007). Portanto, na maioria das vezes as análises compara- tivas entre genomas são feitas em um nível de abordagem mais modular, tomando-se as partes que compõem tais seqüências, como por exemplo, o conjunto completo de genes codificados pelas espécies em estudo. Entre os métodos mais comumente empregados nestas análises está a busca por similaridades entre seqüências. A etapa crucial deste tipo de análise é determinar se as seqüências comparadas são ou não homólogas, ou seja, se descendem ou não de uma seqüência ancestral comum, estabelecendo-se equivalência entre as partes comparadas. O resultado obtido permite, entre outras coisas, a predição de função, já que é presumido que seqüências homólogas tendem a ter funções similares e também determinar quais os genes correspondentes (ortólogos) entre pares ou grupos de genomas analisados (Rigden & Mello 2002; Lee et al 2007). Esta tarefa nada trivial é feita comparando-se uma ou mais seqüências de entrada (query sequences), com outras inúmeras seqüências depositadas em um banco de dados (subject sequences), através do alinhamento consecutivo de cada seqüência de entrada com cada seqüência depositada no banco, com a utilização de um algoritmo de alinhamento local (Smith & Waterman 1981; Pearson & Lipman 1988; Altschul et al 1997). Para cada alinhamento, calcula-se o número de pontos obtidos (score), com base em uma matriz de substituição (PAM ou BLOSUM normalmente) e em valores arbitrados de penalidade para a abertura e extensão de espaços nas seqüências alinhadas (gap opening/ extension penalties), e o número de alinhamentos esperados ao acaso com pontuação igual ou superior ao do alinhamento em questão (Evalue), a partir da pontuação normalizada (bitscore) e do tamanho e composição do banco de dados. A homologia é inferida com base nos valores calculados dos diferentes parâmetros do alinhamento, alguns deles já mencionados: pontuação, pontuação normalizada, número de alinhamentos esperados ao acaso com pontuação igual ou superior ao do alinhamento em questão, percentual de identidade, percentual da extensão de cada seqüência no par alinhado que contribui para o alinhamento, diferença de tamanho entre as seqüências alinhadas etc. A existência de domínios - módulos que constituem unidades distintas do ponto de vista evolutivo, funcional e Biotecnologia Ciência & Desenvolvimento - nº 37 23 estrutural - em proteínas é um fator complicador nestas análises, que deve ser tratado com atenção. mo de tais recursos computacionais. Atualmente, inúmeros bancos de dados e ferramentas computacionais para análise comparativa de genomas procarióticos estão disponíveis através da internet como serviços on-line e/ou programas independentes para uso local, abrangendo uma variedade de propósitos e funcionalidades (Catanho et al 2007). A Tabela 1 apresenta um resu- Análises comparativas de genomas podem envolver diferentes tipos de abordagem, oferecendo múltiplas perspectivas acerca dos organismos estudados (revisto por Wei et al 2002). Entre as análises capazes de contribuir significativamente para a compreensão de problemas biológicos, ressaltando similaridades e diferenças importantes entre os O que comparar? genomas e organismos comparados, destacam-se: (i) comparações envolvendo a estrutura genômica global, (ii) comparações entre regiões codificantes identificadas em diversos genomas e (iii) comparações envolvendo regiões não codificantes de diferentes genomas (Figura 4). Comparações envolvendo a estrutura genômica global Pesquisas envolvendo a organização Tabela 1. Bancos de dados e ferramentas computacionais para análise comparativa de genomas procarióticos Fonte: Catanho et al 2007. 24 Biotecnologia Ciência & Desenvolvimento - nº 37 (tais como genes, operons, grupos [clusters] gênicos, elementos de inserção, repetições etc.), determinando, por exemplo, a distribuição assimétrica dos genes entre as fitas de DNA (chamadas leading e lagging) e em relação aos pontos de origem e término da replicação, a diferença de composição de bases entre as fitas leading e lagging e a formação de gradientes ao longo da cadeia de DNA, representados por desvios na composição de bases e nas taxas mutacionais nas proximidades do ponto de término da replicação (revisto por Rocha 2004a). Comparações entre regiões codificantes Figura 4. Análise comparativa de genomas. O esquema representa genericamente os três níveis de abordagem da genômica comparativa de procariotos (e também de eucariotos) e algumas análises comumente realizadas. Uma vez que seqüências genômicas completas são obtidas através do seqüenciamento em larga escala dos genomas de diferentes espécies, análises comparativas envolvendo (i) a estrutura genômica, (ii) as regiões codificantes e (iii) as regiões não codificantes entre estes genomas podem ser realizadas, oferecendo múltiplas perspectivas acerca dos organismos estudados. Neste painel, segmentos genômicos sintênicos entre os genomas hipotéticos A, B e C são representados por barras horizontais de cores idênticas (Estrutura genômica). De maneira similar, regiões codificantes ortólogas (entre diferentes genomas) e parálogas (dentro de um mesmo genoma) são representadas por círculos de cores idênticas (Regiões codificantes). A presença de elementos regulatórios ou de pseudogenes, dentro de regiões não codificantes, conservados entre os genomas hipotéticos A, B e C são representadas por círculos pontilhados (Regiões não codificantes) cromossômica de procariotos receberam pouca atenção no passado em relação a estudos similares em eucariotos. Este quadro vem se modificando, graças aos resultados obtidos com o seqüenciamento em larga escala dos genomas de inúmeros representantes destes seres vivos (Rocha 2004a). Comparações envolvendo a estrutura global de genomas procarióticos completamente seqüenciados possibilitam a obtenção de informações sobre a organização e evolução destes genomas e também a identificação de características únicas nos mesmos, permitindo revelar e compreender as forças atuantes nestes processos, muitas vezes relacionadas a atividades celulares fundamentais como a expressão gênica coordenada, a replicação cromossômica e a divisão celular (Rocha 2004b). Estas pesquisas incluem tipicamente (i) a descri- ção de características estruturais do DNA (como por exemplo, tamanho do genoma, conteúdo GC [guanina+citosina] global, variações do conteúdo GC ao longo do genoma, freqüências de mono- e oligonucleotídeos, desvios na utilização de códons e de aminoácidos, entre outros) (ii) a análise do conteúdo e distribuição de repetições e outras regiões de baixa complexidade, (iii) a identificação de regiões sintênicas conservadas e de eventos de rearranjo genômico e (iv) a análise de regiões limítrofes entre regiões sintênicas vizinhas (breakpoints). Através de análises como estas foi possível, por exemplo, demonstrar que o processo de replicação cromossômica é um dos principais responsáveis pela organização e pela inter-relação entre muitos dos elementos que constituem a organização genômica em procariotos Outra abordagem comumente empregada para comparar os genomas de diferentes organismos procarióticos considera estes seres (de forma alegórica) como sendo sacos de genes, orientando as análises somente para o conteúdo codificante de seus genomas: genes e seus produtos (proteínas especificamente). As possibilidades oferecidas por este tipo de abordagem são inúmeras, incluindo a aquisição de informações sobre a organização e evolução destes genomas, a identificação de características únicas nos mesmos, aplicação direta em processos de reconstrução metabólica e em processos de predição e classificação funcional de genes (Galperin & Koonin 2000; Stein 2001; Gabaldon & Huynen 2004; Francke et al 2005; Lee et al 2007; Abby & Daubin 2007; Skrabanek et al 2008). Tais estudos abrangem normalmente (i) a identificação de regiões codificantes, (ii) a comparação dos conteúdos gênico e protéico, (iii) a identificação/análise da conservação de famílias de genes ortólogos e parálogos entre os genomas comparados, (iv) a análise da conservação de grupos gênicos e da conservação da ordem (localização) dos genes entre as diferentes espécies estudadas, (v) a identificação/análise de eventos de fusão/fissão gênica e da ocorrência de ligação funcional entre genes nas espécies analisadas. Recentemente, análises deste tipo levaram a uma das mais importantes descobertas da era genômica. Através de comparações entre o repertório de genes codificados pelos genomas de múltiplos isolados patogênicos de bactérias da espécie Streptococcus agalactiae (principal causa de infecção neonatal em humanos), Tettelin e colaboradores (2005) demonstraram que esta espécie pode ser descrita por um pan-genoma, constituído por um conjunto de genes compartilhados por todos os isolados (genoma central) e por um segundo conjunto de Biotecnologia Ciência & Desenvolvimento - nº 37 25 genes formado por genes parcialmente compartilhados e genes cepa-específicos (genoma dispensável), ou seja, constituído pela soma dos genes que representam a essência (centrais) e a diversidade (dispensáveis) desta espécie. Resultados similares foram obtidos analisando-se isolados provenientes de outras espécies (Streptococcus pyogenes, Bacillus anthracis, Escherichia coli e Haloquadratum walsbyi) e modelos matemáticos baseados nos dados obtidos para os diferentes grupos analisados mostraram que, enquanto para algumas espécies (Bacillus anthracis) o pan-genoma pode ser completamente descrito com o seqüenciamento dos genomas de apenas alguns poucos representantes, em outras espécies (Streptococcus pyogenes, Escherichia coli e Haloquadratum walsbyi), genes novos continuarão a emergir mesmo após o seqüenciamento dos genomas de centenas ou milhares de cepas, sugerindo que o pool de genes disponíveis no universo microbiano é muito maior do que se imaginava (Tettelin et al 2005; Medini et al 2005; Chen et al 2006; Legault et al 2006). Embora o significado do pangenoma ainda não seja bem compreendido (uma possibilidade seria a de que ele estaria envolvido na adaptação a diferentes nichos ecológicos), estes estudos demonstram claramente a necessidade de se analisar genomas de múltiplos isolados, e não apenas um ou dois representantes de cada espécie, para que se tenha uma compreensão global da complexidade das espécies bacterianas. Comparações envolvendo regiões não codificantes O processo de regulação transcricional é um importante mecanismo de adaptação em procariotos, no qual proteínas regulatórias e sinais regulatórios localizados nas regiões extra-gênicas são elementos-chaves envolvidos. Neste sentido, comparações entre regiões não codificantes de genomas de diferentes espécies procarióticas têm auxiliado grandemente a identificação e caracterização de segmentos genômicos com papéis regulatórios (Pareja et al 2006), contribuindo para a elucidação dos circuitos genéticos de regulação transcricional nestes organismos. Estas abordagens baseiam-se na suposição de que regiões funcionalmente importantes encontram-se sob pressão seletiva e, portanto, tendem a evoluir com uma taxa menor do que regiões sem nenhum papel funcional (Wei et al 2002). Por outro lado, comparações entre proteínas já caracterizadas e regiões não 26 codificantes em inúmeras espécies de procariotos têm sido usadas na identificação e caracterização de cópias obsoletas de genes ou, em outras palavras, fósseis moleculares chamados pseudogenes (Liu et al 2004; Lerat & Ochman 2005). Tais seqüências podem ser reconhecidas por apresentarem rupturas em seus marcos de leitura provocadas por mudanças de fase e por códons de parada prematuros (Lerat & Ochman 2005). Por possuírem um genoma muito compacto, rico em genes e contendo muito pouco DNA não codificante, acreditava-se que a formação de pseudogenes em microrganismos procarióticos era mínima (com algumas raras exceções bem conhecidas). Entretanto, atualmente, pseudogenes são reconhecidos como um atributo normal de genomas procarióticos, encontrados em virtualmente todos os genomas procarióticos já analisados, particularmente em bactérias patogênicas que surgiram recentemente, nas quais a presença destes fósseis moleculares ocorre em grande número (Lerat & Ochman 2005; Ochman & Davalos 2006). Estudos envolvendo a identificação e a caracterização da origem e função primitiva de genes extintos são muito importantes para a compreensão da evolução do proteoma e da natureza e dinâmica dos genomas procarióticos (Ochman & Davalos 2006). Conclusões e perspectivas para o futuro A análise comparativa de genomas possui variadas aplicações em diferentes campos do conhecimento, desde a análise da estrutura, organização e evolução dos genomas até o desenvolvimento de métodos mais eficientes de prevenção, tratamento e diagnóstico de doenças parasitárias, por exemplo. Além disso, por envolver análises em larga escala, exigindo, portanto, métodos computacionais para sua realização, os desafios impostos pela necessidade de se comparar grandes, diversificados e complexos volumes de dados, oriundos dos inúmeros projetos genoma, têm estimulado o desenvolvimento de novos métodos, algoritmos e ferramentas computacionais e também o aprimoramento de técnicas já existentes. Sem dúvida, a análise comparativa de genomas constitui um campo fértil para pesquisas envolvendo diversos aspectos da biologia dos organismos procarióticos (e também eucarióticos), como a genética, a bioquímica, a evolução e, ainda, os mecanismos moleculares da patogênese, do espectro de hospedeiros e das diferenças Biotecnologia Ciência & Desenvolvimento - nº 37 fenotípicas entre alguns de seus representantes. Neste sentido, diferentes abordagens têm sido desenvolvidas e empregadas na comparação de seqüências genômicas, oferecendo assim múltiplas perspectivas acerca dos organismos estudados. Com o constante aprimoramento dos métodos de seqüenciamento em larga escala ocorrido nos últimos anos, aumentando substancialmente a rapidez e a eficiência com que genomas inteiros são seqüenciados (Shendure et al 2008), e a recente possibilidade de se obter seqüências genômicas (completas ou parciais) de comunidades inteiras de microrganismos diretamente de amostras ambientais (metagenômica), novas e importantes descobertas científicas e avanços tecnológicos podem ser antecipados para o futuro. Referências bibliográficas Abby S, Daubin V. Comparative genomics and the evolution of prokaryotes. Trends Microbiol 2007 March;15(3):135-141. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol 1990 Oct 5;215(3):403-10. Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 1997 Sep 1;25(17):3389-402. Batzoglou S, Pachter L, Mesirov JP, Berger B, Lander ES. Human and mouse gene structure: comparative analysis and application to exon prediction. Genome Res 2000 Jul;10(7):950-8. Behr MA, Wilson MA, Gill WP, Salamon H, Schoolnik GK, Rane S, et al. Comparative genomics of BCG vaccines by wholegenome DNA microarray. Science 1999 May 28;284(5419):1520-3. Binneck E. As ômicas: integrando a bioinformação - O papel da bioinformática em expansão. Biotecnol Ciênc Des 2004 Janeiro/Junho;32:28-37. Binnewies TT, Motro Y, Hallin PF, Lund O, Dunn D, La T, Hampson DJ, Bellgard M, Wassenaar TM, Ussery DW. Ten years of bacterial genome sequencing: comparativegenomics-based discoveries. Funct Integr Genomics 2006 July;6(3):165-185. Blanchette M. Computation and Analysis of Genomic Multi-Sequence Alignments. Annual Review of Genomics and Human Genetics 2007 September 24;8(1):193-213. Bray N, Dubchak I, Pachter L. AVID: A global alignment program. Genome Res 2003 Jan;13(1):97-102. Bray N, Pachter L. MAVID: constrained ancestral alignment of multiple sequences. Genome Res 2004 Apr;14(4):693-9. Brosch R, Pym AS, Gordon SV, Cole ST. The evolution of mycobacterial pathogenicity: clues from comparative genomics. Trends Microbiol 2001 Sep;9(9):452-8. Brudno M, Chapman M, Gottgens B, Batzoglou S, Morgenstern B. Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 2003a Dec 23;4(1):66. Brudno M, Do CB, Cooper GM, Kim MF, Davydov E, Green ED, et al. LAGAN and Multi-LAGAN: efficient tools for largescale multiple alignment of genomic DNA. Genome Res 2003b Apr;13(4):72131. Carraro DM, kitajima JP. Seqüenciamento e bioinformática de genomas bacterianos. Biotecnol Ciênc Des 2002 Setembro/Outubro;28:16-20. Catanho M, Miranda AB, Degrave W. Comparing genomes: databases and computational tools for comparative analysis of prokaryotic genomes. RECIIS: R. Eletr. De Com. Inf. Inov. Saúde Suppl 2007 Jul-Dec;1(2):Sup334-Sup355. Chen SL, Hung CS, Xu J, Reigstad CS, Magrini V, Sabo A, Blasiar D, Bieri T, Meyer RR, Ozersky P, Armstrong JR, Fulton RS, Latreille JP, Spieth J, Hooton TM, Mardis ER, Hultgren SJ, Gordon JI. Identification of genes subject to positive selection in uropathogenic strains of Escherichia coli: A comparative genomics approach. Proceedings of the National Academy of Sciences 2006 April 11;103(15):5977-5982. Ciero L, Bellato CM. Proteoma: Avanços Recentes em Técnicas de Eletroforese Bidimensional e Espectrometria de Massa. Biotecnol Ciênc Des 2002 Novembro/Dezembro;29:158-164. Clark MS. Comparative genomics: the key to understanding the Human Genome Project. Bioessays 1999 February;21(2):121-130. Coenye T, Gevers D, Van de PY, Vandamme P, Swings J. Towards a prokaryotic genomic taxonomy. FEMS Microbiol Rev 2005 April;29(2):147-167. Cole ST. Comparative mycobacterial genomics as a tool for drug target and antigen discovery. Eur Respir J Suppl 2002 Jul;36:78s-86s. Cordwell SJ. Microbial genomes and “missing” enzymes: redefining biochemical pathways. Arch Microbiol 1999 November;172(5):269-279. Delcher AL, Kasif S, Fleischmann RD, Peterson J, White O, Salzberg SL. Alignment of whole genomes. Nucleic Acids Res 1999 Jun 1;27(11):2369-76. Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for largescale genome alignment and comparison. Nucleic Acids Res 2002 Jun Gordon SV, Brosch R, Eiglmeier K, 1;30(11):2478-83. Garnier T, Hewinson RG, Cole ST. Royal Delsuc F, Brinkmann H, Philippe H. Society of Tropical Medicine and Phylogenomics and the reconstruction of Hygiene Meeting at Manson House, the tree of life. Nat Rev Genet 2005 London, 18th January 2001. Pathogen genomes and human health. May;6(5):361-375. Mycobacterial genomics. Trans R Soc Dutilh BE, van N, V, van der Heijden RT, Trop Méd Hyg 2002 Jan;96(1):1-6. Boekhout T, Snel B, Huynen MA. Assessment of phylogenomic and Henz SR, Huson DH, Auch AF, Nieseltorthology approaches for phylogenetic Struwe K, Schuster SC. Whole-genome inference. Bioinformatics 2007 April prokaryotic phylogeny. Bioinformatics 2005 May 15;21(10):2329-35. 1;23(7):815-824. Felsenstein J. Evolutionary trees from DNA HGP. HUMAN GENOME PROGRAM sequences: a maximum likelihood (USA). U.S. Department of Energy. approach. J Mol Evol 1981;17(6):368-76. Genomics and Its Impact on Medicine and Society: A 2001 Primer; 2001. Felsenstein J. PHYLIP — Phylogeny Inference Package (Version 3.2). Cladistics Huynen MA, Dandekar T, Bork P. Variation and evolution of the citric-acid 1989; 5: 164-6. cycle: a genomic perspective. Trends Feng DF, Doolittle RF. Progressive Microbiol 1999 July;7(7):281-291. sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol Huynen MA, Gabaldon T, Snel B. Variation and evolution of biomolecular 1987;25(4):351-60. systems: Searching for functional Fitch WM. Distinguishing homologous relevance. FEBS Lett 2005 March from analogous proteins. Syst Zool. 1970, 21;579(8):1839-1845. 19(2):99-113. Jareborg N, Birney E, Durbin R. Fitch WM. Homology a personal view on Comparative analysis of noncoding some of the problems. Trends Genet 2000 regions of 77 orthologous mouse and May;16(5):227-31. human gene pairs. Genome Res 1999 Fitzgerald JR, Musser JM. Evolutionary Sep;9(9):815-24. genomics of pathogenic bacteria. Trends Jensen RA. Orthologs and paralogs - we Microbiol 2001 Nov;9(11):547-53. need to get it right. Genome Biol Francke C, Siezen RJ, Teusink B. 2001;2(8):INTERACTIONS1002. Reconstructing the metabolic network of Karp PD, Krummenacker M, Paley S, a bacterium from its genome. Trends Wagg J. Integrated pathway-genome Microbiol 2005 November;13(11):550-558. databases and their role in drug Fraser CM, Eisen J, Fleischmann RD, discovery. Trends Biotechnol 1999 Ketchum KA, Peterson S. Comparative July;17(7):275-281. genomics and understanding of microbial Kato-Maeda M, Rhee JT, Gingeras TR, biology. Emerg Infect Dis 2000 Salamon H, Drenkow J, Smittipat N, et Sep;6(5):505-12. al. Comparing genomes within the Gabaldon T, Huynen MA. Prediction of species Mycobacterium tuberculosis. protein function and pathways in the Genome Res 2001 Apr;11(4):547-54. genome era. Cell Mol Life Sci 2004 Kent WJ, Zahler AM. Conservation, April;61(7-8):930-944. regulation, synteny, and introns in a Galperin MY, Koonin EV. Functional large-scale C. briggsae-C. elegans genomics and enzyme evolution. genomic alignment. Genome Res 2000 Homologous and analogous enzymes Aug;10(8):1115-25. encoded in microbial genomes. Genetica. Kondrashov AS. Comparative genomics 1999;106(1-2):159-70. and evolutionary biology. Curr Opin Galperin MY, Koonin EV. Who’s your Genet Dev 1999 Dec;9(6):624-9. neighbor? New computational approaches Koonin EV, Aravind L, Kondrashov AS. for functional genomics. Nat Biotechnol The impact of comparative genomics on 2000 June;18(6):609-613. our understanding of evolution. Cell Galperin MY, Walker DR, Koonin EV. 2000 Jun 9;101(6):573-6. Analogous enzymes: independent Koonin EV, Mushegian AR, Bork P. Noninventions in enzyme evolution. Genome orthologous gene displacement. Trends Res. 1998, 8(8):779-90. Genet 1996 September;12(9):334-336. Ginalski K. Comparative modeling for Koonin EV. Comparative genomics, protein structure prediction. Curr Opin minimal gene-sets and the last univerStruct Biol 2006 April;16(2):172-177. sal common ancestor. Nat Rev Microbiol GOLD. Genomes Online Database. Dis- 2003 November;1(2):127-136. ponível em: <http:// Kunin V, Ahren D, Goldovsky L, Janssen www.genomesonline.org/> Acesso em: 26 P, Ouzounis CA. Measuring genome mar. 2008. Biotecnologia Ciência & Desenvolvimento - nº 37 27 conservation across taxa: divided strains and united kingdoms. Nucleic Acids Res 2005a;33(2):616-21. Kunin V, Goldovsky L, Darzentas N, Ouzounis CA. The net of life: reconstructing the microbial phylogenetic network. Genome Res 2005b Jul;15(7):954-9. Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M, Antonescu C, et al. Versatile and open software for comparing large genomes. Genome Biol 2004;5(2):R12. Lee D, Redfern O, Orengo C. Predicting protein function from sequence and structure. Nat Rev Mol Cell Biol 2007 December;8(12):995-1005. Legault B, Lopez-Lopez A, ba-Casado J, Doolittle WF, Bolhuis H, RodriguezValera F, Papke RT. Environmental genomics of “Haloquadratum walsbyi” in a saltern crystallizer indicates a large pool of accessory genes in an otherwise coherent species. BMC Genomics 2006;7(1):171. Lerat E, Ochman H. Recognizing the pseudogenes in bacterial genomes. Nucleic Acids Res 2005;33(10):3125-3132. Lipman DJ, Pearson WR. Rapid and sensitive protein similarity searches. Science 1985 Mar 22;227(4693):1435-41. Liu Y, Harrison PM, Kunin V, Gerstein M. Comprehensive analysis of pseudogenes in prokaryotes: widespread gene decay and failure of putative horizontally transferred genes. Genome Biol 2004;5(9):R64. Ma B, Tromp J, Li M. PatternHunter: faster and more sensitive homology search. Bioinformatics 2002 Mar;18(3):440-5. Medini D, Donati C, Tettelin H, Masignani V, Rappuoli R. The microbial pan-genome. Current Opinion in Genetics & Development 2005 December;15(6):589-594. Moran NA. Microbial minimalism: genome reduction in bacterial pathogens. Cell 2002 March 8;108(5):583586. Morett E, Korbel JO, Rajan E, SaabRincon G, Olvera L, Olvera M, Schmidt S, Snel B, Bork P. Systematic discovery of analogous enzymes in thiamin biosynthesis. Nat Biotechnol. 2003, 21(7):790-5. Morgenstern B, Frech K, Dress A, Werner T. DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics 1998;14(3):290-4. Morgenstern B, Rinner O, Abdeddaim S, Haase D, Mayer KF, Dress AW, et al. Exon discovery by genomic sequence alignment. Bioinformatics 2002 Jun;18(6):777-87. 28 Morgenstern B. DIALIGN 2: improvement of the segment-to-segment approach to multiple sequence alignment. Bioinformatics 1999 Mar;15(3):211-8. Moya A, Pereto J, Gil R, Latorre A. Learning how to live together: genomic insights into prokaryote-animal symbioses. Nat Rev Genet 2008 March;9(3):218-229. Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol 1970 Mar;48(3):443-53. Ochman H, Davalos LM. The nature and dynamics of bacterial genomes. Science 2006 March 24;311(5768):1730-1733. Ochman H, Moran NA. Genes lost and genes found: evolution of bacterial pathogenesis and symbiosis. Science 2001 May 11;292(5519):1096-1099. Rocha EP. Order and disorder in bacterial genomes. Curr Opin Microbiol 2004b October;7(5):519-527. Rocha EP. The replication-related organization of bacterial genomes. Microbiology 2004a June;150(Pt 6):16091627. Schwartz S, Kent WJ, Smit A, Zhang Z, Baertsch R, Hardison RC, et al. Humanmouse alignments with BLASTZ. Genome Res 2003 Jan;13(1):103-7. Shendure JA, Porreca GJ, Church GM. Overview of DNA sequencing strategies. Curr Protoc Mol Biol 2008 January;Chapter 7:Unit. Skrabanek L, Saini HK, Bader GD, Enright AJ. Computational prediction of proteinprotein interactions. Mol Biotechnol 2008 January;38(1):1-17 Smith TF, Waterman MS. Comparison of Biosequences. Adv. Appl. Math. 1981; 2: 482-9. Otu HH, Sayood K. A new sequence distance measure for phylogenetic tree construction. Bioinformatics 2003 Nov 1;19(16):2122-30. Souza MV, Fontes W, Ricart CAO. Análise de Proteomas: O despertar da era pósgenômica. Biotecnol Ciênc Des 1999 Janeiro/Fevereiro;7:12-14. Pareja E, Pareja-Tobes P, Manrique M, Pareja-Tobes E, Bonal J, Tobes R. ExtraTrain: a database of Extragenic regions and Transcriptional information in prokaryotic organisms. BMC Microbiol 2006;6:29. Stein L. Genome annotation: from sequence to biology. Nat Rev Genet 2001 July;2(7):493-503. Passos GAS, Nguyen C, Jordan B. Projeto Transcriptoma: Análise da Expressão Gênica em Larga Escala Usando DNA - Arrays. Biotecnol Ciênc Des 2000 Janeiro/Fevereiro;12:34-37. Patterson SD, Aebersold RH. Proteomics: the first decade and beyond. Nat Genet 2003 March;33 Suppl:311-323. Pearson WR, Lipman DJ. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A 1988 Apr;85(8):2444-8. Peregrin-Alvarez JM, Tsoka S, Ouzounis CA. The phylogenetic extent of metabolic enzymes and pathways. Genome Res 2003 March;13(3):422-427. Prosdocimi F, Cerqueira GC, Binneck E, Silva AF, Reis AN, Junqueira ACM, et al. Bioinformática: Manual do Usuário - Um guia básico e amplo sobre os diversos aspectos dessa nova. Biotecnol Ciênc Des 2002 Novembro/Dezembro;29:1225. Randhawa GS, Bishai WR. Beneficial impact of genome projects on tuberculosis control. Infect Dis Clin North Am 2002 Mar;16(1):145-61. Rigden DJ, Mello LV. Anotação funcional computacional de proteínas: Novos métodos computacionais poderão preencher lacunas do sistema de anotação atual. Biotecnol Ciênc Des 2002 Março/ Abril;25:64-70. Biotecnologia Ciência & Desenvolvimento - nº 37 Strohman RC. The coming Kuhnian revolution in biology. Nat Biotechnol 1997 Mar;15(3):194-200. Tekaia F, Yeramian E. Genome trees from conservation profiles. PLoS Comput Biol 2005 Dec;1(7):e75. Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, Angiuoli SV, Crabtree J, Jones AL, Durkin AS, DeBoy RT, Davidsen TM, Mora M, Scarselli M, Ros I, Peterson JD, Hauser CR, Sundaram JP, Nelson WC, Madupu R, Brinkac LM, Dodson RJ, Rosovitz MJ, Sullivan SA, Daugherty SC, Haft DH, Selengut J, Gwinn ML, Zhou L, Zafar N, Khouri H, Radune D, Dimitrov G, Watkins K, O’Connor KJB, Smith S, Utterback TR, White O, Rubens CE, Grandi G, Madoff LC, Kasper DL, Telford JL, Wessels MR, Rappuoli R, Fraser CM. Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial “pan-genome”. Proceedings of the National Academy of Sciences 2005 September 27;102(39):13950-13955. Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positionspecific gap penalties and weight matrix choice. Nucleic Acids Res 1994 Nov 11;22(22):4673-80. Wei L, Liu Y, Dubchak I, Shon J, Park J. Comparative genomics approaches to study organism similarities and differences. J Biomed Inform 2002 Apr;35(2):142-50. GLOSSÁRIO Algoritmo. Procedimento organizado (passos e instruções) para executar um determinado tipo de cálculo ou solucionar um determinado tipo de problema. Alinhamento de seqüências. Processo de alinhar (colocar lado a lado) duas ou mais seqüências do mesmo tipo (nucleotídicas ou protéicas) de forma a obter o máximo de identidade entre elas com o propósito de determinar o grau de similaridade. Alinhamento global. Alinhamento de pares de seqüências nucleotídicas ou protéicas ao longo de toda a extensão das mesmas. Alinhamento local. Alinhamento de uma ou mais partes de duas seqüências nucleotídicas ou protéicas. Análise filogenética. Análise filogenética ou filogenia consiste no estudo das relações evolutivas (ou seja, na reconstrução da história evolutiva) entre grupos de organismos ou outras entidades que se acredita possuírem um ancestral comum, como por exemplo, espécies, populações e genes. Analogia. Relação entre dois caracteres quaisquer que descendem, por convergência, de caracteres ancestrais não relacionados entre si (Fitch 1970, 2000). Bioinformática e Biologia Computacional. Em 17 de julho de 2000, o National Institutes of Health (NIH), uma das agências do departamento de saúde norteamericano com reconhecimento internacional na área de pesquisa biomédica, divulgou sua definição de trabalho para Bioinformática e para Biologia Computacional, elaborada pelo Biomedical Information Science and Technology Initiative Consortium (BISTIC) Definition Committee. De acordo com este documento “A bioinformática e a biologia computacional têm suas raízes nas ciências da vida bem como nas ciências da computação e informação e na tecnologia. Ambas estas abordagens interdisciplinares se beneficiam de disciplinas específicas, tais como a matemática, a física, as ciências da computação e a engenharia, a biologia e as ciências do comportamento. Cada uma delas mantém interações muito estreitas com as ciências da vida para concretizar todo o seu potencial. A bioinformática aplica princípios das ciências da informação e da tecnologia para tornar os vastos, diversificados e complexos dados produzidos pelas ciências da vida mais compreensíveis e úteis. A biologia computacional usa abordagens matemáticas e computacionais para resolver questões teóricas e experimentais na biologia. Embora a bioinformática e a biologia computacional sejam distintas, há significativa sobreposição e atividade em suas interfaces. (...) Bioinformática: pesquisa, desenvolvimento ou aplicação de ferramentas e abordagens computacionais para ampliar o uso de dados de origem biológica, médica, comportamental ou de saúde, incluindo adquirir, armazenar, organizar, arquivar, analisar ou visualizar tais dados. Biologia Computacional: desenvolvimento e aplicação de métodos analíticos e teóricos de dados e técnicas de modelagem matemática e simulação computacional para o estudo de sistemas biológicos, comportamentais e sociais.” (BISTIC Definition Committee, 2000). [Tradução livre do autor]. DNA. Sigla em inglês para deoxyribonucleic acid, ou ácido desoxirribonucléico. Ácido nucléico constituído por desoxirribose, fosfato e pelas bases nitrogenadas adenina, guanina, citosina e timina. Contém as instruções genéticas usadas no desenvolvimento e funcionamento de todos os seres vivos. Fatores epigenéticos. Fatores (não genéticos) responsáveis pelo controle temporal e espacial da atividade de todos os genes necessários para o desenvolvimento de um organismo complexo desde o zigoto até a fase adulta (citado por Strohman 1997). Fusão/Fissão gênica. Foi observado que determinados pares de proteínas funcionalmente relacionadas entre si, presentes em certos organismos, têm homólogos em outros organismos fundidos em uma única cadeia protéica (Marcotte et al 1999; Enright et al 1999). O processo de formação destas proteínas é chamado de fusão gênica (quando há a adição de genes ou seqüências funcionais em uma cadeia de DNA) ou fissão gênica (quando há a perda de genes ou seqüências funcionais em uma cadeia de DNA). Eventos de fusão/fissão gênica são fenômenos naturais reconhecidos como uma das principais forças evolutivas na criação de proteínas de múltiplos domínios. Genes. Genes são as unidades hereditárias em todos os organismos vivos, formando componentes essenciais do genoma (o conjunto completo de informação genética) destes organismos, sendo responsáveis pelo desenvolvimento físico, pelo metabolismo e também, até certo ponto, seu comportamento. Alguns genes produzem moléculas de RNA enquanto outros desempenham importantes papéis regulatórios ou estruturais. A maioria dos genes codifica proteínas, grandes moléculas compostas de longas cadeias de aminoácidos, que respondem pela maioria das reações químicas desempenhadas pela célula. Genoma. Termo criado, em 1920, por Hans Winkler, professor de Botânica na Universidade de Hamburgo. Designa toda a informação hereditária de um organismo que está codificada no seu DNA (ou, em alguns vírus, no RNA). Isto inclui tanto os genes como as seqüências não codificadoras (conhecidas como DNA-lixo). Genômica. Análise (em larga escala) do genoma completo de um organismo. Homologia. Relação entre dois caracteres (traços genéticos, estruturais ou funcionais de um organismo) quaisquer que descendem de um caractere ancestral comum, normalmente com divergência (Fitch 1970, 2000). Matriz de substituição. Matriz que representa todas as possíveis trocas entre aminoácidos, nas quais um valor é atribuído a cada uma destas trocas. Estes valores são proporcionais à probabilidade de ocorrência de cada troca, tomandose como base um determinado modelo evolutivo. PAM – Percent Accepted Mutation (Dayhoff et al 1978). BLOSUM - BLOcks SUbstitution Matrix (Henikoff & Henikoff 1992). Metagenômica. Também conhecida como genômica ambiental, ecogenômica, ou ainda genômica de comunidades, consiste na análise do material genético obtido diretamente de amostras ambientais, permitindo o estudo de organismos que não podem ser facilmente cultivados em laboratório, bem como o estudo de organismos em seus ambientes naturais (Metagenomics 2008). Micobactérias. O gênero Mycobacterium (familia Mycobacteriaceae, ordem Actinomycetales), um dos mais antigos e bem conhecidos gêneros de bactéria, foi introduzido por Lehmann e Neumann em 1896, para incluir os agentes causadores da hanseníase e da tuberculose, bactérias que haviam sido anteriormente classificadas como Bacterium leprae e Bacterium tuberculosis, respectivamente (Goodfellow & Minnikin, 1984). Os organismos pertencentes a este gênero são aeróbios, imóveis e não formam endósporos ou esporos; têm forma de bastonetes delgados, retos ou ligeiramente encurvados, com raras formas ramificadas. Seu DNA é rico em guanina (G) e citosina (C) (de 62 a 70% G+C, com exceção de Mycobacterium leprae que tem 57.8% de GC). As micobactérias possuem ainda características peculiares como álcool-ácido resistência (uma vez coradas por corantes básicos, resistem à descoloração por soluções álcool-ácidas sendo, portanto, denominadas bacilos álcool-ácido resistentes) e resistência incomum à dessecação e a agentes químicos. Ortólogos. Genes homólogos em espécies diferentes originados de um gene ancestral comum, durante a especiação (Fitch 1970, 2000). Óperon. Grupo de genes funcionalmente relacionados entre si, regulados (em conjunto) por um mesmo operador. Parálogos. Genes homólogos em uma espécie em particular originados por duplicação (Fitch 1970, 2000). Proteínas. Moléculas compostas por aminoácidos ligados entre si em uma ordem particular, especificada pelas seqüências de DNA dos genes que as codificam. São componentes essenciais dos organismos, participando de todos os processos celulares (catálise enzimática, sinalização celular, resposta imune, adesão celular, ciclo celular etc.) e também como componentes estruturais e mecânicos. Proteômica. Análise (em larga escala) do conjunto completo de proteínas expressas por uma célula, tecido ou organismo, em um dado momento e sob certas circunstâncias ambientais. Regiões sintênicas. Sintenia foi um termo originalmente cunhado para designar a presença de dois ou mais loci gênicos (próximos ou não) no mesmo cromossomo. Atualmente, refere-se também a duas regiões de genomas distintos que mostram considerável grau de similaridade de seqüência entre si e algum grau de conservação da ordem dos genes nestas regiões e que, portanto, têm probabilidade de descender de um ancestral comum. Regiões de baixa complexidade. Regiões em ácidos nucléicos ou proteínas com desvios na composição de seus resíduos (nucleotídeos ou aminoácidos), incluindo tratos homopoliméricos (longas seqüências formadas pelo mesmo resíduo), repetições com curtos espaços entre si e sobre-representações mais sutis de alguns resíduos. Seqüência genômica. Toda ou parte da cadeia de DNA que compõe um genoma. Simbiontes. Organismos que vivem em simbiose, isto é, dois organismos distintos que mantêm íntima e longa associação entre si, na qual um ou ambos se beneficiam desta relação. Esta associação inclui relações nas quais uma das partes vive sobre (ectobiose) ou dentro (endobiose) da outra, podendo ser obrigatória, ou seja, necessária à sobrevivência de pelo menos um dos organismos envolvidos, ou facultativa, na qual a associação é benéfica, porém não é essencial à sobrevivência dos organismos. As categorias de simbiose incluem o mutualismo (quando ambos se beneficiam), o comensalismo (quando apenas um se beneficia e o outro não é significativamente lesado ou beneficiado) e o parasitismo (quando apenas um se beneficia e o outro é lesado pela relação) (Symbiosis 2008). Transcriptômica. Análise (em larga escala) do conjunto de todos os RNA mensageiros (transcritos) de uma célula, tecido ou organismo, em um dado momento e sob certas circunstâncias ambientais. Referências bibliográficas BISTIC Definition Committee. NIH working definition of bioinformatics and computational biology. 2000. Disponível em: <http://www.bisti.nih.gov/ CompuBioDef.pdf> Acesso em: 26 mar. 2008. Dayhoff MO, Schwartz RM, Orcutt BC. A model of evolutionary change in proteins. In: Dayhoff MO, ed. Atlas of Protein Sequence and Structure. Washington DC: National Biomedical Research Foundation; 1978. v.5. Suppl.3. p.345-352. Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA. Protein interaction maps for complete genomes based on gene fusion events. Nature 1999 Nov 4;402(6757):8690. Fitch WM. Distinguishing homologous from analogous proteins. Syst Zool 1970 Jun;19(2):99-113. Fitch WM. Homology a personal view on some of the problems. Trends Genet 2000 May;16(5):227-31. Goodfellow M, Minnikin DE. Circunscription of the genus. In: Kubica GP, Wayne LG, eds. The Mycobacteria: A Source Book. New York: Marcel Dekker; 1984. p.1-24. Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 1992 Nov 15;89(22):10915-9. Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D. Detecting protein function and proteinprotein interactions from genome sequences. Science 1999 Jul 30;285(5428):751-3. Metagenomics. In Wikipedia: The Free Encyclopedia. Wikimedia Foundation Inc. Encyclopedia on-line. Disponível em: <http://en.wikipedia.org/wiki/Metagenomics> Acesso em: 26 mar. 2008. Strohman RC. The coming Kuhnian revolution in biology. Nat Biotechnol 1997 Mar;15(3):194-200. Symbiosis. In Wikipedia: The Free Encyclopedia. Wikimedia Foundation Inc. Encyclopedia on-line. Disponível em: <http://en.wikipedia.org/wiki/Symbiosis> Acesso em: 26 mar. 2008. Biotecnologia Ciência & Desenvolvimento - nº 37 29
Documentos relacionados
Projeto Genoma Humano e suas implicações para
Em 1997, a Fundação de Amparo à Pesquisa
do Estado de São Paulo (Fapesp) decidiu que
o Brasil não deveria perder as oportunidades
científicas e econômicas que poderiam ser derivadas do seqüenciamen...