Desenvolvimento de uma Plataforma Integrativa para - BIT
Transcrição
Desenvolvimento de uma Plataforma Integrativa para - BIT
UNIVERSIDADE DE SÃO PAULO FACULDADE DE MEDICINA DE RIBEIRÃO PRETO Daniel Guariz Pinheiro Desenvolvimento de uma Plataforma Integrativa para Depuração e Análise de Dados de Expressão Gênica Ribeirão Preto – SP 2009 AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE. Catalogação na Publicação Serviço de Documentação Faculdade de Medicina de Ribeirão Preto Pinheiro, Daniel Guariz Desenvolvimento de uma Plataforma Integrativa para Depuração e Análise de Dados de Expressão Gênica / Daniel Guariz Pinheiro; orientador: Wilson Araújo da Silva Jr. – Ribeirão Preto – SP, 2009. 125 f. : fig. Tese (Doutorado – Programa de Pós-Graduação em Genética. centração: Genética) – Faculdade de Medicina de Ribeirão Preto. Área de Con- 1. Expressão Gênica – Serial Analysis of Gene Expression – SAGE. 2. nética. 3. Bioinformática. Ge- Daniel Guariz Pinheiro Desenvolvimento de uma Plataforma Integrativa para Depuração e Análise de Dados de Expressão Gênica Tese apresentada ao Programa de Pós-Graduação em Genética da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo para a obtenção do tı́tulo de Doutor em Ciências. Área de Concentração: Genética Orientador: Prof. Dr. Wilson Araújo da Silva Junior Ribeirão Preto – SP 2009 Dedicatória Dedico esta tese à minha famı́lia. À minha esposa, Aline Dibelli Balestra Pinheiro, aos meus pais, Hilário Tavares Pinheiro Filho e Waldira Luci Guariz Pinheiro, aos meus irmãos, Samuel Guariz Pinheiro e Rafael Guariz Pinheiro, aos meus avós paternos Hilário Tavares Pinheiro e Adelaide Corazza Pinheiro, e avós maternos Mário Guariz e Elza Malerbo Guariz. Agradecimentos A Deus, pelo dom da vida e por iluminar o meu caminho, me concedendo força e perseverança para superar os desafios encontrados. À minha esposa, Aline Dibelli Balestra Pinheiro, pelo amor, companheirismo e paciência. Aos meus pais, Hilário Tavares Pinheiro e Waldira Luci Guariz Pinheiro, pela educação, apoio e dedicação incondicional. Aos meus irmãos, Samuel Guariz Pinheiro e Rafael Guariz Pinheiro pelo apoio em todos os momentos. Ao Prof. Dr. Wilson Araújo da Silva Junior pela orientação, incentivo, paciência e confiança dispensada. Aos Professores do Departamento de Genética da Faculdade de Medicina de Ribeirão Preto, da Universidade de São Paulo, pelos ensinamentos, e à Comissão de Pós-Graduação pela oportunidade concedida. Ao Prof. Dr. Sandro José de Souza do Instituto Ludwig de Pesquisa sobre o Câncer, pela atenção e colaboração. Ao Dr. Pedro Alexandre Favoretto Galante do Instituto Ludwig de Pesquisa sobre o Câncer, pela atenção e colaboração com valiosos comentários e sugestões. À equipe do Laboratório de Genética Molecular pela alegre convivência. Em especial, Cristiane Ayres Ferreira, Carla Martins Kaneto e Greice Andreotti de Molfetta. Aos amigos do Laboratório de Bioinformática (BiT) pelo companheirismo e incentivo durante esses anos. Em especial, Rodrigo Martins Brandão, Israel Tojal da Silva, Marco Aurélio Valtas Cunha, Thiago Yukio Kikuchi Oliveira, Gislaine da Silva P. Pereira, Alynne Oya e Chiromatzo, Rodrigo Lucena Borges, Olsen Rodrigo Mott Silva, Rodrigo Guarischi M. A. de Sousa e Marcelo Gomes de Paula. À Meire Vieira de Carvalho Tarlá, à Dalva Tereza Catto (Dalvinha), à Susie Adriana Penha Nalon e à Maria Aparecida O. S. Elias, pela paciência, ajuda e dedicação nas tarefas burocráticas e administrativas. Aos funcionários do Hemocentro de Ribeirão Preto por proporcionarem um ambiente de trabalho propı́cio. Ao Centro de Terapia Celular (CEPID/FAPESP) pelo apoio financeiro. Aos que contribuı́ram direta ou indiretamente para a realização deste trabalho. “Comece fazendo o que é necessário, depois o que é possı́vel, e de repente você estará fazendo o impossı́vel.” São Francisco de Assis Resumo Métodos de análise de expressão gênica em larga escala como microarrays, Serial Analysis of Gene Expression (SAGE), Massively Parallel Signature Sequencing (MPSS) e outros baseados na nova geração de seqüenciadores [e.g. Sequencing-By-Synthesis (SBS)] têm sido amplamente utilizados e para traçar perfis de expressão gênica. Estas abordagens têm permitido a identificação de biomarcadores de tipos celulares especı́ficos em uma extensa variedade de condições biológicas. Análises de expressão gênica diferencial usando dados produzidos a partir dessas tecnologias fornecem recursos que auxiliam sobremaneira a identificação e avaliação de alvos terapêuticos. A fim de oferecer suporte para essas análises, desenvolvemos uma plataforma integrativa que utiliza bancos de dados públicos e próprios e reúne uma coleção de ferramentas web. Essa plataforma compreende dois sistemas integrados: o primeiro é chamado de Hyper- and Hypo-expressed Genes (H2G) e o segundo de Score System for Sequence Tags (S3T). O H2G oferece suporte às análises comparativas de expressão gênica diferencial e o S3T foi concebido para indexar os dados de expressão gênica por meio de uma série de avaliações baseadas em um conjunto de regras definido, o qual permite a identificação/seleção de dados considerados mais confiáveis para posterior análise com H2G ou quaisquer outros aplicativos. O H2G possui ferramentas computacionais para a análise e detecção de genes diferencialmente expressos e engloba um banco de dados de expressão gênica que contém atualmente 1.174 bibliotecas obtidas a partir das tecnologias SAGE, MPSS e SBS. O H2G inclui o S3T como um recurso para realizar a depuração nesses dados. Análises com o S3T foram realizadas em conjuntos de bibliotecas de SAGE humanas, organizadas por tipo celular. Agrupamentos hierárquicos foram obtidos a partir dos dados brutos e também a partir dos dados após a filtragem do S3T, para cada conjunto de bibliotecas. Os resultados das avaliações desses agrupamentos revelam que os agrupamentos gerados a partir dos dados após a filtragem são mais coerentes, sugerindo que o processo de depuração do S3T é capaz de reduzir a presença de ruı́dos. Este trabalho oferece uma contribuição significativa para os estudos da dinâmica da expressão gênica. Essa plataforma de análise pode auxiliar outros pesquisadores na realização de suas investigações biológicas. Os recursos de análise estão livremente disponı́veis nas seguintes URLs: http://gdm.fmrp.usp.br/h2g/ e http://gdm.fmrp.usp.br/s3t/, respectivamente para o H2G e o S3T. Abstract Development of an Integrative Platform for Depuration and Analysis of Gene Expression Data High-throughput gene expression methods such as microarrays, Serial Analysis of Gene Expression (SAGE), Massively Parallel Signature Sequencing (MPSS) and others based on the new generation of sequencers [e.g. Sequencing-By-Synthesis (SBS)] have been widely used for gene expression profiling. These approaches have stimulated searches for biomarkers of specific cell types in a broad variety of biological conditions. Differential gene expression analyses using data produced from these technologies can provide the means for identification and evaluation of potential therapeutic targets. In order to offer support for these analyses, we developed an integrative platform that uses public and in-house databases and gathers a collection of web-based tools. This platform comprises two integrated systems: the first is named Hyper- and Hypo-expressed Genes (H2G) and the second is named Score System for Sequence Tags (S3T). The H2G supports the comparative analysis of differential gene expression and the S3T was designed to index gene expression data by a series of evaluations based on a defined rule set, which allows the identification/selection of data considered more reliable for further analysis with H2G or any other resource. The H2G has computational tools for analysis and detection of differentially expressed genes and comprises a gene expression database that currently contains 1,174 library entries obtained from SAGE, MPSS and SBS technologies. The H2G includes the S3T as a resource to perform a depuration in these data. S3T analyses were performed in sets of human SAGE libraries, organized by cell type. Hierarchical clusters were obtained from raw data and also from data after S3T filtering, for each library set. The evaluation results of these clusters reveal that the clusters generated from data after filtering are more coherent, suggesting that the depuration process of S3T is able to reduce the noise presence. This work offers a significant contribution to gene expression dynamics studies. This analysis platform can assist other researchers to carry out its biological investigations. The analysis resources are freely available at the following URLs: http://gdm.fmrp.usp.br/h2g/ and http://gdm.fmrp.usp.br/s3t/ respectively for the H2G and S3T. Sumário Lista de Figuras Lista de Tabelas Lista de Abreviaturas e Siglas 1 Introdução p. 17 1.1 Genômica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 1.2 Genômica Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 1.3 Análise Global da Expressão Gênica . . . . . . . . . . . . . . . . . . . . . p. 19 1.3.1 Técnicas para a Análise Global da Expressão Gênica . . . . . . . p. 20 1.3.2 Comparações entre as tecnologias . . . . . . . . . . . . . . . . . . p. 33 1.3.3 Métodos de Análise de Expressão Gênica Diferencial . . . . . . . p. 34 1.4 Bancos de Dados Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 1.4.1 Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43 1.4.2 Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 1.4.3 Vias metabólicas . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47 1.4.4 Regulação da Expressão Gênica . . . . . . . . . . . . . . . . . . . p. 48 1.4.5 Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50 1.4.6 Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53 2 Objetivos p. 54 3 Material e métodos p. 56 3.1 Plataforma de desenvolvimento dos sistemas . . . . . . . . . . . . . . . . p. 56 3.2 H2G - Hyper- and Hypo-expressed Genes . . . . . . . . . . . . . . . . . . p. 59 3.2.1 Repositório de Dados de Expressão Gênica . . . . . . . . . . . . . p. 59 3.2.2 Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63 3.3 S3T - Score System for Sequence Tags . . . . . . . . . . . . . . . . . . . p. 64 3.3.1 Conjuntos de tags virtuais . . . . . . . . . . . . . . . . . . . . . . p. 65 3.3.2 Regras de Classificação . . . . . . . . . . . . . . . . . . . . . . . . p. 70 3.3.3 Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71 3.3.4 Análise com dados públicos de SAGE . . . . . . . . . . . . . . . . p. 72 4 Resultados e Discussão p. 75 4.1 H2G - Hyper- and Hypo-expressed Genes . . . . . . . . . . . . . . . . . . p. 75 4.1.1 Recursos disponı́veis . . . . . . . . . . . . . . . . . . . . . . . . . p. 76 4.1.2 Aplicações do H2G . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79 4.1.3 Disponibilidade e requisitos do sistema H2G . . . . . . . . . . . . p. 82 4.2 S3T - Score System for Sequence Tags . . . . . . . . . . . . . . . . . . . p. 82 4.2.1 Análise com dados públicos de SAGE . . . . . . . . . . . . . . . . p. 83 4.2.2 Disponibilidade e requisitos do sistema S3T . . . . . . . . . . . . p. 90 5 Conclusões p. 92 6 Perspectivas p. 94 Referências Bibliográficas p. 96 Apêndice A -- Resumo do artigo que descreve o S3T p. 116 Apêndice B -- Grupos histológicos para a análise com S3T p. 117 Apêndice C -- Configuração do S3T p. 121 Anexo A -- Seqüências dos Adaptadores e Primers para SAGE p. 123 Anexo B -- Seqüências dos Adaptadores e Primers para LongSAGE p. 124 Anexo C -- Seqüências dos Adaptadores para MPSS p. 125 Lista de Figuras 1 Revolução dos “omas” e a Biologia Sistêmica . . . . . . . . . . . . . . . . p. 18 2 Protocolo original da técnica de SAGE . . . . . . . . . . . . . . . . . . . p. 24 3 Crescimento do GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41 4 Arquitetura geral dos bancos de dados biológicos . . . . . . . . . . . . . . p. 43 5 Representação das conexões entre os bancos de dados no Entrez . . . . . p. 44 6 Diagrama geral dos sistemas H2G e S3T . . . . . . . . . . . . . . . . . . p. 57 7 Diagrama geral do sistema H2G . . . . . . . . . . . . . . . . . . . . . . . p. 60 8 Diagrama geral do sistema S3T . . . . . . . . . . . . . . . . . . . . . . . p. 65 9 Imagem da representação dos nı́veis de expressão das tags no sistema de pesquisa do H2G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79 10 Gráfico de dispersão de uma análise com H2G. . . . . . . . . . . . . . . . p. 80 11 Resultado da ferramenta de consulta do H2G . . . . . . . . . . . . . . . . p. 81 12 Distribuições dos resultados da análise do S3T. . . . . . . . . . . . . . . . p. 86 13 Agrupamento hierárquico de bibliotecas SAGE de cólon. . . . . . . . . . p. 87 14 Scores mais abundantes nos resultados da classificação com o S3T. . . . . p. 89 15 Contribuição das tags com scores negativos para o tamanho final da biblioteca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 89 16 Histograma dos resultados das classificações aleatórias . . . . . . . . . . . p. 91 Lista de Tabelas 1 Fontes originais dos dados contidos no H2G. . . . . . . . . . . . . . . . . p. 62 2 Conjuntos de dados de tags virtuais. . . . . . . . . . . . . . . . . . . . . p. 66 3 Conjunto de regras padrão para o S3T. . . . . . . . . . . . . . . . . . . . p. 73 4 Conteúdo do repositório de dados do H2G. . . . . . . . . . . . . . . . . . p. 75 5 Correlação entre o total de tags e tags distinstas por score. . . . . . . . . p. 85 6 Avaliação de qualidade dos agrupamentos hierárquicos, . . . . . . . . . . p. 88 7 Valores médios e desvios padrões obtidos dos resultados das avaliações com a medida-F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90 8 Diferenças e valores de significância estatı́stica comparando as médias das porcentagens dos casos de agrupamentos. . . . . . . . . . . . . . . . . p. 90 Lista de Abreviaturas e Siglas RNA Ácido Ribonucléico/Ribonucleic Acid DNA Ácido Desoxirribonucléico/Deoxyribonucleic Acid cDNA complementary DNA EST Expressed Sequence Tag SAGE Serial Analysis of Gene Expression MPSS Massively Parallel Sinature Sequencing cDNA-AFLP cDNA-Amplified Fragment Length Polymorphism Analysis PCR Polymerase Chain Reaction qPCR quantitative Polymerase Chain Reaction EBE EST Based Expression experiments NCBI National Center for Biotechnology Information BLAST Basic Local Alignment Search Tool BLAT BLAST -Like Alignment Tool pb par(es) de bases mRNA RNA mensageiro DDD Digital Differential Display SBS Sequencing-By-Synthesis SBL Sequencing-By-Ligation AE Anchoring Enzyme TE Tagging Enzyme SNP Single Nucleotide Polymorphism InDel Insertion-Deletion polymorphisms nt nucleotı́deo ATP adenosina trifosfato KEGG Kyoto Encyclopedia of Genes and Genomes GO Gene Ontology GOA Gene Ontology Annotation SOAP Simple Object Access Protocol HTTP HyperText Transfer Protocol EBI European Bioinformatics Institute INSDC International Nucleotide Sequence Database Collaboration MGC Mammalian Gene Collection ORF Open Reading Frame OBO Open Biomedical Ontologies mRNPs messenger ribonucleoproteins MIAME Minimum Information About a Microarray Experiment MAGE-ML Microarray Gene Expression Markup Language MGED Microarray Gene Expression Data UCSC University of California Santa Cruz OMG Object Management Group iAFLP introduced Amplified Fragment Length Polymorphism DDBJ DNA Data Bank of Japan RISC RNA-induced silence complex SGBD Sistema de Gerenciamento de Banco de Dados SO Sistema Operacional GEO Gene Expression Omnibus GIS Genome Institute of Singapore LICR Ludwig Institute for Cancer Research Poli(A) Poliadenilação GLGI Generation of Longer cDNA fragments from SAGE tags for Gene Identification CGAP Cancer Genome Anatomy Project RDF Resource Description Framework W3C World Wide Web Consortium KDD Knowledge Discovery Database SOM Self-Organizing Maps PCA Principal Component Analysis EM Expectation Maximization GSEA Gene Set Enrichment Analysis H2G Hyper- and Hypo-expressed Genes S3T Score System for Sequence Tags Perl Practical Extraction and Report Language HTML HyperText Markup Language CSS Cascading Style Sheets XML Extensible Markup Language AJAX Asynchronous Javascript And XML CGI Common Gateway Interface CPAN Comprehensive Perl Archive Network API Application Programming Interface GUI Graphical User Interface SQL Structured Query Language DER Diagrama Entidade-Relacionamento URI Uniform Resource Identifier URL Uniform Resource Locator GNU GNU is Not Unix GPL General Public License LGMB Laboratório de Genética Molecular e Bioinformática FAQ Frequently Asked Questions XLS Microsoft Excel Spreadsheet DECH doença do enxerto contra o hospedeiro SCU sangue de cordão umbilical MO medula óssea fc fold change d diferença 17 1 Introdução 1.1 Genômica A Genômica é uma área da Biologia Molecular que visa estudar o genoma de um determinado organismo, o que inclui sua organização estrutural e funções. Os projetos genomas, em especial o Projeto Genoma Humano (LANDER et al., 2001; VENTER et al., 2001), desencadearam uma revolução na área de Biologia e da Genética Molecular. Ela só foi possı́vel com o advento das tecnologias de seqüenciamento de Ácido Desoxirribonucléico/Deoxyribonucleic Acid (DNA) em larga-escala, que geraram um grande volume de informações biológicas de um determinado organismo. A fim de processar tais informações, o uso de métodos computacionais, fundamentados por modelos matemáticos e estatı́sticos, foi crucial para o sucesso dos projetos genomas. Nesse contexto surgiu a Bioinformática, como uma área da Biologia Computacional voltada ao desenvolvimento de novos métodos, algoritmos, bancos de dados e sistemas para extrair informações relevantes nesse universo de dados biológicos. A Genômica compreende a Genômica Estrutural e a Genômica Funcional (Seção 1.2). 1.2 Genômica Funcional As células que compõem um organismo possuem um genoma com um programa próprio de expressão gênica, que é ativado para exercer sua função mediante a um estı́mulo endógeno ou exógeno. O seqüenciamento completo de um genoma não é suficiente para esclarecer os mecanismos moleculares complexos envolvidos na regulação da expressão gênica. Essa etapa é apenas o inı́cio de um processo que visa compreender a função das estruturas ativas dos genomas. Essa etapa é conhecida como genômica estrutural, que engloba o seqüenciamento completo dos cromossomos e o mapeamento gênico. A etapa 1.2 Genômica Funcional 18 seguinte, conhecida como genômica funcional (HIETER; BOGUSKI, 1997), consiste em utilizar as informações providas pela genômica estrutural para o desenvolvimento de abordagens metodológicas aplicadas para a caracterização das funções gênicas. A atividade ou inatividade do gene (sua expressão), observada em condições biológicas especı́ficas, pode fornecer indı́cios sobre a função desse gene. Uma das estratégias mais eficientes, para tal finalidade, é a quantificação da expressão gênica em condições biológicas distintas (BUTTE, 2002). A genômica funcional é caracterizada por metodologias para obtenção de dados em larga escala combinadas com análises estatı́sticas e computacionais (MURRAY et al., 2007). Atualmente, como resultado dessa revolução dos projetos “-omas” (Figura 1), emerge uma nova área, a Biologia Sistêmica (SAUER; HEINEMANN; ZAMBONI, 2007), que é o estudo das interações entre os componentes de um sistema biológico para tentar compreender como os processos biológicos estão co-atuando em uma célula funcionalmente ativa. Essa nova área, procura integrar todas essas informações geradas nos estudos “omas” (Figura 1) e a partir disso obter novos conhecimentos observando o todo e não somente a soma das partes. Figura 1: Esquema de nomenclaturas na revolução dos projetos “-omas” em relação ao conceito de Biologia Sistêmica (Figura adaptada de Morel et al. (2004)). 1.3 Análise Global da Expressão Gênica 1.3 19 Análise Global da Expressão Gênica As análises de expressão gênica em larga escala têm sido geradas em larga escala a fim de determinar uma assinatura molecular única para os genes em diferentes tipos celulares e encontrar sua relação com determinado comportamento celular (EMMERT-BUCK et al., 2000). A transcrição gênica, ou sı́ntese de Ácido Ribonucléico/Ribonucleic Acid (RNA) é uma etapa essencial no contexto da regulação gênica. Normalmente, o produto final do gene é a proteı́na, obtida a partir de uma molécula de RNA mensageiro (mRNA), o qual direciona a sı́ntese protéica na etapa de tradução. Portanto, uma estimação qualitativa do proteoma (conjunto de proteı́nas expressas por uma determinada população de células) pode ser baseada em uma medida quantitativa do transcritoma (conjunto de todos os transcritos gênicos presentes em uma determinada população de células) (BRAZMA; VILO, 2000). Dessa forma, análises globais comparando os perfis de expressão gênica de amostras em condições biológicas distintas, são estudadas a fim de elucidar as caracterı́sticas transcricionais essenciais que determinam tais condições biológicas. As análises dos perfis de expressão gênica possibilitam além da compreensão dos mecanismos moleculares envolvidos na regulação da expressão gênica, permitem a identificação de genes diferencialmente expressos, os quais podem ser considerados biomarcadores para um determinado tipo celular, como, por exemplo, um determinado tipo de câncer (POLYAK; RIGGINS, 2001), no qual tais biomarcadores poderão ser úteis para um diagnóstico, prognóstico bem como potenciais alvos para intervenções terapêuticas. Um problema crı́tico dessas análises é que os resultados obtidos assumem proporções gigantescas com milhares de genes diferencialmente expressos, tornando difı́cil distinguir os genes que estão realmente envolvidos com o fenótipo de interesse dos que representam epifenômenos ou que estão diferencialmente expressos erroneamente. Uma aproximação lógica para identificar as caracterı́sticas essenciais de um processo, dado um grande conjunto de possibilidades observadas em uma variedade de sistemas independentes, é encontrar uma interseção entre as possibilidades observadas através de um conjunto de sistemas. Pois é esperado que as caracterı́sticas essenciais dos sistemas estejam muito representadas, enquanto que as caracterı́sticas especı́ficas, os epifenômenos e os resultados espúrios, tenham baixa representatividade (RHODES et al., 2004). 1.3 Análise Global da Expressão Gênica 1.3.1 20 Técnicas para a Análise Global da Expressão Gênica As análises globais da Expressão Gênica possibilitam determinar quais são os prováveis genes envolvidos em um determinado processo biológico e também como estão interagindo esses genes nas vias metabólicas ativas. Entre as tecnologias mais utilizadas destacamse os métodos baseados em hibridação [e.g. complementary DNA (cDNA) microarrays (SCHENA et al., 1995) e oligonucleotide-based microarrays (LOCKHART et al., 1996)] e, especialmente, os métodos baseados em seqüenciamento [e.g. análises de Expressed Sequence Tag (EST) (ADAMS et al., 1991; NETO et al., 2000) ou EST Based Expression experiments (EBE), Serial Analysis of Gene Expression (SAGE) (VELCULESCU et al., 1995), Massively Parallel Sinature Sequencing (MPSS) (BRENNER et al., 2000a)] e, mais recentemente, as técnicas baseadas na nova geração de seqüenciadores (METZKER, 2005; MARDIS, 2008a, 2008b; SHENDURE; JI, 2008). As técnicas baseadas em seqüenciamento utilizam a freqüência observada de fragmentos dos transcritos expressos na amostra. Esses fragmentos são obtidos a partir de clones de cDNA selecionados aleatoriamente. Eles devem ser seqüenciados para posteriormente serem identificados, agrupados e contados. A abundância de fragmentos encontrados para um determinado gene pode fornecer uma estimativa de sua atividade na amostra estudada, além de possibilitar a descoberta de novos genes (BOGUSKI; TOLSTOSHEV; DE, 1994; HARBERS; CARNINCI, 2005). É uma tecnologia considerada “aberta”, que permite ter uma visão geral de quais são os genes que estão sendo expressos, sem a necessidade de selecioná-los previamente como nos métodos baseados em hibridação. As técnicas baseadas em hibridação molecular, como os microarrays, em geral utilizam a propriedade de complementaridade dos ácidos nucléicos e sondas com seqüências complementares às das moléculas de interesse, que nesse caso é o RNA. Essas sondas são marcadas para posteriormente serem identificadas por meio de um scanner que captura a intensidade do sinal de hibridação que representa o nı́vel de expressão dos genes ativos. Microarrays De um modo geral, os experimentos de microarrays são baseados na hibridação de moléculas de RNA marcados radioativamente ou utilizando fluoróforos, com de DNA imobilizadas ordenadamente em um substrato sólido (e.g. lâmina de vidro). No caso dos microarrays de cDNA, usualmente se emprega a técnica de hibridação competitiva, onde o cDNA de cada amostra é marcado com um fluoróforo distinto (preferencialmente Cye3 1.3 Análise Global da Expressão Gênica 21 e Cye5). Em seguida, os cDNAs marcados são hibridados simultaneamente em uma única lâmina. Isso permite que a comparação da expressão gênica relativa das duas amostras seja realizada em um único experimento. No caso dos microarrays baseados em oligonucleotı́deos, cada arranjo é hibridado com cDNAs derivados de uma única amostra. O sinal de hibridação é normalizado permitindo a comparação dos resultados para as diferentes amostras. As duas tecnologias possuem sensibilidade e especificidade na identificação de transcritos diferencialmente expressos, apesar de identificada uma correlação relativamente baixa entre as duas tecnologias (YUEN et al., 2002), assim como entre as diferentes plataformas da mesma tecnologia (KUO et al., 2006b). A comparação entre dados de diferentes plataformas de microarrays é algo complicado, que não pode ser realizado diretamente. Dessa forma, meta-análises e estratégias para combinar os dados de diferentes plataformas têm sido propostas (PARMIGIANI et al., 2004; RHODES et al., 2004). EST Based Expression experiments A análise de expressão gênica utilizando ESTs (EBE) inicia com o seqüenciamento de fragmentos (tags) obtidos de posições aleatórias do transcrito. Eles possuem tamanhos variados (tipicamente 400 a 600 par(es) de bases (pb)) com uma taxa de erro de 2%. Essas tags devem ser submetidas a um procedimento de filtragem de qualidade e em seguida a sucessivos alinhamentos de seqüências, para a identificação de similaridade com seqüências contaminantes de vetores, adaptadores, ribossomais, mitocondriais, seqüências de baixa-complexidade, repetições ou qualquer outro contaminante externo. As seqüências que passaram por este crivo são anotadas contra bancos de dados de seqüências de transcritos já bem caracterizadas e também com as seqüências do genoma para a identificação da origem da transcrição. Adicionalmente, essas seqüências são agrupadas usando as coordenadas obtidas nas etapas de alinhamento. Essa estratégia é utilizada para a construção do UniGene. O UniGene (SCHULER, 1997) é uma iniciativa do National Center for Biotechnology Information (NCBI) para promover uma visão organizada do transcritoma por meio de um sistema analı́tico automatizado. Esse sistema agrupa as seqüências já bem caracterizadas de genes e as ESTs depositadas no dbESTs (BOGUSKI; LOWE; TOLSTOSHEV, 1993), o qual é uma divisão do banco de dados de seqüências biológicas do NCBI, o GenBank (BENSON et al., 2009). Isso é possı́vel devido ao fato dessas ESTs serem redundantes comparadas entre si. Esses agrupamentos (clusters) de seqüências de transcritos simila- 1.3 Análise Global da Expressão Gênica 22 res, que em teoria, provêm de um mesmo gene. Além de ser utilizado como repositório de seqüências para o uso em inúmeros projetos de mapeamento, o UniGene é também utilizado em projetos de expressão gênica em larga escala. A versão atual do UniGene para a espécie humana (Build #219) possui 123.641 agrupamentos, dos quais 33.037 possuem pelo menos uma seqüência de mRNA bem caracterizada. O UniGene ainda inclui uma ferramenta para a análise diferencial de expressão gênica, Digital Differential Display (DDD) (MURRAY et al., 2007), que emprega o método estatı́stico de Fisher (FISHER, 1922) para determinar a significância da diferença de abundância de ESTs de um mesmo cluster entre bibliotecas. Essa abordagem foi empregada com sucesso em vários estudos para a identificação de genes regulados diferencialmente (SCHEURLE et al., 2000). Porém, alguns pontos devem ser levados em conta na interpretação dos dados de expressão gênica a partir de bibliotecas de cDNA (PEVSNER, 2009): Viés em relação aos tipos de bibliotecas construı́das (e.g. maior quantidade de bibliotecas de cérebro e fı́gado); Variabilidade na profundidade do seqüenciamento de diferentes bibliotecas; Viés em relação à comparação de bibliotecas normalizadas e não-normalizadas; Alta taxa de erro de seqüenciamento; Seqüências quiméricas podem contaminar a biblioteca. Serial Analysis of Gene Expression A tecnologia SAGE é uma das tecnologias baseadas no seqüenciamento de pequenos fragmentos de cDNA de uma região relativa do transcrito. O princı́pio que fundamenta a metodologia de SAGE é baseado no pressuposto de que esse pequeno fragmento (tag) contém informação suficiente para identificar univocamente um gene, considerando que essa tag é obtida de um único local no transcrito. Há uma estimativa teórica de que mais de 99,8% de tags de 21-pb que ocorrem uma única vez em genomas do tamanho do genoma humano. Considerando a informação de ∼16.000 genes humanos conhecidos, é esperado que 75% das tags de 21-pb ocorram uma única vez no genoma humano (SAHA et al., 2002). Essas pequenas moléculas de cDNA são obtidas de tal forma que podem ser concatenadas em série constituindo uma longa molécula (concatâmero) que é então clonada e seqüenciada. Por fim, as tags podem ser isoladas, e quantificadas. A quantificação 1.3 Análise Global da Expressão Gênica 23 do número de vezes que uma tag em particular foi observada provê o nı́vel de expressão do gene correspondente. Com isso, SAGE permite uma análise quantitativa e simultânea de um grande número de transcritos. Geralmente um único experimento pode gerar uma biblioteca de aproximadamente 50.000 tags. A análise dos dados de SAGE permite não apenas quantificar o nı́vel de expressão dos genes, mas também identificar novos genes (CHEN et al., 2002) ou formas alternativas de transcritos (KUO et al., 2006a; GE et al., 2006; KEIME et al., 2007), como por exemplo, transcritos gerados por encadeamentos alternativos de exons e/ou Poli(A) alternativa, ou transcritos “anti-senso”. No método de SAGE (Figura 2) os mRNAs são isolados utilizando métodos convencionais e, os cDNAs são sintetizados após hibridação com oligo-dTs biotinilados, através da cauda Poli(A), e digeridos com uma enzima de restrição, chamada de enzima de ancoragem - Anchoring Enzyme (AE) (e.g. NlaIII ). O protocolo original (VELCULESCU et al., 1995) utiliza a enzima NlaIII que reconhece a seqüência CATG. Os fragmentos correspondentes à região 3’ dos RNAs são capturados por estreptavidina ligada a partı́culas magnéticas (beads) e seletivamente purificados. Essa reação é dividida em 2 alı́quotas iguais e em cada alı́quota é feita a ligação de um dos 2 adaptadores utilizados (Anexo A). Os adaptadores contêm um sı́tio de reconhecimento para outra enzima de restrição, chamada de enzima de etiquetagem - Tagging Enzyme (TE), uma endonuclease de restrição do tipo IIs (e.g. BsmFI ) e também um sı́tio de iniciação (priming) de Polymerase Chain Reaction (PCR). Após essa ligação é realizada a clivagem pela AE que cliva de forma abrupta o fragmento a uma distância acima de 20-pb a partir do sı́tio de reconhecimento, e assim o libera das partı́culas magnéticas de estreptavidina. As duas alı́quotas são reunidas novamente em um pool e os dois conjuntos de moléculas linker -tag são ligados juntos para formar moléculas linker -ditag-linker, que podem ser amplificadas por PCR usando primers especı́ficos. As ditags são liberadas por meio de uma clivagem utilizando novamente a AE, são isoladas e ligadas umas às outras para formar os concatâmeros, os quais podem ser clonados e seqüenciados. O método original gera tags de até 14-pb, porém ele sofreu modificações e é chamado de LongSAGE (SAHA et al., 2002), capaz de gerar tags de até 21-pb utilizando outra enzima de etiquetagem (MmeI substituindo a BsmFI. Em teoria uma tag de 21-pb pode distinguir uma em 17.179.869.184 (417 ) seqüências enquanto uma tag de 14-pb pode distinguir uma em 1.048.576 (410 ) seqüências. Assumindo que o genoma contém ∼ 30 ∗ 106 tags derivadas da AE NlaIII e é composto de seqüências aleatórias, a probabilidade de a tag contendo 1.3 Análise Global da Expressão Gênica 24 Figura 2: Esquema do protocolo original da técnica de SAGE. Os números correspondem aos passos para a execução do protocolo. (1) Preparação do RNA; (2) Sı́ntese de cDNA; (3) Clivagem do cDNA biotinilado com a enzima de ancoragem - Anchoring Enzyme (AE); (4) Ligação do cDNA biotinilado às partı́culas magnéticas (beads); (5) Ligação dos adaptadores (linkers) à fita de cDNA; (6) Liberação das tags de cDNA usando a enzima de etiquetagem - Tagging Enzyme (TE); (7) tags de cDNA com extremidades coesivas que foram liberadas; (8) Ligação das tags para formação de ditags; (9) Amplificação das ditags por PCR; (10) Isolamento das ditags; (11) Purificação das ditags; (12) Ligação das ditags para a formação dos concatâmeros; (13) Clonagem e seqüenciamento dos concatâmeros. (Figura obtida do protocolo original disponı́vel em http://www.sagenet.org). 14-pb ser única no genoma é ı́nfima e contendo 21-pb é de ∼99,83% (SAHA et al., 2002). Isso mostra que a técnica de LongSAGE além de reduzir os problemas de ambigüidade do mapeamento das tags, pode fornecer com maior eficácia evidências de transcrição para genes preditos, identificar novos exons e genes ainda não caracterizados (WAHL; 1.3 Análise Global da Expressão Gênica 25 HEINZMANN; IMAI, 2005), provendo dessa forma informações valiosas para a anotação de genomas. É importante considerar que o aumento no tamanho da tag diminui a eficiência do seqüenciamento devido à extensão da seqüência da tag e portanto poucas tags por leitura, além de um aumento na taxa de erro por tag. Assumindo uma taxa de erro de seqüenciamento de 1% por base, é esperado que 14% das tags de 14-pb contenham erros, e 21% no caso de tags de 21-pb. Ao longo dos anos, além dessa adaptação inserida na técnica original para obter tags maiores, outros ajustes foram sugeridos para: Aumentar o tamanho das tags (RYO et al., 2000; MATSUMURA et al., 2003); Reduzir a contaminação por adaptadores (POWELL, 1998; YE et al., 2000); Aumentar a eficiência da digestão pela enzima de ancoragem (ANGELASTRO; KLI- MASCHEWSKI; VITOLO, 2000); Prevenir o viés relacionado ao conteúdo de GC (MARGULIES; KARDIA; INNIS, 2001); Aumentar a eficiência de ligação dos adaptadores (SO; TURNER; HAYNES, 2004); Construir bibliotecas a partir de uma menor quantidade de amostra de RNA total (DATSON et al., 1999; PETERS et al., 1999; RYO et al., 2000; YE et al., 2000; NEILSON et al., 2000; VIRLON et al., 1999; VILAIN et al., 2003; GOWDA et al., 2004); Aumentar a eficiência na clonagem e aumentar o tamanho dos insertos (KENZEL- MANN; MUHLEMANN, 1999; GOWDA et al., 2004); Reduzir as reações de PCR reduzindo, e dessa forma, reduzir o viés introduzido na etapa de amplificação (RYO et al., 2000; GOWDA et al., 2004); Detectar a expressão de pequenos RNAs, como microRNAs (miRNAs) (CUMMINS et al., 2006); Obter tags da região 3’ do transcrito (WEI et al., 2004; HASHIMOTO et al., 2004), permitindo também a análise de regiões promotoras; 1.3 Análise Global da Expressão Gênica 26 Aumentar a sensibilidade da técnica combinando LongSAGE com o seqüenciamento utilizando a nova geração de seqüenciadores (e.g. DeepSAGE (NIELSEN; HOGH; EMMERSEN, 2006), SuperSAGE (MATSUMURA et al., 2008) e LongSAGE Solexa (HANRIOT et al., 2008)). Ao final do seqüenciamento as seqüências dos concatâmeros estão contidas em cromatogramas, que devem ser analisados realizando-se a leitura das bases e atribuindo-se um valor de qualidade a cada uma delas (EWING et al., 1998) (base-calling). Dentre os aplicativos que fazem a extração e a contagem das tags estão: SAGE300 (ZHANG et al., 1997), SAGE20001, eSAGE (MARGULIES; INNIS, 2000) e USAGE (KAMPEN et al., 2000). Esses softwares essencialmente identificam e extraem as ditags, descartam as ditags muito pequenas ou muito longas, consideradas artefatos da técnica, removem as ditags duplicadas, que provavelmente podem ocorrer como produtos de amplificação, e removem tags correspondentes aos adaptadores (linkers). As tags são extraı́das das ditags remanescentes, obter a seqüência complementar reversa da tag quando for necessário para apresentá-la na orientação 5’-3’, e por fim, contadas as ocorrências. Esse processamento resulta em uma lista de tags, cada uma com sua respectiva freqüência. A técnica SAGE fornece a contagem de uma determinada tag como evidências da transcrição do gene ao qual ela foi originada e o mapeamento da tag ao seu gene permite dar sentido biológico ao pequeno fragmento. Atualmente há diversas metodologias que permitem obter essa associação (LASH et al., 2000; KAMPEN et al., 2000; BOON et al., 2002; PLEASANCE; MARRA; JONES, 2003; KEIME et al., 2004; BALA et al., 2005; MALIG et al., 2006; GALANTE et al., 2007; ROBERTSON et al., 2007), entretanto as mais populares são o SAGEmap (LASH et al., 2000) do NCBI, que foi base o desenvolvimento de outros métodos de mapeamentos, e o SAGE Genie (BOON et al., 2002) do Cancer Genome Anatomy Project (CGAP). Ambas as metodologias provêm mapeamentos confiáveis para as espécies Homo sapiens e Mus musculus. De um modo geral, o mapeamento é feito através de bancos de dados de tags virtuais. As tags virtuais são predições de regiões nas seqüências de transcritos que podem ser produzidas por um experimento de SAGE, ou seja, as seqüências (de 10-pb, utilizando a TE BsmFI, de 17-pb, utilizando a TE MmeI ) adjacentes aos sı́tios de reconhecimento das AEs (CATG no caso da NlaIII, GATC no caso da DpnII ou Sau3AI ) mais próximos à extremidade 3’. As tags virtuais são obtidas a partir das seqüências depositadas em bancos de dados 1 http://www.sagenet.org 1.3 Análise Global da Expressão Gênica 27 públicos (e.g. GenBank (BENSON et al., 2009), RefSeq (PRUITT; TATUSOVA; MAGLOTT, 2005), dbEST (BOGUSKI; LOWE; TOLSTOSHEV, 1993), UniGene (SCHULER, 1997), MGC (STRAUSBERG et al., 1999)). As seqüências são orientadas no sentido 5’-3’, usando as evidências possı́veis sobre a orientação, o sinal de Poliadenilação (Poli(A)) (AAUAAA ou AUUAAA), a cauda de Poli(A) (seqüencia contı́gua de Adeninas ou Timinas em uma das extremidades) e a anotação manual da orientação (3’ ou 5’) da seqüência. As tags virtuais são extraı́das das prováveis regiões de onde poderiam ter sido obtidas tags verdadeiras. Normalmente são extraı́das quatro tags (quando possı́vel) mais próximas à extremidade 3’ e classificadas de acordo com a confiabilidade: 1. Obtidas de seqüências de mRNAs (ou cDNAs) de genes bem conhecidos e caracterizados; 2. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) anotadas como seqüências 3’; 3. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) mas sem anotação 3’ ou 5’; 4. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) anotadas como seqüências 5’; 5. Obtidas de seqüências de ESTs sem sinal de Poli(A) e/ou cauda de Poli(A) anotadas como tendo orientação 3’. O que geralmente acontece é que uma tag pode mapear em múltiplos transcritos ou múltiplas tags podem mapear em um mesmo transcrito. Portanto, para cada tag, outros dois parâmetros de qualidade são calculados: (i) a freqüência de uma associação gene-tag, e (ii) a freqüência de uma associação tag-gene. A análise desses parâmetros possibilita obter uma lista de associações mais confiáveis. Ao final do processo de mapeamento as tags são associadas a um identificador de um cluster do UniGene, que em teoria, contém seqüências que representam um único gene (SCHULER, 1997). O mapeamento é uma etapa crucial, pois resultados de mapeamentos que são ambı́guos, incorretos ou não disponı́veis podem conduzir a interpretações errôneas ou incompletas sobre a expressão gênica (PLEASANCE; MARRA; JONES, 2003). Porém ainda há outras considerações importantes. 1.3 Análise Global da Expressão Gênica 28 O método SAGE é um método de amostragem, e isso leva a algumas dificuldades como por exemplo: alguns transcritos pouco abundantes podem não ser vistos ou o número de contagens pode não refletir acuradamente sua verdadeira abundância nas células devido a erros sistemáticos ou de seleção (MARGULIES; KARDIA; INNIS, 2001) inerentes ao processo experimental da técnica, que persistem apesar das diversas melhorias acrescentadas ao protocolo original ao longo dos anos. Entre os aspectos do SAGE que devem ser levados em consideração (STOLLBERG et al., 2000) encontram-se: erro de amostragem, erro de seqüenciamento, ambigüidade na identidade da seqüencia, a não aleatoriedade da seqüência de DNA (fontes de não aleatoriedade: mutação dinucleotı́deo, pressão seletiva, evolução de genes de um ancestral comum, elementos repetitivos, etc.). Entre outras dificuldades que podem ser encontradas podem ser incluı́das as seguintes: contaminação da amostra, processamentos alternativos de RNAs (e.g. alternative splicing, Poli(A) alternativa), polimorfismos de DNA (e.g. Single Nucleotide Polymorphism (SNP) e Insertion-Deletion polymorphisms (InDel)), mapeamentos incorretos devido a dados incompletos de seqüências. Um estudo recente relatou o impacto de SNPs na interpretação de dados experimentais de SAGE e MPSS, onde foi observado ao menos uma tag alternativa associada a SNP para aproximadamente 8,6% dos genes humanos conhecidos, uma fração significativa dessas tags (61,9%) foram encontradas em dados experimentais. Além disso, há o impacto dos erros na seqüência, que podem ser introduzidos em qualquer etapa da técnica, a biotinilação, transcrição reversa, digestão enzimática, ligação, PCR, clonagem e seqüenciamento. Porém, geralmente ocorrem nas etapas de PCR e seqüenciamento. Na etapa de PCR, a DNA polimerase pode introduzir erros durante a sı́ntese do DNA. A taxa de tais erros pode variar de acordo com a eficiência da polimerase e as condições da reação. Esses erros se propagam através dos ciclos da reação (∼25-30). Em um estudo anterior (AKMAEV; WANG, 2004) foi encontrada uma proporção esperada de ∼3,5% de tags LongSAGE com acúmulo de mutação nessa etapa, considerando taxa estimada de erro de duplicação de ∼0.55% (ditag de 33 nts), eficiência da Taq DNA polimerase de 88% (KEOHAVONG; THILLY, 1989) e 27 ciclos. No caso do seqüenciamento a proporção esperada para tags com erros foi de ∼15,6%, considerando uma ditag de 33 nts e taxa de erro de seqüenciamento por base de 1% (phred 20) (EWING et al., 1998). Combinando essas duas contribuições majoritários para erros, a proporção esperada de erro nas tags LongSAGE, segundo esse estudo, é de ∼17,3%. Há ainda um estudo com evidências de que a taxa de erro para tags de 10-pb está em torno de 1,67% (CHEN et al., 2002). 1.3 Análise Global da Expressão Gênica 29 Esses artefatos da técnica podem conduzir a estimações errôneas, por exemplo, um erro na seqüência de tags abundantes ou em muitas tags combinadas, pode alterar significativamente a freqüência de tags cujas seqüências sejam similares (COLINGE; FEGER, 2001). A conseqüência é baixa para a identificação de expressão diferencial para transcritos moderadamente expressos mas é alta para a detecção de transcritos raros e identificação de novos genes. Além disso, há a introdução de ruı́dos no perfil de expressão gênica global de uma amostra inviabilizando a caracterização completa do transcritoma dessa amostra. Massively Parallel Signature Sequencing O método MPSS clássico foi desenvolvido pela empresa Lynx Therapeutics, e é baseado nos mesmos princı́pios de SAGE, ou seja, na produção e quantificação de tags, que são identificadas próximas à extremidade 3’ dos transcritos. Porém o método de MPSS utiliza a clonagem in vitro de fragmentos de DNA em micropartı́culas (microbeads) (BRENNER et al., 2000b) e no seqüenciamento em larga escala dessas partı́culas por um método de seqüenciamento de assinaturas (MPSS tags) baseado em fluorescência (BRENNER et al., 2000a), que não necessita de separação fı́sica dos fragmentos a serem seqüenciados. A assinatura é derivada da seqüência adjacente ao sı́tio de restrição para a enzima DpnII ou Sau3AI (GATC), mais próxima à cauda poli(A) na região 3’ da molécula de cDNA original. As etapas de seqüenciamento consistem de uma série de repetidos ciclos de digestões, ligações, e hibridações com sondas. O processo inicia com a digestão pela enzima de restrição DpnII que expõe a seqüências de nucleotı́deos GATC, o que permite a ligação do adaptador que possui uma seqüência de nucleotı́deos complementar em sua extremidade coesiva. Esse adaptador contém um sı́tio de ligação para uma endonuclease de restrição do tipo IIs (e.g. BbvI ). A enzima de restrição liga-se à sonda adaptadora e cliva o cDNA, expondo as próximas 4 bases a serem decodificadas. Após a digestão 4 bases desconhecidas são expostas. Para a identificação das novas bases expostas são utilizados séries de adaptadores (Anexo C) que codificam cada nucleotı́deo especı́fico em cada uma das 4 posições. A identidade e a ordem dos nucleotı́deos são então obtidas pela hibridação, uma por vez, de cada um das 16 sondas decodificadoras aos seus respectivos sı́tios de ligação no adaptador. Estas reações ocorrem em etapas consecutivas enquanto as partı́culas esféricas permanecem imobilizadas em células de fluxo sob um microscópio de alta potência, possibilitando o fluxo de reagentes ao longo e em torno das partı́culas esféricas. 1.3 Análise Global da Expressão Gênica 30 Os arquivos de imagens de fluorescência de cada etapa são processados para obter a leitura das assinaturas de cada partı́cula. Esse procedimento é executado em paralelo, e aproximadamente 1 milhão de assinaturas são obtidas por experimento, possuindo altı́ssima sensibilidade, permitindo a identificação de transcritos pouco abundantes e geralmente ainda não caracterizados. Assinaturas de ∼16-20-pb são obtidas a partir de cada partı́cula (bead ) com 5 ciclos. O tamanho maior da tag garante maior especificidade. A aplicação da técnica de MPSS ainda possui peculiaridades que devem ser consideradas na análise e interpretação dos resultados. Dentre essas particularidades estão incluı́dos os casos dos genes que não podem ser detectados por não possuı́rem o sı́tio para a enzima de restrição utilizada (DpnII ou Sau3AI ), e também os casos dos genes que possuem esse sı́tio de restrição distante da extremidade 3’ do transcrito (e.g. >800-pb) e que podem não ser detectados através do método clássico em conseqüência de um viés relativo à posição da tag, de acordo com o reportado na literatura cientı́fica (JONGENEEL et al., 2005). Resumidamente, a diferença entre o método clássico e o método MPSS baseado em assinaturas (MEYERS et al., 2004) é que no primeiro todo o fragmento 3’-DpnII -poli(A) é clonado, enquanto o segundo utiliza uma endonuclease de tipo IIs (MmeI ) para clonar fragmentos de apenas 21 a 22-pb, os quais incluem um sı́tio de reconhecimento para a enzima DpnII, o que poderia resolver o viés relativo à distância da tag existente no método clássico. No entanto, há estudos que encontram evidências desse tipo de viés em ambos os métodos (CHEN; RATTRAY, 2006), e que portanto devem ser considerados. O método de mapeamento de tags da técnica MPSS é semelhante ao utilizado para SAGE. Next-generation sequencing As novas tecnologias de seqüenciamento têm rapidamente reduzido o tempo e o custo do seqüenciamento completo de um genoma (BENNETT et al., 2005) com excelente cobertura, resolução e sensibilidade. Essas metodologias têm sido empregadas no “reseqüenciamento” de genomas, possibilitando o seqüenciamento completo de genomas individualizados (WHEELER et al., 2008), e comparações entre genomas (KIDD et al., 2008). Isso permitirá o mapeamento de novas variações genéticas estruturais, especialmente com a utilização das estratégias de mapeamentos de seqüências paired-ends (KORBEL et al., 2007). O seqüenciamento de cDNA também é possı́vel para permitir uma análise do transcritoma com uma maior resolução. Os dados gerados por essas novas tecnologias de seqüenciamento são naturalmente adaptados às análises funcionais do genoma (WOLD; 1.3 Análise Global da Expressão Gênica 31 MYERS, 2008). Três sistemas da nova geração de seqüenciadores de DNA estão disponı́veis comercialmente: GS FLX System (454 Life Sciences e Roche Applied Science), 1G Genome Analyzer (Illumina) e o SOLiD(Applied Biosystems). Os pontos centrais para a excepcional capacidade destes novos equipamentos estão na amplificação do DNA sem a necessidade da clonagem bacteriana e no método de seqüenciamento, que é baseado em sı́ntese - Sequencing-By-Synthesis (SBS), ou ligação Sequencing-By-Ligation (SBL), diferentemente do tradicional seqüenciamento automático (SMITH et al., 1986; PROBER et al., 1987) baseados no método de Sanger (SANGER; NICKLEN; COULSON, 1977), baseado na terminação de cadeia. Resumidamente, o DNA a ser seqüenciado é fragmentado, os fragmentos são amplificados independentemente por PCR de forma que os produtos finais fiquem separados espacialmente na mesma reação. 454 (RUSK; KIERMER, 2008) A preparação da amostra inicia com a ligação de adaptadores aos fragmentos de DNA para facilitar sua captura em partı́culas esféricas (beads) (somente um fragmento por partı́cula) para amplificá-los individualmente dentro de uma gotı́cula de emulsão de água e óleo contendo os reagente de PCR. Após a amplificação a emulsão é quebrada, o DNA é desnaturado e as partı́culas com seus respectivos fragmentos são distribuı́das em poços de uma lâmina de fibra ótica. Para o seqüenciamento (piroseqüenciamento) (MARGULIES et al., 2005), os poços são carregados com as enzimas de seqüenciamento e primers (complementares ao adaptador na extremidade do fragmento), e expostos a um fluxo de um nucleotı́deo sem marcação por vez, permitindo a sı́ntese de uma fita complementar do DNA a ser seqüenciado. Quando o nucleotı́deo é incorporado, pirofosfato é liberado e convertido para adenosina trifosfato (ATP), o qual alimenta a conversão dirigida pela luciferase de luciferina para oxiluciferina e luz, quando isso acontece o poço acende. O tamanho da seqüencia obtida é de 100 a 150 nucleotı́deos. Solexa (RUSK; KIERMER, 2008) A preparação da amostra inicia com a ligação de adaptadores na extremidade, a desnaturação e a ligação de uma das extremidades à superfı́cie sólida já revestidas com uma densa camada de adaptadores. Cada fragmento fita-simples fica imobilizado por uma das extremidades enquanto a extremidade livre curva-se e hibrida com um adaptador complementar na superfı́cie, o qual inicia a sı́ntese de uma fita complementar na presença de reagentes de amplificação. Múltiplos ciclos dessa etapa de amplificação seguida de des- 1.3 Análise Global da Expressão Gênica 32 naturação geram agrupamentos (clusters) distribuı́dos aleatoriamente sobre a superfı́cie e constituı́dos por aproximadamente 1.000 cópias de fitas-simples de moléculas de DNA. Para o seqüenciamento utilizando terminadores reversı́veis (BENTLEY et al., 2008), os reagentes de sı́ntese são adicionados à célula de fluxo. Esses reagentes são primers, DNA polimerase e 4 diferentes nucleotı́deos terminadores reversı́veis marcados com fluoróforos. Após a incorporação de um nucleotı́deo, o qual é identificado por uma cor, e após a excitação por laser a imagem da fluorescência emitida em cada um dos cluster é capturada e a leitura de cada uma das bases é obtida. O terminador 3’ e o fluoróforo são removidos de cada uma das bases incorporadas. Esse ciclo é repetido para a leitura de 30 a 35 nucleotı́deos por seqüência. SOLiD (RUSK; KIERMER, 2008) A preparação das amostras inicia com a ligação de adaptadores aos fragmentos de DNA, os quais são amplificados em partı́culas esféricas por PCR em emulsão. O DNA é desnaturado e as partı́culas depositadas em uma lâmina de vidro. O seqüenciamento é realizado utilizando uma versão desenvolvida pela Applied Biosystems do método de seqüenciamento por ligação SBL (SHENDURE et al., 2005). Para o seqüenciamento, um primer de seqüenciamento anela ao adaptador de forma que sua extremidade 5’ fica disponı́vel para a ligação de oligonucleotı́deos que podem anelar na seqüência adjacente (molde). Uma mistura de oligonucleotı́deos octâmeros que competem pela ligação na seqüência. Esses nucleotı́deos são sondas marcadas com uma fluorescência que identifica um dos 4 dinucleotı́deos (CA, CT, GG e GC) que ficam em posições especı́ficas dessas moléculas (4ª e 5ª posições). Essas cores são registradas e o oligonucleotı́deo é clivado (entre a 5ª e a 6ª posição) removendo a marcação e reiniciando o ciclo de ligação, detecção e clivagem. O número de ciclos determina a quantidade de bases que são seqüenciadas de cada fragmento. Na primeira rodada o processo determina as possı́veis identidades das bases nas posições 4, 5, 9, 10, 14, 15, etc.. O processo é repetido, com o deslocamento de uma base utilizando uma seqüência de primer mais curta a cada rodada (na segunda rodada é possı́vel determinar as posições 3, 4, 8, 9, 13, 14, etc.) até alcançar a posição inicial desse primer. A identidade dessa primeira base do primer é conhecida, portanto podemos utilizar esse sistema de cores para decodificar o restante das bases dessa primeira até a última. A seqüência do fragmento é obtida combinando as informações de posicionamento e cores. O tamanho da seqüência do fragmento, atualmente está entre 30 e 35 nucleotı́deos. 1.3 Análise Global da Expressão Gênica 1.3.2 33 Comparações entre as tecnologias No geral há vantagens e desvantagens em cada uma das tecnologias para estudo do transcritoma. Dentre os problemas técnicos dos métodos baseados em hibridação, destacam-se a necessidade de sintetizar os microarranjos com sondas de DNA pré-selecionadas (o que não é muito bem escalável com genomas muito grandes), os consideráveis problemas de hibridação cruzada, as dificuldades com a quantificação do sinal de hibridação (devido à sua natureza contı́nua) e também às dificuldades de padronização, calibragem e normalização para a comparação apropriada entre os diferentes experimentos. Dentre os problemas técnicos dos métodos baseados em seqüenciamento destacam-se de uma forma geral o mapeamento ambı́guo da seqüência em relação às seqüências de referência e os erros nas seqüências. Dentre os métodos baseados em seqüenciamento, a técnica de SAGE, possui maior sensibilidade na detecção de transcritos pouco abundantes comparada com as EBEs (SUN et al., 2004), apesar das limitações de SAGE que são: Conter pouca informação sobre a seqüência; Pouco especı́fica para a representação de um único transcrito, especialmente para as tags muito abundantes (LEE et al., 2002); Não é possı́vel detectar transcritos que não possuam o sı́tio de reconhecimento para a enzima âncora (e.g. NlaIII - CATG), embora o número desses transcritos seja baixo, 151 (7,8%) de 19.399 cDNAs completos (full-length) humanos no banco de dados RefSeq (SUN et al., 2004); O erro em uma única base pode comprometer o mapeamento correto. Em teoria a taxa de erro de seqüenciamento estimada é de aproximadamente 10%, apesar de que existe uma estimativa de taxa de erro de 1,67% (CHEN et al., 2002) por tag. Além disso, aproximadamente 70% das tags de SAGE pouco abundantes representam transcritos reais com baixa expressão comprovados por meio de experimentos utilizando o método Generation of Longer cDNA fragments from SAGE tags for Gene Identification (GLGI) (CHEN et al., 2002), demonstrando, dessa forma, a sensibilidade da técnica. A técnica MPSS pode gerar até 2 milhões de tags confiáveis a partir de 500 ng de mRNA, porém a técnica RL-SAGE (GOWDA et al., 2004) pode gerar até 4,5 milhões de tags a partir de 50 ng de mRNA se todos os clones forem seqüenciados. Além disso, MPSS 1.3 Análise Global da Expressão Gênica 34 é uma técnica complexa e somente disponı́vel por meio da Lynx Therapeutics, Inc. além de haver restrições proprietárias envolvidas, a técnica SAGE é mais simples e acessı́vel. A técnica RL-SAGE possui duas limitações significativas, uma é o alto custo para o seqüenciamento dos clones [U$6 por clone (GOWDA et al., 2004)], a qual pode ser resolvida no futuro com o aperfeiçoamento das tecnologias de seqüenciamento. A outra limitação é que para ser detectado o transcrito deve possuir um sı́tio para a enzima de restrição âncora, neste caso a enzima NlaIII, essa limitação pode ser contornada com a construção de uma biblioteca adicional utilizando outra enzima âncora, como a DpnII ou a Sau3AI. A técnica MPSS também possui essas limitações, ela não oferece vantagens com relação ao custo, ao tempo e volume de trabalho necessário, quando comparada com os microarrays. Todas as tecnologias apresentadas possuem caracterı́sticas próprias que devem ser consideradas, e podem muitas vezes ser complementares umas às outras apesar da moderada concordância entre as tecnologias (LIU et al., 2007), em especial para os genes pouco abundantes. Entretanto, comparações entre os diferentes sistemas e plataformas para a determinação de perfis de expressão gênica têm sido propostas como uma alternativa para a validação de genes em larga escala (CHUAQUI et al., 2002), visto que os métodos comumente utilizados com o propósito de validação dos resultados (e.g. quantitative Polymerase Chain Reaction (qPCR) (VANGUILDER; VRANA; FREEMAN, 2008)) consomem muito tempo e recursos, e portanto podem ser considerados praticamente inviáveis para serem executados em uma escala maior. Contudo, a comparação entre os dados de diferentes sistemas deve ser feita com cautela, como demonstrado em um estudo anterior (HAVERTY et al., 2004), o qual identificou nı́veis variados de concordância entre os dados gerados pelos métodos de SAGE, microarrays e EBE. As novas tecnologias de seqüenciamento também não constituem a solução definitiva para análise do transcritoma. De 15-20% das seqüências no genoma humano não podem ser mapeadas claramente em um único local, uma vez que ocorrem mais de uma vez no genoma (WOLD; MYERS, 2008). 1.3.3 Métodos de Análise de Expressão Gênica Diferencial Os dados de perfis de expressão gênica obtidos com as técnicas de análise em largaescala assumem proporções gigantescas, exigindo a necessidade de métodos estatı́sticos e computacionais para a análise e seleção de uma fração desses dados que possuem significância no contexto biológico sob investigação. De um modo geral foram desenvolvidas 1.3 Análise Global da Expressão Gênica 35 abordagens para: identificar genes diferencialmente expressos (entre tipos celulares, estágios de desen- volvimento, condições patológicas, etc.); identificar genes expressos de um modo coordenado entre um conjunto de condições; identificar conjuntos de genes compartilhando o mesmo padrão de expressão, even- tualmente definindo vias metabólicas. O principal nos experimentos de expressão gênica diferencial é identificar os genes peculiares, os quais variam entre as duas condições, enquanto os genes ubı́quos não exibem essa variação. As abordagens variam de acordo com a natureza dos dados, ou seja, o processo pelo qual eles foram obtidos, por exemplo, se são dados baseados em seqüenciamento e amostragem de tags ou baseados em intensidade de sinal de hibridação. Recursos para a análise de dados de amostragem de tags Uma caracterı́stica dos dados baseados em amostragem de tags é que não há muitas réplicas e isso implica no fato de que não é possı́vel obter as estimativas dos erros padrões a partir da dispersão dos dados. Nos métodos disponı́veis atualmente, a medida de variância é obtida a partir de simulações ou baseadas nas propriedades de distribuição da tag (RUIJTER; KAMPEN; BAAS, 2002). De acordo com alguns trabalhos reportados na literatura (CLAVERIE, 1999; CAI et al., 2004) o resultado da amostragem de tags se aproxima de uma distribuição de Poisson ou de uma distribuição binomial ou multinomial (KAL et al., 1999; MAN; WANG; WANG, 2000), porém outros modelos foram propostos (VENCIO; BRENTANI; PEREIRA, 2003; VENCIO et al., 2004; THYGESEN; ZWINDERMAN, 2006; ZUYDERDUYN, 2007). Há uma série de métodos estatı́sticos que foram desenvolvidos para a análise dos dados e implementados em sistemas computacionais, entre eles estão os seguintes: SAGE300 (ZHANG et al., 1997), determina para cada comparação pareada de tags a probabilidade relativa de obter uma diferença na contagem igual ou maior do que a diferença observada por meio da aplicação do método de Monte Carlo para a simulação. A probabilidade resultante atua como um valor de significância (p-value) em um teste de significância unilateral; 1.3 Análise Global da Expressão Gênica 36 IDEG6 (ROMUALDI et al., 2003), um sistema web que possibilita a análise e a aplicação de seis diferentes métodos estatı́sticos: o teste estatı́stico de Audic e Claverie (AUDIC; CLAVERIE, 1997), o teste exato de Fisher (FISHER, 1922), o teste de χ 2 para comparações com amostras pareadas, o teste de Greller e Tobin (GRELLER; TOBIN, 1999), e o teste baseado na razão de verossimilhança (STEKEL; GIT; FALCIANI, 2000), o teste de χ 2 para comparações com múltiplas amostras; SAGEmap (LASH et al., 2000), sistema web disponı́vel no NCBI para a análise de dados de SAGE aplicando o método proposto por Chen et al. (1998) e adaptado por Lal et al. (1999); SAGE Genie (LIANG, 2002), sistema web disponı́vel no CGAP para a análise de dados de SAGE e também disponı́vel para ESTs, que calcula a razão (fold change) e um valor de significância estatı́stica, aplicando o método descrito por Lal et al. (1999); WEBSAGE (PYLOUSTER; SENAMAUD-BEAUFORT; SAISON-BEHMOARAS, 2005), sistema web que permite a comparação pareada entre duas bibliotecas com a aplicação do método de Audic e Claverie (1997) e a visualização do resultado em um gráfico de dispersão, além de fornecer informações funcionais obtidas do Kyoto Encyclopedia of Genes and Genomes (KEGG) (KANEHISA; GOTO, 2000), BioCarta e Gene Ontology (GO) (HARRIS et al., 2004); POWER SAGE (MAN; WANG; WANG, 2000), sistema que gera bibliotecas de SAGE virtuais de diferentes tamanhos e freqüências de tags e determina o poder para os testes estatı́sticos, de Audic e Claverie, χ 2 e Fisher; USAGE (KAMPEN et al., 2000), sistema web integrado a um banco de dados com informações de mapeamento de tags e um conjunto de bibliotecas públicas, que possui várias ferramentas para extração de tags a partir das seqüências dos concatâmeros de SAGE, para consultas à base de dados, para realizar análises comparativas aplicando o teste estatı́stico descrito por Kal et al. (1999) e para o planejamento de futuros experimentos baseado no poder desse teste. O sistema USAGE oferece uma área para o usuário manipular suas consultas e armazenar os resultados; DiscoverySpace (ROBERTSON et al., 2007), um sistema que integra 26 bancos de dados que contêm informações funcionais, de seqüências, expressão gênica e mapeamento de tags. Todas essas informações são reunidas em um único banco de dados 1.3 Análise Global da Expressão Gênica 37 relacional, de onde é possı́vel consultar os dados de interesse, realizar análises comparativas (aplicando o teste estatı́stico de Audic e Claverie), visualizar o resultado em um gráfico de dispersão, gerar conjuntos de tags especı́ficas, além de outras funcionalidades. Utiliza as especificações Resource Description Framework (RDF) do consórcio World Wide Web Consortium (W3C) como linguagem de metadados para a integração dos dados (WANG; GORLITSKY; ALMEIDA, 2005); Identitag (KEIME et al., 2004), é um sistema que realiza a identificação das tags em bancos de dados de seqüências gênicas, por meio de um processo em série que classifica a identidade da tag em diversas situações. O processo de anotação fornece uma conexão entre as seqüências de transcritos de diferentes espécies, baseada no conceito de ortologia (FITCH, 1970), permitindo a comparação da abundância de tags inter-espécies; SQUAT (LEYRITZ et al., 2008) é um sistema que contém um banco de dados de ex- pressão gênica com informações funcionais e ferramentas para aquisição de conhecimento a partir desses dados [Knowledge Discovery Database (KDD)] (data mining), como agrupamentos hierárquicos (EISEN et al., 1998) e descoberta de padrões locais utilizando regras de associação e extração de conceitos formais (BESSON et al., 2005), além de consultas, por exemplo, por conceito, tag ou gene; SAGE Data Analysis (CAI et al., 2004), ferramenta que permite o agrupamento de tags com perfis de expressão semelhantes, por meio de uma implementação do algoritmo k-means com possibilidade de aplicação de uma distância baseada na distribuição de Poisson; Cluster3 (HOON et al., 2004), ferramenta para agrupamento hierárquico com a opção de diversas distâncias e métodos de agrupamento de genes ou amostras; Simcluster (VENCIO et al., 2007), ferramenta com acesso local e acesso web que implementa um método que utiliza a inferência Bayesiana e a distância de Aitchison (AITCHISON, 2001) nos seguintes algoritmos: k-means, k-medoids e SelfOrganizing Maps (SOM) para o agrupamento em partições, Principal Component Analysis (PCA) para inferir o número de fontes de variabilidades presentes, e por último agrupamento hierárquico; GEAP (PINHEIRO et al., 2002) é um sistema genérico para anotação de ESTs, no qual as ESTs são avaliadas e processadas para então serem anotadas contra bancos de dados de seqüências conhecidas. 1.3 Análise Global da Expressão Gênica 38 A maioria das ferramentas descritas para a análise dos dados está disponı́vel apenas para dados das espécies humana (Homo sapiens) e murina (Mus musculus). A normalização dos dados é um procedimento comum ao lidar com dados de amostragem de tags, nos casos onde a medida de avaliação não leva em conta o tamanho da biblioteca (e.g. fold change). O procedimento de normalização é realizado dividindo a freqüência observada de cada uma das tags de uma biblioteca pelo somatório das freqüências de todas as tags dessa mesma biblioteca, multiplicando esse valor por 300.000 que é o número estimado de RNAs por célula (VELCULESCU et al., 1999). Esses dados em geral possuem ruı́dos inerentes às técnicas que podem gerar artefatos (tags espúrias). Há inúmeras abordagens desenvolvidas para a detecção, remoção ou correção de tais artefatos, especialmente no caso de ESTs [e.g. GEAP (PINHEIRO et al., 2002)]. No caso de ESTs as abordagens no geral incluem a checagem de qualidade das leituras do seqüenciador, para eliminação de regiões de baixa qualidade, e o alinhamento das seqüências com bancos de dados de seqüências já conhecidas, para identificar e eliminar regiões de vetores, primers ou outro contaminante, além da identificação de ESTs quiméricas (SOREK; SAFER, 2003). No caso das técnicas onde a tag é constituı́da por uns poucos nucleotı́deos (14 a 17-pb) as estratégias são outras, e há outros problemas especı́ficos relacionados aos procedimentos das técnicas. Geralmente, a abordagem empregada para a remoção desses ruı́dos é eliminar as tags com baixas freqüências, especialmente as que aparecem uma única vez na biblioteca. Margulies e Innis (2000) implementa em seu programa eSAGE, antes da extração das tags, um filtro de tags que leva em consideração os valores de qualidade das bases obtidos com o programa phred (EWING et al., 1998). Colinge e Feger (2001) introduziram uma abordagem para identificar as tags de SAGE cuja abundância é enviesada por erros de seqüenciamento, sua abordagem é baseada no conceito de vizinhança, em que tags abundantes podem contaminar tags cujas seqüências são similares (distância de edição (GUSFIELD, 1997) igual a 1) ou então gerar novas tags. Essa abordagem assume uma probabilidade constante de erro (probabilidade de 9,13% de ter 1 erro somente, considerando uma tag de 10-pb) e ajusta a freqüência das tags de acordo com a resolução de um sistema de equações lineares. Blades (2003) desenvolveu um procedimento para estimar as taxas de erros na seqüên- 1.3 Análise Global da Expressão Gênica 39 cia da tag. Nesse estudo foi observada uma relação linear entre o número de cópias de uma determinada tag e o número de tags vizinhas, dentre as quais estão as tags artefatos (chamadas nesse estudo de shadows). A estimativa de erro é obtida por meio da transformação da inclinação da linha de regressão linear dessa relação. Nesse estudo foi proposto um modelo para a identificação das tags artefatos e correção das freqüências das tags com base nessa taxas estimações. Beissbarth et al. (2004) desenvolveram um modelo de propagação dos erros nas seqüências em SAGE e sugeriram um algoritmo de maximização de expectativas Expectation Maximization (EM) para corrigi-las de acordo com as seqüências observadas na biblioteca e nas estimativas de erros de leitura (base-calling). Esse método ajusta as contagens de tags e é capaz de parcialmente corrigir o vieses introduzidos por erros de seqüenciamento. Akmaev e Wang (2004) desenvolveram um algoritmo (SAGEScreen) para a correção de erros nas tags de LongSAGE (SAHA et al., 2002). Esse algoritmo envolve múltiplos procedimentos que abordam o processamento das ditags e extração das tags, estimação de taxas de erros empı́ricas a partir de tags abundantes, agrupamento de tags com seqüências similares e testes estatı́sticos para as contagens observadas. Os resultados da aplicação desse algoritmos em dados simulados indicam que ele é capaz de corrigir 78% dos erros recuperáveis e reduzir a ocorrência de tags que aparecem uma única vez (singleton). Recursos para a análise de dados de microarrays Uma caracterı́stica peculiar dos dados de microarrays é a presença de muitas fontes de flutuações aleatórias, tais como variações na quantidade de DNA fixado em cada ponto do arranjo, diferenças na eficiência da marcação das sondas e em sua hibridação, diferenças na detecção e quantificação dos sinais obtidos em cada ponto, dentre outras (FREEMAN; ROBERTSON; VRANA, 2000). Portanto, a normalização dos dados é necessária para minimizar tendências sistemáticas e obter um melhor aproveitamento dos dados (BUTTE, 2002). Com esse objetivo, diversas estratégias de normalização foram desenvolvidas (QUACKENBUSH, 2002). É usual aplicar transformações aos dados, a transformação logarı́tmica é freqüentemente adotada (QUACKENBUSH, 2002; STEINHOFF; VINGRON, 2006), isso faz as variações de intensidades ou diferenças menos dependentes das magnitudes absolutas e estabiliza distribuições fortemente enviesadas (STEINHOFF; VINGRON, 2006). A distribuição lognormal é uma boa aproximação para os dados de microarrays (LöNNSTEDT; SPEED, 2001). 1.4 Bancos de Dados Biológicos 40 Ao longo dos anos foram desenvolvidos muitos métodos para o pré-processamento e a análise dos dados de microarrays, e muitos deles estão implementados nos seguintes recursos disponı́veis livremente para a comunidade cientı́fica: Bioconductor (GENTLEMAN et al., 2004), é uma iniciativa de criação colabora- tiva de programas de código aberto (open-source) e desenvolvimento aberto (opendevelopment) para Bioinformática e Biologia Computacional. O Bioconductor provê uma série de métodos estatı́sticas e ferramentas gráficas para a análise de dados de microarrays e outros dados genômicos. Além disso, o Bioconductor constitui uma plataforma para o desenvolvimento de novos programas. As ferramentas para microarray englobam pré-processamento, análise de expressão gênica diferencial, anotação, visualização, métodos de aprendizado de máquinas, entre outras. Também pode ser utilizado para análises de dados obtidos de outras tecnologias, inclusive SAGE; GenePattern (REICH et al., 2006), é uma poderosa plataforma que provê acesso a uma série de ferramentas para análise de dados genômicos, de expressão gênica, proteômica, SNP, pré-processamento, importação de dados, visualização de resultados, entre outros muitos outros módulos. Essa plataforma possui uma interface gráfica que provê acesso fácil a essas ferramentas e permite a criação de processos em série (pipelines) que permitem a reprodução in silico de uma pesquisa. Além de um cliente especı́fico para o acesso ao servidor GenePattern, há também um cliente via navegador de internet (browser ). 1.4 Bancos de Dados Biológicos A cada ano há um aumento significativo na quantidade de dados biológicos disponı́veis, especialmente de seqüências de nucleotı́deos e proteı́nas. Esse acúmulo de dados, que crescem de forma exponencial (Figura 3), é conseqüência de uma série de avanços tecnológicos, em especial o desenvolvimento do seqüenciador automático de DNA (CA, 2007), que tornou viável e concreto o seqüenciamento de diversos genomas, incluindo o genoma humano (LANDER et al., 2001; VENTER et al., 2001). Nos últimos anos, esse crescimento tornou e se tornará cada vez mais evidente com a produção de dados a partir dos seqüenciadores de nova geração (Seção 1.3.1). Esses recentes avanços suscitam o desenvolvimento de ferramentas capazes de oferecerem o suporte necessário para a investigação desses dados e extração de conhecimento. Nesse contexto, 1.4 Bancos de Dados Biológicos 41 Figura 3: Crescimento do número de seqüências e pares de bases de DNA depositadas no GenBank (BENSON et al., 2009) (Figura obtida do sı́tio do GenBank http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html). a utilização de bancos de dados é fundamental, pois são ferramentas que permitem modelar, armazenar, recuperar e manipular informação. Os dados biológicos possuem certas caracterı́sticas (ELMASRI; NAVATHE, 2006) que devem ser consideradas no projeto de um banco de dados biológicos: 1. Alta complexidade, ou seja, exigindo estruturas e relacionamentos complexos para a sua representação; 2. Grande quantidade e variabilidade; 1.4 Bancos de Dados Biológicos 42 3. Ritmo acelerado de alterações dos esquemas dos dados; 4. Diversas representações para o mesmo tipo de dado; 5. Maioria dos acessos são para leitura; 6. Necessidade de uma interface limitada para a maioria dos usuários, pois quanto maior a flexibilidade menor a usabilidade; 7. O contexto do dado adiciona significado biológico; 8. Necessidade da definição e representação de consultas complexas; 9. Necessidade de acesso a versões anteriores dos dados. O modelo de arquitetura de sistemas de bancos de dados biológicos geralmente utilizado é o modelo de três camadas (3-tier ) (Figura 4). As três camadas são: camada de apresentação (interação com o usuário), camada de negócios (implementação da lógica da aplicação) e camada de dados (Sistema de Gerenciamento de Banco de Dados (SGBD)). Um dos grandes desafios da Bioinformática é o de integração dos dados biológicos. Há ainda diversas barreiras que são encontradas: em muitos casos não existe um padrão para os nomes de objetos nos bancos de dados; a definição para alguns conceitos biológicos pode variar de acordo com o contexto; não há um padrão para acesso aos dados; os dados estão em constante alteração e a atualização é uma necessidade constante. Dentre as abordagens utilizadas para a integração dos dados a mais comum é a integração via links de hipertexto. Nesse contexto, o conceito de web service pode ser uma solução possı́vel para a integração desses sistemas e comunicação entre aplicações e bases de dados com arquiteturas heterogêneas. O Entrez (OSTELL, 2003) é o sistema de busca e recuperação de informação do NCBI. O Entrez utiliza um sistema de indexação para diversas fontes de dados (Figura 5), possibilitando buscar, coletar o dado a partir de sua fonte, organizar e integrar as informações. Os web services possuem um formato padronizado para a troca de informações através da internet, utilizando com esse propósito a linguagem Extensible Markup Language (XML) e o protocolo Simple Object Access Protocol (SOAP), o qual é baseado em XML. Esse protocolo especifica um modelo para a codificação e decodificação de informações estruturadas, que podem trafegar na rede, geralmente por HyperText Transfer Protocol (HTTP). Atualmente há implementações de web services que provêm a recuperação e a análise de dados biológicos. O European Bioinformatics Institute (EBI) disponibiliza 1.4 Bancos de Dados Biológicos 43 Figura 4: Arquitetura geral dos bancos de dados biológicos, que utilizam o modelo de três camadas, consistindo de um Sistema de Gerenciamento de Banco de Dados (SGBD), do programa para acesso aos dados e da interface web (Figura obtida de Stein (2003)). livremente seus recursos de bioinformática (HARTE et al., 2004) não somente via seu sistema de interface gráfica mas também por um web service baseado em XML/SOAP (PILLAI et al., 2005). 1.4.1 Seqüências Os bancos de dados de seqüências, os quais vêm inflando em ritmo acelerado ao longo dos últimos anos, são fundamentais para as atividades em Bioinformática e Biologia Computacional, por meio de análises e comparações é possı́vel encontrar similaridades ou 1.4 Bancos de Dados Biológicos 44 Figura 5: Diagrama exibindo os bancos de dados integrados no Entrez (OSTELL, 2003) e as conexões entre eles. Cada banco de dados é representado por um cı́rculo colorido, onde a cor indica o número aproximado de registro no banco de dados (Figura obtida do sı́tio do NCBI http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html). padrões que podem prover conhecimento. De um modo geral, existem dois tipos de bancos de dados de seqüências gênicas: os bancos de seqüências primários e os secundários. Os bancos de dados de seqüências primários são derivados diretamente dos dados obtidos a partir do seqüenciamento de ácidos nucléicos ou proteı́nas e podem conter, além da seqüência em si, os dados complementares de anotações. Os principais bancos de dados primários, para seqüências de nucleotı́deos são o GenBank (BENSON et al., 2009), o EMBL-Bank (COCHRANE et al., 2009) e o DNA Data Bank of Japan (DDBJ) (TATENO et al., 2002), que juntos compõem o International Nucleotide Sequence Database Collaboration (INSDC)2 , e para seqüências 2 http://www.insdc.org 1.4 Bancos de Dados Biológicos 45 de aminoácidos, o UniProt (APWEILER et al., 2004). O GenBank engloba seqüências completas de clones de cDNA full-length Open Reading Frame (ORF), como as oriundas do Mammalian Gene Collection (MGC) (STRAUSBERG et al., 1999), e as demais ESTs que são depositadas no dbEST (BOGUSKI; LOWE; TOLSTOSHEV, 1993). Os bancos de dados de seqüências secundários, contêm informações derivadas dos bancos de dados de seqüências primários, entre eles estão os seguintes: RefSeq (PRUITT; TATUSOVA; MAGLOTT, 2005), que é uma coleção curada de seqüências não redundantes representando dados de DNA genômico, de transcritos e de proteı́nas; UniGene (SCHULER, 1997), que é uma coleção de clusters de seqüências que são similares entre si de acordo com os parâmetros de um sistema automático de análise de seqüências, que engloba seqüências bem caracterizadas e ESTs; trEST (PAGNI et al., 2001), que é um banco de dados de seqüências virtuais de proteı́nas hipotéticas derivadas de seqüências consenso de clusters de ESTs analisadas com ESTscan (ISELI; JONGENEEL; BUCHER, 1999; LOTTAZ et al., 2003), o qual procura corrigir a maioria dos erros de deslocamento do quadro de leitura (frameshift) predizendo a sua correta localização na EST (ORF); trGEN (PAGNI et al., 2001), que é um banco de dados de seqüências virtuais de proteı́nas hipotéticas derivadas de regiões de seqüências de DNA genômico de genes preditos utilizando o Genscan (BURGE; KARLIN, 1998). 1.4.2 Ontologias Em Ciência da Computação ou Ciência da Informação, uma ontologia é uma especificação formal de uma conceitualização (GRUBER, 1993), útil para definir um vocabulário comum no qual o conhecimento pode ser representado e compartilhado. Ontologias geralmente descrevem indivı́duos (objetos básicos), classes (conjuntos, coleções ou tipos de objetos), atributos (propriedades, caracterı́sticas ou parâmetros que os objetos podem ter e compartilhar) e relacionamentos (formas como os objetos podem se relacionar uns com os outros). O desenvolvimento de ontologias são fundamentais para promover a integração dos bancos de dados biológicos. Atualmente há um consórcio, nomeado Open Biomedical Ontologies (OBO) consortium (SMITH et al., 2007), que reúne iniciativas para promover o desenvolvimento e a expansão de ontologias relacionadas às áreas biológicas e biomé- 1.4 Bancos de Dados Biológicos 46 dicas. Entre essas iniciativas estão os projetos Gene Ontology (HARRIS et al., 2004) e Sequence Ontology (EILBECK et al., 2005). Um outro projeto que pertence ao consórcio OBO é o eVOC (KELSO et al., 2003), um vocabulário controlado para a integração dos dados de expressão gênica, que provê um conjunto detalhado de termos para descrever a origem das amostras. As ontologias no eVOC são desenvolvidas em quatro domı́nios mutuamente exclusivos: Sistema Anatômico, Tipo Celular, Estágio de Desenvolvimento e Patologia. Gene Ontology O Gene Ontology consortium, ou simplesmente GO (HARRIS et al., 2004), é uma iniciativa para produzir vocabulários estruturados e controlados, e classificações que compreendem muitos domı́nios da Biologia Molecular e Celular e que podem ser utilizados para a anotação de genes, produtos gênicos e seqüências. O objetivo do GO inclui ainda prover um repositório de acesso público para as ontologias, os conjuntos de dados de anotação e as ferramentas desenvolvidas que utilizam os dados do GO. O GO provê ontologias para descrever atributos de produtos gênicos em 3 domı́nios da Biologia Molecular que não se sobrepõem: Função Molecular (Molecular Function), o qual descreve uma atividade gênica no nı́vel molecular; Processo Biológico (Biological Process), o qual descreve uma meta biológica alcan- çada pela realização de um ou mais funções moleculares ordenadas; Componente Celular (Cellular Component), o qual descreve as localizações, no nı́vel de estruturas subcelulares e complexos de macromoléculas. As anotações do GO indicam o tipo de evidência que suporta a associação entre um produto gênico e um termo do GO. Um conjunto padrão de códigos de evidência qualifica as anotações com respeito aos diferentes tipos de determinações experimentais, que pode ser um ensaio experimental direto para determinar a função do gene, a qual é mais confiável do que o resultado de uma predição computacional. Os termos do GO estão relacionados entre si como uma estrutura de um grafo acı́clico direcionado, esses relacionamentos podem ser de dois tipos (“is-a” e “part-of ”). Como essas associações e relacionamentos são dinâmicas, o GO possui curadores que realizam uma revisão constante. 1.4 Bancos de Dados Biológicos 47 Para prover anotações de alta qualidade de produtos gênicos utilizando os termos do GO, o EBI desenvolveu o banco de dados Gene Ontology Annotation (GOA) (CAMON et al., 2004), o qual é um repositório central para outros grandes repositórios de dados para múltiplas espécies tais como o do NCBI e do Ensembl. O processo geral de anotação envolve uma anotação eletrônica e uma anotação manual de alta qualidade feita por grupos de anotação especializados. Esse esforço assegura que o banco de dados GOA se mantenha como uma referência chave para anotações do GO. 1.4.3 Vias metabólicas A quantidade de informações genômicas adquiridas ao longo dos anos permite a compreensão de um organismo como um complexo sistema de interações moleculares. Essas interações moleculares promovem uma série de reações quı́micas onde uma reação fornece o substrato da reação seguinte sendo a reação seguinte dependente da anterior. Essa série de reações inter-relacionadas para a transformação (metabolismo) de substâncias quı́micas é nomeado via metabólica. As diversas vias metabólicas relacionam-se entre si de forma complexa, de forma a permitir uma regulação adequada para que o organismo mantenha a sua homeostase. Enquanto os projetos de seqüenciamento de genomas determinam os genes para um grande número de organismo, as anotações funcionais desses genes ainda permanecem incompletas. As principais iniciativas para catalogar as vias metabólicas relacionando-as às moléculas e genes envolvidos no processo metabólico, são o KEGG (KANEHISA; GOTO, 2000), o qual está disponı́vel para diversas espécies, e o BioCarta3 , disponı́vel apenas para Homo sapiens e Mus musculus. O KEGG (KANEHISA; GOTO, 2000) é uma iniciativa do Japão para relacionar as informações dos projetos genomas com informações funcionais de ordem superior, pela informatização do conhecimento atual dos processos celulares e padronizando a anotação gênica. O KEGG engloba 4 bancos de dados integrados: PATHWAY - representação das funções gênicas de ordem superior por meio de uma rede de interações de moléculas; GENES - catálogo dos genes para todos os genomas completos e alguns incompletos; LIGAND - coleção dos componentes quı́micos na célula, enzimas e reações enzimá- ticas (GOTO; NISHIOKA; KANEHISA, 2000); 3 http://www.biocarta.com/genes/index.asp 1.4 Bancos de Dados Biológicos 48 BRITE - coleção de ontologias representando hierarquias funcionais de diversos as- pectos dos sistemas biológicos, incorporando ao KEGG PATHWAY tipos diferentes de relacionamentos (KANEHISA et al., 2008). O KEGG PATHWAY em sua versão 50.0+/04-07, de Abril de 2009, possui 94.339 vias metabólicas geradas a partir de 326 vias metabólicas de referência. O BioCarta é um banco de dados curado de vias metabólicas com ênfase nos vias de sinalização celular. O BioCarta é constituı́do por um esforço colaborativo da comunidade cientı́fica para integrar informações de interações moleculares. O banco de dados contém um catálogo para cerca de 120.000 genes. As vias são representadas por fluxogramas interativos. 1.4.4 Regulação da Expressão Gênica A expressão dos genes podem ser reguladas de forma temporal e espacial por diversos mecanismos distintos em todas as etapas no fluxo da informação genética. Apesar de existirem diversos mecanismos atuando no controle da expressão gênica no nı́vel de tradução e pós-tradução, trabalhos reportados na literatura cientı́fica (MOORE, 2005; LEVINE; TJIAN, 2003) indicam que o controle pós-transcricional da expressão gênica em organismos eucariotos é muito mais amplo e elaborado do que se estimava anteriormente, sendo o mRNA o canal central no fluxo da informação genética. Portanto, o estudo desses mecanismos, que controlam a sı́ntese de RNA, seu processamento, dobramento, maturação, transporte e degradação, é fundamental para a compreensão da regulação da expressão gênica em determinada população de células. A transcrição dos genes eucarióticos requer a interação entre elementos cis-atuantes (e.g. motivos - motifs - na região promotora, reforçadores - enhancers) e elementos transatuantes (e.g. fatores de transcrição). Para oferecer suporte aos estudos de expressão gênica também há bancos de dados de elementos reguladores, em especial: TRANSFAC - catálogo de fatores de transcrição com seus sı́tios e perfis de ligação (WINGENDER et al., 2000); TRRD - coleção de informações sobre regiões regulatórias, suas propriedades e ar- quitetura (KOLCHANOV et al., 1999); COMPEL - compreende informações especı́ficas sobre elementos regulatórios com- postos (KEL-MARGOULIS et al., 2000). 1.4 Bancos de Dados Biológicos 49 Além das regiões regulatórias e da ação de fatores de transcrição, há outros mecanismos celulares que regulam a expressão gênica, entre eles estão os pequenos RNAs não codificadores [e.g., microRNAs (BARTEL, 2004)] e messenger ribonucleoproteins (mRNPs), os quais são também elementos reguladores formados por um complexo constituı́do de mRNA e proteı́nas complementares. microRNAs Os microRNAs (BARTEL, 2004) são pequenas moléculas de RNA endógeno não codificante (aproximadamente 22 nt), os quais exercem papéis importantes na regulação da expressão gênica em animais (AMBROS, 2004) e plantas (REINHART et al., 2002), por meio da clivagem ou repressão da tradução de mRNAs, com os quais possuem certa complementaridade (alvos dos miRNAs). A biogênese do miRNA, inicia-se com a transcrição de seu gene pela RNA polimerase II, sintetizando o miRNA primário (pri-miRNA) que contém Cap 5’ e cauda poli(A). O pri-miRNA apresenta uma estrutura de hairpin que é clivada ainda no núcleo pela RNase III DROSHA (RNASEN) e seu co-fator DGCR8, gerando uma molécula precursora do miRNA maduro, denominada pré-miRNA. Em seguida, o pré-miRNA é transportado ao citoplasma pela exportina-5 (XPO5). No citoplasma, o pré-miRNA é processado pela RNase III DICER (DICER1), gerando um miRNA fita dupla de aproximadamente 22 nucleotı́deos. Este produto é incorporado a um complexo multimérico denominado RNA-induced silence complex (RISC). Apenas uma das fitas do duplex de miRNA permanece no complexo RISC, podendo se ligar aos seus mRNAs alvos, bloqueando a tradução ou direcionando a molécula à degradação. Os microRNAs podem estar localizados em regiões intergênicas do genoma, e possuir sua própria unidade de transcrição, ou podem ser encontrados em regiões de genes hospedeiros codificadores de proteı́nas ou não, neste caso podem ser localizados no intron, no exon ou então nas junções exon/intron. No caso dos microRNAs intrônicos, há estudos com evidências de que eles possuam uma via metabólica alternativa distinta, independente da enzima DROSHA, tais estudos os classificam em uma classe à parte de precursores de miRNAs e os chamam de mirtrons (RUBY; JAN; BARTEL, 2007). Devido à sua importância, foi estabelecido um sistema uniforme para a anotação e caracterização de microRNAs (AMBROS et al., 2003). A principal base de dados de microRNAs é o miRBase (GRIFFITHS-JONES, 2004; GRIFFITHS-JONES et al., 2006, 2008), onde que possui um repositório primário para seqüências publicadas de microRNAs, 1.4 Bancos de Dados Biológicos 50 com suas respectivas anotações e predições de alvos, além de ferramentas para a consulta, anotação e análise dos dados. O miRBase foi estabelecido pelo Wellcome Trust Sanger Institute4 . O miRBase em sua versão 13.0, de Março de 2009, possui 9539 registros de seqüências, dos quais 706 são de humanos (Homo sapiens). Uma outra fonte de dados para estudos de microRNAs animais é o miRGen (MEGRAW et al., 2007), que é um banco de dados integrado que provê informações de relacionamentos posicionais entre os miRNAs e as anotações genômicas providas pelo UCSC Genome Browser (KENT et al., 2002) e conjuntos de alvos de microRNAs preditos por diferentes programas computacionais ou suportados experimentalmente [TarBase (SETHUPATHY; CORDA; HATZIGEORGIOU, 2006)]. O miRGen oferece também a combinação entre os conjuntos, podendo obter a união ou a interseção dos dados. 1.4.5 Expressão Gênica Dados de expressão gênica, obtidos de transcritos ou de proteı́nas, são considerados fontes valiosas para a compreensão de sistemas biológicos complexos. O crescimento da quantidade de dados ao longo dos anos incita a demanda por recursos computacionais para armazená-los de forma a permitir a recuperação eficiente da informação e a análise dos dados para a aquisição de conhecimento (data mining). Gene Expression Omnibus O projeto do Gene Expression Omnibus (GEO) (EDGAR; DOMRACHEV; LASH, 2002; BARRETT et al., 2005) é uma iniciativa do NCBI em resposta à demanda crescente de um repositório público para dados heterogêneos de expressão gênica e hibridação genômica. O GEO possui um modelo de dados flexı́vel que atende as necessidades de submissão, armazenamento e recuperação de informação para tipos distintos de dados, tais como os gerados por experimentos de expressão gênica em larga-escala, hibridação genômica, e microarrays de anticorpos. O objetivo do GEO é atuar como um repositório central para o armazenamento e disponibilização de dados de abundância de moléculas (e.g. mRNA, DNA genômico, e proteı́nas) em termos relativos ou absolutos. O GEO é considerado um banco de dados primário para dados de expressão gênica assim como o GenBank é para os dados de seqüências. Os dados são armazenados em um banco de dados relacional, onde os dados não 4 http://www.sanger.ac.uk 51 1.4 Bancos de Dados Biológicos estão completamente granulados, para garantir flexibilidade, ou seja, são armazenados como objetos textuais. O GEO utiliza para o banco de dados três entidades principais de dados: Plataforma (platform) - define a configuração dos parâmetros que são utilizados para a obtenção dos dados (e.g. tecnologia, espécie, sondas, etc.). Amostra (sample) - define os dados obtidos sob uma determinada plataforma, a qual deve ser previamente definida. Série (series) - organiza as amostras em conjuntos de dados significativos que repre- sentam o experimento de interesse. Cada instância dessas três entidades é associada a um número de acesso único e estável, cujo prefixo indica se o registro é uma Plataforma (GPL), Amostra (GSM) ou Série (GSE). Os recursos do GEO estão em constante desenvolvimento para aperfeiçoar a indexação, a ligação a busca e a visualização dos dados de forma a permitir a análise dos dados (BARRETT et al., 2005). Atualmente no GEO há 309105 amostras, as quais foram obtidas de 5891 plataformas distintas, e estão organizadas em 12232 séries. Plataformas especı́ficas Além do GEO, que disponibiliza dados de uma série de plataformas heterogêneas, há outros bancos de dados públicos que disponibilizam dados de expressão gênica para plataformas especı́ficas. microarrays Para dados de microarrays há um outro repositório principal, o ArrayExpress (BRAZMA et al., 2003) do EBI, que armazena os dados e a anotação de acordo com o padrão Minimum Information About a Microarray Experiment (MIAME) (BRAZMA et al., 2001) e o formato Microarray Gene Expression Markup Language (MAGE-ML) (SPELLMAN et al., 2002) desenvolvidos pela sociedade Microarray Gene Expression Data (MGED)5 e a Object Management Group (OMG)6 , para assegurar que seus dados sejam facilmente interpretados e os resultados derivados de suas análises possam ser verificados. O ArrayExpress registra 239.182 ensaios e 8.146 experimentos. 5 http://www.mged.org 6 http://www.omg.org 1.4 Bancos de Dados Biológicos 52 EST Based Expression Para dados de expressão baseados em seqüenciamento de EST além do UniGene (SCHULER, 1997), há outros bancos de dados e sistemas de bancos de dados que permitem consulta e análise, muitos deles especı́ficos para determinadas espécies. A idéia é basicamente a identificação do gene de origem de cada uma das ESTs, o agrupamento em clusters e a contagem de seqüências observadas em cada cluster, que em teoria identificam um único gene. Dentre as diversas fontes de dados e informações de ESTs estão os seguintes: BodyMap (HISHIKI et al., 2000; SESE et al., 2001), um banco de dados baseado em ESTs 3’, obtidas a partir de fragmentos de moléculas de cDNA após digestão com a enzima MboI (GATC), isso permite um agrupamento inequı́voco de tags que representam o mesmo transcrito e provê informação da abundância para cada transcrito em diferentes tecidos humanos e murinos. O BodyMap também possui dados de introduced Amplified Fragment Length Polymorphism (iAFLP) (KAWAMOTO et al., 1999). BodyMap-Xs (OGASAWARA et al., 2006), um banco de dados para comparações de expressão gênica inter-espécies, criado com as ESTs do DDBJ. As comparações são baseadas em informações de genes ortólogos. TIGR Gene Indices (QUACKENBUSH et al., 2001), uma coleção de bancos de dados espécies-especı́ficas de ESTs, as quais são submetidas a um protocolo de análise refinada para a identificação dos genes de origem. Serial Analysis of Gene Expression Os dois principais repositórios de dados públicos de SAGE além do GEO, são o SAGEmap (LASH et al., 2000) do NCBI, e o SAGE Genie (LIANG, 2002) do CGAP, ambos provêm além dos dados brutos, as relações entre as tags e os genes (tag ⇔ UniGene). Porém ainda há muitos outros repositórios especı́ficos de uma determinada espécie ou tipo celular, como os seguintes: Mouse SAGE Site (DIVINA; FOREJT, 2004) que contém dados de tecidos e linha- gens celulares de camundongos distribuı́dos entre 94 bibliotecas; TgSAGEDB (RADKE et al., 2005) que contém dados das diferentes etapas do ciclo de vida do protozoário causador da toxoplasmose (Toxoplasma gondii ). 1.4 Bancos de Dados Biológicos 53 BovSAGEDB (GRAFF et al., 2006) que contém doze bibliotecas geradas a partir de linfócitos bovinos. GermSAGE (LEE et al., 2009) que contém três bibliotecas de células germinativas murinas em diferentes estágios da espermatogênese. Além desses ainda há outros repositórios, porém muitos deles não disponibilizam os dados completos, e possuem poucos ou nenhum recurso funcional para consulta ou aquisição dos dados, outros já depositaram os seus dados no GEO. Massively Parallel Signature Sequencing Os dados de MPSS podem também ser encontrados nos seguintes bancos de dados públicos: Plant MPSS (NAKANO et al., 2006), repositório de dados de MPSS, o qual ar- mazena dados de diversas espécies de plantas e de um fungo patógeno de plantas (Magnaporthe grisea). Nesse repositório há também dados de MPSS e SBS para pequenos RNAs de Arabidopsis thaliana; MPSS Stem Cell (WEI et al., 2005), repositório de dados de MPSS de células tronco-embrionárias humanas e murinas do Genome Institute of Singapore (GIS); LICR MPSS (JONGENEEL et al., 2005), arquivos de dados de MPSS do Ludwig Institute for Cancer Research (LICR), o qual armazena dados de 32 tecidos humanos normais. 1.4.6 Genoma Após o seqüenciamento completo de um genoma, é necessário analisá-lo, e a primeira etapa é associar as diversas informações existentes orientando-se pelas coordenadas da seqüência obtida. O banco de dados do UCSC Genome Browser (KENT et al., 2002), permite navegar visualizar qualquer porção de um genoma, em qualquer escala, juntamente com as informações mapeadas (tracks) através do alinhamento de seqüências. Entre as informações estão as seqüências dos contigs e os gaps da montagem, seqüências de mRNAs e ESTs, múltiplas predições gênicas, homologia entre espécies, SNPs, repetições transposons, microRNAs, entre outros. 54 2 Objetivos O objetivo central deste trabalho é desenvolver uma plataforma online para análise computacional de perfis de expressão gênica obtidos por meio de técnicas que permitem a quantificação de transcritos gênicos em larga escala, tais como SAGE, MPSS e SBS. Os objetivos especı́ficos estão discriminados a seguir: 1. Desenvolver um método para avaliação e depuração das bibliotecas de tags, com o objetivo de excluir tags espúrias ou contaminantes. Esta atividade inclui: Implementar um sistema para classificar a confiabilidade das tags utilizando parâmetros pré-estabelecidos baseados no mapeamento em bancos de dados de tags virtuais e nas freqüências observadas de cada tag nas bibliotecas; Estabelecer os parâmetros adequados para a seleção das tags válidas; Avaliar a capacidade de obter dados fidedignos; Aplicar o método às bibliotecas de expressão gênica; Disponibilizar os recursos desse sistema na internet por meio de uma interface web; 2. Constituir um repositório de dados de expressão gênica e informações funcionais. Além de desenvolver o sistema para gerenciar, disponibilizar, processar e consultar os dados. Nesse caso, as atividades serão as seguintes: Modelar e implementar uma base de dados relacional que possibilite incluir dados de repositórios públicos e gerados por laboratórios associados; Carregar os dados dos bancos de dados biológicos que serão utilizados; Implementar os métodos de processamento dos dados e de avaliações estatı́sti- cas; Implementar os métodos de acesso e consulta aos dados; 2 Objetivos 55 Disponibilizar os recursos desse sistema na internet por meio de uma interface web utilizando HTTP; Disponibilizar métodos de consulta aos dados utilizando SOAP. Carregar o resultado da análise de depuração; 56 3 Material e métodos A seguir serão descritos os dados, as ferramentas e os métodos para o desenvolvimento da plataforma para análise computacional de perfis de expressão gênica transcricionais. A plataforma desenvolvida inclui dois sistemas principais. O primeiro sistema (Seção 3.2), nomeado Hyper- and Hypo-expressed Genes (H2G), armazena os dados de experimentos, obtidos de repositórios públicos e de laboratório associados, relaciona e integra informações para estudos de genômica funcional e engloba ferramentas que permitem identificar genes diferencialmente expressos. O segundo sistema (Seção 3.3), nomeado Score System for Sequence Tags (S3T) (PINHEIRO et al., 2009), permite a classificação e a filtragem das tags consideradas contaminantes nos experimentos baseados em seqüenciamento de tags. Os dois sistemas estão integrados, o H2G utiliza o resultado da classificação do S3T, que por sua vez, utiliza as informações sobre a freqüência de tags contidas no H2G como um dos critérios para a classificação. 3.1 Plataforma de desenvolvimento dos sistemas Os principais algoritmos foram implementados na linguagem de programação Practical Extraction and Report Language (Perl)1 (v5.8.7) com o auxı́lio de diversos módulos, os quais são disponibilizados pelo Comprehensive Perl Archive Network (CPAN)2 . A linguagem de programação R3 foi utilizada para cálculos estatı́sticos. Os paradigmas de programação, orientado a objetos e estruturado, foram empregados, de acordo com a necessidade e complexidade da estrutura de dados requerida. Os sistemas foram desenvolvidos sob a arquitetura cliente-servidor, com comunicação através da internet, onde o cliente que pode ser qualquer navegador para internet (e.g. Mozilla Firefox e Microsoft Internet Explorer), faz requisições a um servidor HTTP Apache (v2.0.55). A interface com o usuário foi construı́da utilizando código HyperText Markup 1 http://www.perl.com 2 http://www.cpan.org 3 http://www.r-project.org 3.1 Plataforma de desenvolvimento dos sistemas 57 Figura 6: Diagrama de integração entre os sistemas H2G e S3T. O H2G utiliza o S3T para a classificação das tags das bibliotecas contidas em sua base de dados. O S3T utiliza em seu processo de classificação os dados de freqüência das tags que estão contidas na base de dados do H2G. O acesso aos dados do H2G pode ser por meio da conexão direta utilizando os métodos de busca do H2G (1) ou utilizando os métodos disponı́veis via SOAP (2). A atualização da classificação das tags no H2G é um procedimento realizado periodicamente. Language (HTML), JavaScript e Cascading Style Sheets (CSS). O conceito Asynchronous Javascript And XML (AJAX) (GARRETT, 2005) foi empregado em alguns casos somente. No geral, os programas que compõem os sistemas desenvolvidos são empregados nas seguintes tarefas: Extrair informações de arquivos, utilizando quando necessário e possı́vel os módulos do projeto BioPerl4 (STAJICH et al., 2002) (e.g. para a extração de informações de seqüências de nucleotı́deos); Processar os dados; Aplicar métodos estatı́sticos, por intermédio do módulo RSPerl5 , o qual permite estabelecer uma conexão com o ambiente da linguagem R a partir de um programa em Perl, possibilitando a execução de métodos próprios da linguagem R; Interagir com o SGBD via módulo DBI, que é a implementação de uma Application Programming Interface (API) para a conexão, manipulação e consulta de dados que estão no SGBD; 4 http://www.bioperl.org 5 http://www.omegahat.org/RSPerl 3.1 Plataforma de desenvolvimento dos sistemas 58 Interagir com o servidor HTTP Apache via Common Gateway Interface (CGI), utilizando o módulo CGI; Gerar dinamicamente a interface web [Graphical User Interface (GUI)] com o au- xı́lio do módulo BiT::Template, desenvolvido pelo nosso laboratório [Laboratório de Genética Molecular e Bioinformática (LGMB)]. Essa biblioteca utiliza os módulos CGI e HTML::Template, permitindo separar o código da aplicação do código para a construção da interface, a qual contém os links e formulários para o acesso às aplicações; disponibilizar métodos de consulta aos dados via SOAP utilizando o módulo Perl SOAP::Lite. Os bancos de dados do H2G e do S3T foram constituı́dos utilizando o modelo de dados relacional e o SGBD MySQL6 . As tabelas são do tipo MyISAM7 , o qual garante alto desempenho para leitura e escrita quando o acesso concorrente é baixo. A principal deficiência desse tipo de tabela é não suportar transações (DATE, 2003). A linguagem que interage com o MySQL é a Structured Query Language (SQL), uma linguagem declarativa inspirada na álgebra relacional, para a definição, manipulação, controle e consulta de dados. A modelagem do banco de dados foi feita com o Diagrama Entidade-Relacionamento (DER) utilizando o programa DBDesigner48. O H2G e o S3T foram desenvolvidos em ambiente Linux utilizando softwares livres9 . O H2G atualmente está instalado em um computador servidor com 2 processadores Intel®Pentium®III CPU S @ 1.40 GHz com 1 Gb de memória RAM e sistema operacional Linux Red Hat 810 . O S3T atualmente está instalado em um computador servidor com 2 processadores Intel®Xeon®CPU E5410 @ 2.33 GHz com 8 Gb de memória RAM e sistema operacional Linux CentOS 411 . Os sistemas estão disponı́veis online pela internet (Seção 4.1.3 e 4.2.2). 6 http://www.mysql.com 7 http://dev.mysql.com/doc/mysql/en/myisam-storage-engine.html 8 http://fabforce.net/dbdesigner4/ 9 http://www.gnu.org/philosophy/free-sw.html 10 http://www.redhat.com 11 http://www.centos.org 3.2 H2G - Hyper- and Hypo-expressed Genes 3.2 59 H2G - Hyper- and Hypo-expressed Genes O sistema H2G compreende uma base de dados e um conjunto de ferramentas que podem ser acessı́veis por meio da interface gráfica via internet, e via prompt do Sistema Operacional (SO) (Figura 7). As tecnologias suportadas pelo H2G são: SAGE (VELCULESCU et al., 1995) convencional e suas variações (SAHA et al., 2002), MPSS (BRENNER et al., 2000a) e baseadas em SBS (HANRIOT et al., 2008). O banco de dados armazena e integra os dados de expressão gênica e as informações funcionais relacionadas. O conjunto de ferramentas disponı́veis via interface gráfica permitem a consulta, análise e manipulação dos dados de acordo com o privilégio definido por um sistema de autenticação, o qual delimita a área do sistema que o usuário pode acessar, essa área pode ser pública ou pertencer a um projeto privado que previamente deve ser cadastrado pelo administrador do sistema. No caso da área pública o usuário pode se cadastrar livremente via internet por meio de um formulário web, no caso de projetos privados o cadastro do usuário é feito pelo administrador do sistema. Para a utilização dos recursos é necessário a autenticação no sistema. No H2G são encontrados os seguintes conceitos: Plataforma (Platform) - base sob a qual experimentos de expressão gênica são con- duzidos (e.g. a plataforma SAGE:10:NlaIII representa a tecnologia SAGE com tags de 10-pb obtidas com a enzima âncora NlaIII ); Projeto (Project) - domı́nio dentro da aplicação baseado na definição de um projeto (e.g. PUBLIC); Experimento obtidos de (Experiment) - compreende uma mesma os dados de expressão amostra utilizando a mesma gênica plataforma (e.g. SAGE Bone marrow normal B D01 ); Análise (Analysis) - é uma análise de expressão gênica diferencial envolvendo dois ou mais experimentos. 3.2.1 Repositório de Dados de Expressão Gênica O repositório público de dados de expressão gênica foi constituı́do principalmente com os dados disponı́veis publicamente no CGAP SAGE Genie12 (LIANG, 2002) no NCBI 12 http://cgap.nci.nih.gov/SAGE 3.2 H2G - Hyper- and Hypo-expressed Genes 60 Figura 7: Diagrama geral do fluxo da informação no sistema H2G. Nas nuvens que representam a internet, estão os bancos de dados biológicos de onde são obtidos os dados armazenados no banco de dados H2G e os serviços web disponı́veis (SOAP e CGI). Os dados externos são submetidos a algoritmos de análise sintática (parsing) especı́ficos para cada formato, após esse processo os dados podem ser inseridos no banco de dados H2G. Os processos de consultas e análises dos dados podem ser invocados por meio da interface web CGI. Consultas aos dados também podem ser realizadas por meio de um servidor SOAP. Os dados de expressão gênica (bibliotecas de SAGE, MPSS e SBS) são submetidos à análise do S3T e o resultado dessa análise é armazenado no banco de dados H2G. SAGEmap13 (LASH et al., 2000) e no GEO14 (BARRETT et al., 2005). Os dados para a associação entre tag e gene, para tags de SAGE de 10-pb e 17-pb foram obtidos do SAGE Genie para as espécies Homo sapiens e Mus musculus, para as demais espécies os dados foram obtidos do SAGEmap. Esses dados incluem as associações da melhor tag para determinado gene (best tag) e do melhor gene para determinada tag (best gene). O gene nesse caso é representado por um número de acesso de um cluster do UniGene. Os dados para a associação entre as tags de MPSS e os respectivos genes foram obtidos dos arquivos do LICR15 (JONGENEEL et al., 2005). Os dados das espécies foram obtidas do banco de dados de taxonomias do NCBI (SAYERS et al., 2009). Os dados de cada cluster de transcritos (UniGene) foram obtidos do repositório do UniGene. Os dados de produtos gênicos, incluindo o GO foram obtidos do repositório Entrez Gene (MAGLOTT et al., 2007) no NCBI, o qual contém as anotações do banco de dados GOA (CAMON et al., 2004). As informações de vias metabólicas 13 http://www.ncbi.nlm.nih.gov/projects/SAGE/ 14 http://www.ncbi.nlm.nih.gov/geo/ 15 http://mpss.licr.org 3.2 H2G - Hyper- and Hypo-expressed Genes 61 foram obtidas do repositório do KEGG e do repositório do CGAP, o qual armazena os dados providos pelo BioCarta. As informações de microRNAs e seus genes alvos foram obtidas do repositório do miRGen (MEGRAW et al., 2007). As informações sobre o conteúdo armazenado no H2G e as suas fontes originais estão resumidamente relacionadas na Tabela 1. Todas esses dados foram inseridos e relacionados no banco de dados relacional do H2G 16 utilizando programas de importação, os quais utilizam a correspondência de padrões baseados em expressões regulares (WALL, 2000) que são elaboradas especificamente para o formato do arquivo de cada fonte de dados, para reconhecer o conteúdo, analisar e fazer a importação. Para a obtenção dos dados do GEO que estão no formato MINiML 17 foi desenvolvido um programa utilizando os métodos do módulo Perl XML::Parser. Análise de Expressão Gênica Diferencial A ferramenta para detecção de expressão gênica diferencial foi desenvolvida para comparar de forma pareada dois conjuntos (pools) de bibliotecas do mesmo tipo de tecnologia. Os pools consistem de uma ou mais bibliotecas que são selecionadas e alocadas em cada um dos pools (A e B). Neste momento os dados das bibliotecas podem ser filtrados de acordo com a metodologia descrita no S3T (Seção 3.3). Os dados de configuração da análise são armazenados na área do usuário. As freqüências das tags são normalizadas por um valor definido (tipicamente 300.000) ou pelo valor padrão que é o maior valor entre os totais de tags dos dois pools. Para constituição das freqüências das tags em cada pool é obtida a média das freqüências normalizadas das tags nas bibliotecas que pertencem ao pool. O pool B é a referência e para facilitar a distinção os valores negativos representam tags mais expressas no pool A em relação ao pool B, os valores positivos representam o contrário. Atualmente as medidas para avaliar a expressão gênica diferencial que estão implementadas são as seguintes: Diferença - subtração entre os valores de cada pool ; Razão (fold-change) - razão obtida da divisão entre os valores de cada pool ; Razão (signal-to-noise) - medida de correlação proposta por Golub et al. (1999) que mede a separação relativa entre as classes dos pools. Essa medida reflete a diferença 16 http://gdm.fmrp.usp.br/cgi-bin/h2g/index.pl/alone?project id=1;platform id=1;template file=help 17 http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML.html 3.2 H2G - Hyper- and Hypo-expressed Genes 62 Tabela 1: Fontes originais dos dados contidos no H2G relacionadas por tipo de informação, dados que são extraı́dos e para quais espécies os dados podem ser obtidos. Informação Dados Espécies Fonte 1 Taxonomia Taxonomy ID; Descrição * NCBI Expressão Gênica (SAGE/SBS) Tag; Freqüência; Dados da amostra Hs; Mm SAGE GEO 3 Expressão Gênica Tag; Freqüência; Dados da amostra (SAGE/MPSS/SBS) * SAGEmap4 ; GEO3 Associação taggene (SAGE/SBS) Hs; Mm SAGE Genie Rn; Bt SAGEmap Ame STAMP (BRANDÃO, 2009) Seqüência da tag; UniGene ID Hs LICR MPSS cluster de transcritos No de acesso (UniGene ID); Espécie; Descrição; Localização cromossômica; GeneID (Entrez Gene); Nos de acesso GenBank * UniGene Genes GeneID; Sı́mbolo; Tipo; Taxonomy ID; Descrição; Localização cromossômica; * Entrez Gene 6 GO e associação GO-gene (GOA) GeneID; GO ID; Tipo (Função, Processo, Componente); Código de evidência * Entrez Gene 6 KEGG e associação KEGG-gene GeneID; KEGG ID; Descrição * KEGG Pathway BioCarta e associação BioCarta-gene GeneID; BioCarta ID; Descrição Hs; Mm CGAP microRNAs e associação microRNAgene alvo GeneID; miRNA ID; Hs DIANA Relação miRNA e UniGene miRNA ID; UniGene; localização relativa; Hs UCSC Genome Associação gene (MPSS) tag- Seqüência da tag; UniGene ID 2 Genie ; 2 5 7 8 9 10 Nota: Hs-Homo sapiens; Mm-Mus musculus; Rn-Rattus norvegicus; Ame-Apis mellifera; Bt-Bos taurus; *-Várias espécies; 1-http://www.ncbi.nlm.nih.gov/taxonomy/; 2-http://cgap.nci.nih.gov/SAGE; 3-http://www.ncbi.nlm.nih.gov/geo/; 4-http://www.ncbi.nlm.nih.gov/projects/SAGE/; 5-http://www.ncbi.nlm.nih.gov/unigene; 6-http://www.ncbi.nlm.nih.gov/gene; 7-http://www.genome.jp/kegg/; 8-http://cgap.nci.nih.gov/Pathways/BioCarta Pathways 9-http://www.diana.pcbi.upenn.edu/miRGen/; 10-http://genome.ucsc.edu/. 3.2 H2G - Hyper- and Hypo-expressed Genes 63 entre as classes, relativa às medidas de desvio padrão dentro das classes. Valores altos indicam maior correlação entre a expressão gênica e a distinção de classes; P-value AC - valor de significância proposto por Audic e Claverie (1997); P-value SG - valor de significância adaptado por Lash et al. (2000) de Chen et al. (1998), implementado também no SAGE Genie e SAGEmap; SAGEci - intervalo de credibilidade para o fold-change proposto por Vencio, Brentani e Pereira (2003). Os resultados dos cálculos são armazenado na base de dados para as consultas posteriores. Com o resultado dessa análise é possı́vel realizar uma análise de enriquecimento, Gene Set Enrichment Analysis (GSEA), de categorias do GO ou vias metabólicas do KEGG ou do BioCarta. Esse método computacional permite determinar um conjunto de genes, definidos a priori, estão diferencialmente expressos entre os dois pools de bibliotecas. A análise de enriquecimento foi implementada com base no algoritmo descrito por Keller, Backes e Lenhof (2007). A análise depende da ordenação dos genes baseada na medida de avaliação selecionada. 3.2.2 Interfaces O acesso aos recursos do H2G pode ser feito através da internet, na qual é disponibilizada uma interface user-friendly com diversos recursos que possibilitam criar e disparar o processamento de uma análise para posteriormente explorar seus resultados por meio de um sistema de consultas. Esse sistema permite pesquisar e relacionar informações contidas na base de dados utilizando uma combinação de parâmetros, os quais são definidos pelo usuário. As requisições de consulta dos usuários são traduzidas para a linguagem SQL e enviadas ao banco de dados que a processa e retorna o resultado, o qual é formatado e apresentado de forma coerente. A interface web, que contêm os formulários de acesso às aplicações, é gerada dinamicamente com o auxı́lio de um módulo (BiT::Template) desenvolvido pelo LGMB. O módulo Perl BiT::Template utiliza os módulos CGI e HTML::Template para separar o código da aplicação do código para a interface. Além desse acesso via interface web, alguns dos recursos podem ser acessados também via prompt do SO por meio de programas já implementados, ou implementar novos programas utilizando os métodos contidos nos módulos do pacote. Esses métodos podem 3.3 S3T - Score System for Sequence Tags 64 ser acessados também utilizando o protocolo SOAP, por meio do servidor SOAP sobre HTTP, implementado utilizando o módulo Perl SOAP::Lite18 . Os parâmetros de conexão, a lista de métodos disponı́veis e a documentação são encontradas nas páginas web de ajuda do H2G19 . 3.3 S3T - Score System for Sequence Tags A metodologia desenvolvida para a avaliação da qualidade de uma biblioteca de tags, no geral, compreende as seguintes tarefas: 1. Coletar os dados experimentais e obter os conjuntos de tags virtuais e as informações relacionadas, e armazená-las em um banco de dados relacional; 2. Determinar os parâmetros para a classificação; 3. Executar as buscas no banco de dados e aplicar as regras, que é uma correspondência entre o dado experimental com uma das regras definidas; 4. Quantificar as tags únicas e suas freqüências para cada pontuação (score) para a avaliação da qualidade. O processo de classificação é executado em série, aplicando as regras em uma ordem pré-definida para cada uma das tags na biblioteca (e.g. Tabela 3 - do topo à base). A primeira classificação é sustentada se a regra é validada, caso contrário a próxima regra é avaliada e o processo se repete até que a última tag receba a sua classificação (Figura 8). O sistema que implementa essa metodologia, possibilita o processamento das classificações em paralelo (multithreading) em um sistema com múltiplos núcleos e/ou processadores. Uma interface web foi desenvolvida para prover acesso aos recursos, que também podem ser acessados diretamente por meio do prompt do SO. O programa principal recebe como parâmetros de entrada, o arquivo contendo as seqüências das tags e as respectivas freqüências, a plataforma (SAGE, MPSS ou SBS), a enzima âncora (NlaIII ou DpnII ), o tamanho das tags e o acrônimo da espécie (Hs ou Mm). Estes parâmetros definem qual será o conjunto de regras a ser usado na análise. A análise padrão tem distintos conjuntos de regras pré-configuradas. 18 http://www.soaplite.com 19 http://gdm.fmrp.usp.br/cgi-bin/h2g/index.pl/alone?project id=1;platform id=1;template file=help 3.3 S3T - Score System for Sequence Tags 65 Figura 8: Diagrama geral do fluxo da informação no sistema S3T. No lado do cliente, estão representadas a entrada de parâmetros e a obtenção dos resultados, procedimentos que podem ser realizados pela interface disponı́vel via internet ou diretamente por meio do prompt do SO. No lado do servidor, estão representados os processos dentro do sistema de classificação S3T e parte do sistema H2G, o qual fornece as informações sobre as freqüências das tags no dados de amostras biológicas contidas em sua base de dados principal. 3.3.1 Conjuntos de tags virtuais Os conjuntos de tags virtuais foram obtidos de diferentes fontes para caracterizar os dados experimentais e determinar sua confiabilidade, baseado nas caracterı́sticas relevantes de cada fonte. As bases de dados utilizadas estão discriminadas a seguir: Vetor de clonagem - seqüência de nucleotı́deos do vetor de clonagem; Genoma mitocondrial - seqüência de nucleotı́deos do genoma mitocondrial; Adaptador - seqüência de nucleotı́deos do adaptador, usado na construção da biblioteca de SAGE; FL cDNAs - seqüências completas de nucleotı́deos (full-length) de cDNA; Consenso - seqüências de nucleotı́deos consenso de clusters do UniGene; Genoma nuclear - seqüências de nucleotı́deos de DNA nuclear. 3.3 S3T - Score System for Sequence Tags 66 Os procedimentos para a extração das tags são similares aos utilizados na metodologia de mapeamento do SAGE Genie (BOON et al., 2002). Foram considerados os sı́tios de restrição para as enzimas âncoras NlaIII (CATG), mais utilizada para gerar os dados de SAGE/SBS e a enzima DpnII ou Sau3AI (GATC), mais utilizadas para gerar os dados de MPSS. As tags virtuais são obtidas da extração das bases adjacentes aos sı́tios de reconhecimento das enzimas consideradas. São obtidas tags virtuais de 10-pb, 17-pb, 13-pb e 16-pb, respectivamente para short SAGE/SBS, long SAGE, short MPSS e long MPSS. Os dados foram obtidos de duas espécies: Homo sapiens e Mus musculus. As informações sobre os conjuntos de dados de tags virtuais armazenados no S3T, para Homo sapiens, estão resumidamente relacionadas na Tabela 2. Esses conjuntos de dados de tags virtuais, suas origens e atributos são armazenados em um banco de dados relacional20 de onde são feitas as consultas pela identidade da tag. Tabela 2: Conjuntos de dados de tags virtuais, suas origens, atributos, nomes e números de tags Origem Adaptadores long SAGE Adaptadores short SAGE Atributos +1-pb variação Eventos de EA Genoma nuclear Eventos de AI No de tags LSAGE linkers 10 129 +1-pb variação LSAGE linkers 17 226 +1-pb variação SAGE linkers 10 124 Vetor pZErO-1 Eventos de PA Nome pZErO-1 NlaIII 10 16 pZErO-1 NlaIII 17 16 EST = 1 APA1 Hs DpnII 13 94782 EST = 1 APA1 Hs DpnII 16 96054 EST = 1 APA1 Hs NlaIII 10 131036 EST = 1 APA1 Hs NlaIII 17 155292 EST > 1 APA2 Hs DpnII 13 80865 EST > 1 APA2 Hs DpnII 16 81850 EST > 1 APA2 Hs NlaIII 10 112729 EST > 1 APA2 Hs NlaIII 17 130618 EST = 1 AS1 Hs DpnII 13 EST = 1 AS1 Hs NlaIII 10 703 EST > 1 AS2 Hs DpnII 13 1986 EST > 1 AS2 Hs NlaIII 10 1415 650 HG18 Hs DpnII 13 7260646 HG18 Hs DpnII 16 9509317 HG18 Hs NlaIII 10 961337 HG18 Hs NlaIII 17 20427764 IP Hs DpnII 13 42075 IP Hs DpnII 16 42569 IP Hs NlaIII 10 60984 IP Hs NlaIII 17 66489 20 http://gdm.fmrp.usp.br/cgi-bin/s3t/index.pl/alone?template file=help 3.3 S3T - Score System for Sequence Tags Origem 67 Atributos Tags internas Nome IT Hs DpnII 13 Genoma mitocondrial mRNAs Full Length No de tags 124589 IT Hs DpnII 16 127652 IT Hs NlaIII 10 137273 IT Hs NlaIII 17 165366 NC 001807.4 Hs DpnII 13 48 NC 001807.4 Hs DpnII 16 48 NC 001807.4 Hs NlaIII 10 96 NC 001807.4 Hs NlaIII 17 96 VT mRNA notail Hs DpnII 13 45322 VT mRNA notail Hs DpnII 16 46387 VT mRNA notail Hs NlaIII 10 47557 VT mRNA notail Hs NlaIII 17 52466 Sinal e cauda poli(A) VT mRNA tail Hs DpnII 13 30413 Sinal e cauda poli(A) VT mRNA tail Hs DpnII 16 31050 Sinal e cauda poli(A) VT mRNA tail Hs NlaIII 10 30877 Sinal e cauda poli(A) VT mRNA tail Hs NlaIII 17 33707 Consensos VT trEST notail Hs DpnII 13 2134 VT trEST notail Hs DpnII 16 2156 VT trEST notail Hs NlaIII 10 2840 VT trEST notail Hs NlaIII 17 2893 Sinal e cauda poli(A) VT trEST tail Hs DpnII 13 5653 Sinal e cauda poli(A) VT trEST tail Hs DpnII 16 5713 Sinal e cauda poli(A) VT trEST tail Hs NlaIII 10 7025 Sinal e cauda poli(A) VT trEST tail Hs NlaIII 17 7280 Nota: O identificador do conjunto de dados é composto pela combinação dos identificadores para a fonte do dado, a espécie, a enzima âncora e tamanho da tag, separados por um espaço sublinhado (underline). Espécie: Hs-Homo sapiens. Eventos: PA-Poli(A) alternativa; EA-Encadeamento alternativo de exons; AI-Anelamento interno (internal priming). Vetor plasmidial Foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade 3’ da seqüência de nucleotı́deos do vetor pZErO-1, utilizado na construção da biblioteca de SAGE. Genoma mitocondrial Foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade 3’, considerando separadamente os dois sı́tios de restrição para as enzimas âncoras, nas seqüências genômicas das duas espécies consideradas ([GenBank:NC 001807.4] - Homo sapiens e [GenBank:NC 005089.1] - Mus musculus). 3.3 S3T - Score System for Sequence Tags 68 Genoma nuclear Foram extraı́das todas as bases adjacentes aos sı́tios de restrição para as enzimas âncoras consideradas, nas seqüências genômicas obtidas do grupo de bioinformática da Universidade da Califórnia [University of California Santa Cruz (UCSC)21 ] das espécies consideradas (hg18 - Homo sapiens e mm8 - Mus musculus). Adaptadores Foram extraı́das as bases da extremidade 5’ dos adaptadores 1 B e 2 B e obtidas suas seqüências vizinhas, ou seja, com 1-pb de variação (distância de edição (GUSFIELD, 1997) igual a 1). mRNAs e Consensos Os bancos de dados de seqüências de cDNA full-length [MGC (STRAUSBERG et al., 1999), RefSeq (PRUITT; MAGLOTT, 2001) e “20K set” (BOON et al., 2002)] e os bancos de dados de seqüências consensos de clusters do UniGene, trEST (PAGNI et al., 2001) foram submetidos ao processamento pelo programa ESTscan (ISELI; JONGENEEL; BUCHER, 1999; LOTTAZ et al., 2003) (versão 3.0.2), que fornece a predição da localização da ORF, a sua orientação. Essa informação provida pelo ESTscan sobre a orientação é utilizada em associação com a identificação de sinal e cauda poli(A) no procedimento de correção da orientação da seqüência, padronizando a orientação (5’-3’). Para a identificação do sinal e cauda poli(A), foram utilizados algoritmos de correspondência utilizando expressões regulares. No caso da identificação de sinal de poli(A) foram consideradas as suas diferentes variações (AAUAAA, AUUAAA, AAUUAA, AAUAAU, CAUAAA e AGUAAA) (CARON et al., 2001) e a distância em relação à extremidade 3’, as muito distantes não foram consideradas (maior que 100-pb) e no caso da cauda poli(A), o critério para a sua caracterização foi possuir ao menos 5 adeninas na seqüência da extremidade 3’. As seqüências que não possuı́am evidências suficientes da sua orientação foram excluı́das, ou seja, não possuı́am ao menos 1 evidência da orientação, predição com ESTscan, sinal de poli(A) ou cauda de poli(A). As seqüências dos dois conjuntos de dados de mRNAs e dos consensos foram analisadas separadamente e subdivididas em seqüências com evidência de sinal e cauda poli(A) e outro sem essas evidências. 21 http://genome.ucsc.edu/ 3.3 S3T - Score System for Sequence Tags 69 A partir desses subgrupos foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade 3’. Do grupo de seqüências full-length com sinal e cauda poli(A) foram também obtidas as 3 tags virtuais a montante da tag virtual mais próxima da extremidade 3’ e alocadas em um subgrupo chamado de tags internas. Eventos de anelamento interno Foram considerados os eventos de anelamento interno do oligo-dT em uma região rica em adeninas e não na cauda poli(A), durante a transcrição reversa e sı́ntese de cDNAs (NAM et al., 2002). A ocorrência desse evento pode levar a presença de tags internas, consideradas nesse caso artefatos da técnica. Um conjunto de seqüências onde esse evento é provável foi obtido a partir das seqüências full-length e consensos que continham ao menos 8 adeninas em 10 bases, confirmados com o alinhamento de ESTs do dbEST cujas extremidades estão nessa região, indicando que houve o truncamento da molécula. Os alinhamentos foram obtidos com o programa BLAST -Like Alignment Tool (BLAT) (KENT, 2002). A partir da informação da posição onde há a possibilidade de ocorrência de anelamento interno e sı́ntese de cDNA truncado, foram extraı́das tags virtuais à montante dessas posições. Eventos de processamentos alternativos Foram considerados dois eventos de processamento alternativo de RNAs: encadeamento alternativo de exons, poliadenilação alternativa. Utilizando o resultado do alinhamento de ESTs do dbEST com o programa BLAT. As tags virtuais de eventos de poli(A) alternativa foram extraı́das a montante das posições com evidências de poliadenilação alternativa, que foram obtidas com a observação do número de ESTs com sinal e cauda poli(A) que alinham na região dentro das seqüências full-length e consensos dos transcritos. Essas tags foram divididas em dois grupos, com ao menos 1 EST e com mais de 1 EST suportando a evidência. As tags virtuais de eventos de encadeamento alternativo de exons foram extraı́das dos transcritos onde o processamento alternativo gerou um sı́tio de restrição diferente para as enzimas consideradas. Essas tags também foram divididas em dois grupos, com ao menos 1 EST e com mais de 1 EST suportando a evidência. 3.3 S3T - Score System for Sequence Tags 3.3.2 70 Regras de Classificação Para a graduação das tags são adotadas regras de classificação que podem ser estabelecidas de acordo com as necessidades especı́ficas. Essas regras possuem parâmetros relevantes baseados em 4 componentes principais, a freqüência da tag, a sua identidade em um conjunto de tags virtuais com caracterı́sticas relevantes, a freqüência média em outras bibliotecas e a abundância das tags vizinhas. A identidade em um banco de dados de tags virtuais determina a possı́vel origem da tag. O componente baseado na freqüência das tags, permite levar em consideração a suposição de que a abundância e a representatividade no conjunto total de bibliotecas pressupõem mais confiança para ela. A confiança na veracidade da tag ainda pode ser ampliada caso ela tiver uma freqüência média razoável considerando outras bibliotecas. Nesse caso o banco de dados públicos de expressão gênica H2G (Seção 3.2) é utilizado como fonte para obter essa informação. O outro componente, baseado na vizinhança das tags, considera a idéia de que erros durante a construção da biblioteca, no caso de tags abundantes podem gerar artefatos (COLINGE; FEGER, 2001). Configuração Os esquemas de análise, ou seja, os conjuntos de regras definidas para cada combinação de parâmetros da análise, são definidas em um arquivo de configuração (Apêndice C) no formato padrão INI22 (nome = valor), onde estão contidas também as configurações necessárias para o funcionamento do sistema, como os dados para a conexão com o banco de dados, caminhos de diretórios no sistema de arquivos, etc. Esse arquivo de configuração é organizado por blocos, os blocos que possuem a identificação do esquema, referem-se à configuração das regras ([Plataforma Enzima âncora Tamanho da Tag Espécie SCORE]) e configuração da ordem de aplicação das regras ([Plataforma Enzima âncora Tamanho da Tag Espécie]). Os blocos SOURCES e ATTRIBUTES referem-se respectivamente às fontes dos dados e os atributos especiais. A ordem de aplicação das regras pode ser alterada permutando os scores dispostos no parâmetro score order. A configuração da regra possui uma sintaxe própria e há três variáveis que podem ser utilizadas na composição da regra: $f tag - valor de freqüência absoluta da tag; 22 http://en.wikipedia.org/wiki/INI file 3.3 S3T - Score System for Sequence Tags 71 $m tag - valor médio de freqüência da tag considerando outras bibliotecas; $mfno tag - ordem da tag vizinha mais freqüente, considerando a porcentagem das tags mais freqüentes. Os componentes das regras são isolados por ponto e vı́rgula (;), onde o primeiro elemento refere-se à fonte e o segundo aos atributos, o terceiro é a condição que envolve as variáveis mencionadas e onde a sintaxe é idêntica à de uma expressão Perl23 . As fontes e os atributos são representados pelos respectivos códigos contidos nos blocos SOURCES e ATTRIBUTES. Os operadores “&” e “|” representam respectivamente o “e” e o “ou” e podem ser utilizados para combinar fontes ou atributos em uma única regra. 3.3.3 Interface Há duas possibilidades de acesso à análise com o S3T, via prompt do SO e via formulário da internet. No caso do prompt de comando do SO, o arquivo contendo as tags com as respectivas freqüências e os seguintes parâmetros são informados como argumentos na linha de comando: plataforma, tamanho da tag, enzima âncora e espécie. O arquivo resultante é semelhante ao arquivo que representa a biblioteca, com uma coluna adicional, que contém as respectivas classificações. Utilizando o argumento que ativa o modo verboso é possı́vel acompanhar em detalhes o processo de classificação de cada uma das tags. No caso da interface via internet, os mesmos parâmetros são informados em um formulário desenvolvido para tornar o acesso mais fácil e cômodo para o usuário. Os resultados são representados por meio de gráficos e tabelas, que permitem a visualização e exploração, além de conter as associações das tags e genes, obtidas do H2G via chamada direta dos métodos, ou via chamada de métodos disponı́veis via SOAP. A interface via internet também permite a comparação com os dados já processados, os quais estão resumidos em um box plot (WILLIAMSON; PARKER; KENDRICK, 1989). O box plot é um gráfico que possibilita representar a distribuição de um conjunto de dados com base em alguns de seus parâmetros descritivos, tais como a mediana e os quartis. 23 http://perldoc.perl.org/functions/eval.html 3.3 S3T - Score System for Sequence Tags 3.3.4 72 Análise com dados públicos de SAGE Dados experimentais Os dados experimentais selecionados para a avaliação foram extraı́dos do repositório de dados de expressão gênica do H2G. Foram selecionadas 359 bibliotecas de SAGE em grupos de 34 tecidos/órgãos da espécie humana. Esses grupos foram definidos de acordo com o nome da biblioteca, o qual é padronizado no caso das bibliotecas do CGAP24 : SAGE ÓRGÃO HISTOLOGIA PREPARAÇÃO IDENTIFICADOR ÚNICO. O grupo histológico é definido pelos identificadores comuns da nomenclatura das bibliotecas: SAGE ÓRGÃO HISTOLOGIA PREPARAÇÃO. Definição das Regras Há distintos conjuntos de regras pré-configurados e definidos de acordo com a combinação dos parâmetros de configuração. O conjunto de regras utilizado como exemplo de aplicação do método está contido na Tabela 3. Os parâmetros que o definem são: SAGE (plataforma), 10-pb (tamanho da tag), NlaIII (enzima) e Hs (espécie). A intenção deste conjunto de regras é a identificação de possı́veis artefatos para a posterior exclusão e obter também uma gradação de confiabilidade para as tags. A avaliação inicia com as regras que permitem identificar as tags com provenientes de adaptadores de SAGE (-4), tags com baixa freqüência ( f (x) = 1) que têm identidade com o conjunto de tags com evidências de anelamento interno (-3), e as tags com baixa freqüência ( f (x) < 5) similares às vizinhas mais abundantes (20% mais abundantes). As próximas regras (10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0) são usadas para identificar tags com identidade no conjunto de tags virtuais de transcritos conhecidos, com diferentes gradações de confiabilidade; a próxima regra (0) é a última chance de aceitação das tags, se sua média de freqüência considerando outras bibliotecas for maior que sua freqüência na biblioteca que está sendo avaliada (m(x) > f (x)); a próxima regra retém as tags remanescentes observadas uma única vez ( f (x) = 1), possivelmente errôneas; as regras subseqüentes (-5, -7, -6) são usadas para verificar a identidade com os genomas mitocondrial e nuclear e com o vetor de clonagem respectivamente; a última regra retém as tags remanescentes que não foram classificadas em nenhuma das categorias anteriores. 24 http://cgap.nci.nih.gov/SAGE/SAGEHelp 3.3 S3T - Score System for Sequence Tags 73 Tabela 3: Conjunto de regras usadas no processo de classificação das bibliotecas de tags. O f (x) representa a freqüência absoluta para a tag x, e m(x) a freqüência média da tag x, considerando todas as bibliotecas no banco de dados experimentais de expressão gênica, N(x) representa o conjunto de tags vizinhas da tag x, T representa o conjunto de tags com as freqüências mais altas na biblioteca (20%). A ordem em que estão dispostas as linhas respectivas de cada score representa a ordem (do topo à base) para a aplicação da regra respectiva. Score -4 -3 -2 10 9 8 7 6 5 4 3 2 1 0 -1 -5 -7 -6 -8 Fonte Condição Adaptadores (*) mRNAs região interna rica em As FL cDNAs, 3’, poli(A) FL cDNAs, 3’, poli(A) FL cDNAs, 3’ FL cDNAs, 3’ Consenso, 3’, poli(A) Consenso, 3’, poli(A) poli(A) alt./splicing, > 1 EST Consenso, 3’ poli(A) alt./splicing, 1 EST FL cDNAs, tags internas f (x) = 1 f (x) < 5 e (N(x) ∩ T ) 6= 0/ f (x) ≥ 10 1 ≤ f (x) < 10 f (x) ≥ 5 1 ≤ f (x) < 5 f (x) ≥ 5 1 ≤ f (x) < 5 f (x) > 1 f (x) ≥ 1 f (x) ≥ 1 m(x) > f (x) f (x) = 1 Genoma mitocondrial Genoma nuclear Vetor pZErO-1 (*) Nota: * Aplicável somente para dados de SAGE. Análise descritiva dos dados Os resultados foram divididos em dois grupos, sendo que um corresponde às tags classificadas com scores positivos e o outro às tags classificadas com scores negativos. A estatı́stica descritiva para os resultados foi realizada utilizando o pacote R de métodos estatı́sticos, obtendo a média de freqüência das tags, a redundância (total de tags únicas / somatório das freqüências) e as proporções de tags únicas e freqüências em cada grupo. Análise de agrupamento hierárquico Uma análise de agrupamento hierárquico (EISEN et al., 1998) foi realizada usando o programa Cluster3 (HOON et al., 2004) nos mesmos tipos de tecido em amostras de condições biológicas distintas, tipicamente tecido normal versus tecido tumoral, e/ou prepa- 3.3 S3T - Score System for Sequence Tags 74 ração da amostra (e.g. microdissecção, linhagem celular). A análise utilizou as bibliotecas completas, ou seja com todas as tags, sem nenhuma filtragem e após a filtragem. Essas bibliotecas foram classificadas de acordo com o fenótipo (e.g. normal, tumoral, gradação tumoral) e/ou preparação dentro de cada grupo definido para os 34 tecidos distintos, usando as informações contidas nos nomes das bibliotecas (Apêndice B). Os subgrupos contendo uma única biblioteca foram excluı́dos e os grupos com apenas 1 subgrupo também foram excluı́dos, restando apenas 14 grupos. Os agrupamentos (clusters) foram gerados utilizando a distância euclidiana com os 4 métodos de agrupamento: Ligação completa (Pairwise complete-linkage); Ligação individual (Pairwise single-linkage); Ligação centróide (Pairwise centroid-linkage); Ligação média (Pairwise average-linkage). O programa Simcluster também foi utilizado para gerar os agrupamentos hierárquicos usando os mesmos métodos de agrupamento, exceto o de Ligação centróide, o qual não é implementado nesse programa. A medida-F (RIJSBERGEN, 1979) foi utilizada para avaliar a qualidade geral do agrupamento, que é um método que combina as idéias de precisão (precision) e revocação (recall ). Os valores da media F estão no intervalo de [0-1], sendo que valores altos indicam agrupamento de maior qualidade. Os agrupamentos formados antes e após a filtragem com S3T foram comparados usando a medida-F geral. A expectativa é encontrar agrupamentos mais adequados após a filtragem, ou seja, agrupando propriamente amostras de um mesmo fenótipo celular mais próximos e mais distantes de outros de fenótipos distintos, como por exemplo, tecidos normais e tumorais. 75 4 Resultados e Discussão 4.1 H2G - Hyper- and Hypo-expressed Genes O sistema H2G foi desenvolvido para suprir a necessidade de um repositório de dados de expressão gênica, tais como os gerados pelas tecnologias SAGE, MPSS e SBS, e de mecanismos para a manipulação e consulta desses dados, das informações referentes a cada experimento e também das informações funcionais relacionadas. A última versão do repositório (Junho/2009) possui dados de cinco espécies e três tecnologias baseadas no seqüenciamento de tags (Tabela 4), totalizando 1.174 bibliotecas distribuı́das em 18 projetos, sendo um deles de acesso público. Tabela 4: Conteúdo do repositório de dados do H2G. Espécie Homo sapiens Mus musculus Rattus norvegicus Apis mellifera Bos taurus Total Tamanho da tag SAGE SAGE SAGE MPSS SBS SBS SAGE SAGE SAGE SAGE MPSS SAGE SAGE Tecnologia Enzima Âncora Quantidade de Experimentos 10 10* 17 13 10* 17 10* 17 10 10 13 10 10 NlaIII NlaIII NlaIII DpnII NlaIII NlaIII NlaIII NlaIII NlaIII NlaIII DpnII NlaIII NlaIII Públicos Privados 320 69 80 32 35 35 212 217 72 28 0 0 0 1100 61 0 0 0 0 0 0 0 3 7 0 1 2 74 Nota: *-extraı́das de tags maiores. O acesso aos dados e outros recursos é feito por intermédio de uma interface disponı́vel na internet. Para o acesso aos dados públicos é exigido apenas um cadastro, no caso dos dados de projetos privados o acesso é restrito apenas aos membros dos projetos incluı́dos no sistema. O cadastro para acesso aos dados públicos pode ser realizado pelo próprio usuário 4.1 H2G - Hyper- and Hypo-expressed Genes 76 utilizando o formulário disponı́vel na página. O cadastro nos projetos privados é realizado apenas pelo administrador do sistema mediante requisição e aprovação. A navegação pela interface é simples e intuitiva. O menu lateral fornece os links para acessar as informações do sistema, material suplementar, ajuda e Frequently Asked Questions (FAQ), download de arquivos extras (bibliotecas processadas com S3T), além do link para o formulário de cadastro. Nesse menu é possı́vel selecionar o projeto e a plataforma e realizar a autenticação do usuário, que é necessária para habilitar o menu principal para acessar os recursos disponı́veis. Há a opção de esconder o menu lateral para aumentar a área de exibição dos recursos. 4.1.1 Recursos disponı́veis O sistema H2G é subdividido em quatro subunidades direcionadas a serviços: Repositório de dados (Data repository), Experimentos (Experiments), Análises (Analyses) e Pesquisa (Search). Repositório de dados O repositório de dados contém a listagem dos experimentos disponı́veis organizados por espécie e tipo de tecido das amostras, além de indicar o identificador do experimento, o nome, a quantidade de tags distintas e o somatório total de tags. A lista possui links para as informações detalhadas de cada biblioteca. Esse serviço está disponı́vel sem a necessidade de autenticação. Experimentos Nessa área estão os serviços dirigidos à visualização e manipulação de experimentos, tais como: Listagem dos dados contidos no experimento com a respectiva anotação ordenados pela freqüência. Essa interface possibilita a navegação, filtragem por palavras chaves e download dos dados nos formatos texto e Microsoft Excel Spreadsheet (XLS); Deleção de experimento, o que necessita de permissão; Visualização de informações a respeito da amostra (tecido, tipo celular) e da prepa- ração do experimento, além das classificações dos dados em categorias referentes à 4.1 H2G - Hyper- and Hypo-expressed Genes 77 anotação e segundo os critérios do S3T. Cada categoria apresenta um link para a listagem dos dados contidos em si; Inclusão de uma novo experimento por meio de um formulário próprio que inclui os dados de obtenção e preparação da amostra e da tecnologia aplicada; Atualização dos dados do experimento; Importação de novos experimentos do GEO por meio do acesso GSM; Controle de permissões referentes ao experimento, que permitem a deleção ou a atualização dos dados; Visualização dos resultados da análise do experimento com o S3T; Submissão dos dados por meio da transferência de arquivos de dados brutos ou processados. O download dos dados submetidos também é possı́vel por meio dessa ferramenta; Checagem das leituras do seqüenciador com o uso do programa phred (EWING et al., 1998), quando houver arquivos cromatogramas disponı́veis no diretório interno especı́fico para cada experimento; Análises Nessa área estão os serviços dirigidos à visualização e manipulação de análises comparativas entre experimentos, tais como: Visualização de informações referentes à descrição da análise; Deleção de uma análise; Criação de uma nova análise. Essa interface permite projetar uma análise e requisi- tar seu processamento automático. As análises de cada usuário ficam armazenadas e podem ser consultadas futuramente, até que o usuário decida removê-las; Consulta aos resultados do processamento da análise utilizando o sistema de buscas no banco de dados, o qual permite uma combinação de parâmetros para a identificação dos genes diferencialmente expressos. Nessa ferramenta é possı́vel realizar uma análise GSEA para a identificação dos grupos gênicos diferencialmente expressos, os quais podem ser definidos pelos termos do GO ou vias metabólicas do KEGG ou do BioCarta; 4.1 H2G - Hyper- and Hypo-expressed Genes 78 Consulta aos resultados do processamento da análise utilizando os links contidos em um gráfico de dispersão. Cada ponto no gráfico corresponde a uma ou várias tag com valores idênticos em ambos os pools. O ponto é colorido de acordo com o intervalo estabelecido com os valores da medida de avaliação selecionada previamente; Consulta aos resultados do processamento da análise utilizando a ferramenta para a obtenção dos conjuntos de tags presentes em ambos os pools ou exclusivos de cada pool (A ou B); Pesquisa Nessa área estão os serviço de buscas que permitem as consultas por experimentos ou informações de genes em experimentos e análises. Portanto, há duas possibilidades de buscas: Buscas por experimentos utilizando palavras chaves dentre as informações relacio- nadas com os experimentos, tais como as seguintes: nome da espécie, nome de um experimento especı́fico, identificador numérico do experimento, tecido, acesso GeneId (Entrez Gene) (OSTELL, 2003) ou acesso UniGene. A resposta é a listagem dos experimentos no mesmo formato da listagem de experimentos do repositório; Buscas por informações de genes ou expressão de genes em experimentos e análises utilizando uma palavra chave que será pesquisada dentre as informações relacionadas, tais como as seguintes: Seqüência da tag e enzima âncora, acesso GenBank, acesso UniGene ou sı́mbolo do gene. O resultado exibe as informações descritivas do gene, como os termos do GO e vias metabólicas relacionadas, além disso exibe também uma lista com os valores relativos ao gene nas análises comparativas do usuário, onde esse gene está presente. Há também uma ferramenta que permite gerar uma imagem contendo as bibliotecas e as tags referentes ao gene encontrado e os nı́veis de expressão representados por tonalidades de cinza (tonalidades mais escuras representam maior expressão) além dos valores em modo texto (Figura 9). Para a atribuição da respectiva tonalidade de cor, inicialmente os valores são normalizados para 300.000, o valor que varia de 0 a 255 é atribuı́do de acordo com a seguinte fórmula: 255 − log( 255√300000) x, onde x é o valor da freqüência normalizada da tag; 4.1 H2G - Hyper- and Hypo-expressed Genes 79 Figura 9: Imagem da representação dos nı́veis de expressão das tags no sistema de pesquisa do H2G. O gene pesquisado é o NFKB2 e as bibliotecas de SAGE selecionadas são as de medula óssea. 4.1.2 Aplicações do H2G Para demonstrar as aplicações do H2G foi criada uma nova análise por meio da interface web. Foram selecionadas 2 bibliotecas de SAGE para análise comparativa, obtidas do trabalho de Panepucci et al. (2007). Essas bibliotecas foram geradas separadamente a partir de amostras de células CD34+ isoladas de sangue de cordão umbilical (SCU) (CTC UmbilicalCord Normal CD34 SCU New1 ) e de medula óssea (MO) (CTC UmbilicalCord Normal CD34 MO New2 ). A célula CD34+ é uma células progenitora hematopoiética, que apresentam apresentam diferenças biológicas intrı́nsecas (PANEPUCCI et al., 2007). A ferramenta para obtenção de conjuntos de tags identificou em um total de 39.512 tags, 15.238 tags exclusivas de SCU, 17.418 tags exclusivas de MO e 6.856 que estão presentes em ambas as bibliotecas. As listas de tags de cada conjunto, contêm informações detalhadas tais como a anotação gênica, os as freqüências das tags e os valores das medidas de avaliação. O gráfico de dispersão (Figura 10) exibe a relação entre as tags nas duas bibliotecas. Nesse gráfico é possı́vel observar as tags diferencialmente expressas de acordo com a medida selecionada, a qual neste caso foi a fold change (fc). Os pontos contêm referências às informações detalhadas de cada tag. A consulta aos resultados pode ser feita utilizando uma combinação de parâmetros por meio da ferramenta de consulta. É possı́vel selecionar, por exemplo, valores de razão no intervalo de 40 a 1000 vezes mais expressos em SCU e um valor de significância p-value < 0,001 (AUDIC; CLAVERIE, 1997). Essa consulta retorna duas tags, que representam 1 http://gdm.fmrp.usp.br/h2g/library/569 2 http://gdm.fmrp.usp.br/h2g/library/570 4.1 H2G - Hyper- and Hypo-expressed Genes 80 Figura 10: Gráfico de dispersão de uma análise comparando uma biblioteca obtida de amostra de células CD34+ de sangue de cordão umbilical (SCU) (Pool B) e uma biblioteca obtida de amostra de células CD34+ de medula óssea (MO). Os pontos representam uma ou várias tags com valores de expressão semelhantes em ambas as bibliotecas. A cor de cada ponto representa o nı́vel da razão de expressão, ou fc, de acordo com a legenda. Os genes identificados no gráfico fazem parte da coleção de genes do trabalho de Panepucci et al. (2007), em destaque os genes relacionados aos complexos NF-κ B que estão mais expressos na biblioteca de SCU e que foram selecionados para validação por qPCR, os demais genes foram identificados no gráfico por estarem entre os mais expressos. os genes HBG2 (ATGCAGAGCT; fc = 152,38) e CCL4 (GATAACACAT - fc = 49,45). O gene CCL4 participa da via metabólica Toll-like receptor signaling (KEGG:hsa04620). Nessa mesma interface é possı́vel combinar outros parâmetros de consulta, como por exemplo, as tags relacionadas aos genes dessa via metabólica e valores de fc no intervalo de 5 a 1000 vezes mais expressos em SCU, com um p-value < 0,001. Essa consulta retorna as tags referentes aos genes CCL4, IL8 (TGGAAGCACT - fc = 7,62), NFKB1 (GTTACAATCA - fc = 5,55), IL1B (CAATTTGTGT - fc = 16,15) e NFKB2 (GGAAGGGGAG - fc = 11,86). O gene IL1B está anotado no GO como envolvido no processo biológico (GO:0051092) de regulação positiva dos complexos de fatores de transcrição NF-κ B. Uma busca por tags com essa anotação do GO combinada com um intervalo de fc de 2 a 1000 e com o mesmo intervalo de diferença (d), foi possı́vel encontrar 8 tags referentes a 6 genes. Três desses genes foram validados por Panepucci et al. (2007): o TNF (TAGCCCCCTG - fc = 3,03, d = 29,77), o TGFB1 (GGGGCTGTAT - fc = 3,11, d = 29,77; ATCGTGCGCT - fc = 2,02, 4.1 H2G - Hyper- and Hypo-expressed Genes 81 d = 4,98) e o RELA (ATCGTGCGCT - fc = 2,02; d = 4,98). A diferença de expressão do gene RELA não apresentou significância (p-value < 0,001; 0,208) embora tenha sido validada. Os genes ICAM1 e RELB, que são regulados pelo fator de transcrição NF-κ B, podem ser localizados por meio da busca direta pelo sı́mbolo de cada gene, por uma palavra chave contida na descrição do gene, pela seqüência da tag ou pelo UniGene. No resultado de cada uma dessas consultas, as tags dos genes selecionados para a validação foram armazenadas em um conjunto de dados definido, que neste caso foi nomeado de “tese” para consultas futuras (Figura 11). As tags armazenadas nesse conjunto de dados também podem ser utilizadas nas buscas em outras análises. Figura 11: Resultado obtido por meio da consulta usando o conjunto “tese”, o qual foi definido para armazenar as tags selecionadas a partir dos resultados das consultas realizadas. Essas tags representam os nove genes selecionados para a validação no trabalho de Panepucci et al. (2007). Além desses tipos de consultas, a ferramenta ainda permite encontrar tags referentes a alvos preditos de miRNAs especı́ficos e tags que mapeiam dentro de genes, ou próximas a genes, que hospedam miRNAs. Por exemplo, uma busca pelo hsa-miR-545 retorna uma tag (ACTTTTTCAA) anotada como clone de cDNA (UniGene Hs.349570). Essa tag possui um número considerável de cópias em ambas as bibliotecas, 347,46 em MO e 464,24 em SCU, tendo portanto um fold change de ∼1,34. Esse miRNA já foi reportado na literatura como hiper-expresso em células CD34+ de SCU em relação às células CD34+ de MO (MERKEROVA et al., 2009). Outro recurso que está embutido na ferramenta de consulta é a GSEA, que no caso da análise anterior, indica os grupos funcionais com os maiores scores de enriquecimento, considerando a medida fold change. Eles são: Vias metabólicas (BioCarta): MAPKinase, HIV-I e Caspase; 4.2 S3T - Score System for Sequence Tags 82 Vias metabólicas (KEGG): Ribosome, Pathways in cancer e Cytokine-cytokine re- ceptor interaction; Funções (GO): protein binding, zinc ion binding e RNA binding; Processos (GO): signal transduction, immune response e RNA splicing; Componentes (GO): nucleus, cytoplasm e cytosol. 4.1.3 Disponibilidade e requisitos do sistema H2G A disponibilidade e os requisitos essenciais para a instalação básica do H2G estão discriminadas a seguir. A instalação básica permite a utilização dos métodos contidos nas suas bibliotecas e alguns scripts para análise, manipulação e consulta dos dados via linha de comando. Os requisitos especı́ficos podem ser encontrados através do Uniform Resource Identifier (URI) informado. Nome: H2G - Hyper- and Hypo-expressed Genes; URI: http://gdm.fmrp.usp.br/h2g; Requisitos: Sistema operacional do tipo UNIX (e.g. Linux, FreeBSD, Solaris), Linguagem de Programação Perl versão maior ou igual a 5.8.0, Linguagem de Programação R versão maior ou igual a 2.1.1, SGBD MySQL maior ou igual a 4.1.13; Licença: GNU is Not Unix (GNU) General Public License (GPL). 4.2 S3T - Score System for Sequence Tags O sistema S3T está disponı́vel em seu próprio sı́tio na internet. Os serviços providos pelo sistema via internet incluem a classificação de uma lista de tags, a comparação com os resultados de outras bibliotecas previamente analisadas, a seleção de tags de acordo com o score atribuı́do, a visualização e o download dos resultados das análises prévias das 359 bibliotecas SAGE públicas. Para a análise de uma biblioteca são necessários os dados da biblioteca, ou seja, as tags e as respectivas freqüências, que podem ser formatados em um arquivo, e também os parâmetros para a configuração da análise: a plataforma (SAGE, MPSS ou SBS), a enzima âncora (NlaIII ou DpnII ), o tamanho das tags e o acrônimo da espécie (Hs ou 4.2 S3T - Score System for Sequence Tags 83 Mm). O tempo médio para a análise de uma biblioteca de 80.000 tags distintas é de aproximadamente 5 minutos. A ferramenta oferece a opção de inclusão de um endereço de email para receber o resultado da análise, ou alternativamente é possı́vel aguardar o processamento. O resultado é apresentado em forma de gráficos de barras, que representam a quantidade de tags únicas e total de tags, em escala semi-logarı́tmica ou em porcentagens, para cada classificação. Uma tabela com os valores numéricos também é apresentada, e de onde é possı́vel consultar o significado e a lista de tags de cada classe (score). A lista apresenta a anotação gênica de cada tag, ou seja, o acesso UniGene, o sı́mbolo do gene e a descrição, além de links para o sı́tio do CGAP SAGE Genie. Nessa mesma interface é possı́vel visualizar os gráficos contendo os histogramas dos dados de cada score, representando a contagem de tags distintas em relação às freqüências das tags. Também estão nessa interface os box plots que representam as distribuições dos dados dentro de cada score e os pontos que representam os dados obtidos na análise dessa biblioteca que foi submetida para análise. Os dados para compor os histogramas e box plots foram obtidos dos resultados das análise dos dados públicos de SAGE (Seção 4.2.1). A interface ainda permite o download da biblioteca com a classificação das tags. Para cada resultado é gerada uma chave que pode ser usada para consultas futuras durante um tempo determinado por meio da interface de visualização que também permite como entrada além dessa chave, o arquivo que contém as tags, suas respectivas freqüências e scores (GCAAGAAAGT<tab>100<tab>10). O código fonte e o banco de dados relacional MySQL estão disponı́veis na página de downloads juntamente com os arquivos formatados contendo todos os conjuntos de tags virtuais utilizados atualmente. Na página de material suplementar estão as análises com os resultados das análises das bibliotecas SAGE públicas, incluindo os arquivos já filtrados, também ferramentas extras para a visualização dos resultados. A página de ajuda e FAQ contém informações úteis, tais como o conjunto de regras para cada configuração de análise, ou seja o significado de cada score, e também informações operacionais sobre como usar a ferramenta. 4.2.1 Análise com dados públicos de SAGE De acordo com a análise inicial usando as 359 bibliotecas SAGE é possı́vel observar a grande diversidade entre as proporções de tags pelos scores estabelecidos (Figura 12). 4.2 S3T - Score System for Sequence Tags 84 A alta porcentagem de tags com score -2 é evidente; elas podem ter surgido de erros em tags abundantes cujas seqüências são similares. Isso indica que erros de seqüenciamento são os mais prevalentes. As correlações entre o total de tags seqüenciadas em uma biblioteca e o número de tags únicas em determinado score (Tabela 5) indicam que dentre os scores negativos, o que apresenta uma correlação mais forte é o -2 (0,91), ou seja, o número de tags únicas com score -2 aumenta de acordo com o número de tags seqüenciadas. Estes resultados podem revelar a qualidade geral dessas bibliotecas. Aquelas bibliotecas com uma alta porcentagem de tags classificadas com scores negativos não podem ser consideradas confiáveis para as análises subseqüentes que utilizam perfis de expressão gênica. Box plots (WILLIAMSON; PARKER; KENDRICK, 1989) foram usados para visualmente resumir e comparar os grupos de dados (Figura 12) nele estão contidas as distribuições de tags únicas ao longo das classes propostas. É importante observar particularmente os scores positivos que representam a contribuição efetiva para a informação biológica, os outros, possivelmente representam contaminações ou erros inerentes à técnica. Entretanto, as tags com scores negativos que possuem identidades nas seqüências genômicas ou que não possuem identidade alguma, podem também ser oriundas de transcritos desconhecidos até o momento (KEIME et al., 2007). Porém, é importante enfatizar que esses transcritos poderão ser caracterizados mediante a constante atualização dos bancos de dados atuais de transcritos, especialmente com a utilização das tecnologias de seqüenciamento em larga escala, os quais possuem alta sensibilidade para a detecção de transcritos raros. As análises de agrupamento hierárquico usando os 14 grupos histológicos de bibliotecas SAGE (Tabela 6) foram realizadas, comparando o agrupamento utilizando os dados completos e após a filtragem desses mesmos dados. A avaliação de qualidade do agrupamento foi realizada utilizando o valor da medida-F. A intenção é encontrar um valor maior no agrupamento realizado após a filtragem com S3T, como o observado no caso do grupo de bibliotecas de cólon (Figura 13). Nesse caso das bibliotecas de cólon, no agrupamento hierárquico utilizando os dados brutos antes de qualquer filtragem (Figura 13a.) (Medida-F 0,94), há uma biblioteca de amostras obtidas de tecido de adenocarcinoma de cólon (SAGE Colon adenocarcinoma B Tu102) em um agrupamento onde predominam bibliotecas de cólon extraı́das de amostras de tecidos normais (SAGE Colon normal B NC1 e SAGE Colon normal B NC2), em contrapartida, no agrupamento hierárquico utilizando os dados após a filtragem das tags 4.2 S3T - Score System for Sequence Tags 85 Tabela 5: Correlação de Pearson entre o total de tags seqüenciados e o total de tags distintas dentro de cada score. Score Correlação de Pearson 10 9 8 7 6 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8 0,98 0,54 0,97 0,59 0,92 0,48 0,86 0,54 0,63 0,64 0,52 0,43 0,91 0,82 0,14 0,58 N/D 0,89 0,40 Nota: N/D-Não Disponı́vel. classificadas com scores negativos (Figura 13b.) (Medida-F 1,00), as duas bibliote- cas de amostras obtidas de tecido de adenocarcinoma de cólon agrupam próximas (SAGE Colon adenocarcinoma B Tu102 e SAGE Colon adenocarcinoma B Tu98) e as demais bibliotecas agrupam próximas de acordo com as classes previamente definidas. O resultado da análise utilizando a medida-F dos 14 grupos (Tabela6) revelou que os agrupamentos de amostras com informações histológicas e patológicas conhecidas, de um modo geral, foram em muitos casos (32,65%) foram mais concordantes com suas classes pré-definidas (Seção 3.3.4) após a filtragem , em outros casos (58,16%), a filtragem não afetou a qualidade geral do agrupamento e em poucos casos (9,18%), os agrupamentos após a filtragem foram menos concordantes com suas classes previamente definidas. O grupo com amostras de cérebro é um desses grupos que foram menos concordantes após a filtragem. O grupo de cérebro é composto por muitas amostras heterogêneas em subgrupos, o que torna difı́cil distingui-las dentro desse grupo, além disso essa classificação é dependente da correta e precisa classificação das amostras, porém essa classificação minuciosa não foi possı́vel devido ao acesso restrito das informações do material de origem. 4.2 S3T - Score System for Sequence Tags 86 Figura 12: Distribuições das porcentagens de tags únicas para cada grupo de tags classificadas com determinado score. O resultado da análise das 359 bibliotecas apontam que as tags com scores -2 são as mais abundantes dentre aquelas classificadas com scores negativos (Figura 15). Isso foi observado para quase todas as bibliotecas, considerando a contagem de tags únicas (distintas) e o total de tags (somatório das freqüências) (95,26% e 99,16%, respectivamente) (Figura 14), o que obviamente afeta as diferenças entre os dados completos e os dados após a filtragem, e pode indicar quais bibliotecas não têm tags informativas com qualidade suficiente. O critério para essa consideração depende da estringência da análise e dos requisitos necessários. Como demonstração de que a classificação por meio das regras não é aleatória e 4.2 S3T - Score System for Sequence Tags 87 Figura 13: Bibliotecas SAGE de cólon agrupadas com o método de ligação completa usando a distância euclidiana, com os dados antes (a) e depois (b) da filtragem de tags com scores negativos classificadas com o S3T. sim direcionada e a filtragem proposta é útil para a obtenção de agrupamentos mais coerentes, realizamos uma avaliação com a medida-F antes e após a filtragem das tags com scores negativos, os quais foram atribuı́dos de forma aleatória para as 359 bibliotecas. O processo foi repetido 100 vezes e cada resultado reamostrado 100 vezes, considerando aleatoriamente em cada reamostragem, 40% do total de casos de agrupamentos (98). Cada caso corresponde a uma avaliação do valor da medida-F antes e após a filtragem. As distribuições dos dados de porcentagem de casos onde o valor da medida-F aumentou, permaneceu igual ou diminuiu, estão representadas na Figura 16. Os valores médios dessas três distribuições foram comparados com as médias obtidas das reamostragens dos resultados da análise original com S3T e de uma análise alternativa, na qual são filtradas as tags com uma única cópia na biblioteca (Tabela 7 e Tabela 8). As diferenças são 4.2 S3T - Score System for Sequence Tags 88 Tabela 6: Grupos histológicos de bibliotecas SAGE usadas na análise de agrupamento hierárquico executada antes e depois (*) da filtragem de tags com scores negativos classificadas com o S3T, Os pares de células da tabela com valores em negrito representam os casos onde houve uma melhoria na qualidade geral do agrupamento [Medida-F aumentou (21,43% casos - cluster3; 47,62% casos - simcluster)] ou a qualidade se manteve (69,64% casos - cluster3; 42,86% casos - simcluster), nos pares de células remanescentes a qualidade diminuiu [Medida-F diminui (8,93% - cluster3; 9,52% - simcluster)], ou seja, os resultados não estão concordantes com as classes pré-definidas. Id Grupos Tags únicas Medida-F global (Amostras) * cluster3 (HOON et al., 2004) / simcluster (VENCIO et al., 2007) (%) M A * S * C * * 1 9(56) 29,21 0,65 0,70 0,69 0,72 0,62 0,65 0,57 0,64 0,55 0,49 0,54 0,58 0,52 0,52 2 2(7) 29,11 0,84 0,79 1,00 0,86 0,90 0,79 0,90 0,79 0,90 0,79 0,90 0,79 0,90 0,90 3 2(24) 30,88 0,88 0,88 0,88 0,94 0,88 0,87 0,88 0,88 0,88 0,83 0,90 0,87 0,88 0,88 4 4(12) 33,35 0,94 1,00 1,00 1,00 0,94 0,94 1,00 1,00 0,94 0,90 0,94 0,89 0,94 0,94 5 2(4) 28,80 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 0,83 6 2(4) 42,70 1,00 0,83 1,00 0,83 1,00 0,83 1,00 0,83 1,00 0,83 1,00 0,83 1,00 1,00 7 14(45) 34,72 0,72 0,67 0,74 0,77 0,69 0,63 0,64 0,69 0,64 0,57 0,64 0,61 0,61 0,61 8 2(5) 27,57 0,88 1,00 1,00 0,88 0,88 1,00 1,00 0,88 0,88 0,87 1,00 0,88 0,88 0,88 9 2(5) 41,48 0,88 0,88 0,88 0,88 0,88 0,85 0,88 0,88 0,75 0,85 0,75 0,85 0,75 0,75 10 4(8) 45,00 0,83 0,92 0,83 0,92 0,83 0,92 0,83 0,92 0,83 0,83 0,83 0,92 0,83 0,83 11 3(11) 40,70 0,90 0,80 0,90 0,86 0,90 0,90 0,90 0,90 0,90 0,86 0,90 0,86 0,90 0,90 12 2(5) 28,30 0,77 0,77 0,80 0,88 0,77 0,72 0,77 0,88 0,77 0,72 0,77 0,85 0,77 0,77 13 2(6) 37,71 0,90 0,80 1,00 0,80 0,90 0,80 0,90 0,80 0,90 0,80 0,90 0,80 0,90 0,90 14 5(12) 33,63 0,83 0,73 0,83 0,78 0,83 0,76 0,83 0,79 0,83 0,71 0,83 0,73 0,76 0,76 Nota: Métodos de agrupamento: M-Ligação completa (Pairwise complete-linkage); S-Ligação individual (Pairwise singlelinkage); C-Ligação centróide (Pairwise centroid-linkage); A-Ligação média (Pairwise average-linkage). Grupos histológicos: 1-cérebro; 2-cartilagem; 3-cerebelo; 4-cólon; 5-fı́gado; 6-pulmão; 7-glândula mamária; 8-outros; 9-ovário; 10-pâncreas; 11-próstata; 12-retina; 13-estômago; 14-células brancas do sangue. Filtragem: *-Dados filtrados. significativas considerando um valor de significância (p-value) menor que 0,005, o que indica que a aplicação das regras e filtragem é direcionada a obter uma maior quantidade de casos onde a medida-F aumenta comparada com a filtragem baseada na classificação 4.2 S3T - Score System for Sequence Tags 89 Figura 14: Representatividade dos scores mais abundantes considerando tags únicas (distintas) e o total de tags nos resultados da classificação com o S3T. Figura 15: Gráfico na escala semi-logarı́tmica com as tags únicas e a freqüência de tags para 359 bibliotecas SAGE humanas analisadas com S3T. aleatória ou na abordagem alternativa. Análises de dados de outras espécies ou plataformas Para demonstrar a possibilidade de análise de dados de outras espécies, foram realizadas análises com dados de SAGE da espécie Mus musculus e com dados de bibliotecas humanas das plataformas LongSAGE e SBS de 17-pb e MPSS. Os resultados estão dis- 4.2 S3T - Score System for Sequence Tags 90 Tabela 7: Valores médios (x̄) e desvios padrões (s) obtidos dos resultados das avaliações com a medida-F antes e após a filtragem das tags com scores negativos, considerando as reamostragens de 40% dos casos de agrupamentos na reamostragem para cada resultado. Filtragem Medida-F maior x̄ score (original) < 0 f (tag) = 1 score (aleatório) < 0 32,33 28,46 11,23 s Medida-F igual x̄ 6,98 57,74 7,71 63,67 6,03 32,27 s Medida-F menor x̄ 7,41 8,56 7,96 10,38 8,94 56,50 s 4,36 4,36 9,35 Tabela 8: Valores de diferença e de significância estatı́stica comparando as médias das porcentagens dos casos de agrupamentos, considerando as diferentes estratégias de filtragem. Comparação Diferença x̄OA − x̄NA x̄OB − x̄NB x̄OC − x̄NC x̄OA − x̄UA x̄OB − x̄UB x̄OC − x̄UC x̄UA − x̄NA x̄UB − x̄NB x̄UC − x̄NC p-value 21,10 4.189434e-52 25,48 1.405614e-57 -47,94 7.168772e-112 3,87 2.568801e-04 -5,92 1.524146e-07 -1,82 3.558173e-03 17,23 1.317266e-40 31,40 4.037871e-63 -46,12 4.724241e-110 A-casos onde o valor da medida-F é maior após a filtagem; B-casos onde o valor da medida-F é igual após a filtagem; C-casos onde o valor da medida-F é menor após a filtagem; O-análise utilizando a filtragem baseada na classificação original com S3T; N-análise utilizando a filtragem baseada na classificação aleatória; U-análise utilizando a filtragem alternativa ( f (tag) = 1); ponı́veis na página de material suplementar do S3T3 . 4.2.2 Disponibilidade e requisitos do sistema S3T A disponibilidade e os requisitos essenciais para a instalação básica do S3T estão discriminadas a seguir. A instalação básica permite a utilização dos métodos contidos nas suas bibliotecas e alguns scripts para análise via linha de comando. Os requisitos especı́ficos podem ser encontrados através do URI informado. Nome: S3T - Score System for Sequence Tags; URI: http://gdm.fmrp.usp.br/s3t; Requisitos: Sistema operacional do tipo UNIX (e.g. Linux, FreeBSD, Solaris), Linguagem de Programação Perl versão maior ou igual a 5.8.0, SGBD MySQL maior 3 http://gdm.fmrp.usp.br/cgi-bin/s3t/index.pl/alone?template file=supplements 4.2 S3T - Score System for Sequence Tags 91 Figura 16: Histograma dos resultados dos agrupamentos hierárquicos avaliados com a medida-F antes e após a filtragem das tags com scores negativos. As classificações foram realizadas atribuindo aleatoriamente os mesmos scores disponı́veis (10,...,-7). Esse processo foi repetido 100 vezes, sendo cada uma reamostrada 100 vezes. A figura mostra 3 histogramas representando os resultados onde após a filtragem: (a.) as medidas-F são maiores, (b.) as medidas-F permanecem iguais e (c.) as medidas-F são menores. As linhas vermelhas representam a Função Densidade de Probabilidade (FDP) dos resultados obtidos a partir das classificações aleatórias. A linha verde na vertical representa a média da reamostragem aleatória (100 vezes) dos resultados obtidos a partir da análise original com S3T. A linha amarela vertical representa a média da reamostragem aleatória (100 vezes) dos resultados obtidos a partir da filtragem das tags que aparecem uma única vez na biblioteca ( f (tag) = 1). ou igual a 4.1.13; Licença: GNU GPL. 92 5 Conclusões As informações obtidas com o desenvolvimento deste trabalho possibilita apresentar as seguintes conclusões: Desenvolvemos uma plataforma para a análise dos perfis de expressão gênica associ- ados a informações funcionais. Essa plataforma compreende dois sistemas: o H2G, para análise de expressão gênica diferencial e o S3T, para auxiliar na filtragem dos dados e minimizar a presença de ruı́dos. Ambos os sistemas contribuem para a identificação de marcadores moleculares. Os recursos dos sistemas desenvolvidos estão disponı́veis livremente à comunidade cientı́fica e podem ser acessados via página web, a qual permite a visualização formatada do conteúdo. Para não ficar restrito às funcionalidades já implementadas, os recursos também estão disponı́veis por meio das bibliotecas de desenvolvimento, que permitem ao usuário estender ou implementar novas funcionalidades. Alguns dos métodos desenvolvidos também estão disponı́veis via SOAP para que possam acessar o conteúdo do servidor principal de dados constituı́do no LGMB; A metodologia para depuração das bibliotecas de tags foi desenvolvida, implemen- tada e testada. O resultado da análise das bibliotecas públicas de SAGE e as comparações dos agrupamento hierárquicos forneceram evidências de que as bibliotecas de SAGE possuem em si uma série de artefatos ou outras tags que podem ser descartadas sem prejudicar o perfil global de expressão; A análise de agrupamento fornece evidências de que o método com o conjunto de regras selecionado para demonstração pode eliminar ruı́dos nos dados. Porém há desafios que devem ser superados para uma avaliação mais criteriosa, como por exemplo: – identificação de amostras com baixa heterogeneidade para um determinado tipo celular (e.g. amostras obtidas por microdissecção); 5 Conclusões 93 – identificação de bibliotecas com informações mais precisas a respeito da amostra, como por exemplo o estadiamento do tumor. As classificações das bibliotecas utilizando ontologias poderiam ser uma solução; – utilização de critérios mais rigorosos para a inclusão da biblioteca na análise (e.g. análise de qualidade da biblioteca); – utilização de um número maior de bibliotecas para cada classe; As análises do S3T com dados de bibliotecas de SAGE de camundongos (Mus muscu- lus) e dados de MPSS, LongSAGE e SBS, demonstram que o método de classificação e a ferramenta podem ser utilizados também com dados de outras espécies e outras plataformas e tecnologias que seguem o mesmo princı́pio de SAGE. O H2G tem sido utilizado como suporte a vários projetos (ZANETTE, 2003; PA- NEPUCCI et al., 2004; SANTOS, 2006; SOUZA et al., 2006; PANEPUCCI et al., 2007; PROTO-SIQUEIRA et al., 2008; MENDIBURU et al., 2008; SILVEIRA et al., 2008; ALVES et al., 2008) e laboratórios, tais como: – Laboratórios do Centro de Terapia Celular1 ; – Rede de laboratórios do Projeto Genoma Clı́nico2 ; – Instituto do Coração do Hospital das Clı́nicas; – Instituto Ludwig de Pesquisas sobre o Câncer; – Laboratórios de Investigações Médicas da FM-USP; – Laboratório de Bioinformática do Hospital A.C.Camargo; – Laboratório de Genética Molecular do Câncer da FM-USP; – Laboratório de Polimorfismos de DNA; – Laboratório de Endocrinologia da FMRP-USP; – Laboratório de Genética da UNESP de São José do Rio Preto; – Laboratório de Neuro Psico Farmacologia da FMRP-USP; Além de atuar como um repositório de dados, o H2G tem sido utilizado para sele- cionar genes candidatos à validação experimental. No caso da análise comparativa entre tecido neoplásico e sua contraparte normal, é possı́vel selecionar genes diferencialmente expressos que potencialmente estão envolvidos com o desenvolvimento do tumor; 1 http://ctc.fmrp.usp.br/ 2 http://www.compbio.ludwig.org.br/clinicalgenomics/index.html 94 6 Perspectivas Entre as perspectivas e desafios para futuras implementações que podem surgir como conseqüências deste trabalho estão as seguintes: As adaptações necessárias no sistema H2G deverão ser realizadas para permitir a comparação de dados de expressão gênica em três ou mais amostras de distintos tipos, condições ou situações biológicas de interesse, por exemplo, amostras nos vários estágios de transformação e progressão tumoral; A utilização de ontologias no sistema H2G serão necessárias para promover ainda mais a integração dos dados e a organização da informação biológica; Outras medidas para a avaliação das diferenças de expressão gênica podem ser adici- onadas para complementar os resultados. Além da incorporação de outros métodos de data mining, como por exemplo o algoritmos para extração de regras de associação, agrupamentos hierárquicos, agrupamentos k-means, entre outros que podem auxiliar no processo de aquisição de conhecimento a partir desses dados; Meta-análises podem ser incorporadas para tornar possı́vel a comparação dos dados entre plataformas distintas; Outras ferramentas de visualização também podem ser implementadas para tornar a representação dos resultados mais informativas, como por exemplo a visualização das regiões expressas dos cromossomos; Utilizar o padrão MIAME para a organização e estruturação dos dados biológicos; Incluir dados das tecnologias de microarrays; Adaptações necessárias no S3T deverão ser feitas para a classificação dos dados de expressão gênica de outras espécies, aumentando dessa forma, a abrangência da aplicação; 6 Perspectivas 95 Considerar nas regras também os possı́veis polimorfismos que poderiam ocasionar a ocorrência de tags alternativas verdadeiras, provavelmente contribuiria para uma classificação mais precisa; Estabelecer regras de classificação considerando outros conhecimentos a respeito da natureza do dado biológico, como os encontrados em tipos celulares especı́ficos, também poderia levar a uma classificação mais precisa; A Incorporação de um valor de significância ou probabilidade para a classificação, auxiliaria ainda mais a de avaliação da confiabilidade atribuı́da a uma determinada tag. A obtenção desse valor poderia levar em conta as intersecções existentes entre os conjuntos de tags virtuais; Uma investigação minuciosa da origem das tags que não são compatı́veis com ne- nhuma das regras estabelecidas pode agregar novos conhecimentos e melhorias ao processo de classificação e também auxiliar no desenvolvimento e aperfeiçoamento das tecnologias consideradas; A incorporação de uma metodologia para a correção de potenciais erros de seqüenci- amento e ajuste do valor de freqüência das tags, como as abordagens propostas por Blades (2003), Akmaev e Wang (2004) e Beissbarth et al. (2004), podem contribuir para a obtenção de perfis de expressão gênica ainda mais fidedignos; A implementação de uma ferramenta “user-friendly” pode ser incorporada ao sistema web para a configuração de um conjunto de regras personalizado. Essa melhoria poderá auxiliar o pesquisador a estabelecer um conjunto de regras mais adequado às suas necessidades; Considerar outras montagens de genomas ou genomas de indivı́duos, se disponı́veis, como no caso do genoma humano (LEVY et al., 2007; WHEELER et al., 2008). Isso poderia auxiliar na detecção de possı́veis tags alternativas válidas; Considerar um grupo de tags virtuais definidas a partir de predições gênicas. A identidade de tags obtidas de experimentos reais com tags desse grupo poderiam ser evidências de transcrição dessa região. 96 Referências Bibliográficas ADAMS, M. D. et al. Complementary dna sequencing: expressed sequence tags and human genome project. Science, Section of Receptor Biochemistry and Molecular Biology, National Institute of Neurological Disorders and Stroke, National Institutes of Health, Bethesda, MD., v. 252, n. 5013, p. 1651–1656, Jun 1991. AITCHISON, J. Simplicial inference. In: VIANA, M. A. G.; RICHARDS, D. S. P. (Ed.). Algebraic methods in statistics and probability (Notre Dame, IN, 2000). Providence, RI: Amer. Math. Soc., 2001. (Contemp. Math., v. 287), p. 1–22. AKMAEV, V. R.; WANG, C. J. Correction of sequence-based artifacts in serial analysis of gene expression. Bioinformatics, Genzyme Corporation, Framingham, MA 017019322, USA. [email protected], v. 20, n. 8, p. 1254–1263, May 2004. ALVES, V. A. et al. Annexin a1 subcellular expression in laryngeal squamous cell carcinoma. Histopathology, Department of Pathology, School of Medicine, USP, Sao Paulo, Brazil., v. 53, n. 6, p. 715–727, Dec 2008. AMBROS, V. The functions of animal micrornas. Nature, Dartmouth Medical School, Department of Genetics, Hanover, New Hampshire 03755, USA (e-mail: [email protected]), v. 431, n. 7006, p. 350–355, Sep 2004. AMBROS, V. et al. A uniform system for microrna annotation. RNA, Dartmouth Medical School Department of Genetics, Hanover, New Hampshire 03755, USA. [email protected], v. 9, n. 3, p. 277–279, Mar 2003. ANGELASTRO, J. M.; KLIMASCHEWSKI, L. P.; VITOLO, O. V. Improved nlaiii digestion of page-purified 102 bp ditags by addition of a single purification step in both the sage and microsage protocols. Nucleic Acids Res, Department of Pathology and Taub Center for Alzheimer’s Disease Research and Center for Neurobiology and Behavior, College of Physicians and Surgeons, Columbia University, New York, NY 10032, USA. [email protected], v. 28, n. 12, p. E62, Jun 2000. APWEILER, R. et al. Uniprot: the universal protein knowledgebase. Nucleic Acids Res, The EMBL Outstation–European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 32, n. Database issue, p. D115–D119, Jan 2004. AUDIC, S.; CLAVERIE, J. M. The significance of digital gene expression profiles. Genome Res, Laboratory of Structural and Genetic Information, Centre National de la Recherche Scientifique-E.P.91, Marseille 13402, France., v. 7, n. 10, p. 986–995, Oct 1997. Referências Bibliográficas 97 BALA, P. et al. Tagmapper: a web-based tool for mapping sage tags. Gene, Institute of Bioinformatics, International Tech Park, Whitefield Road, Bangalore 560 066, India., v. 364, p. 123–129, Dec 2005. BARRETT, T. et al. Ncbi geo: mining millions of expression profiles–database and tools. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD, USA., v. 33, n. Database issue, p. D562–D566, Jan 2005. BARTEL, D. P. Micrornas: genomics, biogenesis, mechanism, and function. Cell, Whitehead Institute for Biomedical Research, 9 Cambridge Center, Cambridge, MA 02142, USA. [email protected], v. 116, n. 2, p. 281–297, Jan 2004. BEISSBARTH, T. et al. Statistical modeling of sequencing errors in sage libraries. Bioinformatics, Walter and Eliza Hall Institute of Medical Research, Genetics and Bioinformatics, Parkville, Vic, Australia. [email protected], v. 20 Suppl 1, p. i31–i39, Aug 2004. BENNETT, S. T. et al. Toward the 1,000 dollars human genome. Pharmacogenomics, Solexa Limited, Chesterford Research Park,Little Chesterford,Essex CB10 1XL, UK., v. 6, n. 4, p. 373–382, Jun 2005. BENSON, D. A. et al. Genbank. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, USA., v. 37, n. Database issue, p. D26–D31, Jan 2009. BENTLEY, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature, Illumina Cambridge Ltd. (Formerly Solexa Ltd), Chesterford Research Park, Little Chesterford, Nr Saffron Walden, Essex CB10 1XL, UK. [email protected], v. 456, n. 7218, p. 53–59, Nov 2008. BESSON, J. et al. Constraint-based concept mining and its application to microarray data analysis. Intell. Data Anal., IOS Press, Amsterdam, The Netherlands, The Netherlands, v. 9, n. 1, p. 59–82, 2005. ISSN 1088-467X. BLADES, N. J. Statistical methods for serial analysis of gene expression. Tese (Doutorado) — The Johns Hopkins University, 2003. BOGUSKI, M. S.; LOWE, T. M.; TOLSTOSHEV, C. M. dbest–database for ’expressed sequence tags’. Nat Genet, v. 4, n. 4, p. 332–333, Aug 1993. BOGUSKI, M. S.; TOLSTOSHEV, C. M.; DE, J. r. B. Gene discovery in dbest. Science, v. 265, n. 5181, p. 1993–1994, Sep 1994. BOON, K. et al. An anatomy of normal and malignant gene expression. Proc Natl Acad Sci U S A, Duke University Medical Center, Durham, NC 27710, USA., v. 99, n. 17, p. 11287–11292, Aug 2002. BRANDÃO, R. M. Abordagem computacional aplicada ao desenvolvimento de um SAGEmap de Apis mellifera. Dissertação (Mestrado) — Faculdade de Medicina de Ribeirão Preto – Universidade de São Paulo, 2009. Referências Bibliográficas 98 BRAZMA, A. et al. Minimum information about a microarray experiment (miame)toward standards for microarray data. Nat Genet, European Bioinformatics Institute, EMBL outstation, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 29, n. 4, p. 365–371, Dec 2001. BRAZMA, A. et al. Arrayexpress–a public repository for microarray gene expression data at the ebi. Nucleic Acids Res, European Bioinformatics Institute, EMBL-EBI, Wellcome Trust Genome Campus, Hinxton CB10 1SD, UK. [email protected], v. 31, n. 1, p. 68–71, Jan 2003. BRAZMA, A.; VILO, J. Gene expression data analysis. FEBS Lett, European Molecular Biology Laboratory, Outstation Hinxton-The European Bioinformatics Institute, Cambridge, UK. [email protected], v. 480, n. 1, p. 17–24, Aug 2000. BRENNER, S. et al. Gene expression analysis by massively parallel signature sequencing (mpss) on microbead arrays. Nat Biotechnol, Lynx Therapeutics, Inc., 25861 Industrial Blvd., Hayward, California 94545, USA., v. 18, n. 6, p. 630–634, Jun 2000. BRENNER, S. et al. In vitro cloning of complex mixtures of dna on microbeads: physical separation of differentially expressed cdnas. Proc Natl Acad Sci U S A, Lynx Therapeutics, Inc., 25861 Industrial Boulevard, Hayward, CA 94545, USA., v. 97, n. 4, p. 1665–1670, Feb 2000. BURGE, C. B.; KARLIN, S. Finding the genes in genomic dna. Curr Opin Struct Biol, Center for Cancer Research, Massachusetts Institute of Technology, Cambridge 02139, USA. [email protected], v. 8, n. 3, p. 346–354, Jun 1998. BUTTE, A. The use and analysis of microarray data. Nat Rev Drug Discov, Children’s Hospital Informatics Program and Division of Endocrinology, Children’s Hospital, 300 Longwood Avenue, Boston, Massachusetts 02115, USA. atul [email protected], v. 1, n. 12, p. 951–960, Dec 2002. CA, . r. d. H. Dna sequencing: bench to bedside and beyond. Nucleic Acids Res, J. Craig Venter Institute, 9704 Medical Center Drive, Rockville, MD 20850, USA. [email protected], v. 35, n. 18, p. 6227–6237, 2007. CAI, L. et al. Clustering analysis of sage data using a poisson approach. Genome Biol, Department of Biostatistics, Harvard School of Public Health, 66 Huntington Avenue, Boston, MA 02115, USA. [email protected], v. 5, n. 7, p. R51, 2004. CAMON, E. et al. The gene ontology annotation (goa) database: sharing knowledge in uniprot with gene ontology. Nucleic Acids Res, European Bioinformatics Institute (EBI), Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 32, n. Database issue, p. D262–D266, Jan 2004. CARON, H. et al. The human transcriptome map: clustering of highly expressed genes in chromosomal domains. Science, Department of Human Genetics, Department of Pediatric Oncology, Emma Children’s Hospital, Academic Medical Center, University of Amsterdam, Post Office Box 22700, 1100 DE Amsterdam, Netherlands., v. 291, n. 5507, p. 1289–1292, Feb 2001. Referências Bibliográficas 99 CHEN, H. et al. Characterization of gene expression in resting and activated mast cells. J Exp Med, Arthritis and Rheumatism Branch, National Institute of Arthritis and Musculoskeletal and Skin Diseases, National Institutes of Health, Bethesda, MD 20892, USA. [email protected], v. 188, n. 9, p. 1657–1668, Nov 1998. CHEN, J. et al. High-throughput glgi procedure for converting a large number of serial analysis of gene expression tag sequences into 3’ complementary dnas. Genes Chromosomes Cancer, Department of Medicine, University of Chicago, Chicago, IL 60637, USA., v. 33, n. 3, p. 252–261, Mar 2002. CHEN, J.; RATTRAY, M. Analysis of tag-position bias in mpss technology. BMC Genomics, School of Computer Science, University of Manchester, Manchester, UK. [email protected], v. 7, p. 77, 2006. CHEN, J. et al. Identifying novel transcripts and novel genes in the human genome by using novel sage tags. Proc Natl Acad Sci U S A, Department of Medicine, University of Chicago, 5841 South Maryland, MC2115, Chicago, IL 60637, USA., v. 99, n. 19, p. 12257–12262, Sep 2002. CHUAQUI, R. F. et al. Post-analysis follow-up and validation of microarray experiments. Nat Genet, Pathogenetics Unit, Laboratory of Pathology and Urologic Oncology Branch, Center for Cancer Research, National Cancer Institute, Bethesda, Maryland 20892, USA., v. 32 Suppl, p. 509–514, Dec 2002. CLAVERIE, J. M. Computational methods for the identification of differential and coordinated gene expression. Hum Mol Genet, Structural and Genetic Information Laboratory, Chemin Joseph Aiguier, Marseille, France. [email protected], v. 8, n. 10, p. 1821–1832, 1999. COCHRANE, G. et al. Petabyte-scale innovations at the european nucleotide archive. Nucleic Acids Res, EMBL-European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 37, n. Database issue, p. D19–D25, Jan 2009. COLINGE, J.; FEGER, G. Detecting the impact of sequencing errors on sage data. Bioinformatics, Serono Pharmaceutical Research Institute, Ch. des Aulx 14, CH-1228 Plan-les-Ouates, Switzerland., v. 17, n. 9, p. 840–842, Sep 2001. CUMMINS, J. M. et al. The colorectal micrornaome. Proc Natl Acad Sci U S A, The Sidney Kimmel Comprehensive Cancer Center and Howard Hughes Medical Institute, Johns Hopkins University Medical Institutions, Baltimore, MD 21231, USA., v. 103, n. 10, p. 3687–3692, Mar 2006. DATE, C. J. An Introduction to Database Systems. Boston, MA, USA: Addison-Wesley Longman Publishing Co., Inc., 2003. ISBN 0321197844. DATSON, N. A. et al. Microsage: a modified procedure for serial analysis of gene expression in limited amounts of tissue. Nucleic Acids Res, Division of Medical Pharmacology, Leiden/Amsterdam Center for Drug Research, Leiden University, PO Box 9503, 2300 RA Leiden, The Netherlands. datson [email protected], v. 27, n. 5, p. 1300–1307, Mar 1999. Referências Bibliográficas 100 DIVINA, P.; FOREJT, J. The mouse sage site: database of public mouse sage libraries. Nucleic Acids Res, Centre for Integrated Genomics, Institute of Molecular Genetics, Academy of Sciences of the Czech Republic, Videnska 1083, CZ-142 20, Prague 4, Czech Republic., v. 32, n. Database issue, p. D482–D483, Jan 2004. EDGAR, R.; DOMRACHEV, M.; LASH, A. E. Gene expression omnibus: Ncbi gene expression and hybridization array data repository. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Lister Hill Center, 8600 Rockville Pike, Bethesda, MD 20894, USA., v. 30, n. 1, p. 207–210, Jan 2002. EILBECK, K. et al. The sequence ontology: a tool for the unification of genome annotations. Genome Biol, Department of Molecular and Cellular Biology, Life Sciences Addition, University of California, Berkeley, CA 94729-3200, USA. [email protected], v. 6, n. 5, p. R44, 2005. EISEN, M. B. et al. Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci U S A, Department of Genetics, Stanford University School of Medicine, 300 Pasteur Avenue, Stanford, CA 94305, USA., v. 95, n. 25, p. 14863– 14868, Dec 1998. ELMASRI, R.; NAVATHE, S. B. Fundamentals of Database Systems (5th Edition). Addison Wesley, 2006. Hardcover. ISBN 0321369572. Disponı́vel em: <http://www.amazon.ca/exec/obidos/redirect?tag=citeulike0920&path=ASIN/0321369572>. EMMERT-BUCK, M. R. et al. Molecular profiling of clinical tissue specimens: feasibility and applications. Am J Pathol, Pathogenetics Unit, Laboratory of Pathology, National Cancer Institute, Bethesda, Maryland 20892, USA. [email protected], v. 156, n. 4, p. 1109–1115, Apr 2000. EWING, B. et al. Base-calling of automated sequencer traces using phred. i. accuracy assessment. Genome Res, Department of Molecular Biotechnology, University of Washington, Seattle, Washington 98195-7730, USA., v. 8, n. 3, p. 175–185, Mar 1998. FISHER, R. A. On the interpretation of χ 2 from contingency tables and the calculation of p. Journal of the Royal Statistical Society, v. 85, p. 87–94, 1922. FITCH, W. M. Distinguishing homologous from analogous proteins. Syst Zool, v. 19, n. 2, p. 99–113, Jun 1970. FREEMAN, W. M.; ROBERTSON, D. J.; VRANA, K. E. Fundamentals of dna hybridization arrays for gene expression analysis. Biotechniques, Wake Forest University School of Medicine, Winston-Salem, NC, USA., v. 29, n. 5, p. 1042–6, 1048–55, Nov 2000. GALANTE, P. A. et al. Automatic correspondence of tags and genes (actg): a tool for the analysis of sage, mpss and sbs data. Bioinformatics, Departamento de Bioquimica, Instituto de Quimica, Universidade de Sao Paulo, Sao Paulo, Brazil. [email protected], v. 23, n. 7, p. 903–905, Apr 2007. Referências Bibliográficas 101 GARRETT, J. J. Ajax: A New Approach to Web Applications. 2005. Disponı́vel em: <http://www.adaptivepath.com/ideas/essays/archives/000385.php>. Acesso em: 16 mai. 2009. GE, X. et al. A large quantity of novel human antisense transcripts detected by longsage. Bioinformatics, Center for Functional Genomics, Division of Medical Genetics, Department of Medicine, ENH Research Institute, Northwestern University Feinberg School of Medicine 1001 University Place, Evanston, IL 60201 USA., v. 22, n. 20, p. 2475–2479, Oct 2006. GENTLEMAN, R. C. et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biol, Department of Biostatistical Science, Dana-Farber Cancer Institute, 44 Binney St, Boston, MA 02115, USA. [email protected], v. 5, n. 10, p. R80, 2004. GOLUB, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, Whitehead Institute/Massachusetts Institute of Technology Center for Genome Research, Cambridge, MA 02139, USA. [email protected], v. 286, n. 5439, p. 531–537, Oct 1999. GOTO, S.; NISHIOKA, T.; KANEHISA, M. Ligand: chemical database of enzyme reactions. Nucleic Acids Res, Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011, Japan. [email protected], v. 28, n. 1, p. 380–382, Jan 2000. GOWDA, M. et al. Robust-longsage (rl-sage): a substantially improved longsage method for gene discovery and transcriptome analysis. Plant Physiol, Department of Plant Pathology, Ohio State University, Columbus, Ohio 43210, USA., v. 134, n. 3, p. 890–897, Mar 2004. GRAFF, J. C. et al. A comprehensive sage database for the analysis of gammadelta t cells. Int Immunol, Veterinary Molecular Biology, Montana State University, Bozeman, MT 59717, USA., v. 18, n. 4, p. 613–626, Apr 2006. GRELLER, L. D.; TOBIN, F. L. Detecting selective expression of genes and proteins. Genome Res, Bioinformatics-Mathematical Biology, SmithKline Beecham Pharmaceuticals Research & Development, King of Prussia, Pennsylvania 19406 USA.Larry [email protected], v. 9, n. 3, p. 282–296, Mar 1999. GRIFFITHS-JONES, S. The microrna registry. Nucleic Acids Res, The Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 9SA, UK. [email protected], v. 32, n. Database issue, p. D109–D111, Jan 2004. GRIFFITHS-JONES, S. et al. mirbase: microrna sequences, targets and gene nomenclature. Nucleic Acids Res, The Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SA, UK. [email protected], v. 34, n. Database issue, p. D140–D144, Jan 2006. GRIFFITHS-JONES, S. et al. mirbase: tools for microrna genomics. Nucleic Acids Res, Faculty of Life Sciences, University of Manchester, Michael Smith Building, Oxford Road, Manchester, UK. [email protected], v. 36, n. Database issue, p. D154–D158, Jan 2008. Referências Bibliográficas 102 GRUBER, T. R. A translation approach to portable ontology specifications. Knowl. Acquis., Academic Press Ltd., London, UK, UK, v. 5, n. 2, p. 199–220, 1993. ISSN 1042-8143. GUSFIELD, D. Algorithms on String, Trees, and Sequences. Cambridge: Cambridge University Press, 1997. HANRIOT, L. et al. A combination of longsage with solexa sequencing is well suited to explore the depth and the complexity of transcriptome. BMC Genomics, UMR5534 CNRS Universite Claude Bernard Lyon1, Universite de Lyon, Institut Federatif des Neurosciences de Lyon, Lyon cedex, France. [email protected], v. 9, p. 418, 2008. HARBERS, M.; CARNINCI, P. Tag-based approaches for transcriptome research and genome annotation. Nat Methods, K.K. Dnaform, Tsukuba Branch, 31 Chuo 8-chome, Ami Machi, Inashiki Gun, Ibaraki, 300-0332, Japan. [email protected], v. 2, n. 7, p. 495–502, Jul 2005. HARRIS, M. A. et al. The gene ontology (go) database and informatics resource. Nucleic Acids Res, GO-EBI, Hinxton, UK., v. 32, n. Database issue, p. D258–D261, Jan 2004. HARTE, N. et al. Public web-based services from the european bioinformatics institute. Nucleic Acids Res, European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SD, UK., v. 32, n. Web Server issue, p. W3–W9, Jul 2004. HASHIMOTO, S. et al. 5’-end sage for the analysis of transcriptional start sites. Nat Biotechnol, v. 22, n. 9, p. 1146–1149, Sep 2004. HAVERTY, P. M. et al. Limited agreement among three global gene expression methods highlights the requirement for non-global validation. Bioinformatics, Bioinformatics Program, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, USA., v. 20, n. 18, p. 3431–3441, Dec 2004. HIETER, P.; BOGUSKI, M. Functional genomics: it’s all how you read it. Science, Center for Molecular Medicine and Therapeutics, Department of Medical Genetics, University of British Columbia, Vancouver, BC, V6T124 Canada., v. 278, n. 5338, p. 601–602, Oct 1997. HISHIKI, T. et al. Bodymap: a human and mouse gene expression database. Nucleic Acids Res, Institute for Molecular and Cellular Biology, Osaka University, 1-3 Yamadaoka, Suita, Osaka 565-0871, Japan., v. 28, n. 1, p. 136–138, Jan 2000. HOON, M. J. de et al. Open source clustering software. Bioinformatics, Human Genome Center, Institute of Medical Science, University of Tokyo, 4-6-1 Shirokanedai, Minato-ku, Tokyo, 108-8639 Japan. [email protected], v. 20, n. 9, p. 1453–1454, Jun 2004. ISELI, C.; JONGENEEL, C. V.; BUCHER, P. Estscan: a program for detecting, evaluating, and reconstructing potential coding regions in est sequences. Proc Int Conf Referências Bibliográficas 103 Intell Syst Mol Biol, Swiss Institute of Bioinformatics, Epalinges, Switzerland. [email protected], p. 138–148, 1999. JONGENEEL, C. V. et al. An atlas of human gene expression from massively parallel signature sequencing (mpss). Genome Res, Office of Information Technology, Ludwig Institute for Cancer Research, and Swiss Institute of Bioinformatics, 1015 Lausanne, Switzerland. [email protected], v. 15, n. 7, p. 1007–1014, Jul 2005. KAL, A. J. et al. Dynamics of gene expression revealed by comparison of serial analysis of gene expression transcript profiles from yeast grown on two different carbon sources. Mol Biol Cell, Department of Biochemistry, University of Amsterdam, Academic Medical Center, 1105 AZ Amsterdam, The Netherlands., v. 10, n. 6, p. 1859–1872, Jun 1999. KAMPEN, A. H. van et al. Usage: a web-based approach towards the analysis of sage data. serial analysis of gene expression. Bioinformatics, Bioinformatics Laboratory, Academic Medical Center, Meibergdreef 9, 1000 AZ Amsterdam, The Netherlands. [email protected], v. 16, n. 10, p. 899–905, Oct 2000. KANEHISA, M. et al. Kegg for linking genomes to life and the environment. Nucleic Acids Res, Bioinformatics Center, Institute for Chemical Research, Kyoto University, Uji, Kyoto, Japan., v. 36, n. Database issue, p. D480–D484, Jan 2008. KANEHISA, M.; GOTO, S. Kegg: kyoto encyclopedia of genes and genomes. Nucleic Acids Res, Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011, Japan. [email protected], v. 28, n. 1, p. 27–30, Jan 2000. KAWAMOTO, S. et al. Expression profiling by iaflp: A pcr-based method for genomewide gene expression profiling. Genome Res, Institute for Molecular and Cellular Biology, Osaka University, 1-3, Yamada-oka, Suita, Osaka 565 Japan., v. 9, n. 12, p. 1305–1312, Dec 1999. KEIME, C. et al. Identitag, a relational database for sage tag identification and interspecies comparison of sage libraries. BMC Bioinformatics, Equipe Signalisation et identites cellulaires, Centre de Genetique Moleculaire et Cellulaire CNRS UMR 5534, Universite Claude Bernard Lyon 1, batiment Gregor Mendel, 16 rue Raphael Dubois 69622 Villeurbanne cedex France. [email protected], v. 5, p. 143, Oct 2004. KEIME, C. et al. Unexpected observations after mapping longsage tags to the human genome. BMC Bioinformatics, Universite de Lyon, Lyon, France. [email protected], v. 8, p. 154, 2007. KEL-MARGOULIS, O. V. et al. Compel: a database on composite regulatory elements providing combinatorial transcriptional regulation. Nucleic Acids Res, Institute of Cytology, SB RAN, 10 Lavrentyev pr., 630090, Novosibirsk, Russia. [email protected], v. 28, n. 1, p. 311–315, Jan 2000. KELLER, A.; BACKES, C.; LENHOF, H. P. Computation of significance scores of unweighted gene set enrichment analyses. BMC Bioinformatics, Center for Bioinformatics, Saarland University, Building E1 1, 66804 Saarbrucken, Germany. [email protected], v. 8, p. 290, 2007. Referências Bibliográficas 104 KELSO, J. et al. evoc: a controlled vocabulary for unifying gene expression data. Genome Res, South African National Bioinformatics Institute, University of the Western Cape, Bellville, South Africa., v. 13, n. 6A, p. 1222–1230, Jun 2003. KENT, W. J. Blat–the blast-like alignment tool. Genome Res, Department of Biology and Center for Molecular Biology of RNA, University of California-Santa Cruz, Santa Cruz, CA 95064, USA. [email protected], v. 12, n. 4, p. 656–664, Apr 2002. KENT, W. J. et al. The human genome browser at ucsc. Genome Res, Department of Molecular, Cellular, and Developmental Biology, University of California, Santa Cruz, CA 95064, USA. [email protected], v. 12, n. 6, p. 996–1006, Jun 2002. KENZELMANN, M.; MUHLEMANN, K. Substantially enhanced cloning efficiency of sage (serial analysis of gene expression) by adding a heating step to the original protocol. Nucleic Acids Res, Institute of Medical Microbiology, University of Bern, Friedbuhlstrasse 51, 3010 Bern, Switzerland., v. 27, n. 3, p. 917–918, Feb 1999. KEOHAVONG, P.; THILLY, W. G. Fidelity of dna polymerases in dna amplification. Proc Natl Acad Sci U S A, Center for Environmental Health Sciences, Whitaker College of Health Sciences and Technology, Cambridge, MA., v. 86, n. 23, p. 9253–9257, Dec 1989. KIDD, J. M. et al. Mapping and sequencing of structural variation from eight human genomes. Nature, Department of Genome Sciences and Howard Hughes Medical Institute, University of Washington, Seattle, Washington 98195, USA., v. 453, n. 7191, p. 56–64, May 2008. KOLCHANOV, N. A. et al. Integrated databases and computer systems for studying eukaryotic gene expression. Bioinformatics, Institute of Cytology & Genetics, Siberian Branch of the Russian Academy of Sciences, Prosp. Lavrentieva 10, Novosibirsk 630090, Russia. [email protected], v. 15, n. 7-8, p. 669–686, Jul 1999. KORBEL, J. O. et al. Paired-end mapping reveals extensive structural variation in the human genome. Science, Molecular Biophysics and Biochemistry Department, Yale University, New Haven, CT 06520, USA., v. 318, n. 5849, p. 420–426, Oct 2007. KUO, B. Y. et al. Sage2splice: unmapped sage tags reveal novel splice junctions. PLoS Comput Biol, Genetics Graduate Program, University of British Columbia, Vancouver, British Columbia, Canada., v. 2, n. 4, p. e34, Apr 2006. KUO, W. P. et al. A sequence-oriented comparison of gene expression measurements across different hybridization-based technologies. Nat Biotechnol, Department of Developmental Biology, Harvard School of Dental Medicine, 188 Longwood Ave., Boston, Massachusetts 02115, USA. [email protected], v. 24, n. 7, p. 832–840, Jul 2006. LAL, A. et al. A public database for gene expression in human cancers. Cancer Res, Department of Pathology, Duke University Medical Center, Durham, North Carolina 27710, USA., v. 59, n. 21, p. 5403–5407, Nov 1999. Referências Bibliográficas 105 LANDER, E. S. et al. Initial sequencing and analysis of the human genome. Nature, Whitehead Institute for Biomedical Research, Center for Genome Research, Cambridge, Massachusetts 02142, USA. [email protected], v. 409, n. 6822, p. 860–921, Feb 2001. LASH, A. E. et al. Sagemap: a public gene expression resource. Genome Res, National Center for Biotechnology Information, National Institutes of Health, Bethesda, MD 20894 USA. [email protected], v. 10, n. 7, p. 1051–1060, Jul 2000. LEE, S. et al. Correct identification of genes from serial analysis of gene expression tag sequences. Genomics, Department of Medicine, University of Chicago, 5841 S. Maryland, MC2115, Chicago, Illinois 60637, USA., v. 79, n. 4, p. 598–602, Apr 2002. LEE, T. L. et al. Germsage: a comprehensive sage database for transcript discovery on male germ cell development. Nucleic Acids Res, Section on Developmental Genomics, Laboratory of Clinical Genomics, Eunice Kennedy Shriver National Institute of Child Health and Human Development, National Institutes of Health, Bethesda, MD 20892, USA., v. 37, n. Database issue, p. D891–D897, Jan 2009. LEVINE, M.; TJIAN, R. Transcription regulation and animal diversity. Nature, Department of Molecular and Cell Biology, Division of Genetics and Development, Center for Integrative Genomics, University of California, Berkeley, 401 Barker Hall, Berkeley, California 94720, USA. [email protected], v. 424, n. 6945, p. 147–151, Jul 2003. LEVY, S. et al. The diploid genome sequence of an individual human. PLoS Biol, J. Craig Venter Institute, Rockville, Maryland, USA. [email protected], v. 5, n. 10, p. e254, Sep 2007. LEYRITZ, J. et al. Squat: A web tool to mine human, murine and avian sage data. BMC Bioinformatics, Equipe Bases Moleculaires de l’Autorenouvellement et de ses Alterations, Universite de Lyon, F-69622, Universite Lyon 1, Villeurbanne, CNRS, UMR5534, Centre de Genetique Moleculaire et Cellualire, Lyon, France. [email protected], v. 9, p. 378, 2008. LIANG, P. Sage genie: a suite with panoramic view of gene expression. Proc Natl Acad Sci U S A, Department of Cancer Biology, 658 MRB II, Vanderbilt-Ingram Cancer Center, Nashville, TN 37232, USA. [email protected], v. 99, n. 18, p. 11547–11548, Sep 2002. LIU, F. et al. Comparison of hybridization-based and sequencing-based gene expression technologies on biological replicates. BMC Genomics, Department of Tumor Biology, Rikshopitalet-Radiumhospitalet Medical Center, Montebello, Oslo, Norway. [email protected], v. 8, p. 153, 2007. LOCKHART, D. J. et al. Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol, Affymetrix, Santa Clara, CA 95051, USA. david [email protected], v. 14, n. 13, p. 1675–1680, Dec 1996. LOTTAZ, C. et al. Modeling sequencing errors by combining hidden markov models. Bioinformatics, Swiss Institute of Bioinformatics, Switzerland. [email protected], v. 19 Suppl 2, p. ii103–ii112, Oct 2003. Referências Bibliográficas 106 LöNNSTEDT, I.; SPEED, T. Replicated microarray data. Statistica Sinica, v. 12, p. 31–46, 2001. MAGLOTT, D. et al. Entrez gene: gene-centered information at ncbi. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20892-6510, USA. [email protected], v. 35, n. Database issue, p. D26–D31, Jan 2007. MALIG, R. et al. Accurate and unambiguous tag-to-gene mapping in serial analysis of gene expression. BMC Bioinformatics, Departamento de Genetica Molecular y Microbiologia, Facultad de Ciencias Biologicas, Pontificia Universidad Catolica de Chile, Alameda 340, Santiago, Chile. [email protected] <[email protected]>, v. 7, p. 487, 2006. MAN, M. Z.; WANG, X.; WANG, Y. Power sage: comparing statistical tests for sage experiments. Bioinformatics, Biostatisties, PGRD, 2800 Plymouth Road, Ann Arbor, MI 48105, USA. [email protected], v. 16, n. 11, p. 953–959, Nov 2000. MARDIS, E. R. The impact of next-generation sequencing technology on genetics. Trends Genet, Genome Sequencing Center, Washington University School of Medicine, St. Louis, MO 63108, USA. [email protected], v. 24, n. 3, p. 133–141, Mar 2008. MARDIS, E. R. Next-generation dna sequencing methods. Annu Rev Genomics Hum Genet, Department of Genetics and Molecular Microbiology and Genome Sequencing Center, Washington University School of Medicine, St. Louis MO 63108, USA. [email protected], v. 9, p. 387–402, 2008. MARGULIES, E. H.; INNIS, J. W. esage: managing and analysing data generated with serial analysis of gene expression (sage). Bioinformatics, Departments of Human Genetics Pediatrics & Communicable Diseases, University of Michigan Medical School Ann Arbor, Michigan 48109-0618, USA. [email protected], v. 16, n. 7, p. 650–651, Jul 2000. MARGULIES, E. H.; KARDIA, S. L.; INNIS, J. W. Identification and prevention of a gc content bias in sage libraries. Nucleic Acids Res, Department of Human Genetics, University of Michigan Medical School and Department of Epidemiology, University of Michigan School of Public Health, Ann Arbor, MI 48109, USA., v. 29, n. 12, p. E60–E60, Jun 2001. MARGULIES, M. et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature, 454 Life Sciences Corp., 20 Commercial Street, Branford, Connecticut 06405, USA., v. 437, n. 7057, p. 376–380, Sep 2005. MATSUMURA, H. et al. Supersage: a modern platform for genome-wide quantitative transcript profiling. Curr Pharm Biotechnol, Iwate Biotechnology Research Center, Narita 22-174-4, Kitakami, Iwate, 024-0003, Japan. [email protected], v. 9, n. 5, p. 368–374, Oct 2008. MATSUMURA, H. et al. Gene expression analysis of plant host-pathogen interactions by supersage. Proc Natl Acad Sci U S A, Iwate Biotechnology Research Center, Narita Referências Bibliográficas 107 22-174-4, Kitakami, Iwate, 024-0003, Japan., v. 100, n. 26, p. 15718–15723, Dec 2003. MEGRAW, M. et al. mirgen: a database for the study of animal microrna genomic organization and function. Nucleic Acids Res, Center for Bioinformatics, University of Pennsylvania, Philadelphia, PA, USA. [email protected], v. 35, n. Database issue, p. D149–D155, Jan 2007. MENDIBURU, C. F. et al. Global gene expression profile in myelodysplastic syndromes using sage. Genet Mol Res, Departamento de Biologia, Instituto de Biociencia Letras e Ciencias Exatas, Universidade Estadual de Sao Paulo, Sao Jose do Rio Preto, SP, Brasil. [email protected], v. 7, n. 4, p. 1245–1250, 2008. MERKEROVA, M. et al. Microrna expression profiles in umbilical cord blood cell lineages. Stem Cells Dev, May 2009. (ENG). METZKER, M. L. Emerging technologies in dna sequencing. Genome Res, Human Genome Sequencing Center and Department of Molecular and Human Genetics, Baylor College of Medicine, Houston, Texas 77030, USA. [email protected], v. 15, n. 12, p. 1767–1776, Dec 2005. MEYERS, B. C. et al. The use of mpss for whole-genome transcriptional analysis in arabidopsis. Genome Res, Department of Plant and Soil Sciences, and Delaware Biotechnology Institute, University of Delaware, Newark, Delaware 19714, USA. [email protected], v. 14, n. 8, p. 1641–1653, Aug 2004. MOORE, M. J. From birth to death: the complex lives of eukaryotic mrnas. Science, Department of Biochemistry, Howard Hughes Medical Institute, Brandeis University, 415 South Street, Waltham, MA 02454. [email protected]., v. 309, n. 5740, p. 1514–1518, Sep 2005. MOREL, N. M. et al. Primer on medical genomics. part xiv: Introduction to systems biology–a new approach to understanding disease and treatment. Mayo Clin Proc, Beyond Genomics, Inc, Waltham, Mass, USA., v. 79, n. 5, p. 651–658, May 2004. MURRAY, D. et al. In silico gene expression analysis–an overview. Mol Cancer, General Clinical Research Unit, UCD School of Medicine and Medical Sciences, Mater Misericordiae University Hospital, Dublin 7, Ireland. [email protected], v. 6, p. 50, 2007. NAKANO, M. et al. Plant mpss databases: signature-based transcriptional resources for analyses of mrna and small rna. Nucleic Acids Res, Department of Plant and Soil Sciences, University of Delaware, Newark, DE 19714, USA., v. 34, n. Database issue, p. D731–D735, Jan 2006. NAM, D. K. et al. Oligo(dt) primer generates a high frequency of truncated cdnas through internal poly(a) priming during reverse transcription. Proc Natl Acad Sci U S A, Department of Medicine, Center for Functional Genomics, University of Chicago, 5841 South Maryland Avenue, MC2115, Chicago, IL 60637, USA., v. 99, n. 9, p. 6152–6156, Apr 2002. Referências Bibliográficas 108 NEILSON, L. et al. Molecular phenotype of the human oocyte by pcr-sage. Genomics, Reprogen Inc., 163 Technology Drive W., Irvine, California 92618, USA., v. 63, n. 1, p. 13–24, Jan 2000. NETO, E. D. et al. Shotgun sequencing of the human transcriptome with orf expressed sequence tags. Proc Natl Acad Sci U S A, Ludwig Institute for Cancer Research, Sao Paulo 01509-010, Brazil., v. 97, n. 7, p. 3491–3496, Mar 2000. NIELSEN, K. L.; HOGH, A. L.; EMMERSEN, J. Deepsage–digital transcriptomics with high sensitivity, simple experimental protocol and multiplexing of samples. Nucleic Acids Res, Department of Biotechnology, Chemistry and Environmental Engineering, Aalborg University DK-9000 Aalborg, Denmark., v. 34, n. 19, p. e133, 2006. OGASAWARA, O. et al. Bodymap-xs: anatomical breakdown of 17 million animal ests for cross-species comparison of gene expression. Nucleic Acids Res, Center for Information Biology and DNA Data Bank of Japan, National Institute of Genetics, 1111 Yata, Mishima, Shizuoka 411-8540, Japan., v. 34, n. Database issue, p. D628–D631, Jan 2006. OSTELL, J. The entrez search and retrieval system. In: . The NCBI Handbook. Bethesda, MD: National Center for Biotechnology Information, 2003. cap. 15. PAGNI, M. et al. trest, trgen and hits: access to databases of predicted protein sequences. Nucleic Acids Res, Swiss Institute of Bioinformatics, Ludwig Institute for Cancer Research, Chemin des Boveresses 155, CH-1066, Epalinges s/Lausanne, Switzerland., v. 29, n. 1, p. 148–151, Jan 2001. PANEPUCCI, R. A. et al. Higher expression of transcription targets and components of the nuclear factor-kappab pathway is a distinctive feature of umbilical cord blood cd34+ precursors. Stem Cells, Center for Cell Therapy and Regional Blood Center, Department of Clinical Medicine, Faculty of Medicine, University of Sao Paulo, Ribeirao Preto, Brazil., v. 25, n. 1, p. 189–196, Jan 2007. PANEPUCCI, R. A. et al. Comparison of gene expression of umbilical cord vein and bone marrow-derived mesenchymal stem cells. Stem Cells, Center for Cell Therapy and Regional Blood Center, Department of Clinical Medicine, Faculty of Medicine, Ribeirao Preto, Brazil., v. 22, n. 7, p. 1263–1278, 2004. PARMIGIANI, G. et al. A cross-study comparison of gene expression studies for the molecular classification of lung cancer. Clin Cancer Res, Department of Oncology, Johns Hopkins University, Baltimore, Maryland 21230, USA. [email protected], v. 10, n. 9, p. 2922–2927, May 2004. PETERS, D. G. et al. Comprehensive transcript analysis in small quantities of mrna by sage-lite. Nucleic Acids Res, Department of Human Genetics, School of Public Health, University of Pittsburgh, Pittsburgh, PA 15261, USA. [email protected], v. 27, n. 24, p. e39, Dec 1999. PEVSNER, J. Bioinformatic approaches to ribonucleic acid rna. In: Bioinformatics and Functional Genomics. [S.l.]: John Wiley & Sons, Inc., 2009. Referências Bibliográficas 109 PILLAI, S. et al. Soap-based services provided by the european bioinformatics institute. Nucleic Acids Res, European Bioinformatics Institute Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK., v. 33, n. Web Server issue, p. W25–W28, Jul 2005. PINHEIRO, D. G. et al. Generic EST Annotation Pipeline. 2002. Disponı́vel em: <http://gdm.fmrp.usp.br/geap/>. Acesso em: 29 mai. 2009. PINHEIRO, D. G. et al. A score system for quality evaluation of rna sequence tags: an improvement for gene expression profiling. BMC Bioinformatics, v. 10, n. 1, p. 170, Jun 2009. (ENG). PLEASANCE, E. D.; MARRA, M. A.; JONES, S. J. Assessment of sage in transcript identification. Genome Res, Canada’s Michael Smith Genome Sciences Centre, British Columbia Cancer Agency, Vancouver V5Z 4E6, Canada., v. 13, n. 6A, p. 1203–1215, Jun 2003. POLYAK, K.; RIGGINS, G. J. Gene discovery using the serial analysis of gene expression technique: implications for cancer research. J Clin Oncol, Department of Adult Oncology, Dana-Farber Cancer Institute and Harvard Medical School, Boston, MA 02115, USA. kornelia [email protected], v. 19, n. 11, p. 2948–2958, Jun 2001. POWELL, J. Enhanced concatemer cloning-a modification to the sage (serial analysis of gene expression) technique. Nucleic Acids Res, The Richard Dimbleby Department of Cancer Research, I.C.R.F. Laboratory, Rayne Institute, 4th Floor Lambeth Wing, St Thomas’s Hospital, Lambeth Palace Road, London SE1 7EH, UK. [email protected], v. 26, n. 14, p. 3445–3446, Jul 1998. PROBER, J. M. et al. A system for rapid dna sequencing with fluorescent chainterminating dideoxynucleotides. Science, Engineering Physics Laboratory, E.I. du Pont de Nemours & Company (Inc.), Wilmington, DE 19898., v. 238, n. 4825, p. 336–341, Oct 1987. PROTO-SIQUEIRA, R. et al. Sage analysis demonstrates increased expression of toso contributing to fas-mediated resistance in cll. Blood, Hematology Division and Center for Cell-Based Therapy, Faculty of Medicine of Ribeirao Preto, University of Sao Paulo, Sao Paulo, Brazil., v. 112, n. 2, p. 394–397, Jul 2008. PRUITT, K. D.; MAGLOTT, D. R. Refseq and locuslink: Ncbi gene-centered resources. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Building 38A Room 6N605, 8600 Rockville Pike, Bethesda, MD 20894 USA. [email protected], v. 29, n. 1, p. 137–140, Jan 2001. PRUITT, K. D.; TATUSOVA, T.; MAGLOTT, D. R. Ncbi reference sequence (refseq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Rm 6An.12J, 45 Center Drive, Bethesda, MD 20892-6510, USA. [email protected], v. 33, n. Database issue, p. D501– D504, Jan 2005. Referências Bibliográficas 110 PYLOUSTER, J.; SENAMAUD-BEAUFORT, C.; SAISON-BEHMOARAS, T. E. Websage: a web tool for visual analysis of differentially expressed human sage tags. Nucleic Acids Res, Laboratoire de Biophysique, Museum National d’Histoire Naturelle, INSERM U565-CNRS UMR 5153 43, rue Cuvier 75231, Paris Cedex 05, France. [email protected], v. 33, n. Web Server issue, p. W693–W695, Jul 2005. QUACKENBUSH, J. Microarray data normalization and transformation. Nat Genet, The Institute for Genomic Research, 9712 Medical Center Drive, Rockville, Maryland 20850, USA. [email protected], v. 32 Suppl, p. 496–501, Dec 2002. QUACKENBUSH, J. et al. The tigr gene indices: analysis of gene transcript sequences in highly sampled eukaryotic species. Nucleic Acids Res, The Institute for Genomic Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. [email protected], v. 29, n. 1, p. 159–164, Jan 2001. RADKE, J. R. et al. The transcriptome of toxoplasma gondii. BMC Biol, Department of Veterinary Molecular Biology, Montana State University, Bozeman, MT 59717, USA. [email protected], v. 3, p. 26, 2005. REICH, M. et al. Genepattern 2.0. Nat Genet, v. 38, n. 5, p. 500–501, May 2006. REINHART, B. J. et al. Micrornas in plants. Genes Dev, Whitehead Institute for Biomedical Research, and Department of Biology, Massachusetts Institute of Technology, Cambridge, Massachusetts 02142, USA., v. 16, n. 13, p. 1616–1626, Jul 2002. RHODES, D. R. et al. Large-scale meta-analysis of cancer microarray data identifies common transcriptional profiles of neoplastic transformation and progression. Proc Natl Acad Sci U S A, Department of Pathology, University of Michigan Medical School, Ann Arbor, 48109, USA., v. 101, n. 25, p. 9309–9314, Jun 2004. RIJSBERGEN, C. J. van. Information Retrieval. London: Butterworths, 1979. ROBERTSON, N. et al. Discoveryspace: an interactive data analysis application. Genome Biol, Canada’s Michael Smith Genome Sciences Centre, British Columbia Cancer Research Centre, British Columbia Cancer Agency, Vancouver, BC, Canada. [email protected], v. 8, n. 1, p. R6, 2007. ROMUALDI, C. et al. Ideg6: a web tool for detection of differentially expressed genes in multiple tag sampling experiments. Physiol Genomics, Department of Biology, University of Padua, 35131 Padua, Italy. [email protected], v. 12, n. 2, p. 159– 162, Jan 2003. RUBY, J. G.; JAN, C. H.; BARTEL, D. P. Intronic microrna precursors that bypass drosha processing. Nature, Whitehead Institute for Biomedical Research, 9 Cambridge Center, Cambridge, Massachusetts 02142, USA., v. 448, n. 7149, p. 83–86, Jul 2007. RUIJTER, J. M.; KAMPEN, A. H. V.; BAAS, F. Statistical evaluation of sage libraries: consequences for experimental design. Physiol Genomics, Department of Anatomy and Embryology, Academic Medical Center, University of Amsterdam, 1105 AZ, Amsterdam, The Netherlands. [email protected], v. 11, n. 2, p. 37–44, Oct 2002. Referências Bibliográficas 111 RUSK, N.; KIERMER, V. Primer: Sequencing–the next generation. Nat Methods, v. 5, n. 1, p. 15, Jan 2008. RYO, A. et al. A modified serial analysis of gene expression that generates longer sequence tags by nonpalindromic cohesive linker ligation. Anal Biochem, Department of Microbiology, Tokyo Medical and Dental University, 1-5-45 Yushima, Bunkyo-ku, Tokyo, 113-8519, Japan., v. 277, n. 1, p. 160–162, Jan 2000. SAHA, S. et al. Using the transcriptome to annotate the genome. Nat Biotechnol, Howard Hughes Medical Institute and the Sidney Kimmel Comprehensive Cancer Center, Baltimore, MD 21231, USA., v. 20, n. 5, p. 508–512, May 2002. SANGER, F.; NICKLEN, S.; COULSON, A. R. Dna sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A, v. 74, n. 12, p. 5463–5467, Dec 1977. SANTOS, M. L. dos. Análise de expressão gênica diferencial em linhagens celulares de mama com diferentes perfis de expressão de erbB-2 na presença e ausência de docetaxel. Tese (Doutorado) — Fundação Antônio Prudente, 2006. SAUER, U.; HEINEMANN, M.; ZAMBONI, N. Genetics. getting closer to the whole picture. Science, Institute of Molecular Systems Biology, ETH Zurich, Switzerland. [email protected], v. 316, n. 5824, p. 550–551, Apr 2007. SAYERS, E. W. et al. Database resources of the national center for biotechnology information. Nucleic Acids Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Building 38A, 8600 Rockville Pike, Bethesda, MD 20894, USA. [email protected], v. 37, n. Database issue, p. D5–15, Jan 2009. SCHENA, M. et al. Quantitative monitoring of gene expression patterns with a complementary dna microarray. Science, Department of Biochemistry, Beckman Center, Stanford University Medical Center, CA 94305, USA., v. 270, n. 5235, p. 467–470, Oct 1995. SCHEURLE, D. et al. Cancer gene discovery using digital differential display. Cancer Res, Department of Biology, Florida Atlantic University, Boca Raton 33431, USA., v. 60, n. 15, p. 4037–4043, Aug 2000. SCHULER, G. D. Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J Mol Med, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894, USA., v. 75, n. 10, p. 694–698, Oct 1997. SESE, J. et al. Bodymap incorporated pcr-based expression profiling data and a gene ranking system. Nucleic Acids Res, Department of Complexity Science and Engineering, Graduate School of Frontier Science, University of Tokyo, 7-3-1 Hongo, Bunkyo Word, Tokyo 113-0033, Japan., v. 29, n. 1, p. 156–158, Jan 2001. SETHUPATHY, P.; CORDA, B.; HATZIGEORGIOU, A. G. Tarbase: A comprehensive database of experimentally supported animal microrna targets. RNA, Center for Bioinformatics, University of Pennsylvania, Philadelphia, Pennsylvania 19104, USA. [email protected], v. 12, n. 2, p. 192–197, Feb 2006. Referências Bibliográficas 112 SHENDURE, J.; JI, H. Next-generation dna sequencing. Nat Biotechnol, Department of Genome Sciences, University of Washington, Seattle, Washington 98195-5065, USA. [email protected], v. 26, n. 10, p. 1135–1145, Oct 2008. SHENDURE, J. et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science, Department of Genetics, Harvard Medical School, Boston, MA 02115, USA. [email protected], v. 309, n. 5741, p. 1728–1732, Sep 2005. SILVEIRA, N. J. et al. Searching for molecular markers in head and neck squamous cell carcinomas (hnscc) by statistical and bioinformatic analysis of larynx-derived sage libraries. BMC Med Genomics, Instituto de Matematica e Estatistica, USP, Sao Paulo, SP, Brazil. [email protected]., v. 1, p. 56, 2008. SMITH, B. et al. The obo foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol, Department of Philosophy and New York State Center of Excellence in Bioinformatics and Life Sciences, University at Buffalo, Buffalo, New York 14203, USA. [email protected], v. 25, n. 11, p. 1251–1255, Nov 2007. SMITH, L. M. et al. Fluorescence detection in automated dna sequence analysis. Nature, v. 321, n. 6071, p. 674–679, Jun 1986. SO, A. P.; TURNER, R. F.; HAYNES, C. A. Increasing the efficiency of sage adaptor ligation by directed ligation chemistry. Nucleic Acids Res, Biotechnology Laboratory and Department of Chemical and Biological Engineering, University of British Columbia, Vancouver, BC, Canada V6T 1Z3., v. 32, n. 12, p. e96, 2004. SOREK, R.; SAFER, H. M. A novel algorithm for computational identification of contaminated est libraries. Nucleic Acids Res, Compugen Ltd, 72 Pinchas Rosen Street, Tel Aviv 69512, Israel. [email protected], v. 31, n. 3, p. 1067–1074, Feb 2003. SOUZA, G. A. de et al. Proteomic and sage profiling of murine melanoma progression indicates the reduction of proteins responsible for ros degradation. Proteomics, Centro de Terapia Celular, Centro Regional de Hemoterapia de Ribeirao Preto, Centro de Pesquisa, Inovacao e Difusao - FAPESP, Brasil., v. 6, n. 5, p. 1460–1470, Mar 2006. SPELLMAN, P. T. et al. Design and implementation of microarray gene expression markup language (mage-ml). Genome Biol, Department of Cell and Molecular Biology, University of California at Berkeley, Berkeley, CA 94720-3206, USA. [email protected], v. 3, n. 9, p. RESEARCH0046, Aug 2002. STAJICH, J. E. et al. The bioperl toolkit: Perl modules for the life sciences. Genome Res, University Program in Genetics, Duke University, Durham, North Carolina 27710, USA. [email protected], v. 12, n. 10, p. 1611–1618, Oct 2002. STEIN, L. D. Integrating biological databases. Nat Rev Genet, Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, New York 11724, USA. [email protected], v. 4, n. 5, p. 337–345, May 2003. STEINHOFF, C.; VINGRON, M. Normalization and quantification of differential expression in gene expression microarrays. Brief Bioinform, Max Planck Institute for Referências Bibliográficas 113 Molecular Genetics, Department of Computational Molecular Biology, Ihnestr 73, D-14195 Berlin, Germany. [email protected], v. 7, n. 2, p. 166–177, Jun 2006. STEKEL, D. J.; GIT, Y.; FALCIANI, F. The comparison of gene expression from multiple cdna libraries. Genome Res, Oxford Gene Technology, Littlemore Park, Oxford OX4 4SS, UK. [email protected], v. 10, n. 12, p. 2055–2061, Dec 2000. STOLLBERG, J. et al. A quantitative evaluation of sage. Genome Res, Pacific Biomedical Research Center, University of Hawai’i at Manoa, Honolulu, Hawaii 96822, USA. [email protected], v. 10, n. 8, p. 1241–1248, Aug 2000. STRAUSBERG, R. L. et al. The mammalian gene collection. Science, National Cancer Institute, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD 20892, USA., v. 286, n. 5439, p. 455–457, Oct 1999. SUN, M. et al. Sage is far more sensitive than est for detecting low-abundance transcripts. BMC Genomics, Department of Medicine, University of Chicago, 5841 S, Maryland Avenue, MC2115, Chicago, Illinois 60637, USA. [email protected], v. 5, n. 1, p. 1, Jan 2004. TATENO, Y. et al. Dna data bank of japan (ddbj) for genome scale research in life science. Nucleic Acids Res, Center for Information Biology and DNA Data Bank of Japan, National Institute of Genetics, Yata, Mishima 411-8540, Japan., v. 30, n. 1, p. 27–30, Jan 2002. THYGESEN, H. H.; ZWINDERMAN, A. H. Modeling sage data with a truncated gammapoisson model. BMC Bioinformatics, Clinical Epidemiology and Biostatistics, Academisch Medisch Centrum, University of Amsterdam, Meibergdreef 9, 1100 DD Amsterdam, The Netherlands. [email protected], v. 7, p. 157, 2006. VANGUILDER, H. D.; VRANA, K. E.; FREEMAN, W. M. Twenty-five years of quantitative pcr for gene expression analysis. Biotechniques, Department of Pharmacology, Penn State College of Medicine, Hershey, PA, USA., v. 44, n. 5, p. 619–626, Apr 2008. VELCULESCU, V. E. et al. Analysis of human transcriptomes. Nat Genet, v. 23, n. 4, p. 387–388, Dec 1999. VELCULESCU, V. E. et al. Serial analysis of gene expression. Science, Oncology Center, Johns Hopkins University, Baltimore, MD 21231, USA., v. 270, n. 5235, p. 484–487, Oct 1995. VENCIO, R. Z. et al. Bayesian model accounting for within-class biological variability in serial analysis of gene expression (sage). BMC Bioinformatics, Statistics Department, Instituto de Matematica e Estatistica - Universidade de Sao Paulo, Rua do Matao 1010, 05508-090 Sao Paulo, Brazil. [email protected], v. 5, p. 119, Aug 2004. VENCIO, R. Z.; BRENTANI, H.; PEREIRA, C. A. Using credibility intervals instead of hypothesis tests in sage analysis. Bioinformatics, Departamento de Estatistica, Instituto de Matematica e Estatistica da Universidade de Sao Paulo, Sao Paulo Referências Bibliográficas 114 04601-003, Brazil, Fundacao Antonio Prudente, Sao Paulo 01509-900, Brazil. [email protected], v. 19, n. 18, p. 2461–2464, Dec 2003. VENCIO, R. Z. et al. Simcluster: clustering enumeration gene expression data on the simplex space. BMC Bioinformatics, Institute for Systems Biology, 1441 North 34th street, Seattle, WA 98103-8904, USA. [email protected], v. 8, p. 246, 2007. VENTER, J. C. et al. The sequence of the human genome. Science, Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USA. [email protected], v. 291, n. 5507, p. 1304–1351, Feb 2001. VILAIN, C. et al. Small amplified rna-sage: an alternative approach to study transcriptome from limiting amount of mrna. Nucleic Acids Res, Institute of Interdisciplinary Research (IRIBHM), Universite Libre de Bruxelles, 808 route de Lennik, B-1070 Bruxelles, Belgium. [email protected], v. 31, n. 6, p. e24, Mar 2003. VIRLON, B. et al. Serial microanalysis of renal transcriptomes. Proc Natl Acad Sci U S A, Departement de Biologie Cellulaire et Moleculaire, Service de Biologie Cellulaire, Centre National de la Recherche Scientifique Unite de Recherche Associee 1859, France., v. 96, n. 26, p. 15286–15291, Dec 1999. WAHL, M. B.; HEINZMANN, U.; IMAI, K. Longsage analysis significantly improves genome annotation: identifications of novel genes and alternative transcripts in the mouse. Bioinformatics, Institute of Developmental Genetics, GSF-National Research Center for Environment and Health, Ingolstadter Landstrasse 1, D-85764 Neuherberg, Germany., v. 21, n. 8, p. 1393–1400, Apr 2005. WALL, L. Programming Perl. Sebastopol, CA, USA: O’Reilly & Associates, Inc., 2000. ISBN 0596000278. WANG, X.; GORLITSKY, R.; ALMEIDA, J. S. From xml to rdf: how semantic web technologies will change the design of ’omic’ standards. Nat Biotechnol, Department of Biostatistics, Bioinformatics and Epidemiology, Medical University of South Carolina, 135 Cannon St. Suite 303, Charleston, South Carolina 29403-5720, USA., v. 23, n. 9, p. 1099–1103, Sep 2005. WEI, C. L. et al. Transcriptome profiling of human and murine escs identifies divergent paths required to maintain the stem cell state. Stem Cells, Genome Institute of Singapore, 60 Biopolis Street, Genome#02-01, Singapore 138672., v. 23, n. 2, p. 166–185, Feb 2005. WEI, C. L. et al. 5’ long serial analysis of gene expression (longsage) and 3’ longsage for transcriptome characterization and genome annotation. Proc Natl Acad Sci U S A, Genome Institute of Singapore, 60 Biopolis Street, Genome 02-01, Singapore 138672., v. 101, n. 32, p. 11701–11706, Aug 2004. WHEELER, D. A. et al. The complete genome of an individual by massively parallel dna sequencing. Nature, Human Genome Sequencing Center, Baylor College of Medicine, One Baylor Plaza, Houston, Texas 77030, USA., v. 452, n. 7189, p. 872–876, Apr 2008. Referências Bibliográficas 115 WILLIAMSON, D. F.; PARKER, R. A.; KENDRICK, J. S. The box plot: a simple visual method to interpret data. Ann Intern Med, Centers for Disease Control, Atlanta, Georgia., v. 110, n. 11, p. 916–921, Jun 1989. WINGENDER, E. et al. Transfac: an integrated system for gene expression regulation. Nucleic Acids Res, Gesellschaft fur Biotechnologische Forschung mbH, Mascheroder Weg 1, D-38124 Braunschweig, Germany. [email protected], v. 28, n. 1, p. 316–319, Jan 2000. WOLD, B.; MYERS, R. M. Sequence census methods for functional genomics. Nat Methods, Division of Biology, California Institute of Technology, Pasadena, California 91125, USA. [email protected], v. 5, n. 1, p. 19–21, Jan 2008. YE, S. Q. et al. minisage: gene expression profiling using serial analysis of gene expression from 1 microg total rna. Anal Biochem, Lipid Research Atherosclerosis Division, Department of Pediatrics, CMSC 604, Johns Hopkins University School of Medicine, 600 North Wolfe Street, Baltimore, Maryland 21287, USA. [email protected], v. 287, n. 1, p. 144–152, Dec 2000. YUEN, T. et al. Accuracy and calibration of commercial oligonucleotide and custom cdna microarrays. Nucleic Acids Res, Department of Neurology, Mount Sinai School of Medicine, New York, NY 10029, USA., v. 30, n. 10, p. e48, May 2002. ZANETTE, D. L. Análise Global da Expressão Gênica de Leucemia Mielóide Aguda. Dissertação (Mestrado) — Faculdade de Medicina de Ribeirão Preto – Universidade de São Paulo, 2003. ZHANG, L. et al. Gene expression profiles in normal and cancer cells. Science, Howard Hughes Medical Institute, The Johns Hopkins University School of Medicine, Baltimore, MD 21231, USA., v. 276, n. 5316, p. 1268–1272, May 1997. ZUYDERDUYN, S. D. Statistical analysis and significance testing of serial analysis of gene expression data using a poisson mixture model. BMC Bioinformatics, Victor Ling Laboratory, Department of Cancer Genetics and Developmental Biology, BC Cancer Research Centre, 675 West 10th Ave Vancouver, Canada. [email protected], ” v. 8, p. 282, 2007. 116 APÊNDICE A -- Resumo do artigo que descreve o S3T 117 APÊNDICE B -- Grupos histológicos para a análise com S3T Grupos Histológicos Tecido/Órgão Subgrupo No de bibliotecas Osso SAGE Pelvis mixoid chondrosarcoma grade2 B Medula óssea SAGE B 1 SAGE Bone marrow normal AP 2 SAGE Bone marrow normal B 1 SAGE Brain Medulloblastoma CL 4 Cérebro SAGE Brain astrocyte normal CL SAGE Brain astrocytoma grade III B 1 1 11 SAGE Brain astrocytoma grade II B 8 SAGE Brain astrocytoma grade I B 1 SAGE Brain ependymoblastoma B 1 SAGE Brain ependymoma B 11 SAGE Brain fetal normal B 1 SAGE Brain glioblastoma B 10 SAGE Brain glioblastoma CL 6 SAGE Brain glioblastoma CS 1 SAGE Brain glioblastoma control CL 1 SAGE Brain glioblastoma hypoxia CL 1 SAGE Brain meningioma grade III B 1 SAGE Brain meningioma grade II B 2 SAGE Brain meningioma grade I B 2 SAGE Brain normal cortex B 1 SAGE Brain normal cortex B B 1 SAGE Brain normal leptomeninges B 1 SAGE Brain normal peds cortex B 1 SAGE Brain normal substantia nigra B 1 SAGE Brain normal thalamus B 1 SAGE Brain oligodendroglioma B 2 Epitélio brônquial GEO Cartilagem SAGE Cartilage chondrosarcoma grade 1 CL 1 SAGE Cartilage chondrosarcoma grade 2 B 1 SAGE Cartilage chondrosarcoma grade 2 CL 2 SAGE Cartilage chondrosarcoma grade 3 CL 1 SAGE Cartilage dedifferentiated chondrosarcoma metastasis CL Cerebelo SAGE Brain medulloblastoma B 19 5 20 SAGE Brain medulloblastoma CL 4 SAGE Brain normal cerebellum B 1 Apêndice B -- Grupos histológicos para a análise com S3T Tecido/Órgão Cólon Subgrupo 118 No de bibliotecas SAGE Brain normal cerebellum B B 1 SAGE Colon adenocarcinoma B 2 SAGE Colon adenocarcinoma CL 4 SAGE Colon carcinoma CL 4 SAGE Colon normal B 2 Olho SAGE Eye lens B 1 Trato gastrointestinal SAGE Stomach normal MD 1 Coração SAGE Heart normal B 1 Rim SAGE Kidney carcinoma B 1 SAGE Kidney embryonic CL 2 SAGE Kidney normal B 1 GEO 3 SAGE Liver cholangiocarcinoma B 2 SAGE Liver cholangiocarcinoma CL 2 Fı́gado Pulmão SAGE Liver normal B 1 SAGE Lung adenocarcinoma B 1 SAGE Lung adenocarcinoma MD 2 SAGE Lung normal B 1 SAGE Lung normal CL 2 SAGE Lung tumor associated chronic inflammation B 1 Parênquima pulmonar GEO 2 Linfonodo SAGE Lymph Node Lymphoma B 1 SAGE Lymph Node normal B 1 Glândula mamária SAGE B 1 SAGE Breast carcinoma associated myoepithelium AP 1 SAGE Breast carcinoma B 8 SAGE Breast carcinoma B B 1 SAGE Breast carcinoma CL 6 SAGE Breast carcinoma CL MD 3 SAGE Breast carcinoma MD 2 SAGE Breast carcinoma associated myoepithelium AP 1 SAGE Breast carcinoma associated myofibroblast AP 3 SAGE Breast carcinoma associated stroma B 2 SAGE Breast carcinoma epithelium AP 7 SAGE Breast carcinoma epithelium CD24+ AP 3 SAGE Breast carcinoma epithelium CD44+ AP 2 SAGE Breast carcinoma epithelium PROCR+ AP 2 SAGE Breast carcinoma epithelium X MUC1+ AP 1 SAGE Breast carcinoma metastasis B 1 SAGE Breast carcinoma myoepithelium X ITGB6+ AP 1 SAGE Breast fibroadenoma MD 1 SAGE Breast metastatic carcinoma B 2 SAGE Breast normal B 1 SAGE Breast normal epithelium AP 1 SAGE Breast normal epithelium AP B 1 SAGE Breast normal epithelium CD24+ AP 2 SAGE Breast normal epithelium CD44+ AP 1 SAGE Breast normal myoepithelium AP 2 SAGE Breast normal myoepithelium CL 1 SAGE Breast normal organoid B 1 SAGE Breast normal stroma AP 1 SAGE Breast normal stroma B 1 Apêndice B -- Grupos histológicos para a análise com S3T Tecido/Órgão Subgrupo 119 No de bibliotecas SAGE Breast phyllodes tumor fibroblasts AP 1 Músculo SAGE Muscle Rhabdomyosarcoma B 1 SAGE Muscle normal B 2 Outro SAGE Esophagus Adenocarcinoma B 1 SAGE Esophagus Dysplasia B 2 Ovário Pâncreas Peritônio Placenta Próstata Retina Pele SAGE Esophagus Normal B 1 SAGE GallBladder Adenocarcinoma B 3 SAGE GallBladder Normal B 1 SAGE Placenta hydatidiform mole B 1 SAGE Rheumatoid arthritis synovial fibroblast CS 1 SAGE Ovary adenocarcinoma B 3 SAGE Ovary carcinoma CL 2 SAGE Ovary cystadenoma CL 1 SAGE Ovary endometriosis CL 1 SAGE Ovary normal CL 1 SAGE Ovary normal CS 1 SAGE Pancreas adenocarcinoma B 2 SAGE Pancreas adenocarcinoma CL 2 SAGE Pancreas carcinoma CL 2 SAGE Pancreas normal B 1 SAGE Pancreas normal CS 2 SAGE Peritoneum mesothelioma B 1 SAGE Peritoneum normal B 1 SAGE Placenta first trimester normal B 1 SAGE Placenta normal B 1 SAGE Prostate adenocarcinoma CL 1 SAGE Prostate adenocarcinoma MD 1 SAGE Prostate carcinoma B 2 SAGE Prostate carcinoma CL 7 SAGE Prostate normal B 1 SAGE Prostate normal MD 1 SAGE Prostate normal epithelium CS 2 SAGE Retina Macula normal B 1 SAGE Retina Peripheral normal B 3 SAGE Retina Pigment epithelium normal B 1 SAGE Retina Retinoblastoma B 1 SAGE Retina macula normal B 1 SAGE Retina normal B 1 SAGE Retinal Pigment Epithelium normal B 2 GEO 4 SAGE Skin melanoma B 3 SAGE Skin normal B 1 Medula espinhal SAGE Spinal cord normal B 1 Célula tronco SAGE Embryonic stem cell BG01 normal p20 CL 1 SAGE Embryonic stem cell H13 normal p22 CL 1 SAGE Embryonic stem cell H14 normal p22 CL 1 SAGE Embryonic stem cell H1 normal p31 CL 1 SAGE Embryonic stem cell H1 normal p54 CL 1 SAGE Embryonic stem cell H7 normal p33 CL 1 SAGE Embryonic stem cell H9 normal p38 CL 2 SAGE Embryonic stem cell HES3 normal p16 CL 1 SAGE Embryonic stem cell HES4 normal p36 CL 1 Apêndice B -- Grupos histológicos para a análise com S3T Tecido/Órgão Estômago Subgrupo 120 No de bibliotecas SAGE Embryonic stem cell HSF6 normal p50 CL 1 SAGE Stomach adenocarcinoma B 1 SAGE Stomach adenocarcinoma MD 3 SAGE Stomach carcinoma B 3 SAGE Stomach normal B 1 SAGE Stomach normal MD 1 SAGE Stomach normal epithelium B 1 Testı́culo SAGE Testis Embyronal Carcinoma B 1 Tireóide SAGE Thyroid follicular adenoma B 1 SAGE Thyroid follicular carcinoma B 1 SAGE Thyroid normal B 1 SAGE Fibroblasts CL 1 SAGE Universal reference human RNA CL 1 Não categorizado Útero SAGE Uterus endometrium normal CS 1 Vascular SAGE Vascular endothelium breast carcinoma associated AP 1 SAGE Vascular endothelium hemangioma B 1 SAGE Vascular endothelium normal breast associated AP 1 SAGE Vascular endothelium normal liver associated AP 1 SAGE Vascular normal CS Células brancas GEO 2 12 SAGE Leukocytes normal B 1 SAGE White Blood Cells breast carcinoma associated AP 3 SAGE White Blood Cells lung macrophage normal AP 1 SAGE White Blood Cells monocyte depleted mononuclear cells normal AP 2 SAGE White Blood Cells monocyte normal AP 2 SAGE White Blood Cells monocytes normal AP 3 SAGE White Blood Cells normal breast associated AP 1 SAGE White Blood Cells plaque macrophage normal AP 2 Nota: O subgrupo histológico é definido pelos identificadores comuns (SAGE ORGÃO HISTOLOGIA PREPARAÇÃO) do nome das bibliotecas do CGAP. As bibliotecas do GEO estão reunidas no subgrupo GEO. 121 APÊNDICE C -- Configuração do S3T Trecho do arquivo de configuração do S3T. # Fontes de dados para extração de tags virtuais contidas no banco de dados. [SOURCES] 0 = mRNAs Full Length 1 = Contigs 2 = Mitochondrion 3 = Alternative Poly(A) 4 = Alternative Splicing 5 = Internal Priming 6 = Linker Tag 7 = Genomic 8 = Internal Tags 9 = Others 10 = Vector pZErO-1 # Atributos especiais de conjuntos de tags virtuais contidos no banco de dados. [ATTRIBUTES] 0 = PolyA Signal 1 = PolyA Tail 2 = More than one EST 3 = Only one EST 4 = Extracted # Ordem de aplicação das regras. [SAGE NLAIII 10 HS] score order = -6,-5,-4,-3,-2,10,9,8,7,6,5,4,3,2,1,0,-1,-7 # Conjunto de regras definidas para a combinação de parâmetros SAGE NLAIII 10 HS. # $f tag (valor de freqüência absoluta da tag). # $m tag (valor médio de freqüência da tag considerando outras bibliotecas). # $mfno tag (ordem da tag vizinha mais freqüente, considerando a porcentagem das tags mais freqüentes). [SAGE NLAIII 10 HS SCORE] 10 = 0;0&1;($f tag>=10) 9 = 0;0&1;((1<=$f tag)&&($f tag<10)) 8 = 0;;($f tag>=5) Apêndice C -- Configuração do S3T 7 = 0;;((1<=$f tag)&&($f tag<5)) 6 = 1;0&1;($f tag>=5) 5 = 1;0&1;((1<=$f tag)&&($f tag<5)) 4 = 3|4;2;($f tag>1) 3 = 1;;($f tag>=1) 2 = 3|4;3;($f tag>=1) 1 = 8;; 0 = ;;(($f tag==1)&&($m tag>1)) -1 = ;;($f tag==1) -2 = ;;(($f tag<5)&&(defined $mfno tag)&&($mfno tag<20%)) -3 = 5;;($f tag==1) -4 = 6;; -5 = 2;; -6 = 10;; -7 = ;; 122 123 ANEXO A -- Seqüências dos Adaptadores e Primers para SAGE Adaptador 1 A 5’ TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA GGG ACA TG 3’ Adaptador 1 B 5’ TCC CTA TTA AGC CTA GTT GTA CTG CAC CAG CAA ATC C[amino mod. C7] 3’ Adaptador 2 A 5’ TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GGG GAC ATG 3’ Adaptador 2 B 5’ TCC CCG TAC ATC GTT AGA AGC TTG AAT TCG AGC AG[amino mod. C7] 3’ → We now order primer 1 and primer 2 with the addition of 2 sequential biotins on the 5’ end gel-purified from Integrated DNA Technologies. Primer 1 5’ GGA TTT GCT GGT GCA GTA CA 3’ Primer 2 5’ CTG CTC GAA TTC AAG CTT CT 3’ Biotinylated oligo dT 5’ [biotin]T18 M13 Forward 5’ GTA AAA CGA CGG CCA GT 3’ M13 Reverse 5’ GGA AAC AGC TAT GAC CAT G 3’ 124 ANEXO B -- Seqüências dos Adaptadores e Primers para LongSAGE Adaptador 1 A 5’ TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA TCC GAC ATG 3’ Adaptador 1 B 5’ TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CC [amino mod. C7] 3’ Adaptador 2 A 5’ TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTC CGA CAT G 3’ Adaptador 2 B 5’ TCG GAC GTA CAT CGT TAG AAG CTT GAA TTC GAG CAG[amino mod. C7] 3’ Primer 1 5’ GGA TTT GCT GGT GCA GTA CA 3’ Primer 2 5’ CTG CTC GAA TTC AAG CTT CT 3’ → The ditag molecules are amplified with Primer 1 and Primer 2 which are biotinylated with 2 sequential biotins on the 5’ ends. Primer 1 Biotin 5’ GTG CTC GTG GGA TTT GCT GGT GCA GTA CA 3’ Primer 2 Biotin 5’ GAG CTC GTG CTG CTC GAA TTC AAG CTT CT 3’ 125 ANEXO C -- Seqüências dos Adaptadores para MPSS Common strand: 5’ GACTGGCAGCTCGT Encoded adaptors for detecting base 1 : 5’ NNNAACGAGCTGCCAGTCcatttaggcg 5’ NNNGACGAGCTGCCAGTCctgattaccg 5’ NNNCACGAGCTGCCAGTCaccaatacgg 5 NNNTACGAGCTGCCAGTCcgctttgtag Encoded adaptors for detecting base 2 : 5’ NNANACGAGCTGCCAGTCggaacctgaa 5’ NNGNACGAGCTGCCAGTCtgtgcgtgat 5’ NNCNACGAGCTGCCAGTCaccgacattc 5’ NNTNACGAGCTGCCAGTCattcctcctc Encoded adaptors for detecting base 3 : 5 NANNACGAGCTGCCAGTCcgaagaagtc 5’ NGNNACGAGCTGCCAGTCtggtctctct 5’ NCNNACGAGCTGGCAGTCtagcggactt 5’ NTNNACGAGCTGCCAGTCggcgataact Encoded adaptors for detecting base 4 : 5’ ANNNACGAGCTGCCAGTCgcatccatct 5’ GNNNACGAGCTGCCAGTCcaactcgtca 5’ CNNNACGAGCTGCCAGTCcacagcaaca 5’ TNNNACGAGCTGCCAGTCgccagtgtta → Four-base overhangs in bold and decoder binding sites in lowercaser
Documentos relacionados
Exame de Compressão e Codifica cão de Dados
Exame de Compress~ao e Codicac~ao de Dados Secc~ao de Telecomunicacco~es { DEEC Instituto Superior Tecnico
Leia maisExame de Compressão e Codifica cão de Dados
ao necessaria para que o comprimento medio de codicac~ao seja inferior a 0.7 bits/smbolo ? c) Uma fonte S gera aleatoriamente smbolos do conjunto com 48 elementos, fA; B; C; :::; Z; a; b; :...
Leia mais