Desenvolvimento de uma Plataforma Integrativa para - BIT

Transcrição

Desenvolvimento de uma Plataforma Integrativa para - BIT
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE MEDICINA DE RIBEIRÃO PRETO
Daniel Guariz Pinheiro
Desenvolvimento de uma Plataforma
Integrativa para Depuração e Análise de
Dados de Expressão Gênica
Ribeirão Preto – SP
2009
AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE
TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA
FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE.
Catalogação na Publicação
Serviço de Documentação
Faculdade de Medicina de Ribeirão Preto
Pinheiro, Daniel Guariz
Desenvolvimento de uma Plataforma Integrativa para Depuração e Análise de
Dados de Expressão Gênica / Daniel Guariz Pinheiro; orientador: Wilson Araújo
da Silva Jr. – Ribeirão Preto – SP, 2009.
125 f. : fig.
Tese (Doutorado – Programa de Pós-Graduação em Genética.
centração: Genética) – Faculdade de Medicina de Ribeirão Preto.
Área de Con-
1. Expressão Gênica – Serial Analysis of Gene Expression – SAGE. 2.
nética. 3. Bioinformática.
Ge-
Daniel Guariz Pinheiro
Desenvolvimento de uma Plataforma
Integrativa para Depuração e Análise de
Dados de Expressão Gênica
Tese apresentada ao Programa de Pós-Graduação
em Genética da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo para a
obtenção do tı́tulo de Doutor em Ciências.
Área de Concentração: Genética
Orientador: Prof. Dr. Wilson Araújo da Silva
Junior
Ribeirão Preto – SP
2009
Dedicatória
Dedico esta tese à minha famı́lia.
À minha esposa, Aline Dibelli Balestra Pinheiro,
aos meus pais, Hilário Tavares Pinheiro Filho e Waldira Luci Guariz Pinheiro,
aos meus irmãos, Samuel Guariz Pinheiro e Rafael Guariz Pinheiro,
aos meus avós paternos Hilário Tavares Pinheiro e Adelaide Corazza Pinheiro,
e avós maternos Mário Guariz e Elza Malerbo Guariz.
Agradecimentos
A Deus, pelo dom da vida e por iluminar o meu caminho, me concedendo força e
perseverança para superar os desafios encontrados.
À minha esposa, Aline Dibelli Balestra Pinheiro, pelo amor, companheirismo e paciência.
Aos meus pais, Hilário Tavares Pinheiro e Waldira Luci Guariz Pinheiro, pela educação, apoio e dedicação incondicional.
Aos meus irmãos, Samuel Guariz Pinheiro e Rafael Guariz Pinheiro pelo apoio em
todos os momentos.
Ao Prof. Dr. Wilson Araújo da Silva Junior pela orientação, incentivo, paciência e
confiança dispensada.
Aos Professores do Departamento de Genética da Faculdade de Medicina de Ribeirão
Preto, da Universidade de São Paulo, pelos ensinamentos, e à Comissão de Pós-Graduação
pela oportunidade concedida.
Ao Prof. Dr. Sandro José de Souza do Instituto Ludwig de Pesquisa sobre o Câncer,
pela atenção e colaboração.
Ao Dr. Pedro Alexandre Favoretto Galante do Instituto Ludwig de Pesquisa sobre o
Câncer, pela atenção e colaboração com valiosos comentários e sugestões.
À equipe do Laboratório de Genética Molecular pela alegre convivência. Em especial,
Cristiane Ayres Ferreira, Carla Martins Kaneto e Greice Andreotti de Molfetta.
Aos amigos do Laboratório de Bioinformática (BiT) pelo companheirismo e incentivo
durante esses anos. Em especial, Rodrigo Martins Brandão, Israel Tojal da Silva, Marco
Aurélio Valtas Cunha, Thiago Yukio Kikuchi Oliveira, Gislaine da Silva P. Pereira, Alynne
Oya e Chiromatzo, Rodrigo Lucena Borges, Olsen Rodrigo Mott Silva, Rodrigo Guarischi
M. A. de Sousa e Marcelo Gomes de Paula.
À Meire Vieira de Carvalho Tarlá, à Dalva Tereza Catto (Dalvinha), à Susie Adriana
Penha Nalon e à Maria Aparecida O. S. Elias, pela paciência, ajuda e dedicação nas
tarefas burocráticas e administrativas.
Aos funcionários do Hemocentro de Ribeirão Preto por proporcionarem um ambiente
de trabalho propı́cio.
Ao Centro de Terapia Celular (CEPID/FAPESP) pelo apoio financeiro.
Aos que contribuı́ram direta ou indiretamente para a realização deste trabalho.
“Comece fazendo o que é necessário,
depois o que é possı́vel,
e de repente você estará fazendo o impossı́vel.”
São Francisco de Assis
Resumo
Métodos de análise de expressão gênica em larga escala como microarrays, Serial
Analysis of Gene Expression (SAGE), Massively Parallel Signature Sequencing (MPSS) e
outros baseados na nova geração de seqüenciadores [e.g. Sequencing-By-Synthesis (SBS)]
têm sido amplamente utilizados e para traçar perfis de expressão gênica. Estas abordagens têm permitido a identificação de biomarcadores de tipos celulares especı́ficos em
uma extensa variedade de condições biológicas. Análises de expressão gênica diferencial
usando dados produzidos a partir dessas tecnologias fornecem recursos que auxiliam sobremaneira a identificação e avaliação de alvos terapêuticos. A fim de oferecer suporte
para essas análises, desenvolvemos uma plataforma integrativa que utiliza bancos de dados
públicos e próprios e reúne uma coleção de ferramentas web. Essa plataforma compreende dois sistemas integrados: o primeiro é chamado de Hyper- and Hypo-expressed Genes
(H2G) e o segundo de Score System for Sequence Tags (S3T). O H2G oferece suporte às
análises comparativas de expressão gênica diferencial e o S3T foi concebido para indexar os dados de expressão gênica por meio de uma série de avaliações baseadas em um
conjunto de regras definido, o qual permite a identificação/seleção de dados considerados
mais confiáveis para posterior análise com H2G ou quaisquer outros aplicativos. O H2G
possui ferramentas computacionais para a análise e detecção de genes diferencialmente
expressos e engloba um banco de dados de expressão gênica que contém atualmente 1.174
bibliotecas obtidas a partir das tecnologias SAGE, MPSS e SBS. O H2G inclui o S3T
como um recurso para realizar a depuração nesses dados. Análises com o S3T foram
realizadas em conjuntos de bibliotecas de SAGE humanas, organizadas por tipo celular.
Agrupamentos hierárquicos foram obtidos a partir dos dados brutos e também a partir
dos dados após a filtragem do S3T, para cada conjunto de bibliotecas. Os resultados das
avaliações desses agrupamentos revelam que os agrupamentos gerados a partir dos dados
após a filtragem são mais coerentes, sugerindo que o processo de depuração do S3T é capaz de reduzir a presença de ruı́dos. Este trabalho oferece uma contribuição significativa
para os estudos da dinâmica da expressão gênica. Essa plataforma de análise pode auxiliar outros pesquisadores na realização de suas investigações biológicas. Os recursos de
análise estão livremente disponı́veis nas seguintes URLs: http://gdm.fmrp.usp.br/h2g/ e
http://gdm.fmrp.usp.br/s3t/, respectivamente para o H2G e o S3T.
Abstract
Development of an Integrative Platform for Depuration and Analysis of
Gene Expression Data
High-throughput gene expression methods such as microarrays, Serial Analysis of
Gene Expression (SAGE), Massively Parallel Signature Sequencing (MPSS) and others
based on the new generation of sequencers [e.g. Sequencing-By-Synthesis (SBS)] have been
widely used for gene expression profiling. These approaches have stimulated searches for
biomarkers of specific cell types in a broad variety of biological conditions. Differential
gene expression analyses using data produced from these technologies can provide the
means for identification and evaluation of potential therapeutic targets. In order to offer
support for these analyses, we developed an integrative platform that uses public and
in-house databases and gathers a collection of web-based tools. This platform comprises two integrated systems: the first is named Hyper- and Hypo-expressed Genes (H2G)
and the second is named Score System for Sequence Tags (S3T). The H2G supports the
comparative analysis of differential gene expression and the S3T was designed to index
gene expression data by a series of evaluations based on a defined rule set, which allows
the identification/selection of data considered more reliable for further analysis with H2G
or any other resource. The H2G has computational tools for analysis and detection of
differentially expressed genes and comprises a gene expression database that currently
contains 1,174 library entries obtained from SAGE, MPSS and SBS technologies. The
H2G includes the S3T as a resource to perform a depuration in these data. S3T analyses
were performed in sets of human SAGE libraries, organized by cell type. Hierarchical clusters were obtained from raw data and also from data after S3T filtering, for each library
set. The evaluation results of these clusters reveal that the clusters generated from data
after filtering are more coherent, suggesting that the depuration process of S3T is able to
reduce the noise presence. This work offers a significant contribution to gene expression
dynamics studies. This analysis platform can assist other researchers to carry out its biological investigations. The analysis resources are freely available at the following URLs:
http://gdm.fmrp.usp.br/h2g/ and http://gdm.fmrp.usp.br/s3t/ respectively for the H2G
and S3T.
Sumário
Lista de Figuras
Lista de Tabelas
Lista de Abreviaturas e Siglas
1 Introdução
p. 17
1.1 Genômica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17
1.2 Genômica Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17
1.3 Análise Global da Expressão Gênica . . . . . . . . . . . . . . . . . . . . . p. 19
1.3.1
Técnicas para a Análise Global da Expressão Gênica . . . . . . . p. 20
1.3.2
Comparações entre as tecnologias . . . . . . . . . . . . . . . . . . p. 33
1.3.3
Métodos de Análise de Expressão Gênica Diferencial . . . . . . . p. 34
1.4 Bancos de Dados Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . p. 40
1.4.1
Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43
1.4.2
Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45
1.4.3
Vias metabólicas . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47
1.4.4
Regulação da Expressão Gênica . . . . . . . . . . . . . . . . . . . p. 48
1.4.5
Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50
1.4.6
Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
2 Objetivos
p. 54
3 Material e métodos
p. 56
3.1 Plataforma de desenvolvimento dos sistemas . . . . . . . . . . . . . . . . p. 56
3.2 H2G - Hyper- and Hypo-expressed Genes . . . . . . . . . . . . . . . . . . p. 59
3.2.1
Repositório de Dados de Expressão Gênica . . . . . . . . . . . . . p. 59
3.2.2
Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63
3.3 S3T - Score System for Sequence Tags . . . . . . . . . . . . . . . . . . . p. 64
3.3.1
Conjuntos de tags virtuais . . . . . . . . . . . . . . . . . . . . . . p. 65
3.3.2
Regras de Classificação . . . . . . . . . . . . . . . . . . . . . . . . p. 70
3.3.3
Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71
3.3.4
Análise com dados públicos de SAGE . . . . . . . . . . . . . . . . p. 72
4 Resultados e Discussão
p. 75
4.1 H2G - Hyper- and Hypo-expressed Genes . . . . . . . . . . . . . . . . . . p. 75
4.1.1
Recursos disponı́veis . . . . . . . . . . . . . . . . . . . . . . . . . p. 76
4.1.2
Aplicações do H2G . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79
4.1.3
Disponibilidade e requisitos do sistema H2G . . . . . . . . . . . . p. 82
4.2 S3T - Score System for Sequence Tags . . . . . . . . . . . . . . . . . . . p. 82
4.2.1
Análise com dados públicos de SAGE . . . . . . . . . . . . . . . . p. 83
4.2.2
Disponibilidade e requisitos do sistema S3T . . . . . . . . . . . . p. 90
5 Conclusões
p. 92
6 Perspectivas
p. 94
Referências Bibliográficas
p. 96
Apêndice A -- Resumo do artigo que descreve o S3T
p. 116
Apêndice B -- Grupos histológicos para a análise com S3T
p. 117
Apêndice C -- Configuração do S3T
p. 121
Anexo A -- Seqüências dos Adaptadores e Primers para SAGE
p. 123
Anexo B -- Seqüências dos Adaptadores e Primers para LongSAGE
p. 124
Anexo C -- Seqüências dos Adaptadores para MPSS
p. 125
Lista de Figuras
1
Revolução dos “omas” e a Biologia Sistêmica . . . . . . . . . . . . . . . . p. 18
2
Protocolo original da técnica de SAGE . . . . . . . . . . . . . . . . . . . p. 24
3
Crescimento do GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41
4
Arquitetura geral dos bancos de dados biológicos . . . . . . . . . . . . . . p. 43
5
Representação das conexões entre os bancos de dados no Entrez . . . . . p. 44
6
Diagrama geral dos sistemas H2G e S3T . . . . . . . . . . . . . . . . . . p. 57
7
Diagrama geral do sistema H2G . . . . . . . . . . . . . . . . . . . . . . . p. 60
8
Diagrama geral do sistema S3T . . . . . . . . . . . . . . . . . . . . . . . p. 65
9
Imagem da representação dos nı́veis de expressão das tags no sistema de
pesquisa do H2G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79
10
Gráfico de dispersão de uma análise com H2G. . . . . . . . . . . . . . . . p. 80
11
Resultado da ferramenta de consulta do H2G . . . . . . . . . . . . . . . . p. 81
12
Distribuições dos resultados da análise do S3T. . . . . . . . . . . . . . . . p. 86
13
Agrupamento hierárquico de bibliotecas SAGE de cólon. . . . . . . . . . p. 87
14
Scores mais abundantes nos resultados da classificação com o S3T. . . . . p. 89
15
Contribuição das tags com scores negativos para o tamanho final da
biblioteca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 89
16
Histograma dos resultados das classificações aleatórias . . . . . . . . . . . p. 91
Lista de Tabelas
1
Fontes originais dos dados contidos no H2G. . . . . . . . . . . . . . . . . p. 62
2
Conjuntos de dados de tags virtuais. . . . . . . . . . . . . . . . . . . . . p. 66
3
Conjunto de regras padrão para o S3T. . . . . . . . . . . . . . . . . . . . p. 73
4
Conteúdo do repositório de dados do H2G. . . . . . . . . . . . . . . . . . p. 75
5
Correlação entre o total de tags e tags distinstas por score. . . . . . . . . p. 85
6
Avaliação de qualidade dos agrupamentos hierárquicos, . . . . . . . . . . p. 88
7
Valores médios e desvios padrões obtidos dos resultados das avaliações
com a medida-F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90
8
Diferenças e valores de significância estatı́stica comparando as médias
das porcentagens dos casos de agrupamentos. . . . . . . . . . . . . . . . . p. 90
Lista de Abreviaturas e Siglas
RNA Ácido Ribonucléico/Ribonucleic Acid
DNA Ácido Desoxirribonucléico/Deoxyribonucleic Acid
cDNA complementary DNA
EST Expressed Sequence Tag
SAGE Serial Analysis of Gene Expression
MPSS Massively Parallel Sinature Sequencing
cDNA-AFLP cDNA-Amplified Fragment Length Polymorphism Analysis
PCR Polymerase Chain Reaction
qPCR quantitative Polymerase Chain Reaction
EBE EST Based Expression experiments
NCBI National Center for Biotechnology Information
BLAST Basic Local Alignment Search Tool
BLAT BLAST -Like Alignment Tool
pb par(es) de bases
mRNA RNA mensageiro
DDD Digital Differential Display
SBS Sequencing-By-Synthesis
SBL Sequencing-By-Ligation
AE Anchoring Enzyme
TE Tagging Enzyme
SNP Single Nucleotide Polymorphism
InDel Insertion-Deletion polymorphisms
nt nucleotı́deo
ATP adenosina trifosfato
KEGG Kyoto Encyclopedia of Genes and Genomes
GO Gene Ontology
GOA Gene Ontology Annotation
SOAP Simple Object Access Protocol
HTTP HyperText Transfer Protocol
EBI European Bioinformatics Institute
INSDC International Nucleotide Sequence Database Collaboration
MGC Mammalian Gene Collection
ORF Open Reading Frame
OBO Open Biomedical Ontologies
mRNPs messenger ribonucleoproteins
MIAME Minimum Information About a Microarray Experiment
MAGE-ML Microarray Gene Expression Markup Language
MGED Microarray Gene Expression Data
UCSC University of California Santa Cruz
OMG Object Management Group
iAFLP introduced Amplified Fragment Length Polymorphism
DDBJ DNA Data Bank of Japan
RISC RNA-induced silence complex
SGBD Sistema de Gerenciamento de Banco de Dados
SO Sistema Operacional
GEO Gene Expression Omnibus
GIS Genome Institute of Singapore
LICR Ludwig Institute for Cancer Research
Poli(A) Poliadenilação
GLGI Generation of Longer cDNA fragments from SAGE tags for Gene Identification
CGAP Cancer Genome Anatomy Project
RDF Resource Description Framework
W3C World Wide Web Consortium
KDD Knowledge Discovery Database
SOM Self-Organizing Maps
PCA Principal Component Analysis
EM Expectation Maximization
GSEA Gene Set Enrichment Analysis
H2G Hyper- and Hypo-expressed Genes
S3T Score System for Sequence Tags
Perl Practical Extraction and Report Language
HTML HyperText Markup Language
CSS Cascading Style Sheets
XML Extensible Markup Language
AJAX Asynchronous Javascript And XML
CGI Common Gateway Interface
CPAN Comprehensive Perl Archive Network
API Application Programming Interface
GUI Graphical User Interface
SQL Structured Query Language
DER Diagrama Entidade-Relacionamento
URI Uniform Resource Identifier
URL Uniform Resource Locator
GNU GNU is Not Unix
GPL General Public License
LGMB Laboratório de Genética Molecular e Bioinformática
FAQ Frequently Asked Questions
XLS Microsoft Excel Spreadsheet
DECH doença do enxerto contra o hospedeiro
SCU sangue de cordão umbilical
MO medula óssea
fc fold change
d diferença
17
1
Introdução
1.1
Genômica
A Genômica é uma área da Biologia Molecular que visa estudar o genoma de um
determinado organismo, o que inclui sua organização estrutural e funções.
Os projetos genomas, em especial o Projeto Genoma Humano (LANDER et al., 2001;
VENTER et al., 2001), desencadearam uma revolução na área de Biologia e da Genética
Molecular.
Ela só foi possı́vel com o advento das tecnologias de seqüenciamento de Ácido Desoxirribonucléico/Deoxyribonucleic Acid (DNA) em larga-escala, que geraram um grande
volume de informações biológicas de um determinado organismo. A fim de processar tais
informações, o uso de métodos computacionais, fundamentados por modelos matemáticos
e estatı́sticos, foi crucial para o sucesso dos projetos genomas.
Nesse contexto surgiu a Bioinformática, como uma área da Biologia Computacional
voltada ao desenvolvimento de novos métodos, algoritmos, bancos de dados e sistemas
para extrair informações relevantes nesse universo de dados biológicos.
A Genômica compreende a Genômica Estrutural e a Genômica Funcional (Seção 1.2).
1.2
Genômica Funcional
As células que compõem um organismo possuem um genoma com um programa próprio de expressão gênica, que é ativado para exercer sua função mediante a um estı́mulo
endógeno ou exógeno. O seqüenciamento completo de um genoma não é suficiente para
esclarecer os mecanismos moleculares complexos envolvidos na regulação da expressão
gênica. Essa etapa é apenas o inı́cio de um processo que visa compreender a função das
estruturas ativas dos genomas. Essa etapa é conhecida como genômica estrutural, que
engloba o seqüenciamento completo dos cromossomos e o mapeamento gênico. A etapa
1.2 Genômica Funcional
18
seguinte, conhecida como genômica funcional (HIETER; BOGUSKI, 1997), consiste em
utilizar as informações providas pela genômica estrutural para o desenvolvimento de abordagens metodológicas aplicadas para a caracterização das funções gênicas.
A atividade ou inatividade do gene (sua expressão), observada em condições biológicas
especı́ficas, pode fornecer indı́cios sobre a função desse gene. Uma das estratégias mais
eficientes, para tal finalidade, é a quantificação da expressão gênica em condições biológicas
distintas (BUTTE, 2002). A genômica funcional é caracterizada por metodologias para
obtenção de dados em larga escala combinadas com análises estatı́sticas e computacionais
(MURRAY et al., 2007).
Atualmente, como resultado dessa revolução dos projetos “-omas” (Figura 1), emerge
uma nova área, a Biologia Sistêmica (SAUER; HEINEMANN; ZAMBONI, 2007), que
é o estudo das interações entre os componentes de um sistema biológico para tentar
compreender como os processos biológicos estão co-atuando em uma célula funcionalmente
ativa. Essa nova área, procura integrar todas essas informações geradas nos estudos “omas” (Figura 1) e a partir disso obter novos conhecimentos observando o todo e não
somente a soma das partes.
Figura 1: Esquema de nomenclaturas na revolução dos projetos “-omas” em relação ao conceito de
Biologia Sistêmica (Figura adaptada de Morel et al. (2004)).
1.3 Análise Global da Expressão Gênica
1.3
19
Análise Global da Expressão Gênica
As análises de expressão gênica em larga escala têm sido geradas em larga escala a fim
de determinar uma assinatura molecular única para os genes em diferentes tipos celulares
e encontrar sua relação com determinado comportamento celular (EMMERT-BUCK et
al., 2000).
A transcrição gênica, ou sı́ntese de Ácido Ribonucléico/Ribonucleic Acid (RNA) é
uma etapa essencial no contexto da regulação gênica. Normalmente, o produto final do
gene é a proteı́na, obtida a partir de uma molécula de RNA mensageiro (mRNA), o qual
direciona a sı́ntese protéica na etapa de tradução.
Portanto, uma estimação qualitativa do proteoma (conjunto de proteı́nas expressas
por uma determinada população de células) pode ser baseada em uma medida quantitativa
do transcritoma (conjunto de todos os transcritos gênicos presentes em uma determinada
população de células) (BRAZMA; VILO, 2000).
Dessa forma, análises globais comparando os perfis de expressão gênica de amostras
em condições biológicas distintas, são estudadas a fim de elucidar as caracterı́sticas transcricionais essenciais que determinam tais condições biológicas.
As análises dos perfis de expressão gênica possibilitam além da compreensão dos mecanismos moleculares envolvidos na regulação da expressão gênica, permitem a identificação de genes diferencialmente expressos, os quais podem ser considerados biomarcadores
para um determinado tipo celular, como, por exemplo, um determinado tipo de câncer (POLYAK; RIGGINS, 2001), no qual tais biomarcadores poderão ser úteis para um
diagnóstico, prognóstico bem como potenciais alvos para intervenções terapêuticas.
Um problema crı́tico dessas análises é que os resultados obtidos assumem proporções
gigantescas com milhares de genes diferencialmente expressos, tornando difı́cil distinguir
os genes que estão realmente envolvidos com o fenótipo de interesse dos que representam
epifenômenos ou que estão diferencialmente expressos erroneamente.
Uma aproximação lógica para identificar as caracterı́sticas essenciais de um processo,
dado um grande conjunto de possibilidades observadas em uma variedade de sistemas
independentes, é encontrar uma interseção entre as possibilidades observadas através de
um conjunto de sistemas. Pois é esperado que as caracterı́sticas essenciais dos sistemas
estejam muito representadas, enquanto que as caracterı́sticas especı́ficas, os epifenômenos
e os resultados espúrios, tenham baixa representatividade (RHODES et al., 2004).
1.3 Análise Global da Expressão Gênica
1.3.1
20
Técnicas para a Análise Global da Expressão Gênica
As análises globais da Expressão Gênica possibilitam determinar quais são os prováveis
genes envolvidos em um determinado processo biológico e também como estão interagindo
esses genes nas vias metabólicas ativas. Entre as tecnologias mais utilizadas destacamse os métodos baseados em hibridação [e.g. complementary DNA (cDNA) microarrays
(SCHENA et al., 1995) e oligonucleotide-based microarrays (LOCKHART et al., 1996)]
e, especialmente, os métodos baseados em seqüenciamento [e.g. análises de Expressed
Sequence Tag (EST) (ADAMS et al., 1991; NETO et al., 2000) ou EST Based Expression
experiments (EBE), Serial Analysis of Gene Expression (SAGE) (VELCULESCU et al.,
1995), Massively Parallel Sinature Sequencing (MPSS) (BRENNER et al., 2000a)] e, mais
recentemente, as técnicas baseadas na nova geração de seqüenciadores (METZKER, 2005;
MARDIS, 2008a, 2008b; SHENDURE; JI, 2008).
As técnicas baseadas em seqüenciamento utilizam a freqüência observada de fragmentos dos transcritos expressos na amostra. Esses fragmentos são obtidos a partir de clones
de cDNA selecionados aleatoriamente. Eles devem ser seqüenciados para posteriormente
serem identificados, agrupados e contados. A abundância de fragmentos encontrados para
um determinado gene pode fornecer uma estimativa de sua atividade na amostra estudada,
além de possibilitar a descoberta de novos genes (BOGUSKI; TOLSTOSHEV; DE, 1994;
HARBERS; CARNINCI, 2005). É uma tecnologia considerada “aberta”, que permite ter
uma visão geral de quais são os genes que estão sendo expressos, sem a necessidade de
selecioná-los previamente como nos métodos baseados em hibridação.
As técnicas baseadas em hibridação molecular, como os microarrays, em geral utilizam a propriedade de complementaridade dos ácidos nucléicos e sondas com seqüências
complementares às das moléculas de interesse, que nesse caso é o RNA. Essas sondas são
marcadas para posteriormente serem identificadas por meio de um scanner que captura
a intensidade do sinal de hibridação que representa o nı́vel de expressão dos genes ativos.
Microarrays
De um modo geral, os experimentos de microarrays são baseados na hibridação de
moléculas de RNA marcados radioativamente ou utilizando fluoróforos, com de DNA
imobilizadas ordenadamente em um substrato sólido (e.g. lâmina de vidro). No caso dos
microarrays de cDNA, usualmente se emprega a técnica de hibridação competitiva, onde
o cDNA de cada amostra é marcado com um fluoróforo distinto (preferencialmente Cye3
1.3 Análise Global da Expressão Gênica
21
e Cye5). Em seguida, os cDNAs marcados são hibridados simultaneamente em uma única
lâmina. Isso permite que a comparação da expressão gênica relativa das duas amostras
seja realizada em um único experimento.
No caso dos microarrays baseados em oligonucleotı́deos, cada arranjo é hibridado com
cDNAs derivados de uma única amostra. O sinal de hibridação é normalizado permitindo
a comparação dos resultados para as diferentes amostras.
As duas tecnologias possuem sensibilidade e especificidade na identificação de transcritos diferencialmente expressos, apesar de identificada uma correlação relativamente baixa
entre as duas tecnologias (YUEN et al., 2002), assim como entre as diferentes plataformas
da mesma tecnologia (KUO et al., 2006b). A comparação entre dados de diferentes plataformas de microarrays é algo complicado, que não pode ser realizado diretamente. Dessa
forma, meta-análises e estratégias para combinar os dados de diferentes plataformas têm
sido propostas (PARMIGIANI et al., 2004; RHODES et al., 2004).
EST Based Expression experiments
A análise de expressão gênica utilizando ESTs (EBE) inicia com o seqüenciamento
de fragmentos (tags) obtidos de posições aleatórias do transcrito. Eles possuem tamanhos variados (tipicamente 400 a 600 par(es) de bases (pb)) com uma taxa de erro de
2%. Essas tags devem ser submetidas a um procedimento de filtragem de qualidade e em
seguida a sucessivos alinhamentos de seqüências, para a identificação de similaridade com
seqüências contaminantes de vetores, adaptadores, ribossomais, mitocondriais, seqüências
de baixa-complexidade, repetições ou qualquer outro contaminante externo. As seqüências que passaram por este crivo são anotadas contra bancos de dados de seqüências de
transcritos já bem caracterizadas e também com as seqüências do genoma para a identificação da origem da transcrição. Adicionalmente, essas seqüências são agrupadas usando
as coordenadas obtidas nas etapas de alinhamento. Essa estratégia é utilizada para a
construção do UniGene.
O UniGene (SCHULER, 1997) é uma iniciativa do National Center for Biotechnology
Information (NCBI) para promover uma visão organizada do transcritoma por meio de um
sistema analı́tico automatizado. Esse sistema agrupa as seqüências já bem caracterizadas
de genes e as ESTs depositadas no dbESTs (BOGUSKI; LOWE; TOLSTOSHEV, 1993),
o qual é uma divisão do banco de dados de seqüências biológicas do NCBI, o GenBank
(BENSON et al., 2009). Isso é possı́vel devido ao fato dessas ESTs serem redundantes
comparadas entre si. Esses agrupamentos (clusters) de seqüências de transcritos simila-
1.3 Análise Global da Expressão Gênica
22
res, que em teoria, provêm de um mesmo gene. Além de ser utilizado como repositório de
seqüências para o uso em inúmeros projetos de mapeamento, o UniGene é também utilizado em projetos de expressão gênica em larga escala. A versão atual do UniGene para
a espécie humana (Build #219) possui 123.641 agrupamentos, dos quais 33.037 possuem
pelo menos uma seqüência de mRNA bem caracterizada.
O UniGene ainda inclui uma ferramenta para a análise diferencial de expressão gênica, Digital Differential Display (DDD) (MURRAY et al., 2007), que emprega o método
estatı́stico de Fisher (FISHER, 1922) para determinar a significância da diferença de abundância de ESTs de um mesmo cluster entre bibliotecas. Essa abordagem foi empregada
com sucesso em vários estudos para a identificação de genes regulados diferencialmente
(SCHEURLE et al., 2000). Porém, alguns pontos devem ser levados em conta na interpretação dos dados de expressão gênica a partir de bibliotecas de cDNA (PEVSNER,
2009):
ˆ Viés em relação aos tipos de bibliotecas construı́das (e.g. maior quantidade de
bibliotecas de cérebro e fı́gado);
ˆ Variabilidade na profundidade do seqüenciamento de diferentes bibliotecas;
ˆ Viés em relação à comparação de bibliotecas normalizadas e não-normalizadas;
ˆ Alta taxa de erro de seqüenciamento;
ˆ Seqüências quiméricas podem contaminar a biblioteca.
Serial Analysis of Gene Expression
A tecnologia SAGE é uma das tecnologias baseadas no seqüenciamento de pequenos
fragmentos de cDNA de uma região relativa do transcrito. O princı́pio que fundamenta
a metodologia de SAGE é baseado no pressuposto de que esse pequeno fragmento (tag)
contém informação suficiente para identificar univocamente um gene, considerando que
essa tag é obtida de um único local no transcrito. Há uma estimativa teórica de que
mais de 99,8% de tags de 21-pb que ocorrem uma única vez em genomas do tamanho do
genoma humano. Considerando a informação de ∼16.000 genes humanos conhecidos, é
esperado que 75% das tags de 21-pb ocorram uma única vez no genoma humano (SAHA
et al., 2002). Essas pequenas moléculas de cDNA são obtidas de tal forma que podem ser
concatenadas em série constituindo uma longa molécula (concatâmero) que é então clonada e seqüenciada. Por fim, as tags podem ser isoladas, e quantificadas. A quantificação
1.3 Análise Global da Expressão Gênica
23
do número de vezes que uma tag em particular foi observada provê o nı́vel de expressão
do gene correspondente. Com isso, SAGE permite uma análise quantitativa e simultânea
de um grande número de transcritos. Geralmente um único experimento pode gerar uma
biblioteca de aproximadamente 50.000 tags.
A análise dos dados de SAGE permite não apenas quantificar o nı́vel de expressão dos
genes, mas também identificar novos genes (CHEN et al., 2002) ou formas alternativas de
transcritos (KUO et al., 2006a; GE et al., 2006; KEIME et al., 2007), como por exemplo,
transcritos gerados por encadeamentos alternativos de exons e/ou Poli(A) alternativa, ou
transcritos “anti-senso”.
No método de SAGE (Figura 2) os mRNAs são isolados utilizando métodos convencionais e, os cDNAs são sintetizados após hibridação com oligo-dTs biotinilados, através
da cauda Poli(A), e digeridos com uma enzima de restrição, chamada de enzima de ancoragem - Anchoring Enzyme (AE) (e.g. NlaIII ). O protocolo original (VELCULESCU
et al., 1995) utiliza a enzima NlaIII que reconhece a seqüência CATG. Os fragmentos
correspondentes à região 3’ dos RNAs são capturados por estreptavidina ligada a partı́culas magnéticas (beads) e seletivamente purificados. Essa reação é dividida em 2 alı́quotas
iguais e em cada alı́quota é feita a ligação de um dos 2 adaptadores utilizados (Anexo A).
Os adaptadores contêm um sı́tio de reconhecimento para outra enzima de restrição, chamada de enzima de etiquetagem - Tagging Enzyme (TE), uma endonuclease de restrição
do tipo IIs (e.g. BsmFI ) e também um sı́tio de iniciação (priming) de Polymerase Chain
Reaction (PCR). Após essa ligação é realizada a clivagem pela AE que cliva de forma
abrupta o fragmento a uma distância acima de 20-pb a partir do sı́tio de reconhecimento,
e assim o libera das partı́culas magnéticas de estreptavidina. As duas alı́quotas são reunidas novamente em um pool e os dois conjuntos de moléculas linker -tag são ligados juntos
para formar moléculas linker -ditag-linker, que podem ser amplificadas por PCR usando
primers especı́ficos. As ditags são liberadas por meio de uma clivagem utilizando novamente a AE, são isoladas e ligadas umas às outras para formar os concatâmeros, os quais
podem ser clonados e seqüenciados.
O método original gera tags de até 14-pb, porém ele sofreu modificações e é chamado de
LongSAGE (SAHA et al., 2002), capaz de gerar tags de até 21-pb utilizando outra enzima
de etiquetagem (MmeI substituindo a BsmFI. Em teoria uma tag de 21-pb pode distinguir
uma em 17.179.869.184 (417 ) seqüências enquanto uma tag de 14-pb pode distinguir uma
em 1.048.576 (410 ) seqüências. Assumindo que o genoma contém ∼ 30 ∗ 106 tags derivadas
da AE NlaIII e é composto de seqüências aleatórias, a probabilidade de a tag contendo
1.3 Análise Global da Expressão Gênica
24
Figura 2: Esquema do protocolo original da técnica de SAGE. Os números correspondem aos passos para
a execução do protocolo. (1) Preparação do RNA; (2) Sı́ntese de cDNA; (3) Clivagem do cDNA biotinilado
com a enzima de ancoragem - Anchoring Enzyme (AE); (4) Ligação do cDNA biotinilado às partı́culas
magnéticas (beads); (5) Ligação dos adaptadores (linkers) à fita de cDNA; (6) Liberação das tags de cDNA
usando a enzima de etiquetagem - Tagging Enzyme (TE); (7) tags de cDNA com extremidades coesivas
que foram liberadas; (8) Ligação das tags para formação de ditags; (9) Amplificação das ditags por PCR;
(10) Isolamento das ditags; (11) Purificação das ditags; (12) Ligação das ditags para a formação dos
concatâmeros; (13) Clonagem e seqüenciamento dos concatâmeros. (Figura obtida do protocolo original
disponı́vel em http://www.sagenet.org).
14-pb ser única no genoma é ı́nfima e contendo 21-pb é de ∼99,83% (SAHA et al., 2002).
Isso mostra que a técnica de LongSAGE além de reduzir os problemas de ambigüidade
do mapeamento das tags, pode fornecer com maior eficácia evidências de transcrição
para genes preditos, identificar novos exons e genes ainda não caracterizados (WAHL;
1.3 Análise Global da Expressão Gênica
25
HEINZMANN; IMAI, 2005), provendo dessa forma informações valiosas para a anotação
de genomas.
É importante considerar que o aumento no tamanho da tag diminui a eficiência do
seqüenciamento devido à extensão da seqüência da tag e portanto poucas tags por leitura,
além de um aumento na taxa de erro por tag. Assumindo uma taxa de erro de seqüenciamento de 1% por base, é esperado que 14% das tags de 14-pb contenham erros, e 21%
no caso de tags de 21-pb.
Ao longo dos anos, além dessa adaptação inserida na técnica original para obter tags
maiores, outros ajustes foram sugeridos para:
ˆ Aumentar o tamanho das tags (RYO et al., 2000; MATSUMURA et al., 2003);
ˆ Reduzir a contaminação por adaptadores (POWELL, 1998; YE et al., 2000);
ˆ Aumentar a eficiência da digestão pela enzima de ancoragem (ANGELASTRO; KLI-
MASCHEWSKI; VITOLO, 2000);
ˆ Prevenir o viés relacionado ao conteúdo de GC (MARGULIES; KARDIA; INNIS,
2001);
ˆ Aumentar a eficiência de ligação dos adaptadores (SO; TURNER; HAYNES, 2004);
ˆ Construir bibliotecas a partir de uma menor quantidade de amostra de RNA total
(DATSON et al., 1999; PETERS et al., 1999; RYO et al., 2000; YE et al., 2000;
NEILSON et al., 2000; VIRLON et al., 1999; VILAIN et al., 2003; GOWDA et al.,
2004);
ˆ Aumentar a eficiência na clonagem e aumentar o tamanho dos insertos (KENZEL-
MANN; MUHLEMANN, 1999; GOWDA et al., 2004);
ˆ Reduzir as reações de PCR reduzindo, e dessa forma, reduzir o viés introduzido na
etapa de amplificação (RYO et al., 2000; GOWDA et al., 2004);
ˆ Detectar a expressão de pequenos RNAs, como microRNAs (miRNAs) (CUMMINS
et al., 2006);
ˆ Obter tags da região 3’ do transcrito (WEI et al., 2004; HASHIMOTO et al., 2004),
permitindo também a análise de regiões promotoras;
1.3 Análise Global da Expressão Gênica
26
ˆ Aumentar a sensibilidade da técnica combinando LongSAGE com o seqüenciamento
utilizando a nova geração de seqüenciadores (e.g. DeepSAGE (NIELSEN; HOGH;
EMMERSEN, 2006), SuperSAGE (MATSUMURA et al., 2008) e LongSAGE Solexa
(HANRIOT et al., 2008)).
Ao final do seqüenciamento as seqüências dos concatâmeros estão contidas em cromatogramas, que devem ser analisados realizando-se a leitura das bases e atribuindo-se um
valor de qualidade a cada uma delas (EWING et al., 1998) (base-calling). Dentre os
aplicativos que fazem a extração e a contagem das tags estão: SAGE300 (ZHANG et
al., 1997), SAGE20001, eSAGE (MARGULIES; INNIS, 2000) e USAGE (KAMPEN et
al., 2000). Esses softwares essencialmente identificam e extraem as ditags, descartam as
ditags muito pequenas ou muito longas, consideradas artefatos da técnica, removem as
ditags duplicadas, que provavelmente podem ocorrer como produtos de amplificação, e removem tags correspondentes aos adaptadores (linkers). As tags são extraı́das das ditags
remanescentes, obter a seqüência complementar reversa da tag quando for necessário para
apresentá-la na orientação 5’-3’, e por fim, contadas as ocorrências. Esse processamento
resulta em uma lista de tags, cada uma com sua respectiva freqüência.
A técnica SAGE fornece a contagem de uma determinada tag como evidências da
transcrição do gene ao qual ela foi originada e o mapeamento da tag ao seu gene permite dar sentido biológico ao pequeno fragmento. Atualmente há diversas metodologias
que permitem obter essa associação (LASH et al., 2000; KAMPEN et al., 2000; BOON
et al., 2002; PLEASANCE; MARRA; JONES, 2003; KEIME et al., 2004; BALA et al.,
2005; MALIG et al., 2006; GALANTE et al., 2007; ROBERTSON et al., 2007), entretanto as mais populares são o SAGEmap (LASH et al., 2000) do NCBI, que foi base o
desenvolvimento de outros métodos de mapeamentos, e o SAGE Genie (BOON et al.,
2002) do Cancer Genome Anatomy Project (CGAP). Ambas as metodologias provêm
mapeamentos confiáveis para as espécies Homo sapiens e Mus musculus.
De um modo geral, o mapeamento é feito através de bancos de dados de tags virtuais.
As tags virtuais são predições de regiões nas seqüências de transcritos que podem ser
produzidas por um experimento de SAGE, ou seja, as seqüências (de 10-pb, utilizando
a TE BsmFI, de 17-pb, utilizando a TE MmeI ) adjacentes aos sı́tios de reconhecimento
das AEs (CATG no caso da NlaIII, GATC no caso da DpnII ou Sau3AI ) mais próximos
à extremidade 3’.
As tags virtuais são obtidas a partir das seqüências depositadas em bancos de dados
1 http://www.sagenet.org
1.3 Análise Global da Expressão Gênica
27
públicos (e.g. GenBank (BENSON et al., 2009), RefSeq (PRUITT; TATUSOVA; MAGLOTT, 2005), dbEST (BOGUSKI; LOWE; TOLSTOSHEV, 1993), UniGene (SCHULER, 1997), MGC (STRAUSBERG et al., 1999)). As seqüências são orientadas no sentido
5’-3’, usando as evidências possı́veis sobre a orientação, o sinal de Poliadenilação (Poli(A))
(AAUAAA ou AUUAAA), a cauda de Poli(A) (seqüencia contı́gua de Adeninas ou Timinas em uma das extremidades) e a anotação manual da orientação (3’ ou 5’) da seqüência.
As tags virtuais são extraı́das das prováveis regiões de onde poderiam ter sido obtidas
tags verdadeiras. Normalmente são extraı́das quatro tags (quando possı́vel) mais próximas
à extremidade 3’ e classificadas de acordo com a confiabilidade:
1. Obtidas de seqüências de mRNAs (ou cDNAs) de genes bem conhecidos e caracterizados;
2. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) anotadas
como seqüências 3’;
3. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) mas
sem anotação 3’ ou 5’;
4. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) anotadas
como seqüências 5’;
5. Obtidas de seqüências de ESTs sem sinal de Poli(A) e/ou cauda de Poli(A) anotadas
como tendo orientação 3’.
O que geralmente acontece é que uma tag pode mapear em múltiplos transcritos ou
múltiplas tags podem mapear em um mesmo transcrito. Portanto, para cada tag, outros
dois parâmetros de qualidade são calculados: (i) a freqüência de uma associação gene-tag,
e (ii) a freqüência de uma associação tag-gene. A análise desses parâmetros possibilita
obter uma lista de associações mais confiáveis.
Ao final do processo de mapeamento as tags são associadas a um identificador de um
cluster do UniGene, que em teoria, contém seqüências que representam um único gene
(SCHULER, 1997).
O mapeamento é uma etapa crucial, pois resultados de mapeamentos que são ambı́guos, incorretos ou não disponı́veis podem conduzir a interpretações errôneas ou incompletas sobre a expressão gênica (PLEASANCE; MARRA; JONES, 2003). Porém ainda
há outras considerações importantes.
1.3 Análise Global da Expressão Gênica
28
O método SAGE é um método de amostragem, e isso leva a algumas dificuldades como
por exemplo: alguns transcritos pouco abundantes podem não ser vistos ou o número de
contagens pode não refletir acuradamente sua verdadeira abundância nas células devido a
erros sistemáticos ou de seleção (MARGULIES; KARDIA; INNIS, 2001) inerentes ao processo experimental da técnica, que persistem apesar das diversas melhorias acrescentadas
ao protocolo original ao longo dos anos.
Entre os aspectos do SAGE que devem ser levados em consideração (STOLLBERG
et al., 2000) encontram-se: erro de amostragem, erro de seqüenciamento, ambigüidade
na identidade da seqüencia, a não aleatoriedade da seqüência de DNA (fontes de não
aleatoriedade: mutação dinucleotı́deo, pressão seletiva, evolução de genes de um ancestral
comum, elementos repetitivos, etc.). Entre outras dificuldades que podem ser encontradas
podem ser incluı́das as seguintes: contaminação da amostra, processamentos alternativos
de RNAs (e.g. alternative splicing, Poli(A) alternativa), polimorfismos de DNA (e.g. Single Nucleotide Polymorphism (SNP) e Insertion-Deletion polymorphisms (InDel)), mapeamentos incorretos devido a dados incompletos de seqüências. Um estudo recente relatou
o impacto de SNPs na interpretação de dados experimentais de SAGE e MPSS, onde foi
observado ao menos uma tag alternativa associada a SNP para aproximadamente 8,6%
dos genes humanos conhecidos, uma fração significativa dessas tags (61,9%) foram encontradas em dados experimentais.
Além disso, há o impacto dos erros na seqüência, que podem ser introduzidos em
qualquer etapa da técnica, a biotinilação, transcrição reversa, digestão enzimática, ligação, PCR, clonagem e seqüenciamento. Porém, geralmente ocorrem nas etapas de PCR
e seqüenciamento. Na etapa de PCR, a DNA polimerase pode introduzir erros durante
a sı́ntese do DNA. A taxa de tais erros pode variar de acordo com a eficiência da polimerase e as condições da reação. Esses erros se propagam através dos ciclos da reação
(∼25-30). Em um estudo anterior (AKMAEV; WANG, 2004) foi encontrada uma proporção esperada de ∼3,5% de tags LongSAGE com acúmulo de mutação nessa etapa,
considerando taxa estimada de erro de duplicação de ∼0.55% (ditag de 33 nts), eficiência
da Taq DNA polimerase de 88% (KEOHAVONG; THILLY, 1989) e 27 ciclos. No caso do
seqüenciamento a proporção esperada para tags com erros foi de ∼15,6%, considerando
uma ditag de 33 nts e taxa de erro de seqüenciamento por base de 1% (phred 20) (EWING
et al., 1998). Combinando essas duas contribuições majoritários para erros, a proporção
esperada de erro nas tags LongSAGE, segundo esse estudo, é de ∼17,3%. Há ainda um
estudo com evidências de que a taxa de erro para tags de 10-pb está em torno de 1,67%
(CHEN et al., 2002).
1.3 Análise Global da Expressão Gênica
29
Esses artefatos da técnica podem conduzir a estimações errôneas, por exemplo, um
erro na seqüência de tags abundantes ou em muitas tags combinadas, pode alterar significativamente a freqüência de tags cujas seqüências sejam similares (COLINGE; FEGER,
2001). A conseqüência é baixa para a identificação de expressão diferencial para transcritos
moderadamente expressos mas é alta para a detecção de transcritos raros e identificação
de novos genes. Além disso, há a introdução de ruı́dos no perfil de expressão gênica global
de uma amostra inviabilizando a caracterização completa do transcritoma dessa amostra.
Massively Parallel Signature Sequencing
O método MPSS clássico foi desenvolvido pela empresa Lynx Therapeutics, e é baseado nos mesmos princı́pios de SAGE, ou seja, na produção e quantificação de tags, que são
identificadas próximas à extremidade 3’ dos transcritos. Porém o método de MPSS utiliza
a clonagem in vitro de fragmentos de DNA em micropartı́culas (microbeads) (BRENNER
et al., 2000b) e no seqüenciamento em larga escala dessas partı́culas por um método de
seqüenciamento de assinaturas (MPSS tags) baseado em fluorescência (BRENNER et al.,
2000a), que não necessita de separação fı́sica dos fragmentos a serem seqüenciados. A
assinatura é derivada da seqüência adjacente ao sı́tio de restrição para a enzima DpnII
ou Sau3AI (GATC), mais próxima à cauda poli(A) na região 3’ da molécula de cDNA
original.
As etapas de seqüenciamento consistem de uma série de repetidos ciclos de digestões,
ligações, e hibridações com sondas. O processo inicia com a digestão pela enzima de restrição DpnII que expõe a seqüências de nucleotı́deos GATC, o que permite a ligação do
adaptador que possui uma seqüência de nucleotı́deos complementar em sua extremidade
coesiva. Esse adaptador contém um sı́tio de ligação para uma endonuclease de restrição
do tipo IIs (e.g. BbvI ). A enzima de restrição liga-se à sonda adaptadora e cliva o cDNA,
expondo as próximas 4 bases a serem decodificadas. Após a digestão 4 bases desconhecidas são expostas. Para a identificação das novas bases expostas são utilizados séries
de adaptadores (Anexo C) que codificam cada nucleotı́deo especı́fico em cada uma das 4
posições. A identidade e a ordem dos nucleotı́deos são então obtidas pela hibridação, uma
por vez, de cada um das 16 sondas decodificadoras aos seus respectivos sı́tios de ligação
no adaptador.
Estas reações ocorrem em etapas consecutivas enquanto as partı́culas esféricas permanecem imobilizadas em células de fluxo sob um microscópio de alta potência, possibilitando
o fluxo de reagentes ao longo e em torno das partı́culas esféricas.
1.3 Análise Global da Expressão Gênica
30
Os arquivos de imagens de fluorescência de cada etapa são processados para obter
a leitura das assinaturas de cada partı́cula. Esse procedimento é executado em paralelo, e aproximadamente 1 milhão de assinaturas são obtidas por experimento, possuindo
altı́ssima sensibilidade, permitindo a identificação de transcritos pouco abundantes e geralmente ainda não caracterizados. Assinaturas de ∼16-20-pb são obtidas a partir de cada
partı́cula (bead ) com 5 ciclos. O tamanho maior da tag garante maior especificidade.
A aplicação da técnica de MPSS ainda possui peculiaridades que devem ser consideradas na análise e interpretação dos resultados. Dentre essas particularidades estão incluı́dos
os casos dos genes que não podem ser detectados por não possuı́rem o sı́tio para a enzima
de restrição utilizada (DpnII ou Sau3AI ), e também os casos dos genes que possuem esse
sı́tio de restrição distante da extremidade 3’ do transcrito (e.g. >800-pb) e que podem não
ser detectados através do método clássico em conseqüência de um viés relativo à posição
da tag, de acordo com o reportado na literatura cientı́fica (JONGENEEL et al., 2005).
Resumidamente, a diferença entre o método clássico e o método MPSS baseado em
assinaturas (MEYERS et al., 2004) é que no primeiro todo o fragmento 3’-DpnII -poli(A)
é clonado, enquanto o segundo utiliza uma endonuclease de tipo IIs (MmeI ) para clonar
fragmentos de apenas 21 a 22-pb, os quais incluem um sı́tio de reconhecimento para a
enzima DpnII, o que poderia resolver o viés relativo à distância da tag existente no método
clássico. No entanto, há estudos que encontram evidências desse tipo de viés em ambos
os métodos (CHEN; RATTRAY, 2006), e que portanto devem ser considerados.
O método de mapeamento de tags da técnica MPSS é semelhante ao utilizado para
SAGE.
Next-generation sequencing
As novas tecnologias de seqüenciamento têm rapidamente reduzido o tempo e o custo
do seqüenciamento completo de um genoma (BENNETT et al., 2005) com excelente
cobertura, resolução e sensibilidade. Essas metodologias têm sido empregadas no “reseqüenciamento” de genomas, possibilitando o seqüenciamento completo de genomas individualizados (WHEELER et al., 2008), e comparações entre genomas (KIDD et al., 2008).
Isso permitirá o mapeamento de novas variações genéticas estruturais, especialmente com
a utilização das estratégias de mapeamentos de seqüências paired-ends (KORBEL et al.,
2007). O seqüenciamento de cDNA também é possı́vel para permitir uma análise do
transcritoma com uma maior resolução. Os dados gerados por essas novas tecnologias de
seqüenciamento são naturalmente adaptados às análises funcionais do genoma (WOLD;
1.3 Análise Global da Expressão Gênica
31
MYERS, 2008).
Três sistemas da nova geração de seqüenciadores de DNA estão disponı́veis comercialmente: GS FLX System (454 Life Sciences e Roche Applied Science), 1G Genome
Analyzer (Illumina) e o SOLiD—(Applied Biosystems).
Os pontos centrais para a excepcional capacidade destes novos equipamentos estão
na amplificação do DNA sem a necessidade da clonagem bacteriana e no método de
seqüenciamento, que é baseado em sı́ntese - Sequencing-By-Synthesis (SBS), ou ligação Sequencing-By-Ligation (SBL), diferentemente do tradicional seqüenciamento automático
(SMITH et al., 1986; PROBER et al., 1987) baseados no método de Sanger (SANGER;
NICKLEN; COULSON, 1977), baseado na terminação de cadeia. Resumidamente, o DNA
a ser seqüenciado é fragmentado, os fragmentos são amplificados independentemente por
PCR de forma que os produtos finais fiquem separados espacialmente na mesma reação.
454 (RUSK; KIERMER, 2008)
A preparação da amostra inicia com a ligação de adaptadores aos fragmentos de
DNA para facilitar sua captura em partı́culas esféricas (beads) (somente um fragmento
por partı́cula) para amplificá-los individualmente dentro de uma gotı́cula de emulsão de
água e óleo contendo os reagente de PCR. Após a amplificação a emulsão é quebrada,
o DNA é desnaturado e as partı́culas com seus respectivos fragmentos são distribuı́das
em poços de uma lâmina de fibra ótica. Para o seqüenciamento (piroseqüenciamento)
(MARGULIES et al., 2005), os poços são carregados com as enzimas de seqüenciamento
e primers (complementares ao adaptador na extremidade do fragmento), e expostos a
um fluxo de um nucleotı́deo sem marcação por vez, permitindo a sı́ntese de uma fita
complementar do DNA a ser seqüenciado. Quando o nucleotı́deo é incorporado, pirofosfato
é liberado e convertido para adenosina trifosfato (ATP), o qual alimenta a conversão
dirigida pela luciferase de luciferina para oxiluciferina e luz, quando isso acontece o poço
acende. O tamanho da seqüencia obtida é de 100 a 150 nucleotı́deos.
Solexa (RUSK; KIERMER, 2008)
A preparação da amostra inicia com a ligação de adaptadores na extremidade, a desnaturação e a ligação de uma das extremidades à superfı́cie sólida já revestidas com uma
densa camada de adaptadores. Cada fragmento fita-simples fica imobilizado por uma das
extremidades enquanto a extremidade livre curva-se e hibrida com um adaptador complementar na superfı́cie, o qual inicia a sı́ntese de uma fita complementar na presença de
reagentes de amplificação. Múltiplos ciclos dessa etapa de amplificação seguida de des-
1.3 Análise Global da Expressão Gênica
32
naturação geram agrupamentos (clusters) distribuı́dos aleatoriamente sobre a superfı́cie
e constituı́dos por aproximadamente 1.000 cópias de fitas-simples de moléculas de DNA.
Para o seqüenciamento utilizando terminadores reversı́veis (BENTLEY et al., 2008), os
reagentes de sı́ntese são adicionados à célula de fluxo. Esses reagentes são primers, DNA
polimerase e 4 diferentes nucleotı́deos terminadores reversı́veis marcados com fluoróforos.
Após a incorporação de um nucleotı́deo, o qual é identificado por uma cor, e após a excitação por laser a imagem da fluorescência emitida em cada um dos cluster é capturada e
a leitura de cada uma das bases é obtida. O terminador 3’ e o fluoróforo são removidos
de cada uma das bases incorporadas. Esse ciclo é repetido para a leitura de 30 a 35
nucleotı́deos por seqüência.
SOLiD (RUSK; KIERMER, 2008)
A preparação das amostras inicia com a ligação de adaptadores aos fragmentos de
DNA, os quais são amplificados em partı́culas esféricas por PCR em emulsão. O DNA é
desnaturado e as partı́culas depositadas em uma lâmina de vidro.
O seqüenciamento é realizado utilizando uma versão desenvolvida pela Applied Biosystems do método de seqüenciamento por ligação SBL (SHENDURE et al., 2005). Para
o seqüenciamento, um primer de seqüenciamento anela ao adaptador de forma que sua
extremidade 5’ fica disponı́vel para a ligação de oligonucleotı́deos que podem anelar na
seqüência adjacente (molde). Uma mistura de oligonucleotı́deos octâmeros que competem
pela ligação na seqüência. Esses nucleotı́deos são sondas marcadas com uma fluorescência
que identifica um dos 4 dinucleotı́deos (CA, CT, GG e GC) que ficam em posições especı́ficas dessas moléculas (4ª e 5ª posições). Essas cores são registradas e o oligonucleotı́deo
é clivado (entre a 5ª e a 6ª posição) removendo a marcação e reiniciando o ciclo de ligação, detecção e clivagem. O número de ciclos determina a quantidade de bases que são
seqüenciadas de cada fragmento. Na primeira rodada o processo determina as possı́veis
identidades das bases nas posições 4, 5, 9, 10, 14, 15, etc.. O processo é repetido, com o
deslocamento de uma base utilizando uma seqüência de primer mais curta a cada rodada
(na segunda rodada é possı́vel determinar as posições 3, 4, 8, 9, 13, 14, etc.) até alcançar
a posição inicial desse primer. A identidade dessa primeira base do primer é conhecida,
portanto podemos utilizar esse sistema de cores para decodificar o restante das bases dessa
primeira até a última. A seqüência do fragmento é obtida combinando as informações de
posicionamento e cores. O tamanho da seqüência do fragmento, atualmente está entre 30
e 35 nucleotı́deos.
1.3 Análise Global da Expressão Gênica
1.3.2
33
Comparações entre as tecnologias
No geral há vantagens e desvantagens em cada uma das tecnologias para estudo
do transcritoma. Dentre os problemas técnicos dos métodos baseados em hibridação,
destacam-se a necessidade de sintetizar os microarranjos com sondas de DNA pré-selecionadas
(o que não é muito bem escalável com genomas muito grandes), os consideráveis problemas de hibridação cruzada, as dificuldades com a quantificação do sinal de hibridação
(devido à sua natureza contı́nua) e também às dificuldades de padronização, calibragem e
normalização para a comparação apropriada entre os diferentes experimentos. Dentre os
problemas técnicos dos métodos baseados em seqüenciamento destacam-se de uma forma
geral o mapeamento ambı́guo da seqüência em relação às seqüências de referência e os
erros nas seqüências.
Dentre os métodos baseados em seqüenciamento, a técnica de SAGE, possui maior
sensibilidade na detecção de transcritos pouco abundantes comparada com as EBEs (SUN
et al., 2004), apesar das limitações de SAGE que são:
ˆ Conter pouca informação sobre a seqüência;
ˆ Pouco especı́fica para a representação de um único transcrito, especialmente para
as tags muito abundantes (LEE et al., 2002);
ˆ Não é possı́vel detectar transcritos que não possuam o sı́tio de reconhecimento para
a enzima âncora (e.g. NlaIII - CATG), embora o número desses transcritos seja
baixo, 151 (7,8%) de 19.399 cDNAs completos (full-length) humanos no banco de
dados RefSeq (SUN et al., 2004);
ˆ O erro em uma única base pode comprometer o mapeamento correto. Em teoria
a taxa de erro de seqüenciamento estimada é de aproximadamente 10%, apesar de
que existe uma estimativa de taxa de erro de 1,67% (CHEN et al., 2002) por tag.
Além disso, aproximadamente 70% das tags de SAGE pouco abundantes representam
transcritos reais com baixa expressão comprovados por meio de experimentos utilizando o
método Generation of Longer cDNA fragments from SAGE tags for Gene Identification
(GLGI) (CHEN et al., 2002), demonstrando, dessa forma, a sensibilidade da técnica.
A técnica MPSS pode gerar até 2 milhões de tags confiáveis a partir de 500 ng de
mRNA, porém a técnica RL-SAGE (GOWDA et al., 2004) pode gerar até 4,5 milhões de
tags a partir de 50 ng de mRNA se todos os clones forem seqüenciados. Além disso, MPSS
1.3 Análise Global da Expressão Gênica
34
é uma técnica complexa e somente disponı́vel por meio da Lynx Therapeutics, Inc. além
de haver restrições proprietárias envolvidas, a técnica SAGE é mais simples e acessı́vel.
A técnica RL-SAGE possui duas limitações significativas, uma é o alto custo para
o seqüenciamento dos clones [U$6 por clone (GOWDA et al., 2004)], a qual pode ser
resolvida no futuro com o aperfeiçoamento das tecnologias de seqüenciamento. A outra
limitação é que para ser detectado o transcrito deve possuir um sı́tio para a enzima de
restrição âncora, neste caso a enzima NlaIII, essa limitação pode ser contornada com a
construção de uma biblioteca adicional utilizando outra enzima âncora, como a DpnII ou
a Sau3AI. A técnica MPSS também possui essas limitações, ela não oferece vantagens
com relação ao custo, ao tempo e volume de trabalho necessário, quando comparada com
os microarrays.
Todas as tecnologias apresentadas possuem caracterı́sticas próprias que devem ser
consideradas, e podem muitas vezes ser complementares umas às outras apesar da moderada concordância entre as tecnologias (LIU et al., 2007), em especial para os genes
pouco abundantes. Entretanto, comparações entre os diferentes sistemas e plataformas
para a determinação de perfis de expressão gênica têm sido propostas como uma alternativa para a validação de genes em larga escala (CHUAQUI et al., 2002), visto que os
métodos comumente utilizados com o propósito de validação dos resultados (e.g. quantitative Polymerase Chain Reaction (qPCR) (VANGUILDER; VRANA; FREEMAN, 2008))
consomem muito tempo e recursos, e portanto podem ser considerados praticamente inviáveis para serem executados em uma escala maior. Contudo, a comparação entre os
dados de diferentes sistemas deve ser feita com cautela, como demonstrado em um estudo
anterior (HAVERTY et al., 2004), o qual identificou nı́veis variados de concordância entre
os dados gerados pelos métodos de SAGE, microarrays e EBE.
As novas tecnologias de seqüenciamento também não constituem a solução definitiva
para análise do transcritoma. De 15-20% das seqüências no genoma humano não podem
ser mapeadas claramente em um único local, uma vez que ocorrem mais de uma vez no
genoma (WOLD; MYERS, 2008).
1.3.3
Métodos de Análise de Expressão Gênica Diferencial
Os dados de perfis de expressão gênica obtidos com as técnicas de análise em largaescala assumem proporções gigantescas, exigindo a necessidade de métodos estatı́sticos e
computacionais para a análise e seleção de uma fração desses dados que possuem significância no contexto biológico sob investigação. De um modo geral foram desenvolvidas
1.3 Análise Global da Expressão Gênica
35
abordagens para:
ˆ identificar genes diferencialmente expressos (entre tipos celulares, estágios de desen-
volvimento, condições patológicas, etc.);
ˆ identificar genes expressos de um modo coordenado entre um conjunto de condições;
ˆ identificar conjuntos de genes compartilhando o mesmo padrão de expressão, even-
tualmente definindo vias metabólicas.
O principal nos experimentos de expressão gênica diferencial é identificar os genes peculiares, os quais variam entre as duas condições, enquanto os genes ubı́quos não exibem essa
variação. As abordagens variam de acordo com a natureza dos dados, ou seja, o processo
pelo qual eles foram obtidos, por exemplo, se são dados baseados em seqüenciamento e
amostragem de tags ou baseados em intensidade de sinal de hibridação.
Recursos para a análise de dados de amostragem de tags
Uma caracterı́stica dos dados baseados em amostragem de tags é que não há muitas
réplicas e isso implica no fato de que não é possı́vel obter as estimativas dos erros padrões
a partir da dispersão dos dados. Nos métodos disponı́veis atualmente, a medida de variância é obtida a partir de simulações ou baseadas nas propriedades de distribuição da
tag (RUIJTER; KAMPEN; BAAS, 2002). De acordo com alguns trabalhos reportados
na literatura (CLAVERIE, 1999; CAI et al., 2004) o resultado da amostragem de tags
se aproxima de uma distribuição de Poisson ou de uma distribuição binomial ou multinomial (KAL et al., 1999; MAN; WANG; WANG, 2000), porém outros modelos foram
propostos (VENCIO; BRENTANI; PEREIRA, 2003; VENCIO et al., 2004; THYGESEN;
ZWINDERMAN, 2006; ZUYDERDUYN, 2007).
Há uma série de métodos estatı́sticos que foram desenvolvidos para a análise dos dados
e implementados em sistemas computacionais, entre eles estão os seguintes:
ˆ SAGE300 (ZHANG et al., 1997), determina para cada comparação pareada de tags
a probabilidade relativa de obter uma diferença na contagem igual ou maior do
que a diferença observada por meio da aplicação do método de Monte Carlo para a
simulação. A probabilidade resultante atua como um valor de significância (p-value)
em um teste de significância unilateral;
1.3 Análise Global da Expressão Gênica
36
ˆ IDEG6 (ROMUALDI et al., 2003), um sistema web que possibilita a análise e a
aplicação de seis diferentes métodos estatı́sticos: o teste estatı́stico de Audic e Claverie (AUDIC; CLAVERIE, 1997), o teste exato de Fisher (FISHER, 1922), o teste
de χ 2 para comparações com amostras pareadas, o teste de Greller e Tobin (GRELLER; TOBIN, 1999), e o teste baseado na razão de verossimilhança (STEKEL; GIT;
FALCIANI, 2000), o teste de χ 2 para comparações com múltiplas amostras;
ˆ SAGEmap (LASH et al., 2000), sistema web disponı́vel no NCBI para a análise de
dados de SAGE aplicando o método proposto por Chen et al. (1998) e adaptado por
Lal et al. (1999);
ˆ SAGE Genie (LIANG, 2002), sistema web disponı́vel no CGAP para a análise de
dados de SAGE e também disponı́vel para ESTs, que calcula a razão (fold change)
e um valor de significância estatı́stica, aplicando o método descrito por Lal et al.
(1999);
ˆ WEBSAGE (PYLOUSTER; SENAMAUD-BEAUFORT; SAISON-BEHMOARAS,
2005), sistema web que permite a comparação pareada entre duas bibliotecas com
a aplicação do método de Audic e Claverie (1997) e a visualização do resultado
em um gráfico de dispersão, além de fornecer informações funcionais obtidas do
Kyoto Encyclopedia of Genes and Genomes (KEGG) (KANEHISA; GOTO, 2000),
BioCarta e Gene Ontology (GO) (HARRIS et al., 2004);
ˆ POWER SAGE (MAN; WANG; WANG, 2000), sistema que gera bibliotecas de
SAGE virtuais de diferentes tamanhos e freqüências de tags e determina o poder
para os testes estatı́sticos, de Audic e Claverie, χ 2 e Fisher;
ˆ USAGE (KAMPEN et al., 2000), sistema web integrado a um banco de dados com
informações de mapeamento de tags e um conjunto de bibliotecas públicas, que
possui várias ferramentas para extração de tags a partir das seqüências dos concatâmeros de SAGE, para consultas à base de dados, para realizar análises comparativas
aplicando o teste estatı́stico descrito por Kal et al. (1999) e para o planejamento de
futuros experimentos baseado no poder desse teste. O sistema USAGE oferece uma
área para o usuário manipular suas consultas e armazenar os resultados;
ˆ DiscoverySpace (ROBERTSON et al., 2007), um sistema que integra 26 bancos de
dados que contêm informações funcionais, de seqüências, expressão gênica e mapeamento de tags. Todas essas informações são reunidas em um único banco de dados
1.3 Análise Global da Expressão Gênica
37
relacional, de onde é possı́vel consultar os dados de interesse, realizar análises comparativas (aplicando o teste estatı́stico de Audic e Claverie), visualizar o resultado
em um gráfico de dispersão, gerar conjuntos de tags especı́ficas, além de outras funcionalidades. Utiliza as especificações Resource Description Framework (RDF) do
consórcio World Wide Web Consortium (W3C) como linguagem de metadados para
a integração dos dados (WANG; GORLITSKY; ALMEIDA, 2005);
ˆ Identitag (KEIME et al., 2004), é um sistema que realiza a identificação das tags
em bancos de dados de seqüências gênicas, por meio de um processo em série que
classifica a identidade da tag em diversas situações. O processo de anotação fornece
uma conexão entre as seqüências de transcritos de diferentes espécies, baseada no
conceito de ortologia (FITCH, 1970), permitindo a comparação da abundância de
tags inter-espécies;
ˆ SQUAT (LEYRITZ et al., 2008) é um sistema que contém um banco de dados de ex-
pressão gênica com informações funcionais e ferramentas para aquisição de conhecimento a partir desses dados [Knowledge Discovery Database (KDD)] (data mining),
como agrupamentos hierárquicos (EISEN et al., 1998) e descoberta de padrões locais utilizando regras de associação e extração de conceitos formais (BESSON et al.,
2005), além de consultas, por exemplo, por conceito, tag ou gene;
ˆ SAGE Data Analysis (CAI et al., 2004), ferramenta que permite o agrupamento
de tags com perfis de expressão semelhantes, por meio de uma implementação do
algoritmo k-means com possibilidade de aplicação de uma distância baseada na
distribuição de Poisson;
ˆ Cluster3 (HOON et al., 2004), ferramenta para agrupamento hierárquico com a
opção de diversas distâncias e métodos de agrupamento de genes ou amostras;
ˆ Simcluster (VENCIO et al., 2007), ferramenta com acesso local e acesso web que
implementa um método que utiliza a inferência Bayesiana e a distância de Aitchison (AITCHISON, 2001) nos seguintes algoritmos: k-means, k-medoids e SelfOrganizing Maps (SOM) para o agrupamento em partições, Principal Component
Analysis (PCA) para inferir o número de fontes de variabilidades presentes, e por
último agrupamento hierárquico;
ˆ GEAP (PINHEIRO et al., 2002) é um sistema genérico para anotação de ESTs, no
qual as ESTs são avaliadas e processadas para então serem anotadas contra bancos
de dados de seqüências conhecidas.
1.3 Análise Global da Expressão Gênica
38
A maioria das ferramentas descritas para a análise dos dados está disponı́vel apenas
para dados das espécies humana (Homo sapiens) e murina (Mus musculus).
A normalização dos dados é um procedimento comum ao lidar com dados de amostragem de tags, nos casos onde a medida de avaliação não leva em conta o tamanho da
biblioteca (e.g. fold change). O procedimento de normalização é realizado dividindo a
freqüência observada de cada uma das tags de uma biblioteca pelo somatório das freqüências de todas as tags dessa mesma biblioteca, multiplicando esse valor por 300.000 que é
o número estimado de RNAs por célula (VELCULESCU et al., 1999).
Esses dados em geral possuem ruı́dos inerentes às técnicas que podem gerar artefatos
(tags espúrias). Há inúmeras abordagens desenvolvidas para a detecção, remoção ou
correção de tais artefatos, especialmente no caso de ESTs [e.g. GEAP (PINHEIRO et al.,
2002)].
No caso de ESTs as abordagens no geral incluem a checagem de qualidade das leituras do seqüenciador, para eliminação de regiões de baixa qualidade, e o alinhamento
das seqüências com bancos de dados de seqüências já conhecidas, para identificar e eliminar regiões de vetores, primers ou outro contaminante, além da identificação de ESTs
quiméricas (SOREK; SAFER, 2003).
No caso das técnicas onde a tag é constituı́da por uns poucos nucleotı́deos (14 a 17-pb)
as estratégias são outras, e há outros problemas especı́ficos relacionados aos procedimentos das técnicas. Geralmente, a abordagem empregada para a remoção desses ruı́dos é
eliminar as tags com baixas freqüências, especialmente as que aparecem uma única vez
na biblioteca.
Margulies e Innis (2000) implementa em seu programa eSAGE, antes da extração das
tags, um filtro de tags que leva em consideração os valores de qualidade das bases obtidos com o programa phred (EWING et al., 1998). Colinge e Feger (2001) introduziram
uma abordagem para identificar as tags de SAGE cuja abundância é enviesada por erros
de seqüenciamento, sua abordagem é baseada no conceito de vizinhança, em que tags
abundantes podem contaminar tags cujas seqüências são similares (distância de edição
(GUSFIELD, 1997) igual a 1) ou então gerar novas tags. Essa abordagem assume uma
probabilidade constante de erro (probabilidade de 9,13% de ter 1 erro somente, considerando uma tag de 10-pb) e ajusta a freqüência das tags de acordo com a resolução de um
sistema de equações lineares.
Blades (2003) desenvolveu um procedimento para estimar as taxas de erros na seqüên-
1.3 Análise Global da Expressão Gênica
39
cia da tag. Nesse estudo foi observada uma relação linear entre o número de cópias de
uma determinada tag e o número de tags vizinhas, dentre as quais estão as tags artefatos
(chamadas nesse estudo de shadows). A estimativa de erro é obtida por meio da transformação da inclinação da linha de regressão linear dessa relação. Nesse estudo foi proposto
um modelo para a identificação das tags artefatos e correção das freqüências das tags com
base nessa taxas estimações.
Beissbarth et al. (2004) desenvolveram um modelo de propagação dos erros nas seqüências em SAGE e sugeriram um algoritmo de maximização de expectativas Expectation
Maximization (EM) para corrigi-las de acordo com as seqüências observadas na biblioteca
e nas estimativas de erros de leitura (base-calling). Esse método ajusta as contagens de
tags e é capaz de parcialmente corrigir o vieses introduzidos por erros de seqüenciamento.
Akmaev e Wang (2004) desenvolveram um algoritmo (SAGEScreen) para a correção
de erros nas tags de LongSAGE (SAHA et al., 2002). Esse algoritmo envolve múltiplos
procedimentos que abordam o processamento das ditags e extração das tags, estimação de
taxas de erros empı́ricas a partir de tags abundantes, agrupamento de tags com seqüências
similares e testes estatı́sticos para as contagens observadas. Os resultados da aplicação
desse algoritmos em dados simulados indicam que ele é capaz de corrigir 78% dos erros
recuperáveis e reduzir a ocorrência de tags que aparecem uma única vez (singleton).
Recursos para a análise de dados de microarrays
Uma caracterı́stica peculiar dos dados de microarrays é a presença de muitas fontes de
flutuações aleatórias, tais como variações na quantidade de DNA fixado em cada ponto do
arranjo, diferenças na eficiência da marcação das sondas e em sua hibridação, diferenças
na detecção e quantificação dos sinais obtidos em cada ponto, dentre outras (FREEMAN;
ROBERTSON; VRANA, 2000).
Portanto, a normalização dos dados é necessária para minimizar tendências sistemáticas e obter um melhor aproveitamento dos dados (BUTTE, 2002). Com esse objetivo,
diversas estratégias de normalização foram desenvolvidas (QUACKENBUSH, 2002). É
usual aplicar transformações aos dados, a transformação logarı́tmica é freqüentemente
adotada (QUACKENBUSH, 2002; STEINHOFF; VINGRON, 2006), isso faz as variações
de intensidades ou diferenças menos dependentes das magnitudes absolutas e estabiliza
distribuições fortemente enviesadas (STEINHOFF; VINGRON, 2006). A distribuição lognormal é uma boa aproximação para os dados de microarrays (LöNNSTEDT; SPEED,
2001).
1.4 Bancos de Dados Biológicos
40
Ao longo dos anos foram desenvolvidos muitos métodos para o pré-processamento e
a análise dos dados de microarrays, e muitos deles estão implementados nos seguintes
recursos disponı́veis livremente para a comunidade cientı́fica:
ˆ Bioconductor (GENTLEMAN et al., 2004), é uma iniciativa de criação colabora-
tiva de programas de código aberto (open-source) e desenvolvimento aberto (opendevelopment) para Bioinformática e Biologia Computacional. O Bioconductor provê
uma série de métodos estatı́sticas e ferramentas gráficas para a análise de dados de
microarrays e outros dados genômicos. Além disso, o Bioconductor constitui uma
plataforma para o desenvolvimento de novos programas. As ferramentas para microarray englobam pré-processamento, análise de expressão gênica diferencial, anotação, visualização, métodos de aprendizado de máquinas, entre outras. Também
pode ser utilizado para análises de dados obtidos de outras tecnologias, inclusive
SAGE;
ˆ GenePattern (REICH et al., 2006), é uma poderosa plataforma que provê acesso
a uma série de ferramentas para análise de dados genômicos, de expressão gênica,
proteômica, SNP, pré-processamento, importação de dados, visualização de resultados, entre outros muitos outros módulos. Essa plataforma possui uma interface
gráfica que provê acesso fácil a essas ferramentas e permite a criação de processos
em série (pipelines) que permitem a reprodução in silico de uma pesquisa. Além de
um cliente especı́fico para o acesso ao servidor GenePattern, há também um cliente
via navegador de internet (browser ).
1.4
Bancos de Dados Biológicos
A cada ano há um aumento significativo na quantidade de dados biológicos disponı́veis, especialmente de seqüências de nucleotı́deos e proteı́nas. Esse acúmulo de dados,
que crescem de forma exponencial (Figura 3), é conseqüência de uma série de avanços
tecnológicos, em especial o desenvolvimento do seqüenciador automático de DNA (CA,
2007), que tornou viável e concreto o seqüenciamento de diversos genomas, incluindo o
genoma humano (LANDER et al., 2001; VENTER et al., 2001).
Nos últimos anos, esse crescimento tornou e se tornará cada vez mais evidente com a
produção de dados a partir dos seqüenciadores de nova geração (Seção 1.3.1). Esses recentes avanços suscitam o desenvolvimento de ferramentas capazes de oferecerem o suporte
necessário para a investigação desses dados e extração de conhecimento. Nesse contexto,
1.4 Bancos de Dados Biológicos
41
Figura 3:
Crescimento do número de seqüências e pares de bases de DNA depositadas no GenBank (BENSON et al., 2009) (Figura obtida do sı́tio do GenBank http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html).
a utilização de bancos de dados é fundamental, pois são ferramentas que permitem modelar, armazenar, recuperar e manipular informação. Os dados biológicos possuem certas
caracterı́sticas (ELMASRI; NAVATHE, 2006) que devem ser consideradas no projeto de
um banco de dados biológicos:
1. Alta complexidade, ou seja, exigindo estruturas e relacionamentos complexos para
a sua representação;
2. Grande quantidade e variabilidade;
1.4 Bancos de Dados Biológicos
42
3. Ritmo acelerado de alterações dos esquemas dos dados;
4. Diversas representações para o mesmo tipo de dado;
5. Maioria dos acessos são para leitura;
6. Necessidade de uma interface limitada para a maioria dos usuários, pois quanto
maior a flexibilidade menor a usabilidade;
7. O contexto do dado adiciona significado biológico;
8. Necessidade da definição e representação de consultas complexas;
9. Necessidade de acesso a versões anteriores dos dados.
O modelo de arquitetura de sistemas de bancos de dados biológicos geralmente utilizado é o modelo de três camadas (3-tier ) (Figura 4). As três camadas são: camada de
apresentação (interação com o usuário), camada de negócios (implementação da lógica da
aplicação) e camada de dados (Sistema de Gerenciamento de Banco de Dados (SGBD)).
Um dos grandes desafios da Bioinformática é o de integração dos dados biológicos. Há
ainda diversas barreiras que são encontradas: em muitos casos não existe um padrão para
os nomes de objetos nos bancos de dados; a definição para alguns conceitos biológicos
pode variar de acordo com o contexto; não há um padrão para acesso aos dados; os dados
estão em constante alteração e a atualização é uma necessidade constante. Dentre as
abordagens utilizadas para a integração dos dados a mais comum é a integração via links
de hipertexto. Nesse contexto, o conceito de web service pode ser uma solução possı́vel
para a integração desses sistemas e comunicação entre aplicações e bases de dados com
arquiteturas heterogêneas.
O Entrez (OSTELL, 2003) é o sistema de busca e recuperação de informação do NCBI.
O Entrez utiliza um sistema de indexação para diversas fontes de dados (Figura 5), possibilitando buscar, coletar o dado a partir de sua fonte, organizar e integrar as informações.
Os web services possuem um formato padronizado para a troca de informações através da internet, utilizando com esse propósito a linguagem Extensible Markup Language
(XML) e o protocolo Simple Object Access Protocol (SOAP), o qual é baseado em XML.
Esse protocolo especifica um modelo para a codificação e decodificação de informações
estruturadas, que podem trafegar na rede, geralmente por HyperText Transfer Protocol (HTTP). Atualmente há implementações de web services que provêm a recuperação
e a análise de dados biológicos. O European Bioinformatics Institute (EBI) disponibiliza
1.4 Bancos de Dados Biológicos
43
Figura 4: Arquitetura geral dos bancos de dados biológicos, que utilizam o modelo de três camadas,
consistindo de um Sistema de Gerenciamento de Banco de Dados (SGBD), do programa para acesso aos
dados e da interface web (Figura obtida de Stein (2003)).
livremente seus recursos de bioinformática (HARTE et al., 2004) não somente via seu
sistema de interface gráfica mas também por um web service baseado em XML/SOAP
(PILLAI et al., 2005).
1.4.1
Seqüências
Os bancos de dados de seqüências, os quais vêm inflando em ritmo acelerado ao
longo dos últimos anos, são fundamentais para as atividades em Bioinformática e Biologia
Computacional, por meio de análises e comparações é possı́vel encontrar similaridades ou
1.4 Bancos de Dados Biológicos
44
Figura 5: Diagrama exibindo os bancos de dados integrados no Entrez (OSTELL, 2003) e as
conexões entre eles. Cada banco de dados é representado por um cı́rculo colorido, onde a cor
indica o número aproximado de registro no banco de dados (Figura obtida do sı́tio do NCBI http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html).
padrões que podem prover conhecimento.
De um modo geral, existem dois tipos de bancos de dados de seqüências gênicas: os
bancos de seqüências primários e os secundários. Os bancos de dados de seqüências primários são derivados diretamente dos dados obtidos a partir do seqüenciamento de ácidos
nucléicos ou proteı́nas e podem conter, além da seqüência em si, os dados complementares
de anotações. Os principais bancos de dados primários, para seqüências de nucleotı́deos
são o GenBank (BENSON et al., 2009), o EMBL-Bank (COCHRANE et al., 2009) e
o DNA Data Bank of Japan (DDBJ) (TATENO et al., 2002), que juntos compõem o
International Nucleotide Sequence Database Collaboration (INSDC)2 , e para seqüências
2 http://www.insdc.org
1.4 Bancos de Dados Biológicos
45
de aminoácidos, o UniProt (APWEILER et al., 2004). O GenBank engloba seqüências
completas de clones de cDNA full-length Open Reading Frame (ORF), como as oriundas
do Mammalian Gene Collection (MGC) (STRAUSBERG et al., 1999), e as demais ESTs
que são depositadas no dbEST (BOGUSKI; LOWE; TOLSTOSHEV, 1993).
Os bancos de dados de seqüências secundários, contêm informações derivadas dos
bancos de dados de seqüências primários, entre eles estão os seguintes:
ˆ RefSeq (PRUITT; TATUSOVA; MAGLOTT, 2005), que é uma coleção curada de
seqüências não redundantes representando dados de DNA genômico, de transcritos
e de proteı́nas;
ˆ UniGene (SCHULER, 1997), que é uma coleção de clusters de seqüências que são
similares entre si de acordo com os parâmetros de um sistema automático de análise
de seqüências, que engloba seqüências bem caracterizadas e ESTs;
ˆ trEST (PAGNI et al., 2001), que é um banco de dados de seqüências virtuais de
proteı́nas hipotéticas derivadas de seqüências consenso de clusters de ESTs analisadas com ESTscan (ISELI; JONGENEEL; BUCHER, 1999; LOTTAZ et al., 2003),
o qual procura corrigir a maioria dos erros de deslocamento do quadro de leitura
(frameshift) predizendo a sua correta localização na EST (ORF);
ˆ trGEN (PAGNI et al., 2001), que é um banco de dados de seqüências virtuais de
proteı́nas hipotéticas derivadas de regiões de seqüências de DNA genômico de genes
preditos utilizando o Genscan (BURGE; KARLIN, 1998).
1.4.2
Ontologias
Em Ciência da Computação ou Ciência da Informação, uma ontologia é uma especificação formal de uma conceitualização (GRUBER, 1993), útil para definir um vocabulário
comum no qual o conhecimento pode ser representado e compartilhado. Ontologias geralmente descrevem indivı́duos (objetos básicos), classes (conjuntos, coleções ou tipos de
objetos), atributos (propriedades, caracterı́sticas ou parâmetros que os objetos podem ter
e compartilhar) e relacionamentos (formas como os objetos podem se relacionar uns com
os outros). O desenvolvimento de ontologias são fundamentais para promover a integração
dos bancos de dados biológicos. Atualmente há um consórcio, nomeado Open Biomedical
Ontologies (OBO) consortium (SMITH et al., 2007), que reúne iniciativas para promover
o desenvolvimento e a expansão de ontologias relacionadas às áreas biológicas e biomé-
1.4 Bancos de Dados Biológicos
46
dicas. Entre essas iniciativas estão os projetos Gene Ontology (HARRIS et al., 2004) e
Sequence Ontology (EILBECK et al., 2005). Um outro projeto que pertence ao consórcio
OBO é o eVOC (KELSO et al., 2003), um vocabulário controlado para a integração dos
dados de expressão gênica, que provê um conjunto detalhado de termos para descrever
a origem das amostras. As ontologias no eVOC são desenvolvidas em quatro domı́nios
mutuamente exclusivos: Sistema Anatômico, Tipo Celular, Estágio de Desenvolvimento
e Patologia.
Gene Ontology
O Gene Ontology consortium, ou simplesmente GO (HARRIS et al., 2004), é uma
iniciativa para produzir vocabulários estruturados e controlados, e classificações que compreendem muitos domı́nios da Biologia Molecular e Celular e que podem ser utilizados
para a anotação de genes, produtos gênicos e seqüências. O objetivo do GO inclui ainda
prover um repositório de acesso público para as ontologias, os conjuntos de dados de
anotação e as ferramentas desenvolvidas que utilizam os dados do GO.
O GO provê ontologias para descrever atributos de produtos gênicos em 3 domı́nios
da Biologia Molecular que não se sobrepõem:
ˆ Função Molecular (Molecular Function), o qual descreve uma atividade gênica no
nı́vel molecular;
ˆ Processo Biológico (Biological Process), o qual descreve uma meta biológica alcan-
çada pela realização de um ou mais funções moleculares ordenadas;
ˆ Componente Celular (Cellular Component), o qual descreve as localizações, no nı́vel
de estruturas subcelulares e complexos de macromoléculas.
As anotações do GO indicam o tipo de evidência que suporta a associação entre um produto gênico e um termo do GO. Um conjunto padrão de códigos de evidência qualifica as
anotações com respeito aos diferentes tipos de determinações experimentais, que pode ser
um ensaio experimental direto para determinar a função do gene, a qual é mais confiável
do que o resultado de uma predição computacional. Os termos do GO estão relacionados
entre si como uma estrutura de um grafo acı́clico direcionado, esses relacionamentos podem ser de dois tipos (“is-a” e “part-of ”). Como essas associações e relacionamentos são
dinâmicas, o GO possui curadores que realizam uma revisão constante.
1.4 Bancos de Dados Biológicos
47
Para prover anotações de alta qualidade de produtos gênicos utilizando os termos do
GO, o EBI desenvolveu o banco de dados Gene Ontology Annotation (GOA) (CAMON
et al., 2004), o qual é um repositório central para outros grandes repositórios de dados
para múltiplas espécies tais como o do NCBI e do Ensembl. O processo geral de anotação
envolve uma anotação eletrônica e uma anotação manual de alta qualidade feita por grupos
de anotação especializados. Esse esforço assegura que o banco de dados GOA se mantenha
como uma referência chave para anotações do GO.
1.4.3
Vias metabólicas
A quantidade de informações genômicas adquiridas ao longo dos anos permite a compreensão de um organismo como um complexo sistema de interações moleculares. Essas
interações moleculares promovem uma série de reações quı́micas onde uma reação fornece
o substrato da reação seguinte sendo a reação seguinte dependente da anterior. Essa série
de reações inter-relacionadas para a transformação (metabolismo) de substâncias quı́micas
é nomeado via metabólica. As diversas vias metabólicas relacionam-se entre si de forma
complexa, de forma a permitir uma regulação adequada para que o organismo mantenha
a sua homeostase. Enquanto os projetos de seqüenciamento de genomas determinam os
genes para um grande número de organismo, as anotações funcionais desses genes ainda
permanecem incompletas. As principais iniciativas para catalogar as vias metabólicas
relacionando-as às moléculas e genes envolvidos no processo metabólico, são o KEGG
(KANEHISA; GOTO, 2000), o qual está disponı́vel para diversas espécies, e o BioCarta3 ,
disponı́vel apenas para Homo sapiens e Mus musculus. O KEGG (KANEHISA; GOTO,
2000) é uma iniciativa do Japão para relacionar as informações dos projetos genomas com
informações funcionais de ordem superior, pela informatização do conhecimento atual dos
processos celulares e padronizando a anotação gênica. O KEGG engloba 4 bancos de
dados integrados:
ˆ PATHWAY - representação das funções gênicas de ordem superior por meio de uma
rede de interações de moléculas;
ˆ GENES - catálogo dos genes para todos os genomas completos e alguns incompletos;
ˆ LIGAND - coleção dos componentes quı́micos na célula, enzimas e reações enzimá-
ticas (GOTO; NISHIOKA; KANEHISA, 2000);
3 http://www.biocarta.com/genes/index.asp
1.4 Bancos de Dados Biológicos
48
ˆ BRITE - coleção de ontologias representando hierarquias funcionais de diversos as-
pectos dos sistemas biológicos, incorporando ao KEGG PATHWAY tipos diferentes
de relacionamentos (KANEHISA et al., 2008).
O KEGG PATHWAY em sua versão 50.0+/04-07, de Abril de 2009, possui 94.339 vias
metabólicas geradas a partir de 326 vias metabólicas de referência. O BioCarta é um
banco de dados curado de vias metabólicas com ênfase nos vias de sinalização celular. O
BioCarta é constituı́do por um esforço colaborativo da comunidade cientı́fica para integrar
informações de interações moleculares. O banco de dados contém um catálogo para cerca
de 120.000 genes. As vias são representadas por fluxogramas interativos.
1.4.4
Regulação da Expressão Gênica
A expressão dos genes podem ser reguladas de forma temporal e espacial por diversos
mecanismos distintos em todas as etapas no fluxo da informação genética. Apesar de existirem diversos mecanismos atuando no controle da expressão gênica no nı́vel de tradução
e pós-tradução, trabalhos reportados na literatura cientı́fica (MOORE, 2005; LEVINE;
TJIAN, 2003) indicam que o controle pós-transcricional da expressão gênica em organismos eucariotos é muito mais amplo e elaborado do que se estimava anteriormente, sendo
o mRNA o canal central no fluxo da informação genética. Portanto, o estudo desses mecanismos, que controlam a sı́ntese de RNA, seu processamento, dobramento, maturação,
transporte e degradação, é fundamental para a compreensão da regulação da expressão
gênica em determinada população de células.
A transcrição dos genes eucarióticos requer a interação entre elementos cis-atuantes
(e.g. motivos - motifs - na região promotora, reforçadores - enhancers) e elementos transatuantes (e.g. fatores de transcrição). Para oferecer suporte aos estudos de expressão
gênica também há bancos de dados de elementos reguladores, em especial:
ˆ TRANSFAC - catálogo de fatores de transcrição com seus sı́tios e perfis de ligação
(WINGENDER et al., 2000);
ˆ TRRD - coleção de informações sobre regiões regulatórias, suas propriedades e ar-
quitetura (KOLCHANOV et al., 1999);
ˆ COMPEL - compreende informações especı́ficas sobre elementos regulatórios com-
postos (KEL-MARGOULIS et al., 2000).
1.4 Bancos de Dados Biológicos
49
Além das regiões regulatórias e da ação de fatores de transcrição, há outros mecanismos
celulares que regulam a expressão gênica, entre eles estão os pequenos RNAs não codificadores [e.g., microRNAs (BARTEL, 2004)] e messenger ribonucleoproteins (mRNPs),
os quais são também elementos reguladores formados por um complexo constituı́do de
mRNA e proteı́nas complementares.
microRNAs
Os microRNAs (BARTEL, 2004) são pequenas moléculas de RNA endógeno não codificante (aproximadamente 22 nt), os quais exercem papéis importantes na regulação da
expressão gênica em animais (AMBROS, 2004) e plantas (REINHART et al., 2002), por
meio da clivagem ou repressão da tradução de mRNAs, com os quais possuem certa complementaridade (alvos dos miRNAs). A biogênese do miRNA, inicia-se com a transcrição
de seu gene pela RNA polimerase II, sintetizando o miRNA primário (pri-miRNA) que
contém Cap 5’ e cauda poli(A). O pri-miRNA apresenta uma estrutura de hairpin que é
clivada ainda no núcleo pela RNase III DROSHA (RNASEN) e seu co-fator DGCR8, gerando uma molécula precursora do miRNA maduro, denominada pré-miRNA. Em seguida,
o pré-miRNA é transportado ao citoplasma pela exportina-5 (XPO5). No citoplasma, o
pré-miRNA é processado pela RNase III DICER (DICER1), gerando um miRNA fita
dupla de aproximadamente 22 nucleotı́deos. Este produto é incorporado a um complexo
multimérico denominado RNA-induced silence complex (RISC). Apenas uma das fitas do
duplex de miRNA permanece no complexo RISC, podendo se ligar aos seus mRNAs alvos,
bloqueando a tradução ou direcionando a molécula à degradação.
Os microRNAs podem estar localizados em regiões intergênicas do genoma, e possuir
sua própria unidade de transcrição, ou podem ser encontrados em regiões de genes hospedeiros codificadores de proteı́nas ou não, neste caso podem ser localizados no intron, no
exon ou então nas junções exon/intron.
No caso dos microRNAs intrônicos, há estudos com evidências de que eles possuam
uma via metabólica alternativa distinta, independente da enzima DROSHA, tais estudos
os classificam em uma classe à parte de precursores de miRNAs e os chamam de mirtrons
(RUBY; JAN; BARTEL, 2007).
Devido à sua importância, foi estabelecido um sistema uniforme para a anotação e
caracterização de microRNAs (AMBROS et al., 2003). A principal base de dados de
microRNAs é o miRBase (GRIFFITHS-JONES, 2004; GRIFFITHS-JONES et al., 2006,
2008), onde que possui um repositório primário para seqüências publicadas de microRNAs,
1.4 Bancos de Dados Biológicos
50
com suas respectivas anotações e predições de alvos, além de ferramentas para a consulta,
anotação e análise dos dados. O miRBase foi estabelecido pelo Wellcome Trust Sanger
Institute4 . O miRBase em sua versão 13.0, de Março de 2009, possui 9539 registros de
seqüências, dos quais 706 são de humanos (Homo sapiens).
Uma outra fonte de dados para estudos de microRNAs animais é o miRGen (MEGRAW et al., 2007), que é um banco de dados integrado que provê informações de
relacionamentos posicionais entre os miRNAs e as anotações genômicas providas pelo
UCSC Genome Browser (KENT et al., 2002) e conjuntos de alvos de microRNAs preditos por diferentes programas computacionais ou suportados experimentalmente [TarBase
(SETHUPATHY; CORDA; HATZIGEORGIOU, 2006)]. O miRGen oferece também a
combinação entre os conjuntos, podendo obter a união ou a interseção dos dados.
1.4.5
Expressão Gênica
Dados de expressão gênica, obtidos de transcritos ou de proteı́nas, são considerados
fontes valiosas para a compreensão de sistemas biológicos complexos. O crescimento da
quantidade de dados ao longo dos anos incita a demanda por recursos computacionais
para armazená-los de forma a permitir a recuperação eficiente da informação e a análise
dos dados para a aquisição de conhecimento (data mining).
Gene Expression Omnibus
O projeto do Gene Expression Omnibus (GEO) (EDGAR; DOMRACHEV; LASH,
2002; BARRETT et al., 2005) é uma iniciativa do NCBI em resposta à demanda crescente de um repositório público para dados heterogêneos de expressão gênica e hibridação
genômica. O GEO possui um modelo de dados flexı́vel que atende as necessidades de
submissão, armazenamento e recuperação de informação para tipos distintos de dados,
tais como os gerados por experimentos de expressão gênica em larga-escala, hibridação
genômica, e microarrays de anticorpos. O objetivo do GEO é atuar como um repositório
central para o armazenamento e disponibilização de dados de abundância de moléculas
(e.g. mRNA, DNA genômico, e proteı́nas) em termos relativos ou absolutos. O GEO é
considerado um banco de dados primário para dados de expressão gênica assim como o
GenBank é para os dados de seqüências.
Os dados são armazenados em um banco de dados relacional, onde os dados não
4 http://www.sanger.ac.uk
51
1.4 Bancos de Dados Biológicos
estão completamente granulados, para garantir flexibilidade, ou seja, são armazenados
como objetos textuais. O GEO utiliza para o banco de dados três entidades principais de
dados:
ˆ Plataforma (platform) - define a configuração dos parâmetros que são utilizados
para a obtenção dos dados (e.g. tecnologia, espécie, sondas, etc.).
ˆ Amostra (sample) - define os dados obtidos sob uma determinada plataforma, a
qual deve ser previamente definida.
ˆ Série (series) - organiza as amostras em conjuntos de dados significativos que repre-
sentam o experimento de interesse.
Cada instância dessas três entidades é associada a um número de acesso único e estável,
cujo prefixo indica se o registro é uma Plataforma (GPL), Amostra (GSM) ou Série (GSE).
Os recursos do GEO estão em constante desenvolvimento para aperfeiçoar a indexação,
a ligação a busca e a visualização dos dados de forma a permitir a análise dos dados
(BARRETT et al., 2005). Atualmente no GEO há 309105 amostras, as quais foram
obtidas de 5891 plataformas distintas, e estão organizadas em 12232 séries.
Plataformas especı́ficas
Além do GEO, que disponibiliza dados de uma série de plataformas heterogêneas,
há outros bancos de dados públicos que disponibilizam dados de expressão gênica para
plataformas especı́ficas.
microarrays
Para dados de microarrays há um outro repositório principal, o ArrayExpress (BRAZMA
et al., 2003) do EBI, que armazena os dados e a anotação de acordo com o padrão Minimum Information About a Microarray Experiment (MIAME) (BRAZMA et al., 2001)
e o formato Microarray Gene Expression Markup Language (MAGE-ML) (SPELLMAN
et al., 2002) desenvolvidos pela sociedade Microarray Gene Expression Data (MGED)5 e
a Object Management Group (OMG)6 , para assegurar que seus dados sejam facilmente
interpretados e os resultados derivados de suas análises possam ser verificados. O ArrayExpress registra 239.182 ensaios e 8.146 experimentos.
5 http://www.mged.org
6 http://www.omg.org
1.4 Bancos de Dados Biológicos
52
EST Based Expression
Para dados de expressão baseados em seqüenciamento de EST além do UniGene
(SCHULER, 1997), há outros bancos de dados e sistemas de bancos de dados que permitem consulta e análise, muitos deles especı́ficos para determinadas espécies. A idéia é
basicamente a identificação do gene de origem de cada uma das ESTs, o agrupamento em
clusters e a contagem de seqüências observadas em cada cluster, que em teoria identificam um único gene. Dentre as diversas fontes de dados e informações de ESTs estão os
seguintes:
ˆ BodyMap (HISHIKI et al., 2000; SESE et al., 2001), um banco de dados baseado
em ESTs 3’, obtidas a partir de fragmentos de moléculas de cDNA após digestão
com a enzima MboI (GATC), isso permite um agrupamento inequı́voco de tags que
representam o mesmo transcrito e provê informação da abundância para cada transcrito em diferentes tecidos humanos e murinos. O BodyMap também possui dados
de introduced Amplified Fragment Length Polymorphism (iAFLP) (KAWAMOTO
et al., 1999).
ˆ BodyMap-Xs (OGASAWARA et al., 2006), um banco de dados para comparações
de expressão gênica inter-espécies, criado com as ESTs do DDBJ. As comparações
são baseadas em informações de genes ortólogos.
ˆ TIGR Gene Indices (QUACKENBUSH et al., 2001), uma coleção de bancos de
dados espécies-especı́ficas de ESTs, as quais são submetidas a um protocolo de
análise refinada para a identificação dos genes de origem.
Serial Analysis of Gene Expression
Os dois principais repositórios de dados públicos de SAGE além do GEO, são o SAGEmap (LASH et al., 2000) do NCBI, e o SAGE Genie (LIANG, 2002) do CGAP, ambos
provêm além dos dados brutos, as relações entre as tags e os genes (tag ⇔ UniGene).
Porém ainda há muitos outros repositórios especı́ficos de uma determinada espécie ou
tipo celular, como os seguintes:
ˆ Mouse SAGE Site (DIVINA; FOREJT, 2004) que contém dados de tecidos e linha-
gens celulares de camundongos distribuı́dos entre 94 bibliotecas;
ˆ TgSAGEDB (RADKE et al., 2005) que contém dados das diferentes etapas do ciclo
de vida do protozoário causador da toxoplasmose (Toxoplasma gondii ).
1.4 Bancos de Dados Biológicos
53
ˆ BovSAGEDB (GRAFF et al., 2006) que contém doze bibliotecas geradas a partir
de linfócitos bovinos.
ˆ GermSAGE (LEE et al., 2009) que contém três bibliotecas de células germinativas
murinas em diferentes estágios da espermatogênese.
Além desses ainda há outros repositórios, porém muitos deles não disponibilizam os dados
completos, e possuem poucos ou nenhum recurso funcional para consulta ou aquisição dos
dados, outros já depositaram os seus dados no GEO.
Massively Parallel Signature Sequencing
Os dados de MPSS podem também ser encontrados nos seguintes bancos de dados
públicos:
ˆ Plant MPSS (NAKANO et al., 2006), repositório de dados de MPSS, o qual ar-
mazena dados de diversas espécies de plantas e de um fungo patógeno de plantas
(Magnaporthe grisea). Nesse repositório há também dados de MPSS e SBS para
pequenos RNAs de Arabidopsis thaliana;
ˆ MPSS Stem Cell (WEI et al., 2005), repositório de dados de MPSS de células
tronco-embrionárias humanas e murinas do Genome Institute of Singapore (GIS);
ˆ LICR MPSS (JONGENEEL et al., 2005), arquivos de dados de MPSS do Ludwig
Institute for Cancer Research (LICR), o qual armazena dados de 32 tecidos humanos
normais.
1.4.6
Genoma
Após o seqüenciamento completo de um genoma, é necessário analisá-lo, e a primeira
etapa é associar as diversas informações existentes orientando-se pelas coordenadas da
seqüência obtida. O banco de dados do UCSC Genome Browser (KENT et al., 2002),
permite navegar visualizar qualquer porção de um genoma, em qualquer escala, juntamente com as informações mapeadas (tracks) através do alinhamento de seqüências. Entre as informações estão as seqüências dos contigs e os gaps da montagem, seqüências de
mRNAs e ESTs, múltiplas predições gênicas, homologia entre espécies, SNPs, repetições
transposons, microRNAs, entre outros.
54
2
Objetivos
O objetivo central deste trabalho é desenvolver uma plataforma online para análise
computacional de perfis de expressão gênica obtidos por meio de técnicas que permitem
a quantificação de transcritos gênicos em larga escala, tais como SAGE, MPSS e SBS.
Os objetivos especı́ficos estão discriminados a seguir:
1. Desenvolver um método para avaliação e depuração das bibliotecas de tags, com o
objetivo de excluir tags espúrias ou contaminantes. Esta atividade inclui:
ˆ Implementar um sistema para classificar a confiabilidade das tags utilizando
parâmetros pré-estabelecidos baseados no mapeamento em bancos de dados de
tags virtuais e nas freqüências observadas de cada tag nas bibliotecas;
ˆ Estabelecer os parâmetros adequados para a seleção das tags válidas;
ˆ Avaliar a capacidade de obter dados fidedignos;
ˆ Aplicar o método às bibliotecas de expressão gênica;
ˆ Disponibilizar os recursos desse sistema na internet por meio de uma interface
web;
2. Constituir um repositório de dados de expressão gênica e informações funcionais.
Além de desenvolver o sistema para gerenciar, disponibilizar, processar e consultar
os dados. Nesse caso, as atividades serão as seguintes:
ˆ Modelar e implementar uma base de dados relacional que possibilite incluir
dados de repositórios públicos e gerados por laboratórios associados;
ˆ Carregar os dados dos bancos de dados biológicos que serão utilizados;
ˆ Implementar os métodos de processamento dos dados e de avaliações estatı́sti-
cas;
ˆ Implementar os métodos de acesso e consulta aos dados;
2 Objetivos
55
ˆ Disponibilizar os recursos desse sistema na internet por meio de uma interface
web utilizando HTTP;
ˆ Disponibilizar métodos de consulta aos dados utilizando SOAP.
ˆ Carregar o resultado da análise de depuração;
56
3
Material e métodos
A seguir serão descritos os dados, as ferramentas e os métodos para o desenvolvimento
da plataforma para análise computacional de perfis de expressão gênica transcricionais. A
plataforma desenvolvida inclui dois sistemas principais. O primeiro sistema (Seção 3.2),
nomeado Hyper- and Hypo-expressed Genes (H2G), armazena os dados de experimentos,
obtidos de repositórios públicos e de laboratório associados, relaciona e integra informações
para estudos de genômica funcional e engloba ferramentas que permitem identificar genes
diferencialmente expressos. O segundo sistema (Seção 3.3), nomeado Score System for
Sequence Tags (S3T) (PINHEIRO et al., 2009), permite a classificação e a filtragem das
tags consideradas contaminantes nos experimentos baseados em seqüenciamento de tags.
Os dois sistemas estão integrados, o H2G utiliza o resultado da classificação do S3T, que
por sua vez, utiliza as informações sobre a freqüência de tags contidas no H2G como um
dos critérios para a classificação.
3.1
Plataforma de desenvolvimento dos sistemas
Os principais algoritmos foram implementados na linguagem de programação Practical Extraction and Report Language (Perl)1 (v5.8.7) com o auxı́lio de diversos módulos,
os quais são disponibilizados pelo Comprehensive Perl Archive Network (CPAN)2 . A
linguagem de programação R3 foi utilizada para cálculos estatı́sticos. Os paradigmas de
programação, orientado a objetos e estruturado, foram empregados, de acordo com a
necessidade e complexidade da estrutura de dados requerida.
Os sistemas foram desenvolvidos sob a arquitetura cliente-servidor, com comunicação
através da internet, onde o cliente que pode ser qualquer navegador para internet (e.g. Mozilla Firefox e Microsoft Internet Explorer), faz requisições a um servidor HTTP Apache
(v2.0.55). A interface com o usuário foi construı́da utilizando código HyperText Markup
1 http://www.perl.com
2 http://www.cpan.org
3 http://www.r-project.org
3.1 Plataforma de desenvolvimento dos sistemas
57
Figura 6: Diagrama de integração entre os sistemas H2G e S3T. O H2G utiliza o S3T para a classificação
das tags das bibliotecas contidas em sua base de dados. O S3T utiliza em seu processo de classificação
os dados de freqüência das tags que estão contidas na base de dados do H2G. O acesso aos dados do
H2G pode ser por meio da conexão direta utilizando os métodos de busca do H2G (1) ou utilizando os
métodos disponı́veis via SOAP (2). A atualização da classificação das tags no H2G é um procedimento
realizado periodicamente.
Language (HTML), JavaScript e Cascading Style Sheets (CSS). O conceito Asynchronous Javascript And XML (AJAX) (GARRETT, 2005) foi empregado em alguns casos
somente.
No geral, os programas que compõem os sistemas desenvolvidos são empregados nas
seguintes tarefas:
ˆ Extrair informações de arquivos, utilizando quando necessário e possı́vel os módulos
do projeto BioPerl4 (STAJICH et al., 2002) (e.g. para a extração de informações de
seqüências de nucleotı́deos);
ˆ Processar os dados;
ˆ Aplicar métodos estatı́sticos, por intermédio do módulo RSPerl5 , o qual permite
estabelecer uma conexão com o ambiente da linguagem R a partir de um programa
em Perl, possibilitando a execução de métodos próprios da linguagem R;
ˆ Interagir com o SGBD via módulo DBI, que é a implementação de uma Application
Programming Interface (API) para a conexão, manipulação e consulta de dados que
estão no SGBD;
4 http://www.bioperl.org
5 http://www.omegahat.org/RSPerl
3.1 Plataforma de desenvolvimento dos sistemas
58
ˆ Interagir com o servidor HTTP Apache via Common Gateway Interface (CGI),
utilizando o módulo CGI;
ˆ Gerar dinamicamente a interface web [Graphical User Interface (GUI)] com o au-
xı́lio do módulo BiT::Template, desenvolvido pelo nosso laboratório [Laboratório de
Genética Molecular e Bioinformática (LGMB)]. Essa biblioteca utiliza os módulos
CGI e HTML::Template, permitindo separar o código da aplicação do código para
a construção da interface, a qual contém os links e formulários para o acesso às
aplicações;
ˆ disponibilizar métodos de consulta aos dados via SOAP utilizando o módulo Perl
SOAP::Lite.
Os bancos de dados do H2G e do S3T foram constituı́dos utilizando o modelo de dados
relacional e o SGBD MySQL6 . As tabelas são do tipo MyISAM7 , o qual garante alto desempenho para leitura e escrita quando o acesso concorrente é baixo. A principal deficiência desse tipo de tabela é não suportar transações (DATE, 2003). A linguagem que interage
com o MySQL é a Structured Query Language (SQL), uma linguagem declarativa inspirada na álgebra relacional, para a definição, manipulação, controle e consulta de dados. A
modelagem do banco de dados foi feita com o Diagrama Entidade-Relacionamento (DER)
utilizando o programa DBDesigner48.
O H2G e o S3T foram desenvolvidos em ambiente Linux utilizando softwares livres9 .
O H2G atualmente está instalado em um computador servidor com 2 processadores Intel®Pentium®III CPU S @ 1.40 GHz com 1 Gb de memória RAM e sistema operacional
Linux Red Hat 810 . O S3T atualmente está instalado em um computador servidor com
2 processadores Intel®Xeon®CPU E5410 @ 2.33 GHz com 8 Gb de memória RAM e
sistema operacional Linux CentOS 411 . Os sistemas estão disponı́veis online pela internet
(Seção 4.1.3 e 4.2.2).
6 http://www.mysql.com
7 http://dev.mysql.com/doc/mysql/en/myisam-storage-engine.html
8 http://fabforce.net/dbdesigner4/
9 http://www.gnu.org/philosophy/free-sw.html
10 http://www.redhat.com
11
http://www.centos.org
3.2 H2G - Hyper- and Hypo-expressed Genes
3.2
59
H2G - Hyper- and Hypo-expressed Genes
O sistema H2G compreende uma base de dados e um conjunto de ferramentas que
podem ser acessı́veis por meio da interface gráfica via internet, e via prompt do Sistema
Operacional (SO) (Figura 7). As tecnologias suportadas pelo H2G são: SAGE (VELCULESCU et al., 1995) convencional e suas variações (SAHA et al., 2002), MPSS (BRENNER
et al., 2000a) e baseadas em SBS (HANRIOT et al., 2008). O banco de dados armazena e
integra os dados de expressão gênica e as informações funcionais relacionadas. O conjunto
de ferramentas disponı́veis via interface gráfica permitem a consulta, análise e manipulação dos dados de acordo com o privilégio definido por um sistema de autenticação, o
qual delimita a área do sistema que o usuário pode acessar, essa área pode ser pública ou
pertencer a um projeto privado que previamente deve ser cadastrado pelo administrador
do sistema. No caso da área pública o usuário pode se cadastrar livremente via internet
por meio de um formulário web, no caso de projetos privados o cadastro do usuário é feito
pelo administrador do sistema. Para a utilização dos recursos é necessário a autenticação
no sistema.
No H2G são encontrados os seguintes conceitos:
ˆ Plataforma (Platform) - base sob a qual experimentos de expressão gênica são con-
duzidos (e.g. a plataforma SAGE:10:NlaIII representa a tecnologia SAGE com tags
de 10-pb obtidas com a enzima âncora NlaIII );
ˆ Projeto (Project) - domı́nio dentro da aplicação baseado na definição de um projeto
(e.g. PUBLIC);
ˆ Experimento
obtidos de
(Experiment) - compreende
uma
mesma
os dados de expressão
amostra utilizando a
mesma
gênica
plataforma (e.g.
SAGE Bone marrow normal B D01 );
ˆ Análise (Analysis) - é uma análise de expressão gênica diferencial envolvendo dois
ou mais experimentos.
3.2.1
Repositório de Dados de Expressão Gênica
O repositório público de dados de expressão gênica foi constituı́do principalmente com
os dados disponı́veis publicamente no CGAP SAGE Genie12 (LIANG, 2002) no NCBI
12 http://cgap.nci.nih.gov/SAGE
3.2 H2G - Hyper- and Hypo-expressed Genes
60
Figura 7: Diagrama geral do fluxo da informação no sistema H2G. Nas nuvens que representam a
internet, estão os bancos de dados biológicos de onde são obtidos os dados armazenados no banco de dados
H2G e os serviços web disponı́veis (SOAP e CGI). Os dados externos são submetidos a algoritmos de
análise sintática (parsing) especı́ficos para cada formato, após esse processo os dados podem ser inseridos
no banco de dados H2G. Os processos de consultas e análises dos dados podem ser invocados por meio da
interface web CGI. Consultas aos dados também podem ser realizadas por meio de um servidor SOAP.
Os dados de expressão gênica (bibliotecas de SAGE, MPSS e SBS) são submetidos à análise do S3T e o
resultado dessa análise é armazenado no banco de dados H2G.
SAGEmap13 (LASH et al., 2000) e no GEO14 (BARRETT et al., 2005).
Os dados para a associação entre tag e gene, para tags de SAGE de 10-pb e 17-pb
foram obtidos do SAGE Genie para as espécies Homo sapiens e Mus musculus, para as
demais espécies os dados foram obtidos do SAGEmap. Esses dados incluem as associações
da melhor tag para determinado gene (best tag) e do melhor gene para determinada tag
(best gene). O gene nesse caso é representado por um número de acesso de um cluster do
UniGene. Os dados para a associação entre as tags de MPSS e os respectivos genes foram
obtidos dos arquivos do LICR15 (JONGENEEL et al., 2005).
Os dados das espécies foram obtidas do banco de dados de taxonomias do NCBI
(SAYERS et al., 2009). Os dados de cada cluster de transcritos (UniGene) foram obtidos
do repositório do UniGene. Os dados de produtos gênicos, incluindo o GO foram obtidos
do repositório Entrez Gene (MAGLOTT et al., 2007) no NCBI, o qual contém as anotações do banco de dados GOA (CAMON et al., 2004). As informações de vias metabólicas
13 http://www.ncbi.nlm.nih.gov/projects/SAGE/
14 http://www.ncbi.nlm.nih.gov/geo/
15
http://mpss.licr.org
3.2 H2G - Hyper- and Hypo-expressed Genes
61
foram obtidas do repositório do KEGG e do repositório do CGAP, o qual armazena os
dados providos pelo BioCarta. As informações de microRNAs e seus genes alvos foram
obtidas do repositório do miRGen (MEGRAW et al., 2007). As informações sobre o conteúdo armazenado no H2G e as suas fontes originais estão resumidamente relacionadas na
Tabela 1. Todas esses dados foram inseridos e relacionados no banco de dados relacional
do H2G 16 utilizando programas de importação, os quais utilizam a correspondência de padrões baseados em expressões regulares (WALL, 2000) que são elaboradas especificamente
para o formato do arquivo de cada fonte de dados, para reconhecer o conteúdo, analisar
e fazer a importação. Para a obtenção dos dados do GEO que estão no formato MINiML
17
foi desenvolvido um programa utilizando os métodos do módulo Perl XML::Parser.
Análise de Expressão Gênica Diferencial
A ferramenta para detecção de expressão gênica diferencial foi desenvolvida para comparar de forma pareada dois conjuntos (pools) de bibliotecas do mesmo tipo de tecnologia.
Os pools consistem de uma ou mais bibliotecas que são selecionadas e alocadas em cada
um dos pools (A e B). Neste momento os dados das bibliotecas podem ser filtrados de
acordo com a metodologia descrita no S3T (Seção 3.3). Os dados de configuração da análise são armazenados na área do usuário. As freqüências das tags são normalizadas por
um valor definido (tipicamente 300.000) ou pelo valor padrão que é o maior valor entre
os totais de tags dos dois pools. Para constituição das freqüências das tags em cada pool
é obtida a média das freqüências normalizadas das tags nas bibliotecas que pertencem ao
pool. O pool B é a referência e para facilitar a distinção os valores negativos representam
tags mais expressas no pool A em relação ao pool B, os valores positivos representam o
contrário.
Atualmente as medidas para avaliar a expressão gênica diferencial que estão implementadas são as seguintes:
ˆ Diferença - subtração entre os valores de cada pool ;
ˆ Razão (fold-change) - razão obtida da divisão entre os valores de cada pool ;
ˆ Razão (signal-to-noise) - medida de correlação proposta por Golub et al. (1999) que
mede a separação relativa entre as classes dos pools. Essa medida reflete a diferença
16 http://gdm.fmrp.usp.br/cgi-bin/h2g/index.pl/alone?project
id=1;platform id=1;template file=help
17 http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML.html
3.2 H2G - Hyper- and Hypo-expressed Genes
62
Tabela 1: Fontes originais dos dados contidos no H2G relacionadas por tipo de informação, dados que
são extraı́dos e para quais espécies os dados podem ser obtidos.
Informação
Dados
Espécies
Fonte
1
Taxonomia
Taxonomy ID; Descrição
*
NCBI
Expressão Gênica
(SAGE/SBS)
Tag; Freqüência; Dados da amostra
Hs; Mm
SAGE
GEO 3
Expressão Gênica Tag; Freqüência; Dados da amostra
(SAGE/MPSS/SBS)
*
SAGEmap4 ; GEO3
Associação
taggene (SAGE/SBS)
Hs; Mm
SAGE Genie
Rn; Bt
SAGEmap
Ame
STAMP (BRANDÃO, 2009)
Seqüência da tag; UniGene ID
Hs
LICR MPSS
cluster de transcritos
No de acesso (UniGene ID); Espécie;
Descrição; Localização cromossômica;
GeneID (Entrez Gene); Nos de acesso
GenBank
*
UniGene
Genes
GeneID; Sı́mbolo; Tipo; Taxonomy ID;
Descrição; Localização cromossômica;
*
Entrez Gene
6
GO e associação
GO-gene (GOA)
GeneID; GO ID; Tipo (Função, Processo, Componente); Código de evidência
*
Entrez Gene
6
KEGG e associação
KEGG-gene
GeneID; KEGG ID; Descrição
*
KEGG Pathway
BioCarta e associação BioCarta-gene
GeneID; BioCarta ID; Descrição
Hs; Mm
CGAP
microRNAs e associação microRNAgene alvo
GeneID; miRNA ID;
Hs
DIANA
Relação miRNA e
UniGene
miRNA ID; UniGene; localização relativa;
Hs
UCSC Genome
Associação
gene (MPSS)
tag-
Seqüência da tag; UniGene ID
2
Genie
;
2
5
7
8
9
10
Nota: Hs-Homo sapiens; Mm-Mus musculus; Rn-Rattus norvegicus; Ame-Apis mellifera; Bt-Bos taurus; *-Várias
espécies; 1-http://www.ncbi.nlm.nih.gov/taxonomy/; 2-http://cgap.nci.nih.gov/SAGE;
3-http://www.ncbi.nlm.nih.gov/geo/; 4-http://www.ncbi.nlm.nih.gov/projects/SAGE/;
5-http://www.ncbi.nlm.nih.gov/unigene; 6-http://www.ncbi.nlm.nih.gov/gene; 7-http://www.genome.jp/kegg/;
8-http://cgap.nci.nih.gov/Pathways/BioCarta Pathways 9-http://www.diana.pcbi.upenn.edu/miRGen/;
10-http://genome.ucsc.edu/.
3.2 H2G - Hyper- and Hypo-expressed Genes
63
entre as classes, relativa às medidas de desvio padrão dentro das classes. Valores
altos indicam maior correlação entre a expressão gênica e a distinção de classes;
ˆ P-value AC - valor de significância proposto por Audic e Claverie (1997);
ˆ P-value SG - valor de significância adaptado por Lash et al. (2000) de Chen et al.
(1998), implementado também no SAGE Genie e SAGEmap;
ˆ SAGEci - intervalo de credibilidade para o fold-change proposto por Vencio, Brentani
e Pereira (2003).
Os resultados dos cálculos são armazenado na base de dados para as consultas posteriores. Com o resultado dessa análise é possı́vel realizar uma análise de enriquecimento,
Gene Set Enrichment Analysis (GSEA), de categorias do GO ou vias metabólicas do
KEGG ou do BioCarta. Esse método computacional permite determinar um conjunto de
genes, definidos a priori, estão diferencialmente expressos entre os dois pools de bibliotecas. A análise de enriquecimento foi implementada com base no algoritmo descrito por
Keller, Backes e Lenhof (2007). A análise depende da ordenação dos genes baseada na
medida de avaliação selecionada.
3.2.2
Interfaces
O acesso aos recursos do H2G pode ser feito através da internet, na qual é disponibilizada uma interface user-friendly com diversos recursos que possibilitam criar e disparar
o processamento de uma análise para posteriormente explorar seus resultados por meio de
um sistema de consultas. Esse sistema permite pesquisar e relacionar informações contidas
na base de dados utilizando uma combinação de parâmetros, os quais são definidos pelo
usuário. As requisições de consulta dos usuários são traduzidas para a linguagem SQL e
enviadas ao banco de dados que a processa e retorna o resultado, o qual é formatado e
apresentado de forma coerente.
A interface web, que contêm os formulários de acesso às aplicações, é gerada dinamicamente com o auxı́lio de um módulo (BiT::Template) desenvolvido pelo LGMB. O módulo
Perl BiT::Template utiliza os módulos CGI e HTML::Template para separar o código da
aplicação do código para a interface.
Além desse acesso via interface web, alguns dos recursos podem ser acessados também via prompt do SO por meio de programas já implementados, ou implementar novos
programas utilizando os métodos contidos nos módulos do pacote. Esses métodos podem
3.3 S3T - Score System for Sequence Tags
64
ser acessados também utilizando o protocolo SOAP, por meio do servidor SOAP sobre
HTTP, implementado utilizando o módulo Perl SOAP::Lite18 . Os parâmetros de conexão, a lista de métodos disponı́veis e a documentação são encontradas nas páginas web de
ajuda do H2G19 .
3.3
S3T - Score System for Sequence Tags
A metodologia desenvolvida para a avaliação da qualidade de uma biblioteca de tags,
no geral, compreende as seguintes tarefas:
1. Coletar os dados experimentais e obter os conjuntos de tags virtuais e as informações
relacionadas, e armazená-las em um banco de dados relacional;
2. Determinar os parâmetros para a classificação;
3. Executar as buscas no banco de dados e aplicar as regras, que é uma correspondência
entre o dado experimental com uma das regras definidas;
4. Quantificar as tags únicas e suas freqüências para cada pontuação (score) para a
avaliação da qualidade.
O processo de classificação é executado em série, aplicando as regras em uma ordem
pré-definida para cada uma das tags na biblioteca (e.g. Tabela 3 - do topo à base). A
primeira classificação é sustentada se a regra é validada, caso contrário a próxima regra é
avaliada e o processo se repete até que a última tag receba a sua classificação (Figura 8).
O sistema que implementa essa metodologia, possibilita o processamento das classificações em paralelo (multithreading) em um sistema com múltiplos núcleos e/ou processadores. Uma interface web foi desenvolvida para prover acesso aos recursos, que também
podem ser acessados diretamente por meio do prompt do SO.
O programa principal recebe como parâmetros de entrada, o arquivo contendo as
seqüências das tags e as respectivas freqüências, a plataforma (SAGE, MPSS ou SBS), a
enzima âncora (NlaIII ou DpnII ), o tamanho das tags e o acrônimo da espécie (Hs ou
Mm). Estes parâmetros definem qual será o conjunto de regras a ser usado na análise. A
análise padrão tem distintos conjuntos de regras pré-configuradas.
18
http://www.soaplite.com
19 http://gdm.fmrp.usp.br/cgi-bin/h2g/index.pl/alone?project
id=1;platform id=1;template file=help
3.3 S3T - Score System for Sequence Tags
65
Figura 8: Diagrama geral do fluxo da informação no sistema S3T. No lado do cliente, estão representadas
a entrada de parâmetros e a obtenção dos resultados, procedimentos que podem ser realizados pela
interface disponı́vel via internet ou diretamente por meio do prompt do SO. No lado do servidor, estão
representados os processos dentro do sistema de classificação S3T e parte do sistema H2G, o qual fornece
as informações sobre as freqüências das tags no dados de amostras biológicas contidas em sua base de
dados principal.
3.3.1
Conjuntos de tags virtuais
Os conjuntos de tags virtuais foram obtidos de diferentes fontes para caracterizar os
dados experimentais e determinar sua confiabilidade, baseado nas caracterı́sticas relevantes de cada fonte. As bases de dados utilizadas estão discriminadas a seguir:
ˆ Vetor de clonagem - seqüência de nucleotı́deos do vetor de clonagem;
ˆ Genoma mitocondrial - seqüência de nucleotı́deos do genoma mitocondrial;
ˆ Adaptador - seqüência de nucleotı́deos do adaptador, usado na construção da
biblioteca de SAGE;
ˆ FL cDNAs - seqüências completas de nucleotı́deos (full-length) de cDNA;
ˆ Consenso - seqüências de nucleotı́deos consenso de clusters do UniGene;
ˆ Genoma nuclear - seqüências de nucleotı́deos de DNA nuclear.
3.3 S3T - Score System for Sequence Tags
66
Os procedimentos para a extração das tags são similares aos utilizados na metodologia
de mapeamento do SAGE Genie (BOON et al., 2002). Foram considerados os sı́tios de
restrição para as enzimas âncoras NlaIII (CATG), mais utilizada para gerar os dados de
SAGE/SBS e a enzima DpnII ou Sau3AI (GATC), mais utilizadas para gerar os dados
de MPSS. As tags virtuais são obtidas da extração das bases adjacentes aos sı́tios de
reconhecimento das enzimas consideradas. São obtidas tags virtuais de 10-pb, 17-pb,
13-pb e 16-pb, respectivamente para short SAGE/SBS, long SAGE, short MPSS e long
MPSS.
Os dados foram obtidos de duas espécies: Homo sapiens e Mus musculus. As informações
sobre os conjuntos de dados de tags virtuais armazenados no S3T, para Homo sapiens,
estão resumidamente relacionadas na Tabela 2.
Esses conjuntos de dados de tags virtuais, suas origens e atributos são armazenados
em um banco de dados relacional20 de onde são feitas as consultas pela identidade da tag.
Tabela 2: Conjuntos de dados de tags virtuais, suas origens, atributos, nomes e números de tags
Origem
Adaptadores long SAGE
Adaptadores short SAGE
Atributos
+1-pb variação
Eventos de EA
Genoma nuclear
Eventos de AI
No de tags
LSAGE linkers 10
129
+1-pb variação
LSAGE linkers 17
226
+1-pb variação
SAGE linkers 10
124
Vetor pZErO-1
Eventos de PA
Nome
pZErO-1 NlaIII 10
16
pZErO-1 NlaIII 17
16
EST = 1
APA1 Hs DpnII 13
94782
EST = 1
APA1 Hs DpnII 16
96054
EST = 1
APA1 Hs NlaIII 10
131036
EST = 1
APA1 Hs NlaIII 17
155292
EST > 1
APA2 Hs DpnII 13
80865
EST > 1
APA2 Hs DpnII 16
81850
EST > 1
APA2 Hs NlaIII 10
112729
EST > 1
APA2 Hs NlaIII 17
130618
EST = 1
AS1 Hs DpnII 13
EST = 1
AS1 Hs NlaIII 10
703
EST > 1
AS2 Hs DpnII 13
1986
EST > 1
AS2 Hs NlaIII 10
1415
650
HG18 Hs DpnII 13
7260646
HG18 Hs DpnII 16
9509317
HG18 Hs NlaIII 10
961337
HG18 Hs NlaIII 17
20427764
IP Hs DpnII 13
42075
IP Hs DpnII 16
42569
IP Hs NlaIII 10
60984
IP Hs NlaIII 17
66489
20 http://gdm.fmrp.usp.br/cgi-bin/s3t/index.pl/alone?template
file=help
3.3 S3T - Score System for Sequence Tags
Origem
67
Atributos
Tags internas
Nome
IT Hs DpnII 13
Genoma mitocondrial
mRNAs Full Length
No de tags
124589
IT Hs DpnII 16
127652
IT Hs NlaIII 10
137273
IT Hs NlaIII 17
165366
NC 001807.4 Hs DpnII 13
48
NC 001807.4 Hs DpnII 16
48
NC 001807.4 Hs NlaIII 10
96
NC 001807.4 Hs NlaIII 17
96
VT mRNA notail Hs DpnII 13
45322
VT mRNA notail Hs DpnII 16
46387
VT mRNA notail Hs NlaIII 10
47557
VT mRNA notail Hs NlaIII 17
52466
Sinal e cauda poli(A)
VT mRNA tail Hs DpnII 13
30413
Sinal e cauda poli(A)
VT mRNA tail Hs DpnII 16
31050
Sinal e cauda poli(A)
VT mRNA tail Hs NlaIII 10
30877
Sinal e cauda poli(A)
VT mRNA tail Hs NlaIII 17
33707
Consensos
VT trEST notail Hs DpnII 13
2134
VT trEST notail Hs DpnII 16
2156
VT trEST notail Hs NlaIII 10
2840
VT trEST notail Hs NlaIII 17
2893
Sinal e cauda poli(A)
VT trEST tail Hs DpnII 13
5653
Sinal e cauda poli(A)
VT trEST tail Hs DpnII 16
5713
Sinal e cauda poli(A)
VT trEST tail Hs NlaIII 10
7025
Sinal e cauda poli(A)
VT trEST tail Hs NlaIII 17
7280
Nota: O identificador do conjunto de dados é composto pela combinação dos identificadores para a fonte do dado, a espécie,
a enzima âncora e tamanho da tag, separados por um espaço sublinhado (underline). Espécie: Hs-Homo sapiens. Eventos:
PA-Poli(A) alternativa; EA-Encadeamento alternativo de exons; AI-Anelamento interno (internal priming).
Vetor plasmidial
Foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade
3’ da seqüência de nucleotı́deos do vetor pZErO-1, utilizado na construção da biblioteca
de SAGE.
Genoma mitocondrial
Foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade
3’, considerando separadamente os dois sı́tios de restrição para as enzimas âncoras, nas
seqüências genômicas das duas espécies consideradas ([GenBank:NC 001807.4] - Homo
sapiens e [GenBank:NC 005089.1] - Mus musculus).
3.3 S3T - Score System for Sequence Tags
68
Genoma nuclear
Foram extraı́das todas as bases adjacentes aos sı́tios de restrição para as enzimas
âncoras consideradas, nas seqüências genômicas obtidas do grupo de bioinformática da
Universidade da Califórnia [University of California Santa Cruz (UCSC)21 ] das espécies
consideradas (hg18 - Homo sapiens e mm8 - Mus musculus).
Adaptadores
Foram extraı́das as bases da extremidade 5’ dos adaptadores 1 B e 2 B e obtidas
suas seqüências vizinhas, ou seja, com 1-pb de variação (distância de edição (GUSFIELD,
1997) igual a 1).
mRNAs e Consensos
Os bancos de dados de seqüências de cDNA full-length [MGC (STRAUSBERG et al.,
1999), RefSeq (PRUITT; MAGLOTT, 2001) e “20K set” (BOON et al., 2002)] e os bancos
de dados de seqüências consensos de clusters do UniGene, trEST (PAGNI et al., 2001)
foram submetidos ao processamento pelo programa ESTscan (ISELI; JONGENEEL; BUCHER, 1999; LOTTAZ et al., 2003) (versão 3.0.2), que fornece a predição da localização
da ORF, a sua orientação. Essa informação provida pelo ESTscan sobre a orientação é
utilizada em associação com a identificação de sinal e cauda poli(A) no procedimento de
correção da orientação da seqüência, padronizando a orientação (5’-3’). Para a identificação do sinal e cauda poli(A), foram utilizados algoritmos de correspondência utilizando
expressões regulares. No caso da identificação de sinal de poli(A) foram consideradas
as suas diferentes variações (AAUAAA, AUUAAA, AAUUAA, AAUAAU, CAUAAA e
AGUAAA) (CARON et al., 2001) e a distância em relação à extremidade 3’, as muito
distantes não foram consideradas (maior que 100-pb) e no caso da cauda poli(A), o critério
para a sua caracterização foi possuir ao menos 5 adeninas na seqüência da extremidade
3’.
As seqüências que não possuı́am evidências suficientes da sua orientação foram excluı́das, ou seja, não possuı́am ao menos 1 evidência da orientação, predição com ESTscan,
sinal de poli(A) ou cauda de poli(A). As seqüências dos dois conjuntos de dados de mRNAs e dos consensos foram analisadas separadamente e subdivididas em seqüências com
evidência de sinal e cauda poli(A) e outro sem essas evidências.
21 http://genome.ucsc.edu/
3.3 S3T - Score System for Sequence Tags
69
A partir desses subgrupos foram extraı́das as bases adjacentes ao sı́tio de restrição
mais próximo da extremidade 3’. Do grupo de seqüências full-length com sinal e cauda
poli(A) foram também obtidas as 3 tags virtuais a montante da tag virtual mais próxima
da extremidade 3’ e alocadas em um subgrupo chamado de tags internas.
Eventos de anelamento interno
Foram considerados os eventos de anelamento interno do oligo-dT em uma região rica
em adeninas e não na cauda poli(A), durante a transcrição reversa e sı́ntese de cDNAs
(NAM et al., 2002). A ocorrência desse evento pode levar a presença de tags internas,
consideradas nesse caso artefatos da técnica.
Um conjunto de seqüências onde esse evento é provável foi obtido a partir das seqüências full-length e consensos que continham ao menos 8 adeninas em 10 bases, confirmados
com o alinhamento de ESTs do dbEST cujas extremidades estão nessa região, indicando
que houve o truncamento da molécula. Os alinhamentos foram obtidos com o programa
BLAST -Like Alignment Tool (BLAT) (KENT, 2002).
A partir da informação da posição onde há a possibilidade de ocorrência de anelamento
interno e sı́ntese de cDNA truncado, foram extraı́das tags virtuais à montante dessas
posições.
Eventos de processamentos alternativos
Foram considerados dois eventos de processamento alternativo de RNAs: encadeamento alternativo de exons, poliadenilação alternativa. Utilizando o resultado do alinhamento de ESTs do dbEST com o programa BLAT.
As tags virtuais de eventos de poli(A) alternativa foram extraı́das a montante das
posições com evidências de poliadenilação alternativa, que foram obtidas com a observação
do número de ESTs com sinal e cauda poli(A) que alinham na região dentro das seqüências
full-length e consensos dos transcritos. Essas tags foram divididas em dois grupos, com
ao menos 1 EST e com mais de 1 EST suportando a evidência.
As tags virtuais de eventos de encadeamento alternativo de exons foram extraı́das dos
transcritos onde o processamento alternativo gerou um sı́tio de restrição diferente para as
enzimas consideradas. Essas tags também foram divididas em dois grupos, com ao menos
1 EST e com mais de 1 EST suportando a evidência.
3.3 S3T - Score System for Sequence Tags
3.3.2
70
Regras de Classificação
Para a graduação das tags são adotadas regras de classificação que podem ser estabelecidas de acordo com as necessidades especı́ficas. Essas regras possuem parâmetros
relevantes baseados em 4 componentes principais, a freqüência da tag, a sua identidade
em um conjunto de tags virtuais com caracterı́sticas relevantes, a freqüência média em
outras bibliotecas e a abundância das tags vizinhas.
A identidade em um banco de dados de tags virtuais determina a possı́vel origem
da tag. O componente baseado na freqüência das tags, permite levar em consideração a
suposição de que a abundância e a representatividade no conjunto total de bibliotecas
pressupõem mais confiança para ela. A confiança na veracidade da tag ainda pode ser
ampliada caso ela tiver uma freqüência média razoável considerando outras bibliotecas.
Nesse caso o banco de dados públicos de expressão gênica H2G (Seção 3.2) é utilizado
como fonte para obter essa informação. O outro componente, baseado na vizinhança das
tags, considera a idéia de que erros durante a construção da biblioteca, no caso de tags
abundantes podem gerar artefatos (COLINGE; FEGER, 2001).
Configuração
Os esquemas de análise, ou seja, os conjuntos de regras definidas para cada combinação
de parâmetros da análise, são definidas em um arquivo de configuração (Apêndice C)
no formato padrão INI22 (nome = valor), onde estão contidas também as configurações
necessárias para o funcionamento do sistema, como os dados para a conexão com o banco
de dados, caminhos de diretórios no sistema de arquivos, etc.
Esse arquivo de configuração é organizado por blocos, os blocos que possuem a
identificação do esquema, referem-se à configuração das regras ([Plataforma Enzima âncora Tamanho da Tag Espécie SCORE]) e configuração da ordem de aplicação das regras
([Plataforma Enzima âncora Tamanho da Tag Espécie]). Os blocos SOURCES e ATTRIBUTES referem-se respectivamente às fontes dos dados e os atributos especiais. A ordem
de aplicação das regras pode ser alterada permutando os scores dispostos no parâmetro
score order. A configuração da regra possui uma sintaxe própria e há três variáveis que
podem ser utilizadas na composição da regra:
ˆ $f tag - valor de freqüência absoluta da tag;
22 http://en.wikipedia.org/wiki/INI
file
3.3 S3T - Score System for Sequence Tags
71
ˆ $m tag - valor médio de freqüência da tag considerando outras bibliotecas;
ˆ $mfno tag - ordem da tag vizinha mais freqüente, considerando a porcentagem das
tags mais freqüentes.
Os componentes das regras são isolados por ponto e vı́rgula (;), onde o primeiro
elemento refere-se à fonte e o segundo aos atributos, o terceiro é a condição que envolve
as variáveis mencionadas e onde a sintaxe é idêntica à de uma expressão Perl23 . As fontes
e os atributos são representados pelos respectivos códigos contidos nos blocos SOURCES
e ATTRIBUTES. Os operadores “&” e “|” representam respectivamente o “e” e o “ou” e
podem ser utilizados para combinar fontes ou atributos em uma única regra.
3.3.3
Interface
Há duas possibilidades de acesso à análise com o S3T, via prompt do SO e via formulário da internet. No caso do prompt de comando do SO, o arquivo contendo as tags com
as respectivas freqüências e os seguintes parâmetros são informados como argumentos na
linha de comando: plataforma, tamanho da tag, enzima âncora e espécie. O arquivo resultante é semelhante ao arquivo que representa a biblioteca, com uma coluna adicional, que
contém as respectivas classificações. Utilizando o argumento que ativa o modo verboso é
possı́vel acompanhar em detalhes o processo de classificação de cada uma das tags.
No caso da interface via internet, os mesmos parâmetros são informados em um formulário desenvolvido para tornar o acesso mais fácil e cômodo para o usuário. Os resultados
são representados por meio de gráficos e tabelas, que permitem a visualização e exploração, além de conter as associações das tags e genes, obtidas do H2G via chamada direta
dos métodos, ou via chamada de métodos disponı́veis via SOAP. A interface via internet
também permite a comparação com os dados já processados, os quais estão resumidos em
um box plot (WILLIAMSON; PARKER; KENDRICK, 1989). O box plot é um gráfico
que possibilita representar a distribuição de um conjunto de dados com base em alguns
de seus parâmetros descritivos, tais como a mediana e os quartis.
23 http://perldoc.perl.org/functions/eval.html
3.3 S3T - Score System for Sequence Tags
3.3.4
72
Análise com dados públicos de SAGE
Dados experimentais
Os dados experimentais selecionados para a avaliação foram extraı́dos do repositório
de dados de expressão gênica do H2G. Foram selecionadas 359 bibliotecas de SAGE em
grupos de 34 tecidos/órgãos da espécie humana. Esses grupos foram definidos de acordo
com o nome da biblioteca, o qual é padronizado no caso das bibliotecas do CGAP24 :
SAGE ÓRGÃO HISTOLOGIA PREPARAÇÃO IDENTIFICADOR ÚNICO.
O grupo histológico é definido pelos identificadores comuns da nomenclatura das bibliotecas: SAGE ÓRGÃO HISTOLOGIA PREPARAÇÃO.
Definição das Regras
Há distintos conjuntos de regras pré-configurados e definidos de acordo com a combinação dos parâmetros de configuração. O conjunto de regras utilizado como exemplo de
aplicação do método está contido na Tabela 3. Os parâmetros que o definem são: SAGE
(plataforma), 10-pb (tamanho da tag), NlaIII (enzima) e Hs (espécie).
A intenção deste conjunto de regras é a identificação de possı́veis artefatos para a posterior exclusão e obter também uma gradação de confiabilidade para as tags. A avaliação
inicia com as regras que permitem identificar as tags com provenientes de adaptadores de
SAGE (-4), tags com baixa freqüência ( f (x) = 1) que têm identidade com o conjunto de
tags com evidências de anelamento interno (-3), e as tags com baixa freqüência ( f (x) < 5)
similares às vizinhas mais abundantes (20% mais abundantes). As próximas regras (10,
9, 8, 7, 6, 5, 4, 3, 2, 1, 0) são usadas para identificar tags com identidade no conjunto
de tags virtuais de transcritos conhecidos, com diferentes gradações de confiabilidade;
a próxima regra (0) é a última chance de aceitação das tags, se sua média de freqüência considerando outras bibliotecas for maior que sua freqüência na biblioteca que está
sendo avaliada (m(x) > f (x)); a próxima regra retém as tags remanescentes observadas
uma única vez ( f (x) = 1), possivelmente errôneas; as regras subseqüentes (-5, -7, -6) são
usadas para verificar a identidade com os genomas mitocondrial e nuclear e com o vetor
de clonagem respectivamente; a última regra retém as tags remanescentes que não foram
classificadas em nenhuma das categorias anteriores.
24 http://cgap.nci.nih.gov/SAGE/SAGEHelp
3.3 S3T - Score System for Sequence Tags
73
Tabela 3: Conjunto de regras usadas no processo de classificação das bibliotecas de tags. O f (x)
representa a freqüência absoluta para a tag x, e m(x) a freqüência média da tag x, considerando todas
as bibliotecas no banco de dados experimentais de expressão gênica, N(x) representa o conjunto de tags
vizinhas da tag x, T representa o conjunto de tags com as freqüências mais altas na biblioteca (20%). A
ordem em que estão dispostas as linhas respectivas de cada score representa a ordem (do topo à base)
para a aplicação da regra respectiva.
Score
-4
-3
-2
10
9
8
7
6
5
4
3
2
1
0
-1
-5
-7
-6
-8
Fonte
Condição
Adaptadores (*)
mRNAs região interna rica em As
FL cDNAs, 3’, poli(A)
FL cDNAs, 3’, poli(A)
FL cDNAs, 3’
FL cDNAs, 3’
Consenso, 3’, poli(A)
Consenso, 3’, poli(A)
poli(A) alt./splicing, > 1 EST
Consenso, 3’
poli(A) alt./splicing, 1 EST
FL cDNAs, tags internas
f (x) = 1
f (x) < 5 e (N(x) ∩ T ) 6= 0/
f (x) ≥ 10
1 ≤ f (x) < 10
f (x) ≥ 5
1 ≤ f (x) < 5
f (x) ≥ 5
1 ≤ f (x) < 5
f (x) > 1
f (x) ≥ 1
f (x) ≥ 1
m(x) > f (x)
f (x) = 1
Genoma mitocondrial
Genoma nuclear
Vetor pZErO-1 (*)
Nota: * Aplicável somente para dados de SAGE.
Análise descritiva dos dados
Os resultados foram divididos em dois grupos, sendo que um corresponde às tags
classificadas com scores positivos e o outro às tags classificadas com scores negativos. A
estatı́stica descritiva para os resultados foi realizada utilizando o pacote R de métodos
estatı́sticos, obtendo a média de freqüência das tags, a redundância (total de tags únicas
/ somatório das freqüências) e as proporções de tags únicas e freqüências em cada grupo.
Análise de agrupamento hierárquico
Uma análise de agrupamento hierárquico (EISEN et al., 1998) foi realizada usando o
programa Cluster3 (HOON et al., 2004) nos mesmos tipos de tecido em amostras de condições biológicas distintas, tipicamente tecido normal versus tecido tumoral, e/ou prepa-
3.3 S3T - Score System for Sequence Tags
74
ração da amostra (e.g. microdissecção, linhagem celular). A análise utilizou as bibliotecas
completas, ou seja com todas as tags, sem nenhuma filtragem e após a filtragem.
Essas bibliotecas foram classificadas de acordo com o fenótipo (e.g. normal, tumoral,
gradação tumoral) e/ou preparação dentro de cada grupo definido para os 34 tecidos
distintos, usando as informações contidas nos nomes das bibliotecas (Apêndice B). Os
subgrupos contendo uma única biblioteca foram excluı́dos e os grupos com apenas 1
subgrupo também foram excluı́dos, restando apenas 14 grupos.
Os agrupamentos (clusters) foram gerados utilizando a distância euclidiana com os
4 métodos de agrupamento: Ligação completa (Pairwise complete-linkage); Ligação individual (Pairwise single-linkage); Ligação centróide (Pairwise centroid-linkage); Ligação
média (Pairwise average-linkage). O programa Simcluster também foi utilizado para gerar os agrupamentos hierárquicos usando os mesmos métodos de agrupamento, exceto o
de Ligação centróide, o qual não é implementado nesse programa.
A medida-F (RIJSBERGEN, 1979) foi utilizada para avaliar a qualidade geral do
agrupamento, que é um método que combina as idéias de precisão (precision) e revocação
(recall ). Os valores da media F estão no intervalo de [0-1], sendo que valores altos indicam
agrupamento de maior qualidade. Os agrupamentos formados antes e após a filtragem com
S3T foram comparados usando a medida-F geral. A expectativa é encontrar agrupamentos
mais adequados após a filtragem, ou seja, agrupando propriamente amostras de um mesmo
fenótipo celular mais próximos e mais distantes de outros de fenótipos distintos, como por
exemplo, tecidos normais e tumorais.
75
4
Resultados e Discussão
4.1
H2G - Hyper- and Hypo-expressed Genes
O sistema H2G foi desenvolvido para suprir a necessidade de um repositório de dados
de expressão gênica, tais como os gerados pelas tecnologias SAGE, MPSS e SBS, e de
mecanismos para a manipulação e consulta desses dados, das informações referentes a
cada experimento e também das informações funcionais relacionadas.
A última versão do repositório (Junho/2009) possui dados de cinco espécies e três
tecnologias baseadas no seqüenciamento de tags (Tabela 4), totalizando 1.174 bibliotecas
distribuı́das em 18 projetos, sendo um deles de acesso público.
Tabela 4: Conteúdo do repositório de dados do H2G.
Espécie
Homo sapiens
Mus musculus
Rattus norvegicus
Apis mellifera
Bos taurus
Total
Tamanho da tag
SAGE
SAGE
SAGE
MPSS
SBS
SBS
SAGE
SAGE
SAGE
SAGE
MPSS
SAGE
SAGE
Tecnologia Enzima Âncora Quantidade de Experimentos
10
10*
17
13
10*
17
10*
17
10
10
13
10
10
NlaIII
NlaIII
NlaIII
DpnII
NlaIII
NlaIII
NlaIII
NlaIII
NlaIII
NlaIII
DpnII
NlaIII
NlaIII
Públicos
Privados
320
69
80
32
35
35
212
217
72
28
0
0
0
1100
61
0
0
0
0
0
0
0
3
7
0
1
2
74
Nota: *-extraı́das de tags maiores.
O acesso aos dados e outros recursos é feito por intermédio de uma interface disponı́vel
na internet. Para o acesso aos dados públicos é exigido apenas um cadastro, no caso dos
dados de projetos privados o acesso é restrito apenas aos membros dos projetos incluı́dos no
sistema. O cadastro para acesso aos dados públicos pode ser realizado pelo próprio usuário
4.1 H2G - Hyper- and Hypo-expressed Genes
76
utilizando o formulário disponı́vel na página. O cadastro nos projetos privados é realizado
apenas pelo administrador do sistema mediante requisição e aprovação. A navegação pela
interface é simples e intuitiva. O menu lateral fornece os links para acessar as informações
do sistema, material suplementar, ajuda e Frequently Asked Questions (FAQ), download
de arquivos extras (bibliotecas processadas com S3T), além do link para o formulário
de cadastro. Nesse menu é possı́vel selecionar o projeto e a plataforma e realizar a
autenticação do usuário, que é necessária para habilitar o menu principal para acessar os
recursos disponı́veis. Há a opção de esconder o menu lateral para aumentar a área de
exibição dos recursos.
4.1.1
Recursos disponı́veis
O sistema H2G é subdividido em quatro subunidades direcionadas a serviços: Repositório de dados (Data repository), Experimentos (Experiments), Análises (Analyses) e
Pesquisa (Search).
Repositório de dados
O repositório de dados contém a listagem dos experimentos disponı́veis organizados
por espécie e tipo de tecido das amostras, além de indicar o identificador do experimento,
o nome, a quantidade de tags distintas e o somatório total de tags. A lista possui links
para as informações detalhadas de cada biblioteca. Esse serviço está disponı́vel sem a
necessidade de autenticação.
Experimentos
Nessa área estão os serviços dirigidos à visualização e manipulação de experimentos,
tais como:
ˆ Listagem dos dados contidos no experimento com a respectiva anotação ordenados
pela freqüência. Essa interface possibilita a navegação, filtragem por palavras chaves
e download dos dados nos formatos texto e Microsoft Excel Spreadsheet (XLS);
ˆ Deleção de experimento, o que necessita de permissão;
ˆ Visualização de informações a respeito da amostra (tecido, tipo celular) e da prepa-
ração do experimento, além das classificações dos dados em categorias referentes à
4.1 H2G - Hyper- and Hypo-expressed Genes
77
anotação e segundo os critérios do S3T. Cada categoria apresenta um link para a
listagem dos dados contidos em si;
ˆ Inclusão de uma novo experimento por meio de um formulário próprio que inclui os
dados de obtenção e preparação da amostra e da tecnologia aplicada;
ˆ Atualização dos dados do experimento;
ˆ Importação de novos experimentos do GEO por meio do acesso GSM;
ˆ Controle de permissões referentes ao experimento, que permitem a deleção ou a
atualização dos dados;
ˆ Visualização dos resultados da análise do experimento com o S3T;
ˆ Submissão dos dados por meio da transferência de arquivos de dados brutos ou
processados. O download dos dados submetidos também é possı́vel por meio dessa
ferramenta;
ˆ Checagem das leituras do seqüenciador com o uso do programa phred (EWING et
al., 1998), quando houver arquivos cromatogramas disponı́veis no diretório interno
especı́fico para cada experimento;
Análises
Nessa área estão os serviços dirigidos à visualização e manipulação de análises comparativas entre experimentos, tais como:
ˆ Visualização de informações referentes à descrição da análise;
ˆ Deleção de uma análise;
ˆ Criação de uma nova análise. Essa interface permite projetar uma análise e requisi-
tar seu processamento automático. As análises de cada usuário ficam armazenadas
e podem ser consultadas futuramente, até que o usuário decida removê-las;
ˆ Consulta aos resultados do processamento da análise utilizando o sistema de buscas
no banco de dados, o qual permite uma combinação de parâmetros para a identificação dos genes diferencialmente expressos. Nessa ferramenta é possı́vel realizar uma
análise GSEA para a identificação dos grupos gênicos diferencialmente expressos, os
quais podem ser definidos pelos termos do GO ou vias metabólicas do KEGG ou do
BioCarta;
4.1 H2G - Hyper- and Hypo-expressed Genes
78
ˆ Consulta aos resultados do processamento da análise utilizando os links contidos em
um gráfico de dispersão. Cada ponto no gráfico corresponde a uma ou várias tag com
valores idênticos em ambos os pools. O ponto é colorido de acordo com o intervalo
estabelecido com os valores da medida de avaliação selecionada previamente;
ˆ Consulta aos resultados do processamento da análise utilizando a ferramenta para a
obtenção dos conjuntos de tags presentes em ambos os pools ou exclusivos de cada
pool (A ou B);
Pesquisa
Nessa área estão os serviço de buscas que permitem as consultas por experimentos
ou informações de genes em experimentos e análises. Portanto, há duas possibilidades de
buscas:
ˆ Buscas por experimentos utilizando palavras chaves dentre as informações relacio-
nadas com os experimentos, tais como as seguintes: nome da espécie, nome de um
experimento especı́fico, identificador numérico do experimento, tecido, acesso GeneId (Entrez Gene) (OSTELL, 2003) ou acesso UniGene. A resposta é a listagem
dos experimentos no mesmo formato da listagem de experimentos do repositório;
ˆ Buscas por informações de genes ou expressão de genes em experimentos e análises
utilizando uma palavra chave que será pesquisada dentre as informações relacionadas, tais como as seguintes: Seqüência da tag e enzima âncora, acesso GenBank,
acesso UniGene ou sı́mbolo do gene. O resultado exibe as informações descritivas
do gene, como os termos do GO e vias metabólicas relacionadas, além disso exibe
também uma lista com os valores relativos ao gene nas análises comparativas do
usuário, onde esse gene está presente. Há também uma ferramenta que permite
gerar uma imagem contendo as bibliotecas e as tags referentes ao gene encontrado
e os nı́veis de expressão representados por tonalidades de cinza (tonalidades mais
escuras representam maior expressão) além dos valores em modo texto (Figura 9).
Para a atribuição da respectiva tonalidade de cor, inicialmente os valores são normalizados para 300.000, o valor que varia de 0 a 255 é atribuı́do de acordo com a
seguinte fórmula: 255 − log( 255√300000) x, onde x é o valor da freqüência normalizada
da tag;
4.1 H2G - Hyper- and Hypo-expressed Genes
79
Figura 9: Imagem da representação dos nı́veis de expressão das tags no sistema de pesquisa do H2G. O
gene pesquisado é o NFKB2 e as bibliotecas de SAGE selecionadas são as de medula óssea.
4.1.2
Aplicações do H2G
Para demonstrar as aplicações do H2G foi criada uma nova análise por meio da
interface web. Foram selecionadas 2 bibliotecas de SAGE para análise comparativa,
obtidas do trabalho de Panepucci et al. (2007). Essas bibliotecas foram geradas separadamente a partir de amostras de células CD34+ isoladas de sangue de cordão
umbilical (SCU) (CTC UmbilicalCord Normal CD34 SCU New1 ) e de medula óssea
(MO) (CTC UmbilicalCord Normal CD34 MO New2 ). A célula CD34+ é uma células
progenitora hematopoiética, que apresentam apresentam diferenças biológicas intrı́nsecas
(PANEPUCCI et al., 2007).
A ferramenta para obtenção de conjuntos de tags identificou em um total de 39.512
tags, 15.238 tags exclusivas de SCU, 17.418 tags exclusivas de MO e 6.856 que estão
presentes em ambas as bibliotecas. As listas de tags de cada conjunto, contêm informações
detalhadas tais como a anotação gênica, os as freqüências das tags e os valores das medidas
de avaliação.
O gráfico de dispersão (Figura 10) exibe a relação entre as tags nas duas bibliotecas.
Nesse gráfico é possı́vel observar as tags diferencialmente expressas de acordo com a
medida selecionada, a qual neste caso foi a fold change (fc). Os pontos contêm referências
às informações detalhadas de cada tag.
A consulta aos resultados pode ser feita utilizando uma combinação de parâmetros
por meio da ferramenta de consulta. É possı́vel selecionar, por exemplo, valores de razão
no intervalo de 40 a 1000 vezes mais expressos em SCU e um valor de significância p-value
< 0,001 (AUDIC; CLAVERIE, 1997). Essa consulta retorna duas tags, que representam
1 http://gdm.fmrp.usp.br/h2g/library/569
2 http://gdm.fmrp.usp.br/h2g/library/570
4.1 H2G - Hyper- and Hypo-expressed Genes
80
Figura 10: Gráfico de dispersão de uma análise comparando uma biblioteca obtida de amostra de células
CD34+ de sangue de cordão umbilical (SCU) (Pool B) e uma biblioteca obtida de amostra de células
CD34+ de medula óssea (MO). Os pontos representam uma ou várias tags com valores de expressão
semelhantes em ambas as bibliotecas. A cor de cada ponto representa o nı́vel da razão de expressão,
ou fc, de acordo com a legenda. Os genes identificados no gráfico fazem parte da coleção de genes do
trabalho de Panepucci et al. (2007), em destaque os genes relacionados aos complexos NF-κ B que estão
mais expressos na biblioteca de SCU e que foram selecionados para validação por qPCR, os demais genes
foram identificados no gráfico por estarem entre os mais expressos.
os genes HBG2 (ATGCAGAGCT; fc = 152,38) e CCL4 (GATAACACAT - fc = 49,45).
O gene CCL4 participa da via metabólica Toll-like receptor signaling (KEGG:hsa04620).
Nessa mesma interface é possı́vel combinar outros parâmetros de consulta, como por
exemplo, as tags relacionadas aos genes dessa via metabólica e valores de fc no intervalo
de 5 a 1000 vezes mais expressos em SCU, com um p-value < 0,001. Essa consulta retorna
as tags referentes aos genes CCL4, IL8 (TGGAAGCACT - fc = 7,62), NFKB1 (GTTACAATCA - fc = 5,55), IL1B (CAATTTGTGT - fc = 16,15) e NFKB2 (GGAAGGGGAG
- fc = 11,86).
O gene IL1B está anotado no GO como envolvido no processo biológico (GO:0051092)
de regulação positiva dos complexos de fatores de transcrição NF-κ B. Uma busca por tags
com essa anotação do GO combinada com um intervalo de fc de 2 a 1000 e com o mesmo
intervalo de diferença (d), foi possı́vel encontrar 8 tags referentes a 6 genes. Três desses
genes foram validados por Panepucci et al. (2007): o TNF (TAGCCCCCTG - fc = 3,03, d
= 29,77), o TGFB1 (GGGGCTGTAT - fc = 3,11, d = 29,77; ATCGTGCGCT - fc = 2,02,
4.1 H2G - Hyper- and Hypo-expressed Genes
81
d = 4,98) e o RELA (ATCGTGCGCT - fc = 2,02; d = 4,98). A diferença de expressão
do gene RELA não apresentou significância (p-value < 0,001; 0,208) embora tenha sido
validada.
Os genes ICAM1 e RELB, que são regulados pelo fator de transcrição NF-κ B, podem
ser localizados por meio da busca direta pelo sı́mbolo de cada gene, por uma palavra chave
contida na descrição do gene, pela seqüência da tag ou pelo UniGene.
No resultado de cada uma dessas consultas, as tags dos genes selecionados para a
validação foram armazenadas em um conjunto de dados definido, que neste caso foi nomeado de “tese” para consultas futuras (Figura 11). As tags armazenadas nesse conjunto
de dados também podem ser utilizadas nas buscas em outras análises.
Figura 11: Resultado obtido por meio da consulta usando o conjunto “tese”, o qual foi definido para
armazenar as tags selecionadas a partir dos resultados das consultas realizadas. Essas tags representam
os nove genes selecionados para a validação no trabalho de Panepucci et al. (2007).
Além desses tipos de consultas, a ferramenta ainda permite encontrar tags referentes
a alvos preditos de miRNAs especı́ficos e tags que mapeiam dentro de genes, ou próximas
a genes, que hospedam miRNAs.
Por exemplo, uma busca pelo hsa-miR-545 retorna uma tag (ACTTTTTCAA) anotada como clone de cDNA (UniGene Hs.349570). Essa tag possui um número considerável
de cópias em ambas as bibliotecas, 347,46 em MO e 464,24 em SCU, tendo portanto um
fold change de ∼1,34. Esse miRNA já foi reportado na literatura como hiper-expresso em
células CD34+ de SCU em relação às células CD34+ de MO (MERKEROVA et al., 2009).
Outro recurso que está embutido na ferramenta de consulta é a GSEA, que no caso
da análise anterior, indica os grupos funcionais com os maiores scores de enriquecimento,
considerando a medida fold change. Eles são:
ˆ Vias metabólicas (BioCarta): MAPKinase, HIV-I e Caspase;
4.2 S3T - Score System for Sequence Tags
82
ˆ Vias metabólicas (KEGG): Ribosome, Pathways in cancer e Cytokine-cytokine re-
ceptor interaction;
ˆ Funções (GO): protein binding, zinc ion binding e RNA binding;
ˆ Processos (GO): signal transduction, immune response e RNA splicing;
ˆ Componentes (GO): nucleus, cytoplasm e cytosol.
4.1.3
Disponibilidade e requisitos do sistema H2G
A disponibilidade e os requisitos essenciais para a instalação básica do H2G estão
discriminadas a seguir. A instalação básica permite a utilização dos métodos contidos
nas suas bibliotecas e alguns scripts para análise, manipulação e consulta dos dados via
linha de comando. Os requisitos especı́ficos podem ser encontrados através do Uniform
Resource Identifier (URI) informado.
ˆ Nome: H2G - Hyper- and Hypo-expressed Genes;
ˆ URI: http://gdm.fmrp.usp.br/h2g;
ˆ Requisitos: Sistema operacional do tipo UNIX (e.g. Linux, FreeBSD, Solaris),
Linguagem de Programação Perl versão maior ou igual a 5.8.0, Linguagem de Programação R versão maior ou igual a 2.1.1, SGBD MySQL maior ou igual a 4.1.13;
ˆ Licença: GNU is Not Unix (GNU) General Public License (GPL).
4.2
S3T - Score System for Sequence Tags
O sistema S3T está disponı́vel em seu próprio sı́tio na internet. Os serviços providos
pelo sistema via internet incluem a classificação de uma lista de tags, a comparação com
os resultados de outras bibliotecas previamente analisadas, a seleção de tags de acordo
com o score atribuı́do, a visualização e o download dos resultados das análises prévias das
359 bibliotecas SAGE públicas.
Para a análise de uma biblioteca são necessários os dados da biblioteca, ou seja, as
tags e as respectivas freqüências, que podem ser formatados em um arquivo, e também
os parâmetros para a configuração da análise: a plataforma (SAGE, MPSS ou SBS), a
enzima âncora (NlaIII ou DpnII ), o tamanho das tags e o acrônimo da espécie (Hs ou
4.2 S3T - Score System for Sequence Tags
83
Mm). O tempo médio para a análise de uma biblioteca de 80.000 tags distintas é de
aproximadamente 5 minutos. A ferramenta oferece a opção de inclusão de um endereço
de email para receber o resultado da análise, ou alternativamente é possı́vel aguardar o
processamento.
O resultado é apresentado em forma de gráficos de barras, que representam a quantidade de tags únicas e total de tags, em escala semi-logarı́tmica ou em porcentagens,
para cada classificação. Uma tabela com os valores numéricos também é apresentada, e
de onde é possı́vel consultar o significado e a lista de tags de cada classe (score). A lista
apresenta a anotação gênica de cada tag, ou seja, o acesso UniGene, o sı́mbolo do gene
e a descrição, além de links para o sı́tio do CGAP SAGE Genie. Nessa mesma interface
é possı́vel visualizar os gráficos contendo os histogramas dos dados de cada score, representando a contagem de tags distintas em relação às freqüências das tags. Também estão
nessa interface os box plots que representam as distribuições dos dados dentro de cada
score e os pontos que representam os dados obtidos na análise dessa biblioteca que foi
submetida para análise. Os dados para compor os histogramas e box plots foram obtidos
dos resultados das análise dos dados públicos de SAGE (Seção 4.2.1). A interface ainda
permite o download da biblioteca com a classificação das tags.
Para cada resultado é gerada uma chave que pode ser usada para consultas futuras
durante um tempo determinado por meio da interface de visualização que também permite
como entrada além dessa chave, o arquivo que contém as tags, suas respectivas freqüências
e scores (GCAAGAAAGT<tab>100<tab>10).
O código fonte e o banco de dados relacional MySQL estão disponı́veis na página
de downloads juntamente com os arquivos formatados contendo todos os conjuntos de
tags virtuais utilizados atualmente. Na página de material suplementar estão as análises
com os resultados das análises das bibliotecas SAGE públicas, incluindo os arquivos já
filtrados, também ferramentas extras para a visualização dos resultados.
A página de ajuda e FAQ contém informações úteis, tais como o conjunto de regras
para cada configuração de análise, ou seja o significado de cada score, e também informações operacionais sobre como usar a ferramenta.
4.2.1
Análise com dados públicos de SAGE
De acordo com a análise inicial usando as 359 bibliotecas SAGE é possı́vel observar
a grande diversidade entre as proporções de tags pelos scores estabelecidos (Figura 12).
4.2 S3T - Score System for Sequence Tags
84
A alta porcentagem de tags com score -2 é evidente; elas podem ter surgido de erros em
tags abundantes cujas seqüências são similares. Isso indica que erros de seqüenciamento
são os mais prevalentes.
As correlações entre o total de tags seqüenciadas em uma biblioteca e o número de tags
únicas em determinado score (Tabela 5) indicam que dentre os scores negativos, o que
apresenta uma correlação mais forte é o -2 (0,91), ou seja, o número de tags únicas com
score -2 aumenta de acordo com o número de tags seqüenciadas. Estes resultados podem
revelar a qualidade geral dessas bibliotecas. Aquelas bibliotecas com uma alta porcentagem de tags classificadas com scores negativos não podem ser consideradas confiáveis
para as análises subseqüentes que utilizam perfis de expressão gênica.
Box plots (WILLIAMSON; PARKER; KENDRICK, 1989) foram usados para visualmente resumir e comparar os grupos de dados (Figura 12) nele estão contidas as distribuições de tags únicas ao longo das classes propostas. É importante observar particularmente
os scores positivos que representam a contribuição efetiva para a informação biológica,
os outros, possivelmente representam contaminações ou erros inerentes à técnica. Entretanto, as tags com scores negativos que possuem identidades nas seqüências genômicas ou
que não possuem identidade alguma, podem também ser oriundas de transcritos desconhecidos até o momento (KEIME et al., 2007). Porém, é importante enfatizar que esses
transcritos poderão ser caracterizados mediante a constante atualização dos bancos de
dados atuais de transcritos, especialmente com a utilização das tecnologias de seqüenciamento em larga escala, os quais possuem alta sensibilidade para a detecção de transcritos
raros.
As análises de agrupamento hierárquico usando os 14 grupos histológicos de bibliotecas SAGE (Tabela 6) foram realizadas, comparando o agrupamento utilizando os
dados completos e após a filtragem desses mesmos dados. A avaliação de qualidade
do agrupamento foi realizada utilizando o valor da medida-F. A intenção é encontrar
um valor maior no agrupamento realizado após a filtragem com S3T, como o observado no caso do grupo de bibliotecas de cólon (Figura 13). Nesse caso das bibliotecas de cólon, no agrupamento hierárquico utilizando os dados brutos antes de qualquer filtragem (Figura 13a.) (Medida-F 0,94), há uma biblioteca de amostras obtidas de tecido de adenocarcinoma de cólon (SAGE Colon adenocarcinoma B Tu102) em
um agrupamento onde predominam bibliotecas de cólon extraı́das de amostras de tecidos normais (SAGE Colon normal B NC1 e SAGE Colon normal B NC2), em contrapartida, no agrupamento hierárquico utilizando os dados após a filtragem das tags
4.2 S3T - Score System for Sequence Tags
85
Tabela 5: Correlação de Pearson entre o total de tags seqüenciados e o total de tags distintas dentro de
cada score.
Score
Correlação de Pearson
10
9
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
0,98
0,54
0,97
0,59
0,92
0,48
0,86
0,54
0,63
0,64
0,52
0,43
0,91
0,82
0,14
0,58
N/D
0,89
0,40
Nota: N/D-Não Disponı́vel.
classificadas com scores negativos (Figura 13b.)
(Medida-F 1,00), as duas bibliote-
cas de amostras obtidas de tecido de adenocarcinoma de cólon agrupam próximas
(SAGE Colon adenocarcinoma B Tu102 e SAGE Colon adenocarcinoma B Tu98) e as
demais bibliotecas agrupam próximas de acordo com as classes previamente definidas.
O resultado da análise utilizando a medida-F dos 14 grupos (Tabela6) revelou que os
agrupamentos de amostras com informações histológicas e patológicas conhecidas, de um
modo geral, foram em muitos casos (32,65%) foram mais concordantes com suas classes
pré-definidas (Seção 3.3.4) após a filtragem , em outros casos (58,16%), a filtragem não
afetou a qualidade geral do agrupamento e em poucos casos (9,18%), os agrupamentos
após a filtragem foram menos concordantes com suas classes previamente definidas.
O grupo com amostras de cérebro é um desses grupos que foram menos concordantes
após a filtragem. O grupo de cérebro é composto por muitas amostras heterogêneas em
subgrupos, o que torna difı́cil distingui-las dentro desse grupo, além disso essa classificação
é dependente da correta e precisa classificação das amostras, porém essa classificação
minuciosa não foi possı́vel devido ao acesso restrito das informações do material de origem.
4.2 S3T - Score System for Sequence Tags
86
Figura 12: Distribuições das porcentagens de tags únicas para cada grupo de tags classificadas com
determinado score.
O resultado da análise das 359 bibliotecas apontam que as tags com scores -2 são
as mais abundantes dentre aquelas classificadas com scores negativos (Figura 15). Isso
foi observado para quase todas as bibliotecas, considerando a contagem de tags únicas
(distintas) e o total de tags (somatório das freqüências) (95,26% e 99,16%, respectivamente) (Figura 14), o que obviamente afeta as diferenças entre os dados completos e os
dados após a filtragem, e pode indicar quais bibliotecas não têm tags informativas com
qualidade suficiente. O critério para essa consideração depende da estringência da análise
e dos requisitos necessários.
Como demonstração de que a classificação por meio das regras não é aleatória e
4.2 S3T - Score System for Sequence Tags
87
Figura 13: Bibliotecas SAGE de cólon agrupadas com o método de ligação completa usando a distância
euclidiana, com os dados antes (a) e depois (b) da filtragem de tags com scores negativos classificadas
com o S3T.
sim direcionada e a filtragem proposta é útil para a obtenção de agrupamentos mais
coerentes, realizamos uma avaliação com a medida-F antes e após a filtragem das tags
com scores negativos, os quais foram atribuı́dos de forma aleatória para as 359 bibliotecas.
O processo foi repetido 100 vezes e cada resultado reamostrado 100 vezes, considerando
aleatoriamente em cada reamostragem, 40% do total de casos de agrupamentos (98).
Cada caso corresponde a uma avaliação do valor da medida-F antes e após a filtragem.
As distribuições dos dados de porcentagem de casos onde o valor da medida-F aumentou,
permaneceu igual ou diminuiu, estão representadas na Figura 16. Os valores médios
dessas três distribuições foram comparados com as médias obtidas das reamostragens dos
resultados da análise original com S3T e de uma análise alternativa, na qual são filtradas
as tags com uma única cópia na biblioteca (Tabela 7 e Tabela 8). As diferenças são
4.2 S3T - Score System for Sequence Tags
88
Tabela 6: Grupos histológicos de bibliotecas SAGE usadas na análise de agrupamento hierárquico
executada antes e depois (*) da filtragem de tags com scores negativos classificadas com o S3T, Os pares de
células da tabela com valores em negrito representam os casos onde houve uma melhoria na qualidade geral
do agrupamento [Medida-F aumentou (21,43% casos - cluster3; 47,62% casos - simcluster)] ou a qualidade
se manteve (69,64% casos - cluster3; 42,86% casos - simcluster), nos pares de células remanescentes a
qualidade diminuiu [Medida-F diminui (8,93% - cluster3; 9,52% - simcluster)], ou seja, os resultados não
estão concordantes com as classes pré-definidas.
Id
Grupos
Tags únicas
Medida-F global
(Amostras)
*
cluster3 (HOON et al., 2004) / simcluster (VENCIO et al., 2007)
(%)
M
A
*
S
*
C
*
*
1
9(56)
29,21
0,65
0,70
0,69
0,72
0,62
0,65
0,57
0,64
0,55
0,49
0,54
0,58
0,52
0,52
2
2(7)
29,11
0,84
0,79
1,00
0,86
0,90
0,79
0,90
0,79
0,90
0,79
0,90
0,79
0,90
0,90
3
2(24)
30,88
0,88
0,88
0,88
0,94
0,88
0,87
0,88
0,88
0,88
0,83
0,90
0,87
0,88
0,88
4
4(12)
33,35
0,94
1,00
1,00
1,00
0,94
0,94
1,00
1,00
0,94
0,90
0,94
0,89
0,94
0,94
5
2(4)
28,80
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
6
2(4)
42,70
1,00
0,83
1,00
0,83
1,00
0,83
1,00
0,83
1,00
0,83
1,00
0,83
1,00
1,00
7
14(45)
34,72
0,72
0,67
0,74
0,77
0,69
0,63
0,64
0,69
0,64
0,57
0,64
0,61
0,61
0,61
8
2(5)
27,57
0,88
1,00
1,00
0,88
0,88
1,00
1,00
0,88
0,88
0,87
1,00
0,88
0,88
0,88
9
2(5)
41,48
0,88
0,88
0,88
0,88
0,88
0,85
0,88
0,88
0,75
0,85
0,75
0,85
0,75
0,75
10
4(8)
45,00
0,83
0,92
0,83
0,92
0,83
0,92
0,83
0,92
0,83
0,83
0,83
0,92
0,83
0,83
11
3(11)
40,70
0,90
0,80
0,90
0,86
0,90
0,90
0,90
0,90
0,90
0,86
0,90
0,86
0,90
0,90
12
2(5)
28,30
0,77
0,77
0,80
0,88
0,77
0,72
0,77
0,88
0,77
0,72
0,77
0,85
0,77
0,77
13
2(6)
37,71
0,90
0,80
1,00
0,80
0,90
0,80
0,90
0,80
0,90
0,80
0,90
0,80
0,90
0,90
14
5(12)
33,63
0,83
0,73
0,83
0,78
0,83
0,76
0,83
0,79
0,83
0,71
0,83
0,73
0,76
0,76
Nota: Métodos de agrupamento: M-Ligação completa (Pairwise complete-linkage); S-Ligação individual (Pairwise singlelinkage); C-Ligação centróide (Pairwise centroid-linkage); A-Ligação média (Pairwise average-linkage). Grupos histológicos: 1-cérebro; 2-cartilagem; 3-cerebelo; 4-cólon; 5-fı́gado; 6-pulmão; 7-glândula mamária; 8-outros; 9-ovário; 10-pâncreas;
11-próstata; 12-retina; 13-estômago; 14-células brancas do sangue. Filtragem: *-Dados filtrados.
significativas considerando um valor de significância (p-value) menor que 0,005, o que
indica que a aplicação das regras e filtragem é direcionada a obter uma maior quantidade
de casos onde a medida-F aumenta comparada com a filtragem baseada na classificação
4.2 S3T - Score System for Sequence Tags
89
Figura 14: Representatividade dos scores mais abundantes considerando tags únicas (distintas) e o total
de tags nos resultados da classificação com o S3T.
Figura 15: Gráfico na escala semi-logarı́tmica com as tags únicas e a freqüência de tags para 359
bibliotecas SAGE humanas analisadas com S3T.
aleatória ou na abordagem alternativa.
Análises de dados de outras espécies ou plataformas
Para demonstrar a possibilidade de análise de dados de outras espécies, foram realizadas análises com dados de SAGE da espécie Mus musculus e com dados de bibliotecas
humanas das plataformas LongSAGE e SBS de 17-pb e MPSS. Os resultados estão dis-
4.2 S3T - Score System for Sequence Tags
90
Tabela 7: Valores médios (x̄) e desvios padrões (s) obtidos dos resultados das avaliações com a medida-F
antes e após a filtragem das tags com scores negativos, considerando as reamostragens de 40% dos casos
de agrupamentos na reamostragem para cada resultado.
Filtragem
Medida-F maior
x̄
score (original) < 0
f (tag) = 1
score (aleatório) < 0
32,33
28,46
11,23
s
Medida-F igual
x̄
6,98 57,74
7,71 63,67
6,03 32,27
s
Medida-F menor
x̄
7,41 8,56
7,96 10,38
8,94 56,50
s
4,36
4,36
9,35
Tabela 8: Valores de diferença e de significância estatı́stica comparando as médias das porcentagens dos
casos de agrupamentos, considerando as diferentes estratégias de filtragem.
Comparação
Diferença
x̄OA − x̄NA
x̄OB − x̄NB
x̄OC − x̄NC
x̄OA − x̄UA
x̄OB − x̄UB
x̄OC − x̄UC
x̄UA − x̄NA
x̄UB − x̄NB
x̄UC − x̄NC
p-value
21,10 4.189434e-52
25,48 1.405614e-57
-47,94 7.168772e-112
3,87 2.568801e-04
-5,92 1.524146e-07
-1,82 3.558173e-03
17,23 1.317266e-40
31,40 4.037871e-63
-46,12 4.724241e-110
A-casos onde o valor da medida-F é maior após a filtagem; B-casos onde o valor da medida-F é igual após a filtagem;
C-casos onde o valor da medida-F é menor após a filtagem; O-análise utilizando a filtragem baseada na classificação
original com S3T; N-análise utilizando a filtragem baseada na classificação aleatória; U-análise utilizando a filtragem
alternativa ( f (tag) = 1);
ponı́veis na página de material suplementar do S3T3 .
4.2.2
Disponibilidade e requisitos do sistema S3T
A disponibilidade e os requisitos essenciais para a instalação básica do S3T estão
discriminadas a seguir. A instalação básica permite a utilização dos métodos contidos
nas suas bibliotecas e alguns scripts para análise via linha de comando. Os requisitos
especı́ficos podem ser encontrados através do URI informado.
ˆ Nome: S3T - Score System for Sequence Tags;
ˆ URI: http://gdm.fmrp.usp.br/s3t;
ˆ Requisitos: Sistema operacional do tipo UNIX (e.g. Linux, FreeBSD, Solaris),
Linguagem de Programação Perl versão maior ou igual a 5.8.0, SGBD MySQL maior
3
http://gdm.fmrp.usp.br/cgi-bin/s3t/index.pl/alone?template file=supplements
4.2 S3T - Score System for Sequence Tags
91
Figura 16: Histograma dos resultados dos agrupamentos hierárquicos avaliados com a medida-F antes
e após a filtragem das tags com scores negativos. As classificações foram realizadas atribuindo aleatoriamente os mesmos scores disponı́veis (10,...,-7). Esse processo foi repetido 100 vezes, sendo cada uma
reamostrada 100 vezes. A figura mostra 3 histogramas representando os resultados onde após a filtragem:
(a.) as medidas-F são maiores, (b.) as medidas-F permanecem iguais e (c.) as medidas-F são menores.
As linhas vermelhas representam a Função Densidade de Probabilidade (FDP) dos resultados obtidos a
partir das classificações aleatórias. A linha verde na vertical representa a média da reamostragem aleatória (100 vezes) dos resultados obtidos a partir da análise original com S3T. A linha amarela vertical
representa a média da reamostragem aleatória (100 vezes) dos resultados obtidos a partir da filtragem
das tags que aparecem uma única vez na biblioteca ( f (tag) = 1).
ou igual a 4.1.13;
ˆ Licença: GNU GPL.
92
5
Conclusões
As informações obtidas com o desenvolvimento deste trabalho possibilita apresentar
as seguintes conclusões:
ˆ Desenvolvemos uma plataforma para a análise dos perfis de expressão gênica associ-
ados a informações funcionais. Essa plataforma compreende dois sistemas: o H2G,
para análise de expressão gênica diferencial e o S3T, para auxiliar na filtragem dos
dados e minimizar a presença de ruı́dos. Ambos os sistemas contribuem para a
identificação de marcadores moleculares.
ˆ Os recursos dos sistemas desenvolvidos estão disponı́veis livremente à comunidade
cientı́fica e podem ser acessados via página web, a qual permite a visualização formatada do conteúdo. Para não ficar restrito às funcionalidades já implementadas,
os recursos também estão disponı́veis por meio das bibliotecas de desenvolvimento,
que permitem ao usuário estender ou implementar novas funcionalidades. Alguns
dos métodos desenvolvidos também estão disponı́veis via SOAP para que possam
acessar o conteúdo do servidor principal de dados constituı́do no LGMB;
ˆ A metodologia para depuração das bibliotecas de tags foi desenvolvida, implemen-
tada e testada. O resultado da análise das bibliotecas públicas de SAGE e as comparações dos agrupamento hierárquicos forneceram evidências de que as bibliotecas
de SAGE possuem em si uma série de artefatos ou outras tags que podem ser descartadas sem prejudicar o perfil global de expressão;
ˆ A análise de agrupamento fornece evidências de que o método com o conjunto de
regras selecionado para demonstração pode eliminar ruı́dos nos dados. Porém há
desafios que devem ser superados para uma avaliação mais criteriosa, como por
exemplo:
– identificação de amostras com baixa heterogeneidade para um determinado
tipo celular (e.g. amostras obtidas por microdissecção);
5 Conclusões
93
– identificação de bibliotecas com informações mais precisas a respeito da amostra, como por exemplo o estadiamento do tumor. As classificações das bibliotecas utilizando ontologias poderiam ser uma solução;
– utilização de critérios mais rigorosos para a inclusão da biblioteca na análise
(e.g. análise de qualidade da biblioteca);
– utilização de um número maior de bibliotecas para cada classe;
ˆ As análises do S3T com dados de bibliotecas de SAGE de camundongos (Mus muscu-
lus) e dados de MPSS, LongSAGE e SBS, demonstram que o método de classificação
e a ferramenta podem ser utilizados também com dados de outras espécies e outras
plataformas e tecnologias que seguem o mesmo princı́pio de SAGE.
ˆ O H2G tem sido utilizado como suporte a vários projetos (ZANETTE, 2003; PA-
NEPUCCI et al., 2004; SANTOS, 2006; SOUZA et al., 2006; PANEPUCCI et al.,
2007; PROTO-SIQUEIRA et al., 2008; MENDIBURU et al., 2008; SILVEIRA et
al., 2008; ALVES et al., 2008) e laboratórios, tais como:
– Laboratórios do Centro de Terapia Celular1 ;
– Rede de laboratórios do Projeto Genoma Clı́nico2 ;
– Instituto do Coração do Hospital das Clı́nicas;
– Instituto Ludwig de Pesquisas sobre o Câncer;
– Laboratórios de Investigações Médicas da FM-USP;
– Laboratório de Bioinformática do Hospital A.C.Camargo;
– Laboratório de Genética Molecular do Câncer da FM-USP;
– Laboratório de Polimorfismos de DNA;
– Laboratório de Endocrinologia da FMRP-USP;
– Laboratório de Genética da UNESP de São José do Rio Preto;
– Laboratório de Neuro Psico Farmacologia da FMRP-USP;
ˆ Além de atuar como um repositório de dados, o H2G tem sido utilizado para sele-
cionar genes candidatos à validação experimental. No caso da análise comparativa
entre tecido neoplásico e sua contraparte normal, é possı́vel selecionar genes diferencialmente expressos que potencialmente estão envolvidos com o desenvolvimento
do tumor;
1 http://ctc.fmrp.usp.br/
2 http://www.compbio.ludwig.org.br/clinicalgenomics/index.html
94
6
Perspectivas
Entre as perspectivas e desafios para futuras implementações que podem surgir como
conseqüências deste trabalho estão as seguintes:
ˆ As adaptações necessárias no sistema H2G deverão ser realizadas para permitir a
comparação de dados de expressão gênica em três ou mais amostras de distintos
tipos, condições ou situações biológicas de interesse, por exemplo, amostras nos
vários estágios de transformação e progressão tumoral;
ˆ A utilização de ontologias no sistema H2G serão necessárias para promover ainda
mais a integração dos dados e a organização da informação biológica;
ˆ Outras medidas para a avaliação das diferenças de expressão gênica podem ser adici-
onadas para complementar os resultados. Além da incorporação de outros métodos
de data mining, como por exemplo o algoritmos para extração de regras de associação, agrupamentos hierárquicos, agrupamentos k-means, entre outros que podem
auxiliar no processo de aquisição de conhecimento a partir desses dados;
ˆ Meta-análises podem ser incorporadas para tornar possı́vel a comparação dos dados
entre plataformas distintas;
ˆ Outras ferramentas de visualização também podem ser implementadas para tornar
a representação dos resultados mais informativas, como por exemplo a visualização
das regiões expressas dos cromossomos;
ˆ Utilizar o padrão MIAME para a organização e estruturação dos dados biológicos;
ˆ Incluir dados das tecnologias de microarrays;
ˆ Adaptações necessárias no S3T deverão ser feitas para a classificação dos dados
de expressão gênica de outras espécies, aumentando dessa forma, a abrangência da
aplicação;
6 Perspectivas
95
ˆ Considerar nas regras também os possı́veis polimorfismos que poderiam ocasionar
a ocorrência de tags alternativas verdadeiras, provavelmente contribuiria para uma
classificação mais precisa;
ˆ Estabelecer regras de classificação considerando outros conhecimentos a respeito
da natureza do dado biológico, como os encontrados em tipos celulares especı́ficos,
também poderia levar a uma classificação mais precisa;
ˆ A Incorporação de um valor de significância ou probabilidade para a classificação,
auxiliaria ainda mais a de avaliação da confiabilidade atribuı́da a uma determinada
tag. A obtenção desse valor poderia levar em conta as intersecções existentes entre
os conjuntos de tags virtuais;
ˆ Uma investigação minuciosa da origem das tags que não são compatı́veis com ne-
nhuma das regras estabelecidas pode agregar novos conhecimentos e melhorias ao
processo de classificação e também auxiliar no desenvolvimento e aperfeiçoamento
das tecnologias consideradas;
ˆ A incorporação de uma metodologia para a correção de potenciais erros de seqüenci-
amento e ajuste do valor de freqüência das tags, como as abordagens propostas por
Blades (2003), Akmaev e Wang (2004) e Beissbarth et al. (2004), podem contribuir
para a obtenção de perfis de expressão gênica ainda mais fidedignos;
ˆ A implementação de uma ferramenta “user-friendly” pode ser incorporada ao sistema
web para a configuração de um conjunto de regras personalizado. Essa melhoria
poderá auxiliar o pesquisador a estabelecer um conjunto de regras mais adequado
às suas necessidades;
ˆ Considerar outras montagens de genomas ou genomas de indivı́duos, se disponı́veis,
como no caso do genoma humano (LEVY et al., 2007; WHEELER et al., 2008).
Isso poderia auxiliar na detecção de possı́veis tags alternativas válidas;
ˆ Considerar um grupo de tags virtuais definidas a partir de predições gênicas. A
identidade de tags obtidas de experimentos reais com tags desse grupo poderiam ser
evidências de transcrição dessa região.
96
Referências Bibliográficas
ADAMS, M. D. et al. Complementary dna sequencing: expressed sequence tags and human genome project. Science, Section of Receptor Biochemistry and Molecular Biology, National Institute of Neurological Disorders and Stroke, National Institutes of
Health, Bethesda, MD., v. 252, n. 5013, p. 1651–1656, Jun 1991.
AITCHISON, J. Simplicial inference. In: VIANA, M. A. G.; RICHARDS, D. S. P. (Ed.).
Algebraic methods in statistics and probability (Notre Dame, IN, 2000). Providence,
RI: Amer. Math. Soc., 2001. (Contemp. Math., v. 287), p. 1–22.
AKMAEV, V. R.; WANG, C. J. Correction of sequence-based artifacts in serial analysis
of gene expression. Bioinformatics, Genzyme Corporation, Framingham, MA 017019322, USA. [email protected], v. 20, n. 8, p. 1254–1263, May 2004.
ALVES, V. A. et al. Annexin a1 subcellular expression in laryngeal squamous cell carcinoma. Histopathology, Department of Pathology, School of Medicine, USP, Sao
Paulo, Brazil., v. 53, n. 6, p. 715–727, Dec 2008.
AMBROS, V. The functions of animal micrornas. Nature, Dartmouth Medical
School, Department of Genetics, Hanover, New Hampshire 03755, USA (e-mail:
[email protected]), v. 431, n. 7006, p. 350–355, Sep 2004.
AMBROS, V. et al. A uniform system for microrna annotation. RNA, Dartmouth Medical School Department of Genetics, Hanover, New Hampshire 03755, USA. [email protected], v. 9, n. 3, p. 277–279, Mar 2003.
ANGELASTRO, J. M.; KLIMASCHEWSKI, L. P.; VITOLO, O. V. Improved nlaiii digestion of page-purified 102 bp ditags by addition of a single purification step in
both the sage and microsage protocols. Nucleic Acids Res, Department of Pathology and Taub Center for Alzheimer’s Disease Research and Center for Neurobiology
and Behavior, College of Physicians and Surgeons, Columbia University, New York,
NY 10032, USA. [email protected], v. 28, n. 12, p. E62, Jun 2000.
APWEILER, R. et al. Uniprot: the universal protein knowledgebase. Nucleic Acids Res,
The EMBL Outstation–European Bioinformatics Institute, Wellcome Trust Genome
Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 32, n. Database issue, p. D115–D119, Jan 2004.
AUDIC, S.; CLAVERIE, J. M. The significance of digital gene expression profiles. Genome Res, Laboratory of Structural and Genetic Information, Centre National de
la Recherche Scientifique-E.P.91, Marseille 13402, France., v. 7, n. 10, p. 986–995,
Oct 1997.
Referências Bibliográficas
97
BALA, P. et al. Tagmapper: a web-based tool for mapping sage tags. Gene, Institute
of Bioinformatics, International Tech Park, Whitefield Road, Bangalore 560 066,
India., v. 364, p. 123–129, Dec 2005.
BARRETT, T. et al. Ncbi geo: mining millions of expression profiles–database and tools.
Nucleic Acids Res, National Center for Biotechnology Information, National Library
of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD, USA.,
v. 33, n. Database issue, p. D562–D566, Jan 2005.
BARTEL, D. P. Micrornas: genomics, biogenesis, mechanism, and function. Cell, Whitehead Institute for Biomedical Research, 9 Cambridge Center, Cambridge, MA
02142, USA. [email protected], v. 116, n. 2, p. 281–297, Jan 2004.
BEISSBARTH, T. et al. Statistical modeling of sequencing errors in sage libraries. Bioinformatics, Walter and Eliza Hall Institute of Medical Research, Genetics and
Bioinformatics, Parkville, Vic, Australia. [email protected], v. 20 Suppl 1, p.
i31–i39, Aug 2004.
BENNETT, S. T. et al. Toward the 1,000 dollars human genome. Pharmacogenomics, Solexa Limited, Chesterford Research Park,Little Chesterford,Essex CB10 1XL, UK.,
v. 6, n. 4, p. 373–382, Jun 2005.
BENSON, D. A. et al. Genbank. Nucleic Acids Res, National Center for Biotechnology
Information, National Library of Medicine, National Institutes of Health, Bethesda,
MD, USA., v. 37, n. Database issue, p. D26–D31, Jan 2009.
BENTLEY, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature, Illumina Cambridge Ltd. (Formerly Solexa Ltd), Chesterford Research Park, Little Chesterford, Nr Saffron Walden, Essex CB10 1XL, UK.
[email protected], v. 456, n. 7218, p. 53–59, Nov 2008.
BESSON, J. et al. Constraint-based concept mining and its application to microarray
data analysis. Intell. Data Anal., IOS Press, Amsterdam, The Netherlands, The
Netherlands, v. 9, n. 1, p. 59–82, 2005. ISSN 1088-467X.
BLADES, N. J. Statistical methods for serial analysis of gene expression. Tese (Doutorado)
— The Johns Hopkins University, 2003.
BOGUSKI, M. S.; LOWE, T. M.; TOLSTOSHEV, C. M. dbest–database for ’expressed
sequence tags’. Nat Genet, v. 4, n. 4, p. 332–333, Aug 1993.
BOGUSKI, M. S.; TOLSTOSHEV, C. M.; DE, J. r. B. Gene discovery in dbest. Science,
v. 265, n. 5181, p. 1993–1994, Sep 1994.
BOON, K. et al. An anatomy of normal and malignant gene expression. Proc Natl Acad
Sci U S A, Duke University Medical Center, Durham, NC 27710, USA., v. 99, n. 17,
p. 11287–11292, Aug 2002.
BRANDÃO, R. M. Abordagem computacional aplicada ao desenvolvimento de um SAGEmap de Apis mellifera. Dissertação (Mestrado) — Faculdade de Medicina de
Ribeirão Preto – Universidade de São Paulo, 2009.
Referências Bibliográficas
98
BRAZMA, A. et al. Minimum information about a microarray experiment (miame)toward standards for microarray data. Nat Genet, European Bioinformatics Institute, EMBL outstation, Wellcome Trust Genome Campus, Hinxton, Cambridge
CB10 1SD, UK. [email protected], v. 29, n. 4, p. 365–371, Dec 2001.
BRAZMA, A. et al. Arrayexpress–a public repository for microarray gene expression data
at the ebi. Nucleic Acids Res, European Bioinformatics Institute, EMBL-EBI, Wellcome Trust Genome Campus, Hinxton CB10 1SD, UK. [email protected], v. 31,
n. 1, p. 68–71, Jan 2003.
BRAZMA, A.; VILO, J. Gene expression data analysis. FEBS Lett, European Molecular Biology Laboratory, Outstation Hinxton-The European Bioinformatics Institute,
Cambridge, UK. [email protected], v. 480, n. 1, p. 17–24, Aug 2000.
BRENNER, S. et al. Gene expression analysis by massively parallel signature sequencing (mpss) on microbead arrays. Nat Biotechnol, Lynx Therapeutics, Inc., 25861
Industrial Blvd., Hayward, California 94545, USA., v. 18, n. 6, p. 630–634, Jun 2000.
BRENNER, S. et al. In vitro cloning of complex mixtures of dna on microbeads: physical
separation of differentially expressed cdnas. Proc Natl Acad Sci U S A, Lynx Therapeutics, Inc., 25861 Industrial Boulevard, Hayward, CA 94545, USA., v. 97, n. 4,
p. 1665–1670, Feb 2000.
BURGE, C. B.; KARLIN, S. Finding the genes in genomic dna. Curr Opin Struct Biol,
Center for Cancer Research, Massachusetts Institute of Technology, Cambridge
02139, USA. [email protected], v. 8, n. 3, p. 346–354, Jun 1998.
BUTTE, A. The use and analysis of microarray data. Nat Rev Drug Discov,
Children’s Hospital Informatics Program and Division of Endocrinology, Children’s Hospital, 300 Longwood Avenue, Boston, Massachusetts 02115, USA.
atul [email protected], v. 1, n. 12, p. 951–960, Dec 2002.
CA, . r. d. H. Dna sequencing: bench to bedside and beyond. Nucleic Acids Res, J.
Craig Venter Institute, 9704 Medical Center Drive, Rockville, MD 20850, USA.
[email protected], v. 35, n. 18, p. 6227–6237, 2007.
CAI, L. et al. Clustering analysis of sage data using a poisson approach. Genome Biol,
Department of Biostatistics, Harvard School of Public Health, 66 Huntington Avenue, Boston, MA 02115, USA. [email protected], v. 5, n. 7, p. R51,
2004.
CAMON, E. et al. The gene ontology annotation (goa) database: sharing knowledge
in uniprot with gene ontology. Nucleic Acids Res, European Bioinformatics Institute (EBI), Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK.
[email protected], v. 32, n. Database issue, p. D262–D266, Jan 2004.
CARON, H. et al. The human transcriptome map: clustering of highly expressed genes in
chromosomal domains. Science, Department of Human Genetics, Department of Pediatric Oncology, Emma Children’s Hospital, Academic Medical Center, University
of Amsterdam, Post Office Box 22700, 1100 DE Amsterdam, Netherlands., v. 291,
n. 5507, p. 1289–1292, Feb 2001.
Referências Bibliográficas
99
CHEN, H. et al. Characterization of gene expression in resting and activated mast cells.
J Exp Med, Arthritis and Rheumatism Branch, National Institute of Arthritis and
Musculoskeletal and Skin Diseases, National Institutes of Health, Bethesda, MD
20892, USA. [email protected], v. 188, n. 9, p. 1657–1668, Nov 1998.
CHEN, J. et al. High-throughput glgi procedure for converting a large number of serial
analysis of gene expression tag sequences into 3’ complementary dnas. Genes Chromosomes Cancer, Department of Medicine, University of Chicago, Chicago, IL
60637, USA., v. 33, n. 3, p. 252–261, Mar 2002.
CHEN, J.; RATTRAY, M. Analysis of tag-position bias in mpss technology. BMC Genomics, School of Computer Science, University of Manchester, Manchester, UK.
[email protected], v. 7, p. 77, 2006.
CHEN, J. et al. Identifying novel transcripts and novel genes in the human genome by
using novel sage tags. Proc Natl Acad Sci U S A, Department of Medicine, University
of Chicago, 5841 South Maryland, MC2115, Chicago, IL 60637, USA., v. 99, n. 19,
p. 12257–12262, Sep 2002.
CHUAQUI, R. F. et al. Post-analysis follow-up and validation of microarray experiments.
Nat Genet, Pathogenetics Unit, Laboratory of Pathology and Urologic Oncology
Branch, Center for Cancer Research, National Cancer Institute, Bethesda, Maryland
20892, USA., v. 32 Suppl, p. 509–514, Dec 2002.
CLAVERIE, J. M. Computational methods for the identification of differential and coordinated gene expression. Hum Mol Genet, Structural and Genetic Information
Laboratory, Chemin Joseph Aiguier, Marseille, France. [email protected], v. 8,
n. 10, p. 1821–1832, 1999.
COCHRANE, G. et al. Petabyte-scale innovations at the european nucleotide archive.
Nucleic Acids Res, EMBL-European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 37, n.
Database issue, p. D19–D25, Jan 2009.
COLINGE, J.; FEGER, G. Detecting the impact of sequencing errors on sage data. Bioinformatics, Serono Pharmaceutical Research Institute, Ch. des Aulx 14, CH-1228
Plan-les-Ouates, Switzerland., v. 17, n. 9, p. 840–842, Sep 2001.
CUMMINS, J. M. et al. The colorectal micrornaome. Proc Natl Acad Sci U S A, The Sidney Kimmel Comprehensive Cancer Center and Howard Hughes Medical Institute,
Johns Hopkins University Medical Institutions, Baltimore, MD 21231, USA., v. 103,
n. 10, p. 3687–3692, Mar 2006.
DATE, C. J. An Introduction to Database Systems. Boston, MA, USA: Addison-Wesley
Longman Publishing Co., Inc., 2003. ISBN 0321197844.
DATSON, N. A. et al. Microsage: a modified procedure for serial analysis of gene expression in limited amounts of tissue. Nucleic Acids Res, Division of Medical Pharmacology, Leiden/Amsterdam Center for Drug Research, Leiden University, PO Box
9503, 2300 RA Leiden, The Netherlands. datson [email protected], v. 27, n. 5,
p. 1300–1307, Mar 1999.
Referências Bibliográficas
100
DIVINA, P.; FOREJT, J. The mouse sage site: database of public mouse sage libraries.
Nucleic Acids Res, Centre for Integrated Genomics, Institute of Molecular Genetics,
Academy of Sciences of the Czech Republic, Videnska 1083, CZ-142 20, Prague 4,
Czech Republic., v. 32, n. Database issue, p. D482–D483, Jan 2004.
EDGAR, R.; DOMRACHEV, M.; LASH, A. E. Gene expression omnibus: Ncbi gene expression and hybridization array data repository. Nucleic Acids Res, National Center
for Biotechnology Information, National Library of Medicine, National Institutes of
Health, Lister Hill Center, 8600 Rockville Pike, Bethesda, MD 20894, USA., v. 30,
n. 1, p. 207–210, Jan 2002.
EILBECK, K. et al. The sequence ontology: a tool for the unification of genome annotations. Genome Biol, Department of Molecular and Cellular Biology, Life Sciences Addition, University of California, Berkeley, CA 94729-3200, USA. [email protected], v. 6, n. 5, p. R44, 2005.
EISEN, M. B. et al. Cluster analysis and display of genome-wide expression patterns.
Proc Natl Acad Sci U S A, Department of Genetics, Stanford University School of
Medicine, 300 Pasteur Avenue, Stanford, CA 94305, USA., v. 95, n. 25, p. 14863–
14868, Dec 1998.
ELMASRI, R.; NAVATHE, S. B. Fundamentals of Database Systems (5th
Edition). Addison Wesley, 2006. Hardcover. ISBN 0321369572. Disponı́vel
em:
<http://www.amazon.ca/exec/obidos/redirect?tag=citeulike0920&amp;path=ASIN/0321369572>.
EMMERT-BUCK, M. R. et al. Molecular profiling of clinical tissue specimens: feasibility and applications. Am J Pathol, Pathogenetics Unit, Laboratory of Pathology,
National Cancer Institute, Bethesda, Maryland 20892, USA. [email protected],
v. 156, n. 4, p. 1109–1115, Apr 2000.
EWING, B. et al. Base-calling of automated sequencer traces using phred. i. accuracy
assessment. Genome Res, Department of Molecular Biotechnology, University of
Washington, Seattle, Washington 98195-7730, USA., v. 8, n. 3, p. 175–185, Mar
1998.
FISHER, R. A. On the interpretation of χ 2 from contingency tables and the calculation
of p. Journal of the Royal Statistical Society, v. 85, p. 87–94, 1922.
FITCH, W. M. Distinguishing homologous from analogous proteins. Syst Zool, v. 19, n. 2,
p. 99–113, Jun 1970.
FREEMAN, W. M.; ROBERTSON, D. J.; VRANA, K. E. Fundamentals of dna hybridization arrays for gene expression analysis. Biotechniques, Wake Forest University
School of Medicine, Winston-Salem, NC, USA., v. 29, n. 5, p. 1042–6, 1048–55, Nov
2000.
GALANTE, P. A. et al. Automatic correspondence of tags and genes (actg): a tool for
the analysis of sage, mpss and sbs data. Bioinformatics, Departamento de Bioquimica, Instituto de Quimica, Universidade de Sao Paulo, Sao Paulo, Brazil. [email protected], v. 23, n. 7, p. 903–905, Apr 2007.
Referências Bibliográficas
101
GARRETT, J. J. Ajax: A New Approach to Web Applications. 2005. Disponı́vel
em: <http://www.adaptivepath.com/ideas/essays/archives/000385.php>. Acesso
em: 16 mai. 2009.
GE, X. et al. A large quantity of novel human antisense transcripts detected by longsage.
Bioinformatics, Center for Functional Genomics, Division of Medical Genetics, Department of Medicine, ENH Research Institute, Northwestern University Feinberg
School of Medicine 1001 University Place, Evanston, IL 60201 USA., v. 22, n. 20, p.
2475–2479, Oct 2006.
GENTLEMAN, R. C. et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biol, Department of Biostatistical Science, Dana-Farber Cancer Institute, 44 Binney St, Boston, MA 02115, USA. [email protected], v. 5, n. 10, p. R80, 2004.
GOLUB, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, Whitehead Institute/Massachusetts
Institute of Technology Center for Genome Research, Cambridge, MA 02139, USA.
[email protected], v. 286, n. 5439, p. 531–537, Oct 1999.
GOTO, S.; NISHIOKA, T.; KANEHISA, M. Ligand: chemical database of enzyme reactions. Nucleic Acids Res, Institute for Chemical Research, Kyoto University, Uji,
Kyoto 611-0011, Japan. [email protected], v. 28, n. 1, p. 380–382, Jan 2000.
GOWDA, M. et al. Robust-longsage (rl-sage): a substantially improved longsage method
for gene discovery and transcriptome analysis. Plant Physiol, Department of Plant
Pathology, Ohio State University, Columbus, Ohio 43210, USA., v. 134, n. 3, p.
890–897, Mar 2004.
GRAFF, J. C. et al. A comprehensive sage database for the analysis of gammadelta t cells.
Int Immunol, Veterinary Molecular Biology, Montana State University, Bozeman,
MT 59717, USA., v. 18, n. 4, p. 613–626, Apr 2006.
GRELLER, L. D.; TOBIN, F. L. Detecting selective expression of genes and proteins.
Genome Res, Bioinformatics-Mathematical Biology, SmithKline Beecham Pharmaceuticals Research &amp; Development, King of Prussia, Pennsylvania 19406
USA.Larry [email protected], v. 9, n. 3, p. 282–296, Mar 1999.
GRIFFITHS-JONES, S. The microrna registry. Nucleic Acids Res, The Wellcome Trust
Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 9SA,
UK. [email protected], v. 32, n. Database issue, p. D109–D111, Jan 2004.
GRIFFITHS-JONES, S. et al. mirbase: microrna sequences, targets and gene nomenclature. Nucleic Acids Res, The Wellcome Trust Sanger Institute, Wellcome Trust
Genome Campus, Hinxton, Cambridge CB10 1SA, UK. [email protected], v. 34, n.
Database issue, p. D140–D144, Jan 2006.
GRIFFITHS-JONES, S. et al. mirbase: tools for microrna genomics. Nucleic Acids Res,
Faculty of Life Sciences, University of Manchester, Michael Smith Building, Oxford
Road, Manchester, UK. [email protected], v. 36, n. Database
issue, p. D154–D158, Jan 2008.
Referências Bibliográficas
102
GRUBER, T. R. A translation approach to portable ontology specifications. Knowl. Acquis., Academic Press Ltd., London, UK, UK, v. 5, n. 2, p. 199–220, 1993. ISSN
1042-8143.
GUSFIELD, D. Algorithms on String, Trees, and Sequences. Cambridge: Cambridge University Press, 1997.
HANRIOT, L. et al. A combination of longsage with solexa sequencing is well suited to
explore the depth and the complexity of transcriptome. BMC Genomics, UMR5534
CNRS Universite Claude Bernard Lyon1, Universite de Lyon, Institut Federatif des
Neurosciences de Lyon, Lyon cedex, France. [email protected], v. 9, p. 418,
2008.
HARBERS, M.; CARNINCI, P. Tag-based approaches for transcriptome research
and genome annotation. Nat Methods, K.K. Dnaform, Tsukuba Branch, 31 Chuo 8-chome, Ami Machi, Inashiki Gun, Ibaraki, 300-0332, Japan.
[email protected], v. 2, n. 7, p. 495–502, Jul 2005.
HARRIS, M. A. et al. The gene ontology (go) database and informatics resource. Nucleic
Acids Res, GO-EBI, Hinxton, UK., v. 32, n. Database issue, p. D258–D261, Jan
2004.
HARTE, N. et al. Public web-based services from the european bioinformatics institute. Nucleic Acids Res, European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SD, UK., v. 32, n. Web Server issue, p.
W3–W9, Jul 2004.
HASHIMOTO, S. et al. 5’-end sage for the analysis of transcriptional start sites. Nat
Biotechnol, v. 22, n. 9, p. 1146–1149, Sep 2004.
HAVERTY, P. M. et al. Limited agreement among three global gene expression methods
highlights the requirement for non-global validation. Bioinformatics, Bioinformatics
Program, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA,
USA., v. 20, n. 18, p. 3431–3441, Dec 2004.
HIETER, P.; BOGUSKI, M. Functional genomics: it’s all how you read it. Science,
Center for Molecular Medicine and Therapeutics, Department of Medical Genetics,
University of British Columbia, Vancouver, BC, V6T124 Canada., v. 278, n. 5338,
p. 601–602, Oct 1997.
HISHIKI, T. et al. Bodymap: a human and mouse gene expression database. Nucleic Acids
Res, Institute for Molecular and Cellular Biology, Osaka University, 1-3 Yamadaoka,
Suita, Osaka 565-0871, Japan., v. 28, n. 1, p. 136–138, Jan 2000.
HOON, M. J. de et al. Open source clustering software. Bioinformatics, Human Genome Center, Institute of Medical Science, University of Tokyo, 4-6-1 Shirokanedai, Minato-ku, Tokyo, 108-8639 Japan. [email protected], v. 20, n. 9, p.
1453–1454, Jun 2004.
ISELI, C.; JONGENEEL, C. V.; BUCHER, P. Estscan: a program for detecting, evaluating, and reconstructing potential coding regions in est sequences. Proc Int Conf
Referências Bibliográficas
103
Intell Syst Mol Biol, Swiss Institute of Bioinformatics, Epalinges, Switzerland.
[email protected], p. 138–148, 1999.
JONGENEEL, C. V. et al. An atlas of human gene expression from massively parallel
signature sequencing (mpss). Genome Res, Office of Information Technology, Ludwig
Institute for Cancer Research, and Swiss Institute of Bioinformatics, 1015 Lausanne,
Switzerland. [email protected], v. 15, n. 7, p. 1007–1014, Jul 2005.
KAL, A. J. et al. Dynamics of gene expression revealed by comparison of serial analysis of
gene expression transcript profiles from yeast grown on two different carbon sources.
Mol Biol Cell, Department of Biochemistry, University of Amsterdam, Academic
Medical Center, 1105 AZ Amsterdam, The Netherlands., v. 10, n. 6, p. 1859–1872,
Jun 1999.
KAMPEN, A. H. van et al. Usage: a web-based approach towards the analysis of sage
data. serial analysis of gene expression. Bioinformatics, Bioinformatics Laboratory,
Academic Medical Center, Meibergdreef 9, 1000 AZ Amsterdam, The Netherlands.
[email protected], v. 16, n. 10, p. 899–905, Oct 2000.
KANEHISA, M. et al. Kegg for linking genomes to life and the environment. Nucleic Acids
Res, Bioinformatics Center, Institute for Chemical Research, Kyoto University, Uji,
Kyoto, Japan., v. 36, n. Database issue, p. D480–D484, Jan 2008.
KANEHISA, M.; GOTO, S. Kegg: kyoto encyclopedia of genes and genomes. Nucleic
Acids Res, Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011,
Japan. [email protected], v. 28, n. 1, p. 27–30, Jan 2000.
KAWAMOTO, S. et al. Expression profiling by iaflp: A pcr-based method for genomewide gene expression profiling. Genome Res, Institute for Molecular and Cellular
Biology, Osaka University, 1-3, Yamada-oka, Suita, Osaka 565 Japan., v. 9, n. 12,
p. 1305–1312, Dec 1999.
KEIME, C. et al. Identitag, a relational database for sage tag identification and interspecies comparison of sage libraries. BMC Bioinformatics, Equipe Signalisation et identites cellulaires, Centre de Genetique Moleculaire et Cellulaire CNRS UMR 5534,
Universite Claude Bernard Lyon 1, batiment Gregor Mendel, 16 rue Raphael Dubois
69622 Villeurbanne cedex France. [email protected], v. 5, p. 143, Oct 2004.
KEIME, C. et al. Unexpected observations after mapping longsage tags to the
human genome. BMC Bioinformatics, Universite de Lyon, Lyon, France.
[email protected], v. 8, p. 154, 2007.
KEL-MARGOULIS, O. V. et al. Compel: a database on composite regulatory elements providing combinatorial transcriptional regulation. Nucleic Acids Res, Institute of Cytology, SB RAN, 10 Lavrentyev pr., 630090, Novosibirsk, Russia.
[email protected], v. 28, n. 1, p. 311–315, Jan 2000.
KELLER, A.; BACKES, C.; LENHOF, H. P. Computation of significance scores of
unweighted gene set enrichment analyses. BMC Bioinformatics, Center for Bioinformatics, Saarland University, Building E1 1, 66804 Saarbrucken, Germany.
[email protected], v. 8, p. 290, 2007.
Referências Bibliográficas
104
KELSO, J. et al. evoc: a controlled vocabulary for unifying gene expression data. Genome
Res, South African National Bioinformatics Institute, University of the Western
Cape, Bellville, South Africa., v. 13, n. 6A, p. 1222–1230, Jun 2003.
KENT, W. J. Blat–the blast-like alignment tool. Genome Res, Department of Biology and
Center for Molecular Biology of RNA, University of California-Santa Cruz, Santa
Cruz, CA 95064, USA. [email protected], v. 12, n. 4, p. 656–664, Apr 2002.
KENT, W. J. et al. The human genome browser at ucsc. Genome Res, Department of Molecular, Cellular, and Developmental Biology, University of California, Santa Cruz,
CA 95064, USA. [email protected], v. 12, n. 6, p. 996–1006, Jun 2002.
KENZELMANN, M.; MUHLEMANN, K. Substantially enhanced cloning efficiency of
sage (serial analysis of gene expression) by adding a heating step to the original
protocol. Nucleic Acids Res, Institute of Medical Microbiology, University of Bern,
Friedbuhlstrasse 51, 3010 Bern, Switzerland., v. 27, n. 3, p. 917–918, Feb 1999.
KEOHAVONG, P.; THILLY, W. G. Fidelity of dna polymerases in dna amplification. Proc
Natl Acad Sci U S A, Center for Environmental Health Sciences, Whitaker College
of Health Sciences and Technology, Cambridge, MA., v. 86, n. 23, p. 9253–9257, Dec
1989.
KIDD, J. M. et al. Mapping and sequencing of structural variation from eight human
genomes. Nature, Department of Genome Sciences and Howard Hughes Medical Institute, University of Washington, Seattle, Washington 98195, USA., v. 453, n. 7191,
p. 56–64, May 2008.
KOLCHANOV, N. A. et al. Integrated databases and computer systems for studying
eukaryotic gene expression. Bioinformatics, Institute of Cytology &amp; Genetics,
Siberian Branch of the Russian Academy of Sciences, Prosp. Lavrentieva 10, Novosibirsk 630090, Russia. [email protected], v. 15, n. 7-8, p. 669–686, Jul 1999.
KORBEL, J. O. et al. Paired-end mapping reveals extensive structural variation in the
human genome. Science, Molecular Biophysics and Biochemistry Department, Yale
University, New Haven, CT 06520, USA., v. 318, n. 5849, p. 420–426, Oct 2007.
KUO, B. Y. et al. Sage2splice: unmapped sage tags reveal novel splice junctions. PLoS
Comput Biol, Genetics Graduate Program, University of British Columbia, Vancouver, British Columbia, Canada., v. 2, n. 4, p. e34, Apr 2006.
KUO, W. P. et al. A sequence-oriented comparison of gene expression measurements across
different hybridization-based technologies. Nat Biotechnol, Department of Developmental Biology, Harvard School of Dental Medicine, 188 Longwood Ave., Boston,
Massachusetts 02115, USA. [email protected], v. 24, n. 7, p. 832–840,
Jul 2006.
LAL, A. et al. A public database for gene expression in human cancers. Cancer Res,
Department of Pathology, Duke University Medical Center, Durham, North Carolina
27710, USA., v. 59, n. 21, p. 5403–5407, Nov 1999.
Referências Bibliográficas
105
LANDER, E. S. et al. Initial sequencing and analysis of the human genome. Nature, Whitehead Institute for Biomedical Research, Center for Genome Research, Cambridge,
Massachusetts 02142, USA. [email protected], v. 409, n. 6822, p. 860–921,
Feb 2001.
LASH, A. E. et al. Sagemap: a public gene expression resource. Genome Res, National
Center for Biotechnology Information, National Institutes of Health, Bethesda, MD
20894 USA. [email protected], v. 10, n. 7, p. 1051–1060, Jul 2000.
LEE, S. et al. Correct identification of genes from serial analysis of gene expression tag
sequences. Genomics, Department of Medicine, University of Chicago, 5841 S. Maryland, MC2115, Chicago, Illinois 60637, USA., v. 79, n. 4, p. 598–602, Apr 2002.
LEE, T. L. et al. Germsage: a comprehensive sage database for transcript discovery on
male germ cell development. Nucleic Acids Res, Section on Developmental Genomics, Laboratory of Clinical Genomics, Eunice Kennedy Shriver National Institute
of Child Health and Human Development, National Institutes of Health, Bethesda,
MD 20892, USA., v. 37, n. Database issue, p. D891–D897, Jan 2009.
LEVINE, M.; TJIAN, R. Transcription regulation and animal diversity. Nature, Department of Molecular and Cell Biology, Division of Genetics and Development, Center for Integrative Genomics, University of California, Berkeley, 401 Barker Hall,
Berkeley, California 94720, USA. [email protected], v. 424, n. 6945, p.
147–151, Jul 2003.
LEVY, S. et al. The diploid genome sequence of an individual human. PLoS Biol, J. Craig
Venter Institute, Rockville, Maryland, USA. [email protected], v. 5, n. 10, p. e254, Sep
2007.
LEYRITZ, J. et al. Squat: A web tool to mine human, murine and avian sage data.
BMC Bioinformatics, Equipe Bases Moleculaires de l’Autorenouvellement et de
ses Alterations, Universite de Lyon, F-69622, Universite Lyon 1, Villeurbanne,
CNRS, UMR5534, Centre de Genetique Moleculaire et Cellualire, Lyon, France.
[email protected], v. 9, p. 378, 2008.
LIANG, P. Sage genie: a suite with panoramic view of gene expression. Proc Natl Acad
Sci U S A, Department of Cancer Biology, 658 MRB II, Vanderbilt-Ingram Cancer Center, Nashville, TN 37232, USA. [email protected], v. 99, n. 18, p.
11547–11548, Sep 2002.
LIU, F. et al. Comparison of hybridization-based and sequencing-based gene expression
technologies on biological replicates. BMC Genomics, Department of Tumor Biology, Rikshopitalet-Radiumhospitalet Medical Center, Montebello, Oslo, Norway.
[email protected], v. 8, p. 153, 2007.
LOCKHART, D. J. et al. Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol, Affymetrix, Santa Clara, CA 95051, USA. david [email protected], v. 14, n. 13, p. 1675–1680, Dec 1996.
LOTTAZ, C. et al. Modeling sequencing errors by combining hidden markov
models. Bioinformatics, Swiss Institute of Bioinformatics, Switzerland. [email protected], v. 19 Suppl 2, p. ii103–ii112, Oct 2003.
Referências Bibliográficas
106
LöNNSTEDT, I.; SPEED, T. Replicated microarray data. Statistica Sinica, v. 12, p.
31–46, 2001.
MAGLOTT, D. et al. Entrez gene: gene-centered information at ncbi. Nucleic Acids
Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20892-6510, USA. [email protected], v. 35, n. Database issue, p. D26–D31, Jan 2007.
MALIG, R. et al. Accurate and unambiguous tag-to-gene mapping in serial analysis of gene expression. BMC Bioinformatics, Departamento de Genetica Molecular y Microbiologia, Facultad de Ciencias Biologicas, Pontificia Universidad Catolica de Chile, Alameda 340, Santiago, Chile. [email protected]
&lt;[email protected]&gt;, v. 7, p. 487, 2006.
MAN, M. Z.; WANG, X.; WANG, Y. Power sage: comparing statistical tests for sage experiments. Bioinformatics, Biostatisties, PGRD, 2800 Plymouth Road, Ann Arbor,
MI 48105, USA. [email protected], v. 16, n. 11, p. 953–959, Nov 2000.
MARDIS, E. R. The impact of next-generation sequencing technology on genetics. Trends
Genet, Genome Sequencing Center, Washington University School of Medicine, St.
Louis, MO 63108, USA. [email protected], v. 24, n. 3, p. 133–141, Mar
2008.
MARDIS, E. R. Next-generation dna sequencing methods. Annu Rev Genomics Hum
Genet, Department of Genetics and Molecular Microbiology and Genome Sequencing Center, Washington University School of Medicine, St. Louis MO 63108, USA.
[email protected], v. 9, p. 387–402, 2008.
MARGULIES, E. H.; INNIS, J. W. esage: managing and analysing data generated with
serial analysis of gene expression (sage). Bioinformatics, Departments of Human
Genetics Pediatrics &amp; Communicable Diseases, University of Michigan Medical
School Ann Arbor, Michigan 48109-0618, USA. [email protected], v. 16, n. 7, p.
650–651, Jul 2000.
MARGULIES, E. H.; KARDIA, S. L.; INNIS, J. W. Identification and prevention of a gc
content bias in sage libraries. Nucleic Acids Res, Department of Human Genetics,
University of Michigan Medical School and Department of Epidemiology, University
of Michigan School of Public Health, Ann Arbor, MI 48109, USA., v. 29, n. 12, p.
E60–E60, Jun 2001.
MARGULIES, M. et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature, 454 Life Sciences Corp., 20 Commercial Street, Branford, Connecticut
06405, USA., v. 437, n. 7057, p. 376–380, Sep 2005.
MATSUMURA, H. et al. Supersage: a modern platform for genome-wide quantitative
transcript profiling. Curr Pharm Biotechnol, Iwate Biotechnology Research Center,
Narita 22-174-4, Kitakami, Iwate, 024-0003, Japan. [email protected], v. 9, n. 5,
p. 368–374, Oct 2008.
MATSUMURA, H. et al. Gene expression analysis of plant host-pathogen interactions by
supersage. Proc Natl Acad Sci U S A, Iwate Biotechnology Research Center, Narita
Referências Bibliográficas
107
22-174-4, Kitakami, Iwate, 024-0003, Japan., v. 100, n. 26, p. 15718–15723, Dec
2003.
MEGRAW, M. et al. mirgen: a database for the study of animal microrna genomic organization and function. Nucleic Acids Res, Center for Bioinformatics, University
of Pennsylvania, Philadelphia, PA, USA. [email protected], v. 35, n.
Database issue, p. D149–D155, Jan 2007.
MENDIBURU, C. F. et al. Global gene expression profile in myelodysplastic syndromes
using sage. Genet Mol Res, Departamento de Biologia, Instituto de Biociencia Letras
e Ciencias Exatas, Universidade Estadual de Sao Paulo, Sao Jose do Rio Preto, SP,
Brasil. [email protected], v. 7, n. 4, p. 1245–1250, 2008.
MERKEROVA, M. et al. Microrna expression profiles in umbilical cord blood cell lineages.
Stem Cells Dev, May 2009. (ENG).
METZKER, M. L. Emerging technologies in dna sequencing. Genome Res, Human Genome Sequencing Center and Department of Molecular and Human Genetics, Baylor
College of Medicine, Houston, Texas 77030, USA. [email protected], v. 15,
n. 12, p. 1767–1776, Dec 2005.
MEYERS, B. C. et al. The use of mpss for whole-genome transcriptional analysis in
arabidopsis. Genome Res, Department of Plant and Soil Sciences, and Delaware
Biotechnology Institute, University of Delaware, Newark, Delaware 19714, USA.
[email protected], v. 14, n. 8, p. 1641–1653, Aug 2004.
MOORE, M. J. From birth to death: the complex lives of eukaryotic mrnas. Science,
Department of Biochemistry, Howard Hughes Medical Institute, Brandeis University,
415 South Street, Waltham, MA 02454. [email protected]., v. 309, n. 5740, p.
1514–1518, Sep 2005.
MOREL, N. M. et al. Primer on medical genomics. part xiv: Introduction to systems
biology–a new approach to understanding disease and treatment. Mayo Clin Proc,
Beyond Genomics, Inc, Waltham, Mass, USA., v. 79, n. 5, p. 651–658, May 2004.
MURRAY, D. et al. In silico gene expression analysis–an overview. Mol Cancer, General
Clinical Research Unit, UCD School of Medicine and Medical Sciences, Mater Misericordiae University Hospital, Dublin 7, Ireland. [email protected], v. 6, p. 50,
2007.
NAKANO, M. et al. Plant mpss databases: signature-based transcriptional resources for
analyses of mrna and small rna. Nucleic Acids Res, Department of Plant and Soil
Sciences, University of Delaware, Newark, DE 19714, USA., v. 34, n. Database issue,
p. D731–D735, Jan 2006.
NAM, D. K. et al. Oligo(dt) primer generates a high frequency of truncated cdnas through
internal poly(a) priming during reverse transcription. Proc Natl Acad Sci U S A,
Department of Medicine, Center for Functional Genomics, University of Chicago,
5841 South Maryland Avenue, MC2115, Chicago, IL 60637, USA., v. 99, n. 9, p.
6152–6156, Apr 2002.
Referências Bibliográficas
108
NEILSON, L. et al. Molecular phenotype of the human oocyte by pcr-sage. Genomics,
Reprogen Inc., 163 Technology Drive W., Irvine, California 92618, USA., v. 63, n. 1,
p. 13–24, Jan 2000.
NETO, E. D. et al. Shotgun sequencing of the human transcriptome with orf expressed
sequence tags. Proc Natl Acad Sci U S A, Ludwig Institute for Cancer Research,
Sao Paulo 01509-010, Brazil., v. 97, n. 7, p. 3491–3496, Mar 2000.
NIELSEN, K. L.; HOGH, A. L.; EMMERSEN, J. Deepsage–digital transcriptomics with
high sensitivity, simple experimental protocol and multiplexing of samples. Nucleic
Acids Res, Department of Biotechnology, Chemistry and Environmental Engineering, Aalborg University DK-9000 Aalborg, Denmark., v. 34, n. 19, p. e133, 2006.
OGASAWARA, O. et al. Bodymap-xs: anatomical breakdown of 17 million animal ests
for cross-species comparison of gene expression. Nucleic Acids Res, Center for Information Biology and DNA Data Bank of Japan, National Institute of Genetics, 1111
Yata, Mishima, Shizuoka 411-8540, Japan., v. 34, n. Database issue, p. D628–D631,
Jan 2006.
OSTELL, J. The entrez search and retrieval system. In:
. The NCBI Handbook.
Bethesda, MD: National Center for Biotechnology Information, 2003. cap. 15.
PAGNI, M. et al. trest, trgen and hits: access to databases of predicted protein sequences.
Nucleic Acids Res, Swiss Institute of Bioinformatics, Ludwig Institute for Cancer Research, Chemin des Boveresses 155, CH-1066, Epalinges s/Lausanne, Switzerland.,
v. 29, n. 1, p. 148–151, Jan 2001.
PANEPUCCI, R. A. et al. Higher expression of transcription targets and components of
the nuclear factor-kappab pathway is a distinctive feature of umbilical cord blood
cd34+ precursors. Stem Cells, Center for Cell Therapy and Regional Blood Center,
Department of Clinical Medicine, Faculty of Medicine, University of Sao Paulo,
Ribeirao Preto, Brazil., v. 25, n. 1, p. 189–196, Jan 2007.
PANEPUCCI, R. A. et al. Comparison of gene expression of umbilical cord vein and
bone marrow-derived mesenchymal stem cells. Stem Cells, Center for Cell Therapy
and Regional Blood Center, Department of Clinical Medicine, Faculty of Medicine,
Ribeirao Preto, Brazil., v. 22, n. 7, p. 1263–1278, 2004.
PARMIGIANI, G. et al. A cross-study comparison of gene expression studies for the
molecular classification of lung cancer. Clin Cancer Res, Department of Oncology,
Johns Hopkins University, Baltimore, Maryland 21230, USA. [email protected], v. 10,
n. 9, p. 2922–2927, May 2004.
PETERS, D. G. et al. Comprehensive transcript analysis in small quantities of
mrna by sage-lite. Nucleic Acids Res, Department of Human Genetics, School
of Public Health, University of Pittsburgh, Pittsburgh, PA 15261, USA. [email protected], v. 27, n. 24, p. e39, Dec 1999.
PEVSNER, J. Bioinformatic approaches to ribonucleic acid rna. In: Bioinformatics and
Functional Genomics. [S.l.]: John Wiley & Sons, Inc., 2009.
Referências Bibliográficas
109
PILLAI, S. et al. Soap-based services provided by the european bioinformatics institute.
Nucleic Acids Res, European Bioinformatics Institute Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK., v. 33, n. Web Server issue, p. W25–W28,
Jul 2005.
PINHEIRO, D. G. et al. Generic EST Annotation Pipeline. 2002. Disponı́vel em:
<http://gdm.fmrp.usp.br/geap/>. Acesso em: 29 mai. 2009.
PINHEIRO, D. G. et al. A score system for quality evaluation of rna sequence tags: an
improvement for gene expression profiling. BMC Bioinformatics, v. 10, n. 1, p. 170,
Jun 2009. (ENG).
PLEASANCE, E. D.; MARRA, M. A.; JONES, S. J. Assessment of sage in transcript identification. Genome Res, Canada’s Michael Smith Genome Sciences Centre, British
Columbia Cancer Agency, Vancouver V5Z 4E6, Canada., v. 13, n. 6A, p. 1203–1215,
Jun 2003.
POLYAK, K.; RIGGINS, G. J. Gene discovery using the serial analysis of gene expression
technique: implications for cancer research. J Clin Oncol, Department of Adult
Oncology, Dana-Farber Cancer Institute and Harvard Medical School, Boston, MA
02115, USA. kornelia [email protected], v. 19, n. 11, p. 2948–2958, Jun 2001.
POWELL, J. Enhanced concatemer cloning-a modification to the sage (serial analysis
of gene expression) technique. Nucleic Acids Res, The Richard Dimbleby Department of Cancer Research, I.C.R.F. Laboratory, Rayne Institute, 4th Floor Lambeth Wing, St Thomas’s Hospital, Lambeth Palace Road, London SE1 7EH, UK.
[email protected], v. 26, n. 14, p. 3445–3446, Jul 1998.
PROBER, J. M. et al. A system for rapid dna sequencing with fluorescent chainterminating dideoxynucleotides. Science, Engineering Physics Laboratory, E.I. du
Pont de Nemours &amp; Company (Inc.), Wilmington, DE 19898., v. 238, n. 4825,
p. 336–341, Oct 1987.
PROTO-SIQUEIRA, R. et al. Sage analysis demonstrates increased expression of toso
contributing to fas-mediated resistance in cll. Blood, Hematology Division and Center
for Cell-Based Therapy, Faculty of Medicine of Ribeirao Preto, University of Sao
Paulo, Sao Paulo, Brazil., v. 112, n. 2, p. 394–397, Jul 2008.
PRUITT, K. D.; MAGLOTT, D. R. Refseq and locuslink: Ncbi gene-centered resources. Nucleic Acids Res, National Center for Biotechnology Information, National
Library of Medicine, National Institutes of Health, Building 38A Room 6N605, 8600
Rockville Pike, Bethesda, MD 20894 USA. [email protected], v. 29, n. 1, p.
137–140, Jan 2001.
PRUITT, K. D.; TATUSOVA, T.; MAGLOTT, D. R. Ncbi reference sequence (refseq):
a curated non-redundant sequence database of genomes, transcripts and proteins.
Nucleic Acids Res, National Center for Biotechnology Information, National Library
of Medicine, National Institutes of Health, Rm 6An.12J, 45 Center Drive, Bethesda,
MD 20892-6510, USA. [email protected], v. 33, n. Database issue, p. D501–
D504, Jan 2005.
Referências Bibliográficas
110
PYLOUSTER, J.; SENAMAUD-BEAUFORT, C.; SAISON-BEHMOARAS, T. E. Websage: a web tool for visual analysis of differentially expressed human sage tags.
Nucleic Acids Res, Laboratoire de Biophysique, Museum National d’Histoire Naturelle, INSERM U565-CNRS UMR 5153 43, rue Cuvier 75231, Paris Cedex 05,
France. [email protected], v. 33, n. Web Server issue, p. W693–W695, Jul 2005.
QUACKENBUSH, J. Microarray data normalization and transformation. Nat Genet, The
Institute for Genomic Research, 9712 Medical Center Drive, Rockville, Maryland
20850, USA. [email protected], v. 32 Suppl, p. 496–501, Dec 2002.
QUACKENBUSH, J. et al. The tigr gene indices: analysis of gene transcript sequences
in highly sampled eukaryotic species. Nucleic Acids Res, The Institute for Genomic
Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. [email protected],
v. 29, n. 1, p. 159–164, Jan 2001.
RADKE, J. R. et al. The transcriptome of toxoplasma gondii. BMC Biol, Department
of Veterinary Molecular Biology, Montana State University, Bozeman, MT 59717,
USA. [email protected], v. 3, p. 26, 2005.
REICH, M. et al. Genepattern 2.0. Nat Genet, v. 38, n. 5, p. 500–501, May 2006.
REINHART, B. J. et al. Micrornas in plants. Genes Dev, Whitehead Institute for Biomedical Research, and Department of Biology, Massachusetts Institute of Technology,
Cambridge, Massachusetts 02142, USA., v. 16, n. 13, p. 1616–1626, Jul 2002.
RHODES, D. R. et al. Large-scale meta-analysis of cancer microarray data identifies
common transcriptional profiles of neoplastic transformation and progression. Proc
Natl Acad Sci U S A, Department of Pathology, University of Michigan Medical
School, Ann Arbor, 48109, USA., v. 101, n. 25, p. 9309–9314, Jun 2004.
RIJSBERGEN, C. J. van. Information Retrieval. London: Butterworths, 1979.
ROBERTSON, N. et al. Discoveryspace: an interactive data analysis application. Genome
Biol, Canada’s Michael Smith Genome Sciences Centre, British Columbia Cancer
Research Centre, British Columbia Cancer Agency, Vancouver, BC, Canada. [email protected], v. 8, n. 1, p. R6, 2007.
ROMUALDI, C. et al. Ideg6: a web tool for detection of differentially expressed genes
in multiple tag sampling experiments. Physiol Genomics, Department of Biology,
University of Padua, 35131 Padua, Italy. [email protected], v. 12, n. 2, p. 159–
162, Jan 2003.
RUBY, J. G.; JAN, C. H.; BARTEL, D. P. Intronic microrna precursors that bypass
drosha processing. Nature, Whitehead Institute for Biomedical Research, 9 Cambridge Center, Cambridge, Massachusetts 02142, USA., v. 448, n. 7149, p. 83–86,
Jul 2007.
RUIJTER, J. M.; KAMPEN, A. H. V.; BAAS, F. Statistical evaluation of sage libraries:
consequences for experimental design. Physiol Genomics, Department of Anatomy
and Embryology, Academic Medical Center, University of Amsterdam, 1105 AZ,
Amsterdam, The Netherlands. [email protected], v. 11, n. 2, p. 37–44, Oct
2002.
Referências Bibliográficas
111
RUSK, N.; KIERMER, V. Primer: Sequencing–the next generation. Nat Methods, v. 5,
n. 1, p. 15, Jan 2008.
RYO, A. et al. A modified serial analysis of gene expression that generates longer sequence tags by nonpalindromic cohesive linker ligation. Anal Biochem, Department
of Microbiology, Tokyo Medical and Dental University, 1-5-45 Yushima, Bunkyo-ku,
Tokyo, 113-8519, Japan., v. 277, n. 1, p. 160–162, Jan 2000.
SAHA, S. et al. Using the transcriptome to annotate the genome. Nat Biotechnol, Howard
Hughes Medical Institute and the Sidney Kimmel Comprehensive Cancer Center,
Baltimore, MD 21231, USA., v. 20, n. 5, p. 508–512, May 2002.
SANGER, F.; NICKLEN, S.; COULSON, A. R. Dna sequencing with chain-terminating
inhibitors. Proc Natl Acad Sci U S A, v. 74, n. 12, p. 5463–5467, Dec 1977.
SANTOS, M. L. dos. Análise de expressão gênica diferencial em linhagens celulares de
mama com diferentes perfis de expressão de erbB-2 na presença e ausência de docetaxel. Tese (Doutorado) — Fundação Antônio Prudente, 2006.
SAUER, U.; HEINEMANN, M.; ZAMBONI, N. Genetics. getting closer to the whole
picture. Science, Institute of Molecular Systems Biology, ETH Zurich, Switzerland.
[email protected], v. 316, n. 5824, p. 550–551, Apr 2007.
SAYERS, E. W. et al. Database resources of the national center for biotechnology information. Nucleic Acids Res, National Center for Biotechnology Information, National
Library of Medicine, National Institutes of Health, Building 38A, 8600 Rockville
Pike, Bethesda, MD 20894, USA. [email protected], v. 37, n. Database issue,
p. D5–15, Jan 2009.
SCHENA, M. et al. Quantitative monitoring of gene expression patterns with a complementary dna microarray. Science, Department of Biochemistry, Beckman Center,
Stanford University Medical Center, CA 94305, USA., v. 270, n. 5235, p. 467–470,
Oct 1995.
SCHEURLE, D. et al. Cancer gene discovery using digital differential display. Cancer Res,
Department of Biology, Florida Atlantic University, Boca Raton 33431, USA., v. 60,
n. 15, p. 4037–4043, Aug 2000.
SCHULER, G. D. Pieces of the puzzle: expressed sequence tags and the catalog of human
genes. J Mol Med, National Center for Biotechnology Information, National Library
of Medicine, National Institutes of Health, Bethesda, MD 20894, USA., v. 75, n. 10,
p. 694–698, Oct 1997.
SESE, J. et al. Bodymap incorporated pcr-based expression profiling data and a gene
ranking system. Nucleic Acids Res, Department of Complexity Science and Engineering, Graduate School of Frontier Science, University of Tokyo, 7-3-1 Hongo,
Bunkyo Word, Tokyo 113-0033, Japan., v. 29, n. 1, p. 156–158, Jan 2001.
SETHUPATHY, P.; CORDA, B.; HATZIGEORGIOU, A. G. Tarbase: A comprehensive
database of experimentally supported animal microrna targets. RNA, Center for
Bioinformatics, University of Pennsylvania, Philadelphia, Pennsylvania 19104, USA.
[email protected], v. 12, n. 2, p. 192–197, Feb 2006.
Referências Bibliográficas
112
SHENDURE, J.; JI, H. Next-generation dna sequencing. Nat Biotechnol, Department of
Genome Sciences, University of Washington, Seattle, Washington 98195-5065, USA.
[email protected], v. 26, n. 10, p. 1135–1145, Oct 2008.
SHENDURE, J. et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science, Department of Genetics, Harvard Medical School, Boston, MA 02115,
USA. [email protected], v. 309, n. 5741, p. 1728–1732, Sep 2005.
SILVEIRA, N. J. et al. Searching for molecular markers in head and neck squamous cell
carcinomas (hnscc) by statistical and bioinformatic analysis of larynx-derived sage
libraries. BMC Med Genomics, Instituto de Matematica e Estatistica, USP, Sao
Paulo, SP, Brazil. [email protected]., v. 1, p. 56, 2008.
SMITH, B. et al. The obo foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol, Department of Philosophy and New York
State Center of Excellence in Bioinformatics and Life Sciences, University at Buffalo,
Buffalo, New York 14203, USA. [email protected], v. 25, n. 11, p. 1251–1255,
Nov 2007.
SMITH, L. M. et al. Fluorescence detection in automated dna sequence analysis. Nature,
v. 321, n. 6071, p. 674–679, Jun 1986.
SO, A. P.; TURNER, R. F.; HAYNES, C. A. Increasing the efficiency of sage adaptor
ligation by directed ligation chemistry. Nucleic Acids Res, Biotechnology Laboratory and Department of Chemical and Biological Engineering, University of British
Columbia, Vancouver, BC, Canada V6T 1Z3., v. 32, n. 12, p. e96, 2004.
SOREK, R.; SAFER, H. M. A novel algorithm for computational identification of contaminated est libraries. Nucleic Acids Res, Compugen Ltd, 72 Pinchas Rosen Street,
Tel Aviv 69512, Israel. [email protected], v. 31, n. 3, p. 1067–1074, Feb 2003.
SOUZA, G. A. de et al. Proteomic and sage profiling of murine melanoma progression indicates the reduction of proteins responsible for ros degradation. Proteomics, Centro
de Terapia Celular, Centro Regional de Hemoterapia de Ribeirao Preto, Centro de
Pesquisa, Inovacao e Difusao - FAPESP, Brasil., v. 6, n. 5, p. 1460–1470, Mar 2006.
SPELLMAN, P. T. et al. Design and implementation of microarray gene expression markup language (mage-ml). Genome Biol, Department of Cell and Molecular Biology, University of California at Berkeley, Berkeley, CA 94720-3206, USA. [email protected], v. 3, n. 9, p. RESEARCH0046, Aug 2002.
STAJICH, J. E. et al. The bioperl toolkit: Perl modules for the life sciences. Genome Res,
University Program in Genetics, Duke University, Durham, North Carolina 27710,
USA. [email protected], v. 12, n. 10, p. 1611–1618, Oct 2002.
STEIN, L. D. Integrating biological databases. Nat Rev Genet, Cold Spring Harbor
Laboratory, 1 Bungtown Road, Cold Spring Harbor, New York 11724, USA. [email protected], v. 4, n. 5, p. 337–345, May 2003.
STEINHOFF, C.; VINGRON, M. Normalization and quantification of differential expression in gene expression microarrays. Brief Bioinform, Max Planck Institute for
Referências Bibliográficas
113
Molecular Genetics, Department of Computational Molecular Biology, Ihnestr 73,
D-14195 Berlin, Germany. [email protected], v. 7, n. 2, p. 166–177, Jun 2006.
STEKEL, D. J.; GIT, Y.; FALCIANI, F. The comparison of gene expression from multiple
cdna libraries. Genome Res, Oxford Gene Technology, Littlemore Park, Oxford OX4
4SS, UK. [email protected], v. 10, n. 12, p. 2055–2061, Dec 2000.
STOLLBERG, J. et al. A quantitative evaluation of sage. Genome Res, Pacific Biomedical
Research Center, University of Hawai’i at Manoa, Honolulu, Hawaii 96822, USA.
[email protected], v. 10, n. 8, p. 1241–1248, Aug 2000.
STRAUSBERG, R. L. et al. The mammalian gene collection. Science, National Cancer
Institute, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD 20892, USA., v. 286, n. 5439, p. 455–457, Oct 1999.
SUN, M. et al. Sage is far more sensitive than est for detecting low-abundance transcripts.
BMC Genomics, Department of Medicine, University of Chicago, 5841 S, Maryland
Avenue, MC2115, Chicago, Illinois 60637, USA. [email protected],
v. 5, n. 1, p. 1, Jan 2004.
TATENO, Y. et al. Dna data bank of japan (ddbj) for genome scale research in life science.
Nucleic Acids Res, Center for Information Biology and DNA Data Bank of Japan,
National Institute of Genetics, Yata, Mishima 411-8540, Japan., v. 30, n. 1, p. 27–30,
Jan 2002.
THYGESEN, H. H.; ZWINDERMAN, A. H. Modeling sage data with a truncated gammapoisson model. BMC Bioinformatics, Clinical Epidemiology and Biostatistics, Academisch Medisch Centrum, University of Amsterdam, Meibergdreef 9, 1100 DD
Amsterdam, The Netherlands. [email protected], v. 7, p. 157, 2006.
VANGUILDER, H. D.; VRANA, K. E.; FREEMAN, W. M. Twenty-five years of quantitative pcr for gene expression analysis. Biotechniques, Department of Pharmacology,
Penn State College of Medicine, Hershey, PA, USA., v. 44, n. 5, p. 619–626, Apr
2008.
VELCULESCU, V. E. et al. Analysis of human transcriptomes. Nat Genet, v. 23, n. 4, p.
387–388, Dec 1999.
VELCULESCU, V. E. et al. Serial analysis of gene expression. Science, Oncology Center,
Johns Hopkins University, Baltimore, MD 21231, USA., v. 270, n. 5235, p. 484–487,
Oct 1995.
VENCIO, R. Z. et al. Bayesian model accounting for within-class biological variability
in serial analysis of gene expression (sage). BMC Bioinformatics, Statistics Department, Instituto de Matematica e Estatistica - Universidade de Sao Paulo, Rua do
Matao 1010, 05508-090 Sao Paulo, Brazil. [email protected], v. 5, p. 119,
Aug 2004.
VENCIO, R. Z.; BRENTANI, H.; PEREIRA, C. A. Using credibility intervals instead
of hypothesis tests in sage analysis. Bioinformatics, Departamento de Estatistica,
Instituto de Matematica e Estatistica da Universidade de Sao Paulo, Sao Paulo
Referências Bibliográficas
114
04601-003, Brazil, Fundacao Antonio Prudente, Sao Paulo 01509-900, Brazil. [email protected], v. 19, n. 18, p. 2461–2464, Dec 2003.
VENCIO, R. Z. et al. Simcluster: clustering enumeration gene expression data on the
simplex space. BMC Bioinformatics, Institute for Systems Biology, 1441 North 34th
street, Seattle, WA 98103-8904, USA. [email protected], v. 8, p. 246, 2007.
VENTER, J. C. et al. The sequence of the human genome. Science, Celera Genomics, 45
West Gude Drive, Rockville, MD 20850, USA. [email protected], v. 291,
n. 5507, p. 1304–1351, Feb 2001.
VILAIN, C. et al. Small amplified rna-sage: an alternative approach to study transcriptome from limiting amount of mrna. Nucleic Acids Res, Institute of Interdisciplinary
Research (IRIBHM), Universite Libre de Bruxelles, 808 route de Lennik, B-1070
Bruxelles, Belgium. [email protected], v. 31, n. 6, p. e24, Mar 2003.
VIRLON, B. et al. Serial microanalysis of renal transcriptomes. Proc Natl Acad Sci U S
A, Departement de Biologie Cellulaire et Moleculaire, Service de Biologie Cellulaire,
Centre National de la Recherche Scientifique Unite de Recherche Associee 1859,
France., v. 96, n. 26, p. 15286–15291, Dec 1999.
WAHL, M. B.; HEINZMANN, U.; IMAI, K. Longsage analysis significantly improves
genome annotation: identifications of novel genes and alternative transcripts in the
mouse. Bioinformatics, Institute of Developmental Genetics, GSF-National Research
Center for Environment and Health, Ingolstadter Landstrasse 1, D-85764 Neuherberg, Germany., v. 21, n. 8, p. 1393–1400, Apr 2005.
WALL, L. Programming Perl. Sebastopol, CA, USA: O’Reilly & Associates, Inc., 2000.
ISBN 0596000278.
WANG, X.; GORLITSKY, R.; ALMEIDA, J. S. From xml to rdf: how semantic web
technologies will change the design of ’omic’ standards. Nat Biotechnol, Department
of Biostatistics, Bioinformatics and Epidemiology, Medical University of South Carolina, 135 Cannon St. Suite 303, Charleston, South Carolina 29403-5720, USA.,
v. 23, n. 9, p. 1099–1103, Sep 2005.
WEI, C. L. et al. Transcriptome profiling of human and murine escs identifies divergent
paths required to maintain the stem cell state. Stem Cells, Genome Institute of
Singapore, 60 Biopolis Street, Genome#02-01, Singapore 138672., v. 23, n. 2, p.
166–185, Feb 2005.
WEI, C. L. et al. 5’ long serial analysis of gene expression (longsage) and 3’ longsage
for transcriptome characterization and genome annotation. Proc Natl Acad Sci U
S A, Genome Institute of Singapore, 60 Biopolis Street, Genome 02-01, Singapore
138672., v. 101, n. 32, p. 11701–11706, Aug 2004.
WHEELER, D. A. et al. The complete genome of an individual by massively parallel dna
sequencing. Nature, Human Genome Sequencing Center, Baylor College of Medicine,
One Baylor Plaza, Houston, Texas 77030, USA., v. 452, n. 7189, p. 872–876, Apr
2008.
Referências Bibliográficas
115
WILLIAMSON, D. F.; PARKER, R. A.; KENDRICK, J. S. The box plot: a simple visual
method to interpret data. Ann Intern Med, Centers for Disease Control, Atlanta,
Georgia., v. 110, n. 11, p. 916–921, Jun 1989.
WINGENDER, E. et al. Transfac: an integrated system for gene expression regulation.
Nucleic Acids Res, Gesellschaft fur Biotechnologische Forschung mbH, Mascheroder
Weg 1, D-38124 Braunschweig, Germany. [email protected], v. 28, n. 1, p. 316–319, Jan
2000.
WOLD, B.; MYERS, R. M. Sequence census methods for functional genomics. Nat
Methods, Division of Biology, California Institute of Technology, Pasadena, California 91125, USA. [email protected], v. 5, n. 1, p. 19–21, Jan 2008.
YE, S. Q. et al. minisage: gene expression profiling using serial analysis of gene expression
from 1 microg total rna. Anal Biochem, Lipid Research Atherosclerosis Division,
Department of Pediatrics, CMSC 604, Johns Hopkins University School of Medicine, 600 North Wolfe Street, Baltimore, Maryland 21287, USA. [email protected],
v. 287, n. 1, p. 144–152, Dec 2000.
YUEN, T. et al. Accuracy and calibration of commercial oligonucleotide and custom cdna
microarrays. Nucleic Acids Res, Department of Neurology, Mount Sinai School of
Medicine, New York, NY 10029, USA., v. 30, n. 10, p. e48, May 2002.
ZANETTE, D. L. Análise Global da Expressão Gênica de Leucemia Mielóide Aguda. Dissertação (Mestrado) — Faculdade de Medicina de Ribeirão Preto – Universidade de
São Paulo, 2003.
ZHANG, L. et al. Gene expression profiles in normal and cancer cells. Science, Howard
Hughes Medical Institute, The Johns Hopkins University School of Medicine, Baltimore, MD 21231, USA., v. 276, n. 5316, p. 1268–1272, May 1997.
ZUYDERDUYN, S. D. Statistical analysis and significance testing of serial analysis of
gene expression data using a poisson mixture model. BMC Bioinformatics, Victor
Ling Laboratory, Department of Cancer Genetics and Developmental Biology, BC
Cancer Research Centre, 675 West 10th Ave Vancouver, Canada. [email protected],
”
v. 8, p. 282, 2007.
116
APÊNDICE A -- Resumo do artigo que
descreve o S3T
117
APÊNDICE B -- Grupos histológicos para
a análise com S3T
Grupos Histológicos
Tecido/Órgão
Subgrupo
No de bibliotecas
Osso
SAGE Pelvis mixoid chondrosarcoma grade2 B
Medula óssea
SAGE B
1
SAGE Bone marrow normal AP
2
SAGE Bone marrow normal B
1
SAGE Brain Medulloblastoma CL
4
Cérebro
SAGE Brain astrocyte normal CL
SAGE Brain astrocytoma grade III B
1
1
11
SAGE Brain astrocytoma grade II B
8
SAGE Brain astrocytoma grade I B
1
SAGE Brain ependymoblastoma B
1
SAGE Brain ependymoma B
11
SAGE Brain fetal normal B
1
SAGE Brain glioblastoma B
10
SAGE Brain glioblastoma CL
6
SAGE Brain glioblastoma CS
1
SAGE Brain glioblastoma control CL
1
SAGE Brain glioblastoma hypoxia CL
1
SAGE Brain meningioma grade III B
1
SAGE Brain meningioma grade II B
2
SAGE Brain meningioma grade I B
2
SAGE Brain normal cortex B
1
SAGE Brain normal cortex B B
1
SAGE Brain normal leptomeninges B
1
SAGE Brain normal peds cortex B
1
SAGE Brain normal substantia nigra B
1
SAGE Brain normal thalamus B
1
SAGE Brain oligodendroglioma B
2
Epitélio brônquial
GEO
Cartilagem
SAGE Cartilage chondrosarcoma grade 1 CL
1
SAGE Cartilage chondrosarcoma grade 2 B
1
SAGE Cartilage chondrosarcoma grade 2 CL
2
SAGE Cartilage chondrosarcoma grade 3 CL
1
SAGE Cartilage dedifferentiated chondrosarcoma metastasis CL
Cerebelo
SAGE Brain medulloblastoma B
19
5
20
SAGE Brain medulloblastoma CL
4
SAGE Brain normal cerebellum B
1
Apêndice B -- Grupos histológicos para a análise com S3T
Tecido/Órgão
Cólon
Subgrupo
118
No de bibliotecas
SAGE Brain normal cerebellum B B
1
SAGE Colon adenocarcinoma B
2
SAGE Colon adenocarcinoma CL
4
SAGE Colon carcinoma CL
4
SAGE Colon normal B
2
Olho
SAGE Eye lens B
1
Trato gastrointestinal
SAGE Stomach normal MD
1
Coração
SAGE Heart normal B
1
Rim
SAGE Kidney carcinoma B
1
SAGE Kidney embryonic CL
2
SAGE Kidney normal B
1
GEO
3
SAGE Liver cholangiocarcinoma B
2
SAGE Liver cholangiocarcinoma CL
2
Fı́gado
Pulmão
SAGE Liver normal B
1
SAGE Lung adenocarcinoma B
1
SAGE Lung adenocarcinoma MD
2
SAGE Lung normal B
1
SAGE Lung normal CL
2
SAGE Lung tumor associated chronic inflammation B
1
Parênquima pulmonar
GEO
2
Linfonodo
SAGE Lymph Node Lymphoma B
1
SAGE Lymph Node normal B
1
Glândula mamária
SAGE B
1
SAGE Breast carcinoma associated myoepithelium AP
1
SAGE Breast carcinoma B
8
SAGE Breast carcinoma B B
1
SAGE Breast carcinoma CL
6
SAGE Breast carcinoma CL MD
3
SAGE Breast carcinoma MD
2
SAGE Breast carcinoma associated myoepithelium AP
1
SAGE Breast carcinoma associated myofibroblast AP
3
SAGE Breast carcinoma associated stroma B
2
SAGE Breast carcinoma epithelium AP
7
SAGE Breast carcinoma epithelium CD24+ AP
3
SAGE Breast carcinoma epithelium CD44+ AP
2
SAGE Breast carcinoma epithelium PROCR+ AP
2
SAGE Breast carcinoma epithelium X MUC1+ AP
1
SAGE Breast carcinoma metastasis B
1
SAGE Breast carcinoma myoepithelium X ITGB6+ AP
1
SAGE Breast fibroadenoma MD
1
SAGE Breast metastatic carcinoma B
2
SAGE Breast normal B
1
SAGE Breast normal epithelium AP
1
SAGE Breast normal epithelium AP B
1
SAGE Breast normal epithelium CD24+ AP
2
SAGE Breast normal epithelium CD44+ AP
1
SAGE Breast normal myoepithelium AP
2
SAGE Breast normal myoepithelium CL
1
SAGE Breast normal organoid B
1
SAGE Breast normal stroma AP
1
SAGE Breast normal stroma B
1
Apêndice B -- Grupos histológicos para a análise com S3T
Tecido/Órgão
Subgrupo
119
No de bibliotecas
SAGE Breast phyllodes tumor fibroblasts AP
1
Músculo
SAGE Muscle Rhabdomyosarcoma B
1
SAGE Muscle normal B
2
Outro
SAGE Esophagus Adenocarcinoma B
1
SAGE Esophagus Dysplasia B
2
Ovário
Pâncreas
Peritônio
Placenta
Próstata
Retina
Pele
SAGE Esophagus Normal B
1
SAGE GallBladder Adenocarcinoma B
3
SAGE GallBladder Normal B
1
SAGE Placenta hydatidiform mole B
1
SAGE Rheumatoid arthritis synovial fibroblast CS
1
SAGE Ovary adenocarcinoma B
3
SAGE Ovary carcinoma CL
2
SAGE Ovary cystadenoma CL
1
SAGE Ovary endometriosis CL
1
SAGE Ovary normal CL
1
SAGE Ovary normal CS
1
SAGE Pancreas adenocarcinoma B
2
SAGE Pancreas adenocarcinoma CL
2
SAGE Pancreas carcinoma CL
2
SAGE Pancreas normal B
1
SAGE Pancreas normal CS
2
SAGE Peritoneum mesothelioma B
1
SAGE Peritoneum normal B
1
SAGE Placenta first trimester normal B
1
SAGE Placenta normal B
1
SAGE Prostate adenocarcinoma CL
1
SAGE Prostate adenocarcinoma MD
1
SAGE Prostate carcinoma B
2
SAGE Prostate carcinoma CL
7
SAGE Prostate normal B
1
SAGE Prostate normal MD
1
SAGE Prostate normal epithelium CS
2
SAGE Retina Macula normal B
1
SAGE Retina Peripheral normal B
3
SAGE Retina Pigment epithelium normal B
1
SAGE Retina Retinoblastoma B
1
SAGE Retina macula normal B
1
SAGE Retina normal B
1
SAGE Retinal Pigment Epithelium normal B
2
GEO
4
SAGE Skin melanoma B
3
SAGE Skin normal B
1
Medula espinhal
SAGE Spinal cord normal B
1
Célula tronco
SAGE Embryonic stem cell BG01 normal p20 CL
1
SAGE Embryonic stem cell H13 normal p22 CL
1
SAGE Embryonic stem cell H14 normal p22 CL
1
SAGE Embryonic stem cell H1 normal p31 CL
1
SAGE Embryonic stem cell H1 normal p54 CL
1
SAGE Embryonic stem cell H7 normal p33 CL
1
SAGE Embryonic stem cell H9 normal p38 CL
2
SAGE Embryonic stem cell HES3 normal p16 CL
1
SAGE Embryonic stem cell HES4 normal p36 CL
1
Apêndice B -- Grupos histológicos para a análise com S3T
Tecido/Órgão
Estômago
Subgrupo
120
No de bibliotecas
SAGE Embryonic stem cell HSF6 normal p50 CL
1
SAGE Stomach adenocarcinoma B
1
SAGE Stomach adenocarcinoma MD
3
SAGE Stomach carcinoma B
3
SAGE Stomach normal B
1
SAGE Stomach normal MD
1
SAGE Stomach normal epithelium B
1
Testı́culo
SAGE Testis Embyronal Carcinoma B
1
Tireóide
SAGE Thyroid follicular adenoma B
1
SAGE Thyroid follicular carcinoma B
1
SAGE Thyroid normal B
1
SAGE Fibroblasts CL
1
SAGE Universal reference human RNA CL
1
Não categorizado
Útero
SAGE Uterus endometrium normal CS
1
Vascular
SAGE Vascular endothelium breast carcinoma associated AP
1
SAGE Vascular endothelium hemangioma B
1
SAGE Vascular endothelium normal breast associated AP
1
SAGE Vascular endothelium normal liver associated AP
1
SAGE Vascular normal CS
Células brancas
GEO
2
12
SAGE Leukocytes normal B
1
SAGE White Blood Cells breast carcinoma associated AP
3
SAGE White Blood Cells lung macrophage normal AP
1
SAGE White Blood Cells monocyte depleted mononuclear cells normal AP
2
SAGE White Blood Cells monocyte normal AP
2
SAGE White Blood Cells monocytes normal AP
3
SAGE White Blood Cells normal breast associated AP
1
SAGE White Blood Cells plaque macrophage normal AP
2
Nota: O subgrupo histológico é definido pelos identificadores comuns (SAGE ORGÃO HISTOLOGIA PREPARAÇÃO)
do nome das bibliotecas do CGAP. As bibliotecas do GEO estão reunidas no subgrupo GEO.
121
APÊNDICE C -- Configuração do S3T
Trecho do arquivo de configuração do S3T.
# Fontes de dados para extração de tags virtuais contidas no banco de dados.
[SOURCES]
0 = mRNAs Full Length
1 = Contigs
2 = Mitochondrion
3 = Alternative Poly(A)
4 = Alternative Splicing
5 = Internal Priming
6 = Linker Tag
7 = Genomic
8 = Internal Tags
9 = Others
10 = Vector pZErO-1
# Atributos especiais de conjuntos de tags virtuais contidos no banco de dados.
[ATTRIBUTES]
0 = PolyA Signal
1 = PolyA Tail
2 = More than one EST
3 = Only one EST
4 = Extracted
# Ordem de aplicação das regras.
[SAGE NLAIII 10 HS]
score order = -6,-5,-4,-3,-2,10,9,8,7,6,5,4,3,2,1,0,-1,-7
# Conjunto de regras definidas para a combinação de parâmetros SAGE NLAIII 10 HS.
# $f tag (valor de freqüência absoluta da tag).
# $m tag (valor médio de freqüência da tag considerando outras bibliotecas).
# $mfno tag (ordem da tag vizinha mais freqüente, considerando a porcentagem das tags mais freqüentes).
[SAGE NLAIII 10 HS SCORE]
10 = 0;0&1;($f tag>=10)
9 = 0;0&1;((1<=$f tag)&&($f tag<10))
8 = 0;;($f tag>=5)
Apêndice C -- Configuração do S3T
7 = 0;;((1<=$f tag)&&($f tag<5))
6 = 1;0&1;($f tag>=5)
5 = 1;0&1;((1<=$f tag)&&($f tag<5))
4 = 3|4;2;($f tag>1)
3 = 1;;($f tag>=1)
2 = 3|4;3;($f tag>=1)
1 = 8;;
0 = ;;(($f tag==1)&&($m tag>1))
-1 = ;;($f tag==1)
-2 = ;;(($f tag<5)&&(defined $mfno tag)&&($mfno tag<20%))
-3 = 5;;($f tag==1)
-4 = 6;;
-5 = 2;;
-6 = 10;;
-7 = ;;
122
123
ANEXO A -- Seqüências dos Adaptadores
e Primers para SAGE
Adaptador 1 A
5’ TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA GGG ACA TG 3’
Adaptador 1 B
5’ TCC CTA TTA AGC CTA GTT GTA CTG CAC CAG CAA ATC C[amino mod. C7] 3’
Adaptador 2 A
5’ TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GGG GAC ATG 3’
Adaptador 2 B
5’ TCC CCG TAC ATC GTT AGA AGC TTG AAT TCG AGC AG[amino mod. C7] 3’
→ We now order primer 1 and primer 2 with the addition of 2 sequential biotins on the 5’ end
gel-purified from Integrated DNA Technologies.
Primer 1
5’ GGA TTT GCT GGT GCA GTA CA 3’
Primer 2
5’ CTG CTC GAA TTC AAG CTT CT 3’
Biotinylated oligo dT
5’ [biotin]T18
M13 Forward
5’ GTA AAA CGA CGG CCA GT 3’
M13 Reverse
5’ GGA AAC AGC TAT GAC CAT G 3’
124
ANEXO B -- Seqüências dos Adaptadores e
Primers para LongSAGE
Adaptador 1 A
5’ TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA TCC GAC ATG 3’
Adaptador 1 B
5’ TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CC [amino mod. C7] 3’
Adaptador 2 A
5’ TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTC CGA CAT G 3’
Adaptador 2 B
5’ TCG GAC GTA CAT CGT TAG AAG CTT GAA TTC GAG CAG[amino mod. C7] 3’
Primer 1
5’ GGA TTT GCT GGT GCA GTA CA 3’
Primer 2
5’ CTG CTC GAA TTC AAG CTT CT 3’
→ The ditag molecules are amplified with Primer 1 and Primer 2 which are biotinylated with 2
sequential biotins on the 5’ ends.
Primer 1 Biotin
5’ GTG CTC GTG GGA TTT GCT GGT GCA GTA CA 3’
Primer 2 Biotin
5’ GAG CTC GTG CTG CTC GAA TTC AAG CTT CT 3’
125
ANEXO C -- Seqüências dos Adaptadores
para MPSS
Common strand:
5’ GACTGGCAGCTCGT
Encoded adaptors for detecting base 1 :
5’ NNNAACGAGCTGCCAGTCcatttaggcg
5’ NNNGACGAGCTGCCAGTCctgattaccg
5’ NNNCACGAGCTGCCAGTCaccaatacgg
5 NNNTACGAGCTGCCAGTCcgctttgtag
Encoded adaptors for detecting base 2 :
5’ NNANACGAGCTGCCAGTCggaacctgaa
5’ NNGNACGAGCTGCCAGTCtgtgcgtgat
5’ NNCNACGAGCTGCCAGTCaccgacattc
5’ NNTNACGAGCTGCCAGTCattcctcctc
Encoded adaptors for detecting base 3 :
5 NANNACGAGCTGCCAGTCcgaagaagtc
5’ NGNNACGAGCTGCCAGTCtggtctctct
5’ NCNNACGAGCTGGCAGTCtagcggactt
5’ NTNNACGAGCTGCCAGTCggcgataact
Encoded adaptors for detecting base 4 :
5’ ANNNACGAGCTGCCAGTCgcatccatct
5’ GNNNACGAGCTGCCAGTCcaactcgtca
5’ CNNNACGAGCTGCCAGTCcacagcaaca
5’ TNNNACGAGCTGCCAGTCgccagtgtta
→ Four-base overhangs in bold and decoder binding sites in lowercaser