Desenvolvimento e aplicação de ferramentas de bioinformática em
Transcrição
Desenvolvimento e aplicação de ferramentas de bioinformática em
TACG Projeto Componente 1 (Bioinformática) Roberto H. Higa (Líder) Juiz de Fora, 2 a 6 de setembro de 2013 Sumário » Introdução » Estrutura do projeto » Ações Gerenciais » Planos de Ação. Motivação http://www.genome.gov/sequencingcosts/ Motivação Novas aplicações ... » Ressequenciamento; » Transcriptoma; » Metagenômica; » Etc. Projetos Componentes Experimentais da RGA II Motivação Novas aplicações ... » Ressequenciamento; Projetos Componentes Experimentais da RGA II » Transcriptoma; » Metagenômica; » Etc. … mas NextGenSeq geram um volume enorme de sequencias curtas de DNA que precisam ser armazenadas e processadas / analisadas. RGA II Objetivos Objetivos Estrutura Precisamos nos estruturar para lidar a infraestrutura necessária para armazenamento dos dados interagir com os PCs experimentais para analisar esses dados. Fonte: http://thumbs.dreamstime.com/z/cebola-14960885.jpg Estrutura Laboratório Multiusuário de Bionformática da Embrapa Estrutura PA 4 - Infra-estrutura Laboratório Multiusuário de Bionformática da Embrapa PA 5 Metagenoma PA 3 Comp. Reg. PA 2 RNASeq Genoma Estrutura PA 6 PA 4 - Infra-estrutura Laboratório Multiusuário de Bionformática da Embrapa PA 5 Metagenoma PA 3 Comp. Reg. PA 2 RNASeq PC 2 Métodos Quant. Genoma Estrutura PA 6 PA 4 - Infra-estrutura Laboratório Multiusuário de Bionformática da Embrapa PC 7 Capacitação Estrutura PA 5 Metagenoma PA 3 PC 4 Genes Inter. Comp. Reg. PA 2 RNASeq PC 2 Métodos Quant. Genoma PC 3 Sel. Genômica PC 5 Novas Espécies PA 6 PA 4 - Infra-estrutura Laboratório Multiusuário de Bionformática da Embrapa PC 6 Metagenoma PC 7 Capacitação Equipe Interações com PCs experimentais Proposta: Organização de reuniões temáticas com os responsáveis por PAs dos PCs experimentais, precedidas por cursos de análise de dados genômicos. Temas: » Transcriptoma » Genoma (montagem) » Metagenoma Curso de análise de transcriptoma + Reunião com PAs experimentais Cps, 11, 12 e 13 de jun/2013 Próximos eventos » Curso de análise de transcriptomas (24 e 25 de set) + reunião entre equipes do PC1 e PC6 (26 e 27 de set), em Cps. » Curso de montagem de genomas (15 e 16 de out) + reunião entre equipes do PC1 e PCs 4 e 5 (17 de out), em Cps. Próximos eventos » Curso de análise de transcriptomas (24 e 25 de set) + reunião entre equipes do PC1 e PC6 (26 e 27 de set), em Cps. » Curso de montagem de genomas (15 e 16 de out) + reunião entre equipes do PC1 e PCs 4 e 5 (17 de out), em Cps. » Eventos estão sendo reagendados para o início de 2014. » Reuniões serão mantidas, mas utilizando recurso de videoconferência. Reunião PC1-PC2 Cps, 21 e 22 de mai/2013 Disponibilização de Scripts Repositório central Galaxy Scripts https://www.snvserver.cnptia.embrapa.br/rga Cópia local Cópia local Cópia local TACG Plano de Ação 1.4 (infraestrutura) Leandro C. Cintra (Resp.) Juiz de Fora, 2 a 6 de setembro de 2013 Objetivo Solução de TI para armazenamento e gerenciamento de dados de sequenciamento de nova geração e de genotipagem em larga escala. Projeto associado (Líder: Leandro Carrijo) MP5 - Tecnologias para computação distribuída, armazenamento de grandes volumes de dados e workflow científico, em suporte à pesquisa agropecuária. Atividades Atividade Responsável Execução At 1.4.1 - Definir e implantar uma solução para o acesso e transferência fácil e seguro aos dados armazenados no LMB Adhemar 1/1/2013 a 30/6/2013 At 1.4.2 - Definir e implantar uma forma de armazenamento padronizada para os dados no LMB (política de dados) Francisco 1/1/2013 a 31/12/2013 At 1.4.3 - Gerenciar a política de dados do LMB Leandro 1/1/2014 a 31/12/2016 At 1.4.4 - Identificar e implantar uma arquitetura econômica e tecnologicamente adequadas para o armazenamento de grandes volumes de dados no LMB Leandro 1/10/2013 a 30/9/2014 At. 1.4.1 – Transferência de dados » Objetivo “era” adotar um protocolo de transferência fácil e padronizar (WebDav) de tal forma que o próprio “usuário” pudesse realizar a tarefa de transferência. » Testes mostraram que ele não funciona muito bem para transferência de grandes volumes de dados. Solução: ftp (depende da fonte de origem dos dados) + protocolo (interno) de recebimento de dados. At. 1.4.4 – Armazenamento Infraestrutura atual do LMB 2 servidores IBM system x3850 X5: » 512 GB e 1 TB de RAM + 8 processadores 6-core. 1 servidor HP system Proliant DL785 G6: » 256GB de RAM + 4 processadores 6-Core. 1 storage IBM DS3512: » 60 HDs Sata 2 TB com RAID5, 101 TB de espaço útil. Sistema de backup: » Servidor SunFire X4440. At. 1.4.4 – Armazenamento Novas aquisições 1 servidor NUMA (non-uniform memory access): » 2 TB de RAM + 128 núcleos. 1 cluster com 4 nós de processamento: » 512GB de RAM + 64 núcleos (cada nó). 1 storage: » 100 a 140 TB de espaço útil. Resumo: » Capacidade de armazenamento 245 TeraBytes. » Capacidade de processamento: 8 TeraFlops At. 1.4.2 – Política de Dados Áreas /projects At. 1.4.2 – Política de Dados Banco de dados de genótipos Perspectivas futuras » Mapear processos de TI. » Documentar esses processos. » Implementar medições periódicas de acesso e uso. » Atividade de organização lógica dos dados (At. 1.4.2). Planos de Ação de Análise Estabelecimento de pipelines de análise Aplicação dos pipelines (análises) Fase 1 Fase 2 TACG Plano de Ação 1.2 (montagem) Francisco Lobo (Resp.) Juiz de Fora, 2 a 6 de setembro de 2013 Objetivo Desenvolvimento e disponibilização de pipeline(s) para montagem de genomas. Montagem de genomas dos experimentos dos PAs 3.xx e 5.xx Atividades de construção de pipelines Diversos grupos de pesquisa têm procurado o LMB para a colaboração em projetos-genoma Consequentemente, tivemos que lidar com diversos montadores para nos adequar aos diferentes dados de NGS; No momento contamos com os seguintes montadores instalados e testados: » Newbler (1); » MIRA; » SOAPdenovo 1 & 2 (2); » Velvet; » AllPaths-LG (1); Atividades de montagem de genomas » PA 3.1 - Seleção genômica nas raças zebuinas leiteiras e sintéticas no Brasil. » PA 5.1 - Sequenciamento e montagem do genoma da Cachara (Pseudoplatystoma reticulatum). » PA 5.2 - Sequenciamento e montagem do genoma do tambaqui (Colossoma macropomum) » PA 5.3 - Sequenciamento e Montagem de Lentivirus Caprino. Aguardando a chegada de dados Direções futuras Gerar rotinas computacionais para montagens híbridas; Investir em software para etapas específicas da montagem; • Read merge (FLASH); • Scaffolding (bambus, SSPACE); Disponibilização para a comunidade da Embrapa as pipelines necessárias para a execução das pipelines (scripts shell, arquivos de configuração, etc). TACG Plano de Ação 1.3 (RNASeq) Felipe Rodrigues Silva (Resp.) Juiz de Fora, 2 a 6 de setembro de 2013 Objetivo Desenvolvimento e disponibilização de pipeline(s) para análise de expressão diferencial de transcriptomas. Análise dos dados dos experimentos dos PAs 4.xx e 5.xx. Atividades de construção de pipelines Atividade Responsável Status At 1.3.1 - Desenvolver e/ou adaptar procedimentos para mapeamento dos fragmentos em sequencias de referência Adhemar Top hat rodando no Galaxy At 1.3.2 - Desenvolver e/ou adaptar procedimentos para divisão dos fragmentos por categorias gênicas Francisco Cufflinks rodando no Galaxy At 1.3.3 - Desenvolver e/ou adaptar procedimentos para normalização dos dados Felipe Cufflinks rodando no Galaxy At 1.3.4 - Desenvolver e/ou adaptar procedimentos para detecção da expressão gênica diferencial Felipe Cuffdif rodando no Galaxy Adhemar Toda a análise funcionando no Galaxy At 1.3.5 - Incroporar os procedimentos desenvolvidos à Ferramenta Galaxy At. 1.3.6 – Aplicar pipelines de análise » PA4.02 - IntegrOssea- Identificação de genes associados a problemas locomotores em frango de corte por meio de RNA-seq do fêmur . » PA4.10 - VermCapr- Identificação de genes associados à resistência a verminoses gastrintestinal em caprinos. » PA 5.7 - Transcriptoma da glândula salivar do carrapato (Rhipicephalus Boophilus microplus). » PA 5.8 - Transcriptoma de isolados de Haemonchus contortus provenientes de diferentes hospedeiros e em situações de tratamento com antihelmínticos. Aguardando a chegada de dados TACG Plano de Ação 1.5 (componentes regulatórios) Poliana Fernanda Giachetto (Resp.) Juiz de Fora, 2 a 6 de setembro de 2013 Objetivo Identificar e implementar ferramentas de análise que contribuam para uma melhor compreensão dos resultados gerados nos experimentos de RNAseq previstos nos Planos de Ação dos Projetos Componentes 4 e 5. Análise secundária. Análise dos dados dos experimentos dos Pas 4.xx e 5.xx. Atividades RNA-Seq PCs experimentais Transcritos GDE PA1.3 Inferência função de genes não anotados At 1.5.3 Identificação de miRNAs e genes alvo At 1.5.2 Visualização dos dados At 1.5.4 Ferramentas no Galaxy At 1.5.5 Análise de enriquecimento At 1.5.1 At. 1.5.1 As listas de genes diferencialmente expressos identificados a partir dos transcriptomas serão submetidas a uma análise de enriquecimento funcional, como subsídio para a compreensão do(s) mecanismo(s) biológico(s) objeto de estudo, baseada na super-representação de termos de ontologia gênica e vias metabólicas. metodologias consolidadas: Blast2GO (Conesa et al., 2005) DAVID (Huang et al, 2009) metodologias a serem testadas: plugins da plataforma Cytoscape (BINGO) GOseq (Young et al., 2010) software Ingenuity Pathways Analysis (www.ingenuity.com) software Metacore Prazo: out/2015 Status: em andamento At. 1.5.2 Identificação de miRNAs e predição de genes alvos dos miRNAs metodologias baseadas em homologia com miRNAs conhecidos (miRBase) metodologias ab initio, predição baseada na estrutura secundária de moléculas de RNA RNAfold (Hofacker et al., 2004) Mireap (2008 - http://sourceforge.net/projects/mireap/) Prazo: 10/2013 Status: em andamento At. 1.5.3 uso de metodologias que permitam a análise dos transcritos não anotados, para inferência de função metodologia baseada em co-expressão (WGCNA – Iancu et al., 2013) para predição da função de genes em função dos genes co-expressos Prazo: 06/2013 Status: em andamento At. 1.5.4 visualização da informação gerada pelas ferramentas de análise Gbrowse (consolidado) Trackster (Galaxy) Jbrowse Prazo: 12/2013 Status: GBrowse finalizado . At. 1.5.5 At 1.5.5 incorporação dos procedimentos desenvolvidos à plataforma Galaxy Prazo: 12/2013 Status: não iniciada At. 1.5.6 aplicação dos procedimentos desenvolvidos nas atividades At 1.5.1 a At 1.5.5, em colaboração com as equipes dos PCs 4 e 5. reuniões do CG e demais reuniões da equipe workshops do projeto Prazo: jan/2017 Status: em andamento TACG Plano de Ação 1.6 (metagenômica) Maurício Egídio Cantão (Resp.) Juiz de Fora, 2 a 6 de setembro de 2013 Descrição Etapas das análises: » Controle de Qualidade; » Montagem; » Predição e anotação gênica; » Classificação taxonômica; » Estudo de riqueza de diversidade; » Comparação metagenômica. Descrição Etapas das análises: Metodologias: » Controle de Qualidade; » Shotgun metagenômico; » Montagem; » Bibliotecas de rRNA 16S. » Predição e anotação gênica; » Classificação taxonômica; » Estudo de riqueza de diversidade; » Comparação metagenômica. Plataformas de sequenciamento: » 454 Roche; » Illumina. Experimentos (PC 6) » PA 6.2 – Metagenômica de micro-organismos de ovinos morada nova; » PA 6.3 – Metagenômica da glândula mamária de ovinos de corte; » PA 6.4 – Caracterização do metagenôma do conteúdo cecal de poedeiras e de corte; » PA 6.5 – Metagenômica intestinal de frangos de corte e de suas linhagens; » PA 6.6 – Metagenômica de vírus respiratório de suínos; » PA 6.7 – Estudo comparativo da microbiota do aparelho digestivo de frangos decorte e da cama do aviário; » PA 6.8 – Caracterização da microbiota presente em efluentes da suinocultura e avicultura. Estruturação das análises At 1 - Procedimentos para processamento das reads – 16S - 454, Illumina (20%) – Shotgun - 454 (30%), Illumina At 2 - Procedimentos para montagem metagenômicas – Shotgun - 454 (20%), Illumina At 3 - Procedimentos para predição gênica – Shotgun - 454 (10%), Illumina Estruturação das análises At 4 - Procedimentos para anotação gênica – Shotgun - 454, Illumina At 5 - Análise da diversidade de microbiotas – 16S - 454 (40%), Illumina – Shotgun - 454 (10%), Illumina Estruturação das análises At 6 - Análise comparativa de metagenomas – 16S - 454 (40%), Illumina – Shotgun - 454 (10%), Illumina At 7 - Incorporar os procedimentos à Ferramenta Galaxy – 16S - 454, Illumina – Shotgun - 454, Illumina Análises iniciadas At 6.5 - Metagenômica intestinal de frangos de corte de duas linhagens • Resumo publicao no Congresso: X-meeting 2012; • FURLAN, L. R.; CANTÃO, M. E.; GIACHETO, P. F.; LUNEDO, R.; FERNANDES, C. C.; MACARI, M. Quantitative analysis of the intestinal bacterial communities in broiler chickens using qPCR and metagenomic analysis. In: X-meeting, 2012, Campinas. At 6.8 Caracterização da microbiota presente em efluentes da suinocultura e avicultura • Obtenção do sequenciamento em 454 e início das análises; Perspectivas para 2013 - Finalizar os procedimentos para análises de sequências metagenômicas produzidas por 454 amplicon 16S; - Entregar os primeiros resultados do projeto “Caracterização da microbiota presente em efluentes da suinocultura e avicultura”; - Inserir os passos iniciais de análise de amplicon 16S pelo programa Mothur na ferramenta Galaxy. Situação Global Obrigado! » Adhemar Zorlotini Neto. » Michel Eduardo Beleza Yamagishi. » Felipe Rodrigues Silva. » Paula Kuser Falcão. » Francisco Lobo. » Poliana Fernanda Giachetto (více líder). » Leandro Carrijo Cintra. » Maurício Egídio Cantão » Maurício Mudadu. » Roberto Hirochi Herai (Colaborador) » Roberto Hiroshi Higa (Líder)