Master Dissertation (in portuguese) - fcfrp
Transcrição
Master Dissertation (in portuguese) - fcfrp
UNIVERSIDADE DE SÃO PAULO FACULDADE DE CIÊNCIAS FARMACÊUTICAS DE RIBEIRÃO PRETO Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para o desenvolvimento de preditores de complexação em larga escala Tulio Marcus Ribeiro Calixto Ribeirão Preto 2010 UNIVERSIDADE DE SÃO PAULO FACULDADE DE CIÊNCIAS FARMACÊUTICAS DE RIBEIRÃO PRETO Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para o desenvolvimento de preditores de complexação em larga escala Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciências Farmacêuticas para obtenção do Título de Mestre em Ciências Área de Concentração: Física Biológica Orientado: Tulio Marcus Ribeiro Calixto Orientador: Fernando Luís Barroso da Silva Ribeirão Preto 2010 FICHA CATALOGRÁFICA AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE. Calixto, Tulio Marcus Ribeiro Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para o desenvolvimento de preditores de complexação em larga escala. Riberão Preto, 2010. 228p.; 30cm. Dissertação de Mestrado, apresentada à Faculdade de Ciências Farmacêuticas de Ribeirão Preto/USP - Área de concentração: Física Biológica. Orientador: da Silva, Fernando Luís Barroso. 1. Biocomputação. 2. Interações eletrostáticas. 3. Preditores de complexos protéicos. 4. Potenciais Estatísticos. 5 Regulação de cargas. 6. Coeficiente de virial. FOLHA DE APROVAÇÃO Tulio Marcus Ribeiro Calixto Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para o desenvolvimento de preditores de complexação em larga escala Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciências Farmacêuticas para obtenção do Título de Mestre em Ciências Área de Concentração: Física Biológica Orientador: Fernando Luís Barroso da Silva Aprovado em: Banca Examinadora Prof. Dr. Instituição: Assinatura: Prof. Dr. Instituição: Assinatura: Prof. Dr. Instituição: Assinatura: v Agradecimentos Inicio agradecendo a Deus, pela minha vida e pela força nos momentos de desânimo e cansaço. A minha família pelo amor, carinho e compreensão durante todo o tempo de realização da minha pós-graduação, especialmente ao meu irmão José Simão Calixto Júnior, pela boa convivência e paciência para comigo. Ao amigo Rodrigo Faccioli, pela hospedagem em São Carlos, estudos, parceria no desenvolvimento de softwares, desabafos e pelas longas conversas e discussões acadêmicas e alheias. Ao Centro de Informática de Ribeirão Preto, especialmente a minha chefe Clélia Cardoso Camargo, que sempre me apoiou durante a pós-gradução e ao amigo Ali Faiez Taha, pelas discussões, críticas e incentivo aos estudos. Agradeço ao meu orientador, Prof. Dr. Fernando Luís Barroso da Silva, que me iniciou na área de Física Biológica e forneceu o conhecimento necessário para o desenvolvimento deste trabalho. Reconheço e agradeço a oportunidade, apoio, dedicação, paciência, confiança e amizade. A todos os amigos que passaram pela república, André Lara, Lucas Atílio, Fábio Marcondez, Leandro Nassif, Marco Antônio, Lívio Leite, Ivan Farjala, Rodrigo Takeuchi, Flávio Neto, Eduardo, José Regis, Guilherme e em especial Flávio Henrique Alves, por todo apoio nesta nova fase da minha vida que se iniciou no ano 2000, pelas conversas e reflexões noturnas, projetos, sonhos, festas, caronas pra Itaú de Minas, enfim todos os momentos alegres e outros nem tanto. Aos colegas do laboratório de Física Biológica, João Dalmolin, Ricardo, Lariani, Eliamar, André, pela amizade e companheirismo. Aos membros da banca do exame geral de qualificação Prof. Dr. Antônio Caliri e Prof. Dr. Renato Tinós pela disponibilidade de ler, criticar e fazer valiosas sugestões para a melhoria deste trabalho. A todos os funcionários da seção de pós-graduação e a Faculdade de Ciências Farmacêuticas de Ribeirão Preto pelo oportunidade de cursar o mestrado. A minha namorada Adrielen Aparecida Silva pela presença, incentivo e paciência constantes. i Resumo CALIXTO, T. M. R. Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para o desenvolvimento de preditores de complexação em larga escala. 2010. 228f. Dissertação (Mestrado) - Faculdade de Ciências Farmacêuticas de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto, 2010. Estudos teóricos dos mecanismos moleculares responsáveis pela formação e estabilidade de complexos moleculares vêm ganhando relevância pelas possibilidades práticas que oferecem, por exemplo, na compreensão de diversas doenças e no desenho racional de fármacos. Neste projeto, nossa ênfase está no estudo de complexos de proteínas, extraídos do banco de dados de proteínas (PDB), onde desenvolvemos ferramentas computacionais as quais permitem efetuar análises em duas direções: 1) efetuar previsões básicas, através do emprego de propriedades eletrostáticas de proteínas, em diferentes condições e níveis preditivos e 2) realização de um conjunto de análises estatísticas, como freqüência de contato, em busca de preditores de complexos de proteínas e identificar padrões de interação entre seus aminoácidos em função da distância de separação. Com base nos resultados obtidos por ambos os estudos, objetivamos quantificar as forças físicas envolvidas na formação dos complexos protéicos. O foco do projeto, a longo prazo, é prever o fenômeno da complexação através da fusão dessas duas linhas de estudos: preditor básico de complexos protéicos e análise do potencial estatístico entre os aminoácidos que formam o complexo. O presente projeto é concluído com a construção de portais web que disponibilizarão os resultados obtidos por nossos trabalhos bem como a possibilidade de qualquer usuário, efetuar consultas por propriedades de proteínas e/ou grupo de proteínas. Palavras-chave: Complexos protéicos; Potencial estatístico; Banco de dados de proteínas; Biocomputação; Interações Eletrostáticas. ii Abstract CALIXTO, T. M. R. Analysis of electrostatics and structural properties of protein complexes to the development of complexation predictors in high-throughput computing. 2010. 228f. Dissertation (Master) - Faculdade de Ciências Farmacêuticas de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto, 2010. Theoretical studies of the molecular mechanisms responsible for the formation and stability of molecular complexes are gaining relevance for the practical possibilities that they offer, for example, in the understanding of diverse diseases and the rational drug design. In this project, our emphasis is on the study of protein complexes, extracted from the protein data bank (PDB). We have developed computational tools which allow to perform analyses in two directions: 1) to make basic complexation forecasts, through the use of electrostatic properties of proteins, in different conditions and predictive levels, and 2) to carry out a set of statistical analyses, as contacts frequency, in order to build up predictors of protein complexes and to identify patters of interactions between the amino acids as a function of their separation distance. Based on the results obtained on both studies, we aim quantify the physical forces involved in the formation of protein complexes. The focus of the project, in the long run, is to foresee the phenomenon of the protein complexes through the fusing of these two study lines: a coarse-grained predictor of protein complexes and analysis of the statistical potentials between the amino acids that form the complex. The present project is concluded with the construction of web services where we make available the results obtained on our works. This server also has the possibility to be used by any computer user, that wishes to perform search on protein and/or protein group properties. Keywords: Protein complexes; Statistical potential; Protein data bases; Biocomputing, Electrostatic Interactions. iii Lista de Figuras 1 Diagrama esquemático dos portais desenvolvidos. O nível de detalhamento do sistema, precisão e custo computacional aumenta conforme passamos do nível 0 para o 2. O arquivo PQR contém a carga e o raio de cada átomo presente na proteína, o qual é utilizado em simulações PB (MEAD) e MC. Elementos em cinza indicam as ferramentas que serão implementadas no futuro. . . . . . . . . 2 15 Ilustração esquemática de funcionamento dos portais web propostos neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3 Estrutura geral de um aminoácido. . . . . . . . . . . . . . . . . . . . . . . . . 21 4 Relação dos 20 aminoácidos existentes na natureza, adaptado da referência (1). 22 5 Exemplo de um arquivo no formato ogm, utilizado como entrada pelo pacote MEAD v.2.2.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 29 Ilustração esquemática de uma proteína inserida em uma rede para execução do método de diferenças finitas para a solução da EPBL. . . . . . . . . . . . . . . 30 7 Modelo relacional do banco de dados. . . . . . . . . . . . . . . . . . . . . . . 47 8 Página inicial do portal web PROMETHEUS. Disponível em: http://glu. fcfrp.usp.br/services.htm. . . . . . . . . . . . . . . . . . . . . . . 50 9 Ferramenta "Single amino acid properties". . . . . . . . . . . . . . . . . . . . 51 10 Curvas de titulação e capacitância ideais em função do pH do aminoácido ácido glutâmico (GLU), obtidas pela ferramenta "Single Amino acid Properties". . . . 52 11 Curva de titulação ideal do aminoácido ácido glutâmico (GLU). pKa = 4,4 (2). . 52 12 Curva da capacitância ideal em função do pH, do aminoácido ácido glutâmico (GLU). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 53 Tela de aquisição de parâmetros para utilização da ferramenta “Single protein properties". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 iv 14 Tela para apresentação dos resultados obtidos pela ferramenta “Single protein properties". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 15 Curva de titulação da proteína lisozima (PDB: 2LZT). . . . . . . . . . . . . . . 55 16 Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT). . 56 17 Tela para configuração dos parâmetros iniciais do portal PROMETHEUS. . . . 57 18 Tela para a especificação dos parâmetros físico-químicos para entrada no programa multiflex. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Tela para apresentação das curvas de titulação e capacitância em função do pH, geradas pela ferramenta “Single protein properties”. . . . . . . . . . . . . . . . 20 60 Tela para entrada dos parâmetros físico-químicos para predição de complexos protéicos, no nível de predição ideal (analítico). . . . . . . . . . . . . . . . . . 24 59 Tela para entrada dos parâmetros iniciais para a realização dos cálculos da predição de complexação entre proteínas. . . . . . . . . . . . . . . . . . . . . . . 23 59 Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT), no nível de predição Poisson-Boltzmann. . . . . . . . . . . . . . . . . . . . . . 22 58 Curva de titulação da proteína lisozima (PDB: 2LZT), no nível de predição Poisson-Boltzmann. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 58 62 Tela para apresentação dos cálculos analíticos de ∆Gele (em unidades de kB T ) em função da distância de separação (em Ångström) no pH 10,4 e do B23 em função do pH, em força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). . . . . . . . . . . . . . . . . 25 ∆Gele (analítico), no pH 10,4 e força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). . . . . . . . . 26 64 B23 (analítico) em função do pH, em força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). . . . . . . . 27 63 64 Tela para entrada dos parâmetros que serão utilizados para a construção dos arquivos de configuração utilizados pelo pacote MEAD para o cálculo dos pKa ’s dos aminoácidos ionizáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 65 Tela para definição das condições experimentais das simulações com as estruturas tridimensionais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 v 29 Tela para definição das condições experimentais para a predição da formação de complexo protéico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 67 Tela para apresentação do ∆Gele , no pH 11,1 em força iônica igual a 0,01M, e do B23 , para a complexação entre as proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 68 ∆Gele entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT), em força iônica igual a 0,01M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 32 B23 entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT). . . . . 69 33 Tela da ferramenta que permite criar um arquivo no formato PQR a partir de um arquivo PDB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 34 Ferramenta “Create MEAD files”. . . . . . . . . . . . . . . . . . . . . . . . . . 72 35 Tela para aquisição dos parâmetros experimentais, utilizados pela ferramenta “Split proteins”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Complexos de proteínas separados em proteínas independentes pela ferramenta “Split proteins”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 74 Curvas de titulação ideal de cada proteína individual, presente no complexo proteinase-inibidor (PDB: 2PTC). . . . . . . . . . . . . . . . . . . . . . . . . 38 73 75 Curvas de capacitância ideal em função do pH de cada proteína individual, presente no complexo proteinase-inibidor (PDB: 2PTC). . . . . . . . . . . . . . . 75 39 Tela de aquisição dos parâmetros utilizados pela ferramenta “Find best case”. . 76 40 Tela para apresentação do resultado obtido pela ferramenta “Find best case”, para um conjunto de proteínas, no pH 7,5. . . . . . . . . . . . . . . . . . . . . 77 41 Ferramenta que efetua a preparação inicial de um arquivo no formato PDB. . . 79 42 Exemplo de um arquivo no formato PDB após ser processado pela ferramenta “Clean PDB”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 43 Tela inicial para ordenação de proteínas e/ou complexos de proteínas pelo pI. . 81 44 Tela para entrada dos parâmetros físico-químicos utilizados para a predição da complexação entre duas proteínas. . . . . . . . . . . . . . . . . . . . . . . . . 45 82 Tela para apresentação dos resultados obtidos pela ferramenta “All-all protein interaction”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 vi 46 ∆Gele entre duas proteínas calbindinas (PDB: 3ICB). . . . . . . . . . . . . . . 84 47 B2 entre duas proteínas calbindinas (PDB: 3ICB). . . . . . . . . . . . . . . . . 84 48 Tela para inserção dos códigos PDB’s dos complexos de proteínas que serão analisados pela ferramenta “Statistical potential” do portal MOLESA. . . . . . 49 Tela para configuração dos parâmetros que serão utilizados pela ferramenta “Statistical potential”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 85 87 Ilustração de um complexo protéico esquemático formado por duas proteínas (representadas pelas cadeias A e B) para a realização do cálculo da distância de separação entre os resíduos presentes em cada proteína. . . . . . . . . . . . . . 51 87 Ilustração do contador de freqüências entre os aminoácidos i e j de um complexo protéico esquemático. . . . . . . . . . . . . . . . . . . . . . . . . . 88 52 Freqüência de contatos e potencial de força média entre os resíduos i e j. . . . . 89 53 Freqüência de contatos (com e sem normalização) entre os resíduos i e j. . . . . 90 54 Potencial de força média entre os resíduos i e j, normalizados de forma probabilística e com base na FDR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 55 Curva de titulação ideal do aminoácido alanina (ALA). . . . . . . . . . . . . . 94 56 Curva da capacitância ideal em função do pH, do aminoácido alanina (ALA). . 95 57 Curva de titulação ideal do aminoácido arginina (ARG). pKa = 12,0 (2). . . . . 95 58 Curva da capacitância ideal em função do pH, do aminoácido arginina (ARG). . 96 59 Comparação entre as curvas de titulação teórica e experimental da proteína lisozima (PDB: 2LZT) em força iônica igual a 0,1M. . . . . . . . . . . . . . . . 60 97 Comparação entre as curvas de titulação teóricas obtidas analiticamente e por simulação Monte Carlo da proteína calbindina (PDB: 3ICB) em força iônica nula. ∗ Dados obtidos da referência (5). . . . . . . . . . . . . . . . . . . . . . . 61 97 Comparação entre a titulação ideal (curva vermelha), obtida pelo portal PROMETHEUS, e titulação MA, obtida por simulação Monte Carlo (curva verde - concentração da proteína: 150µM; concentração de sal: 0,15M (3)) da proteína β -lactoglobulina (PDB: 1BEB). pI experimental: 5,18 (4). . . . . . 62 98 Comparação entre a capacitância ideal em função do pH, da proteína lisozima (PDB: 2LZT) provida pelo portal PROMETHEUS e a obtida da referência (5). . 99 vii 63 Comparação entre a capacitância ideal em função do pH, da proteína calbindina (PDB: 3ICB), provida pelo portal PROMETHEUS e a obtida da referência (5). . 100 64 RMSD dos pKa ’s da lisozima (PDB: 2LZT) em função de diferentes valores de EPSIN para o campo de força AMBER99. A concentração de sal foi variada de 0,01M a 0,15 M. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8) foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . 114 65 RMSD dos pKa ’s da BPTI (PDB: 4PTI) em função de diferentes valores de EPSIN para o campo de força GROMOS96. A concentração de sal foi variada de 0,01M a 0,15 M. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12) foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . 115 66 RMSD dos pKa ’s da lisozima (PDB: 2LZT) em força iônica igual a 0,1M em função de diferentes valores de EPSIN para os campos de força GROMOS96 e AMBER99. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8) foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . . . . 116 67 RMSD dos pKa ’s da BPTI (PDB: 4PTI) em força iônica igual a 0,1M em função de diferentes valores de EPSIN para os campos de força GROMOS96 e AMBER99. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12) foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . . . . 116 68 Comparação entre a titulação ideal e a titulação baseada na estrutura 3D (PB e MC), para a cabindina (PDB: 3ICB). pI experimental: 4,5 (13). Os dados de MC foram retirados da referência (14). . . . . . . . . . . . . . . . . . . . . . . 118 69 Comparação entre a capacitância ideal e a capacitância baseada na estrutura 3D (PB e MC) em função do pH, para a cabindina (PDB: 3ICB). Os dados de MC foram retirados da referência (14). . . . . . . . . . . . . . . . . . . . . . . . . 118 70 Comparação das curvas de titulação medidas experimentalmente e predições teóricas, utilizando os modelos analíticos e PB, empregando os campos de força GROMOS96 e AMBER99, para a lisozima (PDB: 2LZT). A força iônica foi fixada em 0,1M. Os dados experimentais foram obtidos da referência (15). . . . 119 viii 71 Curva de titulação da proteína lisozima (PDB: 2LZT), em várias concentrações de sal. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. Campo de força: GROMOS96. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 72 Curva de titulação da proteína calbindina (PDB: 3ICB), em várias concentrações de sal. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. Campo de força: GROMOS96. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 73 Comparação do ∆Gele do complexo hirundina–trombina (PDB: 4HTC), com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. . . . . 122 74 Comparação do B23 , do complexo hirundina–trombina (PDB: 4HTC), com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. . . . . 123 75 Curva de titulação do complexo hirundina–trombina (PDB: 4HTC), separado em duas proteína, em força iônica nula. . . . . . . . . . . . . . . . . . . . . . . 124 76 Curva da capacitância em função do pH, do complexo hirundina–trombina (PDB: 4HTC), separado em duas proteína, em força iônica nula. . . . . . . . . 124 77 Curvas de titulação de cada proteína que forma o complexo protético tripsina– inibidor (PDB: 2PTC). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 78 Curvas da capacitância de cada proteína que forma o complexo protético tripsina–inibidor (PDB: 2PTC). . . . . . . . . . . . . . . . . . . . . . . . . . . 126 79 ∆Gele formando o complexo protéico tripsina–inibidor (PDB: 2PTC). O pH foi fixado em 10 e força iônica nula. . . . . . . . . . . . . . . . . . . . . . . . . . 126 80 B23 formando o complexo protéico tripsina–inibidor (PDB: 2PTC). pH experimental:10 (16, 17). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 81 Comparação do ∆Gele do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM), com e sem o mecanismo de regulação de cargas. O pH e a força iônica foram fixados 10,6 e 0,01M, respectivamente. . . . . . . . . . . . . . . . . . . . . . . 128 82 Comparação do B23 , do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM), com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. 83 128 B23 do complexo tripsina–inibidor (PDB: 2PTC), com o mecanismo de regulação de cargas, em vários regimes de força iônica. . . . . . . . . . . . . . . . . 129 ix 84 ∆Gele do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação de cargas, em força iônica nula e 0,01M. O pH, a temperatura e a constante dielétrica do solvente foram fixados em 10,6, 298,15 K e 78,5, respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 85 ∆Gele , nos níveis de predição analítico e Poisson-Boltzmann, do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. O pH foi mantido constante em 10,6 para os cálculos analíticos e 11,2 para os cálculos utilizando PB. Campo de força: GROMOS96. 131 86 B2 de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de regulação de cargas, em vários regimes de força iônica. . . . . . . . . . . . . . 131 87 Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos de força estão citados nas legendas das curvas do próprio gráfico. Os dados experimentais foram obtidos da referência (18). . . . . . . . . . . . . . . . . . 132 88 Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,1M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos de força estão citados nas legendas das curvas do próprio gráfico. Os dados experimentais foram obtidos da referência (18). . . . . . . . . . . . . . . . . . 133 89 Comparação do B2 de complexação entre dois quimotripsinogênios (PDB: 1CHG), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. As cargas foram definidas de acordo com o campo de força AMBER99. Os dados experimentais foram obtidos da referência (18). . . . . . . . . . . . . . . 134 x 90 Comparação do B2 de complexação entre dois quimotripsinogênios (PDB: 1CHG), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,01M e 0,005. Nos cálculos por PB, ε p foi definido como igual a 40. As cargas foram definidas de acordo com o campo força AMBER99. Os dados experimentais foram obtidos da referência (18). . . . . . . . . . . . . 135 91 Comparação do B2 , com e sem o potencial de dispersão de Hamaker, de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de regulação de cargas e força iônica nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 92 Comparação do ∆Gele com e sem o mecanismo de regulação de cargas. O pH foi fixado em 4,5 e força iônica nula. . . . . . . . . . . . . . . . . . . . . . . . 137 93 Freqüência de contatos entre os resíduos ALA–ALA para as proteínas dos conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do gráfico. . . . . . . 140 94 Freqüência de contatos entre os resíduos GLU–GLU para as proteínas dos conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do gráfico. . . . . . . 141 95 Freqüência de contatos entre os resíduos ILE–VAL para as proteínas dos conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do gráfico. . . . . . . 141 96 PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 97 PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 98 PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 99 PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 xi 100 PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 101 PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 102 Comparação entre os critérios de normalização 1 e 2 no cálculo do PFM entre os resíduos ALA–ALA presentes nas proteínas pertencentes ao conjunto controle. 146 103 Modelo do arquivo de informações criado após a conclusão do processamento da ferramenta “Single protein properties”, para o cálculo da titulação ideal da proteína β -lactoglobulina bovina (PDB: 1BEB). . . . . . . . . . . . . . . . . . 150 104 Ilustração do modelo MVC (Model View Control) utilizado no desenvolvimento dos portais web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 105 Organização do sistema em relação à origem da fonte de dados que serão processados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 106 Exemplo de um arquivo no formato PQR, mostrando o primeiro aminoácido de uma proteína. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 107 Exemplo de um arquivo de configuração no formato sites. . . . . . . . . . . . . 189 108 Exemplo de um arquivo de configuração no formato st do aminoácido ácido glutâmico (GLU). Neste exemplo utilizamos o campo de força AMBER99 para prover as cargas e os raios de cada átomo. . . . . . . . . . . . . . . . . . . . . 189 109 Exemplo de um arquivo de configuração no formato mgm. . . . . . . . . . . . 190 110 Estrutura gerada pela classe PDBParser, obtida do tutorial do Biopython v.1.52. 193 111 Arquivos no formato st utilizando o campo de força GROMOS96, conforme proposto pela referência (19). . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 112 Arquivos no formato st utilizando o campo de força AMBER99, conforme proposto pela referência (20). . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 113 Arquivos no formato st utilizando o campo de força AMBER99, conforme proposto pela referência (20). . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 xii Lista de Tabelas 1 Valores de pKa ’s dos aminoácidos “isolados” obtidos experimentalmente a temperatura de 25◦ C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2 Valores do raio, volume e peso molecular de cada aminoácido. . . . . . . . . . 41 3 Comparação entre os pI’s experimentais e os calculados pelo PROMETHEUS no nível analítico. Os dados experimentais foram obtidos da referência (21). . . 4 95 Comparação entre os pontos isoelétricos experimentais e teóricos, com os calculados pelo PROMETHEUS no nível de predição analítico. . . . . . . . . . . 101 5 Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6 Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força AMBER99.103 7 Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. 104 xiii 8 Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força AMBER99. . 105 9 Comparação dos valores de pKa ’s dos resíduos lisina presentes na proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. A força iônica, a temperatura e a constante dielétrica do solvente foram fixadas em 0,1M, 298,0K e 78,5, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. . . . . 107 10 Comparação dos valores de pKa ’s dos resíduos ácido glutâmico presentes na proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. A força iônica, a temperatura e a constante dielétrica do solvente foram fixadas em 1M, 298,0K e 77,8, respectivamente. Dados obtidos utilizando o campo de força GROMOS96.108 11 Comparação dos valores de pKa ’s dos resíduos presentes na proteína ribonuclease A (PDB: 3RN3), em várias concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A penúltima coluna apresenta os pKa ’s medidos experimentalmente e a última, os pKa ’s preditos pelo serviço web PCE. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0K e 80, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. . . . 109 12 Comparação dos valores de pKa ’s da proteína lisozima obtidos pelo serviço H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99. . . . . . . . . . . . . . . . . . . . . . 112 13 Comparação dos valores de pKa ’s da proteína BPTI obtidos pelo serviço H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99. . . . . . . . . . . . . . . . . . . . . . . . 113 14 Comparação entre os pontos isoelétricos experimentais e os providos pelo PROMETHEUS no nível de predição analítico e Poisson-Boltzmann. . . . . . . 120 xiv 15 Códigos PDBs dos complexos protéicos utilizados no cálculo da freqüência de contato em função da distância de separação entre os resíduos de aminoácidos presentes em cadeias distintas da proteína. . . . . . . . . . . . . . . . . . . . . 139 16 Relação dos conjuntos de proteínas e os respectivos erros encontrados em relação ao conjunto controle, exibidos na Tabela 15. . . . . . . . . . . . . . . . . . 147 17 Quantidade de cada resíduo presente nos conjuntos de proteínas exibidos na Tabela 15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 18 Comparativo entre o uso de banco de dados e arquivos texto a respeito da organização, armazenamento e recuperação de dados. . . . . . . . . . . . . . . . . 149 19 Comparação dos valores de pKa ’s da proteína lisozima (distribuído junto com o pacote MEAD) e os providos pelo PROMETHEUS com o parâmetro epsave_oldway. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 20 Comparação dos valores de pKa ’s da proteína lisozima, distribuído junto com o pacote MEAD e os providos pelo PROMETHEUS sem o parâmetro epsave_oldway. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 xv Lista de Algoritmos 1 Pseudocódigo utilizado para realizar a normalização dos dados, pelo critério 1. 2 Pseudocódigo do algoritmo utilizado para realizar o cálculo do grau de disso- p. 92 ciação de um próton (αi ) de um aminoácido i. . . . . . . . . . . . . . . . . . . p. 156 3 Pseudocódigo utilizado para calcular a carga líquida de uma proteína. . . . . . p. 156 xvi Lista de abreviaturas e siglas ATOM Átomo. Campo pertencente ao arquivo no formato PDB que contém as coordenadas atômicas dos átomos presentes nos grupos de aminoácidos padrões. BPTI Basic pancreatic trypsin inhibitor (inibidor da tripsina pancreática básica). Cr Creighton. DM Dinâmica molecular. EPB Equação de Poisson-Boltzmann. EPBL Equação de Poisson-Boltzmann linear. EPSIN Constante dielétrica do soluto. EPSSOL Constante dielétrica do solvente. FDR Função de distribuição radial. GNU General public license (licença pública geral). GRASP Graphical representation and analysis of surface-properties (representação gráfica e análises das propriedades de superfície). GROMACS Groningen machine for chemical simulations (máquina de Groningen para simulações químicas). GROMOS Groningen molecular simulation (simulação molecular de Groningen). HETATM Heteroátomo. Campo contido no arquivo no formato PDB que representa as coordenadas atômicas de átomos que não pertencem aos grupos de aminoácidos padrões. Geralmente este campo é utilizado para moléculas de água, ligantes e outros átomos não pertencentes ao conjunto de aminoácidos padrão. xvii HTML HyperText Markup Language (Linguagem de marcação de texto). MA Modelo atomístico. MC Monte Carlo. MDC Mapas de contato. MEAD Macroscopic electrostatics with atomic detail (eletrostática macroscópica com detalhes atomísticos). MI Métodos inversos. MJ Miyazawa e Jernigan. MOLESA Molecular structures analysis (análise de estruturas molecular). MVC Model view control (modelo visão controle). NBO Nível de Born-Oppenheimer. NMM Nível de McMillan-Mayer. NMR Nuclear magnetic resonance (ressonância magnética nuclear). NS Nível de Schrödinger. NT Nozaki e Tanford. PB Poisson-Boltzmann. PDB Protein data bank (banco de dados de proteínas). PDBid Código de identificação de uma proteína utilizado pelo PDB. PFM Potencial de força média. PROMETHEUS Protein-Protein complexes by macroscopic electrostatic theories and user-friendly simulations (complexos proteína-proteína por teoria eletrostática macroscópica e simulações amigáveis). RMSD Root mean square deviation (desvio padrão). xviii Lista de símbolos ∆Gele Variação da energia livre eletrostática de complexação (dada em unidades de kB T). αi Grau de dissociação de um aminoácido i. λ Parâmetro de carregamento. φ (r) Potencial eletrostático em uma determinada posição r. ρ(r) Densidade de carga média na posição r. σ Distância mínima de separação entre duas proteínas. ε0 Constante dielétrica do vácuo (ε0 = 8, 85.10−12C2 /Nm2 ). εp Constante dielétrica do interior da proteína. εs Constante dielétrica do solvente (para H2 O, εs = 77, 8, em T = 298 K). ◦C Grau Celsius. a Coeficiente de atividade química. B23 Segundo coeficiente cruzado de virial. B23 (ele) Termo eletrostático do segundo coeficiente cruzado de virial. B23 (er) Termo repulsivo do segundo coeficiente cruzado de virial. B2 Segundo coeficiente de virial. Cideal Capacitância ideal de uma proteína. Caideal Capacitância ideal de um aminoácido a. CM px Coordenada no eixo X do centro geométrico de uma proteína. CM py Coordenada no eixo Y do centro geométrico de uma proteína. CM pz Coordenada no eixo Z do centro geométrico de uma proteína. d Distância do átomo mais distante do centro geométrico da proteína (em Ångström). dr Variação da distância de separação entre duas proteínas. dx Distância no eixo X em relação ao centro geométrico da proteína. dy Distância no eixo Y em relação ao centro geométrico da proteína. dz Distância no eixo Z em relação ao centro geométrico da proteína. xix e Carga elementar (e=1,6.10−19C). gi j (r) Função de distribuição radial dos resíduos i e j. gi j (r)∗ Freqüência de contatos entre os resíduos i e j na distância r (em Ångström). I Força iônica do meio. K Constante de equilíbrio termodinâmica. k Inverso do comprimento de Debye. Ka Constante de equilíbrio termodinâmica de um aminoácido a. kB Constante de Boltzmann (kB = 1,381.10−23 JK −1 ). L Tamanho do lado da caixa de simulação utilizada para a resolução da EPBL, utilizando o método das diferenças finitas. lBox Tamanho do lado de cada elemento cúbico da rede de simulação utilizada para resolução da EPBL, utilizando o método das diferenças finitas. lB Comprimento de Bjerrum. Nσ Taxa empregada para o aumento da distância de separação entre duas proteínas. Na Número de Avogadro (Na = 6, 02.1023 mol −1 ). NBox Quantidade de elementos cúbicos presentes na caixa de simulação utilizada para resolução da EPBL, utilizando o método das diferenças finitas. ni Densidade de íons do tipo i por unidade de volume em uma dada região do espaço. n0i Densidade de íons do tipo i por unidade de volume para o seio da solução. pH Potencial hidrogeniônico. pI Ponto isoelétrico de uma molécula. pK Forma logarítma da constante de equilíbrio termodinâmica. pKa Forma logarítma da constante de equilíbrio termodinâmica de um aminoácido da espécie a. qi Carga correspondente ao íon i. r Distância de separação entre duas proteínas (em Ångström). r0 Próxima distância de separação entre duas proteínas. ri Raio da proteína i (em Ångström). xx RF Distância máxima de separação entre duas proteínas. T Temperatura absoluta em Kelvin (K). wi j (r) Potencial de força média em função da distância de separação r entre os resíduos i e j. z Valência de um aminoácido. zi Valência de um aminoácido i. Zi Valência de uma proteína i. xxi Sumário Resumo i Abstract ii Lista de figuras iii Lista de tabelas xi Lista de algoritmos xiv Lista de abreviaturas e siglas xv Lista de símbolos xvii 1 INTRODUÇÃO E REVISÃO DA LITERATURA 1 1.1 Biocomputação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Ferramentas para Biologia Estrutural . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1 Banco de dados de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.2 Validação de estruturas de proteínas . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.3 Serviços disponíveis na web . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 A importância dos complexos protéicos . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Abordagem do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.1 Estratégia 1: Propriedades eletrostáticas de proteínas . . . . . . . . . . . . . . . 12 1.4.2 Estratégia 2: Análise de propriedades estruturais para a construção de potenciais 1.4.3 estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Combinando os resultados: Portais web para complexação de proteínas . . . . . 14 xxii 1.5 Sumário de nossas contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 OBJETIVOS 18 3 ASPECTOS IMPORTANTES SOBRE PROTEÍNAS 20 3.1 Aminoácidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2 Ligações peptídicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 Estrutura primária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4 Estrutura secundária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5 Estrutura terciária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6 Estrutura quaternária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.7 Métodos para determinação da estrutura tridimensional das proteínas . . . . . . . 23 4 TRABALHANDO COM INFORMAÇÕES BIOLÓGICAS IN SILICO 25 4.1 Níveis de detalhamento do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Modelagem do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 Solução do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4 Equação de Poisson-Boltzmann . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Método das diferenças finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.5 Função de distribuição radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.6 Potencial de força média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.7 Campos de força . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4.1 5 MATERIAL E MÉTODOS 34 5.1 Teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.1.1 Equilíbrio ácido-base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.1.2 Cálculo de pKa ’s em proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.1.3 Cálculos das propriedades eletrostáticas em proteínas – preditor básico de complexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 xxiii 5.1.4 Nível de predição ideal (analítico) – Predição a partir da seqüência primária da proteína . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Nível de predição baseado na estrutura 3D da proteína – através da utilização da EPBL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.6 5.2 43 Análise da freqüência de contatos entre os aminoácidos de complexos protéicos do PDB e potencial estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Infra-estrutura computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6 FERRAMENTAS COMPUTACIONAIS DESENVOLVIDAS 6.1 37 49 Estratégia 1: Desenvolvimento de um portal web que permite o estudo de propriedades eletrostáticas em proteínas . . . . . . . . . . . . . . . . . . . . . . . 49 6.1.1 Cadastramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.1.2 Propriedades dos aminoácidos isolados (Single amino acid properties) . . . . . 51 6.1.3 Propriedades de proteínas isoladas (Single protein properties) . . . . . . . . . . 53 6.1.4 Interação Proteína-Proteína (Protein-protein interaction) . . . . . . . . . . . . . 60 6.1.5 Ferramentas auxiliares desenvolvidas (Tools) . . . . . . . . . . . . . . . . . . . 70 6.2 6.2.1 Estratégia 2: Desenvolvimento de um portal web que permite a análise da freqüência de contatos entre os aminoácidos que formam um complexo protéico . . . . . . 85 Funcionamento do portal MOLESA . . . . . . . . . . . . . . . . . . . . . . . . 91 7 RESULTADOS 7.1 93 O portal PROMETHEUS - predição com base nas propriedades eletrostáticas das proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.1.1 Validação das propriedades eletrostáticas dos aminoácidos . . . . . . . . . . . . 94 7.1.2 Validação das propriedades eletrostáticas de proteínas . . . . . . . . . . . . . . 96 7.2 7.2.1 7.3 Interação proteína–proteína . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Mecanismo de regulação de cargas . . . . . . . . . . . . . . . . . . . . . . . . 136 O portal MOLESA - análise estrutural de complexos de proteínas . . . . . . . . . 138 8 DISCUSSÃO 148 xxiv 8.1 8.1.1 8.2 8.2.1 Enfoque computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Análise da complexidade de algoritmos . . . . . . . . . . . . . . . . . . . . . . 156 Enfoque físico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis . . . . . . . . . 160 9 CONCLUSÃO E TRABALHOS FUTUROS 9.1 165 Perspectivas de Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 REFERÊNCIAS 168 Apêndice A -- Avaliação dos serviços disponíveis na web 182 Apêndice B -- Descrição das principais classes desenvolvidas 184 Apêndice C -- Descrição dos programas auxiliares utilizados 187 C.1 MEAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 C.2 Biopython . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 C.3 GROMACS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 C.4 PDB2PQR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Apêndice D -- Criação dos arquivos no formato st em função do campo de força 196 D.1 Arquivos no formato st criados com base no campo de força GROMOS96 v.53A6 . 196 D.2 Arquivos no formato st criados com base no campo de força AMBER99 . . . . . . 198 1 1 INTRODUÇÃO E REVISÃO DA LITERATURA 1.1 Biocomputação A enorme profusão de dados de seqüência e estruturais, gerados nas últimas décadas, levaram a criação de um novo campo de investigação, o da Bioinformática, o qual é definido genericamente como estando na interseção entre a Biotecnologia e a Ciência da Computação (22). Segundo a revista ERCIM News No. 43, de Outubro de 2000 (23), Biologia Computacional e Bioinformática são termos utilizados em um campo interdisciplinar unindo a informação tecnológica com a biológica, que por sua vez tem crescido rapidamente durante os últimos anos. Este campo é localizado entre duas áreas: científica e tecnológica, no qual a Biologia Computacional refere-se à parte mais científica desde campo, empregando as técnicas computacionais para a Biologia Molecular, enquanto que a Bioinformática é mais voltada à parte de infra-estrutura computacional e análises estatísticas dos dados, embora na prática há uma grande sobreposição entre suas atividades. Combinando características dessas duas áreas afins, temos o que nós chamamos de Biocomputação1 , que compreende ao desenvolvimento de aplicações computacionais (softwares) aplicadas para o entendimento de sistemas biológicos, e que ofereçam facilidade de uso de forma a dispensar o conhecimento profundo na área das ciências da computação para a utilização das mesmas por um público externo, provendo ao mesmo tempo a infra-estrutura necessária para que as operações realizadas em dados biológicos sejam executadas em larga escala. 1 Entendemos que o termo “Biocomputação” (24, 25) é mais abrangente do que “Bioinformática” [esse seria uma subárea dentro da primeira, ao lado de Biologia de Sistemas (ou Sistêmica), Modelagem de Proteínas e Simulação computacional de moléculas biológicas (26, 27)]. Entretanto, por consistência com outros grupos de pesquisa (veja, p.ex., http://www.pdb.org e http://www.cbi.cnptia.embrapa.br), ao nos referirmos ao armazenamento, uso e manipulação de estruturas de proteínas, empregaremos o termo “Bioinformática Estrutural”. De qualquer forma, por ambos, suportados pela definição de M. Gerstein (28) visamos o entendimento da Biologia em termos de suas moléculas (no sentido da físico-química) e aplicando técnicas de “informática” (ou, mais geral, de computação) para entender e organizar as informações associadas com estas moléculas, em larga-escala. 2 Dentro deste contexto de conceituação da Biocomputação, é notável que a utilização de ferramentas computacionais nas diversas áreas do saber vem rapidamente crescendo, permitindo um amplo espectro de tarefas, desde as mais corriqueiras, como a otimização de processos, a aceleração de cálculos e a armazenagem de um antes inimaginável conjunto de dados biológicos, a outras mais amplas, como novas possibilidades e perspectivas de abordagens científicas e o tratamento em larga escala de sistemas biológicos tradicionalmente estudados em pequena escala. O desenvolvimento da computação e sua inserção na solução de problemas físicos e químicos biológicos exemplificam tal tendência (29–32), quer para um maior entendimento dos mecanismos moleculares, quer auxiliando no planejamento de possíveis aplicações industriais, ou ainda, procurando compreender e controlar a fronteira entre a saúde e a doença (26, 33–36). Em um cenário pós-Genoma, onde um conjunto considerável de informações já se encontra disponível, a Biocomputação se torna ainda mais relevante, contribuindo com o auxílio de diversas ferramentas, como o Sistema Gerenciador de Banco de Dados (SGBD) (37, 38), linguagens de programação multi-plataformas (38–40), poder de processamento relativamente alto a custos reduzidos, os quais possibilitam o armazenamento da informação biológica e, principalmente, um conjunto de diferentes e complementares formas de extração e manipulação destes dados (41). Por exemplo, a partir de estruturas tridimensionais de macromoléculas depositadas no Banco de Dados de Proteínas (RCSB Protein Data Bank – PDB) (42), vários estudos podem ser realizados (43–47), procurando-se melhor caracterizar um dos grandes paradigmas da Biologia Molecular: correlacionar a estrutura com a função biológica (48). Além de bancos de dados contendo informações sobre estruturas biológicas, sejam eles de proteínas (49), DNA (50, 51), fármacos (52), e outros (53), há também diversas ferramentas disponíveis gratuitamente à comunidade (54–57) que permitem a manipulação de estruturas biológicas, dentre as quais destacamos o Biopython (58). Biopython2 é um conjunto de programas desenvolvidos em linguagem Python, para a Biologia Molecular, onde é possível, por exemplo, criar estruturas de dados em Python a partir de informações biológicas contidas em arquivos textos, como os disponibilizados pelo PDB e outros, e, então, manipular tais informações de maneira bastante simplificada, através do uso de métodos ou funções implementadas pela ferramenta, tornando possível dessa forma a manipulação de estruturas biológicas, tanto por profissionais não familiarizados com métodos e estruturas computacionais tradicionalmente empregados para este fim, quanto pelos mais especialistas nesta área (engenheiros da computação/hardware, “bio-informatas”, analistas de sistemas e outras áreas afins), o que torna possível expandir as funcionalidades providas por esta ferramenta conforme as necessidades das análises que serão feitas. 2 Maiores detalhes sobre o Biopython podem ser vistos no Apêndice C. 3 O trabalho aqui apresentado contempla tanto o uso de banco de dados para extração da informação, como a geração de novos bancos de dados, além do desenvolvimento de diversas ferramentas computacionais as quais permitem efetuar diferentes análises em complexos protéicos. As próximas seções apresentam uma descrição de algumas das ferramentas existentes para o uso em Biologia Estrutural. 1.2 1.2.1 Ferramentas para Biologia Estrutural Banco de dados de proteínas Dentre os diversos bancos de dados de estruturas e informações biológicas disponíveis na web, como SCOP (59), STING (60) e outros (61), focamos no banco de dados de proteínas de Brookhaven (PDB), por ser este uma grande fonte de informações a respeito de estruturas de proteínas bem como o ponto de partida inicial escolhido para a realização das análises que serão desenvolvidas neste trabalho as quais estarão disponíveis gratuitamente à comunidade. Criado em 1971 pelo Laboratório Nacional de Brookhaven, o PDB, hoje mantido pelo Research Collaboratory for Structural Bioinformatics (RCSB), armazena estruturas de macromoléculas biológicas (42), obtidas por técnicas experimentais (NMR e Cristalografia de raios X). Além das coordenadas espaciais de cada átomo da proteína, aí estão disponíveis, para extração, dados como a identificação dos resíduos de contato, caracterização da área superficial, o número de pontes de hidrogênio e de contatos de van der Waals, a magnitude de mudanças conformacionais associadas com a formação de complexos, etc (62). Entretanto, continua sendo difícil de se prever experimentalmente as conseqüências estruturais e funcionais da substituição de aminoácidos específicos assim como as próprias condições necessárias para a obtenção dos cristais (63) utilizados no processo de obtenção da estrutura tridimensional de uma proteína. 1.2.2 Validação de estruturas de proteínas Apesar do conjunto de testes que são realizados nos dados antes dos mesmos serem depositados no PDB (42, 62), estes ainda não estão livres de incertezas e problemas (64). A maioria das estruturas tridimensionais de proteínas atualmente conhecidas são obtidas por técnicas de cristalografia de raios X ou ressonância nuclear magnética, e, como todo experimento, estão sujeitos a erros (65). Conseqüentemente, informações adicionais são necessárias para permitir a validação e o refinamento das estruturas (66). Branden e Jones (64) efetuaram uma rigorosa busca por 4 proteínas que tiveram sua estrutura resolvida por cristalografia de raios X e verificaram que os resultados podem conter alguns erros os quais são difíceis de identificar (67). É tarefa do cristalógrafo se certificar que estruturas de proteínas incorretas não sejam disponibilizadas na literatura (68). Além dos erros intrínsecos, arquivos PDB podem conter átomos faltantes e/ou duplicados, aminoácidos desconhecidos, etc. Por esta razão é necessário o tratamento (testes de qualidade e consistência, como os realizados pelo WHATIF (64, 68, 69) e outros) dos arquivos advindos do PDB, garantindo assim que as análises posteriores, por exemplo, os potenciais estatísticos e outros resultados gerados, como, por exemplo, o estudo das propriedades eletrostáticas de proteínas, sejam confiáveis. 1.2.3 Serviços disponíveis na web Devido ao alto grau de complexidade do desenvolvimento de programas computacio- nais, principalmente envolvendo sistemas biológicos onde a generalização de um caso muitas vezes não atende todos os requisitos de outro sistema, e a grande heterogeneidade de profissionais (físicos, químicos, biólogos, engenheiros, analistas de sistemas, farmacêuticos, etc.) interessados em estudar sistemas biológicos in silico, muitos grupos têm disponibilizado, através de servidores web (web sites), ferramentas e/ou serviços que proporcionam, ainda que de maneira limitada, o estudo de biomoléculas. Neste cenário, o usuário pode escolher o sistema de interesse e a metodologia de estudo (nível de detalhamento do modelo, quais fatores – temperatura do sistema, concentração do soluto, concentração do solvente, íons livres na solução, etc. – serão considerados, entre outras configurações e/ou possibilidades) e simplesmente aguardar uma resposta (arquivo texto, texto no formato HTML3 , e-mail, etc.) do programa (portal, web site) a qual deverá ser cuidadosamente analisada. A maioria dos serviços web e programas de computador atualmente disponíveis é desenvolvida valendo-se dos conhecimentos advindos da Física, como o cálculo de distância, velocidade, massa, carga, pH, etc. A escolha do modelo normalmente está relacionada com os recursos computacionais disponíveis, o que se deseja medir e em qual tempo. Por exemplo, podemos desenvolver programas que computam o sistema no seu nível máximo de detalhamento (quântico), onde as posições de todas as partículas (prótons, elétrons, etc.) são calculadas, ou seja, tem-se um sistema que opera em nível quântico ou, podemos desenvolver ferramentas que trabalham com um modelo mais simplificado, por exemplo, considerando apenas a seqüência primária de uma proteína, sem se importar com sua estrutura 3D. A escolha do modelo também está intimamente relacionada com um compromisso entre o poder computacional disponível, o 3 HTML (HyperText Markup Language) é uma linguagem de marcação utilizada para produzir páginas na web. 5 tempo de resposta esperado e o tamanho do problema (sistema de interesse). Com o intuito de exemplificar e ao mesmo tempo familiarizar o leitor com as soluções já existentes, exploraremos algumas ferramentas atualmente disponíveis na web. Tais ferramentas são responsáveis por: validação de estrutura, adição de átomos ausentes, cálculos de propriedades eletrostáticas em proteínas e outros. 1. PDB2PQR (70, 71): Disponível em: http://pdb2pqr-1.wustl.edu/ pdb2pqr/ ou em http://nbcr.net/pdb2pqr/, é um programa desenvolvido em linguagem Python que converte um arquivo originalmente no formato PDB para um arquivo no formato PQR4 . A ferramenta realiza as seguintes tarefas: • Adição de um número limitado de átomos que não estão presentes no modelo; • Determinação dos pKa ’s5 dos resíduos de aminoácidos, utilizando o programa PROPKA (72, 73); • Adição de átomos de hidrogênio6 ; • Otimização das ligações de hidrogênio favoráveis7 ; • Provê as cargas e os raios para os átomos a partir do campo de força8 escolhido. 2. H++ (20): Disponível em http://biophysics.cs.vt.edu/H++/ hppdetails.php, é um programa que calcula os valores de pKa ’s de grupos de aminoácidos ionizáveis presentes em macromoléculas e acrescenta átomos de hidrogênio que não estão presentes na estrutura. O H++ recebe como entrada um arquivo no formato PDB e retorna como saída arquivos nos formatos PDB, PQR e AMBER (74, 75). Ao submeter uma estrutura no formato PDB, o H++ realiza as seguintes tarefas: • Remoção de todos os campos HETATM9 presentes no arquivo no formato PDB; • Remoção de todas as moléculas de água e contra-íons; 4 Arquivo contendo as coordenadas, raio e carga para cada átomo presente no arquivo PDB. É largamente empregado em pacotes de simulação de propriedades eletrostáticas de proteínas. 5 pK: constante de ligação/equilíbrio termodinâmica. Propriedade que pode ser utilizada para analisar vários comportamentos em sistemas biomoleculares. 6 Átomos de hidrogênio, pertencentes aos aminoácidos, geralmente não são identificados nas estruturas das proteínas resolvidas por cristalografia de raios X devido a limitações da técnica. Uma das necessidades de se obter os átomos de hidrogênio é determinar valores, mais próximos aos dados experimentais, para o volume e o raio de proteína, visto que quase 50% dos átomos de uma proteína são átomos de hidrogênio. 7 A otimização da ligação é feita buscando um mínimo de energia para o sistema. 8 Apresentamos a definição e o uso de campo de força na Seção 4.7 - Campos de força. 9 Campo contido no arquivo no formato PDB que representa as coordenadas atômicas de átomos que não pertencem aos grupos de aminoácidos padrões. Geralmente este campo é utilizado para moléculas de água, ligantes e outros átomos não pertencentes ao conjunto de aminoácidos padrão. 6 • Verificação da seqüência de átomos e configuração do nome dos átomos para o padrão utilizado pelo pacote AMBER99 (74, 76); • Adição de átomos de hidrogênio e otimização de suas ligações; • Padronização dos raios dos átomos; • Cálculos eletrostáticos através da utilização do pacote MEAD (77); • Cálculo da curva de titulação de cada aminoácido ionizável; • Adição ou remoção de prótons, na estrutura da proteína, de acordo com os pKa ’s calculados. • Minimização de energia da estrutura da proteína em um dado pH utilizando o campo de força AMBER99. 3. WHATIF (69): Disponível em: http://swift.cmbi.ru.nl/servers/html/ index.html, é um pacote de programas desenvolvido em linguagem FORTRAN 77 para modelagem molecular especializado para trabalhar com proteínas; seu desenvolvimento teve início em 1987 e prossegue até a presente data. WHATIF provê um ambiente flexível para visualizar, manipular e analisar pequenas moléculas também. Neste contexto é possível efetuar: comparação de moléculas de proteínas com base em sua estrutura 3D, visualizar mapas de densidade eletrônica de estruturas de proteínas, efetuar mutações na seqüência de aminoácidos da proteína, análise e predição de átomos de hidrogênio, etc. 4. RosettaDock (78): Disponível em http://rosettadock.graylab.jhu.edu/, é um pacote de programas desenvolvido em linguagem C++ para predição e modelagem (design) de estruturas de proteínas, mecanismos de enovelamento (folding) de proteína e interações proteína-proteína. 5. PCE (79): Disponível em: http://bioserv.rpbs.jussieu.fr/Help/PCE. html, é uma interface web para o programa MEAD. Os serviços disponíveis são: PCEpot e PCE-pKa, os quais, respectivamente realizam as seguintes tarefas: • Cálculo do potencial eletrostático de uma proteína em função de condições experimentais, resolvendo numericamente a equação de Poisson-Boltzmann10 . O programa recebe como entrada um arquivo no formato PDB, para o qual é gerado um arquivo no formato PQR utilizando o campo de força PARSE (83, 84), ou um arquivo no formato PQR. O programa retorna como resultado imagens que representam graficamente o potencial eletrostático na superfície da molécula em estudo. 10 Maiores detalhes sobre a equação de Poisson-Boltzmann (80–82) serão abordados ao longo deste trabalho. 7 • Cálculo dos valores de pKa ’s dos aminoácidos ionizáveis da proteína. O programa recebe como entrada um arquivo no formato PDB e fornece a resposta em uma página HTML. Outros serviços web podem ser encontrados na literatura (52, 60, 85–88). Nossa primeira contribuição será no sentido de complementar estas ferramentas, através da construção de portais web que auxiliem na predição da complexação de proteínas. Propomos, além do fornecimento de propriedades disponíveis em outros serviços, a possibilidade de efetuar um estudo das propriedades eletrostáticas em proteínas, através de um preditor inicial de complexos protéicos, chamado PROMETHEUS (esta será a primeira frente do trabalho), em diversas condições e níveis preditivos. No futuro, a ferramenta também permitirá: • Geração de peptídeos derivados de uma dada seqüência, combinando diferentes quantidades de aminoácidos e fazendo mutações entre os resíduos, para classificação dos mais adequados à complexação com proteínas-alvo. • Acoplamento a outros serviços, como o MHOLline (89, 90), utilizado para predição de estrutura de proteínas. Além disso, os dados presentes em nossa base de dados serão disponibilizados gratuitamente à comunidade onde, a partir dos mesmos, vários estudos podem ser realizados, e com o benefício que as estruturas de proteínas presentes na nossa base de dados já estarem validadas. 1.3 A importância dos complexos protéicos Interações proteína-proteína são de grande interesse na indústria farmacêutica, alimen- tos, biotecnologia, processos de biosseparação, purificação de proteínas, micro-encapsulação, biomateriais, etc. (91–93). Além disso, complexos protéicos estão envolvidos na maioria dos processos biológicos, como por exemplo, catálise enzimática, transporte de substâncias (94) e doenças como Alzheimer, Parkinson, Diabetes tipo II, Anemia Falciforme e outros (92, 93, 95), o que torna o entendimento racional dessas interações um tema de grande interesse, sendo explorado pelas mais diversas áreas do conhecimento, como a Física, Bioquímica, Biologia, etc. Neste trabalho, nós buscamos o entendimento, em termos físicos, das interações envolvidas no processo de complexação protéica e a predição de complexos envolvendo proteínas, visando, dessa forma, auxiliar o avanço na compreensão de sistemas biológicos, através da quantificação das forças envolvidas no processo de complexação. 8 Através da análise das propriedades termodinâmicas das proteínas11 como, por exemplo, ponto isoelétrico (pI), energia livre, segundo coeficiente cruzado de virial (B23 )12 e outros, visamos contribuir para o progresso nas seguintes áreas e suas correlações: • Determinação da estrutura protéica: A cristalização de uma proteína em solução é o passo inicial para a determinação de sua estrutura utilizando difração por raios-X13 (96). Entretando a obtenção de um cristal de alta qualidade é um dos passos mais difíceis e que consome o maior tempo no processo de determinação da estrutura da proteína, uma vez que a condição de cristalização depende de um grande número de parâmetros e condições experimentais (97). Estudos demonstram que o segundo coeficiente de virial B2 (e conseqüêntemente o segundo coeficiente cruzado de virial - B23 ) está intimamente relacionado com a cristalização protéica, uma vez que valores negativos deste indicam atração entre as proteínas, o que é pré-condição para a cristalização (18, 98, 99). A utilização de um preditor básico de complexação a partir da seqüência linear dos aminoácidos, como disponível no PROMETHEUS, auxilia na determinação das possíveis condições físico-químicas, nas quais poderiam ocorrer a cristalização das proteínas (janelas de cristalização). Dependendo da qualidade dos resultados que o usuário deseja obter, esses testes podem ser realizados em larga escala para um grande conjunto de proteínas em diversas condições experimentais, proporcionando dessa forma a obtenção das pré-condições físico-químicas iniciais para a determinação experimental da estrutura protéica. • Indústrias de alimentos: Produtos alimentícios são compostos por uma grande diversidade de ingredientes como proteínas e polissacarídeos (91, 100). As interações entre estas macromoléculas desempenham um papel importante na estrutura e estabilidades destes produtos. Controlar ou manipular estas interações macromoleculares é o fator chave para o desenvolvimento de novos processos e produtos na indústria de alimentos (91). Predizer estas interações facilita tal tarefa. • Indústrias farmacêucias: A habilidade das proteínas se dissolverem em solução aquosa é uma importante propriedade. Esta habilidade é medida pela solubilidade da proteína, a 11 Esta abordagem é realizada pelas ferramentas computacionais desenvolvidas e acopladas ao portal PROMETHEUS, o qual permite o estudo e a predição de complexos protéicos com base nas propriedades eletrostáticas das proteínas, em diversos níveis preditivos. 12 Esta expressão é derivada do coeficiente de virial para medir a pressão osmótica de uma solução. B mede a 23 energia de interação de dois corpos. Uma abordagem mais detalhada sobre o B23 é exibida na Seção 5 - Material e métodos. 13 As técnicas utilizadas na determinação da estrutura tridimensional das proteínas são abordadas na Seção 3.7 Métodos para determinação da estrutura tridimensional das proteínas. 9 qual possui grande importância no processo de purificação de proteínas e sérias implicações em muitas doenças associadas com a agregação protéica (92, 93). A solubilidade da proteína é mínima ao redor do pI (101), e seu estudo é de grande interesse na indústria farmacêutica na busca por novos fármacos e proteínas recombinantes para o tratamento destas doenças (Alzheimer, Parkinson, etc.). A solubilidade de uma proteína depende de sua carga14 e dos estados de ionização15 (102) dos resíduos ionizáveis que a constituem. O portal PROMETHEUS permite o estudo das propriedades eletrostáticas das proteínas em diversas condições experimentais (informadas pelo usuário) e níveis de predição, possibilitando que diversas análises computacionais sejam realizadas com o objetivo de se obter os melhores ligantes para uma proteína e/ou complexo protéico. O processo de purificação de proteínas, por precipitação induzida por sal, tem sido largamente empregada na indústria para separar proteínas como, por exemplo, proteínas do plasma do sangue (103), proteínas de extratos vegetais (104) e de bactérias (105). Entretanto a obtenção da condição de solubilidade não é trivial, pois depende de uma série de fatores como, pH, distribuição de cargas na proteína, concentração de sal e temperatura. Testar cada uma destas configurações experimentalmente é uma tarefa que consome muito tempo e possui alto custo. A gama de possibilidades pode ser reduzida através da utilização de um preditor, que seja capaz de identificar (em tempo hábil) quais são as melhores condições físico-químicas para a precipitação protéica. 1.4 Abordagem do problema Apesar do conhecimento bem estabelecido que se dispõe das principais forças físicas da natureza (106), a quantificação da contribuição de cada uma destas interações envolvidas nos mecanismos moleculares responsáveis pela formação de um complexo proteína-proteína ainda é um problema não resolvido (27). A situação é equivalente a se conhecer os elementos constituintes do processo de complexação, porém, não é possivel quantificar particularmente cada elemento diretamente, ou seja, obter a Hamiltoniana exata do sistema. De forma análoga, não se conseguiu ainda quantificar a exata contribuição destas interações no processo conhecido como folding de proteínas (ou “enovelamento” protéico), onde se procura obter (e entender os mecanismos) uma estrutura espacial (tridimensional) de uma proteína (forma nativa) a partir da seqüência primária (sem muitas aplicações práticas) dos elementos que a constituem (seus 14 A abordagem teórica sobre a origem das cargas em proteínas é exibida na Seção 5.1.1 - Equilíbrio ácido-base. estados de ionização são determinados através do estudo da diferença dos valores de pKa ’s, dos resíduos ionizáveis, entre a estrutura terciária e primária da proteína. Detalhes sobre a determinação dos valores de pKa ’s dos resíduos iniozáveis são mostrados na Seção 5.1.2 - Cálculo de pKa ’s em proteínas. 15 Os 10 aminoácidos). Em ambos os problemas (folding e complexação), as mesmas interações físicas estão presentes, e há a necessidade de se quantificar a participação de cada uma delas para o completo entendimento dos mecanismos moleculares (107), visando desvendar as interações físicas e manipular racionalmente os eventos biológicos. Duas principais tendências de investigação teórica normalmente são empregadas com o intuito de se elucidar estes processos: (a) tendência mais física, e (b) tendência mais computacional. Na primeira, assume-se um modelo para o sistema (onde se define as interações físicas que se acredita serem as mais relevantes para o processo e estas são posteriormente analisadas) e resolve-se este modelo através de simulações computacionais, calculando-se as propriedades estruturais, dinâmicas e termodinâmicas de interesse. O modelo é aferido através de comparações com observações experimentais e/ou previsões por outras teorias16 . Na outra abordagem, mais computacional, procura-se valer de informações experimentais disponíveis para descrever, analisar estatisticamente e eventualmente até mesmo prever o comportamento do sistema, mesmo que não se desvende a “física” do problema. O folding de proteínas e a predição de estruturas podem ser citados como exemplos clássicos, respectivamente, de cada uma destas duas abordagens, assim como o entendimento do fenômeno da complexação e a mera predição da complexação (aqui, sem se importar com as causas). Por outro lado, os chamados métodos inversos (MI) (108, 109) permitem combinar ambas as tendências, possibilitando inclusive a obtenção de Hamiltonianas efetivas (modelos) (110, 111) a partir de dados experimentais. Para os sistemas com proteínas, o PDB é a principal fonte de informações “experimentais” estruturais. Entretanto, além das dificuldades intrínsecas dos MI, encontramos outras adicionais, por exemplo, a determinação de quais informações extraídas das estruturas protéicas são relevantes e precisam ser empregadas, visto que, moléculas de solvente (água) e até mesmo a posição do aminoácido na cadeia podem interferir diretamente no processo, pois podem alterar as propriedades físico-químicas do sistema (p.ex. a carga total de uma proteína é uma função do meio e de sua própria conformação). Miyazawa e Jernigan (MJ) (112) estabeleceram a possibilidade de se extrair potenciais efetivos (chamados de “estatísticos” ou “baseados em conhecimento”) de interação a partir de análises de estruturas de proteínas disponíveis no PDB. Desde então, diversos trabalhos, principalmente direcionados para o problema de enovelamento (folding) de proteínas, seguiram esta linha (43, 44, 46, 113–115). Apesar de algumas críticas serem também reportadas (116, 117), acreditamos que “pistas” podem ser encontradas na análise destes potenciais estatísticos, especialmente quando associadas a comparações com resultados obtidos por simulações moleculares 16 Esta é a linha que adotamos na primeira parte do trabalho (construção de um portal web, chamado PROMETHEUS, para predição de complexos protéicos com base nas propriedades eletrostáticas das proteínas). 11 com modelos baseados em interações intermoleculares pré-determinadas (14, 107). Através destas comparações, espera-se obter informações sobre as interações relacionadas com o mecanismo molecular. Assim, como segunda frente do trabalho, combinando a idéia de MJ com a proposta dos MI, propomos, com o auxílio de ferramentas computacionais desenvolvidas in house, gerar novos conhecimentos que possam contribuir para a predição da complexação entre proteínas a partir da análise das estruturas tridimensionais de complexos protéicos disponíveis no PDB, objetivando estabelecer relações entre estas com os potenciais de interação conhecidos. Isso permitirá discutir os aspectos físicos do problema e contribuir no desenvolvimento futuro de algoritmos para a previsão da complexação. Vários parâmetros podem ser empregados para esta tarefa (definição da interface entre duas ou mais moléculas, determinação de composição das interfaces com respeito à ocorrência de aminoácidos, definição dos resíduos em contato na interface e suas preferências na formação de pares, contatos eletrostáticos na interface das macromoléculas, pontes de hidrogênio, dentre outros), os quais, quando cuidadosamente coletados e analisados oferecem um guia para o caminho do entendimento dos “ingredientes” cruciais que definem as interações determinantes da função biológica destes sistemas biomoleculares. Concentraremos nossa atenção no estudo da freqüência de contato em função da distância de separação entre os aminoácidos de proteínas envolvidas em complexos moleculares. Destas análises, diferentes mapas de contato (MDC) poderão ser construídos, assim como potencias de força média (PFM). Os MDC poderão ser comparados com outros existentes na literatura para interações intra-cadeia, enquanto que os PFM serão confrontados com resultados obtidos de simulações Monte Carlo com proteínas específicas, onde podemos ligar/desligar diferentes contribuições na Hamiltoniana do sistema. Assim, poderemos determinar qual a interação predominante em cada situação e regime. A partir da identificação e quantificação das forças físicas envolvidas no processo de complexação, poderemos entender os mecanismos que guiam as proteínas durante a formação do complexo e, portanto, poderemos prever a formação de um complexo. O sucesso de abordagens deste gênero está intimamente relacionado com a escolha de propriedades físicas e estruturais que tenham alguma relevância estatística para permitir que o método não seja tão custoso computacionalmente, nem limitado a pequenas moléculas, ou a grupos específicos de moléculas. É exatamente na escolha de quais propriedades serão empregadas que encontramos a maior dificuldade na realização desta tarefa dentro de um custo computacional razoável. Por esta razão, num primeiro momento do presente trabalho, desejamos analisar sistematicamente os bancos de dados de proteínas em busca destas, procurando encontrar “padrões”, os quais possam ser utilizados de maneira racional na redução do espaço 12 de suas possibilidades. Entender as interações fundamentais que ocorrem na associação de proteínas é o passo inicial para que possamos compreender a formação e estabilidade de complexos moleculares, e a partir daí podermos manipular, de forma racional, os eventos naturais biológicos, seja no desenvolvimento de novos fármacos, ligantes e/ou inibidores (118). 1.4.1 Estratégia 1: Propriedades eletrostáticas de proteínas As macromoléculas biológicas contêm grupos de aminoácidos ionizáveis que fazem com que sua carga líquida varie em função das condições da solução (107). A carga de uma proteína é obtida em função dos aminoácidos ionizáveis, o que, teoricamente, por sua vez pode ser predito através da análise de pKa ’s (2). Essa carga varia com o pH e outras condições da solução (5, 119), além de ser dependente do arranjo tridimensional de cargas da estrutura terciária. Prótons e sal têm uma forte influência sobre a estabilidade, estrutura e função da maioria das proteínas (120). O rompimento (desnaturação, por exemplo) da estrutura nativa de proteínas globulares em pH ácido ou básico é um grande exemplo desta influência. Sal e pH são usados como variáveis experimentais para prover cargas em proteínas ou para caracterizar sistemas que são regulados pela força iônica do meio (119). Porém, o estado protonado de uma proteína não depende somente do pH, mas também da influência de moléculas vizinhas. O potencial eletrostático gerado por moléculas vizinhas carregadas afeta o equilíbrio ácido-base dos grupos ionizáveis (46, 107, 121). Conseqüentemente, vários softwares para rápida predição e visualização das propriedades eletrostáticas foram desenvolvidos como, por exemplo, MEAD (77, 122), DelPhi (123), GRASP (124, 125) e UHBD (126), os quais complementam os demais pacotes para a modelagem molecular, como os empregados para caracterização de propriedades dinâmicas (127), predição de estrutura, predição do sítio ativo da proteína e afinidade com o ligante (docking) e outros (30, 57, 65, 69, 70, 78). Neste trabalho, empregamos o pacote MEAD v.2.2.7, que efetua o cálculo de propriedades eletrostáticas de proteínas em função das posições dos aminoácidos ionizáveies presentes na estrutura da proteína, complementando e sofisticando os cálculos baseados na seqüência primária. 13 1.4.2 Estratégia 2: Análise de propriedades estruturais para a construção de potenciais estatísticos Nas últimas décadas um grande número de proteínas foram descobertas, mas ainda não há métodos perfeitos disponíveis para prever a estrutura tridimensional da proteína a partir de sua seqüência primária de aminoácidos. Dessa mesma forma, por ser ainda mais complexo, ainda não há também um método preciso para elucidar a complexação entre proteínas. A energia de interação entre resíduos de aminoácidos depende de sua natureza química, condições da solução e da distância de separação entre eles. As funções e parâmetros para os potenciais de interação estatístico são obtidas em função da distância de separação entre pares de resíduos, cuja principal fonte de informação é o banco de dados de estruturas de proteína, PDB (42). Potenciais estatísticos são energias obtidas a partir da freqüência de pares entre átomos, grupos de átomos ou resíduos de aminoácidos, extraídos a partir de estruturas de proteínas conhecidas. A idéia foi inicialmente proposta por Tanaka e Scheraga (128) e aprimorada por Miyazawa e Jernigan (112), e, deste então, tem sido largamente empregada no problema do folding (44, 129) e mais recentemente em complexação de proteínas (130–132). A partir dos potenciais estatísticos e com o auxílio dos métodos inversos, podemos determinar funções que descrevem e quantifiquem as energias de interação do complexo, comumente expressa através de potencial de força média. Logo, para exemplificar, supomos um modelo idealizado composto por um grande número de resíduos, formados pelos 20 aminoácidos naturais, distribuídos de alguma forma em um determinado espaço. A freqüência de contatos entre dois aminoácidos i e j em função da distância de separação r, pode ser descrita como: gi j (r)∗ = ρi j (r) f (r) (1.1) onde ρi j é o número de contatos entre os resíduos i e j encontrados na distância r; e f (r) é o número de contatos entre todos os resíduos encontrados na distância r. A observação das freqüências de pares é transformada, valendo-se da relação de Boltzmann, em potenciais de força média17 de interação em função da distância de separação entre os resíduos presentes em cada proteína que forma o complexo. A partir de estruturas de proteínas depositadas no PDB, é possível extrair a freqüência 17 Uma descrição mais detalhada sobre os potenciais de força média será abordada na Seção 4.6 – Potencial de força média. 14 de contato de seus resíduos e, então, calcular a energia livre de interação entre as mesmas. Pode-se perceber que os potenciais estatísticos contêm o conhecimento adquirido sobre as estruturas de proteínas armazenadas no PDB. Apesar disso, somente com a análise dos potenciais estatísticos, não é possível quantificar as forças físicas e a contribuição entrópica envolvidas na interação entre os resíduos, bem como a importância de cada uma delas no processo de complexação. Visando minimizar esse déficit propomos abordar este problema de duas formas complementares. Por um lado, buscaremos os potenciais estatísticos através das citadas análises computacionais no PDB. Por outro, iniciando por um preditor básico de complexação, baseado em termos ideais do equilíbrio ácido-base dos resíduos ionizáveis, exploramos o fenômeno da complexação sob uma ótica física. O nível de predição deste tratamento é melhorado com a incorporação de soluções numéricas da Equação de Poisson-Boltzmann em substituição aos termos ideais. Desta maneira, outras interações poderão ser incorporadas em níveis mais sofisticados (e caros computacionalmente) de tratamento do sistema. 1.4.3 Combinando os resultados: Portais web para complexação de proteínas Combinaremos os trabalhos das duas estratégias acima apresentadas através de portais web. Propomos o desenvolvimento de portais onde nossos resultados finais de ambas as frentes de trabalho (preditor de complexo protéico e potenciais estatísticos) estarão sendo disponibilizados, gratuitamente, a comunidade, através de um servidor web, o qual permitirá consultas por proteínas e/ou grupo de proteínas, podendo ser facilmente manipulada de forma rápida e prática, por usuários não familiarizados com as técnicas numéricas rotineiramente empregadas. Esta plataforma agregará nossos principais resultados e terá flexibilidade para se relacionar com outras bases de dados e ferramentas web existentes. Os portais são constituídos por diversas ferramentas computacionais, desenvolvidas por outros grupos e por nós (in house), as quais permitem o estudo da formação de complexos protéicos através dos dois segmentos propostos: análise dos potenciais estatísticos, e o preditor básico de complexação, que podem ser utilizados tanto individualmente quanto complementarmente, atuando desta forma, futuramente, como uma referência chave ao estudo da complexação de proteínas. Esses portais são caracterizados por sua simplicidade de uso e rápido retorno ao usuário, apresentando uma estimativa de comportamento do sistema. A Figura 1 exibe a organização esquemática dos portais propostos neste trabalho. Pelo fato desta área contar com profissionais de diversos campos do saber, os portais serão projetados (modelados) de forma a funcionar como módulos independentes proporcio- 15 Figura 1: Diagrama esquemático dos portais desenvolvidos. O nível de detalhamento do sistema, precisão e custo computacional aumenta conforme passamos do nível 0 para o 2. O arquivo PQR contém a carga e o raio de cada átomo presente na proteína, o qual é utilizado em simulações PB (MEAD) e MC. Elementos em cinza indicam as ferramentas que serão implementadas no futuro. nando assim grande possibilidade de expansão, de forma a prover novas funcionalidades conforme necessidade futura. Tais módulos estarão, a princípio, intimamente relacionados com nossa base de dados, mas não dependente da mesma. Todo o sistema tem a web como interface gráfica, a qual será nossa principal fonte de divulgação (133, 134). Da mesma maneira que há uma grande diversidade de profissionais nesta área, há também diversas formas de estudo das propriedades de sistemas biomoleculares. Neste intuito os portais terão a capacidade de interagir com outras bases de dados e/ou serviços web existentes, bem como compartilhar nossos conhecimentos (base de dados, ferramentas computacionais, etc.) com outros grupos e/ou aplicações, proporcionando assim que novas análises sejam feitas sobre o mesmo conjunto de dados. A Figura 2 ilustra a estrutura de funcionamento básico dos portais. Novas ferramentas serão gradativamente agregadas aos portais propostos neste projeto, conservando sua característica primordial, isto é, a facilidade de uso e portabilidade. 16 Figura 2: Ilustração esquemática de funcionamento dos portais web propostos neste trabalho. 1.5 Sumário de nossas contribuições Nossas contribuições podem ser divididas em duas partes: 1) física e 2) computacional, descritas a seguir: 1. Física: • Cálculo das propriedades eletrostáticas de aminoácidos e proteínas com base na seqüência primária e estrutura tridimensional; • Desenvolvimento de preditores iniciais de complexação com base nas propriedades termodinâmicas das proteínas, em dois níveis preditivos: analítico (baseado na seqüência primária) e PB (baseado na estrutura 3D); • Discussão da influência de parâmetros (campo de força, constante dielétrica do interior da proteína), protocolo de cálculo e condições físico-químicas na predição de complexos e propriedades eletrostáticas das proteínas; • Discussão do mecanismo de regulação de cargas na formação de complexos protéicos; • Contagem da freqüência de contatos entre os aminoácidos presentes em complexos protéicos. 17 2. Computacional: • Emprego de ferramentas auxiliares e pacotes de simulação como instrumentos auxiliares nos cálculos aqui discutidos; • Desenvolvimento de ferramentas computacionais para manipulação de estrutura de proteínas, cálculos das propriedades eletrostáticas de e entre proteínas e análises estruturais; • Desenvolvimento de banco de dados para armazenar estruturas e propriedades eletrostáticas de proteínas, freqüência de contatos entre os aminoácidos presentes em complexos de proteínas, etc.; • Desenvolvimento dos portais web, PROMETHEUS e MOLESA, os quais oferecem uma interface para as ferramentas desenvolvidas e outras disponibilizadas na literatura; • Implementação da infra-estrutura computacional necessária para prover nossas ferramentas. 18 2 OBJETIVOS Nossa meta principal é explorar informações presentes em bancos de dados de proteí- nas, na busca por possíveis “preditores” para a determinação de complexos proteína-proteína e a compreensão dos fundamentos físicos envolvidos na formação de um complexo. Assim, nossos objetivos são: Gerais: 1. Desenvolver novas ferramentas computacionais para o estudo de sistemas (bio)moleculares que permitam, por exemplo, de maneira automatizada, o acesso à banco de dados de proteínas, a obtenção de estruturas tridimensionais e a análise computacional-estatística das propriedades estruturais destas moléculas para posterior construção de algoritmos “ab initio”, rápidos, para a predição de complexos proteína-proteína. 2. Geração de informação que possa contribuir para a predição de um complexo proteínaproteína, a partir de análises de propriedades eletrostáticas e estruturais, em bancos de dados de proteínas, para maior entendimento físico do fenômeno da complexação molecular. 3. Desenvolver preditores do fenômeno complexação em diferentes níveis (analítico, PB) de detalhamento do sistema. 4. Melhorar a compreensão das interações físicas fundamentais envolvidas no fenômeno da complexação. Específicos: 1. Combinar ferramentas existentes para cálculos de propriedades eletrostáticas de biomoléculas com novas para a construção de um preditor de complexação molecular com base na estrutura primária e terciária das proteínas. 19 2. Cálculos de propriedades termodinâmicas para complexos moleculares cuja principal interação seja a eletrostática. 3. Desenvolvimento de novas ferramentas computacionais para análise de banco de dados de proteínas, determinando a freqüência de contato entre resíduos que formam os complexos protéicos. 4. Análise computacional estatística de possíveis propriedades estruturais com perspectivas de tornarem-se bons preditores da complexação. Assim, contribuir com informações para a determinação de potenciais estatísticos de interação para aminoácidos inter-proteínas. 5. Construção de uma interface gráfica, disponibilizada, gratuitamente, via servidor web. 6. Criação de banco de dados locais com estruturas de proteínas filtradas após testes de consistência e os resultados de nossos portais. 20 3 ASPECTOS IMPORTANTES SOBRE PROTEÍNAS Uma vez que as proteínas são nosso objeto de estudo e este trabalho possuir caracte- rística multidisciplinar, é apropriada uma seção introdutória sobre as principais características de aminoácidos e proteínas, assim como as técnicas experimentais utilizadas na determinação de sua estrutura tridimensional. Informações mais detalhadas podem ser encontradas em textos específicos do assunto (1, 94, 135). Proteínas são biomoléculas formadas por um conjunto de aminoácidos unidos (seqüência primária), através de ligações denominadas “ligações peptídicas”. Estas dão origem a várias estruturas que podem ser organizadas hierarquicamente (seqüência secundária, terciária e quaternária). As proteínas são construídas a partir do mesmo conjunto ubíquo de 20 aminoácidos. Pelo fato de cada um desses aminoácidos possuir uma cadeia lateral com propriedades químicas diferentes, este grupo de 20 moléculas precursoras pode ser considerado como o alfabeto na qual a linguagem das estruturas protéicas é escrita (1). Proteínas realizam uma surpreendente variedade de funções essenciais no organismo humano. Estas tarefas podem ser agrupadas em funções estruturais e dinâmicas. Funções dinâmicas incluem transporte, controle metabólico, contração e transformações de catálises químicas. Em suas funções estruturais as proteínas provêm a base para o tecido ósseo, força e elasticidade para os órgãos e sistema vascular, garantindo estrutura e forma ao organismo humano (22). Uma importante classe de proteínas dinâmicas são as enzimas. Elas catalisam reações químicas, convertendo um substrato em produto no sítio ativo da enzima. A maioria das reações químicas que ocorrem nos organismos necessita de uma enzima para garantir que a reação ocorra em uma taxa compatível com a vida (94). Proteínas controlam e regulam a transcrição e tradução de genes. Por exemplo, histonas, proteínas que estão intimamente associadas com o DNA, aumentam ou diminuem os fatores de transcrição que controlam a transcrição de genes (94). Desta forma fica evidente que o entendimento das proteínas é de suma importância 21 para uma melhor compreensão dos processos que ocorrem nos organismos vivos (94). 3.1 Aminoácidos Todos os 20 aminoácidos são α-aminoácidos. Eles possuem um grupo carboxila e um grupo amino ligados ao mesmo átomo de carbono (o carbono α). Eles diferem uns dos outros nas suas cadeias laterais ou grupos R, que variam em estrutura, tamanho, possibilidade de adquirirem carga elétrica, além de influenciarem a solubilidade dos aminoácidos em água. A Figura 3 exibe a estrutura geral de um aminoácido. Alguns aminoácidos, como, por exemplo, arginina e ácido glutâmico, podem atuar como ácidos e bases. Quando um aminoácido é dissolvido em água, ele existe em solução como um íon dipolar, ou zwitterion (em alemão “íon híbrido”). Um zwitterion pode atuar tanto como um ácido (doador de próton) quanto uma base (receptor de próton). Substâncias possuindo esta natureza dupla são anfotéricas e freqüentemente chamadas de anfólitos (de “eletrólitos anfotéricos”) (22). 3.2 Ligações peptídicas Duas moléculas de aminoácidos podem estar covalente unidas por meio de uma li- gação chamada ligação peptídica. Tal ligação é formada pela remoção de elementos da água (desidratação) de um grupo α-carboxila de um aminoácido e o grupo α-amino do outro. A unidade de um aminoácido em um peptídio é freqüentemente chamada de resíduo (a parte que sobrou depois da perda de um átomo de hidrogênio do seu grupo amino e a porção hidroxila do seu grupo carboxila). Em um peptídio, o resíduo de aminoácido na extremidade com Figura 3: Estrutura geral de um aminoácido. 22 Figura 4: Relação dos 20 aminoácidos existentes na natureza, adaptado da referência (1). o grupo α-amino é o resíduo terminal amino (ou N-terminal); o resíduo na outra extremidade, que possui um grupo carboxila livre, é o resíduo terminal carboxila (ou C-terminal). A Figura 4 exibe os 20 aminoácidos existentes na natureza. 3.3 Estrutura primária de proteínas A estrutura primária das proteínas é o nível estrutural mais simples e é dada pela seqüência de aminoácidos ao longo da cadeia polipeptídica. A estrutura primária da proteína resulta em uma longa cadeia de aminoácidos semelhante a um “colar de contas", com uma extremidade “amino terminal" e uma extremidade “carboxi terminal". Sua estrutura é somente a 23 seqüência dos aminoácidos, sem se preocupar com a orientação espacial da molécula (1). 3.4 Estrutura secundária de proteínas O termo estrutura secundária refere-se à conformação local de alguma parte de um polipeptídio. A discussão da estrutura secundária mais usualmente foca os padrões de enovelamentos mais regulares do esqueleto polipeptídico. As mais proeminentes são as α-hélices, onde as ligações peptídicas formam uma estrutura helicoidal, e a conformação β , na qual o esqueleto da cadeia polipeptídica é estendido em ziguezague. 3.5 Estrutura terciária de proteínas O arranjo tridimensional geral de todos os átomos em uma proteína é referido como a estrutura terciária das proteínas. Também chamado de conformação tridimensional, através do dobramento dos elementos de sua estrutura secundária. Ao considerar esses níveis de estruturas é útil classificar as proteínas em dois grupos principais: proteínas fibrosas, possuindo cadeias polipeptídicas arranjadas em longas fitas ou folhas, e as proteínas globulares, que possuem cadeias polipeptídicas enoveladas em uma forma esférica ou globular (1). Todas as ferramentas aqui desenvolvidas são mais convenientemente aplicadas para proteínas globulares, pelas aproximações assumidas. 3.6 Estrutura quaternária de proteínas Algumas proteínas contêm duas ou mais cadeias polipeptídicas separadas, ou subunidades, que podem ser idênticas ou diferentes. O arranjo dessas subunidades protéicas em complexos tridimensionais constitui a estrutura quaternária da proteína. 3.7 Métodos para determinação da estrutura tridimensional das proteínas Devido ao fato que a maior parte do nosso conhecimento estrutural detalhado das pro- teínas, e, em uma grande medida de suas funções, resulta das determinações por cristalografia por raios X de proteínas globulares e, mais recentemente, das determinações por ressonância 24 magnética nuclear (NMR), é apropriada uma seção com uma prévia discussão das potencialidades e das limitações dessas técnicas. A cristalografia de raios X é uma técnica que forma imagens das moléculas. Um cristal da molécula a ser visualizada é exposto a um feixe paralelo de raios X, e o padrão de difração resultante é registrado em um contador de radiação. Os raios X utilizados nesses estudos estruturais são produzidos por laboratórios geradores de raios X ou, cada vez mais, por síncrotons, um tipo de acelerador de partículas que produz raios X de intensidade muito alta. As intensidades de difração máxima são então usadas para construir uma imagem tridimensional da estrutura (22). Os raios X interagem quase que exclusivamente com os elétrons, não com os núcleos atômicos da matéria. Uma estrutura por raios X é, portanto, uma imagem da densidade eletrônica do objeto em estudo (22). Na determinação de estruturas por ressonância nuclear magnética, as propriedades de spin magnético do núcleo atômico da molécula são utilizadas para obter uma lista das restrições de distância entre os átomos da molécula, tais como distâncias e ângulos de ligações covalentes, planaridade de grupo, quiralidade e raios de van der Waals, a partir das quais a estrutura tridimensional da proteína pode ser obtida (136). A maioria dos elementos tem pelo menos um isótopo razoavelmente abundante cujo núcleo é magnético. Se o campo magnético é alternado a uma freqüência de ressonância apropriada, os spins nucleares mudam de orientação. Estas mudanças de orientação são acompanhadas de absorção de energia do campo magnético alternante pelos núcleons, que sofrem uma transição de fase de um estado de energia mais baixo para um estado mais alto. Quando o campo alternante é desligado, os núcleons retornam ao estado de equilíbrio, emitindo energia na mesma freqüência que absorveram. Os núcleons de diferentes elementos, e mesmo de diferentes isótopos do mesmo elemento, têm freqüências de ressonância diferentes (136). Uma vantagem dos estudos da NMR é que eles são realizados em macromoléculas em solução, enquanto a cristalografia de raios X é limitada a moléculas que podem ser cristalizadas. No entanto, sua utilização é restrita a proteínas pequenas. Devido às limitações apresentadas por estas duas técnicas, diversos métodos computacionais estão sendo empregados na determinação de estruturas de proteínas. Dentre os quais, destacamos: métodos ab initio (63), redes neurais (31) e outros (29, 43). 25 4 TRABALHANDO COM INFORMAÇÕES BIOLÓGICAS IN SILICO Para abordar qualquer sistema é necessário definir qual o nível de detalhamento do modelo e, posteriormente, codificá-lo em equações matemáticas as quais possam ser utilizadas em ferramentas computacionais. Durante o desenvolvimento de programas computacionais, é necessário definir, inicialmente, os requisitos do sistema, ou seja, quais tarefas a aplicação será capaz de realizar, o tempo esperado de resposta, a interface com o usuário, como os dados serão matematicamente manipulados, e outras informações. Neste sentido, precisamos abstrair as informações “do mundo real”, codificá-las através de funções matemáticas, realizarmos o processamento e retornarmos os resultados ao usuário. 4.1 Níveis de detalhamento do modelo Ao abordar um sistema molecular, precisamos escolher o nível de detalhamento neces- sário, ou seja, quais as principais características precisamos extrair da realidade para utilizá-las na idealização do sistema, de modo que nos permita codificar a realidade em modelos numéricos a serem resolvidos por métodos computacionais. Estas características, que para o nosso estudo são as forças que agem sobre as biomoléculas, são descritas pelas leis da física, e definidas, por equações matemáticas, denominadas de “Hamiltoniana Efetiva” (111, 137, 138). Podemos dividir as Hamiltonianas em três níveis de aproximação, em função de quais detalhes são incorporados como essenciais: 1. Nível de Schrödinger (NS) (111, 138): Os átomos da biomolécula e da solução eletrolítica são representados pelas coordenadas do núcleo e dos elétrons de cada um dos componentes do sistema. Este sistema é tratado por métodos da mecânica quântica. 2. Nível de Born-Oppenheimer (NBO) (111, 137, 138): Também chamado de modelo mi- 26 croscópico, onde o comportamento dos átomos da biomolécula e da solução eletrolítica ao invés de serem representados por seus respectivos núcleos e elétrons são aproximados para o seu comportamento médio (efetivo), ou seja, as variáveis são as coordenadas e momentos do solvente e do soluto. Exemplos são as simulações de proteínas com modelos de água explícita. 3. Nível de McMillan-Mayer (NMM) (111, 137, 138): Ou modelo macroscópico, onde o modelo da Hamiltoniana é derivado do nível de Born-Oppenheimer com algumas simplificações extras, isto é, as variáveis tratadas explicitamente são somente as coordenadas e momentos da molécula do soluto. Apenas o comportamento médio do solvente é considerado. Esta aproximação é bastante empregada no cálculo de propriedades eletrostáticas de macromoléculas como proteínas (constituintes por muitos átomos) e será o modelo empregado, neste trabalho, pois proporciona uma grande redução do custo computacional e ao mesmo tempo, permite a abstração das características do mundo real necessárias para codificar tais sistemas biológicos. 4.2 Modelagem do sistema A escolha da Hamiltoniana em qualquer um desses níveis corresponde à fase de mo- delagem do sistema. A modelagem do sistema visa um balanço entre: a) propriedade ou quantidade de interesse a ser estudada; b) poder computacional disponível; e c) precisão ou confiabilidade necessária. Vale a pena lembrar que nem sempre a escolha do modelo com o maior nível de detalhamento é sempre a melhor escolha, pois a solução de tal modelo pode ser impraticável devido à limitações técnicas, como, por exemplo, limitados recursos computacionais. O custo computacional cresce substancialmente quando partimos do NMM para o NS (137). Uma discussão de critérios para escolha do nível é apresentado na referência (137). 4.3 Solução do modelo A solução dos modelos pode ser obtida utilizando vários níveis de aproximação: 1. NS: A solução é realizada no nível quântico, resolvendo a equação de Schrödinger; 2. NBO: A solução pode ser obtida valendo-se de métodos computacionais como dinâmica molecular (139), onde equações da mecânica são resolvidas para todas as espécies ou método Monte Carlo (139) para percorrer o espaço das fases em busca das configurações mais representativas; 27 3. NMM: Podemos substituir os íons explícitos na solução pela equação de Poisson-Boltzmann (EPB) (140, 141) e ainda utilizar a forma linearizada da mesma, a fim de reduzir o custo computacional, valendo-se da teoria de Debye-Hückel (142). Neste modelo, o comportamento explícito do solvente é substituído por sua constante dielétrica. 4.4 Equação de Poisson-Boltzmann A Equação de Poisson-Boltzmann (EPB) tem sido largamente utilizada no estudo de propriedades eletrostáticas de biomoléculas em Biologia Estrutural (82, 140, 143), onde o sistema é formado por uma estrutura rígida de proteína, normalmente em detalhes atomísticos, e uma distribuição de cargas da solução ao redor do macroíon (biomolécula). Em suma, a EPB descreve a interação eletrostática e a distribuição da densidade de carga (dada por uma distribuição de Boltzmann) de um sistema em equilíbrio. Nesta aproximação conhecida como “modelo contínuo”, o solvente é tratado como um meio dielétrico uniforme ideal descrito simplesmente pela sua constante dielétrica estática – nível de McMillan-Mayer. Este tratamento adicionado ao efeito do sal provê uma boa acurácia para descrever as interações eletrostáticas em muitas situações de interesse. Além disso, cálculos baseados nestes modelos são mais rápidos, permitindo a realização dos mesmos em larga escala e em várias condições físico-químicas, como por exemplo, as condições do meio, soluto, etc. Em um modelo contínuo, a densidade de carga ρ(r) da atmosfera iônica com a distância do íon na posição r, relaciona-se com φ (r), potencial eletrostático, pela Equação de Poisson: ∇.[ε(r)∇φ (r)] = −4πρ(r) (4.1) Supondo ρ(r) a distribuição de cargas em r e φ (r) o potencial elétrico na posição r provido por cargas fixas e móveis, haverá uma maior concentração de íons negativos em r quando φ (r) for positivo e vice-versa (144). A concentração de íons móveis (eletrólitos dissolvidos em solução) pode ser obtida pela distribuição de Boltzmann (140, 144, 145), definida na Equação 4.2, e as cargas fixas são as cargas parciais de cada átomo que constitui a molécula. ni qi φ = exp(− ) 0 kB T ni (4.2) onde ni é a densidade de íons do tipo i por unidade de volume em uma dada região do espaço; n0i , a densidade de íons do tipo i por unidade de volume em todo o espaço amostrado; qi , a carga correspondente de cada íon; φ , o potencial eletrostático em uma dada região do espaço; 28 kB , a constante de Boltzmann, e T, a temperatura em Kelvin. Combinando a Equação 4.1 com a Equação 4.2, temos a Equação de Poisson-Boltzmann: ∇.[ε(r)∇φ (r)] = −4π{ρ(r) + λ (r) ∑ qi ni exp[ i −qi φ (r) ]} kB T (4.3) assumimos λ igual a 0 em regiões impenetráveis e 1 nas regiões acessíveis aos íons móveis. Visando minimizar o custo computacional, assumimos que o termo exponencial pode ser aproximado por um termo linear (a partir da expansão da série de Taylor). Para sais monovalentes, temos a equação de Poisson-Boltzmann linearizada (EPBL) (140, 144, 146): ∇.[ε(r)∇φ (r)] − k2 ε(r)φ (r) = −4πρ(r) (4.4) onde k é o inverso do comprimento de Debye-Hückel, dado na Equação 4.5. k2 = 8πe2 Na I kB T ε (4.5) q2 onde e é a carga elementar e I = ∑ 12 ( e2i )ni , a força iônica do meio. A solução da EPBL, uma equação diferencial parcial, é obtida por aproximação dos elementos finitos, no qual o espaço é discretizado em um cubo divido em um conjunto de cubos menores, os quais definem uma rede. Os vários métodos que podem ser empregados para resolver a EPBL podem ser encontrado nas referências (123, 146), entre os quais destacamos o “método das diferenças finitas” (147, 148), utilizado pelos programas MEAD (77, 122), DelPhi (123), GRASP (125) e outros (126, 149). Como qualquer modelo teórico, a EPBL é uma simplificação da realidade e envolve as seguintes aproximações, além das descritas acima: 1. Os íons são descritos como pontos carregados. Eles não têm um tamanho (raio) próprio. 2. A EPBL em um modelo contínuo assume uma completa dissociação das espécies iônicas. Ela ignora a formação de pares de íons (140, 150). 4.4.1 Método das diferenças finitas O método das diferenças finitas é um procedimento para a resolução de equações di- ferenciais que se baseia na aproximação de derivadas por diferenças finitas. A fórmula de 29 Figura 5: Exemplo de um arquivo no formato ogm, utilizado como entrada pelo pacote MEAD v.2.2.7. aproximação obtém-se da série de Taylor. Dessa forma, assume-se que o espaço possui uma forma regular, geralmente um cubo, no qual é divido em vários pontos ou malhas, chamados grid. Derivadas são aproximadas como diferenças entre os valores de cada ponto. O programa MEAD (77, 122) resolve a EPBL empregando o método das diferenças finitas onde: 1. O espaço (meio) onde a proteína se encontra é definido como uma caixa quadrada de lado l igual ao diâmetro da proteína (em Ångström), acrescido de um valor em cada um dos lados, proporcional ao raio da proteína. Isto visa prevenir possíveis erros, como por exemplo, parte da proteína ficar fora da caixa; 2. No arquivo ogm1 , utilizado pelo programa MEAD, define-se a quantidade (NBox ) e o tamanho (lBox ) das caixas (pontos do grid) para a aplicação do método das diferenças finitas. O tamanho total de cada lado da caixa será: l = NBox .lBox . A Figura 5 ilustra um exemplo de um arquivo no formato ogm, no qual a primeira coluna indica que a caixa de simulação estará posicionada no centro geométrico da proteína, a segunda coluna informa a quantidade de cubos que serão utilizados na divisão do espaço onde a proteína se encontra e a terceira coluna o tamanho de cada cubo. Neste exemplo, iniciamos com uma caixa de dividida em 41 cubos de 8x8x8 Å3 e, focando em uma região de interesse, refinamos as contas para uma caixa de 41 cubos de 2x2x2 Å3 . A última caixa deve ser sempre menor do que a anterior. A Figura 6 exibe uma proteína hipotética inserida em uma caixa que foi divida em cubos, onde a energia de cada ponto é integrada com as energias dos pontos vizinhos para solução da EPBL. 1 O arquivo no formato ogm é um dos arquivos de configuração utilizado para execução do programa MEAD. Veja o Apêndice C para maiores detalhes. 30 Figura 6: Ilustração esquemática de uma proteína inserida em uma rede para execução do método de diferenças finitas para a solução da EPBL. Para a solução da EPBL, em cada ponto da malha é atribuído o potencial eletrostático, a densidade de carga e a distribuição de íons da solução e às linhas que unem esses pontos, a constante dielétrica do meio (soluto ou solvente). 4.5 Função de distribuição radial Em sistemas biológicos, envolvendo proteínas e complexos de proteínas, o número de sítios de interação torna impraticável seu estudo no nível mais refinado (atomístico com solvente explícito), principalmente quando necessário que se repitam as análises em várias condições experimentais. Através da Mecânica Estatística (151), é possível relacionar o mundo macroscópico e microscópico, ou seja, características macroscópicas são obtidas a partir de médias que representam o comportamento microscópico do sistema em questão. Uma das grandezas bastante útil é a função de distribuição radial (FDR). A FDR, g(r), ou função de correlação de pares, é uma medida para determinar a correlação entre partículas em um sistema. Pode ser vista como uma medida da probabilidade de encontrar uma partícula i a uma distância r a partir de uma partícula de referência, j. Comparado com uma distribuição do gás ideal, a FDR pode ser expandida da 31 seguinte forma, conforme proposto por Nijboer et all. (152): g(r) = exp{− V (r) }.{1 + ρg1 (r) + ρ 2 g2 (r) + ...} kB T (4.6) onde r é a distância entre duas moléculas; ρ, o número de moléculas por unidade de volume; e V (r), o potencial de interação na distância r. Neste trabalho, empregou-se uma função derivada da FDR, a qual chamamos de gi j (r)∗ (Equação 1.1), utilizada para calcular a freqüência da correlação de pares entre os resíduos i e j em uma determinada distância r. Após o cálculo de gi j (r)∗ , para uma melhor análise dos resultados, empregamos algumas formas de normalização2 . 4.6 Potencial de força média As densidades observadas nas distâncias entre resíduos de aminoácidos estão intima- mente relacionadas com o potencial de força média das respectivas interações entre os mesmos. De acordo com Sippl (129), a partir da aproximação de Boltzmann, em um estado particular de densidade igual a gi j (r)∗ (Equação 1.1 apresentada na seção 1.4.2 - Estratégia 2: Análise de propriedades estruturais para a construção de potenciais estatísticos) e em temperatura constante (T, em Kelvin), é possível calcular o potencial de força média de interação (em kB T ) entre dois resíduos i e j na distância r, aplicando-se a Equação 4.7: wi j (r) = −kB T ln[gi j (r)∗ ] (4.7) O PFM inclui, implicitamente, contribuições de diferentes interações entre os resíduos presentes na interface de contato da formação do complexo, por exemplo, as forças que agem sobre cada aminoácido da proteína em função de sua configuração conformacional, além da entropia. A probabilidade de um sistema estar em um estado ou em outro pode ser obtida calculando-se a variação da energia livre entre tais estados (153). Em um ensemble canônico3 , o PFM é a variação da energia livre entre dois estados distintos, e desta maneira pode ser utilizado para indicar o estado de “preferência" do sistema. 2 As formas de normalização empregadas neste trabalho são discutidas na Seção 7 - Resultados. canônico: sistema o qual a temperatura, o volume e número de partículas são mantidos constantes 3 Ensemble (139). 32 4.7 Campos de força Enquanto no NS as interações entre os constituintes atômicos (elétron-elétron, elétron- núcleo e núcleo-núcleo) do sistema são consideradas, nos níveis mais simplificados esta informação é aproximada e apenas comportamentos médios são empregados. Uma forma de se fazer isso é através do uso de campos de força4 , no qual os termos referentes à energia potencial relacionados à descrição dos detalhes atomísticos são ajustados de forma a garantir concordância com resultados experimentais. Porém, a parametrização não é obtida de maneira única, sendo dependente do campo de força escolhido. Alguns exemplos de campo de força são: PARSE (83, 84), GROMOS (155, 156), AMBER (75, 76), CHARMM (142), TYL06 (157), e o campo de força reduzido (158). Testes do efeito destes campos de força nas propriedades eletrostáticas de biomoléculas foram efetuados anteriormente em nosso laboratório (159). Neste trabalho, utilizamos como campo de força padrão, o campo de força GROMOS96 v.53A6 (160) distribuído junto com o pacote para simulação de dinâmica molecular GROMACS v.4.0.5 (127, 161). Este campo de força possui várias implementações além da v.53A6. O campo de força GROMOS (162) foi inicialmente desenvolvido para o estudo de biomoléculas em solução (peptídeos, proteínas e polinucleotídios). No campo de força GROMOS87 (163), os grupos CH, CH2 e CH3 foram modelados como átomos únicos. Átomos de hidrogênio dos grupos alifáticos e aromáticos não foram tratados explicitamente, mas foram incluídos implicitamente na representação de seus respectivos átomos de carbono, onde os átomos de hidrogênio estão unidos como um único grupo centrado no átomo de carbono. No campo de força GROMOS96 v.53A6, os parâmetros de van der Waals foram parametrizados com base em várias simulações de dinâmica molecular para modelos alcalinos líquidos usando 1,6 nm para o raio de cutoff, enquanto que no GROMOS87 este valor era de 0,8 nm (162). Os campos de força AMBER99 (75, 76) e GROMOS96 v.53A6, podem ser utilizados como parâmetros para as ferramentas providas pelo portal PROMETHEUS. Ambos possuem boa concordância com dados experimentais e foram modelados para trabalhos com biomoléculas (proteínas e outras) em solução. O AMBER99 atribui carga para a maioria dos átomos presentes na proteína, enquanto que GROMOS96 atribui cargas somente a alguns átomos, tornando o processo de cálculo mais rápido (segundo demonstrado em (159)), e é distribuído juntamente com o pacote para simulação de dinâmica molecular GROMACS v.4.0.5, possibilitando dessa forma que vários estudos possam ser realizados tanto com algoritmos de DM quanto com análises estatísticas e cálculos baseados apenas na seqüência primária das proteínas, 4 Campo de Força são equações matemáticas que calculam a energia potencial do sistema em função das posições dos núcleos dos átomos, ignorando toda movimentação dos elétrons. Geralmente são utilizados para realizar cálculos em sistemas contendo grande número de átomos (154). 33 facilitando desta forma, estudos do mesmo sistema por diferentes abordagens. Visando expandir as possibilidades dos portais, iremos integrar, no futuro, outros campos de força, como por exemplo, o PARSE (83, 84). 34 5 MATERIAL E MÉTODOS Pela natureza de trabalho multidisciplinar, incluímos uma breve introdução sobre equilíbrio ácido-base e sua relação com a origem das cargas elétricas em proteínas. Em seguida, na Seção 5.2, apresentamos a infra-estrutura computacional utilizada para prover nossas ferramentas na web. 5.1 5.1.1 Teoria Equilíbrio ácido-base Quando ácidos fracos são dissolvidos em água, eles contribuem com H+ pela ioniza- ção; bases fracas consomem H+ tornando-se protonadas. As moléculas da água possuem uma leve tendência para sofrerem ionização reversível para produzir um íon hidrogênio (próton) e um íon hidróxido. + − H2 O(aq.) ↔ H(aq.) + OH(aq.) (5.1) O equilíbrio de qualquer reação química é estudado por sua constante de equilíbrio K. Para a reação generalizada A+B ↔C+D (5.2) uma constante de equilíbrio estequiométrica pode ser definida em termos das concentrações dos reagentes (A e B) e produtos (C e D) em equilíbrio: K= [C][D] [A][B] (5.3) onde, [A], [B], [C] e [D] correspondem às concentrações das espécies A, B, C e D, respectivamente. 35 Note que a verdadeira constante de equilíbrio termodinâmica é função da atividade1 (164). O grau de ionização da água em equilíbrio é pequeno; a 25◦ C apenas duas de cada 109 moléculas de água pura são ionizadas a qualquer instante (22). A constante de equilíbrio para a ionização reversível da água é dada por: [H + ][OH − ] k= [H2 O] (5.4) O produto iônico da água é a base para a escala de pH, que é definido pela expressão: pH = log aH + ∼ = − log[H + ] (5.5) onde a é a atividade e [H + ], a concentração de átomos de hidrogênio na solução (164). Ácidos podem ser definidos como doadores de prótons e bases como receptoras de prótons. Um doador de próton (A− ) e seu correspondente receptor de próton (H + ) perfazem um par conjugado ácido-base. Cada ácido possui uma tendência característica de perder seu próton em uma solução aquosa e formar sua base conjugada. As constantes de equilíbrio para as reações de ionização são usualmente chamadas de constantes de dissociação ou ionização, freqüentemente designadas como Ka , como sugere a Equação 5.6: Ka = [H + ][A− ] [HA] (5.6) Normalmente, expressamos esta constante em sua forma logaritma denotada por pKa (pKa = − log Ka ). 5.1.2 Cálculo de pKa ’s em proteínas Uma importante característica das proteínas é a habilidade de alguns de seus amino- ácidos constituintes, chamados aminoácidos ionizáveis, trocar prótons com o ambiente o qual a proteína está inserida. Este comportamento guia várias características, das proteínas, depen1 A atividade de cada substância é defina de tal forma que quando a substância está no seu estado padrão a atividade tem valor igual a 1 (um). A atividade de um íon é sempre relativa ao seu estado padrão. Tipicamente o estado padrão de um solvente é definido para o solvente puro, onde sua atividade é igual a 1. Para o soluto o estado padrão é definido a 1 mol e a atividade é sempre relativa a 1 mol do soluto. Maiores detalhes, sobre o coeficiente de atividade, podem ser encontrados na referência (135). 36 dentes do pH e tem grande impacto na função biológica. Predizer corretamente os estados de ionização de uma proteína em um dado ambiente pode contribuir significativamente para o entendimento de sistemas biológicos, como por exemplo, compreender a estabilidade das proteínas, interação proteína-proteína, etc. (126, 165). A determinação dos estados de ionização, ou constantes de dissociação, geralmente expressadas como pKa ’s, pode ser obtida experimentalmente por NMR, mas a aplicabilidade desta técnica é limitada a proteínas pequenas (166, 167). Visando suprir esta limitação, diversos métodos teóricos têm sido empregados na determinação dos valores de pKa ’s (168, 169). Uma das maneiras de realizar a predição dos valores dos pKa ’s de aminoácidos ionizáveis é através da diferença do trabalho eletrostático de alterar a carga de um estado não protonado para um estado protonado na proteína e o trabalho para fazer a mesma alteração em um modelo composto2 . O cálculo do trabalho eletrostático consiste em duas partes: 1) calcular o trabalho necessário para protonar um grupo na proteína quando todos os outros grupos ionizáveis são neutros; 2) calcular a energia de interação de um grupo com todos os outros grupos ionizáveis (126, 144). A maioria dos métodos para predição dos pKa ’s é baseado na solução da EPBL, usando cargas parciais para os átomos, a partir de um certo campo de força. Entretanto, por este ser um problema combinatorial, a aplicação da EPBL é limitada a moléculas relativamente pequenas, pois o custo computacional cresce exponencialmente com a quantidade de aminoácidos ionizáveis presentes na proteína (168). Uma proteína com N resíduos ionizáveis tem 2N possíveis microestados de ionização. Outro problema encontrado é que, quando usamos a EPBL, assumimos que a estrutura da proteína é rígida e idêntica ao cristal, quando, em solução, as proteínas são flexíveis. Esta flexibilidade implica em possíveis alterações conformacionais durante o processo de titulação em função do pH, devido aos vários estados de ionização da proteína (168). 5.1.3 Cálculos das propriedades eletrostáticas em proteínas – preditor básico de complexos Conforme proposto neste trabalho, o preditor de complexos protéicos possui vários ní- veis de predição. Dessa forma, iniciamos o estudo das propriedades eletrostáticas em proteínas a partir do nível mais simples, no qual a fonte de informações para os cálculos é somente a seqüência primária da proteína e as equações são resolvidas analiticamente. Chamamos esse nível de nível de predição ideal, pois todas as informações relacionadas com a estrutura tridimensional da proteína não são consideradas e o comportamento do aminoácido na proteína é 2 Nos modelos experimentais o pKa é obtido, normalmente, a partir de uma pequena seqüência de peptídeos, contendo aminoácidos ionizáveis, e em diferentes concentrações de sal e macromoléculas (169). 37 analisado como se este estivesse isolado de todos os outros que a constituem. Para um estudo mais preciso das propriedades eletrostáticas, o usuário poderá trabalhar com a estrutura tridimensional da proteína, na qual os valores de pKa ’s de cada aminoácido ionizável é calculado de acordo com sua posição na estrutura da proteína. Assim, é considerado o efeito da distribuição espacial de cargas existentes na estrutura tridimensional. Chamamos essa abordagem de nível de predição Poisson-Boltzmann ou nível de predição baseado em estrutura 3D. Neste nível, o cálculo dos pKa ’s é realizado através da solução da EPBL utilizando o programa MEAD v.2.2.7 que emprega o método de diferenças finitas para a solução desta equação. 5.1.4 Nível de predição ideal (analítico) – Predição a partir da seqüência primária da proteína O termo “ideal" significa aqui que as interações entre os aminoácidos, que constituem a proteína, são desprezadas. Refere-se, portanto, a uma aproximação onde cada aminoácido na estrutura da proteína é tratado como se estivesse isolado, ou seja, em uma condição de idealidade. Na prática, tal condição é alcançada, quando a concentração salina é suficientemente elevada para blindar as interações eletrostáticas entre os aminoácidos. A referência (170) mostra o bom acordo entre os pI’s determinados experimentalmente e os calculados desta mesma forma para algumas proteínas. Os cálculos no nível de predição ideal (analítico) foram desenvolvidos da seguinte forma: 1. Cálculo do grau de dissociação de um próton: O grau de dissociação de um próton, α 3 , de todos os grupos de aminoácidos ionizáveis e dos resíduos α-carboxil e N-terminal, foi calculado de acordo com a Equação 5.7: αi = 10 pH−pKi 1 + 10 pH−pKi (5.7) onde αi é calculado em função do pH e do seu respectivo pKi 4 . A Tabela 1 exibe os valores experimentais de pKa (pKi ), utilizados para o cáculo do α. 3 Detalhes podem ser encontrados na referência (119). de equilíbrio termodinâmica obtidas experimentalmente. Utilizamos os valores de Nozaki e Tanford (2) por serem bem consistentes na literatura. 4 Constantes 38 Grupo Nozaki e Tanford (NT) (2) Creighton (Cr) (171)5 Carboxila 3,8 3,5 – 4,3 ASP 4,0 3,9 – 4,0 GLU 4,4 4,3 – 4,5 HIS 6,4 6,0-7,0 Amina 7,5 6,8 – 8,0 6 CIS 9,5 9,0 – 9,5 TIR 9,6 10,0 – 10,3 LIS 10,4 10,4 – 11,1 ARG 12,0 12,0 Tabela 1: Valores de pKa ’s dos aminoácidos “isolados” obtidos experimentalmente a temperatura de 25◦ C. 2. Valência de um aminoácido: O cálculo da valência ideal (zi ) de cada aminoácido foi realizado com base na referência (119): zi = αz para resíduos ácidos e zi = (1 − α)z para resíduos básicos. z é a valência do aminoácido (-1 para ácido, +1 para básico). As curvas de titulação (ionização) foram calculadas entre os pH’s 0 e 14, onde variamos o pH em 0,1. 3. Valência de uma proteína: Na seqüência, calculamos a valência ideal (Z) da proteína (119). A titulação ideal de uma proteína é dada pela soma de todas as titulações ideais dos aminoácidos ionizáveis que a constituem, além do α-carboxil e do N-terminal, que possuem comportamento ácido e básico, respectivamente. Neste cálculo, as interações entre os aminoácidos, em função do arranjo tridimensional da proteína, são omitidas e apenas os valores dos pKa ’s (determinados experimentalmente) dos aminoácidos são utilizados para o cálculo da titulação. Apesar desta simplificação, os valores obtidos para a titulação ideal das proteínas são bastante próximos dos valores “reais”, obtidos experimentalmente (170). 4. Mecanismo de regulação de carga: Calculamos a capacitância ideal (5), que permite a inclusão do mecanismo de regulação de cargas (5), de cada aminoácido de acordo com a Equação: Caideal = 10 pH−pKa (1 + 10 pH−pKa )2 (5.8) Com os valores das capacitâncias ideais de cada aminoácido, calculamos o valor da capacitância ideal de uma proteína: 5 Utilizamos 6 Quando a média dos valores para a realização dos cálculos. não envolvida em ponte de sulfeto. 39 Cideal = ∑ na a 10 pH−pKa (1 + 10 pH−pKa )2 (5.9) Note que a capacitância ideal de uma proteína é dada pela soma das capacitâncias ideais de todos os resíduos ionizáveis que a constituem, além do α-carboxil e do N-terminal. 5. Comprimento de Debye: o comprimento de Debye (1/k) é utilizado para descrever o comprimento de uma atmosfera iônica próximo de uma superfície carregada (106). Neste trabalho nós utilizamos o comprimento de Debye para descrever o efeito da força iônica do meio no cálculo da variação da energia livre eletrostática, a qual está descrita no próximo item. O comprimento (1/k) é calculado através das expressões (106): √ 0, 304/ concentrao de sal nm para eletrólitos 1:1 (ex. NaCl) √ 1/k = 0, 176/ concentrao de sal nm para eletrólitos 1:2 ou 2:1 (ex. CaCl2 ) 0, 152/√concentrao de sal nm para eletrólitos 2:2 (ex. MgSO ) 4 6. Energia livre eletrostática: De posse das valências ideais das proteínas e de suas respectivas capacitâncias ideais, podemos agora, calcular a variação da energia livre eletrostática ∆Gele (106) (com ou sem o mecanismo de regulação de cargas), em unidades de kB T , em função da distância de separação (r), em Ångström, entre duas proteínas em um determinado pH. A Equação 5.10 exibe o cálculo da variação da energia livre eletrostática de ligação entre duas proteínas, sem o mecanismo de regulação de cargas: ∆Gele = Zi Z j e2 4πε0 εs rkB T (5.10) onde Zi e Z j são as cargas das proteínas i e j, ε0 , a constante dielétrica do vácuo, εs , a constante dielétrica do solvente7 , r, a distância de separação (em Ångströms) entre o centro geométrico das duas proteínas, KB , a constante de Boltzmann e T, a temperatura em Kelvin. Para o cálculo de ∆Gele com o mecanismo de regulação de cargas, utilizamos a Equação (5): ∆Gele cap = lB Zi Z j l2 − B2 (CiC j +Ci Z 2j +C j Zi2 ) r 2r (5.11) onde Ci , C j são as capacitâncias das proteínas i e j e lB é o comprimento de Bjerrum (5): lB = 7 Estamos e2 4πε0 εs kB T utilizando a constante dielétrica da água (solvente) cujo valor é 77,8 em T = 298 K (106). (5.12) 40 A Equação 5.13 exibe o cálculo de ∆Gele com a incorporação da força iônica do meio. Note que, a blindagem eletrostática provocada pela força iônica efeta o termo puramente eletrostático e o mecanismo de regulação de cargas de maneiras diferentes (107). ∆Gele cap = lB Zi Z j exp(−kr) lB2 exp(−2kr) − (CiC j +Ci Z 2j +C j Zi2 ) r 2r2 (5.13) onde k é o inverso do comprimento de Debye. Nos cálculos realizados com base na seqüência primária da proteína, utilizamos um modelo no qual a proteína é tratada apenas como uma esfera com carga elétrica central (modelo de esfera-rígida). Detalhes da estrutura tridimensional da proteína são negligenciados. Esta simplificação será gradativamente removida nas próximas etapas. Note que o segundo termo em ∆Gele cap introduz uma componente sempre atrativa. 6.1 Cálculo da variação da energia livre eletrostática: O cálculo da ∆Gele em função da distância de separação r é feito para um pH fixo, escolhido no intervalo de 1,0 e 14,0, pelo usuário do sistema. Assumimos σ Å a menor distância de separação entre as proteínas, cujo valor é igual a soma dos raios das mesmas (o cálculo do raio da proteína está descrito no próximo item) e Nσ , um valor inteiro absoluto, obtemos a maior distância de separação entre das proteínas em análise. A Equação 5.14 exibe o cálculo da maior distância de separação entre as proteínas, a qual chamamos de RF (dada em Å). RF = σ ∗ Nσ (5.14) Variamos o r de σ a RF, com um ∆r = σ Å. RF representa o infinito (∞), distância esta onde a ∆Gele é muito pequena. A representação gráfica de ∆Gele é feita em função de σ . 2 C Para os valores das constantes dielétricas (106), utilizamos 8, 85x10−12 Nm 2 para o vácuo (ε0 ), e 77,8 para a água (solvente - εs ), com T = 298K. Assumimos que ∆Gele é igual a zero quando seus valores, em função da distância de separação, forem inferiores a 1x10−5 kB T . 7. Cálculo do raio das proteínas: Para calcular o raio de cada proteína procedemos da seguinte forma: 7.1 Quando a estrutura 3D da proteína é conhecida: a. A partir estrutura tri-dimensional da proteína, obtida do PDB, calculamos seu centro de geométrico; 41 b. Verificamos, com base na estrutura tri-dimensional da proteína, qual o átomo mais distante do centro geométrico. Essa maior distância chamamos de (d); c. Assumimos que R (raio da proteína) é igual a d. 7.2 Quando apenas a seqüência primária da proteína é conhecida: Quando a estrutura 3D da proteína não é conhecida, por exemplo, quando apenas a estrutura FASTA8 está disponível, calculamos o raio da seguinte forma: a. Cada aminoácido possui seu respectivo raio e volume pré calculados9 armazenados no nosso banco de dados. A Tabela 2 exibe o raio, o volume e o peso molecular de cada aminoácido, utilizado para determinar o raio da proteína. Aminoácido Raio (Å) (172) ALA 2.81 ARG 3.88 ASN 3.29 ASP 3.20 CYS 3.04 GLN 3.51 GLU 3.43 GLY 2.45 HIS 3.61 ILE 3.55 LEU 3.55 LYS 3.71 MET 3.50 PHE 3.84 PRO 3.26 SER 2.95 THR 3.21 TRP 4.15 TYR 3.92 VAL 3.34 Volume (Å3 ) (172) Peso (g/mol)10 93 89 245 174 149 132 138 133 117 121 181 146 169 147 62 75 197 155 187 131 187 131 214 146 180 149 238 165 145 115 108 105 139 119 300 204 253 181 156 117 Tabela 2: Valores do raio, volume e peso molecular de cada aminoácido. b. A partir do raio de cada aminoácido calculamos o raio da proteína de acordo com a expressão: r raio = 8O 3 3VT 4π (5.15) arquivo no formato FASTA contém a seqüência de nucleotídeos ou de peptídeos no qual os aminoácidos são representados utilizando o código de uma letra. Veja detalhes em: http://www.ncbi.nlm.nih.gov/ blast/fasta.shtml. 9 Os valores para o raio e volume de cada aminoácido foi obtido da referência (172). 10 Dados obtidos do endereço: http://ca.expasy.org/tools/pscale/Molecularweight. html. 42 3 onde VT é: ∑N i Volumei , e Volumei é o volume de cada aminoácido (em Å ). Nas duas situações descritas (cálculos com a estrutura 3D e cálculos com a seqüência primária), o usuário tem a opção de informar ao sistema o tamanho do raio que deseja que seja utilizado para a realização dos cálculos. 8. Segundo coeficiente cruzado de virial: o segundo coeficiente cruzado de virial, B23 , é uma forma de quantificar as interações que ocorrem entre duas moléculas. Se B23 tem valor positivo, significa que, no regime simulado, há repulsão entre as proteínas, se B23 tem valor negativo, atração. O cálculo do segundo coeficiente cruzado de virial (99) (em mol.ml/g2 ) entre duas proteínas11 , em função da variação do pH, foi realizado de acordo com a Equação 5.16: B23 = B23 (ele) + B23 (er) (5.16) onde B23 (ele) (dado em mol.ml/g2 ) representa o termo eletrostático das interações e é calculado com base nas propriedades físicas (peso molecular) e eletrostáticas (titulação e capacitância) das proteínas. B23 (er) (dado em mol.ml/g2 ) representa a contribuição de “esfera rígida", o qual é sempre repulsivo. As Equações 5.1712 e 5.18 apresentam, respectivamente, o cálculo do B23 (ele) e B23 (er). NA B23 (ele) = − 2M2 M3 Z ∞ [exp(∆Gele /kT ) − 1]4πr2 dr (5.17) NA πσ 3 3M2 M3 (5.18) σ B23 (er) = onde, ∆Gele é variação da energia livre eletrostática de ligação (em kB T ), M2 e M3 é o peso molecular13 (em g/mol) das proteínas que serão analisadas, r é a distância de separação (em Ångström) entre as duas proteínas, σ é a soma dos raios (em Ångström) das duas proteínas e NA , o número de Avogadro14 . Maiores detalhes sobre o B23 podem ser encontrados nas referências: (14, 18, 99). Outras abordagens podem ser utilizadas para predizer a complexação a partir da seqüência primária das proteínas (174–176). 11 Para medir aR interação entre pares de proteínas (iguais) pode ser utilizado o segundo coeficiente de virial - B2 . B2 = −NA /2M22 0∞ [exp(∆Gele /kT ) − 1]4πr2 dr em unidades de mol.ml/g−2 (99). 12 Utilizamos a regra de Simpson (173) para a resolver a integral presente na Equação 5.17 e obter B (ele). 23 13 O peso molecular de uma proteína é calculado através do somatório do peso molecular de todos os aminoácidos que a constituem. 14 N = 6, 02.1023 mol −1 . A 43 5.1.5 Nível de predição baseado na estrutura 3D da proteína – através da utilização da EPBL Neste nível de predição o fator chave é a correta predição dos pKa ’s, pois é a partir desses valores que todos os outros cálculos são realizados. Os pKa ’s são calculados a partir da execução de dois programas (multiflex e redti) presentes no pacote MEAD v.2.2.7, o qual resolve numericamente a EPBL onde o solvente é tratado pelo modelo contínuo (apenas por sua constante dielétrica) e o soluto, um dielétrico de baixo valor. Porém, para a correta execução dos programas são necessários vários arquivos de configuração. Veja o Apêndice C para maiores detalhes sobre os arquivos de configuração necessários para utilização do pacote MEAD. Após a geração dos arquivos de entrada para o pacote MEAD, o primeiro programa a ser executado chama-se multiflex15 . Após a execução do mesmo três novos arquivos são gerados (ABCD.g, ABCD.summ e ABCD.pkint)16 . Esses novos arquivos são utilizados como parâmetros de entrada pelo programa redti (segundo programa a ser executado), o qual gera os valores dos pKa ’s de cada aminoácido ionizável de acordo com sua posição na estrutura da proteína. Ao término da execução do programa redti, o arquivo ABCD.pkout é criado. Este arquivo contém os valores dos pKa ’s que são utilizados como parâmetros de entrada para posterior execução de todas as equações que foram demonstradas anteriormente na Seção 5.1.4 Nível de predição ideal (analítico) – Predição a partir da seqüência primária da proteína, provendo desta forma, resultados dos cálculos das propriedades eletrostáticas de proteínas a partir de sua estrutura tridimensional. Ao contrário do nível de predição ideal, onde todos os aminoácidos de um mesmo grupo possuem o mesmo valor de pKa , independente de sua localização na estrutura da proteína, o nível de predição baseado na estrutura 3D da proteína calcula o pKa de cada aminoácido em função de sua posição na estrutura da proteína (a posição do aminoácido na estrutura altera seu valor de pKa ) através da solução da EPBL. Os valores dos pKa ’s calculados de acordo com a estrutura da proteína, são então utilizados na determinação das propriedades eletrostáticas das proteínas, provendo desta forma resultados mais precisos em relação ao nível de predição ideal. 15 Detalhes sobre as formas de execução dos programas pertencentes ao pacote MEAD estão descritos no Apêndice C. 16 ABCD é o código PDB da proteína em questão. Para maiores detalhes sobre os arquivos de saída após a execução de cada programa do pacote MEAD veja as referências (8, 77, 122). 44 5.1.6 Análise da freqüência de contatos entre os aminoácidos de complexos protéicos do PDB e potencial estatístico Diferentes análises computacional-estatísticas podem ser feitas em cima do PDB (60, 134). Iniciaremos focando a freqüência de contato entre aminoácidos de proteínas envolvidas em complexos moleculares em função de suas distâncias de separação, porém, trabalhando com flexibilidade suficiente para acomodar várias outras análises visto ser esta determinação um aspecto crítico da presente proposta. Para que possamos analisar a freqüência de contato entre os resíduos envolvidos nas interações inter-protéicas, é necessária a obtenção de algumas informações contidas no Protein Data Bank (PDB) como, os campos SEQRES, que contém a relação de resíduos de aminoácidos (seqüência primária da proteína), e no caso de complexos, separados por cadeias; e ATOM, que contém informações a respeito da estrutura terciária da proteína, ou quaternária no caso de complexos. Neste campo estão presentes dados como as coordenadas X, Y e Z de cada átomo, quais átomos pertencem a um determinado resíduo, posição do resíduo na cadeia e outros. Além de obter tais informações, é preciso filtrá-las, controlar eventuais anormalidades, e analisá-las posteriormente. Tais análises consistem de cinco passos descritos a seguir: 1. Com o auxílio de ferramentas computacionais desenvolvidas in house, consultar e obter estruturas de interesse (complexos) contidas no PDB, e posteriormente armazená-las como arquivos (pdb) em um diretório local, criando um pequeno banco de dados próprio. 2. Desenvolvimento de um algoritmo capaz de verificar a consistência das informações contidas nos arquivos pdb locais, como, por exemplo, a seqüência de aminoácidos da cadeia primária e o número de átomos para cada aminoácido da seqüência primária, em seguida validar tais informações com os dados presentes na estrutura tridimensional, criando relatórios destas, e propor, se necessário, correções. 3. Desenvolvimento de ferramentas que farão a análise da freqüência de contatos entre os resíduos envolvidos nas interações inter-proteínas, utilizando metodologias para o desenvolvimento de software, como “orientação a objetos”, UML, linguagens portáveis e outras tecnologias (177, 178). Para que tais análises sejam feitas, iniciamos calculando a distância de separação entre os resíduos, de cadeias distintas, que formam o complexo protéico. O cálculo é realizado da seguinte forma: a. A partir dos campos ATOM presentes no arquivo PDB, obtemos todos os átomos 45 de um determinado resíduo de aminoácido para posteriormente calcular o centro geométrico deste resíduo. Este processamento é realizado para todos os resíduos que constituem a proteína. b. De posse de todos os átomos e posições nos eixos X, Y e Z de cada resíduo, calculase o centro geométrico deste. c. Calcula-se a distância (em Ångström) entre o centro geométrico de dois aminoácidos que estão em cadeias distintas. 4. Armazenamento em um sistema gerenciador de banco de dados relacional local open source, como o PostgreSQL 8.3, das estruturas obtidas a partir da pesquisa feita no PDB e a validação das mesmas, bem como relatório inicial com possíveis erros e avisos ao usuário, potenciais estatísticos (distância entre os resíduos), e outros. É possível exportar as estruturas de complexos protéicos presentes no nosso banco de dados, em arquivos texto no mesmo formato que o arquivo PDB. Esta funcionalidade permite que as estruturas armazenadas no nosso banco de dados possam ser utilizadas por outras ferramentas que necessitam (para os dados de entrada) de uma estrutura semelhante às providas pelos arquivos PDB, ou, tais ferramentas podem obter os dados diretamente do banco, através de conexões com o mesmo. 5.2 Infra-estrutura computacional A infra-estrutura computacional necessária para prover nossas ferramentas na web foi criada utilizando programas livres. Além dos serviços descritos nesta seção, utilizamos em conjunto com os portais, alguns programas auxiliares, os quais são descritos no Apêndice C. Todos os serviços, ferramentas e programas estão configurados no sistema operacional17 Linux, padrão de distribuição Debian18 e Kernel19 na versão 2.6.31-20. A seguir iremos apresentar os serviços configurados no servidor (banco de dados e serviços web) e as linguagens de desenvolvimento utilizadas. 1. Banco de Dados: Utilizamos como sistema gerenciador de banco de dados o PostgreSQL 8.3 (179), por ser versátil, robusto, multiplataforma e gratuito, além de suportar um 17 Sistema operacional é um conjunto de programas desenvolvidos para o gerenciamento de toda parte física (hardware) do computador. Algumas funções do sistema operacional são: gerenciamento de memória, gerenciamento de disco, divisão do tempo de processamento entre os vários processos que são executados (escalonamento de processos), entre outros. 18 Veja o endereço http://www.debian.org/ para mais informações sobre a distribuição Debian. Informações sobre as distribuições linux podem ser vistas em http://www.linux.org/. 19 Escrito em linguagem C e em linguagem Assembly, kernel é um conjunto de programas que constitue o núcleo do sistema operacional. 46 vasto conjunto de dados e possuir um rápido e eficiente processo de cópia de segurança (backup) e recuperação de dados previamente salvos (restore) do banco. A ferramenta gráfica escolhida para o gerenciamento do banco de dados foi o pgAmin III v.1.8.4 (180). Esta é uma ferramenta gráfica que auxilia no gerenciamento e desenvolvimento do banco de dados, caracterizando como um (front-end) para o desenvolvedor ou usuário do sistema. Assim, torna-se eficiente a manipulação das estruturas de dados, como a criação de tabelas, chave primária e estrangeira, definição de tipos de dados, etc., presentes no banco de dados. A modelagem do banco é totalmente flexível podendo ser modificada a qualquer momento de acordo com a demanda e organização dos dados. Após uma criteriosa análise do problema (interação proteína-proteína, propriedades eletrostáticas de aminoácidos, proteínas e complexos, potenciais estatísticos e outros) e compreensão de como as informações são organizadas nos arquivos no formato PDB (estrutura SEQRES, ATOM, SSBOND, divisão em cadeias, etc.), bem como as diferenças entre as informações de estruturas de proteínas determinadas por cristalografia de raios X e ressonância magnética nuclear (vários modelos para uma mesma proteína), o banco de dados foi modelado para prover a organização e relacionamento entre as informações nele contidas, proporcionando desta maneira uma corretada adaptação do mesmo de acordo com as necessidades encontradas, podendo ser estendido no futuro, caso necessário. Tal modelagem permite, além do correto armazenamento das informações, a correta recuperação dos dados, como, por exemplo, a obtenção das mesmas informações contidas nos arquivos PDB além da possibilidade da aplicação de filtros, através de comandos em linguagem SQL. Por exemplo, é possível recuperar um determinado modelo específico de uma estrutura de proteína resolvida por ressonância magnética nuclear que, pelo uso desta técnica, geralmente possui vários modelos para a representação da sua estrutura tridimensional. A Figura 7 exibe o modelo relacional do banco de dados disponível no servidor http://glu.fcfrp.usp.br. O modelo foi desenvolvido para permitir que informações a respeito dos potenciais estatísticos e algumas propriedades eletrostáticas de proteínas (pré-processadas) sejam armazenadas, visando minimizar o custo computacional em futuras análises. 47 Figura 7: Modelo relacional do banco de dados. 48 2. Servidor web: Estamos utilizando o Apache 2.0 (181) para servidor web e como servidor de aplicações, para classes Java e páginas JSP, o Tomcat 5.5 (182). Os serviços estão instalados e configurados em um computador do grupo em caráter experimental, onde as diversas funções dos portais são submetidas a um conjunto de testes com o propósito de identificar falhas no sistema. A medida que as tarefas vão sendo executadas e os testes concluídos, o serviço é disponibilizado no servidor do laboratório (http://glu. fcfrp.usp.br). A manutenção destes serviços continuará sob nossa responsabilidade. 3. Portais web: Os portais estão sendo desenvolvidos utilizando tecnologia Java 6 (SDK 1.6) e JSP (2.0). Em conjunto, para maximizar a flexibilidade no desenvolvimento, utilizou-se Python (2.6) (183) e gnuplot (184), ambos disponíveis por padrão em sistemas Linux. Ao acessar os portais, o usuário encontrará um conjunto de análises, que poderão ser requisitas, relacionadas ao estudo de propriedades eletrostáticas em proteínas e potenciais estatísticos, tais como: • Verificar a curva de titulação e capacitância de uma proteína em vários níveis de predição; • Visualizar a titulação e capacitância ideais de aminoácidos isolados; • Cálculo do segundo coeficiente cruzado de virial em função do pH; • Cálculo da variação da energia livre eletrostática de complexação, em função da distância de separação entre duas proteínas escolhidas pelo usuário; • Busca por freqüência de contatos; • Análise das freqüências de contato entre pares de aminoácidos que formam o complexo protéico. Estas e outras ferramentas computacionais desenvolvidas para análise de proteínas serão melhor descritas no próximo capítulo - Ferramentas computacionais desenvolvidas. 49 6 FERRAMENTAS COMPUTACIONAIS DESENVOLVIDAS Neste trabalho utilizamos e desenvolvemos diversas ferramentas computacionais as quais foram incorporadas em portais web, podendo ser utilizadas gratuitamente por qualquer usuário de computador. As próximas seções exibem os portais que foram criados para prover as ferramentas desenvolvidas, assim como uma prévia explicação sobre a utilização de cada uma delas. Conforme proposto neste projeto, iremos analisar a formação de complexos protéicos sob dois enfoques: a) estratégia 1 - enfoque físico (PROMETHEUS); b) estratégia 2 - enfoque computacional (MOLESA). Dessa forma iniciamos apresentando na Seção 6.1 o portal PROMETHEUS e suas ferramentas. A Seção 6.2 apresenta o portal MOLESA. 6.1 Estratégia 1: Desenvolvimento de um portal web que permite o estudo de propriedades eletrostáticas em proteínas Desenvolvemos um portal web1 , disponível em http://glu.fcfrp.usp.br/ services.htm, chamado PROMETHEUS (PROtein-Protein Complexes by Macroscopic Electrostatic Theories and User-Friendly Simulations) capaz de realizar o cálculo de várias propriedades eletrostáticas de proteínas e/ou complexos de proteínas assim como a predição do fenômeno da complexação, entre duas proteínas escolhidas pelo usuário, em diferentes níveis de predição (nível ideal, utilizando somente a seqüência primária da proteína, onde as equações são resolvidas analiticamente, e nível baseado na estrutura 3D da proteína, utilizando a EPBL e condições (pH, força iônica do meio, tipo de solvente, etc.), também informados pelo usuário. 1O portal PROMETHEUS é uma ferramenta web capaz de analisar moléculas biológicas em vários níveis de predição visando atender os mais diversificados perfis de usuários, além de prover novas ferramentas computacionais para a manipulação das informações biológicas. Assim, conforme proposto neste projeto, nós concluimos a fase inicial de desenvolvimento, estruturação das ferramentas, escolha e configuração da infra-estrutura computacional, permitindo desta forma, que este trabalho seja continuado. O desenvolvimento modularizado (e estruturado utilizando orientação a objetos), permite que vários novos recursos sejam inseridos no portal, assim como outras ferramentas, como as utilizadas em predição de estrutura de proteínas e biologia sistêmica, por exemplo. 50 Figura 8: Página inicial do portal web PROMETHEUS. Disponível em: http://glu.fcfrp.usp.br/services.htm. Nesta fase, o portal considera apenas as interações eletrostáticas, assim os modelos propostos são melhor aplicados em complexos protéicos para os quais as interações eletrostáticas são as predominantes. O serviço para o cálculo das valências e pKa ’s é baseado em outros semelhantes existentes na literatura (20, 79). A seguir serão exibidas as ferramentas disponíveis no portal e as funções de cada uma delas. A Figura 8 exibe a página inicial do portal PROMETHEUS. 6.1.1 Cadastramento Para ter acesso a qualquer ferramenta provida pelo portal, o usuário precisa realizar previamente seu cadastro2 . As informações dos usuários são armazenadas no banco de dados desenvolvido neste projeto e são utilizadas exclusivamente para identificação do usuário nos sistemas web. Para minimizar o problema de cadastros “falsos”, o sistema envia, ao e-mail do usuário que solicitou o cadastro, uma mensagem de confirmação de cadastramento, contendo 2 O cadastramento também é necessário para ter acesso as ferramentas providas pelo portal MOLESA. Uma vez que a base de dados de usuários é a mesma, um único cadastro proporciona o acesso aos dois portais. 51 a chave de ativação. Somente após confirmar o e-mail é que o usuário terá o seu cadastro concluído e estará apto para utilizar todos os recursos providos pelos portais, gratuitamente. A privacidade dos cálculos realizados por cada usuário é garantida. 6.1.2 Propriedades dos aminoácidos isolados (Single amino acid properties) Nesta ferramenta o usuário tem acesso à titulação e capacitância de um único aminoá- cido por ele escolhido. Esta ferramenta trabalha no nível de predição ideal e tem finalidade mais didática. A Figura 9 exibe a tela onde o usuário efetua a escolha de qual aminoácido ele deseja calcular as propriedades eletrostáticas e qual tabela de referência será utilizada para os valores de pKa ’s experimentais para a realização dos cálculos. Após a escolha dos parâmetros, pelo usuário, o sistema exibe como resposta, as curvas de titulação e capacitância ideais em função do pH. A Figura 10 ilustra a resposta da ferramenta “Single amino acid properties” ao usuário. É possível ampliar os gráficos clicando em cada um deles, veja, por exemplo, as Figuras 11 e 12, assim como salvar as coordenadas utilizadas para a criação de cada gráfico, caso o usuário deseje criar os gráficos a sua própria maneira. Figura 9: Ferramenta "Single amino acid properties". 52 Figura 10: Curvas de titulação e capacitância ideais em função do pH do aminoácido ácido glutâmico (GLU), obtidas pela ferramenta "Single Amino acid Properties". Figura 11: Curva de titulação ideal do aminoácido ácido glutâmico (GLU). pKa = 4,4 (2). 53 Figura 12: Curva da capacitância ideal em função do pH, do aminoácido ácido glutâmico (GLU). 6.1.3 Propriedades de proteínas isoladas (Single protein properties) Esta ferramenta provê os cálculos da titulação e capacitância de proteína e/ou complexos de proteínas. Para utilizá-la, o usuário deverá informar, inicialmente, qual proteína ele deseja analisar. Para tal há três opções: I) através do código PDB da proteína; II) enviando ao sistema (upload) um arquivo no formato PDB que contém a estrutura da proteína, e III) enviando ao sistema (upload) um arquivo no formato FASTA3 . Os cálculos são realizados utilizando os níveis de predição ideal e Poisson-Boltzmann (conforme a escolha do usuário), exceto quando o usuário envia um arquivo no formato FASTA, onde somente as informações sobre a seqüência primária da proteína estão presentes. Neste caso é possível realizar as análises apenas no nível ideal (analítico). A seguir serão apresentadas as diferenças entre os parâmetros de entrada que estão disponíveis ao usuário de acordo com o nível de predição escolhido. 6.1.3.1 Nível de predição ideal (analítico) Neste nível de predição, após informar qual proteína será analisada, o usuário deve escolher a tabela de referência que será utilizada para os valores experimentais de pKa ’s. A Figura 13 exibe um exemplo de tela onde o usuário pode escolher os parâmetros para o cálculo das propriedades eletrostáticas da proteína lisozima. Os resultados obtidos após a execução da ferramenta são exibidos na Figura 14, a qual exibe a curva de titulação e capacitância em função do pH, para a proteína lisozima 3 Neste caso, o usuário pode enviar ao sistema o arquivo no formato FASTA seguindo o padrão disponível no PDB ou NCBI. Veja em http://www.rcsb.org/pdb/home/home.do e http://www.ncbi.nlm. nih.gov/ para mais detalhes. 54 Figura 13: Tela de aquisição de parâmetros para utilização da ferramenta “Single protein properties". (PDB: 2LZT). Clicando em cada um dos gráficos, o usuário tem a opção de ampliá-los, veja, por exemplo, as Figuras 15 e 16, assim como salvar o arquivo no formato PDB, gerado pelo PROMETHEUS4 , da proteína escolhida para estudo e também o arquivo em formato texto com os dados do processamento. Esses dados podem ser utilizados em qualquer outro programa para que o usuário crie os gráficos à sua própria maneira. 4O arquivo no formato PDB gerado pelo PROMETHEUS contém apenas os campos necessários para realizar as análises propostas neste projeto, a saber: SEQRES, SSBONDS e ATOM. Além disso uma checagem básica de consistência (átomos ausentes, aminoácidos ausentes, etc.) é realizada. Tais informações são adicionadas ao mesmo arquivo PDB em campos REMARK. 55 Figura 14: Tela para apresentação dos resultados obtidos pela ferramenta “Single protein properties". Figura 15: Curva de titulação da proteína lisozima (PDB: 2LZT). 56 Figura 16: Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT). 6.1.3.2 Nível de predição baseado na estrutura 3D da proteína através da utilização da EPBL No nível de predição Poisson-Boltzmann, além de informar qual proteína será anali- sada, o usuário deverá informar os parâmetros necessários para solução da EPBL, utilizando o pacote MEAD v.2.2.7. Tais parâmetros consistem em: a) constante dielétrica do solvente (εs ); b) constante dielétrica do interior da proteína (ε p ); c) campo força que será utilizado para criação do arquivo no formato PQR e conseqüentemente determinará as cargas dos aminoácidos na proteína. A ferramenta possui como opção os campos de força GROMOS96 v.53A6 e AMBER99 (74, 75). Quando o campo de força GROMOS96 é escolhido, o arquivo no formato PQR é criado utilizando o pacote para dinâmica molecular GROMACS v.4.0.5. Quando o campo de força AMBER99 é escolhido, utilizamos o programa PDB2PQR v.1.3.0 para criar o arquivo no formato PQR. Pretendemos, no futuro, implementar outros campos de força como, por exemplo, PARSE (83, 84), CHARMM (185) e TYL06 (157). Após a escolha dos parâmetros de entrada, o sistema gera automaticamente todos os arquivos de configurações necessários para a execução dos programas multiflex e redti, do pacote MEAD v.2.2.7, assim como a correta execução dos mesmos com os parâmetros informados pelo usuário. As Figuras 17 e 18 exibem as telas de aquisição de dados quando o nível de predição Poisson-Boltzmann é escolhido. Após a execução, o usuário pode salvar todos os arquivos de configurações gerados para execução dos programas multiflex e redti assim como os resultados 57 Figura 17: Tela para configuração dos parâmetros iniciais do portal PROMETHEUS. obtidos após a execução dos mesmos e também os arquivos de coordenadas utilizados para produção dos gráficos. A Figura 19 exibe a resposta do sistema ao término do processamento do cálculo das propriedades eletrostáticas neste nível de predição. É possível ampliar os gráficos clicando em cada um deles, veja, por exemplo, as Figuras 20 e 21. 58 Figura 18: Tela para a especificação dos parâmetros físico-químicos para entrada no programa multiflex. Figura 19: Tela para apresentação das curvas de titulação e capacitância em função do pH, geradas pela ferramenta “Single protein properties”. 59 Figura 20: Curva de titulação da proteína lisozima (PDB: 2LZT), no nível de predição Poisson-Boltzmann. Figura 21: Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT), no nível de predição Poisson-Boltzmann. 60 6.1.4 Interação Proteína-Proteína (Protein-protein interaction) Essa é a ferramenta totalmente desenvolvida por nós. Aqui, o usuário tem acesso aos estudos de formação de complexos entre duas proteínas, através da análise do ∆Gele e B23 . Inicialmente, é necessário definir quais proteínas serão investigadas. Assim, como na ferramenta Single protein properties, o usuário tem as opções de informar ao sistema, as proteínas que ele deseja analisar (predizer a formação do complexo), de três diferentes maneiras: I) através dos códigos PDB’s das proteínas; II) enviando ao sistema (upload) um arquivo no formato PDB que contém a estrutura da proteína (neste caso deverá ser informado um arquivo para cada proteína) e III) enviando ao sistema (upload) o arquivo de cada proteína no formato FASTA. Os cálculos são realizados utilizando os níveis de predição ideal e Poisson-Boltzmann (conforme a escolha do usuário), exceto quando usuário enviar um ou os dois arquivos no formato FASTA. Neste caso, como somente as informações sobre a seqüência primária da proteína estão presentes, é possível realizar as análises apenas no nível ideal. A seguir serão apresentadas as diferenças entre os parâmetros de entrada que estão disponíveis ao usuário de acordo com o nível de predição escolhido. A Figura 22 exibe a tela onde o usuário informa as proteínas para serem analisadas assim como o nível de predição que será empregado nos cálculos. Figura 22: Tela para entrada dos parâmetros iniciais para a realização dos cálculos da predição de complexação entre proteínas. 61 6.1.4.1 Nível de predição ideal (analítico) Neste nível de predição o usuário deverá informar, além dos códigos PDB’s das proteí- nas (ou arquivos no formato PDB/FASTA), o pH, a tabela de referência para os valores experimentais dos pKa ’s dos aminoácidos isolados, a concentração de sal, o peso molecular, o raio, a valência dos íons presentes na solução, e por fim, deverá informar se o mecanismo de regulação de cargas será utilizado ou não. Com base na seqüência primária de aminoácidos, o sistema calcula e sugere o raio e o peso molecular de cada proteína, os quais podem ser alterados a critério do usuário. Os resultados são gerados diretamente através da atribuição destes valores nas expressões descritas na Seção 5.1.4. A Figura 23 exibe a tela para configuração dos parâmetros que serão utilizados para realização dos cálculos envolvidos na predição de complexos protéicos, no nível de predição ideal. O sistema exibe como resposta o gráfico do ∆Gele (em kB T ) em função da distância de separação (em Ångström) entre as duas proteínas e o gráfico do B23 em função do pH. A Figura 24 exemplifica o processamento para as proteínas tirosina kinase (PDB: 1LCJ) e lisozima (PDB: 2LZT) no pH 10,4 com o mecanismo de regulação de cargas e força iônica nula. Clicando em cada gráfico, o usuário tem a opção de ampliá-los, assim como salvar os arquivos que contêm as coordenadas utilizadas para a construção dos mesmos. A Figuras 25 e 26 apresentam, respectivamente, os gráficos ampliados, do ∆Gele em função da distância de separação entre as duas proteínas e do B23 em função do pH, para as proteínas tirosina kinase (PDB: 1LCJ) e lisozima (PDB: 2LZT), nas mesmas condições do exemplo anterior. Clicando no código PDB de cada proteína, o usuário tem acesso ao arquivo da estrutura da proteína no formato PDB, gerados pelo PROMETHEUS, acrescido de informações a respeito do teste de consistência. 62 Figura 23: Tela para entrada dos parâmetros físico-químicos para predição de complexos protéicos, no nível de predição ideal (analítico). 63 Figura 24: Tela para apresentação dos cálculos analíticos de ∆Gele (em unidades de kB T ) em função da distância de separação (em Ångström) no pH 10,4 e do B23 em função do pH, em força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). 64 Figura 25: ∆Gele (analítico), no pH 10,4 e força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). Figura 26: B23 (analítico) em função do pH, em força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). 65 6.1.4.2 Nível de predição baseado na estrutura 3D da proteína através de soluções da EPBL Neste nível de predição, ao invés de se empregar os valores de pKa ’s experimentais dos aminoácidos “isolados" (Tabela 1), calculamos os pKa ’s de cada aminoácido ionizável, de acordo com a posição de cada um deles na estrutura tridimensional da proteína. Uma vez que o valor do pKa de cada aminoácido é influenciado pela vizinhança, ou seja, não são os mesmos para todos os aminoácidos de um determinado grupo, este cálculo proporciona uma melhor precisão ao preditor. O cálculo dos pKa ’s é realizado através da solução da EPBL pelo pacote MEAD v.2.2.7. Para utilizar a ferramenta neste nível de predição, o usuário deverá informar ao sistema, inicialmente, as proteínas que ele deseja avaliar. Depois, é necessário informar os parâmetros para a criação dos arquivos de configuração que serão utilizados pelo pacote MEAD para o cálculo dos valores dos pKa ’s de cada aminoácido ionizável. A Figura 27 ilustra uma tela típica para a realização desta tarefa. Figura 27: Tela para entrada dos parâmetros que serão utilizados para a construção dos arquivos de configuração utilizados pelo pacote MEAD para o cálculo dos pKa ’s dos aminoácidos ionizáveis. 66 Figura 28: Tela para definição das condições experimentais das simulações com as estruturas tridimensionais. Para a criação dos arquivos no formato PQR5 , o usuário pode utilizar o campo de força GROMOS96 v.53A6 ou o AMBER99. Na seqüência, é necessário definir as condições experimentais. A Figura 28 ilustra a tela onde o usuário define as constantes dielétricas das proteínas e solvente, a concentração de sal presente na solução e a temperatura do sistema. Note que a constante dielétrica de cada proteína é apenas considerada nos cálculos dos pKa ’s para o fornecimento das valências das proteínas isoladas. Na interação proteína-proteína, empregamos a Equação 5.13, onde o efeito de duas interfaces dielétricas não é considerado. Após escolha destes parâmetros é necessário definir o pH no qual serão realizados os cálculos para a predição da complexação. A Figura 29 exibe a tela onde o usuário pode 5 Muitas estruturas protéicas disponíveis no PDB não possuem os átomos de hidrogênio presentes no arquivo no formato PDB. Os campos de força são utilizados como referência na tentativa de inserir tais átomos na estrutura da proteína, dessa forma, a posição de cada átomo de hidrogênio é dependente do campo de força. Alterações adicionais podem ser realizadas na estrutura da proteína no intuito de otimizar as ligações de hidrogênio, veja alguns exemplos nas referências (20, 69). 67 Figura 29: Tela para definição das condições experimentais para a predição da formação de complexo protéico. configurar tais parâmetros para a predição da complexação. Nesta mesma tela é possível salvar todos os arquivos de configuração utilizados pelo pacote MEAD v.2.2.7, assim como o arquivo que contém os valores dos pKa ’s dos aminoácidos em relação a suas respectivas posições na estrutura da proteína. A Figura 30 apresenta o resultado dos cálculos para a predição da formação de um 68 complexo protéico, no nível de predição utilizando Poisson-Boltzmann, entre as proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB). Para o cálculo da variação da energia livre eletrostática, fixamos o pH em 11,1 e concentração de sal igual a 0,01M. É possível ampliar cada um dos gráficos clicando sobre eles. Os mesmos gráficos, já ampliados, são mostrados nas Figuras 31 e 32. Figura 30: Tela para apresentação do ∆Gele , no pH 11,1 em força iônica igual a 0,01M, e do B23 , para a complexação entre as proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB). 69 Figura 31: ∆Gele entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT), em força iônica igual a 0,01M. Figura 32: B23 entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT). 70 6.1.5 Ferramentas auxiliares desenvolvidas (Tools) Além das ferramentas disponíveis neste portal web, foram desenvolvidas várias ou- tras auxiliares que permitem expandir as análises realizadas e auxiliar os usuários durante a manipulação de estruturas de proteínas, como por exemplo, verificar erros de inconsistência nos arquivos PDB, separar um complexo protéico em proteínas independentes a partir de um arquivo no formato PDB, etc. Isso proporciona que outros estudos (folding, predição de estruturas, mutações na proteína, etc.) sejam realizados, além dos já providos por este portal. A seguir apresentamos a descrição e exemplos de utilização de cada uma das ferramentas auxiliares desenvolvidas neste trabalho. 6.1.5.1 Criar um arquivo no formato PQR (Create PQR file) Esta é uma interface para ferramentas desenvolvidas por outros grupos e que permite a criação de arquivo no formato PQR a partir de um arquivo PDB. O usuário informa ao sistema a proteína através do código PDB da mesma ou enviando ao sistema (upload) o arquivo no formato PDB que contém a estrutura da proteína. Em seguida, é necessário selecionar o campo de força que será utilizado para atribuição das cargas e raios dos átomos de cada aminoácido. O sistema exibe, como resposta, o arquivo no formato PQR da proteína informada pelo usuário. Estamos utilizando o programa PDB2PQR v.1.3.0 para a realização desta tarefa, quando o usuário seleciona os seguintes campos de força: AMBER99, CHARMM27, PARSE, TYL06. Quando o campo de força escolhido for o GROMOS96 v.53A6, utilizamos o pacote GROMACS v.4.0.5 para criar o arquivo no formato PQR. A Figura 33 exibe a tela para configuração dos parâmetros utilizados na criação de um arquivo no formato PQR a partir de um arquivo no formato PDB. 71 Figura 33: Tela da ferramenta que permite criar um arquivo no formato PQR a partir de um arquivo PDB. 6.1.5.2 Criar os arquivos utilizados pelo pacote MEAD (Create MEAD files) O pacote MEAD necessita de diversos arquivos de configuração, como por exemplo, uma lista dos resíduos ionizáveis que estão presentes na estrutura da proteína, configuração das cargas (no estado protonado e deprotonado) de cada átomo contido nos aminoácidos presentes na estrutura da proteína, criação do arquivo no formato PQR, etc. A criação de tais arquivos nem sempre ocorre de maneira trivial, assim visando ampliar as possibilidades providas pelo portal e ao mesmo tempo proporcionar a criação de tais arquivos por usuários não familiarizados com as técnicas empregadas para este fim, desenvolvemos uma ferramenta capaz de criar todos os arquivos de configuração, utilizados pelo MEAD, de forma automática. Como parâmetros, o usuário deverá informar apenas o código PDB da proteína e o campo de força que será utilizado. A Figura 34 exibe a tela para entrada dos parâmentros utilizados pela ferramenta “Create MEAD files”. 72 Figura 34: Ferramenta “Create MEAD files”. Após a execução desta ferramenta, todos os arquivos de configuração podem ser obtidos (download) diretamente do portal. Esta ferramenta extende as funcionalidades do portal assim como as possibilidades para o usuário, uma vez que estes arquivos de configuração podem ser utilizados em diversas novas análises, através da utilização de outros programas pertencentes ao pacote MEAD, como por exemplo, o cálculo do potencial eletrostático na superfície do soluto, realizado pelo programa potential. 6.1.5.3 Separar proteínas (Split proteins) Esta ferramenta é utilizada quando se deseja analisar, individualmente, proteínas que estão complexadas. A partir de um arquivo no formato PDB, de um complexo protéico, a ferramenta separa em arquivos individuais, no formato PDB, cada proteína presente no complexo. Tal recurso permite que várias análises sejam feitas, por exemplo: I) avaliar o comportamento de um complexo formado por três proteínas, quando apenas duas delas estão complexadas; II) combinar proteínas que estão presentes em diferentes complexos, em um novo complexo, e avaliar seu comportamento; III) calcular as propriedades eletrostáticas das proteínas presentes 73 Figura 35: Tela para aquisição dos parâmetros experimentais, utilizados pela ferramenta “Split proteins”. no complexo, de forma individual, etc. Para utilizar essa ferramenta o usuário deverá informar os códigos PDB’s dos complexos de proteínas as quais deseja analisar e escolher a tabela de referência que será utilizada para prover os valores de pKa ’s experimentais que serão utilizados nos cálculos das propriedades eletrostáticas das proteínas. Nesta ferramenta os cálculos são realizados no nível de predição ideal. A Figura 35 ilustra a tela onde o usuário insere os códigos PDB’s das proteínas e/ou complexos de proteínas que serão processados. A Figura 36 exibe os complexos de proteínas separados em proteínas independentes, onde é possível combiná-las, duas a duas, para prever a complexação entre as mesmas. Clicando nos links Titration e Capacitance, é possível ver as propriedades de cada proteína individualmente, assim como os arquivos no formato PDB, gerados pelo PROMETHEUS, de cada uma delas, através do link que informa o código PDB do complexo/cadeia. As Figuras 37 e 38 apresentam, respectivamente, as curvas de titulação e capacitância, no nível de predição ideal, do complexo proteinase-inibidor (PDB: 2PTC), composto por duas 74 Figura 36: Complexos de proteínas separados em proteínas independentes pela ferramenta “Split proteins”. proteínas6 . 6 Todo arquivo PBD que possui mais de uma cadeia é considerado um complexo protéico. Assim, as proteínas que formam o complexo são identificadas por tais cadeias. Por exemplo, o complexo proteinase-inibidor (PDB: 2PTC), é identificado por duas cadeias distintas, E e I, no arquivo PDB. 75 Figura 37: Curvas de titulação ideal de cada proteína individual, presente no complexo proteinase-inibidor (PDB: 2PTC). Figura 38: Curvas de capacitância ideal em função do pH de cada proteína individual, presente no complexo proteinase-inibidor (PDB: 2PTC). 76 6.1.5.4 Classificação de proteínas (Find best case) Esta ferramenta gera uma classificação entre as proteínas e/ou complexos de proteínas, escolhidos pelo usuário ou entre todas as proteínas e complexos de proteínas presentes no nosso banco de dados, quanto às suas propriedades eletrostáticas: titulação e capacitância. Como parâmetros, o usuário deverá indicar: I) em qual pH as proteínas deverão ser classificadas; II) qual o critério de classificação (titulação ou capacitância) e III) o modo de ordenação do resultado (crescente ou decrescente). A Figura 39 exibe a tela de aquisição de parâmetros para a execução da ferramenta “Find best fit”. Após selecionar os parâmetros, o usuário deverá clicar em “Send parameters” e em seguida, em “Process”. Na Figura 40, um exemplo é apresentado. Nesta análise, configuramos o pH em 7,5 e, como modo de ordenação, a titulação em ordem decrescente. Clicando no link “properties” da coluna “Single protein properties”, o usuário poderá visualizar a curva de titulação e capacitância da proteína escolhida, assim como o arquivo no formato PDB gerado pelo PROMETHEUS, clicando no seu respectivo código PDB. Nesta ferramenta todos os cálculos são realizados utilizando o nível de predição ideal. Futuramente estas análises serão estendidas para o nível de predição Poisson-Boltzmann, proporcionando uma melhor precisão dos resultados. Figura 39: Tela de aquisição dos parâmetros utilizados pela ferramenta “Find best case”. 77 Figura 40: Tela para apresentação do resultado obtido pela ferramenta “Find best case”, para um conjunto de proteínas, no pH 7,5. 78 6.1.5.5 Limpar PDB (Clean PDB) O arquivo PDB contém várias informações a respeito da estrutura de uma proteína: método utilizado para obtenção da estrutura, fonte de origem da proteína, informações sobre os pesquisadores que elucidaram tal estrutura, heteroátomos, ligantes presentes na estrutura, etc. Muitas vezes esse vasto conjunto de informação não é relevante para cálculos em particular. Visando simplicar, foi desenvolvida uma ferramenta que efetua a preparação inicial do arquivo no formato PDB, tal processo consiste em duas etapas: 1. Remoção de campos “desnecessários”: Todos campos do arquivo no formato PDB são excluídos, exceto os campos SEQRES (informações sobre a seqüência primária da proteína), ATOM (informações sobre a estrutura tridimensional da proteína) e SSBONDS (informações sobre as pontes dissulfídicas presentes na estrutura). Para a maioria das análises e operações realizadas com as estruturas de proteínas, essas são as informações mais relevantes. 2. Checagem da consistência da estrutura da proteína: Após a “limpeza” do arquivo, é realizada uma verificação de consistência da estrutura da proteína. Tal checagem consiste em: a. Validação da estrutura: Esta é uma fase crítica para confiabilidade não só do cálculo dos potenciais estatísticos, mas para todas as análises providas pelos portais. A classe base responsável pela validação das estruturas é chamada FcrpValidation, a qual realiza os seguintes procedimentos: b. Verificação por resíduos faltantes: A aplicação verifica se todos os resíduos presentes na seqüência primária da proteína, providos pelo campo SEQRES do arquivo PDB, estão presentes na resolução da estrutura tridimensional da proteína, provida pelos campos ATOM do arquivo PDB; c. Verificação por átomos faltantes: Para cada resíduo presente na estrutura primária da proteína é verificado se este possui todos os átomos que o compõem, com exceção dos átomos de hidrogênios quando a estrutura é resolvida por cristalografia de raios X; d. Verificação por resíduos desconhecidos: Efetua-se uma busca por resíduos desconhecidos tanto no campo SEQRES quanto no campo ATOM do arquivo PDB. Qualquer resíduo diferente daqueles encontrados na Figura 4 é assumido ser um resíduo desconhecido. 79 e. Verificação por átomos duplicados: Durante a determinação da estrutura 3D das proteínas podem surgir dúvidas em relação à posição de alguns átomos. Neste caso, um mesmo átomo é inserido mais de uma vez no arquivo PDB. Apenas a primeira ocorrência de um átomo duplicado é considerada para a realização dos cálculos. f. Relatório de erros ou mensagens de avisos para o usuário: Durante todos os processos descritos acima, a aplicação registra os erros encontrados na estrutura, os quais são exibidos ao usuário na forma de aviso (warning found) ou erro (error found). Posteriormente os resultados da checagem são armazenados no banco de dados evitando dessa forma que a mesma estrutura seja checada várias vezes. Tal relatório é fornecido ao usuário. Tais análises visam permitir o controle da qualidade das contas posteriores com essa estrutura. A Figura 41 mostra a tela da ferramenta “Clean PDB”, onde o usuário informa o código PDB da proteína que será analisada. A Figura 42 exibe um exemplo de um arquivo no formato PDB, após ser processado pela ferramenta Clean PDB. Note que foram inseridos novos campos REMARK (no início do arquivo), onde são informados ao usuário os detalhes sobre a checagem de consistência da estrutura por ele escolhida. Figura 41: Ferramenta que efetua a preparação inicial de um arquivo no formato PDB. 80 Figura 42: Exemplo de um arquivo no formato PDB após ser processado pela ferramenta “Clean PDB”. 6.1.5.6 Ordenação de proteínas (Protein ranking) Nesta ferramenta o usuário poderá classificar um conjunto de proteínas de acordo com o pI (ponto isoelétrico) de cada uma. O usuário deverá submeter ao sistema (upload) um arquivo texto com os códigos PDB’s das proteínas e/ou complexos de proteínas que ele gostaria de ordenar. A ordenação é realizada utilizando o nível de predição ideal e, portanto, o usuário deverá informar ao sistema qual tabela para valores de pKa ’s experimentais deverá ser utilizada para a realização dos cálculos. Como resposta, o sistema exibe para o usuário, as proteínas solicitadas ordenadas pelo seu pI. A Figura 43 exemplifica uma tela de classificação. O usuário tem a opção de analisar as curvas de titulação e capacitância, no nível de predição ideal, de cada proteína (clicando nos links correspondentes), assim como salvar o arquivo no formato PDB gerado pelo PROMETHEUS (clicando no código PDB da proteína). Além da classificação das proteínas, o sistema permite calcular a predição (no nível ideal) do complexo protéico entre duas proteínas. Para tal, o usuário deverá selecionar duas proteínas e escolher em quais condições experimentais os cálculos serão realizados. A Figura 44 mostra a tela onde o usuário poderá selecionar as proteínas e definir as condições experimentais (pH, concentração de sal na solução, etc.) para a predição da complexação. Clicando em “Build protein-protein interaction” o sistema realiza a predição entre as proteínas escolhidas pelo usuário. Se o usuário desejar fazer uma combinação entre todas as proteínas, para poder analisar dentre as proteínas escolhidas, quais são as mais favoráveis para a formação de um complexo protéico, ele poderá clicar na opção “All-all protein interaction”. 81 Figura 43: Tela inicial para ordenação de proteínas e/ou complexos de proteínas pelo pI. A Figura 45 apresenta as curvas do ∆Gele e B23 , entre todas as proteínas informadas pelo usuário para execução da ferramenta “All-all protein interaction”7 . Os gráficos de cada interação podem ser ampliados, conforme exibidos pelas Figuras 46 e 47, as quais mostram, respectivamente, os gráficos ampliados do ∆Gele e B2 (analítico) entre duas proteínas calbindinas (PDB: 3ICB). 7 Neste exemplo, informamos à ferramenta as proteínas calbindina (3ICB), β -lactoglobulina (1BEB) e o complexo hirundina-trombina (4HTC). 82 Figura 44: Tela para entrada dos parâmetros físico-químicos utilizados para a predição da complexação entre duas proteínas. 83 Figura 45: Tela para apresentação dos resultados obtidos pela ferramenta “All-all protein interaction”. 84 Figura 46: ∆Gele entre duas proteínas calbindinas (PDB: 3ICB). Figura 47: B2 entre duas proteínas calbindinas (PDB: 3ICB). 85 6.2 Estratégia 2: Desenvolvimento de um portal web que permite a análise da freqüência de contatos entre os aminoácidos que formam um complexo protéico Desenvolvemos um portal web, disponível em http://glu.fcfrp.usp.br/ services.htm, chamado MOLESA (MOLEcular Structural Analysis)8 , que estima a energia livre em função da distância de separação (também conhecida por potencial de força média ou potencial estatístico) entre pares de aminoácidos presentes em cadeias distintas de um complexo protéico. Para utilizar as ferramentas providas pelo portal, o usuário deverá informar ao sistema, inicialmente, quais são os complexos de proteínas que ele gostaria de analisar. O envio dos códigos pode ser feito de duas maneiras: I) inserindo no sistema os códigos PDB’s dos complexos protéicos; e II) enviando um arquivo (upload) no formato texto, contendo os códigos PDB’s dos complexos protéicos que serão analisados. A Figura 48 ilustra a tela onde os códigos PDB’s das proteínas podem ser inseridos no sistema. Figura 48: Tela para inserção dos códigos PDB’s dos complexos de proteínas que serão analisados pela ferramenta “Statistical potential” do portal MOLESA. 8 Assim como o portal PROMETHEUS, o portal MOLESA permite a incorporação de outras ferramentas e serviços web, permindo de tal forma que este trabalho seja continuado e aprimorado, no futuro. 86 Após a definição do conjunto de complexos protéicos que serão analisados, antes da realização dos cálculos, é necessário definir alguns parâmetros, descritos a seguir: 1. Escolha dos aminoácidos: o usuário precisa escolher quais serão os pares de aminoácidos que estarão envolvidos nas análises; 2. Maior distância entre os aminoácidos (Max. Dist. Between AA): este parâmetro informa ao sistema qual será a distância de corte para que a contagem dos aminoácidos seja efetuada; 3. Tamanho das fatias do histograma (bin size). A Figura 49 mostra um exemplo de tela onde o usuário poderá configurar os parâmetros apresentados anteriormente. Neste exemplo, selecionamos os aminoácidos ácido glutâmico (GLU) e leucina (LEU) para a contabilização das freqüências de pares. Optamos por fazer a contagem da freqüência de contatos entre os resíduos que estiverem separados em até 100 Å de distância. Configuramos para 5 Å o tamanho das fatias para a contagem das distâncias de separação dos resíduos. Visando um melhor entendimento de como um complexo protéico é tratado pelo sistema e do significado de cada parâmetro, criamos um complexo protéico hipotético formado por duas proteínas as quais são representadas por cadeias (nomenclatura adotada pelo PDB), neste exemplo denotadas por cadeia A e cadeia B. As esferas representam os aminoácidos de cada proteína e as cores indicam tipos diferentes de aminoácidos. A Figura 50 ilustra o complexo protéico hipotético formado por duas proteínas e a Figura 51 ilustra como é realizado o cálculo das distâncias de separação entre os resíduos presentes em cadeias distintas no complexo protéico. No exemplo ilustrado pela Figura 51, definimos o tamanho das fatias em 3 Å. Portanto, o cálculo da freqüência de pares será realizado da seguinte forma: 1. Contagem da quantidade de aminoácidos i e j presente entre as distâncias de separação entre 0 e 3 Å; 2. Contagem da quantidade de aminoácidos i e j presente entre as distâncias de separação entre 3 e 6 Å; 3. Contagem da quantidade de aminoácidos i e j presente entre as distâncias de separação entre 6 e 9 Å; 4. A contagem se repete até que a distância máxima de separação entre os aminoácidos i e j seja atingida. Neste exemplo esta distância é igual a 100 Å. 87 Figura 49: Tela para configuração dos parâmetros que serão utilizados pela ferramenta “Statistical potential”. Após a contagem da freqüência de pares entre todas as distâncias solicitadas pelo o usuário, o sistema calcula, a parir da relação de Boltzmann, o potencial de força média entre os aminoácidos i e j, escolhidos pelo usuário. A Figura 52 exibe o resultado do processamento do cálculo dos potenciais estatísticos. As Figuras 53 e 54 exibem os mesmos gráficos ampliados. Figura 50: Ilustração de um complexo protéico esquemático formado por duas proteínas (representadas pelas cadeias A e B) para a realização do cálculo da distância de separação entre os resíduos presentes em cada proteína. 88 Figura 51: Ilustração do contador de freqüências entre os aminoácidos i e j de um complexo protéico esquemático. Como resultado do processamento, o portal exibe quatro gráficos os quais serão descritos a seguir: 1. g(r)∗ : O primeiro gráfico apresentado pela Figura 52 exibe a freqüência de observações de distâncias entre pares de aminoácidos; 2. g(r)∗ normalizado [normalized g(r)∗ ]: O segundo gráfico apresentado pela Figura 52 exibe os dados da função g(r)∗ normalizados. Neste exemplo os dados foram normalizados assumindo uma interpretação probabilística, onde a soma de todos os pontos da curva é igual a 1 (um); 3. Potencial de força média [g(r)∗ ] {potential of mean force [g(r)∗ ])}: O terceiro gráfico mostrado na Figura 52 exibe o potencial de força média (em kB T ) em função da distância de separação (em Ångström), obtido da freqüêcia de contatos normalizada pelo método probabilístico. 4. Potencial de força média (FDR) [potential of mean force (FDR)]: O último gráfico mostrado pela Figura 52 exibe o potencial de força média (em kB T ) em função da distância de separação (em Ångström), normalizado com base na FDR na qual assumimos que não há nenhuma interação entre os resíduos mais distantes. A próxima seção apresenta como é o funcionamento do portal MOLESA. 89 Figura 52: Freqüência de contatos e potencial de força média entre os resíduos i e j. 90 Figura 53: Freqüência de contatos (com e sem normalização) entre os resíduos i e j. Figura 54: Potencial de força média entre os resíduos i e j, normalizados de forma probabilística e com base na FDR. 91 6.2.1 Funcionamento do portal MOLESA Inicialmente a ferramenta calcula a distância de separação entre um resíduo de ami- noácido de uma cadeia e todos os resíduos presentes em outra cadeia de um complexo protéico. Após realizar os cálculos, os resultados são armazenados em um banco de dados local onde é possível executar buscas personalizadas, como por exemplo, saber a distância de separação entre os ácidos glutâmicos de uma proteína (cadeia A, por exemplo) e as alaninas presentes em outra proteína (cadeia B) em um determinado conjunto de complexos protéicos, informados pelo usuário. Esta busca é possível, pois já teremos calculadas todas as combinações possíveis entre os resíduos que formam o complexo protéico e com o auxílio de comandos em linguagem SQL poderemos efetuar as buscas de nosso interesse. Porém, antes de efetuar o cálculo das distâncias de separação entre os resíduos, executamos uma série de procedimentos, os quais serão descritos a seguir: 1. Obtenção da estrutura de interesse: A obtenção da estrutura de interesse é realizada pela classe FcfrpPDB e segue o seguinte protocolo: • É feita uma verificação, pelo código PDB da proteína, se a estrutura que se deseja analisar já está inserida no banco de dados local. Se a estrutura for encontrada na base de dados local, indica que os procedimentos descritos nos itens 2 e 3 já foram executados e o resultado da análise é exibido para o usuário. Caso contrário, a aplicação obtém do PDB a estrutura requisitada pelo usuário e, em seguida, é feita a validação desta estrutura9 . Assumimos que os dados estão validados quando os mesmos são submetidos ao nosso validador de estruturas, embora este fato não garanta que as estruturas estão livres de erros. Nesta primeira versão do aplicativo não há nenhum critério para exclusão de um complexo de nossa base de dados em relação à quantidade de erros encontrados no mesmo, sendo assim, fica a critério do usuário o uso de tal complexo para a realização de suas análises. 2. Inserção dos dados no banco de dados: A inserção dos dados no banco de dados é realizada pela classe FcfrpInsertPDB2Database da sequinte forma: As informações contidas nos campos SEQRES, ATOM, e SSBOND, são inseridas no nosso banco de dados nas tabelas apropriadas, assim como todas as mensagens de erros e avisos que serão exibidos ao usuário caso o mesmo solicite tal estrutura para testes. 3. Cálculo das distâncias: Após a validação do complexo protéico, obtêm-se as informações contidas nos campos ATOM do arquivo PDB, calcula-se o centro geométrico de cada 9O protocolo de validação das estruturas protéicas é descrito na Subseção 6.1.5.5 - Limpar PDB (Clean PDB). 92 resíduo e em seguida a distância do centro geométrico entre todos os resíduos que estão em cadeias distintas do complexo. Todas as combinações são armazenadas no banco de dados e serão recuperadas posteriormente para gerarem os potenciais estatísticos. 4. Normalização 1 – visão probabilística: A partir da freqüência de contatos, obtidas pelo cálculo de gi j (r)∗ , assumimos que a soma de todos os pontos da curva por ela gerada é igual a 1. Dessa forma encontramos o valor pelo o qual todos os pontos devem ser multiplicados a fim de obtermos a curva normalizada. Com os dados normalizados efetuamos o cálculo do potencial de força média (em kB T ), utilizando a Equação 4.710 , entre dois resíduos (i e j) na distância r. O Algoritmo 1 exibe o pseudocódigo utilizado para realizar a normalização 1. Algoritmo 1: Pseudocódigo utilizado para realizar a normalização dos dados, pelo critério 1. função: Normaliza_dados_1( arquivo_g(r)* ): para para cada interação entre os resíduos i e j (onde i e j representam os 20 aminoácidos naturais) faça leia todos os pontos gerados pela equação g(r)*; Some todos os pontos lidos; Armazene o valor na variável sum; calcule o fator de correção fc da seguinte forma: 1 ; fc = sum multiplique cada ponto de g(r)* por fc; salve as alterações em um arquivo no formato txt; nome = residuo.i-residuo.j_normalizado1.txt; renomeie o arquivo para nome; 5. Normalização 2 – visão de g(r): A partir da freqüência de contatos, obtidas pelo cálculo de gi j (r)∗ , calculamos o PFM e em seguida executamos a normalização dos resultados. Desta vez encontramos o valor do último ponto da curva e o igualamos a zero (local onde assumimos não haver nenhuma interação entre os resíduos). Subtraímos então este valor de todos os pontos da curva. Os procedimentos adotados estão explicados de uma forma bastante reduzida. A descrição detalhada sobre a utilização das diversas subclasses podem ser encontradas no Apêndice B. 4.7: wi j (r) = −kB T ln[gi j (r)∗ ], apresentada na Seção 4.6 - Potencial de força média, utilizada para calcular o potencial de força média de uma determinada correlação de pares [gi j (r)∗ ] entre dois resíduos i e j. 10 Equação 93 7 RESULTADOS Os resultados podem ser divididos em duas áreas: I) física e II) computacional, onde, na primeira, analisamos as propriedades eletrostáticas de aminoácidos e proteínas com base em sua estrutura primária e tridimensional, avaliando o efeito das condições experimentais e parâmetros, como a constante dielétrica no interior da proteína e campo de força. Avaliamos o efeito do mecanismo de regulação de cargas e a partir de propriedades termodinâmicas buscamos o entendimento da formação de complexos protéicos. Na segunda, realizamos a análise, criação e configuração da infra-estrutura computacional necessária para prover as ferramentas desenvolvidas. A apresentação dos resultados está organizada da seguinte forma: a) Iniciamos apresentando, na Seção 7.1 a validação dos dados iniciais, os quais são utilizados como parâmentos pelo PROMETHEUS. Estas informações consistem na predição da titulação e capacitância dos aminoácidos e proteínas, e comparação com resultados da literatura. Apresentando também as diferenças entre as previsões efetuadas nos dois níveis preditivos: 1) analítico, utilizando somente a seqüência primária e 2) Poisson-Boltzmann, utilizando a estrutura 3D da proteína; b) Em seguida apresentamos predições de complexos, comparação com dados experimentais e análises metodológicas (protocolos) e físicas (influência do mecanismo de regulação de cargas); c) apresentação dos resultados do portal MOLESA. 7.1 O portal PROMETHEUS - predição com base nas propriedades eletrostáticas das proteínas Uma vez que as ferramentas desenvolvidas apresentam um grande número de fun- ções, variáveis e parâmentos envolvidos nas diversas fases do processamento, foi necessário, para garantir o correto funcionamento de cada ferramenta, validar individualmente os resultados obtidos pelas mesmas. Assim, de uma forma hierárquica, efetuamos a validação de cada ferramenta, partindo do nível mais básico adotado pelos portais (propriedades eletrostáticas dos aminoácidos) ao nível mais alto (propriedades eletrostáticas de proteínas), os quais estão apresentados na seguinte ordem: 1) Subseção 7.1.1 - Validação das propriedades eletrostáticas dos 94 Figura 55: Curva de titulação ideal do aminoácido alanina (ALA). aminoácidos, apresenta a validação dos resultados para os cálculos das propriedades eletrostáticas dos aminoácidos ionizáveis, 2) Subseção 7.1.2 - Validação das propriedades eletrostáticas de proteínas, apresenta a validação dos resultados para os cálculos das propriedades eletrotáticas de proteínas nos dois níveis preditivos: a) seqüência primária e b) seqüência terciária da proteína. 7.1.1 Validação das propriedades eletrostáticas dos aminoácidos Com base nas constantes de equilíbrio termodinâmicas dos aminoácidos ionizáveis, apresentadas na Tabela 1, efetuamos os cálculos da titulação e capacitância dos aminoácidos1 . As Figuras 55 – 58, exibem, respectivamente os gráficos das curvas de titulação e capacitância dos aminoácidos alanina (ALA) e arginina (ARG), calculadas de acordo com as equações apresentadas no Capítulo 5 - MATERIAL E MÉTODOS. A Tabela 3 exibe os valores de pKa ’s e a comparação dos pI’s dos aminoácidos ionizáveis, medidos experimentalmente e os calculados pelo PROMETHEUS, utilizando como tabelas de referências para os valores experimentais de pKa ’s, as tabelas de Nozaki e Tanford e Creighton. De acordo com o modelo adotado nas simulações, observa-se algumas diferenças entre os pI’s teóricos e os medidos experimentalmente. Estas diferenças se devem ao fato de termos 1 Nesta ferramenta os cálculos teóricos dos valores de pKa ’s dos aminoácidos ionizáveis, foram realizados assumindo que o aminoácido encontra–se isolado dos demais. 2 Utilizamos os valores de pK ’s experimentais da tabela de Nozaki e Tanford (NT) (2). a 3 Utilizamos os valores de pK ’s experimentais da tabela de Creighton (Cr) (171). Neste caso, adotamos o valor a médio. 95 Figura 56: Curva da capacitância ideal em função do pH, do aminoácido alanina (ALA). Figura 57: Curva de titulação ideal do aminoácido arginina (ARG). pKa = 12,0 (2). Grupo pKa NT (2) pKa Cr (171) pI PROMETHEUS (NT)2 pI PROMETHEUS (Cr)3 pI experimental (21) Carboxila ASP GLU HIS Amina CYS TYR LYS ARG 3,8 4,0 4,4 6,4 7,5 9,5 9,6 10,4 12,0 3,5 – 4,3 3,9 – 4,0 4,3 – 4,5 6,0-7,0 6,8 – 8,0 9,0 – 9,5 10,0 – 10,3 10,4 – 11,1 12,0 3,9 4,1 6,9 5,6 5,6 9,0 10,0 3,9 4,1 7,0 5,7 5,6 9,1 10,0 3,0 3,1 7,6 5,1 5,6 9,5 10,7 Tabela 3: Comparação entre os pI’s experimentais e os calculados pelo PROMETHEUS no nível analítico. Os dados experimentais foram obtidos da referência (21). 96 Figura 58: Curva da capacitância ideal em função do pH, do aminoácido arginina (ARG). considerado o aminoácido isolado e em força iônica nula, condição esta dificilmente encontrada em modelos experimentais. Nos modelos experimentais o pKa é obtido, normalmente, a partir de peptídeos com uma seqüência de resíduos do tipo a em diferentes concentrações de sal e macromolécula. Outro fator que pode contribuir nesta diferença é que, além do valor do pKa do aminoácido em questão, nós adicionamos a ele mais duas contribuições: vindas do grupo α-Carboxil, e N-Terminal, cujos valores de pKa ’s são respectivamente 3,8 e 7,5 (2). As capacitâncias apresentam unicamente valores positivos, representando dessa forma a capacidade do aminoácido aumentar sua carga elétrica em função da concentração de átomos de hidrogênio (pH) presentes no meio ou sob a influência de um outro corpo carregado ou campo elétrico. 7.1.2 Validação das propriedades eletrostáticas de proteínas Após a validação das propriedades eletrostáticas dos aminoácidos, iniciamos a valida- ção para as proteínas. As Figuras 59 e 60 exibem, respectivamente, a comparação entre a curva de titulação teórica, obtida pelo modelo analítico e a medida experimentalmente4 , para a lisozima (PDB: 2LZT), e a comparação entre as curvas de titulação teóricas, obtida analiticamente e por simulação MC (5), utilizando o modelo de aminoácido, da calbindina (PDB: 3ICB). A Figura 61 exibe a comparação entre a titulação obtida analiticamente, através do 4 Valores 25◦ C. experimentais obtidos da referência (15) em força iônica igual a 0,1M de cloreto de potássio (KCl) a 97 Figura 59: Comparação entre as curvas de titulação teórica e experimental da proteína lisozima (PDB: 2LZT) em força iônica igual a 0,1M. Figura 60: Comparação entre as curvas de titulação teóricas obtidas analiticamente e por simulação Monte Carlo da proteína calbindina (PDB: 3ICB) em força iônica nula. ∗ Dados obtidos da referência (5). 98 Figura 61: Comparação entre a titulação ideal (curva vermelha), obtida pelo portal PROMETHEUS, e titulação MA, obtida por simulação Monte Carlo (curva verde - concentração da proteína: 150µM; concentração de sal: 0,15M (3)) da proteína β -lactoglobulina (PDB: 1BEB). pI experimental: 5,18 (4). portal PROMETHEUS e a titulação baseada na estrutura 3D da proteína, utilizando o modelo atomístico (MA)5 obtida por simulação Monte Carlo, da β -lactoglobulina (PDB: 1BEB), forma dimérica, na qual a concentração da proteína foi fixada em 150 µM e a concentração de sal em 0,15 M (3). Apesar da simplificação utilizada por nossa ferramenta (nível de predição ideal), a titulação por ela provida é muito semelhante à titulação MA, obtida por simulação MC, onde se considerou a estrutura 3D da proteína. A semelhança entre as curvas pode ser explicada pela presença de sal. A quantidade de sal afeta as interações eletrostáticas que ocorrem entre os aminoácidos da proteína, fazendo a “blindagem” de tais interações. Assim, o comportamento da titulação MA se aproxima da titulação ideal. Essa aproximação é ainda maior quando aumentamos a concentração de sal na solução6 . Observamos que o pI das duas curvas são bastante próximos, e se formos considerar os erros experimentais (100, 170), a comparação torna-se ainda melhor. Entre os pH’s 5 e 9 a titulação ideal e modelo atomístico da proteína é praticamente a mesma. Dessa forma nossa ferramenta é útil, pois é neste intervalo de pH (pH fisiológico) que a maioria das reações químicas vitais ocorrem, assim como a complexação entre proteínas. Uma das vantagens da nossa 5 Chamamos de titulação utilizando o modelo atomístico (MA), a titulação obtida por simulação através do método Monte Carlo. Nesta simulação, além da proteína representada em detalhes atomísticos, está presente sua concentração e os íons móveis presente na solução, tornando o sistema (teórico) mais próximo ao sistema real (condições as quais os dados experimentais são obtidos). 6 O efeito da força iônica será apresentada no Tópico 7.1.2.3 - O efeito da força iônica. 99 Figura 62: Comparação entre a capacitância ideal em função do pH, da proteína lisozima (PDB: 2LZT) provida pelo portal PROMETHEUS e a obtida da referência (5). ferramenta é a velocidade em que os cálculos são realizados. Neste caso, devido à simplificação do modelo, é necessário apenas alguns segundos para que o resultado (curva de titulação ideal) seja obtido. Tal fato permite que estas análises possam ser efetuadas em larga escala com um baixo custo computacional. Neste exemplo (Figura 61), utilizamos um microcomputador cuR 2,4 GHz e 512 MB de memória jas principais características são: processador Intel Celeron RAM. Assumindo que a proteína está inserida no nosso banco de dados, foi observado que o tempo médio entre a requisição e a resposta do sistema ao usuário foi de aproximadamente 10 segundos. Se formos levar em consideração a latência da rede, podemos dizer que o tempo de processamento é aproximadamente 8 segundos. Na Subseção 8.1.1 - Análise da complexidade de algoritmos, para um melhor entendimento do custo computacional em relação ao crescimento do sistema (quantidade das análises vs. custo de realizar as operações em larga escala), será apresentada uma análise da complexidade dos algoritmos desenvolvidos neste nível de predição. As Figuras 62 e 63 exibem, respectivamente, a comparação entre as curvas das capacitâncias teóricas obtidas analiticamente, utilizando o PROMETHEUS e as obtidas da referência (5), para a lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB). A Tabela 4 exibe uma comparação entre os valores teóricos e experimentais para os pontos isoelétricos de algumas proteínas. O parâmetro RMSD foi calculado em relação aos valores medidos experimentalmente. Estas comparações demonstram boas concordâncias entre nossos resultados com dados experimentais e outras previsões teóricas, utilizando o nível 100 Figura 63: Comparação entre a capacitância ideal em função do pH, da proteína calbindina (PDB: 3ICB), provida pelo portal PROMETHEUS e a obtida da referência (5). de predição analítico. Com o objetivo de melhorar a precisão dos nossos resultados, fizemos as predições das propriedades eletrostáticas das proteínas utilizando sua estrutura 3D. Para tal é necessário predizer as constantes de equilíbrio termodinâmicas (pKa ’s) de cada aminoácido ionizável em função de sua posição na estrutura da proteína. Estas predições são realizadas através da utilização de alguns programas contidos no pacote MEAD v.2.2.7, as quais resolvem a EPBL. Os critérios utilizados para a predição dos valores de pKa ’s dos aminoácidos ionizáveis estão apresentados na Subseção 8.2.1 - Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis. As próximas tabelas exibem o cálculo dos pKa ’s dos aminoácidos ionizáveis que constituem as proteínas lisozima (PDB: 2LZT), BPTI (PDB: 4PTI), calbindina (3ICB) e ribonuclease A (PDB: 3RN3) em várias condições experimentais. O objetivo é variar os parâmetros que são utilizados para a realização dos cálculos e analisar qual é a melhor configuração para os dados de entrada que são utilizados pelos programas do pacote MEAD v.2.2.7 (a que mais se aproxima dos dados experimentais) para predizer os valores pKa ’s de cada aminoácido em função da sua posição na estrutura da proteína. Utilizamos os campos de força GROMOS96 v.53A6 e AMBER99 como parâmetros para a criação dos arquivos no formato PQR. Não foi feita nenhuma otimização no sistema ou minimização de energia após o arquivo PQR ter sido criado. Após a criação do arquivo PQR, efetuamos uma padronização dos raios de todos os átomos presentes na estrutura da proteína, de acordo com a referência (20), pois com esta alteração obtivemos resultados em melhores concordâncias com os dados experimentais. 101 Proteína PROMETHEUS7 Lisozima (2LZT) 10,6 Calbindina (3ICB) 4,5 10 BPTI (4PTI) 10,0 Ribonuclease A (3RN3) 9,4 Subtilisina (2SNI) 6,7 Cromatina (1H5O) 10,7 Concanavalina A (2YZ4) 5,3 Colipase II (1LPB) 6,4 11 RMSD 1,69 Patrickios8 10,5 – 10,4 9,6 7,0 10,7 5,0 5,8 1,14 SIB9 9,3 4,5 9,2 8,6 6,6 9,5 5,3 6,1 2,85 pI experimental 11,1 [Ref. (15)] 4,5 [Ref. (13)] 10,6 [Ref. (170)] 9,6 [Ref. (170)] 6,7 [Ref.(170)] 10,3 [Ref.(170)] 5,0 [Ref.(170)] 5,0 [Ref.(170)] Tabela 4: Comparação entre os pontos isoelétricos experimentais e teóricos, com os calculados pelo PROMETHEUS no nível de predição analítico. As Tabelas 5 – 8 exibem os valores de pKa ’s, dos aminoácidos ionizáveis, da proteína lisozima (PDB: 2LZT) e BPTI (PDB: 4PTI) preditos pelo portal PROMETHEUS (utilizando os campos de força GROMOS96 e AMBER99), pelo serviço H++ e os determinados experimentalmente. Fixamos a constante dielétrica do solvente em 80,0, a temperatura em 298,0 K e variamos a constante dielétrica da proteína de 4 a 80 em diversas concentrações de sal (I = 0,01M, 0,1M e 0,15M). O RMSD de todos os pKa ’s preditos pelo portal PROMETHEUS (RMSD Exp.) e o desvio máximo (Desvio Max.) foram calculados em relação aos pKa ’s experimentais. Para efeito de comparação, exibimos também o RMSD e o desvio máximo entre os pKa ’s preditos pelo serviço H++ e os determinados experimentalmente. Note que, para as duas proteínas analisadas, o campo de força GROMOS96 apresentou melhores concordâncias com os dados experimentais, em relação ao campo de força AMBER99, quando não realizamos ajustes conformacionais na proteína. 7 pI’s calculados analiticamente. Utilizamos a tabela de NT (2) para valores experimentais dos pKa ’s dos aminoácidos ionizáveis. Assumiu-se força iônica nula. 8 Valores dos pI’s obtidos da referência (170). 9 SIB: Instituto Suíço de Bioinformática (Swiss Institute of Bioinformatics), disponível em http://expasy. org/tools/protparam.html (186). 10 Abreviação utilizada para o Inibidor da Tripsina Pancreática Básica (Basic Pancreatic Trypsin Inhibitor) BPTI. 11 RMSD: Abreviatura utilizada para o desvio padrão (Root Mean Square Deviation). Optou-se por manter a abreviação em inglês por ser bem consistente na literatura. Resíduo Nter1 Lys1 Glu7 Lys13 His15 Asp18 Tyr20 Tyr23 Lys33 Glu35 Asp48 Asp52 Tyr53 Asp66 Asp87 Lys96 Lys97 Asp101 Lys116 Asp119 Cter129 RMSD Exp. Desvio Max. I= 0,01M 2,64 8,84 2,00 10,69 4,50 0,89 18,37 9,78 10,21 7,13 2,13 -0,54 23,91 5,18 2,18 13,22 11,01 4,14 8,71 3,16 2,94 16,95 11,81 εp = 4 I=0,1M 3,19 9,10 2,89 10,67 4,92 1,74 17,81 9,95 10,33 7,48 2,74 0,36 23,46 5,59 3,09 12,82 10,97 4,65 8,86 3,70 3,52 16,02 11,36 I=0,15M 3,27 9,14 3,05 10,65 4,99 1,88 17,72 9,98 10,36 7,52 2,84 0,51 23,39 5,66 3,25 12,74 10,96 4,74 8,88 3,78 3,61 15,91 11,29 I=0,01M 6,10 9,86 2,25 10,89 5,52 1,77 10,15 9,01 10,26 4,18 2,20 1,60 10,90 2,41 1,65 12,34 11,28 2,94 9,96 2,22 2,44 4,98 2,08 ε p = 20 I=0,1M 6,43 10,03 3,06 10,84 5,89 2,55 10,36 9,32 10,39 4,65 2,80 2,41 11,04 2,98 2,53 11,96 11,12 3,50 10,01 2,86 3,08 4,17 2,08 PDB: 2LZT - lisozima Campo de força: GROMOS96 T = 298,0 K / εs = 80,0 ε p = 40 I=0,15M I=0,01M I=0,1M I=0,15M 6,48 6,53 6,85 6,89 10,06 10,16 10,26 10,27 3,20 2,35 3,12 3,25 10,81 10,93 10,87 10,84 5,95 5,70 6,05 6,10 2,68 1,90 2,66 2,78 10,40 9,36 9,62 9,68 9,37 8,89 9,20 9,26 10,41 10,34 10,43 10,45 4,72 3,54 4,06 4,15 2,89 2,26 2,85 2,94 2,54 1,99 2,72 2,83 11,07 9,67 9,88 9,92 3,07 2,10 2,71 2,81 2,68 1,68 2,53 2,67 11,89 11,94 11,66 11,61 11,08 11,30 11,13 11,1 3,58 2,71 3,29 3,39 10,01 10,18 10,20 10,19 2,96 2,10 2,77 2,87 3,18 2,27 2,95 3,06 4,14 5,36 4,55 4,51 2,17 2,66 2,22 2,05 I=0,01M 6,70 10,29 2,41 10,93 5,78 1,94 9,13 8,84 10,38 3,26 2,30 2,10 9,31 2,02 1,71 11,76 11,27 2,61 10,26 2,06 2,19 5,62 2,94 ε p = 60 I=0,1M 7,00 10,36 3,15 10,87 6,12 2,68 9,40 9,15 10,46 3,80 2,88 2,80 9,54 2,64 2,54 11,53 11,11 3,20 10,27 2,73 2,88 4,83 2,56 I=0,15M 7,05 10,37 3,28 10,85 6,17 2,80 9,44 9,20 10,47 3,89 2,97 2,91 9,57 2,74 2,68 11,48 11,08 3,29 10,27 2,85 2,99 4,78 2,31 I=0,01M 6,79 10,37 2,45 10,93 5,83 1,96 9,01 8,81 10,41 3,10 2,32 2,13 9,13 2,00 1,74 11,66 11,24 2,55 10,30 2,05 2,15 5,79 2,97 ε p = 80 I=0,1M 7,09 10,42 3,17 10,87 6,16 2,70 9,29 9,11 10,48 3,66 2,90 2,82 9,37 2,62 2,55 11,44 11,09 3,14 10,31 2,73 2,84 4,99 2,73 I=0,15M 7,13 10,43 3,29 10,85 6,21 2,82 9,34 9,16 10,49 3,75 2,99 2,93 9,41 2,72 2,69 11,40 11,06 3,23 10,31 2,83 2,95 4,94 2,69 exp.12 – I=0,1M 7,90 10,80 2,85 10,50 5,36 2,66 10,30 9,80 10,60 6,20 1,60 3,68 12,10 0,90 2,07 10,80 10,30 4,09 10,40 3,20 2,75 – – H++13 εp = 4 I=0,15M 6,77 9,65 3,34 10,44 5,61 1,65 15,72 10,67 11,00 5,12 -0,63 2,10 26,16 -2,22 0,97 11,09 10,82 4,60 9,15 3,32 3,64 15,95 14,06 Tabela 5: Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. 13 Teste experimentais obtidos das referências (6–8). de benchmark realizado pelo serviço H++ (20), disponível em: http://biophysics.cs.vt.edu/H++/H++_accuracy_table.pdf. 102 12 Valores Resíduo Nter1 Lys1 Glu7 Lys13 His15 Asp18 Tyr20 Tyr23 Lys33 Glu35 Asp48 Asp52 Tyr53 Asp66 Asp87 Lys96 Lys97 Asp101 Lys116 Asp119 Cter129 RMSD Exp. Desvio Max. I= 0,01M -20,00 8,33 0,72 9,58 -2,85 -0,83 13,72 9,06 6,49 2,60 -2,76 -1,88 25,58 -7,55 -0,43 9,52 10,67 3,31 7,55 1,26 1,78 35,16 27,90 εp = 4 I=0,1M -20,00 8,77 1,69 9,79 -1,86 0,22 13,45 9,48 7,04 3,35 -1,81 -0,83 25,37 -6,60 0,48 9,79 10,72 3,98 7,98 2,08 2,52 33,89 27,90 I=0,15M -20,00 8,84 1,87 9,82 -1,69 0,40 13,40 9,55 7,14 3,47 -1,64 -0,66 25,34 -6,45 0,63 9,82 10,71 4,09 8,05 2,22 2,64 33,71 27,90 I=0,01M -1,94 9,37 1,42 10,06 4,04 0,69 8,67 8,27 8,56 2,47 0,59 0,77 10,76 -0,88 0,67 10,84 10,95 2,30 9,19 1,35 1,75 12,48 9,84 ε p = 20 I=0,1M -0,88 9,74 2,40 10,26 4,60 1,75 9,14 8,85 9,06 3,26 1,47 1,75 11,14 0,06 1,67 10,91 10,96 3,04 9,51 2,24 2,59 10,01 8,78 PDB: 2LZT - lisozima Campo de força: AMBER99 T = 298,0 K / εs = 80,0 ε p = 40 I=0,15M I=0,01M I=0,1M I=0,15M -0,72 2,28 2,98 3,09 9,80 9,62 9,95 10,00 2,57 1,47 2,50 2,68 10,29 10,15 10,34 10,37 4,69 4,76 5,30 5,39 1,92 0,93 1,98 2,15 9,22 8,39 8,89 8,96 8,95 8,15 8,74 8,83 9,14 8,96 9,41 9,48 3,39 2,22 3,06 3,20 1,62 1,05 1,93 2,07 1,91 1,13 2,10 2,26 11,22 9,28 9,72 9,79 0,20 0,05 1,01 1,16 1,83 0,81 1,87 2,04 10,90 10,77 10,87 10,88 10,95 10,87 10,91 10,90 3,16 2,11 2,89 3,01 9,56 9,44 9,74 9,78 2,39 1,32 2,26 2,41 2,73 1,69 2,57 2,71 9,77 9,50 7,18 6,88 8,62 5,62 4,92 4,82 I=0,01M 3,64 9,73 1,54 10,18 5,01 1,02 8,30 8,09 9,15 2,07 2,07 1,22 8,82 0,43 0,92 10,71 10,80 2,01 9,53 1,30 1,66 8,87 4,26 ε p = 60 I=0,1M 4,27 10,04 2,55 10,37 5,55 2,06 8,80 8,68 9,56 2,94 2,10 2,21 9,29 1,38 1,98 10,83 10,86 2,82 9,83 2,26 2,55 6,57 3,63 I=0,15M 4,37 10,09 2,73 10,40 5,63 2,23 8,88 8,78 9,63 3,08 2,23 2,37 9,37 1,52 2,15 10,84 10,86 2,94 9,87 2,41 2,70 6,29 3,53 I=0,01M 4,26 9,80 1,61 10,19 5,13 1,07 8,26 8,06 9,26 2,00 1,32 1,32 8,60 0,64 1,00 10,66 10,74 1,96 9,58 1,29 1,65 8,63 3,64 ε p = 80 I=0,1M 4,89 10,10 2,60 10,39 5,66 2,10 8,76 8,65 9,65 2,88 2,19 2,27 9,08 1,58 2,04 10,80 10,82 2,77 9,88 2,25 2,54 6,39 3,01 I=0,15M 4,98 10,14 2,77 10,41 5,74 2,27 8,84 8,74 9,72 3,03 2,33 2,42 9,16 1,72 2,21 10,81 10,82 2,90 9,92 2,41 2,69 6,11 2,92 exp.14 – I=0,1M 7,90 10,80 2,85 10,50 5,36 2,66 10,30 9,80 10,60 6,20 1,60 3,68 12,10 0,90 2,07 10,80 10,30 4,09 10,40 3,20 2,75 – – H++15 εp = 4 I=0,15M 6,77 9,65 3,34 10,44 5,61 1,65 15,72 10,67 11,00 5,12 -0,63 2,10 26,16 -2,22 0,97 11,09 10,82 4,60 9,15 3,32 3,64 15,95 14,06 Tabela 6: Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força AMBER99. 15 Teste experimentais obtidos das referências (6–8). de benchmark realizado pelo serviço H++ (20), disponível em: http://biophysics.cs.vt.edu/H++/H++_accuracy_table.pdf. 103 14 Valores PDB: 4PTI - BPTI Campo de força: GROMOS96 T = 298,0 K / εs = 80,0 Resíduo εp = 4 ε p = 20 ε p = 40 ε p = 60 ε p = 80 exp.16 H++17 – εp = 4 I= 0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,1M I=0,15M N-term 5,44 5,59 5,61 6,82 6,94 6,94 7,05 7,16 7,17 7,14 7,26 7,27 7,19 7,32 7,33 8,10 6,30 Asp-3 2,67 3,25 3,35 2,82 3,34 3,43 2,87 3,37 3,45 2,88 3,37 3,45 2,88 3,36 3,44 3,40 3,45 Glu-7 6,29 6,77 6,86 3,24 3,82 3,92 2,83 3,43 3,54 2,71 3,30 3,41 2,65 3,24 3,35 3,70 5,67 Lys-15 10,06 10,23 10,26 10,36 10,42 10,43 10,40 10,44 10,45 10,42 10,44 10,45 10,43 10,45 10,46 10,60 10,38 Lys-26 10,31 10,31 10,31 10,61 10,49 10,48 10,72 10,57 10,55 10,75 10,60 10,57 10,77 10,61 10,58 10,60 10,42 Lys-41 9,95 10,05 10,06 11,17 11,00 10,96 11,20 11,02 10,99 11,19 11,02 10,98 11,18 11,01 10,98 10,80 10,18 Lys-46 9,85 9,99 10,02 10,19 10,22 10,23 10,29 10,29 10,29 10,34 10,32 10,32 10,37 10,34 10,34 10,60 9,77 Glu-49 3,62 3,95 3,99 3,65 3,99 4,04 3,60 3,96 4,01 3,56 3,93 3,98 3,53 3,91 3,96 3,80 4,16 Asp-50 1,56 2,28 2,41 1,87 2,55 2,67 1,98 2,63 2,74 2,03 2,66 2,77 2,06 2,68 2,79 3,00 2,40 C-term 3,11 3,45 3,49 3,06 3,41 3,46 3,03 3,39 3,44 3,00 3,37 3,43 2,98 3,36 3,41 2,90 3,79 RMSD Exp. 4,25 4,21 4,24 1,97 1,45 1,44 1,89 1,24 1,20 1,86 1,17 1,13 1,85 1,13 1,08 – 3,09 Desvio Max. 2,66 3,07 3,16 1,28 1,17 1,16 1,06 0,94 0,93 0,96 0,84 0,83 0,91 0,78 0,77 – 1,97 Tabela 7: Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. 17 Teste experimentais obtidos das referências (9–12). de benchmark realizado pelo serviço H++ (20), disponível em: http://biophysics.cs.vt.edu/H++/H++_accuracy_table.pdf. 104 16 Valores PDB: 4PTI - BPTI Campo de força: AMBER99 T = 298,0 K / εs = 80,0 Resíduo εp = 4 ε p = 20 ε p = 40 ε p = 60 ε p = 80 exp.18 H++19 – εp = 4 I= 0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,01M I=0,1M I=0,15M I=0,1M I=0,15M N-term -20,00 -20,00 -20,00 -1,68 -1,02 -0,91 2,29 2,76 2,84 4,08 4,39 4,44 4,76 5,08 5,12 8,10 6,30 Asp-3 3,01 3,54 3,62 2,91 3,45 3,53 2,75 3,35 3,44 2,54 3,19 3,29 2,51 3,16 3,26 3,40 3,45 Glu-7 1,85 2,69 2,85 1,79 2,60 2,74 1,76 2,60 2,75 1,76 2,60 2,74 1,79 2,62 2,76 3,70 5,67 Lys-15 10,26 10,40 10,42 10,20 10,36 10,38 10,17 10,33 10,36 10,16 10,32 10,35 10,15 10,31 10,34 10,60 10,38 Lys-26 10,34 10,37 10,36 10,52 10,49 10,48 10,53 10,51 10,50 10,53 10,51 10,50 10,52 10,51 10,50 10,60 10,42 Lys-41 10,11 10,17 10,17 10,73 10,72 10,71 10,78 10,77 10,76 10,79 10,78 10,77 10,79 10,78 10,77 10,80 10,18 Lys-46 9,21 9,58 9,64 9,59 9,87 9,92 9,71 9,95 9,99 9,78 9,99 10,03 9,83 10,03 10,06 10,60 9,77 Glu-49 3,03 3,54 3,62 3,10 3,64 3,72 3,07 3,62 3,70 3,00 3,58 3,67 2,97 3,56 3,65 3,80 4,16 Asp-50 0,14 1,04 1,22 1,14 1,98 2,14 1,27 2,13 2,28 1,35 2,19 2,34 1,41 2,24 2,39 3,00 2,40 C-term 3,37 3,71 3,75 3,31 3,68 3,73 3,20 3,60 3,66 2,93 3,42 3,49 2,88 3,38 3,46 2,90 3,79 RMSD Exp. 28,37 28,23 28,21 10,24 9,31 9,17 6,53 5,61 5,49 4,99 4,05 3,94 4,43 3,42 3,30 – 3,09 Desvio Max. 28,01 28,01 28,01 9,78 9,12 9,01 5,81 5,34 5,26 4,02 3,71 3,66 3,34 3,02 2,98 – 1,97 Tabela 8: Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força AMBER99. 19 Teste experimentais obtidos das referências (9–12). de benchmark realizado pelo serviço H++ (20), disponível em: http://biophysics.cs.vt.edu/H++/H++_accuracy_table.pdf. 105 18 Valores 106 As Tabelas 9 e 10 exibem, respectivamente, a comparação dos pKa ’s preditos, dos resíduos lisina (LYS), presentes na calbindina (PBD: 3ICB), pelo PROMETHEUS e pela referência (187), ambos baseados em soluções numéricas da EPBL e a comparação dos pKa ’s dos resíduos ácido glutâmico (GLU), presentes na mesma proteína, preditos pelo PROMETHEUS e pela referência (188), este último utilizando simulação pelo método Monte Carlo. Nestes exemplos, adotamos o campo de força GROMOS96. A temperatura, concentração de sal e a constante dielétrica do solvente foram mantidas constantes, e estão indicadas em cada tabela. A proteína foi modelada por constantes dielétricas baixa (ε p = 4) e alta (ε p = 77,8 ou 78,5) de acordo com cada tabela, na qual o dielétrico maior possui valor igual à constante dielétrica do solvente. Na Tabela 9 calculamos o RMSD e o desvio máximo das predições teóricas em relação às medidas experimentais, indicados respectivamente por: RMSD Exp. e Desvio Max. Exp. Na Tabela 10, além destas duas informações, há também uma análise do RMSD dos pKa ’s preditos pelo PROMETHEUS (PB) e pela referência (188) (MC), indicado por RMSD MC. Podemos observar nos dados apresentados nestas duas tabelas, boas concordâncias entre as predições dos pKa ’s, efetuadas pelo PROMETHEUS, e os valores medidos experimentalmente. Além disso, a maioria das previsões do PROMETHEUS, mostraram–se mais precisas em relação a outros métodos teóricos utilizados para comparação dos resultados. Tal fato demonstra a eficácia do método (PB) e do campo de força (GROMOS96) utilizados nestas condições. PDB: 3ICB - calbindina Campo de força: GROMOS96 I = 0,1M / T = 298,0 K / εs = 78,5 Resíduo εp = 4 – ε p = 20 Juffer (PB)20 PROMETHEUS (PB) ε p = 78,5 Juffer (PB)20 PROMETHEUS (PB) – Juffer (PB)20 Experimental20 – PROMETHEUS (PB) Nterm 6,34 4,10 7,43 6,80 7,82 7,40 7,20 Lys1 10,70 11,20 11,53 11,20 11,76 11,10 10,60 Lys7 10,88 11,00 11,71 11,00 11,86 11,20 11,40 Lys12 10,45 14,50 11,63 13,20 12,20 12,10 10,00 Lys16 10,64 17,10 11,35 13,20 11,73 12,00 10,10 Lys25 13,00 16,60 12,59 12,90 12,38 12,10 11,80 Lys29 10,77 11,30 11,15 11,70 11,45 11,20 11,00 Lys41 10,37 10,90 10,55 12,40 10,73 10,70 10,90 Lys55 6,25 11,90 12,39 11,10 12,66 11,10 11,40 Lys71 9,94 10,80 10,37 10,60 10,71 10,90 10,70 Lys72 9,99 20,00 11,21 14,10 11,55 12,30 11,00 RMSD Exp. 5,61 13,56 2,67 5,85 3,45 3,22 – Desvio Max. Exp. 5,16 9,00 1,63 3,20 1,63 2,10 – Tabela 9: Comparação dos valores de pKa ’s dos resíduos lisina presentes na proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. A força iônica, a temperatura e a constante dielétrica do solvente foram fixadas em 0,1M, 298,0K e 78,5, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. experimentais obtidos da referência (187) em força iônica igual a 0,1M . 107 20 Valores 108 PDB: 3ICB - calbindina Campo de força: GROMOS96 I = 1M / T = 298,0 K / εs = 77,8 – PROMETHEUS (PB) – Kesvatera (MC)21 Experimental21 Resíduo εp = 4 ε p = 20 ε p = 77,8 – – Glu4 4,33 4,22 4,18 4,20 3,77 Glu5 3,81 3,78 3,70 3,70 3,40 Glu11 5,56 4,78 4,49 4,10 4,74 Glu17 3,42 3,98 4,26 4,90 3,62 Glu26 4,50 4,24 4,21 3,90 4,08 Asp47 2,49 2,93 3,10 2,50 3,04 Glu48 4,81 4,54 4,38 4,20 4,62 Glu64 4,03 4,03 4,10 3,90 3,84 RMSD Exp. 1,32 0,75 0,93 1,68 – Desvio Max. Exp. 0,82 0,45 0,64 0,64 – RMSD MC. 2,26 1,33 1,04 – – Tabela 10: Comparação dos valores de pKa ’s dos resíduos ácido glutâmico presentes na proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. A força iônica, a temperatura e a constante dielétrica do solvente foram fixadas em 1M, 298,0K e 77,8, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. A Tabela 11 exibe a comparação dos pKa ’s teóricos obtidos pelo PROMETHEUS e pelo serviço web PCE (utilizando o campo de força PARSE) e os medidos experimentalmente. Neste exemplo, fixamos a constante dielétrica do solvente e a temperatura em 80 e 298,0 K, respectivamente. Variamos a concentração de sal e a constante dielétrica da proteína. Os campos RMSD Exp., RMSD PCE, Desvio Max. Exp. e Desvio Max. PCE, exibem respectivamente, o RMSD dos dados teóricos em relação às medidas experimentais, o RMSD entre os pKa ’s preditos pelo PROMETHEUS em relação aos pKa ’s preditos pelo PCE, o desvio máximo dos pKa ’s teóricos em relação aos medidos experimentalmente e o desvio máximo dos pKa ’s preditos pelo PROMETHEUS em relação aos pKa ’s preditos pelo PCE. 21 Valores experimentais obtidos da referência (188) em força iônica igual a 1M. PDB: 3RN3 - ribonuclease A Campo de força: GROMOS96 T = 298,0 K / εs = 80,0 Resíduo – εp = 4 I = 0,01M I = 0,1M – ε p = 20 ε p = 40 Experimental22 PARSE - PCE23 I = 0,2M I = 0,01M I = 0,1M I = 0,2M I = 0,01M I = 0,1M I = 0,2M I = 0,2M εp = 4 N-terminal 5,82 6,07 6,14 6,55 6,78 6,84 6,64 6,86 6,93 7,60 6,00 His-12 -2,20 -1,14 -0,75 4,76 5,12 5,24 5,55 5,83 5,91 6,50 3,00 His-48 0,14 0,66 0,77 7,22 7,26 7,25 7,16 7,23 7,23 6,30 0,00 His-105 8,32 8,33 8,32 7,22 7,26 7,26 7,06 7,11 7,11 6,60 6,00 His-119 2,52 3,22 3,46 5,70 5,99 6,08 6,08 6,32 6,39 6,85 7,70 Glu-2 1,15 2,17 2,51 1,12 2,14 2,48 1,27 2,24 2,54 2,80 0,60 Glu-9 4,17 4,62 4,74 3,30 3,82 3,96 3,20 3,72 3,87 4,00 4,70 Glu-49 6,59 6,59 6,51 4,58 4,80 4,81 4,16 4,46 4,51 4,70 5,70 Glu-86 4,53 5,08 5,24 3,18 3,85 4,04 2,95 3,60 3,79 4,10 3,00 Glu-111 3,23 3,85 4,03 2,86 3,50 3,69 2,97 3,56 3,73 3,50 3,80 Asp-14 9,69 9,75 9,77 2,41 3,05 3,23 2,12 2,78 2,96 2,00 3,30 Asp-38 1,93 2,86 3,15 1,81 2,72 2,99 1,89 2,76 3,01 3,10 2,90 Asp-53 4,22 4,43 4,45 3,59 3,88 3,94 3,44 3,78 3,84 3,90 4,00 Asp-83 3,60 4,36 4,63 1,07 2,03 2,34 1,14 2,04 2,32 3,50 4,70 Asp-121 -3,43 -2,17 -1,76 -0,30 0,73 1,05 0,44 1,36 1,64 3,10 1,50 C-terminal 0,21 1,00 1,24 1,10 1,83 2,05 1,32 2,04 2,25 2,40 1,70 RMSD Exp. 15,91 14,32 13,86 5,69 3,82 3,38 4,88 3,02 2,62 – 8,33 RMSD PCE 11,53 10,32 10,02 9,19 8,66 8,62 9,19 8,79 8,33 – – Desvio Max. Exp. 7,69 7,75 7,77 3,40 2,37 2,05 2,66 1,74 1,46 – 6,30 Desvio. Max. PCE 6,39 6,45 6,47 7,22 7,26 7,25 7,16 7,23 7,23 – – Tabela 11: Comparação dos valores de pKa ’s dos resíduos presentes na proteína ribonuclease A (PDB: 3RN3), em várias concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A penúltima coluna apresenta os pKa ’s medidos experimentalmente e a última, os pKa ’s preditos pelo serviço web PCE. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0K e 80, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. 23 Dados experimentais obtidos da referência (189) em força iônica igual a 0,2M. obtidos da referência (79) em força iônica igual a 0,1M. 109 22 Dados 110 A boa concordância com os dados experimentais confere suporte para todas as análises posteriores24 . Uma vez que não há na literatura um critério bem definido sobre qual o valor adequado para a constante dielétrica do interior da proteína e o campo de força ideal para estas contas efetuamos estas análises também, visando propor um critério de escolha para a definição desdes parâmetros. Iniciamos as análises avaliando a constante dielética da proteína, exibida no próximo tópico. A dependência do campo de força é apresentado no Tópico 7.1.2.2 – Dependência do campo de força. 7.1.2.1 Dependência da constante dielétrica da proteína Visando demostrar o efeito da constante dielétrica da proteína, comparamos os pKa ’s medidos experimentalmente e os preditos pelo PROMETHEUS e pelo H++ em função da constante dielétrica da proteína. As Tabelas 12 e 13 exibem, respectivamente, a comparação dos pKa ’s da lisozima (2LZT) e BPTI (4PTI) em função da constante dielétrica da proteína. As predições foram realizadas utilizando o campo de força AMBER99, pois este é o único campo de força suportado pelo H++. A Tabela 12 exibe a comparação entre os valores teóricos de pKa ’s, calculados pelo PROMETHEUS e H++ e os medidos experimentalmente, para a lisozima (PDB: 2LZT). A temperatura, constante dielétrica do solvente e concentração de sal na solução foram fixadas, respectivamente, em: 298,0 K, 80 e 0,1M. Variamos a constante dielétrica da proteína de 4 a 80. Os campos RMSD e Desvio Max., exibem, respectivamente, o RMSD e o desvio máximo dos pKa ’s teóricos em relação aos experimentais. A Tabela 13 exibe as mesmas análises realizadas nas mesmas condições experimentais definidas na Tabela 12, para a BPTI (PDB: 4PTI). Analisando os dados exibidos pela Tabela 12 verificamos que, para os valores de pKa ’s preditos pelo PROMETHEUS, a precisão dos resultados aumenta conforme a constante dielétrica da proteína aumenta, enquanto que, os valores de pKa ’s preditos pelo H++ apresentam os melhores resultados quando a constante dielétrica do proteína é definida em 20. Após a adição dos átomos de hidrogênio na estrutura da proteína, o H++ faz uma otimização na estrutura protéica antes de calcular os pKa ’s. Esta otimização de estrutura ocasiona a criação do arquivo no formato PQR, pelo H++, diferente daquele criado pelo PROMETHEUS, uma vez que neste não é realizada nenhuma otimização na estrutura da proteína após a adição dos átomos de hidrogênio. Visto que a conformação da proteína é diferente, os resultados dos valores de pKa ’s dos 24 Além das análises realizadas pelo portal PROMETHEUS, os valores de pK ’s também podem ser utilizados a em outros estudos, como por exemplo, folding de proteínas, mudanças conformacionais da proteínas devido alguma modificação no sistema (mudança de pH, temperatura, força iônica e outros), docking, etc. 111 aminoácidos ionizáveis é afetado. Tais resultados confirmam que a constante dielétrica é um parâmetro (190). Resíduo Nter1 Lys1 Glu7 Lys13 His15 Asp18 Tyr20 Tyr23 Lys33 Glu35 Asp48 Asp52 Tyr53 Asp66 Asp87 Lys96 Lys97 Asp101 Lys116 Asp119 Cter129 RMSD Desvio Max. PDB: 2LZT - lisozima Campo de força: AMBER99 T = 298,0 K / εs = 80,0 / I = 0,1M εp = 4 ε p = 20 ε p = 40 ε p = 60 ε p = 80 PROMETHEUS H++∗ PROMETHEUS H++∗ PROMETHEUS H++∗ PROMETHEUS H++∗ PROMETHEUS -20,00 6,83 -0,88 7,11 2,98 7,18 4,27 7,22 4,89 8,77 9,64 9,74 10,14 9,95 10,30 10,04 10,38 10,10 1,69 3,21 2,40 3,11 2,50 3,14 2,55 3,18 2,60 9,79 10,44 10,26 10,68 10,34 10,73 10,37 10,74 10,39 -1,86 5,52 4,60 5,96 5,30 6,11 5,55 6,27 5,66 0,22 1,44 1,75 2,41 1,98 2,60 2,06 2,68 2,10 13,45 16,72 9,14 10,33 8,89 9,57 8,80 9,36 8,76 9,48 10,62 8,85 9,48 8,74 9,32 8,68 9,18 8,65 7,04 10,98 9,06 10,54 9,41 10,53 9,56 10,54 9,65 3,35 4,98 3,26 4,09 3,06 3,81 2,94 3,69 2,88 -1,81 -0,74 1,47 1,92 1,93 2,37 2,10 2,55 2,19 -0,83 1,94 1,75 3,03 2,10 3,18 2,21 3,19 2,27 25,37 26,37 11,14 12,10 9,72 10,33 9,29 9,86 9,08 -6,60 -2,06 0,06 1,50 1,01 2,05 1,38 2,25 1,58 0,48 0,98 1,67 2,04 1,87 2,25 1,98 2,36 2,04 9,79 11,25 10,91 11,48 10,87 11,44 10,83 11,40 10,80 10,72 10,89 10,96 11,08 10,91 11,13 10,86 11,13 10,82 3,98 4,48 3,04 3,44 2,89 3,28 2,82 3,22 2,77 7,98 9,10 9,51 10,08 9,74 10,23 9,83 10,29 9,88 2,08 3,33 2,24 2,75 2,26 2,69 2,26 2,67 2,25 2,52 3,55 2,59 3,30 2,57 3,22 2,55 3,19 2,54 33,89 16,51 10,10 3,02 7,18 3,94 6,57 4,43 6,39 27,90 14,27 8,78 2,11 4,92 2,39 3,63 5,51 3,01 ∗ Valores de pK ’s obtidos a partir do serviço H++, diponível em: http://biophysics.cs.vt.edu/H++/index.php a H++∗ 7,24 10,44 3,20 10,75 6,33 2,72 9,25 9,13 10,57 3,61 2,65 3,18 9,63 2,37 2,44 11,37 11,11 3,19 10,32 2,66 3,17 4,69 2,59 Experimental25 I = 0,1M 7,90 10,80 2,85 10,50 5,36 2,66 10,30 9,80 10,60 6,20 1,60 3,68 12,10 0,90 2,07 10,80 10,30 4,09 10,40 3,20 2,75 - Tabela 12: Comparação dos valores de pKa ’s da proteína lisozima obtidos pelo serviço H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99. experimentais obtidos das referências (6–8). 112 25 Valores PDB: 4PTI - BPTI Campo de força: AMBER99 T = 298,0 K / εs = 80,0 / I = 0,1M Resíduo εp = 4 ε p = 20 ε p = 40 ε p = 60 Experimental26 ε p = 80 PROMETHEUS H++∗ PROMETHEUS H++∗ PROMETHEUS H++∗ PROMETHEUS H++∗ PROMETHEUS H++∗ I = 0,1M Nter1 -20,00 6,28 -1,02 7,05 2,76 7,20 4,08 7,27 5,08 7,31 8,10 Asp3 3,54 3,38 3,45 3,42 3,35 3,42 2,54 3,41 3,16 3,39 3,40 Glu7 2,69 5,60 2,60 3,60 2,60 3,34 1,76 3,26 2,62 3,22 3,70 Lys15 10,40 10,39 10,36 10,51 10,33 10,5 10,16 10,49 10,31 10,49 10,60 Lys26 10,37 10,43 10,49 10,55 10,51 10,6 10,53 10,62 10,51 10,63 10,60 Lys41 10,17 10,18 10,72 10,98 10,77 10,99 10,79 10,98 10,78 10,97 10,80 Lys46 9,58 9,75 9,87 10,19 9,95 10,27 9,78 10,31 10,03 10,34 10,60 Glu49 3,54 4,08 3,64 3,96 3,62 3,91 3,00 3,88 3,56 3,85 3,80 Asp50 1,04 2,19 1,98 2,47 2,13 2,55 1,35 2,59 2,24 2,61 3,00 Cter58 3,71 3,72 3,68 3,66 3,6 3,63 2,93 3,62 3,38 3,61 2,90 RMSD Exp. 28,23 3,08 9,31 1,49 5,61 1,36 4,05 1,31 3,42 1,28 - Desvio Max. 28,01 1,82 9,12 1,05 5,34 0,73 3,71 0,72 3,02 0,71 - ∗ Valores de pKa ’s obtidos a partir do serviço H++, diponível em: http://biophysics.cs.vt.edu/H++/index.php Tabela 13: Comparação dos valores de pKa ’s da proteína BPTI obtidos pelo serviço H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99. experimentais obtidos das referências (9–12). 113 26 Valores 114 Figura 64: RMSD dos pKa ’s da lisozima (PDB: 2LZT) em função de diferentes valores de EPSIN para o campo de força AMBER99. A concentração de sal foi variada de 0,01M a 0,15 M. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8) foram usados para o cálculo do RMSD. Na Tabela 13 é possível verificar que, os valores dos pKa’s preditos, tanto pelo PROMETHEUS quanto pelo H++, ficam mais precisos conforme a constante dielétrica da proteína aumenta. Uma vez que as proteínas apresentam propriedades eletrostáticas, flexibilidade, forma, etc., bastante diversifica umas das outras, a constante dielétrica da proteína é um parâmentro que deve ser ajustado em função de cada proteína, de forma que possa reproduzir da melhor maneira possível, o comportamento destas em solução. As Figuras 64 e 65 ilustram o RMSD em função da constante dielétrica das proteínas lisozima (2LZT) e BPTI (PDB: 4PTI), onde é possível observar o comportamento diferente das curvas, conforme demonstrado nas Tabelas 12 e 13. 115 Figura 65: RMSD dos pKa ’s da BPTI (PDB: 4PTI) em função de diferentes valores de EPSIN para o campo de força GROMOS96. A concentração de sal foi variada de 0,01M a 0,15 M. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12) foram usados para o cálculo do RMSD. 7.1.2.2 Dependência do campo de força Conforme dito na Seção 4.7 – Campos de força, campos de força são equações ma- temáticas que descrevem o comportamento efetivo de um sistema. Cada campo de força foi parametrizado de uma maneira própria, o que resulta em modelos distintos. Como os resultados são modelos dependentes, comparamos os RMSD’s obtidos para o cálculo dos pKa ’s dos aminoácidos ionizáveis, utilizando os campos de força GROMOS96 e AMBER99, em relação aos pKa ’s medidos experimentalmente, para as proteínas lisozima (PDB: 2LZT) e BPTI (PDB: 4PTI), ilustrados nas Figuras 66 e 67, respectivamente. Note que, a utilização do campo de força GROMOS96, independente da constante dielétrica da proteína, apresenta os melhores resultados (na comparação com dados experimentais) em relação ao campo de força AMBER99. Dependendo do valor de ε p , esta diferença pode ser de até 30 unidades de pKa ’s. Após a validação das predições dos pKa ’s dos aminoácidos ionizáveis, apresentamos as predições das propriedades eletrostáticas titulação e capacitância das proteínas. A validação dos pKa ’s dos aminoácidos é necessária pois utilizaremos esses valores como entrada para o cálculo das propridades eletrostáticas das proteínas. Sabe-se que grupos ionizáveis alteram os valores das constantes de equilíbrio termodinâmica entre aminoácidos próximos (visinhos) e também entre aminoácidos mais distantes. 116 Figura 66: RMSD dos pKa ’s da lisozima (PDB: 2LZT) em força iônica igual a 0,1M em função de diferentes valores de EPSIN para os campos de força GROMOS96 e AMBER99. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8) foram usados para o cálculo do RMSD. Figura 67: RMSD dos pKa ’s da BPTI (PDB: 4PTI) em força iônica igual a 0,1M em função de diferentes valores de EPSIN para os campos de força GROMOS96 e AMBER99. A temperatura e a constante dielétrica do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12) foram usados para o cálculo do RMSD. 117 Neste nível (Poisson-Boltzmann), este efeito é levado em consideração a fim de tornar os resultados mais precisos, ao contrário do nível de predição analítico, onde as interações entre os aminoácidos que constituem a proteína, são desprezadas e, qualquer que seja a posição do aminoácido na estrutura da proteína, este terá sempre o mesmo valor de pKa , de acordo com a tabela de valores de pKa ’s escolhida . A mudança dos valores dos pKa ’s dos aminoácidos ionizáveis presentes na estrutura da proteína está relacionada, entre outros fatores, com as interações de Coulomb. Interações de Coulomb são interações de longo alcance, dessa forma grupos de aminoácidos ionizáveis afetam a distribuição de carga na proteína toda. Esta interação desloca os valores de pKa de cada aminoácido ionizável em várias unidades de pH. Aminoácidos que estão próximos na seqüência primária da proteína podem não estar próximos no arranjo tridimensional da proteína, implicando dessa forma em alterações nos valores de pKa (devido a presença de grupos visinhos ionizáveis) em relação às suas respectivas posições na estrutura da proteína. As Figuras 68 e 69 exibem, respectivamente, a comparação entre a titulação ideal (analítica) e a baseada na estrutura 3D da proteína utilizando PB e MC e a comparação entre a capacitância ideal (analítica) e a baseada na estrutura 3D da proteína, utilizando PB e MC, para a calbindina (PDB: 3ICB). Note que, a utilização da estrutura terciária da proteína proporcionou uma melhora dos resultados, uma vez que o comportamento das curvas de titulação e capacitância, utilizando PB aproxima–se mais da curva de titulação utilizando MC, o qual é considerado um método mais preciso (e mais caro computacionalmente), do que a curva analítica. A Figura 70 mostra a comparação entre a curva de titulação medida experimentalmente27 e as teóricas, utilizando o método analítico e PB, empregando os campos de força GROMOS96 e AMBER99. Fixamos a constante dielétrica da proteína e do solvente em 40 e 80, respectivamente, a temperatura em 298,0 K e a concentração de sal em 0,1M. Neste exemplo, as curvas de titulação analítica e utilizando a estrutura 3D da proteína (com campo de força GROMOS96) apresentam boas concordâncias com as medidas experimentais. A partir do pH 8, a precisão da curva melhora com a utilização da estrutura tridimensional da proteína. A Tabela 14 exibe uma comparação dos pontos isoelétricos teóricos preditos utilizando a seqüência primária das proteínas, a estrutura tridimensional e os medidos experimentalmente. A utilização da estrutura 3D da proteína, para o cálculo dos pI’s teóricos, através da predição dos valores de pKa ’s, proporcionou uma relativa melhora (melhor concordância com os dados experimentais) em relação aos cálculos analíticos, nos quais os valores de pKa ’s são obtidos de 27 Medidas experimentais obtidas da referência (15). 118 Figura 68: Comparação entre a titulação ideal e a titulação baseada na estrutura 3D (PB e MC), para a cabindina (PDB: 3ICB). pI experimental: 4,5 (13). Os dados de MC foram retirados da referência (14). Figura 69: Comparação entre a capacitância ideal e a capacitância baseada na estrutura 3D (PB e MC) em função do pH, para a cabindina (PDB: 3ICB). Os dados de MC foram retirados da referência (14). 119 Figura 70: Comparação das curvas de titulação medidas experimentalmente e predições teóricas, utilizando os modelos analíticos e PB, empregando os campos de força GROMOS96 e AMBER99, para a lisozima (PDB: 2LZT). A força iônica foi fixada em 0,1M. Os dados experimentais foram obtidos da referência (15). uma tabela de referência. O campo RMSD exibe o RMSD do método utilizado em relação às medidas experimentais. O próximo tópico demonstra o efeito da blindagem eletrostática provocada pela concentração de sal presente na solução. 120 Propriedades de proteínas isoladas Proteína pI (ideal)28 pI (PB)29 pI experimental Lisozima (2LZT) 10,6 11,2 11,1 [Ref. (15)] Calbindina (3ICB) 4,5 4,4 4,5 [Ref. (13)] BPTI (4PTI) 10,0 10,3 10,6 [Ref. (170)] Ribonuclease A (3RN3) 9,4 10,0 9,6 [Ref. (170)] RMSD 0,81 0,45 – Tabela 14: Comparação entre os pontos isoelétricos experimentais e os providos pelo PROMETHEUS no nível de predição analítico e Poisson-Boltzmann. 7.1.2.3 O efeito da força iônica A maioria dos estudos com proteínas, como por exemplo, determinação da sua estru- tura tridimensional, interação proteína–proteína, processos de separação de proteínas, simulações computacionais, etc., é realizada com a presença de sal na solução. Visando avaliar o efeito que a força iônica exerce sobre estas interações, efetuamos o cálculo das curvas de titulação das proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB), em várias concentrações de sal, exibidas pelas Figuras 71 e 72. Conforme aumenta a concentração de sal na solução, as curvas de titulação obtidas a partir da estrutura da proteína aproximam–se da curva de titulação calculada analiticamente, utilizando somente a seqüência primária da mesma. Este comportamento é observado pois, o sal blinda as interações eletrostáticas que ocorrem entre os aminoácidos que constituem a proteína. Assim, com as interações cada vez mais fracas, os aminoácidos exibem um comportamento semelhante como se estivessem em seqúência primária, na qual não há interações entre os mesmos. Após a validação das propriedades eletrostáticas das proteínas isoladas, do efeito dos principais parâmetros nos valores de pKa ’s dos aminoácidos ionizáveis, apresentamos na próxima seção, o estudo sobre as interações proteína–proteína, avaliando os aspectos físicoquímicos do meio e o mecanismo de regulação de cargas. 28 Dados obtidos da Tabela 4 para efeito de comparação. utilizados para o cálculos dos pKa ’s do aminoácidos ionizáveis utilizando Poisson-Boltzmann: ε p 29 Parâmetros = 40; εs = 80; concentração de sal: 0,01M; temperatura: 298K; campo de força: GROMOS96. 121 Figura 71: Curva de titulação da proteína lisozima (PDB: 2LZT), em várias concentrações de sal. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. Campo de força: GROMOS96. Figura 72: Curva de titulação da proteína calbindina (PDB: 3ICB), em várias concentrações de sal. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. Campo de força: GROMOS96. 122 7.2 Interação proteína–proteína O estudo do fenômeno da complexação protéica foi efetuado com base na análise da variação da energia livre eletrostática - ∆Gele e do segundo coeficiente cruzado de virial - B23 . Quando ∆Gele é menor que zero, o processo é expontâneo, indicando assim que a reação é favorável à formação de complexos protéicos. Por outro lado, valores positivos para ∆Gele não favorecem a formação de complexos protéicos e, quando ∆Gele = 0, o sistema está em equilíbrio. O ∆Gele é uma medida que depende das condições físico-químicas do meio e das propriedades das proteínas, as quais destacamos a valência e capacitância. A importância da capacitância está demonstrada na Subseção - 7.2.1. O B23 é um critério termodinâmico utilizado para quantificar as interações que ocorrem entre duas moléculas (151), assim, quando B23 é negativo há atração entre as proteínas, se positivo, repulsão. As Figuras 73 e 74 exibem, respectivamente, o ∆Gele (em kB T ) em função da distância de separação r (em Ångström) e o B23 (em mol.ml/g2 ) em função do pH, do complexo hirundina–trombina (PDB: 4HTC). Nestes exemplos, comparamos o efeito da incorporação do mecanismo de regulação de cargas na predição do complexo protéico. O pH foi fixado em 8,0 e força iônica igual a 0,01M. ∆Gele (Figura 73) apresenta valores negativos, os quais indicam que o processo é favorável à formação do complexo protéico. Note que, a incorporação do mecanismo de regulação Figura 73: Comparação do ∆Gele do complexo hirundina–trombina (PDB: 4HTC), com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. 123 Figura 74: Comparação do B23 , do complexo hirundina–trombina (PDB: 4HTC), com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. de cargas, aumenta a atração entre as proteínas. O mesmo comportamento pode ser observado no B23 (Figura 74), o qual apresenta valores negativos entre os pH’s 4,5 e 7,5, indicando assim atração entre as proteínas nesta faixa de pH, também conhecida como janela de complexação ou cristalização. Para efetuar estas análises procedemos da seguinte forma: 1. O complexo hirundina–trombina é representado no arquivo no formato PDB por 3 cadeias - L, H e I, onde as cadeias L e H representam a subunidade pequena e grande do polipeptídeo trombina e a cadeia I representa a hirundina. Utilizando a ferramenta split protein, apresentada na Subseção 6.1.5 – Ferramentas auxiliares desenvolvidas, separamos o complexo 4HTC em dois arquivos distintos, no formato PDB. Um arquivo contendo as informações a respeito das estruturas L e H e outro da estrutura I. 2. Em seguida efetuamos a predição das propriedades eletrostáticas das duas moléculas isoladas representadas pelos arquivos PDB gerados. As Figuras 75 e 76 exibem a curva de titulação e capacitância para cada subunidade deste complexo. Neste exemplo, os cálculos foram realizados no nível de predição analítico, para o qual foi utilizado a tabela com valores de pKa ’s de Nozaki and Tanford (2) para obtenção dos valores dos pKa ’s. Note que, na Figura 75, entre os pH’s 4,5 e 8,5 as proteínas possuem cargas com sinais opostos, indicando assim atração entre as mesmas, o que possibilita a formação do complexo protéico nestas condições físico-químicas. A atração é intensificada pela incorporação do mecanismo de regulação de cargas, cuja capacitância é apresentada na Figura 76. 124 Figura 75: Curva de titulação do complexo hirundina–trombina (PDB: 4HTC), separado em duas proteína, em força iônica nula. Figura 76: Curva da capacitância em função do pH, do complexo hirundina–trombina (PDB: 4HTC), separado em duas proteína, em força iônica nula. 125 Figura 77: Curvas de titulação de cada proteína que forma o complexo protético tripsina–inibidor (PDB: 2PTC). O próximo exemplo ilustra a predição da titulação e capacitância, do complexo protéico tripsina–inibidor (PDB: 2PTC), o qual é dado por duas cadeias: E (tripsina) e I (inibidor de tripsina). Assim como no exemplo anterior, utilizando a ferramenta “split protein", separamos cada cadeia presente no arquivo PDB, criando dois novos arquivos no formato PDB, um contendo somente a estrutura referente à cadeia E e outro com a estrutura da cadeia I. As Figuras 77 e 78 exibem a titulação e a capacitância de cada cadeia individualmente. Observe na Figura 77 que, entre os pH’s 9,3 e 10,2 as proteínas possuem cargas com sinais opostos, indicando assim atração eletrostática entre as proteínas nesta faixa de pH. Em relação à capacitância, esta possui a maior intensidade no pH 10, o que aumenta a força de atração entre as proteínas neste pH. Após o cálculo das propriedades eletrostáticas, efetuamos a análise da variação da energia livre eletrostática do complexo tripsina–inibidor. A Figura 79 exibe a variação da energia livre eletrostática, a qual apresenta valores negativos, que diminuem em intensidade conforme as proteínas são afastadas uma da outra. Tal comportamento (∆Gele < 0) indica que o processo é espontâneo e, portanto a complexação é favorável. Neste exemplo incorporamos o mecanismo de regulação de cargas, fixamos o pH em 10 e força iônica nula. Analisando o B23 , do complexo 2PTC, verificamos que este possui valores negativos entre os pH’s 9,3 e 10,1, ou seja, neste intervalo de pH ocorre a formação de complexos entre as proteínas informadas ao sistema. A literatura nos mostra que a formação do complexo 2PTC ocorre no pH 10,0 (16, 17). Apesar de simplificados, os cálculos realizados no nível de predição ideal (analítico) são capazes de prever se haverá ou não a formação de um complexo 126 Figura 78: Curvas da capacitância de cada proteína que forma o complexo protético tripsina–inibidor (PDB: 2PTC). Figura 79: ∆Gele formando o complexo protéico tripsina–inibidor (PDB: 2PTC). O pH foi fixado em 10 e força iônica nula. 127 Figura 80: B23 formando o complexo protéico tripsina–inibidor (PDB: 2PTC). pH experimental:10 (16, 17). protéico, inclusive informando ao usuário, em quais condições (pH, força iônica do meio, etc.) a complexação é mais favorável. O próximo exemplo ilustra a formação de um complexo anticorpo (lisozima) – antígeno (HyHEL-10 Fab), código PDB: 3HFM. As Figuras 81 e 82 ilustram, respectivamente, o ∆Gele e o B23 . Nestes dois cálculos efetuamos a comparação dos resultados com e sem o mecanismo de regulação de cargas. O pH escolhido para a realização desde cálculo foi 10,6, ponto isoelétrico da proteína lisozima determinado neste nível de predição (analítico) e força iônica igual a 0,01M. Observamos, na Figura 81, que a incorporação do mecanismo de regulação de cargas, aumenta (em intensidade) a energia de atração entre as proteínas particularmente próximo ao pI. Pelo fato de uma das proteínas presentes no complexo possuir carga muito pequena neste pH (10,6)30 , ∆Gele aproxima–se de zero. Com o mecanismo de regulação de cargas, ∆Gele , é levemente intensificada, proporcionando a formação do complexo protéico. Considerando apenas a variação da energia livre eletrostática e as condições físico–químicas apresentadas, a carga das proteínas deixa de ser o único fator para a complexação, uma vez que a energia de interação entre elas é muito pequena, e a capacitância das proteínas passa a contribuir mais significativamente para a formação do complexo protéico. Na Figura 82, valores negativos do B23 , indicam atração entre as proteínas. Note que, a incorporação do mecanismo de regulação de cargas aumenta um pouco a atração das proteínas. A janela de complexação é expandida de 7,2-10,3 para 7,2-10,5. 30 Ponto isoelétrico da proteína lisozima (PDB: 2LZT) determinado neste nível de predição (analítico). 128 Figura 81: Comparação do ∆Gele do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM), com e sem o mecanismo de regulação de cargas. O pH e a força iônica foram fixados 10,6 e 0,01M, respectivamente. Figura 82: Comparação do B23 , do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM), com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. 129 Figura 83: B23 do complexo tripsina–inibidor (PDB: 2PTC), com o mecanismo de regulação de cargas, em vários regimes de força iônica. Visando demonstrar o efeito da força iônica na predição na predição de complexos protéicos, através das análises do ∆Gele e B23 , ilustramos na Figura 83 o cálculo do B23 , do complexo tripsina–inibidor (PDB: 2PTC), em vários regimes de força iônica. Conforme aumenta a concentração de sal, B23 aproxima-se de zero, como esperado. Íons de sal dissociados em solução reduzem a energia de interação entre as proteínas. Quanto maior a concentração de sal presente na solução maior o efeito da blindagem eletrostática. As interações eletrostáticas que ocorrem entre os aminoácidos que compõem a proteína também são afetadas pela força iônica. A blindagem eletrostática produzida pela força iônica leva a uma diminuição da energia livre eletrostática e, conseqüêntemente do B23 , uma vez que este é uma função de ∆Gele . O próximo exemplo ilustra a formação de um complexo constituído por duas proteínas lisozima (PDB: 2LZT). A Figura 84 exibe a variação da energia livre eletrostática com e sem o mecanismo de regulação de cargas, no nível de predição analítico em força iônica nula e 0,01M. Fixamos o pH em 10,6, próximo ao pI da proteína, quando utilizando este nível de predição. Devido o aumento da força iônica no meio, o efeito da blindagem eletrostática por meio da dissociação de íons na solução, diminui a intensidade das interações eletrostáticas que ocorrem entre as proteínas que formam o complexo. Por outro lado, a incorporação do mecanismo de regulação de cargas proporcionou um aumento na atração entre as proteínas, uma vez que, ∆Gele < 0. A Figura 85 mostra a comparação do ∆Gele para a formação de um complexo protéico constituido por duas lisozimas (PDB: 2LZT), nos níveis de predição analítico e PB. Neste exemplo, fixamos a concentração de sal em 0,01M, a temperatura em 298K e o pH em 10,6 130 Figura 84: ∆Gele do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação de cargas, em força iônica nula e 0,01M. O pH, a temperatura e a constante dielétrica do solvente foram fixados em 10,6, 298,15 K e 78,5, respectivamente. para os cálculos analíticos e 11,2 para os cálculos utilizando as estruturas 3D das proteínas31 . A constante dielétrica das proteínas e do solvente foi parametrizada em 40 e 80, respectivamente. Utilizamos o campo de força GROMOS96 para calcular os pKa ’s dos aminoácidos ionizáveis em função de sua posição na estrutura da proteína. É importante salientar que, como as proteínas são iguais, estas possuem a mesma carga em função do pH. Sendo assim, considerando somente as interações Coulombianas as proteínas sempre irão apresentar um comportamento repulsivo, independente do pH do meio o qual as proteínas estão inseridas. Com a incorporação do mecanismo de regulação de cargas, observamos uma possível atração entre as proteínas, uma vez que, ∆Gele < 0. O emprego das estruturas 3D das proteínas proporcionou uma redução na intensidade das interações, embora seu comportamento seja qualitativamente semelhante ao do cálculo analítico. Geralmente, nos cálculos analíticos, a predição da titulação e capacitância das proteínas é superestimada. Conseqüêntemente, há também uma superestiva das demais grandezas que são função destas propriedades, como por exemplo, ∆Gele e os coeficientes de virial. Para avaliar o efeito da força iônica, realizamos o cálculo do B2 , no nível de predição analítico, em várias concentrações de sal. Esta análise é exibida na Figura 86. B2 diminui, em intensidade, conforme aumenta a concentração de sal na solução, uma 31 Optamos por efetuar as comparações em dois pHs distintos pois, quando predizemos a curva de titulação da lisozima utilizando somente a seqüência primária de aminoácidos, esta tem seu pI em 10,6, enquanto que, nos cálculos utilizando a estrutura 3D, esta proteína tem pI em 11,2. Assim podemos demonstrar para os dois níveis de predição (analítico e PB), a importância do mecanismo de regulação de cargas. 131 Figura 85: ∆Gele , nos níveis de predição analítico e Poisson-Boltzmann, do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. O pH foi mantido constante em 10,6 para os cálculos analíticos e 11,2 para os cálculos utilizando PB. Campo de força: GROMOS96. Figura 86: B2 de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de regulação de cargas, em vários regimes de força iônica. 132 Figura 87: Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos de força estão citados nas legendas das curvas do próprio gráfico. Os dados experimentais foram obtidos da referência (18). vez que o sal blinda as interações eletrostáticas, fazendo com que ∆Gele se aproxime de 0 (zero). Para o pH em torno de 10,6, B2 apresenta valores próximos de zero. Isso se deve ao fato de que, pelos cálculos analíticos, 10,6 é o ponto isoelétrico da lisozima. Neste ponto não seria possível a complexação, visto que a carga total das duas proteínas é nula. Por outro lado, com o mecanismo de regulação de cargas, há uma ligeira atração e B2 é negativo (−2, 4x10−3 mol.ml/g2 ) em força iônica nula. As Figuras 87 e 88 exibem a comparação do B2 , provido pelo PROMETHEUS, nos níveis de predição analítico e PB32 , com medidas experimentais33 e outras previsões teóricas34 , para a lisozima, em força iônica iguais a 0,005M e 0,1M. 32 Os critérios definidos para a configuração dos arquivos auxiliares (.sites, .st, etc.) de acordo com cada campo de força (GROMOS96 e AMBER99), para a posterior execução dos programas pertencentes ao pacote MEAD estão definidos nos Apêndices C e D. 33 Dados experimentais obtidos da referência (18). 34 Dados das simulações computacionais pelo método Monte Carlo, obtidos das referências (14, 18). 133 Figura 88: Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,1M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos de força estão citados nas legendas das curvas do próprio gráfico. Os dados experimentais foram obtidos da referência (18). Note que, comparados com os dados experimentais e predições teóricas por simulações Monte Carlo35 , em baixa força iônica (Figura 87), a precisão dos resultados aumenta quando passamos do nível analítico para o nível PB, assim como o custo computacional, de N para 2N . Ao redor do pI (10,6 – 11,2), há boas concordâncias entre os dados experimentais e os preditos utilizando os dois níveis de predição (analítico e Poisson-Boltzmann), proporcionando desta forma a utilização da seqüência primária da proteína, como fonte inicial de informação para o estudo das propriedades eletrostáticas de proteínas e predição de complexos protéicos com um baixo custo computacional. Para um estudo mais detelhado em outros regimes de pHs, os cálculos com as estruturas 3D das proteínas apresentaram resultados equivalentes aos da simulação pelo método Monte Carlo, com a vantagem de possuir um menor custo computacional em relação ao MC. Além disso, é possível incorporar outras interações físicas em todos os níveis, tornando as previsões mais realistas. Com o aumento da força iônica do meio (Figura 88), o B2 predito analiticamente se aproxima do obtido com base nas estruturas 3D das proteínas. Este comportamento é devido à blindagem eletrostática ocasionada pelos íons do sal dissociados na solução. Uma vez que, a energia de interação (∆Gele ) é calculada com base nas propriedades eletrostáticas das proteínas, esta se aproxima de zero em altos regimes de força iônica, independente do nível de predição 35 Em simulações computacionais utilizando o método Monte Carlo, o sistema teórico aproxima–se do sistema experimental, através da incorporação de íons explicitos na solução e mudanças conformacionais nas proteínas duante a fase de cálculos. Além disso, outras interações físicas são computadas, como por exemplo, interações de van der Waals, dipolos induzidos e outros. 134 Figura 89: Comparação do B2 de complexação entre dois quimotripsinogênios (PDB: 1CHG), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. As cargas foram definidas de acordo com o campo de força AMBER99. Os dados experimentais foram obtidos da referência (18). (analítico ou PB). Conseqüêntemente B2 se aproxima de zero em altas concentrações de sal, já que este é uma função de ∆Gele . As Figuras 89 e 90 apresentam a comparação entre o B2 predito pelo PROMETHEUS e por outras previsões teóricas36 e medidas experimentais37 de um complexo protéico formado por duas proteínas quimotripsinogênio (PDB: 1CHG). Assim como no exemplo anterior (Figuras 87 e 88) há um aumento da precisão dos resultados quando partimos do nível analítico para o nível PB. Em ambas as comparações, a força iônica foi fixada em 0,005M e 0,01M, as predições realizadas com base nas estruturas 3D das proteínas são bastante semelhantes às obtidas por simulação MC. Tal fato demonstra que, apesar da simplificação do modelo, as predições utilizando PB são tão precisas quanto às utilizando MC, além de apresentarem um baixo custo computacional em relação ao MC. Embora os cálculos realizados com a estrutura 3D da proteína melhorem a precisão dos resultados, em relação ao cálculos utilizando somente a seqüência primária da proteína, pelas aproximações assumidas em nossos modelos, não é possível afirmar que as proteínas formarão um complexo protéico, uma vez que B2 possui sempre valores maiores ou igual a zero em altas concentrações de sal. Podemos sugerir apenas que, em baixa força iônica, o segundo coeficiente de virial indica a possível formação de um complexo protéico, 36 Dados 37 Dados das simulações computacionais pelo método Monte Carlo, obtidos das referências (14) e (18). experimentais obtidos da referência (18). 135 Figura 90: Comparação do B2 de complexação entre dois quimotripsinogênios (PDB: 1CHG), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força iônica foi fixada em 0,01M e 0,005. Nos cálculos por PB, ε p foi definido como igual a 40. As cargas foram definidas de acordo com o campo força AMBER99. Os dados experimentais foram obtidos da referência (18). em um intervalo de pH (janela de cristalização ou complexação), geralmente ao redor do pI das proteínas. Predições de outros complexos protéicos podem ser vistas em material complementar disponível em: http://glu.fcfrp.usp.br/tulio/dissertacao/ protein-protein_interaction.pdf No futuro, a incorporação de outras interações (por exemplo, van der Waals) melhorará as previsões aqui apresentadas. Moon et al. (99), exibe a formação de complexos protéicos compostos por duas proteínas lisozimas (PDB: 2LZT) em várias condições experimentais. Porém em seu trabalho, outras interações são consideradas, como por exemplo, o potencial de dispersão de Hamaker38 . Esta interação não é considerada no preditor PROMETHEUS, pois está fora do escopo desse trabalho. Assim visando apenas demonstrar o efeito deste tipo de interação, exibimos na Figura 91 o B2 com a incorporação da constante de Hamaker, a qual, neste exemplo, foi assumida como igual a 8,0 kT , de acordo com a referência (99), sem parametrização específica para o modelo usado pelo PROMETHEUS. 38 O potencial de dispersão é proporcional à constante de Hamaker, a qual é sempre atrativa entre dois corpos similares. A constante de Hamaker é uma função da composição da proteína e da natureza química do solvente (191, 192). 136 Figura 91: Comparação do B2 , com e sem o potencial de dispersão de Hamaker, de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de regulação de cargas e força iônica nula. 7.2.1 Mecanismo de regulação de cargas A interação entre duas proteínas carregas é guiada diretamente por interações de Coulomb (106, 107, 193). A carga das proteínas é obtida a partir dos aminoácidos ionizáveis e varia em função do pH (119). Porém, quando uma outra proteína (B) carregada aproxima-se da proteína (A), esta tem sua carga alterada (aumentada). Esta alteração é explicada pelo mecanismo de regulação de cargas (194), o qual é medido através da “capacitância das proteínas” (5). A capacitância é uma propriedade, que as proteínas possuem, de adquirirem carga em função do equilíbrio ácido-base. Esta propriedade é dependente do pH, concentração de sal e número de resíduos ionizáveis presentes na proteína. Visando demonstrar o efeito do mecanismo de regulação de cargas, efetuamos a complexação entre duas proteínas calbindinas (PDB:3ICB) no qual definimos as condições físico-químicas próximas ao pI (4,5) das mesmas. A Figura 92 exibe um comparativo de ∆Gele , com e sem esse mecanismo. Observamos que, o ∆Gele em função da distância de separação entre as duas proteínas (calbindinas) é nula, quando não consideramos o mecanismo de regulação de cargas. Neste resultado, a energia livre é calculada valendo-se apenas das interações de Coulomb. Como o pH foi fixado em 4,5, as proteínas estão ao redor do pI, onde a carga líquida das mesmas é zero e portando a energia de interação entre elas é nula. Por outro lado, nestas mesmas condições físico-químicas, quando calculamos ∆Gele , com o mecanismo de regulação de cargas, observamos que a energia de interação entre as proteínas aumenta (em intensidade), proporcionando 137 Figura 92: Comparação do ∆Gele com e sem o mecanismo de regulação de cargas. O pH foi fixado em 4,5 e força iônica nula. desta forma a formação de um complexo protéico, uma vez que ∆Gele < 0. 138 7.3 O portal MOLESA - análise estrutural de complexos de proteínas Através do portal MOLESA, podemos efetuar o cálculo da freqüência de contatos entre pares de resíduos de aminoácidos específicos (i e j) em uma determinada distância de separação r utilizando a função gi j (r)∗ (Equação 1.1 definida na Subseção 1.4.2 - Estratégia 2: Análise de propriedades estruturais para a construção de potenciais estatísticos), para um determinado conjunto de complexos de proteína extraídos do PDB. A Tabela 15 exibe os códigos PDBs, separados por conjuntos, dos complexos de proteínas selecionados para serem utilizados no cálculo da freqüência de contato entre os resíduos de aminoácidos presentes em cadeias distintas da proteína. A escolha de todos os conjuntos foi feita com base em trabalhos que seguem esta mesma abordagem (131, 195–197). A última linha da tabela informa a quantidade de complexos contida em cada conjunto. O conjunto controle foi selecionado para ser o de referência para esses cálculos, pois tal conjunto é constituído por complexos de proteínas que foram resolvidos por cristalografia de raios X com resolução de 2,5 Å ou melhor, proporcionando mais confiabilidade na determinação da estrutura protéica. Entre os códigos PDB’s listados no conjunto controle estão complexos: antígeno–anticorpo, proteína–inibidor, proteína–proteína e outros. Nesta avaliação optamos pela diversidade de conjuntos, sendo assim, nenhum complexo se repete entre os conjuntos. 139 Conjunto Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 1ABI 1BUN 2GST 2CLR 1BBZ, 1BTH, 1MHC, 1OAK, 1QLE, 1AXI 1MSB 1HBS 1A2K 1CJR, 1DHK, 1SHD, 1TBR, 1VAD, 1CGI 2SCP 1BMQ 1AVA 1F58, 1GUX, 1YCQ, 2MTA, 4ER4, 1CHO 1HHJ 1FCD 1B33 1JHL, 1MCT, 1A94, 1AYA, 1BGX, 1CSE 1NCA 1AD9 1BOG 1NSG, 1QFU, 1C3Q, 1CN3, 1EAI, 1DKZ 2SIC 2CNL 1D4V 1SGP, 1STF, 1FC2, 1IAI, 1KIG, 1DVF 1BJ3 2CDR 1EKB 1UGH, 1YAG, 1MKX, 1OSP, 1QMZ, 1FDL 4AAH 1ALY 1GGI 2JEL, 1A3R, 1SLU, 1TCO, 1VPP, 1FLE 1MLC 1AQD 1LGB 1BC5, 1BVN, 1YCS, 2PCC, 1ACB, 1IGC 1FIN 1B2S 1NOC 1CKA, 1DKX, 1AZS, 1BII, 1CA0, 1MEL 1BLX 1QAV 1FAK, 1HIA, 1CXZ, 1EAY, 1IAK, 1NMB 1EFU 1SBB 1JRH, 1MDA, 1LCJ, 1MPA, 1OSZ, 1TEC 1GC1 1SPP 1NSN, 1QJA, 1QO0, 1SM3, 1TGS, 1TPA 1IKN 1TZE 1SHA, 1STR, 1VRK, 1ZFP, 2PRG, 1VFB 1LFD 1WWW 1UUG, 1YCP, 1AK4, 1AZZ, 1BJ1, 2PTC 1NMC 1A2X 2MIP, 3PRO, 1CA9, 1D2Z, 1EER, 2TPI 1PYT 1AVG 1A4Y, 1AY7, 1IBR, 1LCK 2SEC 1RSU 1BAI 1BE9, 1BXI, 2SNI 1SBP 1BT6 1CM1, 1FBI, 2TGP 1WQ1 1CJF 1HLT, 1JXP referência 3HFL 1EVH 3HFM 1GUA 3SGB 1IBT 4HTC 1LPB 4INS 1SRN 4SGB 1UCY 4TPI 1X11 7HVP 2IGF 3ERD 1A2Y 28∗ 10∗ 20∗ ∗ Quantidade 30∗ 40∗ 50∗ de complexos em cada conjunto. Tabela 15: Códigos PDBs dos complexos protéicos utilizados no cálculo da freqüência de contato em função da distância de separação entre os resíduos de aminoácidos presentes em cadeias distintas da proteína. A inserção dos complexos no nosso banco de dados foi feita com base no protocolo descrito na Subseção 6.2.1 – Funcionamento do portal MOLESA. Em suma, obtivemos as estruturas protéicas do PDB e procedemos com os testes de consistência já descritos. Optamos 140 Figura 93: Freqüência de contatos entre os resíduos ALA–ALA para as proteínas dos conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do gráfico. por não adicionar os átomos de hidrogênio nas estruturas, pois algumas delas contêm erros, por exemplo, estruturas com átomos faltantes (3PRO, 1BE9, 3ERD), resíduos desconhecidos (2MTA, 1A94, 1B33), e outros. Assim, as lacunas encontradas nas estruturas impedem o correto funcionamento dos programas pdb2gmx e pdb2pqr, utilizados para prover os átomos de hidrogênio nas estruturas das proteínas. Além disso, a inserção de átomos de hidrogênio depende de uma série de parâmetros, tais como: campo de força utilizado para prover as cargas e raios dos aminoácidos ionizáveis, constante dielétrica adotada para a proteína (ε p ), temperatura do sistema, etc. Visando fixar um padrão para a realização dos cálculos da freqüência de contatos, de modo que todas as proteínas analisadas contenham a mesma qualidade de informações, decidimos por não inserir os átomos de hidrogênio nas estruturas. Após a seleção de todas as estruturas, efetuamos o cálculo da distância de separação entre os resíduos e inserimos todos os resultados no nosso banco de dados. Em seguida calculamos a freqüência de contatos entre pares específicos de resíduos para todas as combinações entre os 20 aminoácidos existentes na natureza, os quais estão apresentados na Tabela 4. Variamos o r (distância de separação entre os resíduos) de 0 a 100 Å, com um ∆r igual a 5 Å. As Figuras 93–95 ilustram os gráficos da freqüência de contatos, gi j (r)∗ , em função da distância de separação r, entre os resíduos ALA–ALA, GLU–GLU e ILE–VAL pertencentes aos complexos protéicos contidos nos conjuntos 3, 4 e 5, exibidos na Tabela 15, utilizando o critério de normalização 1. Cada gráfico apresenta uma comparação entre os conjuntos e o conjunto controle. 141 Figura 94: Freqüência de contatos entre os resíduos GLU–GLU para as proteínas dos conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do gráfico. Figura 95: Freqüência de contatos entre os resíduos ILE–VAL para as proteínas dos conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do gráfico. 142 Figura 96: PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. Nestes exemplos assumimos um raio médio de 20 Å para cada proteína. Dessa forma para garantir que os resíduos que estão presentes nas extremidades opostas entre as duas proteínas sejam “contabilizados”, realizamos os cálculos entre as distâncias de separação até um valor máximo de 100 Å. Os valores para a distância máxima de separação e ∆r devem ser definidos em função do conjunto de proteínas escolhido para análise. Note que, as distâncias de separação entre os aminoácidos, no complexos protéicos avaliados, apresentam uma distribuição uniforme, onde a maior freqüência de contatos entre os resíduos ALA–ALA (Figura 93) ocorre na distância de separação ao redor de 8 Å, entre os resíduos GLU–GLU em torno de 15 Å (Figura 94) e entre 5 e 12 Å para os contatos ILE–VAL (Figura 95). As Figuras 96 – 98 exibem o PFM em função da distância de separação r obtido a partir da correlação de pares entre os resíduos ALA–ALA, GLU–GLU e ILE–VAL, presentes nas proteínas pertencentes aos conjuntos 3, 4, 5 e conjunto controle, exibidos na Tabela 15, normalizado pelo critério de normalização 1. Visando demonstrar as diferenças entre os critérios de normalização utilizados neste trabalho, exibimos nas Figuras 99 – 101 o PFM obtido a partir da freqüência de contatos entre os resíduos ALA–ALA, GLU–GLU e ILE–VAL, presentes nas proteínas pertencentes aos conjuntos 3, 4, 5 e conjunto controle, exibidos na Tabela 15, normalizado pelo critério de normalização 2. Note que, o comportamento das curvas obtidas pelos critérios de normalização 1 e 143 Figura 97: PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. Figura 98: PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. 144 Figura 99: PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. Figura 100: PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. 145 Figura 101: PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. 2, são qualitativamente equivalentes. As curvas foram apenas transladadas, de acordo com a definição de cada normalização. A Figura 102 mostra a comparação do PFM obtido a partir da freqüência de contatos entre os resíduos ALA–ALA presentes nas proteínas pertencentes ao conjunto controle utilizando os dois critérios de normalização. 146 Figura 102: Comparação entre os critérios de normalização 1 e 2 no cálculo do PFM entre os resíduos ALA–ALA presentes nas proteínas pertencentes ao conjunto controle. Para uma melhor comparação entre os resultados obtidos, exibimos na Tabela 16 a relação dos erros (entre os conjuntos de teste39 e conjunto controle) para os dados normalizados utilizando os métodos de normalizações 1 e 2 e na Tabela 17, a relação das quantidades totais e de cada aminoácido presentes nos conjuntos (1, 2, 3, 4, 5 e controle) de proteínas, exibidos na Tabela 15. A Equação 7.1 exibe como o erro foi calculado. N Xi2j = [(pz (r)controle − pz (r)teste )]2 N z=1 ∑ (7.1) onde pz (r)controle é a freqüência de contatos entre os resíduos i e j pertencentes ao conjunto controle na distância r; pz (r)teste é a freqüência de pares entre os resíduos i e j pertencentes ao conjunto de testes na distancia r; N é o número de divisões realizadas na distância total. Neste trabalho adotamos que a distância máxima é igual a 100 Å a qual foi divida em 20 partes iguais de 5 Å cada uma. Xi2j nos apresenta o erro de uma determinada interação i, j. Para obtermos o erro total de todas as interações entre os aminoácidos, utilizamos a Equação 7.2. i=20 j=20 2 XTotal = ∑ ∑ Xi2j (7.2) i=1 j=1 onde i e j representam os 20 aminoácidos naturais; Xi2j é o erro entre um par i, j específico e 2 XTotal é o erro do conjunto de testes em relação ao conjunto controle, ou seja, a soma dos erros 39 Chamamos aqui, para efeito didático, cada conjunto de proteínas como “conjunto de testes”, com exceção do conjunto controle, exibidos na Tabela 15. 147 de todas as observações entre os aminoácidos i e j. X2 Conjunto Normalização 1 Normalização 2 Conjunto 1 0,202 0,835 Conjunto 2 0,210 0,966 Conjunto 3 0,205 1,138 Conjunto 4 0,180 1,006 Conjunto 5 0,176 0,891 Tabela 16: Relação dos conjuntos de proteínas e os respectivos erros encontrados em relação ao conjunto controle, exibidos na Tabela 15. Conjunto controle Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 CYS 274 (2,73) CYS 141 (2,17) CYS 262 (1,91) CYS 283 (1,79) CYS 507 (2,72) CYS 514 (1,8) GLN 485 (4,83) GLN 234 (3,6) GLN 436 (3,17) GLN 739 (4,68) GLN 821 (4,4) GLN 1.192 (4,18) ILE 529 (5,26) ILE 293 (4,51) ILE 779 (5,67) ILE 888 (5,62) ILE 891 (4,77) ILE 1.377 (4,83) SER 1.162 (11,56) SER 557 (8,57) SER 948 (6,89) SER 1.206 (7,64) SER 1.728 (9,25) SER 2.016 (7,07) VAL 710 (7,06) VAL 418 (6,43) VAL 1.010 (7,35) VAL 1.001 (6,34) VAL 1.161 (6,22) VAL 2.083 (7,3) GLY 1.010 (10,05) GLY 547 (8,41) GLY 955 (6,95) GLY 1.246 (7,89) GLY 1.601 (8,57) GLY 2.142 (7,51) PRO 425 (4,23) PRO 312 (4,8) PRO 698 (5,08) PRO 694 (4,39) PRO 842 (4,51) PRO 1.437 (5,04) LYS 453 (4,51) LYS 365 (5,61) LYS 796 (5,79) LYS 899 (5,69) LYS 907 (4,86) LYS 1.556 (5,46) THR 764 (7,6) THR 445 (6,84) THR 919 (6,68) THR 938 (5,94) THR 1.260 (6,75) THR 1.830 (6,42) PHE 261 (2,6) PHE 260 (4, 0) PHE 574 (4,17) PHE 635 (4,02) PHE 686 (3,67) PHE 1.156 (4,05) ALA 705 (7,01) ALA 438 (6,74) ALA 956 (6,95) ALA 1136 (7,19) ALA 1.335 (7,15) ALA 2.010 (7,05) HIS 162 (1,61) HIS 166 (2,55) HIS 396 (2,88) HIS 353 (2,24) HIS 367 (1,97) HIS 706 (2,48) MET 123 (1,22) MET 131 (2,01) MET 236 (1,72) MET 333 (2,11) MET 251 (1,34) MET 545 (1,91) ASP 421 (4,19) ASP 372 (5,72) ASP 848 (6,17) ASP 1.022 (6,47) ASP 979 (5,24) ASP 1.631 (5,72) GLU 380 (3,78) GLU 356 (5,47) GLU 919 (6,68) GLU 920 (5,83) GLU 1.049 (5,62) GLU 1.806 (6,33) LEU 680 (6,77) LEU 459 (7,06) LEU 1.088 (7,91) LEU 1.217 (7,71) LEU 1.561 (8,36) LEU 2.506 (8,79) ARG 319 (3,17) ARG 293 (4,51) ARG 666 (4,84) ARG 794 (5,03) ARG 862 (4,62) ARG 1.400 (4,91) TRP 177 (1,76) TRP 161 (2,48) TRP 189 (1,37) TRP 267 (1,69) TRP 330 (1,77) TRP 469 (1,64) ASN 552 (5,49) ASN 305 (4,69) ASN 606 (4,41) ASN 623 (3,95) ASN 890 (4,77) ASN 1.131 (3,97) TYR 459 (4,57) TYR 250 (3,84) TYR 469 (3,41) TYR 597 (3,78) TYR 645 (3,45) TYR 1.014 (3,56) 10,051 * 6,503 * 13,750 * 15,791 * 18,673 * 28,521 * ∗ Quantidade total de resíduos em cada conjunto. Valores entre parênteses indicam a porcentagem. Tabela 17: Quantidade de cada resíduo presente nos conjuntos de proteínas exibidos na Tabela 15. Note que há uma distribuição uniforme da quantidade de aminoácidos de um determinado tipo em todos os conjuntos apresentados na Tabela 17. No futuro, estas informações poderão ser utilizadas para avaliar a importância que cada aminoácido exerce na proteína e na formação de complexos protéicos. 148 8 DISCUSSÃO Conforme proposto, este projeto tem como objetivo gerar conhecimentos tanto na área da física de biomoléculas quanto na área da ciência da computação. Por isso visando uma melhor organização dividiremos nossa discussão em duas partes: 1) enfoque computacional e 2) enfoque físico; descritos a seguir. 8.1 Enfoque computacional Banco de dados: Após um estudo de alguns sistemas gerenciadores de banco de da- dos (SGBD) - analisamos soluções livres e proprietárias - optamos pela adoção do PostgreSQL 8.3. Esta decisão foi tomada por este ser um banco de dados de uso gratuito, multiplataforma, robusto e apresentar de forma bastante consistente um efetivo sistema de backup e restore das informações. A utilização de banco de dados para prover os dados necessários para o cálculo de propriedades eletrostáticas de proteínas, armazenar informações sobre a validação das estruturas de proteínas e freqüência de contato dos aminoácidos entre as proteínas estudadas para posteriormente gerar os potenciais estatísticos, proporcionou um grande ganho de velocidade ao acesso a estes dados, além da organização e relacionamento das informações; aqui sendo gerenciadas por um sistema gerenciador de banco de dados. A Tabela 18 exibe uma comparação entre o uso de banco de dados e arquivos texto no que diz respeito à organização, armazenamento e recuperação da informação. Enquanto que em um arquivo texto as informações precisam ser obtidas (lidas) linha por linha para serem processadas posteriormente, no banco de dados toda informação é retornada em um único acesso ao banco. Com todos os dados carregados uma única vez na memória1 do computador as outras operações ocorrem quase que instantaneamente, sendo este tempo, o tempo que o processador leva para acessar esses dados em memória. Outros dois fatores que influenciam bastante o tempo de acesso aos dados são: a) acesso ao disco é muito mais lento que acesso a memória, pois a leitura no disco é feito por uma unidade mecânica (uma espécie 1 Memória RAM (Randon Access Memory), uma placa com circuitos integrados acoplada à placa mãe (motherboard) do computador. 149 Funcionalidades Organização dos dados Recuperação dos dados Expansão Escalabilidade Atomicidade Sistema de Banco de dados Os dados são armazenados em tabelas as quais podem ser relacionadas umas com as outras, sendo gerenciadas pelo SGBD. Os dados solicitados são providos pelo sistema gerenciador de banco de dados. Grande flexibilidade. Tabelas adicionais podem ser inseridas no modelo relacional. O banco de dados pode ser distribuído em diversos computadores a fim de se obter uma melhor distribuição dos dados. O SGBD garante que as operações sejam executadas por completo. Caso houver alguma falha de hardware os dados são retornados ao seu estado anterior mais recente. Arquivo texto O gerenciamento e manipulação dos dados são de responsabilidade do desenvolvedor. Acesso seqüencial feito linha após linha. Limitado ao arquivo ou conjunto de arquivos. Limitado ao tempo de aceso para a leitura do arquivo. Não é possível garantir a integridade das operações caso houver alguma falha de hardware. Tabela 18: Comparativo entre o uso de banco de dados e arquivos texto a respeito da organização, armazenamento e recuperação de dados. de braço mecânico com uma ponta magnética para leitura das informações), enquanto que na memória, o acesso aos dados é realizado por meio de circuitos lógicos integrados. b) localidade de acessos, onde os dados que são armazenados na memória do computador estão próximos uns dos outros evitando dessa maneira um cache miss ou gaps em memória cache2 (detalhes de como são feitos os acessos aos diversos níveis hierárquicos da memória do computador são omitidos, pois exigem um estudo mais detalhado sobre arquiteturas e organização de computadores – maiores informações podem ser entradas na referência (198)). Saídas: Após algumas análises percebemos que seria mais eficaz que os resultados gerados pela aplicação fossem flexíveis o bastante a ponto de permitir, para cada usuário, uma maneira própria que o mesmo poderia escolher para visualizar as informações geradas pela aplicação, além da opção padrão adotada pelos portais. Esta flexibilidade foi conseguida de maneira bastante simples, através da criação de arquivos texto. No preditor básico de complexação, o 2 Memória localizada no interior ou no mesmo chip da UCP (Unidade Central de Processamento), seu tamanho, organização, algoritmos de acesso e substituição dos dados variam conforme o modelo e família do processador. 150 Figura 103: Modelo do arquivo de informações criado após a conclusão do processamento da ferramenta “Single protein properties”, para o cálculo da titulação ideal da proteína β -lactoglobulina bovina (PDB: 1BEB). arquivo texto gerado contém as informações das coordenadas que são utilizados para construção dos gráficos, além disso, informações detalhadas como temperatura, pH, tabela utilizada para os valores experimentais de pKa ’s, também estão contidas em tais arquivos, permitindo desta forma que o “experimento” possa ser reproduzido pelo usuário. Tais arquivos podem ser salvos (download) diretamente do portal, proporcionando assim que o usuário crie gráficos à sua maneira. A Figura 103 exibe um exemplo do arquivo de informações criado pela ferramenta “Single protein properties”, provida pelo portal PROMETHEUS, utilizando o nível de predição ideal para o cálculo da titulação da proteína β -lactoglobulina bovina (PDB: 1BEB). 151 Na análise do potencial estatístico, os resultados são exibidos diretamente no portal e, assim como no preditor básico de complexação, há a possibilidade de salvar um arquivo texto contendo as informações a respeito dos potenciais. Tais arquivos contêm o conjunto de estruturas de proteínas solicitadas pelo usuário, a lista de aminoácidos das diferentes cadeias, a distância de separação entre os mesmos e outras informações. A criação de arquivos textos, disponíveis aos usuários, proporciona os seguintes benefícios: • Novos dados: qualquer sistema operacional possui algum tipo de editor de texto, permitindo assim que as informações providas por nossas ferramentas sejam ajustadas a fim de atender as necessidades dos diferentes perfis de usuários; • Flexibilidade: a fonte de informação para a maioria dos programas de computador utilizados para criação de gráficos provêm de arquivos texto, permitindo de tal forma que o usuário utilize um programa de sua preferência para reproduzir os gráficos gerados por nossas ferramentas; • Informação: as informações a respeito das análises providas pelos portais ficam à disposição dos usuários, proporcionando aos mesmos, a reprodução e controle das análises realizadas pelos portais. Após analisarmos alguns programas para criação de gráficos como, por exemplo, JFreeChart (199), Origin (200) e outros, adotamos o gnuplot (184). O gnuplot possui muitas vantagens (dentro do nosso contexto) em relação aos programas analisados, entre elas podemos destacar: a) vasta documentação disponível (em livros, internet, fóruns de discussão entre outros), b) qualidade das imagens e grande poder de personalização de cada um dos gráficos gerados; c) tamanho em bytes do gráfico gerado, em torno de 5 a 10 Kbytes. Esse é um fator crítico em aplicações disponíveis na internet, pois permitirá o bom desempenho da aplicação, em relação do fornecimento das imagens (gráficos), mesmo quanto utilizada por usuários que dispõem de recursos computacionais muito precários, como por exemplo, o acesso a internet por modem – através de linha telefônica. Apesar do minúsculo tamanho do arquivo, a qualidade da imagem não é prejudicada. Cálculos e ferramentas desenvolvidas: Os portais web foram desenvolvidos utilizando o modelo MVC (Model View Control). Este modelo de desenvolvimento de software proporciona grande flexibilidade à aplicação desenvolvida, pois o conjunto dos dados (Model), as operações executadas sobre os dados (Control) e a interface gráfica utilizada para efetuar a interação com o usuário (View) trabalham de forma independente uns dos outros. Assim 152 Figura 104: Ilustração do modelo MVC (Model View Control) utilizado no desenvolvimento dos portais web. qualquer alteração ou substituição de um componente não afeta o funcionamento de outro. A Figura 104 exibe o modelo MVC adotado como padrão de desenvolvimento dos portais web onde utilizamos o PostgreSQL para prover, armazenar e organizar os dados disponíveis durante o processamento (Model); Python e outras ferramentas utilizadas durante o processo de cálculo (Control); e Java para fazer a interface e interação com os usuários (View). Este modelo permitirá que os portais web desenvolvidos neste projeto interajam com outras fontes de dados e outros serviços web sem a necessidade de qualquer alteração das classes responsáveis pelo processamento dos dados. Tal flexibilidade foi conseguida graças ao desenvolvimento de um método, na classe FcfrpPDB, chamado getStructure que realiza a interface entre a fonte de dados e as tarefas de processamento, tornando transparente para o sistema a forma de aquisição dos dados a serem processados. A Figura 105 ilustra a organização do sistema em relação à origem da fonte de dados que serão processados. Figura 105: Organização do sistema em relação à origem da fonte de dados que serão processados. 153 O método getStructure é responsável pela obtenção das informações a repeito das estruturas e seqüência primária das proteínas, independente de sua origem (arquivo no formato PDB, FASTA, banco de dados, etc.), e pela criação de uma estrutura de dados desenvolvida e padronizada para ser utilizada pelos portais. Esta estrutura é então utilizada como fonte de dados para as diversas ferramentas providas pelos portais. O funcionamento do método getStructure, para uma solicitação de processamento a partir do código PDB de uma proteína ou complexo que não está presente em nossa base de dados, ocorre da seguinte forma: 1. O usuário solicita o processamento de uma determinada estrutura através de seu código PDB; 2. O sistema verifica se a estrutura solicitada está presente na base de dados local; 3. Estrutura não encontrada na base de dados local: 3.1 O sistema obtém a estrutura do banco de dados de proteínas (PDB); 3.2 Realiza a checagem desta estrutura verificando se esta possui resíduos desconhecidos, ausência de átomos, etc. (teste de consistência); 3.3 Insere as informações sobre a estrutura da proteína, juntamente com o resultado do teste de validação, em tabelas apropriadas no banco de dados local; 4. O sistema cria uma estrutura de dados, através do método getStructure, a qual é submetida para o processamento; 5. Ao término do processamento, o sistema exibe para o usuário uma página web contendo o resultado do processamento. O método getStructure proporciona grande flexibilidade ao portal no sentido de interagir com outras ferramentas e serviços web pois, a única alteração a ser feita no portais é no método getStructure. Uma vez que a organização dos dados a serem processados depende de sua origem, basta implementar o protocolo de organização dos dados (da fonte externa) no método getStructure para que este seja capaz de criar a estrutura utilizada pelos portais na realização das análises. A partir desta estrutura todo o processamento é trivial para o sistema. Definição da linguagem adotada: Comparando Java com outras linguagens de programação, voltadas para web, como .Net (dotNet) (201), PHP (202), ASP (203), Ruby (204) 154 e outras, Java mostra-se superior a todas elas (no quesito portabilidade), pois permite não só a construção de aplicações voltadas para web (JEE – Java Enterprise Edition) como também aplicações desktop (JSE – Java Standard Edition) e o desenvolvimento de aplicações que executam em processadores de pequeno porte (JME – Java Micro Edition) como celulares, por exemplo. Tais características permitem o desenvolvimento de aplicações para os mais diversificados ambientes e plataformas computacionais. O sucesso de Java está em sua robustez, permitindo a criação de programas de computador cada vez mais seguros, e flexibilidade, permitindo sua execução em diferentes plataformas por meio dos bytecodes3 que são interpretados pelas máquinas virtuais Java (JVM – Java Virtual Machine) implementadas para cada tipo de sistema operacional, seguindo a filosofia: “Escreva uma vez, execute em qualquer lugar”. Detalhes sobre funcionamento de toda arquitetura Java bem como suas diversas especificações podem ser encontradas na referência (205). Outra vantagem que Java exerce sobre as outras linguagens é a grande quantidade de métodos já implementados e o uso exclusivo de programação orientada a objetos, permitindo o uso extremo de reaproveitamento de código, padronização e controle de acessos a métodos, objetos e variáveis, tendo como único pré-requisito a presença de um compilador Java (JDK – Java Development Kit) utilizado para compilar o código fonte. A soR o framework Microsoft DotNet R tem o mesmo princípio de lução proposta pela Microsoft, funcionamento do Java, ou seja, uma camada intermediária entre os códigos compilados e o R perde em portabilidade, pois só funciona programa executável, porém a solução da Microsoft R Diante de tamanhas possibilidades adotamos o Java para realizar a em sistemas Windows. interação com o usuário, através do desenvolvimento de uma interface voltada para web. Neste contexto fizemos o uso de Servlets, Bean e páginas JSP. Como demonstrado pela Figura 104 nenhum processamento é realizado em Java, apenas a interface com o usuário. Apesar do seu indiscutível poder de portabilidade, o processamento de operações aritméticas em Java é mais lento que em outras linguagens de programação como C/C++, Fortran e Python. Isto se deve ao fato de como o código da linguagem foi projetado, além do desempenho particular de cada máquina virtual Java. Neste contexto escolhemos como linguagem de programação, para realizar todo o processamento, Python, por ser esta uma linguagem que tem sido utilizada largamente na solução de problemas biomoleculares (veja, por exemplo, o Biopython), possuir métodos eficazes para a solução de cálculos aritméticos como, por exemplo, métodos para calcular integrais, exponenciais, etc., através do uso de bibliotecas desenvolvidas exclusivamente para este fim como scipy e numpy, com algoritmos implementados C/C++ (visando o ganho de eficiência e 3 Os bytecodes são criados após a compilação do código fonte java. Uma vez criados, os bytecodes podem ser interpretados por qualquer Máquina Virtual Java (JVM – Java Virtual Machine). Cada sistema operacional possui uma implementação da sua própria JVM, possibilitando uma abstração de arquiteturas de hardware e software, permitindo que o mesmo código java compilado seja executado nos mais diversificados ambientes, desde celulares e desktops a cluters e mainframes. 155 performance) e por apresentar rápida curva de aprendizagem. Funcionamento dos portais: Assim que o usuário submete uma estrutura para análise, um servlet é responsável por receber o código da estrutura de interesse (código PDB da proteína) e o código da operação a ser realizada (cálculo da titulação ideal de uma proteína, cálculo da predição de um complexo protéico, cálculo dos potenciais estatísticos, etc.). De posse destas informações o servlet requisita para a classe python responsável, o processamento de tais informações. A classe realiza o processamento e devolve o controle da aplicação para o servlet que, por sua vez, direciona o usuário para a página que contém a saída esperada. O gráfico, o arquivo de saída exibido para o usuário e o conteúdo da pagina JSP4 são gerados dinamicamente e administrados pelo servlet, de tal forma que o processamento de um usuário não interfira no resultado final de outro usuário. As tarefas que são realizadas desde a definição do conjunto de parâmetros até a resposta do sistema para o usuário, são dividas entre diversos componentes e aplicações. Segue a descrição, de uma forma bastante simplificada, dos principais componentes envolvidos em um processamento solicitado pelo usuário: 1. Servlet: É o gerente da aplicação. Os servlets são responsáveis por obter os dados dos usuários assim como determinar as análises que o usuário deseja realizar, ou seja, qual operação (titulação ideal de uma proteína, criação de um arquivo no formato PQR, etc.) será realizada sobre os dados; 2. Python: Subordinado aos servlets, as classes desenvolvidas em Python são quem efetuam todo o processamento sobre os dados. Após o processamento, o Python devolve os dados, assim como todas as mensagens de erros encontradas durante o processo de cálculo, para os servlets, os quais decidem qual será o destino dos dados processados. 3. Gnuplot: Responsável pela criação dos gráficos que são exibidos para o usuário. Todas as informações que estarão contidas nos gráficos são criadas pelas classes em Python, restando ao gnuplot, apenas a tarefa de representá–los graficamente. 4. Paginas JSP: São as “porta-vozes” dos servlets durante a interação com usuário. A interação com o usuário ocorre através das páginas JSP e todas as informações obtidas pelo usuário através das páginas JSP são encaminhadas para os sevlets decidirem quem irá processar tais informações (classes python) ou onde o resultado de um determinado processamento será exibido (páginas JSP). 4 Java Server Pages (JSP) é uma tecnologia utilizada no desenvolvimento de aplicações para web. Esta tecnologia permite ao desenvolvedor de páginas para internet produzir aplicações dinâmicas. 156 8.1.1 Análise da complexidade de algoritmos Visando uma melhor compreensão da relação custo computacional em função do ta- manho do problema efetuamos uma análise da complexidade de alguns algoritmos desenvolvidos neste projeto. Esta análise pode ser utilizada também para verificar a qualidade dos algoritmos desenvolvidos e verificar se é viável o estudo em larga escala das propriedades eletrostáticas e estruturais das proteínas em busca por preditores de complexos protéicos. Os pseudocódigos exibidos nos Algoritmos 2 e 3 ilustram como é efetuado o cálculo das cargas das proteínas. Algoritmo 2: Pseudocódigo do algoritmo utilizado para realizar o cálculo do grau de dissociação de um próton (αi ) de um aminoácido i. função: ObtemAlfaAminoacido(phDaSolucao, pkaExperimental): pot = pow(10, (phDaSolucao - pkaExperimental)); retorne pot/(1 + pot); Algoritmo 3: Pseudocódigo utilizado para calcular a carga líquida de uma proteína. para cada aminoacido presente na proteína faça se o aminoácido for ácido então carga = ObtemAlfaAminoacido(phSolução, pkExperimental)*(-1) senão se o aminoácido for básico então carga = 1 - ObtemAlfaAminoacido(phSolução, pkExperimental) senão carga = 0.0 cargaTotal = cargaTotal + carga retorne cargaTotal Analisando o pseudocódigo apresentado pelo Algoritmo 2 observamos o seguinte comportamento: 1. Há uma operação primitiva5 para realizar a subtração entre o pH da solução e o pKa experimental de cada aminoácido ionizável: (phDaSolucao – pkaExperimental); uma operação primitiva para realizar a operação de potenciação: (pow(10, (phDaSolucao pkaExperimental))); e uma operação primitiva para atribuir tal resultado à variável “pot”; 2. Há uma operação primitiva para realizar a soma de 1 e variável “pot”: 1 + pot; uma operação primitiva para dividir o valor da variável “pot” por esta primeira operação rea5 Operações primitivas são as operações básicas de um algoritmo. Por exemplo, operações de atribuição, soma, subtração, etc. Ao contarmos o número de chamadas às funções primitivas estamos contando a eficiência do algoritmo, podendo assim fazer comparações entre algoritmos para o mesmo problema e decidir qual o mais eficiente. Através de análises mais precisas do número de operações primitivas executadas pelo algoritmo podemos obter a sua complexidade. 157 lizada: pot/(1 + pot); e uma operação primitiva para retornar o valor obtido pela função ObtemAlfaAminoacido. Portanto, analisando o pseudocódigo apresentado pelo Algoritmo 2, este algoritmo possui um custo computacional que varia com 6N, onde N representa o tamanho do problema e 6 é a quantidade de operações primitivas executadas. Como o cálculo da carga da proteína não depende somente do cálculo da constante de dissociação de um próton, mas também do pseudocódigo apresentado pelo Algoritmo 3, efetuamos a análise da complexidade do mesmo, descrita a seguir: 1. Há uma operação primitiva quando o aminoácido for básico “1 - ObtemAlfaAminoacido” ou quando for ácido “ObtemAlfaAminoacido*(-1)”; uma operação primitiva para atribuir o valor advindo da função “ObtemAlfaAminoacido” para a variável “carga”. Note que quando o aminoácido não for básico nem ácido apenas a operação de atribuição é realizada. Entretanto para a análise da complexidade devemos observar sempre o “pior caso”. 2. Há uma operação primitiva para realizar a soma: “cargaTotal + carga”, onde “cargaTotal” é a carga da proteína e “carga” é a carga de um aminoácido. Há uma operação primitiva para atribuir tal soma para a variável “cargaTotal” e uma para retornar o valor da carga de uma proteína: “retorne cargaTotal”. Assim o pseudocódigo apresentado pelo Algoritmo 3 possui um custo computacional que varia com 5N, considerando que 5 é a quantidade de operações primitivas executadas. Dessa forma podemos concluir que o custo total para o cálculo da carga líquida de uma proteína, realizado através do nível de predição ideal, é função de 30N (6N x 5N). Ao executar as operações em larga escala o termo constante torna-se desprezível. Dessa forma, a análise da complexidade deste algoritmo, demonstra que o mesmo é O(N), ou seja, o custo computacional cresce proporcionalmente com a quantidade de aminoácidos presentes na proteína. Tal análise pode ser utilizada para prever o tempo de processamento que será necessário para efetuar a predição das propriedades eletrostáticas das proteínas. Uma vez que o custo computacional cresce linearmente em função do tamanho vs. quantidade das proteínas que são analisadas, o algoritmo possui desempenho suficiente para que as operações sejam executadas em larga escala. O tempo de processamento pode ser estimado em função do poder computacional disponível para efetuar os processamentos. 158 8.2 Enfoque físico a) Equilíbrio Iônico: Observa-se uma grande semelhança em todas as curvas de titulação, apresentadas na Subseção 6.1.2 - Propriedades dos aminoácidos isolados (Single amino acid properties), onde a valência ideal do aminoácido diminui conforme o aumento do pH. Aminoácidos e proteínas apresentam notáveis propriedades ácido-base. Os α-aminoácidos quando isolados possuem dois ou, para aqueles com cadeias laterais ionizáveis, três grupos ionizáveis. As propriedades dos aminoácidos permitem algumas generalizações sobre seu comportamento ácido-base. Primeiro, todos os aminoácidos com apenas um grupo α-amino, um grupo carboxila e um grupo R que não se ioniza, possuem curvas de titulação que se assemelham à da alanina, exibida na Figura 55. Segundo, aminoácidos com grupo R ionizável possuem curvas de titulação mais complexas, com três estágios de ionização possíveis. As curvas de titulação para os aminoácidos desse tipo são exibidos pelas Figuras 11 e 57, onde podemos observar o comportamento de aminoácidos que são ácidos e básicos, respectivamente. O pH no qual uma molécula não apresenta carga elétrica líquida é conhecido como seu ponto isoelétrico, pI. Assim, observamos um comportamento semelhante entre as curvas de titulação dos aminoácidos, onde em pH abaixo do pI, os aminoácidos apresentam valência positiva e acima do pI, negativa. Quando o pH da solução possui valores abaixo do pI do aminoácido, átomos de hidrogênio presentes na solução ligam-se com o grupo básico do aminoácido (COO− ). Com isso, o resíduo fica positivamente carregado neste ambiente, conseqüentemente aumentando sua valência. Por outro lado, quando o pH da solução possui valores mais elevados do que o pI do aminoácido, átomos de hidrogênio do grupo ácido do aminoácido (+ H3 N) são dissociados na solução, tornando o resíduo negativamente carregado. b) Propriedades eletrostáticas em proteínas – preditor básico de complexos: As curvas de titulação dos α-aminoácidos isolados, obtidas a partir dos cálculos, realizados pelas ferramentas desenvolvidas neste projeto, exibem seus respectivos valores de pKa . Entretanto em polipeptídios e proteínas, devido ao grande número de aminoácidos ionizáveis presentes em sua estrutura bem como sua configuração espacial, este comportamento é raramente apresentado. Como resultado da influência eletrostática de grupos carregados na vizinhança, além do efeito de sal e íons móveis na solução, o pKa de cada grupo ionizável é deslocado em varias unidades de pH a partir de seu valor no aminoácido isolado. Essas diferenças entre valores de pKa dos aminoácidos ionizáveis presentes na proteína e quando os mesmos estão isolados são computadas utilizando-se o programa MEAD. 159 Por esta não ser uma análise trivial iremos abordá-la detalhadamente na Subseção 8.2.1 Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis. Com base nos valores de pKa ’s, utilizando a ferramenta “Protein-protein interaction”, provida pelo portal PROMETHEUS, é possível ter uma previsão da formação de um complexo protéico (entre duas proteínas), a partir de suas propriedades eletrostáticas (titulação e capacitância), em dois níveis de predição: 1) utilizando apenas a seqüência primária de cada proteína onde os cálculos são realizados analiticamente e os valores de pKa ’s são obtidos de alguma tabela de referência (Nozaki e Tanford ou Creighton), ou 2) através da estrutura tridimensional das proteínas, empregando soluções numéricas da EPBL para computar os valores de pKa ’s dos aminoácidos ionizáveis de acordo com sua localização na estrutura 3D da proteína. A ferramenta realiza os cálculos de acordo com os parâmetros físico-químicos definidos pelo usuário e é capaz de identificar em quais condições (pH, concentração de sal, etc.) a complexação será mais favorável. A predição é realizada através da análise de ∆Gele e B2 . O ∆Gele pode ser adotado como um critério conveniente da espontaneidade para processos. Se ∆Gele é negativo, o processo é espontâneo; se positivo, o processo é dito não natural; e se ∆Gele é igual a zero, o sistema está em equilíbrio (206). Ressaltamos que neste primeiro momento estamos calculando apenas interações de Coulomb do tipo carga-carga com a possibilidade de incluirmos o mecanismo de regulação de cargas. Futuramente esta ferramenta será ampliada permitindo incorporar outras contribuições, como, por exemplo, as interações de van der Walls, que podem ser tão importantes quanto as eletrostáticas. O B2 é uma propriedade física que representa a integral do potencial intermolecular sobre a distância de separação entre duas biomoléculas em questão. O cálculo preciso das energias de interação entre moléculas de proteínas é uma tarefa que apresenta alto custo computacional, principalmente porque tais sistemas apresentam uma geometria complexa e uma irregular distribuição de cargas. O segundo coeficiente de virial é um indicador útil das interações totais que ocorrem entre duas moléculas e é muito utilizado para descrever a agregação entre proteínas, compreendendo o efeito predominante das interações entre elas. Se B2 (ou B23 ) é positivo, o sistema é repulsivo; e se negativo, é atrativo (14, 99, 207). O valor de B2 é dependente de quais interações são incluídas em ∆Gele (ver Equação 5.17). c) Análise da freqüência de contatos: Para a determinação da freqüência de contatos, selecionamos aleatoriamente algumas proteínas, cujos códigos PDB são exibidos na Tabela 15. O conjunto controle foi selecionado com base na referência (130). Optamos pela 160 realização dos cálculos a partir do centro geométrico dos resíduos por: 1) minimizar o custo computacional, uma vez que as coordenadas de cada átomo constituinte do resíduo são omitidas e apenas as coordenadas do centro geométrico deste são consideradas; 2) a cadeia lateral R de alguns aminoácidos, como a arginina e histidina, é longa e o uso do centro geométrico para tais resíduos proporciona uma melhor descrição do seu tamanho. Analisando os diversos gráficos normalizados (Figuras 96, 97 e outras), gerados após o cálculo do PFM, encontramos um padrão satisfatório entre o conjunto controle e o conjunto de testes6 . Tal observação indica uma constituição consistente do conjunto controle, garantindo a diversidade do mesmo e as perspectivas de uso para extração das informações ai contidas. No futuro, a construção dos conjuntos de proteínas poderá ser realizada de forma mais criteriosa, por exemplo, os conjuntos poderão ser divididos por família de proteínas, função biológica, quantidade de resíduos, etc. A quantidade de complexos presentes em cada um dos conjuntos será objeto de estudo. Um dos fatores a ser analisado para tal escolha será o próprio critério de análise, uma vez que a quantidade de informações presentes no banco de dados, em relação ao cálculo das distâncias de separação entre todos os resíduos presentes em cadeias distintas do complexo, cresce explosivamente. Para um conjunto inicial de 180 complexos protéicos presentes no nosso banco de dados (informação obtida em 22/05/2010), há mais de 26 milhões de possíveis interações entre os resíduos constituintes de tais complexos. Nossos resultados futuros serão confrontados com alguns mapas de contato existentes na literatura como, por exemplo, os encontrados por Miyazawa e Jernigan (112, 113) e resultados de simulações Monte Carlo. 8.2.1 Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis Por depender de muitos parâmetros, não há na literatura um critério definido e fun- damentado do protocolo mais adequado para a predição dos pKa’s em função da posição do aminoácido na estrutura da proteína através da solução numérica da EPBL. Diversos métodos numéricos podem ser empregados para a solução da EPBL, dentre os quais destacamos o método das diferenças finitas. Este método está implementado em diversos pacotes de programas cuja função é calcular os pKa ’s de cada aminoácido, como por exemplo, o MEAD (Macroscopic Electrostatics with Atomic Detail) e o UHBD (University of Houston Brownian Dynamics). Optamos por utilizar o MEAD v.2.2.7 para o cálculo dos pKa ’s 6 Conjunto de testes: conjunto 1, 2, 3, 4, e 5 exibidos na Tabela 15. 161 uma vez que este pacote é utilizado por vários outros serviços web (20, 79), possuir boas concordâncias com dados experimentais (8, 144) e por ser gratuito (disponível em: ftp: //ftp.scripps.edu/electrostatics/), embora seja pobre em documentação, referente à sua utilização e não apresentar protocolos bem definidos para a configuração dos arquivos auxiliares utilizados nos diversos cálculos das propriedades eletrostáticas de biomoléculas. Para minimizar este déficit de documentação, uma pequena explicação do funcionamento do MEAD, arquivos de configurações necessários e parâmetros exigidos para a utilização dos diversos programas nele contidos, é apresentada no Apêndice C. 8.2.1.1 Validação dos dados iniciais Visando a familiarização com o pacote MEAD, iniciamos nossos estudos reproduzindo alguns trabalhos da literatura (20, 122). Pela disponibilidade de informações a respeito dos arquivos de configuração utilizados pelos programas contidos no pacote MEAD, primeiro, reproduzimos os resultados da referência (122), onde seguimos fielmente todos os dados do autor. Os arquivos de configuração para a execução dos comandos foram obtidos de um dos exemplos que acompanham o pacote MEAD v.2.2.7 (localizado no diretório “MEAD/examples/lysozyme”). Após a confirmação dos nossos resultados avaliamos a influência do parâmetro epsave_oldway disponível para o programa multiflex do pacote MEAD. Apesar do autor não deixar claro quais foram todos os procedimentos utilizados para a criação dos arquivos de configuração, a reprodução deste trabalho foi importante, pois através dela podemos: 1) avaliar o funcionamento dos diversos programas contidos no pacote MEAD; 2) entender como tais programas funcionam e a influência de cada parâmetro utilizado para a execução dos mesmos; e 3) propor melhorias, em relação a forma como os arquivos devem ser configurados, além de demonstrar o correto funcionando do portal PROMETHEUS, quando o usuário optar por realizar os cálculos a partir da estrutura 3D da proteína. A configuração dos arquivos para a utilização do MEAD é um fator crucial para a obtenção correta dos resultados. Para demonstrar a importância da definição dos arquivos de configuração, realizamos uma comparação entre os valores de pKa ’s obtidos utilizando os arquivos de configuração do exemplo (lysozyme) disponível junto com a distribuição do MEAD e os valores de pKa ’s obtidos quando utilizamos os arquivos de configuração, para as cargas dos átomos (arquivos .st), do trabalho da referência (208). A Tabela 19 exibe a comparação realizada entre os valores de pKa ’s obtidos do exemplo do MEAD, os providos pelo PROMETHEUS e os obtidos utilizando os arquivos de configuração da referência (208). 162 Resíduo pKout(Bashford)7 N Term 6,4 His 15 4,0 Glu 7 2,1 Glu 35 6,3 Asp 18 3,1 Asp 48 1,0 Asp 52 7,0 Asp 66 1,7 Asp 87 1,2 Asp 101 7,9 Asp 119 3,2 Tyr 20 14,0 Tyr 23 11,7 Tyr 53 20,8 Lys 1 9,6 Lys 13 11,6 Lys 33 9,6 Lys 96 10,4 Lys 97 10,6 Lys 116 9,9 C Term 2,3 RMSD pKout(PROMETHEUS)8 6,4 4,0 2,1 6,4 3,1 1,0 7,0 1,7 1,2 7,9 3,2 14,0 11,7 20,8 9,5 11,6 9,6 10,4 10,5 9,9 2,3 0,1810 pkout(Juffer)9 6,8 4,0 2,3 4,9 2,7 2,5 7,3 1,8 2,2 8,4 3,6 11,3 11,2 23 10,1 13,2 9,6 11,6 11,1 0,0 2,7 11,0111 Tabela 19: Comparação dos valores de pKa ’s da proteína lisozima (distribuído junto com o pacote MEAD) e os providos pelo PROMETHEUS com o parâmetro epsave_oldway. Analisando os resultados obtidos é visível a importância da “correta" configuração dos arquivos no formato st (arquivo onde se define os estados de ionização do aminoácido isolado). Note que, apenas alterando as configurações das cargas dos átomos presentes nos arquivos no formato st, houve uma diferença significativa entre os resultados obtidos pelo trabalho de Juffer e colaboradores e PROMETHEUS, em relação ao de Bashford & Karplus. Verificamos também a correta reprodução, por nossa aplicação, do trabalho de referência (Bashford), tornando evidente o correto funcionamento dos programas utilizados. Neste exemplo executamos os programas multiflex e redti da seguinte forma: 7 Valores de pKa ’s obtidos da referência (122). obtidos pelo PROMETHEUS, utilizando todos os arquivos de configuração do exemplo “lysozyme”, distribuído junto com o pacote MEAD v.2.2.7. 9 Arquivos de configuração obtidos da referência (208). 10 RMSD entre os valores de pK ’s obtidos pelo portal PROMETHEUS e pelo exemplo do MEAD (Bashford a (122)), após a execução do programa redti. 11 RMSD entre os valores de pK ’s obtidos utilizando os arquivos de configuração adotados pela referência a (208) em relação ao resultado obtido utilizando os arquivos de configuração adotados por Bashford & Karplus (122), após a execução do programa redti. 8 Valores 163 Resíduo pKout(Bashford)12 N Term 6,4 His 15 4,0 Glu 7 2,1 Glu 35 6,3 Asp 18 3,1 Asp 48 1,0 Asp 52 7,0 Asp 66 1,7 Asp 87 1,2 Asp 101 7,9 Asp 119 3,2 Tyr 20 14,0 Tyr 23 11,7 Tyr 53 20,8 Lys 1 9,6 Lys 13 11,6 Lys 33 9,6 Lys 96 10,4 Lys 97 10,6 Lys 116 9,9 C Term 2,3 RMSD pKout(PROMETHEUS)13 6,6 4,4 2,0 6,0 2,7 0,6 7,0 1,1 0,8 7,8 3,2 13,8 11,6 20,6 9,6 11,7 9,8 10,5 10,7 9,9 2,1 1,1215 pkout(Juffer)14 6,7 4,6 2,0 4,5 2,3 2,2 7,3 1,2 1,8 8,4 3,6 11,5 11,3 23,2 10,0 13,5 9,5 12,1 11,1 10,1 2,7 5,0816 Tabela 20: Comparação dos valores de pKa ’s da proteína lisozima, distribuído junto com o pacote MEAD e os providos pelo PROMETHEUS sem o parâmetro epsave_oldway. multiflex -epsin 4.0 -epsave_oldway -ionicstr 0.1 tric redti tric onde tric é o nome da estrutura da proteína utilizada. Informações detalhadas sobre os diversos parâmetros para a execução dos programas pertencentes ao pacote MEAD, podem ser encontradas no Apêndice C. Uma vez validado o funcionamento dos programas, iniciamos uma série de testes visando avaliar e efeito de cada parâmetro durante a realização dos cálculos, assim como buscar a melhor forma para a configuração de cada arquivo utilizado para o cálculo dos pKa ’s. Inici12 Valores de pKa ’s obtidos da referência (122). de pKa ’s obtidos pelo PROMETHEUS, utilizando todos os arquivos de configuração do exemplo “lysozyme”, distribuído junto com o pacote MEAD. 14 Arquivos de configuração obtidos da referência (208). 15 RMSD entre os valores de pK ’s obtidos pelo portal PROMETHEUS e pelo exemplo do MEAD, após a a execução do programa redti. 16 RMSD entre os valores de pK ’s obtidos utilizando os arquivos de configuração adotados pela referência (208) a em relação ao resultado obtido utilizando os arquivos de configuração adotados por Bashford & Karplus (122). 13 Valores 164 amos nossos testes investigando o efeito do parâmetro -epsave_oldway disponível na execução do programa multiflex. A Tabela 20 exibe a comparação realizada entre os valores de pKa ’s obtidos do exemplo disponibilizado junto com o MEAD, os calculados pelo PROMETHEUS e citados na referência (208), em relação a não utilização deste parâmetro. Para obtenção dos resultados, executamos os programas da seguinte forma: multiflex -epsin 4.0 -ionicstr 0.1 tric redti tric onde tric é o nome da estrutura da proteína utilizada. Note que a ausência do parâmetro epsave_oldway produziu resultados diferentes em relação ao resultado obtido anteriormente (Tabela 19). Dessa forma, os trabalhos atuais devem ser realizados sem essa opção. Veja nos Apêndices C e D os detalhes de cada parâmentro que pode ser utilizado nos programas disponíveis no pacote MEAD, os arquivos de configuração necessários para execução de tais programas e os critérios adotados para a configuração das cargas parciais e raio de cada átomo em função do campo de força escolhido. 165 9 CONCLUSÃO E TRABALHOS FUTUROS Este trabalho visa o desenvolvimento de preditores de complexação proteína–proteína, através da análise das propriedades eletrostáticas (PROMETHEUS) em diferentes níveis preditivos (analítico e Poisson-Boltzmann) e estruturais (MOLESA), que possam ser empregados em larga escala. Pelo lado mais físico, discutimos a importância do meio onde as proteínas se encontram. Sal e pH são dois fatores cruciais que regem a possibilidade de formação de complexos, incluindo a possibilidade de formação de complexos entre proteínas com cargas de mesmo sinal. Desenvolvemos uma nova interface web para ferramentas tradicionais da área e um novo preditor que permitiu bons resultados, quando testado em sistemas onde as interações predominantes são de origem eletrostática. É interessante destacar a possibilidade de se prever a complexação de algumas proteínas empregando apenas a seqüência primária1 delas, indicando que em muitos sistemas a complexação é guiada pelas interações de longo alcance com as proteínas funcionando como se fossem partículas coloidais (interações não específicas). Analisando as freqüências de contatos entre os aminoácidos dos diversos conjuntos de proteínas, percebemos um comportamento parecido entre o conjunto controle e os demais. Além disso observamos uma semelhança na quantidade de aminoácidos de um determinado tipo presentes em todos os conjuntos de proteínas. O desenvolvimento dos portais PROMETHEUS e MOLESA é útil para o estudo e entendimento das contribuições eletrostáticas na formação de complexos e permitindo que se explore também as contribuições das demais interações fundamentais. Além disso, pode ser aplicado em diferentes problemas, do estudo de sistemas específicos a previsão de condições de cristalização e a nascente área de Interactoma Molecular. 1 Em sistemas onde as interações eletrostáticas são as predominantes, modelos simplificados com base na seqüência primária das proteínas apresentam resultados tão bons quanto outros mais complexos como, por exemplo, as simulações computacionais (PB e MC) que utilizam a estrutura 3D da proteína. Além disso, a quantidade de seqüências primárias disponíveis é muito maior do que as estruturas 3D (veja em http: //www.ncbi.nlm.nih.gov/), destacando assim a importância em se ter um preditor inicial de complexos protéicos com base apenas na seqüência primária das proteínas. 166 A flexibilidade dos portais permite que novos níveis de predição sejam adicionados aos mesmos, como por exemplo, o nível 2 ou nível de predição baseado na estrutura 3D da proteína, utilizando Monte Carlo, a inclusão de outras interações físicas, etc. Com o acréscimo do estudo dos potenciais estatísticos integrados ao portal MOLESA, e a sua capacidade de se relacionar com outros serviços (70, 89, 127), teremos um ambiente bastante diversificado para o estudo de sistemas biomoleculares. Por exemplo, a partir das seqüências primárias de duas proteínas será possível prever se elas formarão um complexo, ou ainda com base na estrutura 3D da proteína, identificar o padrão de disposição entre seus resíduos, tornando os portais web uma referência ao estudo destes sistemas, além de gerar conhecimentos nas áreas afins à Biologia Computacional, Física, Bioquímica Molecular e outras, bem como um ambiente de relacionamento comum entre os profissionais das mais diversas áreas do saber. 9.1 Perspectivas de Trabalho Futuro As ferramentas computacionais desenvolvidas neste projeto constituem um passo ini- cial na busca pelo entendimento das interações físicas fundamentais dos sistemas biológicos. Há ainda um longo caminho a ser percorrido, tanto para que se quantifique a real contribuição de cada uma destas interações, como também para que o preditor cumpra suas finalidades com maior porcentagem de acerto. Alguns trabalhos a serem futuros: 1. PROMETHEUS: • Possibilidade de utilização de pKa ’s obtidos de outras fontes, como dados experimentais (por exemplo PropKa) ou outros métodos teóricos; • Criação de scripts com todos os passos utilizados pelo usuário para que o mesmo possa repetir sua simulação apenas re-submetendo esse script, quer original, quer modificado; • Adição de outros campos de força para cálculos de propriedades eletrostáticas das proteínas; • Integração do portal com outros serviços (p.ex. Mohline); • Calibração do modelo para incorporação de outras interações importantes, como as de van der Walls; • Extender os níveis de predição, permitindo cálculos mais confiáveis para o preditor de complexos, por exemplo, MC; 167 • Uso de scripts para lidar com conjuntos grandes de proteínas, permitindo análises metodológicas mais completas, quantificação das diferentes interações em conjuntos de proteínas e aplicação desta ferramenta em vários problemas, como previsão das condições de cristalização, efeitos de mutação, Interactoma Molecular, etc.; • Extensão para sistemas proteína-polieletrólito, proteína-peptídeo e proteínamembrana. 2. MOLESA: • Definição dos critérios de normalização das freqüências de contatos obtidas; • Análise da quantidade de aminoácidos de um determinado tipo nos conjuntos de complexos protéicos, buscando identificar a importância de cada um no processo de complexação; • Construção de novos conjuntos de complexos protéicos dividos por famílias de proteínas e função biológica para posterior análise das freqüências de contatos e potenciais estatísticos; • Comparação dos potencias estatísticos com os obtidos através de observações em trajetórias de simulações com diferentes Hamiltonianas, tanto no nível de MM, como BO. • Teste dos potenciais estatísticos para previsão da complexão. 168 REFERÊNCIAS 1 LEHNINGER, A.; COX, M.; NELSON, D. L. Principles of biochemistry. W.H. Freeman, New York, 2008. 2 NOZAKI, Y.; TANFORD, C. Examination of titration behavior. Methods in Enzymology, v. 11, p. 715–734, 1967. 3 TEIXEIRA, A. A. R.; LUND, M.; DA SILVA, F. L. B. Fast Proton Titration Scheme for Multiscale Modeling of Protein Solutions. Journal of Chemical Theory and Computation, 6, n. 10, p. 3259–3266, OCT 2010. 4 DA SILVA, F. L. B.; JÖNSSON, B. Polyelectrolyte-protein complexation driven by charge regulation. Soft Matter, 5, n. 15, p. 2862–2868, 2009. 5 LUND, M.; JÖNSSON, B. On the charge regulation of proteins. Biochemistry, 44, n. 15, p. 5722–5727, APR 19 2005. 6 KURAMITSU, S.; HAMAGUCHI, K. Analysis of the acid-base titration curve of hen lysozyme. Journal of Biochemistry, 87, n. 4, p. 1215–1219, 1980. 7 BARTIK, K.; REDFIELD, C.; DOBSON, C. Measurement of the individual pK(a) values of acidic residues of hen and turkey lysozymes by 2-dimensional H-1-NMR. Biophysical Journal, 66, n. 4, p. 1180–1184, APR 1994. 8 YOU, T.; BASHFORD, D. Conformation and hydrogen ion titration of proteins: A continuum electrostatic model with conformational flexibility. Biophysical Journal, 69, n. 5, p. 1721–1733, NOV 1995. 9 BROWN, L. R. et al. A study of the lysyl residues in the basic pancreatic trypsin inhibitor using nuclear magnetic resonance at 360 mhz. European Journal of Biochemistry, v. 62, n. 1, p. 103–107, 1976. 10 BROWN, L. R. et al. The influence of a single salt bridge on static and dynamic features of the globular solution conformation of the basic pancreatic trypsin inhibitor. European Journal of Biochemistry, v. 88, n. 1, p. 87–95, 1978. 11 ANTOSIEWICZ, J.; MCCAMMON, J. A.; GILSON, M. K. Prediction of pH-dependent properties of proteins. Journal of Molecular Biology, 238, n. 3, p. 415–436, MAY 6 1994. 12 RICHARZ, R.; WUTHRICH, K. High-field C-13 nuclear magnetic-resonance studies at 90.5 MHZ of basic pancreatic trypsin-inhibitor. Biochemistry, 17, n. 12, p. 2263–2269, 1978. 13 GROSS, M.; KUMAR, R.; HUNZIKER, W. Expression in escherichia-coli of full-length and mutant rat-brain calbindin D28 - comparison with the purified native protein. Journal Of Biological Chemistry, 263, n. 28, p. 14426–14432, OCT 5 1988. 169 14 LUND, M.; JÖNSSON, B. A mesoscopic model for protein-protein interactions in solution. Biophysical Journal, 85, n. 5, p. 2940–2947, NOV 1 2003. 15 HAYNES, C.; SLIWINSKY, E.; NORDE, W. Structural and electrostatic properties of globular-proteins at a polystyrene water interface. Journal of Colloid and Interface Science, 164, n. 2, p. 394–409, MAY 1994. 16 MARQUART, M. et al. The geometry of the reactive site and of the peptide groups in trypsin, trypsinogen and its complexes with inhibitors. Acta Crystallographica Section B-Structural Science, 39, n. AUG, p. 480–490, 1983. 17 RUHLMANN, A. et al. Structure of complex formed by bovine trypsin and bovine pancreatic trypsin-inhibitor - crystal-structure determination and stereochemistry of contact region. Journal of Molecular Biology, 77, n. 3, p. 417–436, 1973. 18 VELEV, O.; KALER, E.; LENHOFF, A. Protein interactions in solution characterized by light and neutron scattering: Comparison of lysozyme and chymotrypsinogen. Biophysical Journal, 75, n. 6, p. 2682–2697, DEC 1998. 19 MEADTOOLS v.1.4: MEAD-based tools to run binding simulations of protons and/or electrons, acessado em agosto/2009. Disponível em: <http://www.itqb.unl.pt/ simulation>. 20 GORDON, J. et al. H++: a server for estimating pK(a)’s and adding missing hydrogens to macromolecules. Nucleic Acids Research, 33, n. Suppl. 2, p. W368–W371, JUL 1 2005. 21 LIU, H. et al. Prediction of the isoelectric point of an amino acid based on GA-PLS and SVMs. Journal of Chemical Information and Computer Sciences, 44, n. 1, p. 161–167, JAN-FEB 2004. 22 VOET, D.; VOET, J. Biochemistry. J. Wiley & Sons, New York, v. 2, 2004. 23 ERCIM News - Bioinformatics Biocomputing, acessado em Abril/2008. Disponível em: <http://www.ercim.org/publication/Ercim_News/enw43/>. 24 SUNYAEV, S. Biocomputing enters its adolescence. Genome Biology, v. 6, p. 325, 2005. 25 KORUGA, D. Biocomputing. System Sciences, 1991. Proceedings of the Twenty-Fourth Annual Hawaii International Conference on, p. 269–275 vol.1, Jan 1991. 26 WOLYNES, P. Computational biomolecular science. Proceedings of the National Academy of Sciences of the United States of America, 95, n. 11, p. 5848, MAY 26 1998. 27 DA SILVA, F. L. B. Interações fundamentais responsáveis pela formação de complexos moleculares de interesse em ciências farmacêuticas e em biotecnologia. 2007. Tese de Livre Docência, Universidade de São Paulo, 2007. 28 COHEN, J. Bioinformatics - an introduction for computer scientists. Acm Computing Surveys, 36, n. 2, p. 122–158, JUN 2004. 29 DANDEKAR, T.; KONIG, R. Computational methods for the prediction of protein folds. Biochimica Et Biophysica Acta-Protein Structure And Molecular Enzymology, v. 1343, p. 1–15, 1997. 170 30 WINTHER, O.; KROGH, A. Teaching computers to fold proteins. Physical Review E, 70, n. 3, Part 1, SEP 2004. 31 PETERSEN, T. et al. Prediction of protein secondary structure at 80% accuracy. Proteins-Structure Function and Genetics, 41, n. 1, p. 17–20, OCT 1 2000. 32 ZHAO, X. Advances on protein folding simulations based on the lattice HP models with natural computing. Applied Soft Computing, 8, n. 2, p. 1029–1040, MAR 2008. 33 DOMINGUES, F.; KOPPENSTEINER, W.; SIPPL, M. The role of protein structure in genomics. Febs Letters, 476, n. 1-2, p. 98–102, JUN 30 2000. 34 HEINEMANN, U. et al. An integrated approach to structural genomics. Progress in Biophysics & Molecular Biology, 73, n. 5, p. 347–362, 2000. 35 GOLDSMITH-FISCHMAN, S.; HONIG, B. Structural genomics: computational methods for structure analysis. Protein Science, 12, n. 9, p. 1813–1821, SEP 2003. 36 GAASTERLAND, T. Structural genomics: bioinformatics in the driver’s seat. Nature Biotechnology, 16, n. 7, p. 625–627, JUL 1998. 37 MOMJIAN, B. Postgresql: introduction and concepts. Addison-Wesley, New York, 2001. 38 LEA, C. PHP MySQL website programming problem, design, solution. Apress, Berkeley, 2002. 39 DEITEL, P.; DEITEL, H. Java: how to program. Prentice Hall, New York, 2007. 40 DOWNEY, T. Web development with java using hibernate, jsps and servlets. Springer, London, 2007. 41 SCHULZ-GASCH, T.; STAHL, M. Scoring functions for protein-ligand interactions: a critical perspective. Drug Discovery Today: Technologies, v. 1, n. 3, p. 231 – 239, 2004. 42 BERMAN, H. et al. The Protein Data Bank. Nucleic Acids Research, 28, n. 1, p. 235–242, JAN 1 2000. 43 BLOMBERG, N. et al. Classification of protein sequences by homology modeling and quantitative analysis of electrostatic similarity. Proteins-Structure Function And Genetics, 37, n. 3, p. 379–387, NOV 15 1999. 44 TAN, Y. H.; HUANG, H.; KIHARA, D. Statistical potential-based amino acid similarity matrices for aligning distantly related protein sequences. Proteins-Structure Function and Bioinformatics, 64, n. 3, p. 587–600, AUG 15 2006. 45 CRIPPEN, G. Easily searched protein folding potentials. Journal of Molecular Biology, 260, n. 3, p. 467–475, JUL 19 1996. 46 KUNDROTAS, P. J.; ALEXOV, E. Electrostatic properties of protein-protein complexes. Biophysical Journal, 91, n. 5, p. 1724–1736, SEP 2006. 47 SAKAE, Y.; OKAMOTO, Y. Optimization of protein force-field parameters with the Protein Data Bank. Chemical Physics Letters, 382, n. 5-6, p. 626–636, DEC 15 2003. 171 48 REDFERN, O. C.; DESSAILLY, B.; ORENGO, C. A. Exploring the structure and function paradigm. Current Opinion in Structural Biology, v. 18, n. 3, p. 394 – 402, 2008. 49 BERMAN, H. et al. The Protein Data Bank. Acta Crystallographica Section D-Biological Crystallography, 58, n. Part 6 Sp. Iss. 1, p. 899–907, JUN 2002. 50 TATENO, Y. et al. DNA data bank of Japan at work on genome sequence data. Nucleic Acids Research, 26, n. 1, p. 16–20, JAN 1 1998. 51 BENSON, D. A. et al. GenBank. Nucleic Acids Research, 36, n. Sp. Iss. SI, p. D25–D30, JAN 2008. 52 MODA, T. L. et al. PK/DB: database for pharmacokinetic properties and predictive in silico ADME models. Bioinformatics, 24, n. 19, p. 2270–2271, OCT 1 2008. 53 BERMAN, H. et al. The nucleic-acid database - a comprehensive relational database of 3-dimensional structures of nucleic-acids. Biophysical Journal, 63, n. 3, p. 751–759, SEP 1992. 54 SPJUTH, O. et al. Bioclipse: an open source workbench for chemo- and bioinformatics. BMC Bioinformatics, 8, FEB 22 2007. 55 ZAINOL, Z. et al. A system to integrate and manipulate protein database using bioperl and XML. Proceedings of World Academy of Science, Engineering and Technology, VOL 6, p. 217–220, 2005. 56 STAJICH, J. et al. The bioperl toolkit: Perl modules for the life sciences. Genome Research, 12, n. 10, p. 1611–1618, OCT 2002. 57 HOLLAND, R. C. G. et al. BioJava: an open-source framework for bioinformatics. Bioinformatics, 24, n. 18, p. 2096–2097, SEP 15 2008. 58 COCK, P. J. A. et al. Biopython: freely available Python tools for computational molecular biology and bioinformatics. Bioinformatics, 25, n. 11, p. 1422–1423, JUN 1 2009. 59 MURZIN, A. et al. SCOP - a structural classification of proteins database for the investigation of sequences and structures. Journal of Molecular Biology, 247, n. 4, p. 536–540, APR 7 1995. 60 NESHICH, G. et al. STING Millennium: a web-based suite of programs for comprehensive and simultaneous analysis of protein structure and sequence. Nucl. Acids Res., v. 31, n. 13, p. 3386–3392, 2003. 61 CUFF, A. L. et al. The CATH classification revisited-architectures reviewed and new ways to characterize structural divergence in superfamilies. Nucleic Acids Research, 37, n. Sp. Iss. SI, p. D310–D314, JAN 2009. 62 PROTEIN Data Bank Contents Guide: Atomic Coordenate Entry Format Description. 2006. Disponível em: <http://www.wwpdb.org/documentation/format3.0. 1-dif.pdf>. 63 OSGUTHORPE, D. Ab initio protein folding. Current Opinion in Structural Biology, 10, n. 2, p. 146–152, APR 2000. 172 64 HOOFT, R. et al. Errors in protein structures. Nature, 381, n. 6580, p. 272, MAY 23 1996. 65 UPPSALA Software Factory, acessado em dezembro/2009. Disponível em: <http: //alpha2.bmc.uu.se/~gerard/manuals/>. 66 HOOFT, R.; SANDER, C.; VRIEND, G. Verification of protein structures: Side-chain planarity. Journal of Applied Crystallography, 29, n. Part 6, p. 714–716, DEC 1 1996. 67 SACCENTI, E.; ROSATO, A. The war of tools: how can NMR spectroscopists detect errors in their structures? Journal of Biomolecular NMR, 40, n. 4, p. 251–261, APR 2008. 68 VRIEND, G.; SANDER, C. Quality-control of protein models - directional atomic contact analysis. Journal of Applied Crystallography, 26, n. Part 1, p. 47–60, FEB 1 1993. 69 VRIEND, G. WHAT IF - a molecular modeling and drug design program. Journal of Molecular Graphics, 8, n. 1, p. 52–&, MAR 1990. 70 DOLINSKY, T. et al. PDB2PQR: an automated pipeline for the setup of PoissonBoltzmann electrostatics calculations. Nucleic Acids Research, 32, n. Suppl. 2, p. W665–W667, JUL 1 2004. 71 DOLINSKY, T. J. et al. PDB2PQR: expanding and upgrading automated preparation of biomolecular structures for molecular simulations. Nucleic Acids Research, 35, n. Suppl. S, p. W522–W525, JUL 2007. 72 LI, H.; ROBERTSON, A.; JENSEN, J. Very fast empirical prediction and rationalization of protein pK(a) values. Proteins-Structure Function and Bioinformatics, 61, n. 4, p. 704–721, DEC 1 2005. 73 BAS, D. C.; ROGERS, D. M.; JENSEN, J. H. Very fast prediction and rationalization of pK(a) values for protein-ligand complexes. Proteins-Structure Function And Bioinformatics, 73, n. 3, p. 765–783, NOV 15 2008. 74 WEINER, P.; KOLLMAN, P. AMBER - assisted model-building with energy refinement - a general program for modeling molecules and their interactions. Journal of Computational Chemistry, 2, n. 3, p. 287–303, 1981. 75 WANG, J.; CIEPLAK, P.; KOLLMAN, P. How well does a restrained electrostatic potential (RESP) model perform in calculating conformational energies of organic and biological molecules? Journal of Computational Chemistry, 21, n. 12, p. 1049–1074, SEP 2000. 76 DUAN, Y. et al. A point-charge force field for molecular mechanics simulations of proteins based on condensed-phase quantum mechanical calculations. Journal Of Computational Chemistry, 24, n. 16, p. 1999–2012, DEC 2003. 77 BASHFORD, D. Macroscopic electrostatics with atomic detail (MEAD): Applications to biomacromolecules. Biomacromolecules: From 3-D Structure to Applications, p. 53–68, 1997. 78 LYSKOV, S.; GRAY, J. J. The RosettaDock server for local protein-protein docking. Nucleic Acids Research, 36, n. Suppl. S, p. W233–W238, JUL 2008. 173 79 MITEVA, M.; TUFFERY, P.; VILLOUTREIX, B. PCE: web tools to compute protein continuum electrostatics. Nucleic Acids Research, 33, n. Suppl. 2, p. W372–W375, JUL 1 2005. 80 BAKER, N. Poisson-Boltzmann methods for biomolecular electrostatics. Methods in Enzymology, 383, p. 94–118, 2004. 81 BAKER, N. Biomolecular applications of Poisson-Boltzmann methods. Reviews in Computational Chemistry, 21, p. 349–379, 2005. 82 SAYYED-AHMAD, A.; MIAO, Y.; ORTOLEVA, P. Poisson-Boltzmann theory of bionanosystems. Communications in Computational Physics, 3, n. 5, p. 1100–1116, MAY 2008. 83 SITKOFF, D.; SHARP, K.; HONIG, B. Accurate calculation of hidration free-energies using macroscopic solvent models. Journal Of Physical Chemistry, 98, n. 7, p. 1978–1988, FEB 17 1994. 84 SITKOFF, D.; BENTAL, N.; HONIG, B. Calculation of alkane to water solvation free energies using continuum solvent models. Journal of Physical Chemistry, 100, n. 7, p. 2744–2752, FEB 15 1996. 85 JENSEN, L. J. et al. STRING 8-a global view on proteins and their functional interactions in 630 organisms. Nucleic Acids Research, 37, n. Sp. Iss. SI, p. D412–D416, JAN 2009. 86 QIN, S.; ZHOU, H.-X. meta-PPISP: a meta web server for protein-protein interaction site prediction. Bioinformatics, 23, n. 24, p. 3386–3387, DEC 15 2007. 87 KANTARDJIEV, A. A.; ATANASOV, B. P. PHEPS: web-based pH-dependent protein electrostatics server. Nucleic Acids Research, 34, n. Sp. Iss. SI, p. W43–W47, JUL 1 2006. 88 TINA, K. G.; BHADRA, R.; SRINIVASAN, N. PIC: protein interactions calculator. Nucleic Acids Research, 35, n. Suppl. S, p. W473–W476, JUL 2007. 89 CAVALCANTI, M. et al. Structural genomic workflows supported by web services. 14TH International Workshop on Database and Expert Systems Applications, PROCEEDINGS, p. 45–49, 2003. 90 CAVALCANTI, M. et al. Managing structural genomic workflows using Web services. Data & Knowledge Engineering, 53, n. 1, p. 45–74, APR 2005. 91 YE, A. Q. Complexation between milk proteins and polysaccharides via electrostatic interaction: principles and applications - a review. International Journal of Food Science and Technology, v. 43, n. 3, p. 406–415, 2008. 92 SELKOE, D. J. Folding proteins in fatal ways. Nature, v. 426, n. 6968, p. 900–904, DEC 2003. 93 DOBSON, C. M. Protein folding and misfolding. Nature, v. 426, n. 6968, p. 884–890, DEC 2003. 94 DEVLIN, T. M. Textbook of biochemistry with clinical correlations. Wiley-Liss, Hoboken, NJ, 2006. 174 95 CHITI, F.; DOBSON, C. M. Protein misfolding, functional amyloid, and human disease. Annual Review of Biochemistry, v. 75, n. 1, p. 333–366, 2006. 96 WEBER, P. Physical principles of protein crystallization. Advances in Protein Chemistry, 41, p. 1–36, 1991. 97 GIEGE, R. et al. Crystallogenesis of biological macromolecules. biological, microgravity and other physico-chemical aspects. Progress in Crystal Growth and Characterization of Materials, v. 30, n. 4, p. 237 – 281, 1995. 98 NARAYANAN, J.; LIU, X. Protein interactions in undersaturated and supersaturated solutions: a study using light and x-ray scattering. Biophysical Journal, v. 84, n. 1, p. 523 – 532, 2003. 99 MOON, Y. et al. Protein-protein interactions in aqueous ammonium sulfate solutions. lysozyme and bovine serum albumin(BSA). Journal of Solution Chemistry, 29, n. 8, p. 699–717, MAR 2000. 100 ALOMIRAH, H. F.; ALLI, I. Separation and characterization of [beta]-lactoglobulin and [alpha]-lactalbumin from whey and whey protein preparations. International Dairy Journal, v. 14, n. 5, p. 411 – 419, 2004. 101 TANFORD, C. Physical chemistry of macromolecules. John Wiley Sons, New York, 1961. 102 PACE, C. N.; GRIMSLEY, G. R.; SCHOLTZ, J. M. Protein ionizable groups: pK values and their contribution to protein stability and solubility. Journal of Biological Chemistry, v. 284, n. 20, p. 13285–13289, 2009. 103 STRYKER, M.; BERTOLINI, M.; HAO, Y. Blood fractionation: proteins. Advances in biotechnological processes, v. 4, p. 276–336, 1985. 104 JERVIS, L.; PIERPOINT, W. Purification technologies for plant proteins. Journal of Biotechnology, v. 11, n. 2-3, p. 161 – 198, 1989. 105 LAMBERT, P.; MEERS, J. The production of industrial enzymes. Philosophical Transactions of the Royal Society of London Series B-Biological Sciences, 300, n. 1100, p. 263–282, 1983. 106 ISRAELACHVILI, J. N. Intermolecular and surface forces. Academic Press, San Diego, 1992. 107 JÖNSSON, B.; LUND, M.; DA SILVA, F. L. B. Electrostatics in macromolecular solutions. Food Colloids: Self-assembly and Material Science, 302, p. 129–154, 2007. 108 DA SILVA, F. L. B.; OLIVARES-RIVAS, W.; COLMENARES, P. J. Basic statistics and variational concepts behind the reverse Monte Carlo technique. Molecular Simulation, 33, n. 8, p. 639–647, 2007. 109 MCGREEVY, R. L.; PUSZTAI, L. Reverse monte carlo simulation: a new technique for the determination of disordered structures. Molecular Simulation, v. 1, p. 359–367, 1988. 110 LYBRAND, T. Ligand protein docking and rational drug design. Current Opinion in Structural Biology, 5, n. 2, p. 224–228, APR 1995. 175 111 FRIEDMAN, H. Electrolyte-solutions at equilibrium. Annual Review of Physical Chemistry, 32, p. 179–204, 1981. 112 MIYAZAWA, S.; JERNIGAN, R. Estimation of effective interresidue contact energies FROM protein crystal-structures - quasi-chemical approximation. Macromolecules, 18, n. 3, p. 534–552, 1985. 113 MIYAZAWA, S.; JERNIGAN, R. Residue-residue potentials with a favorable contact pair term and an unfavorable high packing density term, for simulation and threading. Journal of Molecular Biology, 256, n. 3, p. 623–644, MAR 1 1996. 114 MASSO, M. Accurate prediction of stability alterations in single-site protein mutants based on a novel computational mutagenesis. Biophysical Journal, n. Suppl. S, p. 217A, JAN 2007. 115 KARLIN, S.; ALTSCHUL, S. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proceedings of the National Academy of Sciences of the United States of America, 87, n. 6, p. 2264–2268, MAR 1990. 116 THOMAS, P.; DILL, K. Statistical potentials extracted from protein structures: How accurate are they? Journal of Molecular Biology, 257, n. 2, p. 457–469, MAR 29 1996. 117 BENNAIM, A. Statistical potentials extracted from protein structures: Are these meaningful potentials? Journal of Chemical Physics, 107, n. 9, p. 3698–3706, SEP 1 1997. 118 HONIG, B. Protein folding: from the Levinthal paradox to structure prediction. Journal of Molecular Biology, 293, n. 2, p. 283–293, OCT 22 1999. 119 GARCIAMORENO, B. Probing structural and physical basis of protein energetics linked to protons and salt. Methods in Enzymology, 259, p. 512–538, 1995. 120 MATTHEW, J. et al. pH-dependent processes in proteins. CRC Critical Reviews in Biochemistry, 18, n. 2, p. 91–197, 1985. 121 SHARP, K. Electrostatic interactions in macromolecules. Current Opinion in Structural Biology, 4, n. 2, p. 234–239, APR 1994. 122 BASHFORD, D.; KARPLUS, M. pKas of ionizable groups in proteins - atomic detail from a continuum electrostatic model. Biochemistry, 29, n. 44, p. 10219–10225, NOV 6 1990. 123 NICHOLLS, A.; HONIG, B. A RAPID finite-difference algorithm, utilizing successive over-relaxation to solve the Poisson-Boltzmann equation. Journal of Computational Chemistry, 12, n. 4, p. 435–445, MAY 1991. 124 NICHOLLS, A.; SHARP, K.; HONIG, B. Protein folding and association - insights from the interfacial and thermodynamic properties of hydrocarbons. Proteins-Structure Function and Genetics, 11, n. 4, p. 281–296, 1991. 125 NICHOLLS, A.; BHARADWAJ, R.; HONIG, B. GRASP - graphical representation and analysis of surface-properties. Biophysical Journal, 64, n. 2, Part 2, p. A166, FEB 1993. 126 MADURA, J. et al. Electrostatics and diffusion of molecules in solution - simulations with the university-of-houston brownian dynamics program. Computer Physics Communications, 91, n. 1-3, p. 57–95, SEP 1995. 176 127 SPOEL, D. Van der et al. GROMACS: Fast, flexible, and free. Journal of Computational Chemistry, 26, n. 16, p. 1701–1718, DEC 2005. 128 TANAKA, H. A. S. S. Medium-and long-range interaction parameters between amino acids for predicting three-dimensional structures of proteins. Macromolecules, v. 9, p. 945–950, 1976. 129 SIPPL, M. Calculation of conformational ensembles from potentials of mean force - an approach to the knowledge-based prediction of local structures in globular-proteins. Journal of Molecular Biology, 213, n. 4, p. 859–883, JUN 20 1990. 130 JIANG, L. et al. Potential of mean force for protein-protein interaction studies. Proteins-Structure Function and Genetics, 46, n. 2, p. 190–196, FEB 1 2002. 131 SU, Y. et al. An improved method of potential of mean force for protein-protein interactions. Chinese Science Bulletin, v. 53, p. 1145–1151, 2008. 132 DAHIREL, V. et al. Toward the description of electrostatic interactions between globular proteins: potential of mean force in the primitive model. Journal of Chemical Physics, 127, n. 9, SEP 7 2007. 133 TAYLOR, N.; SMITH, R. The World Wide Web as a graphical user interface to program macros for molecular graphics, molecular modeling, and structure-based drug design. Journal of Molecular Graphics & Modelling, 14, n. 5, p. 291–&, OCT 1996. 134 GERT Vriend home page, acessado em dezembro/2008. Disponível em: <http: //swift.cmbi.ru.nl/gv/start/index.html>. 135 ALLEN, J. P. Biophysical chemistry. wiley-blackwell, Oxford, 2008. 136 BECKER, E. D. High resolution nmr: theory and chemical applications. Academic Press, San Diego, 2000. 137 DA SILVA, F. L. B. Statistical mechanics studies of aqueous solutions and biomolecular systems. Lund University: Sweden, 2000. 138 FRIEDMAN, H. L. Ion-ion and ion-solvent interactions - introduction. Faraday Discussions, v. 64, p. 7–15, 1977. 139 FRENKEL, D.; SMIT, B. Understanding molecuar simulation: from algorihthms to applications. Academic Press, San Diego, 2002. 140 FOGOLARI, F.; BRIGO, A.; MOLINARI, H. The Poisson-Boltzmann equation for biomolecular electrostatics: a tool for structural biology. Journal of Molecular Recognition, 15, n. 6, p. 377–392, NOV-DEC 2002. 141 VLACHY, V. Ionic effects beyond Poisson-Boltzmann theory. Annual Review of Physical Chemistry, 50, p. 145–165, 1999. 142 MCQUARRIE, D. A. Statistical mechanics. University Science Books, Sausalito, Calif., 2000. 177 143 FONSECA, F.; FRANCO, A. Study of complex charge distributions in an electrolyte using the Poisson-Boltzmann equation by lattice-Boltzmann method. Microelectronics Journal, 39, n. 11, p. 1224–1225, NOV 2008. 144 BASHFORD, D. Macroscopic electrostatic models for protonation states in proteins. Frontiers In Bioscience, 9, p. 1082–1099, MAY 2004. 145 SOARES, T.; FERREIRA, R. Applications of the Poisson-Boltzmann equation to the calculation of pH-dependent properties in proteins. QUIMICA NOVA, 27, n. 4, p. 640–647, JUL-AUG 2004. 146 LU, B. Z. et al. Recent progress in numerical methods for the Poisson-Boltzmann equation in biophysical applications. Communications in Computational Physics, 3, n. 5, p. 973–1009, MAY 2008. 147 DAVIS, M.; MCCAMMON, J. Electrostatics in biomolecular structure and dynamics. Chemical Reviews, 90, n. 3, p. 509–521, MAY 1990. 148 WARWICKER, J.; WATSON, H. Calculation of the electric-potential in the active-site cleft due to alpha-helix dipoles. Journal of Molecular Biology, 157, n. 4, p. 671–679, 1982. 149 BROOKS, B. et al. CHARMM - a program for macromolecular energy, minimization, and dynamics calculations. Journal of Computational Chemistry, 4, n. 2, p. 187–217, 1983. 150 ROUX, B.; SIMONSON, T. Implicit solvent models. Biophysical Chemistry, 78, n. 1-2, p. 1–20, APR 5 1999. 151 HILL, T. L. Statistical mechanics: principles and selected applications. New York, 1987. 152 NIJBOER, B.; VANHOVE, L. Radial distribution function of a gas of hard spheres and the superposition approximation. Physical Review, 85, n. 5, p. 777–783, 1952. 153 TRZESNIAK, D.; KUNZ, A.-P. E.; GUNSTEREN, W. F. van. A comparison of methods to compute the potential of mean force. Chemphyschem, 8, n. 1, p. 162–169, JAN 8 2007. 154 LEACH, A. R. Molecular modelling: principles and applications. Prentice Hall, England, 2001. 155 GUNSTEREN, W. F. Biomolecular simulation: The GROMOS96 manual and user guide. 1996. 156 CHRISTEN, M. et al. The GROMOS software for biomolecular simulation: GROMOS05. Journal of Computational Chemistry, 26, n. 16, p. 1719–1751, DEC 2005. 157 TAN, C.; YANG, L.; LUO, R. How well does Poisson-Boltzmann implicit solvent agree with explicit solvent? A quantitative analysis. Journal of Physical Chemistry B, 110, n. 37, p. 18680–18687, SEP 21 2006. 158 SVENSSON, B.; JÖNSSON, B.; WOODWARD, C. Electrostatic contributions to the binding of Ca2+ in calbindin mutants: A monte carlo study. Biophysical Chemistry, v. 38, n. 1-2, p. 179 – 183, 1990. 159 DE CARVALHO, S. J. Estudo metodológico dos aspectos eletrostáticos da interação ligante-biomolécula. 2003. Dissertação de Mestrado, Universidade Estadual Paulista, 2003. 178 160 OOSTENBRINK, C. et al. Validation of the 53A6 GROMOS force field. European Biophysics Journal With Biophysics Letters, 34, n. 4, p. 273–284, JUN 2005. 161 HESS, B. et al. GROMACS 4: algorithms for highly efficient, load-balanced, and scalable molecular simulation. Journal of Chemical Theory and Computation, 4, n. 3, p. 435–447, MAR 2008. 162 DUNFIELD, L.; BURGESS, A.; SCHERAGA, H. Energy parameters in polypeptides .8. Empirical potential-energy algorithm for conformational-analysis of large molecules. Journal of Physical Chemistry, 82, n. 24, p. 2609–2616, 1978. 163 GUNSTEREN, W. F.; BERENDSEN, H. J. C. Groningen molecular simulation (GROMOS) library manual. 1987. 164 SORENSEN, S. Enzyme studies - note II - the measurement and the significance of hydrogenic concentrate in enzymatic processes. Biochemische Zeitschrift, 21, p. 131–304, 1909. 165 HE, Y.; XU, J.; PAN, X.-M. A statistical approach to the prediction of pK(a) values in proteins. Proteins-Structure Function and Bioinformatics, 69, n. 1, p. 75–82, OCT 2007. 166 SPITZNER, N. et al. Ionization properties of titratable groups in ribonuclease T-1 - I. pK(a) values in the native state determined by two-dimensional heteronuclear NMR spectroscopy. European Biophysics Journal With Biophysics Letters, 30, n. 3, p. 186–197, 2001. 167 LAURENTS, D. et al. Charge-charge interactions are key determinants of the pK values of ionizable groups in ribonuclease Sa (pI=3.5) and a basic variant (pI=10.2). Journal of Molecular Biology, 325, n. 5, p. 1077–1092, JAN 31 2003. 168 LEE, A. C.; CRIPPEN, G. M. Predicting pK(a). Journal of Chemical Information and Modeling, 49, n. 9, p. 2013–2033, SEP 2009. 169 THURLKILL, R. et al. pK values of the ionizable groups of proteins. Protein Science, 15, n. 5, p. 1214–1218, MAY 2006. 170 PATRICKIOS, C.; YAMASAKI, E. Polypeptide amino-acid-composition and isoelectric point .2. comparison between experiment and theory. Analytical Biochemistry, 231, n. 1, p. 82–91, OCT 10 1995. 171 CREIGHTON, T. E. Proteins: structures and molecular properties. W. E. Freeman and Company, New York, 1993. 172 LUND, M.; TRULSSON, M.; PERSSON, B. Faunus: An object oriented framework for molecular simulation. Source Code for Biology and Medicine, v. 3, n. 1, p. 1, 2008. 173 APOSTOL, T. M. Calculus, vol. 2: Multi-variable calculus and linear algebra with applications. John Wiley & Sons, New York, 1969. 174 PAN, X.-Y.; ZHANG, Y.-N.; SHEN, H.-B. Large-scale prediction of human proteinprotein interactions from amino acid sequence based on latent topic features. Journal of Proteome Research, v. 9, n. 10, p. 4992–5001, 2010. 179 175 YU, C.-Y.; CHOU, L.-C.; CHANG, D. Predicting protein-protein interactions in unbalanced data using the primary structure of proteins. BMC Bioinformatics, v. 11, n. 1, p. 167, 2010. 176 CHEN, P.; LI, J. Sequence-based identification of interface residues by an integrative profile combining hydrophobic and evolutionary information. BMC Bioinformatics, v. 11, n. 1, p. 402, 2010. 177 SILVA, A.; GOMIDE, C. Metodologia e projeto de software orientados a objetos. Érica, São Paulo, 2003. 178 MICHAEL, B.; JAMES, R. Object-oriented modeling and design with uml. Pearson Education, Upper Saddle River, NJ, 2005. 179 DOUGLAS, K.; DOUGLAS, S. Postgresql: the comprehensive guide to building, programming, and administering postgresql databases. Sams publishing, Indianopolis, 2006. 180 PGADMIN III, acessado em maio/2009. Disponível em: <http://www.pgadmin. org/docs/1.8/index.html>. 181 LAURIE, B.; LAURIE, P. Apache: the definitive guide. O’Reilly, Sebastopol, 2003. 182 BRITTAN, J.; DARWIN, I. F. Tomcat: the definitive guide. O’Reilly, Sebastopol, 2007. 183 FLAIG, R. M. Bioinformatics programming in python: a practical course for beginners. Pasteur Institute, 2008. 184 GNUPLOT home page, acessado em outubro/2008. Disponível em: <http: //www.gnuplot.info>. 185 MACKERELL, A. et al. All-atom empirical potential for molecular modeling and dynamics studies of proteins. Journal of Physical Chemistry B, 102, n. 18, p. 3586–3616, APR 30 1998. 186 WILKINS, M. R. et al. Protein identification and analysis tools in the expasy server. 2-D Proteome Analysis Protocols, Humana Press Inc, v. 112, p. 531–552, 1999. 187 JUFFER, A.; VOGEL, H. pK(a) calculations of calbindin D-9k: Effects of Ca2+ binding, protein dielectric constant, and ionic strength. Proteins-Structure Function And Genetics, 41, n. 4, p. 554–567, DEC 1 2000. 188 KESVATERA, T. o. et al. Ionization behavior of acidic residues in calbindin D9k. Proteins: Structure, Function, and Genetics, v. 37, n. 1, p. 106–115, 1999. 189 ANTOSIEWICZ, J.; MCCAMMON, J. A.; GILSON, M. K. The determinants of pKa’s in proteins. Biochemistry, v. 35, n. 24, p. 7819–7833, jan. 1996. 190 DE CARVALHO, S.; FENLEY, M.; DA SILVA, F. L. B. Protein-ion binding process on finite macromolecular concentration. A Poisson-Boltzmann and Monte Carlo study. Journal of Physical Chemistry B, 112, n. 51, p. 16766–16776, 2008. 191 NIR, S. Van der waals interactions between surfaces of biological interest. Progress in Surface Science, v. 8, n. 1, p. 1 – 58, 1977. 180 192 ISHIKAWA, Y.; KATOH, Y.; OHSHIMA, H. Colloidal stability of aqueous polymeric dispersions: Effect of ph and salt concentration. Colloids and Surfaces B-Biointerfaces, Elsevier Science Bv, v. 42, n. 1, p. 53–58, abr. 2005. 193 PERUTZ, M. Electrostatic effects in proteins. Science, 201, n. 4362, p. 1187–1191, 1978. 194 KIRKWOOD, J.; SHUMAKER, J. Forces between protein molecules in solution arising from fluctuations in proton charge and configuration. Proceeding of the National Academy of Science of the United States of America, 38, n. 10, p. 863–871, 1952. 195 LIN, M. S.; FAWZI, N. L.; HEAD-GORDON, T. Hydrophobic potential of mean force as a solvation function for protein structure prediction. Structure, 15, n. 6, p. 727–740, JUN 2007. 196 NEGI, S. S.; BRAUN, W. Statistical analysis of physical-chemical properties and prediction of protein-protein interfaces. Journal of Molecular Modeling, 13, n. 11, p. 1157–1167, NOV 2007. 197 LIANG, S. et al. Construction of protein binding sites in scaffold structures. Biopolymers, 54, n. 7, p. 515–523, FEB 2000. 198 STALLINGS, W. Computer organization and architecture : designing for performance. Prentice Hall, Upper Saddle River, 2003. 199 JFREECHART, acessado em dezembro/2008. Disponível em: <http://www. jfree.org/jfreechart/>. 200 ORIGIN. Novembro 2008. Disponível em: <http://www.originlab.com/>. 201 MICROSOFT dot net, acessado em julho/2008. Disponível em: <http: //www.microsoft.com/net/>. 202 PHP: Hypertext Processor, acessado em maio/2008. Disponível em: <http: //www.php.net/>. 203 ASP: Application Service Provider, acessado em julho/2008. Disponível em: <http://www.aspbrasil.com.br/>. 204 RUBY, acessado em maio/2008. Disponível em: <http://www.ruby-lang.org/ pt>. 205 SUN microsystems / ORACLE, acessado em junho/2010. Dezembro. Disponível em: <http://br.sun.com/>. 206 CHANG, R. Physical chemistry with applications to biological systems. University Science Books, Sausalito, Calif., p. 659, 2000. 207 NEAL, B.; ASTHAGIRI, D.; LENHOFF, A. Molecular origins of osmotic second virial coefficients of proteins. Biophysical Journal, 75, n. 5, p. 2469–2477, NOV 1998. 208 JUFFER, A.; ARGOS, P.; VOGEL, H. Calculating acid-dissociation constants of proteins using the boundary element method. Journal of Physical Chemistry B, 101, n. 38, p. 7664–7673, SEP 18 1997. 181 209 GNU General Public License, acessado em maio/2010. Disponível em: <http: //www.gnu.org/copyleft/gpl.html>. 210 ARCHONTIS, G.; SIMONSON, T. Proton binding to proteins: A free-energy component analysis using a dielectric continuum model. Biophysical Journal, 88, n. 6, p. 3888–3904, JUN 2005. 211 SHAM, Y.; CHU, Z.; WARSHEL, A. Consistent calculations of pK(a)’s of ionizable residues in proteins: Semi-microscopic and microscopic approaches. Journal of Physical Chemistry B, 101, n. 22, p. 4458–4472, MAY 29 1997. 212 CZODROWSKI, P. et al. Development, validation, and application of adapted PEOE charges to estimate pK(a) values of functional groups in protein-ligand complexes. Proteins-Structure Function And Bioinformatics, 65, n. 2, p. 424–437, NOV 1 2006. 182 APÊNDICE A -- Avaliação dos serviços disponíveis na web Este apêndice exibe algumas ferramentas diposníveis na web, as quais possibilitam o tratamento de moléculas biológicas. Vizando familiarizar o leitor com as principais características desses sistemas, assim como suas limitações, efetuamos testes e avaliamos o desempenho da ferramenta. Um sumário é descrito a seguir: a) PDB2PQR (70, 71): O tempo de resposta é bastante satisfatório, em torno de 30 segundos para a proteína calbindina (3ICB) utilizando o campo de força CHARMM (185). Uma das limitações apresentadas por esta ferramenta é que ela não é capaz de criar o arquivo PQR quando a estrutura está incompleta (faltando átomos). Veja, por exemplo, a resposta que o sistema nos apresenta quando solicitamos a criação um arquivo PQR com uma estrutura (4HTC) que não possui alguns átomos: “ValueError: Too few atoms present to reconstruct or cap residue GLY H 246 in structure! This error is generally caused by missing backbone atoms in this protein; you must use an external program to complete gaps in the protein backbone.”. b) H++ (20): Possui uma interface web amigável, assim como o tempo de resposta, qualidade das imagens e interatividade com o usuário. Assim como o PDB2PQR, o H++ não realiza os cálculos para estruturas incompletas. Veja a resposta do sistema para a mesma estrutura testada no PDB2PQR: “The following error message may help you identify the location of the error in the PDB/PQR input file FAILURE: Sequence discontinuity occured between residues 217 and 219 at the line ATOM 2079 N GLY H 219 62.239 17.448 60.532 1.00 27.99 N”. c) WHATIF (69, 134): Embora sua interface gráfica seja bastante rudimentar e um pouco confusa, o WHATIF é um pacote bastante completo para análises de estruturas de biomoléculas. O pacote é divido em módulos (classes), os quais possuem várias ferramentas (links). Fizemos um teste com a ferramenta disponível no link “Add Protons to the Structure” da classe “Hidrogen (Bonds)”. Embora a estrutura testada (código PDB: 4HTC) 183 apresente erros, o WHATIF foi capaz de adicionar os átomos de hidrogênio à estrutura. Ao final do processamento dois arquivos foram exibidos: hadded.pdb e htopo.log. O primeiro apresenta o arquivo PDB com os átomos de hidrogênio adicionados; o segundo, o arquivo de topologia utilizado para inserção dos átomos de hidrogênio com base no campo de força GROMOS. d) RosettaDock (78): O uso da ferramenta é bastante simples, porém muito dependente do usuário. Por exemplo, é necessário enviar para a ferramenta o arquivo PDB a ser processado. A ferramenta não obtém a estrutura da proteína diretamente do PDB, como faz a ferramenta que desenvolvemos. O RosettaDock não consegue selecionar automaticamente os modelos da estrutura (quando esta é resolvida por NMR), o usuário precisa editar o arquivo PDB, deixando apenas o modelo a ser trabalhado e assim submeter o arquivo ao servidor, enquanto que na nossa ferramenta o usuário apenas informa qual o modelo (através do número do modelo: 0, 1, ... N) o qual gostaria de trabalhar. Não inclui o mecanismo de regulação de cargas, que é fundamental para a complexação em alguns regimes de pHs. e) PCE (79): A cada dez segundos a página de resposta solicita uma atualização automática para obter o resultado. Este fato exibe uma pequena imprecisão em relação ao tempo estimado para o processamento além de gerar tráfego desnecessário na rede. Assim como no PDB2PQR e H++, não é possível realizar o estudo quando a estrutura da proteína não está completa. A submissão da estrutura de código PDB 4HTC resultou a seguinte mensagem: “Computation aborted - Missing backbone atoms for residue GLY246H: CA”. 184 APÊNDICE B -- Descrição das principais classes desenvolvidas Este apêndice tem como objeto prover uma pequena descrição das principais classes desenvolvidas e suas funções, focando principalmente na organização do código e metodologia orientada a objetos. Nenhum código fonte será exibido. Futuramente estaremos disponibilizando as classes sob os termos da GNU (209). 1. FcfrpPDBDatabase: Esta classe tem por finalidade criar, a partir de um conjunto de resultados (resultSet), as estruturas de dados que serão utilizadas pela aplicação. Ela funciona como uma interface entre os dados disponíveis no nosso banco de dados e os dados que estarão disponíveis para serem manipulados pela aplicação, permitindo que a aplicação seja independente da fonte de dados. 2. FcfrpAminoTopol: Contém a especificação da topologia de cada resíduo, por exemplo, a quantidade de átomos de cada resíduo no seu estado isolado. Esta classe é utilizada durante a fase de validação de uma estrutura. 3. FcfrpValidation: Classe responsável por validar uma estrutura. Esta classe verifica se há resíduos e/ou átomos faltantes, se há átomos duplicados e se há resíduos desconhecidos. Para cada problema encontrado é criado uma lista que contém os detalhes dos erros, por exemplo, a posição no campo SEQRES do arquivo PDB de um resíduo ausente no campo ATOM do arquivo PDB. 4. FcfrpConfig: Classe responsável pela configuração da aplicação. Os parâmetros de configuração ficam armazenados em um arquivo texto que pode ser editado conforme as preferências do usuário. Por exemplo, é possível definir em qual diretório será salvo os arquivos advindos do PDB, os arquivos utilizados pelo MEAD, e outros. 5. FcfrpPDBBIO: Responsável por criar um arquivo no formato PDB, a partir de informações obtidas do banco de dados local. Tal arquivo pode ser compartilhado com diversos 185 usuários e/ou sistemas de computação da mesma forma como um arquivo PDB original e com as vantagens de já possuir sua estrutura validada por nosso teste de consistência bem como os átomos de hidrogênio. 6. FcfrpPDBParser: Classe responsável por criar uma estrutura de dados (Parser) a partir dos dados disponíveis no banco de dados local. Este Parser cria uma estrutura de dados igual a estrutura de dados criada pelo Parser do Biopython. Isso proporciona algumas flexibilidades para nossa aplicação: 1) possibilidade de utilizar a estrutura provida pelo Biopython tanto para dados contidos em arquivos no formato PDB, quando para os dados disponíveis no nosso banco de dados; 2) qualquer aplicação que já utiliza o Biopython para manipulação de estrutura de proteínas poderá utilizar o nosso Parser sem efetuar nenhuma modificação em seu código, e com a vantagem de, em nosso Parser, já existir além dos átomos de hidrogênios, a estrutura validada; 3) no nosso Parser, além das informações sobre os átomos da estrutura, estão também presentes as informações dos campos SEQRES do arquivo PDB. Esta funcionalidade proporciona a manipulação das informações sobre a seqüência primária da proteína, de forma bastante simples da mesma forma que o Biopython proporciona ao campo ATOM. Esta opção não está disponível no Biopython v.1.52. 7. FcfrpPDB: Classe responsável por gerenciar, valendo-se de outras classes base, a criação correta do Parser da estrutura da proteína a ser trabalhada. Alguns métodos dessa classe são: remoção de heteroátomos, adição de átomos de hidrogênio, verificação se a estrutura solicitada pelo usuário já se encontra no nosso banco de dados, etc. 8. FcfrpGromacs: Classe responsável pela configuração dos arquivos necessários para que o programa pdb2gmx, disponível no pacote de dinâmica molecular GROMACS v.4.0.5, crie o arquivo PQR, que posteriormente será utilizado pelo MEAD v.2.2.7. 9. FcfrpStatisticalPotential: Classe responsável pela execução das operações necessárias para se obter os potenciais estatísticos. Tais operações consistem em: definir o centro geométrico dos resíduos de cada cadeia e executar o cálculo das distancias entre todos os resíduos de cadeias distintas. Ao fim da execução desta classe, o resulto é armazenado no banco de dados o qual será posteriormente analisado para construção dos potenciais estatísticos. 10. FcfrpPQR: Classe responsável pela criação do arquivo PQR, utilizando os programas distribuídos junto com o pacote GROMACS v.4.0.5, como: pdb2gmx e grompp. A classe faz uso de outras classes, como por exemplo, FcfrpGromacs que cria os arquivos de configuração. 186 11. FcfrpExecuteProgram: Classe responsável pela execução dos diversos comandos para utilização dos programas de terceiros como o MEAD, pdb2gmx e outros. O objetivo desta classe é padronizar as saídas das execuções dos diversos programas bem como suas mensagens caso ocorra algum erro. 12. FcfrpFile: Classe desenvolvida para facilitar a manipulação de arquivos textos. Esta classe possui implementações próprias para abrir, salvar, ler, etc. um arquivo texto. 13. FcfrpInsertPDB2Database: Classe responsável por inserir, nas tabelas apropriadas do banco de dados desenvolvido, as informações contidas nos campos SEQRES, ATOM e SSBOND presentes no arquivo PDB. 14. FcfrpInsertPDBErrorDetails2Database: Classe responsável por inserir, nas tabelas apropriadas do banco de dados desenvolvido, os erros encontrados pela classe “FcfrpValidation” durante a fase de verificação da consistência da estrutura. 15. FcfrpShowErrorsDatails: Classe responsável pela exibição (para o usuário do sistema) dos erros encontrados pela classe “FcfrpValidation” durante a fase de validação da estrutura. As mensagens podem ser exibidas no “terminal” 1 , no portal web ou direcionadas para um arquivo texto, conforme a necessidade do usuário. 16. FcfrpStatisticalPotentialDatabase: Classe responsável por inserir, nas tabelas apropriadas do banco de dados desenvolvido, os resultados dos cálculos das distâncias de separação (realizados pela classe “FcfrpStatisticalPotential”) entre todos os aminoácidos presentes em cadeias distintas das proteínas que formam o complexo. 1 Terminal: ambiente presente nos sistemas operacionais da família UNIX, no qual é possível acessar a Shell do sistema operacional. 187 APÊNDICE C -- Descrição dos programas auxiliares utilizados A ênfase do trabalho é colocada nos preditores. No uso do PROMETHEUS, precisamos dos pKa ’s que poderiam ser obtidos experimentalmente ou de qualquer outra abordagem teórica. Pelo enfoque físico e a conseqüênte necessidade de explorar as interações fundamentais em Biofísica, optamos por obtê-los de cálculos eletrostáticos, aproveitando programas disponíveis na literatura (MEAD, pdb2pqr e GROMACS). Para manipular arquivos no formato PDB, usamos o Biophyton. C.1 MEAD Macroscopic Electrostatics with Atomic Detail (77) é um pacote de programas livres escritos na linguagem de programação C++, disponível em: ftp://ftp.scripps.edu/ electrostatics/, que pode ser redistribuído e/ou modificado, respeitando os termos da GNU (General Public License). A linguagem de programação escolhida provê ao software características da metodologia de desenvolvimento orientado a objetos, a qual se destaca por ter uma melhor organização do código-fonte e, portanto propõe uma maior facilidade de estensão e reutilização de código. MEAD é um conjunto de programas para o cálculo de propriedades eletrostáticas em moléculas no qual o solvente e o interior da molécula possuem diferentes constantes dielétricas. O potencial eletrostático é determinado pela equação de Poisson-Boltzmann em sua forma linear. Para a utilização do pacote MEAD é necessário possuir os seguintes arquivos, descritos abaixo: 1. Arquivo PQR: O arquivo no formato PQR é criado a partir de um arquivo no formato PDB. No arquivo PQR encontram-se apenas os campos ATOM advindos do arquivo PDB 188 Figura 106: Exemplo de um arquivo no formato PQR, mostrando o primeiro aminoácido de uma proteína. e eventualmente alguns campos REMARK. Este campo é utilizado para prover informações a respeito do critério de criação do arquivo PQR, como por exemplo, o campo de força escolhido e a ferramenta utilizada para criação do arquivo PQR. Nos campos ATOM do arquivo PQR, além das coordenadas de cada átomo, estão presentes também os raios e as cargas (parciais) de cada um de acordo com o campo de força. A Figura 106 ilustra um exemplo de arquivo no formato PQR. 2. Arquivo sites: Neste arquivo está presente uma lista de todos os aminoácidos ionizáveis e a posição de cada um deles na estrutura da proteína. O arquivo no formato sites é construído a partir de um arquivo no formato PQR ou PDB. A Figura 107 ilustra um exemplo do arquivo de configuração sites. Cada linha contém o número do aminoácido na primeira coluna e o nome do arquivo onde estarão especificados os estados de ionização deste na segunda coluna. Por exemplo, o primeiro resíduo é um N-terminal, cujos estados protonado e deprotonado são especificados no arquivo NTlys.st. Note que por ser uma lisina (LYS), tem um segundo grupo ionizável especificado em lysNT o qual é tratado de 189 Figura 107: Exemplo de um arquivo de configuração no formato sites. forma distinta a uma lisina (por exemplo, a de número 13) do meio da proteína. 3. Arquivos st: Para cada resíduo ionizável presente no arquivo sites, é criado um arquivo com o mesmo nome correspondente ao nome dado para o resíduo ionizável no arquivo sites. No arquivo st de cada resíduo encontram-se a relação de átomos que compõem tal resíduo, a distribuição de cargas entre eles e o valor experimental do pK do resíduo isolado. A nomenclatura utilizada para os átomos assim como as cargas parciais de cada um deles, depende do campo de força utilizado. No exemplo ilustrado pela Figura 108, utilizamos o campo de força AMER99 para prover as cargas nos estados protonados e deprotonados, assim como a nomenclatura de cada átomo pertencente ao aminoácido ácido glutâmico. Figura 108: Exemplo de um arquivo de configuração no formato st do aminoácido ácido glutâmico (GLU). Neste exemplo utilizamos o campo de força AMBER99 para prover as cargas e os raios de cada átomo. 190 Figura 109: Exemplo de um arquivo de configuração no formato mgm. Para a execução do programa multiflex é desejável que a diferença entre a soma das cargas parciais de todos os átomos no estado protonado e a soma das cargas de todos os átomos no estado deprotonado, seja igual a 1. 4. Arquivo ogm e mgm: Esses arquivos contêm as especificações para o cubo (“caixa de simulação") que será utilizado durante a resolução da equação linear de PoissonBolztamman pelo método das diferenças finitas, empregado pelo pacote MEAD. O arquivo no formato ogm especifica as características do cubo para uma macromolécula, enquanto o arquivo no formato mgm especifica o cubo para um modelo composto. A Figura 109 exibe o exemplo de um arquivo de configuração no formato mgm, no qual a caixa de simulação está posicionada no centro geométrico da proteína e foi dividida em 41 cubos de 8 Å3 , inicialmente. Utilizando uma política de focagem o tamanho dos cubos foi reduzido para 2 e 0,5 Å3 . Os programas distribuídos juntos com o pacote MEAD necessitam de alguns parâmetros para sua correta execução. Segue abaixo a descrição dos parâmetros utilizados pelos programas e logo após, a descrição de cada programa pertencente ao pacote MEAD. 191 1. Parâmetros utilizados para execução dos programas: -epsin: Valor da constante dielétrica no interior da molécula. Geralmente tem valores que variam entre 2,0 e 8,0 (190, 210, 211). Embora outros valores são encontrados na literatura (187, 208) e haja muita polêmica no tema (190). -epsext: Valor da constante dielétrica no exterior da molécula, ou seja, o solvente. Seu valor mais comum é 80, que denota a constante dielétrica da água em temperatura igual a 298 K. -ionicstr: Valor da concentração de sal (em mol) presente na solução. Geralmente seu valor varia entre 0,1 e 1,0 mol, embora seja possível a utilização dos programas em altas concentrações de sal, por exemplo, 10 mols. -blab: Este parâmetro pode ser configurado em: blab1, blab2 e blab3. Ele controla a quantidade de informações que serão exibidas na saída padrão durante a execução do programa, normalmente o monitor do computador, sendo o blab3 o mais informativo. name: Nome do arquivo de entrada que será utilizado pelo programa. 2. Programas e formas de execução: • multiflex: A partir de informações contidas no arquivo PQR e dos vários arquivos de configuração (descritos anteriormente), o programa multiflex resolve a EPBL, calculando o potencial eletrostático da proteína em função da distribuição de íons na solução e prepara os arquivos necessários para que os valores dos pKa ’s sejam calculados pelo programa redti. Arquivos de entradas: .pqr, .sites, .st, .ogm e .mgm. Arquivos de saídas: .g, .summ, .pkint e .potat. Exemplo de sintaxe: multiflex –ionicstr 0.1 –epsin 4 2LZT Este exemplo executa o programa multiflex para a lisozima, em força iônica igual a 0,1M e constante dielétrica do interior da proteína igual a 4. • redti: A partir de informações contidas nos arquivos .g, .summ e .pkint, calcula o pKa de cada aminoácido ionizável em função da sua posição na estrutura da proteína. Arquivos de entrada: .g, .summ e .pkint. Arquivo de saída: .pkout. Exemplo de sintaxe: redti 2LZT 192 C.2 Biopython O projeto Biopython (58) é uma associação internacional de desenvolvedores de ferramentas computacionais para Biologia Molecular em Python. O site oficial é http: //www.biopython.org e é uma fonte de módulos, scripts e links para desenvolvedores de programas em linguagem Python para pesquisa em Ciências Biológicas. O projeto Biopython em si tem muitas funcionalidades, entre elas: 1. Interpreta vários formatos de arquivos comumente utilizados em bioinformática em estruturas de dados Python. Incluem-se entre os formatos suportados: • Arquivos de saída do BLAST; • ClustalW; • FASTA; • GenBank; • PubMed e Medline; • Arquivos Expasy (Enzimas, Prodoc, Prosite); • SCOP; • Rebase; • UniGene; • SwissProt. 2. Códigos que trabalham com serviços on-line (Expasy, NCBI); 3. Interfaces para ClustalW e Blast; 4. Classe que lida com seqüências; 5. Ferramentas para trabalhos rotineiros com seqüências: transcrição, tradução e cálculos de massa molecular; 6. Código para classificação de dados; 7. Código para lidar com alinhamentos; 8. Integração com BioSQL, um esquema padronizado de bancos de dados para seqüências biomoleculares; 9. Documentação do próprio projeto. 193 Concentramos nossa atenção na classe PDBParser presente no módulo PDB, distribuído junto com o Biopython v.1.52. A classe PDBParser produz um objeto que lida com a estrutura tridimensional da proteína e que pode ser manipulado de forma conveniente. A Figura 110 ilustra o diagrama de classes UML da estrutura de dados criada pelo Biopython. Em suma, uma estrutura (proteína), é representa da seguinte forma: uma estrutura é formada por um conjunto de modelos. Cada modelo é formado por um conjunto de cadeias onde cada cadeia é constituída por um conjunto de resíduos e estes por sua vez por um conjunto de átomos. Com base nesse tratamento estrutural, vários métodos foram desenvolvidos com o intuito de tornar possível a manipulação de estruturas advindas do PDB de uma forma simples e rápida, dispensando a priori qualquer conhecimento a respeito de manipulação de arquivos no formato PDB, sendo a única exigência, um pequeno conhecimento da linguagem de programação Python e da estrutura e métodos do pacote Biopython. Apesar de toda a praticidade que o Biopython proporciona em relação à obtenção das informações do arquivo PDB, este ainda é limitado, pois a estrutura criada pelo Biopython é alimentada somente com as informações contidas nos campos ATOM do arquivo PDB. Por exemplo, não é possível verificar quais resíduos de aminoácidos estão faltando, pois não se tem a informação a respeito da estrutura primária da proteína. Visando minimizar essa deficiência, nós implementamos na classe FcfrpPDBParser, uma estrutura capaz de trabalhar com os dados da seqüência primária da proteína (campo SEQRES do arquivo PDB) de maneira bastante simples, Figura 110: Estrutura gerada pela classe PDBParser, obtida do tutorial do Biopython v.1.52. 194 dispensando qualquer tipo de conhecimento do usuário a respeito de manipulações de arquivos. Algumas funcionalidades disponíveis por nossa implementação são: • Capacidade de recuperar todos os aminoácidos de uma determinada cadeia; • Informações sobre a quantidade de um determinado aminoácido em toda proteína ou somente em uma determinada cadeia; • Informações sobre a quantidade de cadeias presentes no complexo protéico; • Capacidade de saber qual aminoácido está em uma determinada posição da seqüência primária; • Etc. C.3 GROMACS GROningen MAchine for Chemical Simulations (127, 161) é um pacote para simulação de dinâmica molecular originalmente desenvolvido na universidade de Groningen, atualmente expandido e mantido por diferente instituições, incluindo a Universidade de Uppsala (http: //www.uu.se/en/) e Universidade de Stockholm (http://www.su.se/english/) e pelo instituto Max Planck (http://www.mpip-mainz.mpg.de/) para pesquisa de polímeros. Utilizamos o programa pdb2gmx distribuído junto com o pacote GROMACS para adicionar hidrogênios nas estruturas de proteínas. O pdb2gmx lê um arquivo no formato PDB, adiciona os hidrogênios à macromolécula e gera as coordenadas no formato .gro (arquivos no formato Gromos87 que podem ser usados para prover as trajetórias dos átomos durante uma dinâmica molecular) e um arquivo de topologia no formato .top (uma extensão ao arquivo de topologia que contém uma descrição completa de todas as interações que ocorrem entre os átomos e as partículas no sistema). Esses arquivos podem ser processador pelo programa grompp, distribuído junto com o pacote de simulação de dinâmica molecular GROMACS v.4.0.5, para gerar um arquivo no formato .tpr (arquivo que contém a estrutura inicial para a simulação). O pdb2gmx constrói cada resíduo de aminoácido com base no arquivo .rtp (arquivo contendo a topologia de cada aminoácido). Dessa forma as entradas atômicas para um determinado resíduo são obtidas rigorosamente deste arquivo. O programa editconf juntamente com a opção –mead, cria um arquivo no formato pqr, o qual pode ser posteriormente processado pelo programa MEAD, possibilitando a realização 195 de diversos cálculos de propriedades eletrostáticas em proteínas. C.4 PDB2PQR PDB2PQR (70, 71) é um conjunto de programas desenvolvidos em linguagem Python que realiza muitas tarefas comuns de preparação de estruturas de proteínas, permitindo que estas possam ser utilizadas em cálculos que utilizam o modelo contínuo. Uma das principais funções desta ferramenta é converter um arquivo no formato PDB para um arquivo no formato PQR utilizando o campo de força escolhido pelo usuário. Os campos de força atualmente suportados pelo PQD2PQR são: AMBER (74, 75), CHARMM (185), PARSE (83), PEOEPB (212) e TYL06 (179). A criação do arquivo no formato PQR inclui as seguintes tarefas: • Adição de um número limitado de átomos ausentes em biomoléculas; • Determinação dos pKa ’s (utilizando a ferramenta PROPKA (72)); • Adição dos átomos de hidrogênio seguindo o critério do campo de força escolhido; • Otimização dos contatos de hidrogênio; • Provê as cargas e os raios de cada átomo presente na estrutura, de acordo com os critérios do campo de força escolhido pelo usuário. Além de disponível para download em: http://sourceforge.net/ projects/pdb2pqr/, há também uma versão web do PDB2PQR disponível em: http: //pdb2pqr-1.wustl.edu/pdb2pqr/, onde é possível gerar e obter o arquivo no formato PQR, de uma estrutura de proteína, a partir de um conjunto de configurações escolhido pelo usuário. 196 APÊNDICE D -- Criação dos arquivos no formato st em função do campo de força Arquivos no formato st são arquivos que contêm os átomos e as cargas parciais no estado protonado e deprotonado de cada aminoácido ionizável, presente na proteína. Para o cálculo dos valores de pKa ’s dos aminoácidos, utilizando o pacote MEAD, aconselha-se que, a diferença entre a soma das cargas de todos os átomos no estado protonado e soma das cargas de todos os átomos no estado deprotonado, seja igual a 1 (um). A configuração das cargas parciais e nomenclatura de cada átomo dependem do campo de força utilizado. Os portais desenvolvidos utilizam os campos de força AMBER99 e GROMOS96 v.53A6. No futuro, vários campos de força podem sem integrados. A seguir exibimos os arquivos no formato st dos resíduos ionizáveis, os quais são utilizados para a predição dos valores de pKa ’s de acordo com a estrutura da proteína. D.1 Arquivos no formato st criados com base no campo de força GROMOS96 v.53A6 A criação dos arquivos no formato st apresentados pela Figura 111 foi realizada seguindo o mesmo protocolo da ferramenta MeadTools v.1.4 desenvolvida por Antonio M. Baptista (19), empregando o campo de força GROMOS96 v.53A6. 197 Figura 111: Arquivos no formato st utilizando o campo de força GROMOS96, conforme proposto pela referência (19). a Válido para qualquer aminoácido no início da cadeia (α-carboxil). b Válido para qualquer aminoácido no fim da cadeia (N-terminal). 198 D.2 Arquivos no formato st criados com base no campo de força AMBER99 A criação dos arquivos no formato st apresentados pelas Figuras 112 e 113 foi realizada seguindo o mesmo protocolo da referência (20), empregando o campo de força AMBER99. Figura 112: Arquivos no formato st utilizando o campo de força AMBER99, conforme proposto pela referência (20). a Válido para qualquer aminoácido no início da cadeia (α-carboxil). 199 Figura 113: Arquivos no formato st utilizando o campo de força AMBER99, conforme proposto pela referência (20). b Válido para qualquer aminoácido no fim da cadeia (N-terminal). Note que o campo força GROMOS96 atribui carga apenas para alguns átomos, enquanto que o AMBER99 define carga para a maioria dos átomos pertencentes aos aminoácidos. A redução da quantidade de átomos carregados, de acordo com o GROMOS96, reduz o custo computacional necessário para realizar a predição dos pKa ’s e ao mesmo tempo não compromete a qualidade dos resultados obtidos, uma vez que, desde o início do seu desenvolvimento, esse campo de força foi “calibrado” para trabalhar com biomoléculas em solução, especialmente proteínas. Após a criação dos arquivos no formato .st, verificamos se todos os átomos presentes nos arquivos no formato .st estão presentes também no arquivo no formato .pqr. Caso algum átomo do arquivo .st não esteja presente no arquivo .pqr, este átomo é excluído do arquivo .st e suas cargas no estado protonado e deprotonado são distribuidas igualmente entre todos os átomos restantes no arquivo .st.