Piecewise Loadings - XIX congresso da Sociedade Portuguesa de
Transcrição
Piecewise Loadings - XIX congresso da Sociedade Portuguesa de
XIX Congresso Anual Sociedade Portuguesa de Estatı́stica SPE 2011 – Programa e Resumos Nazaré, 28 de Setembro a 1 de Outubro Tı́tulo: SPE 2011 - Programa e Resumos Editora: Sociedade Portuguesa de Estatı́stica Concepção Gráfica da Capa: Instituto Nacional de Estatı́stica Produção Gráfica e Impressão: Instituto Nacional de Estatı́stica Tiragem: 300 Exemplares ISBN: 978-972-8890-24-7 Depósito Legal: 333630/11 Presidente do Congresso • Carlos A. Braumann (UÉvora) Comissão Cientı́fica • António Pacheco (IST, UTL) • António St. Aubyn (ISA, UTL) • Carlos A. Braumann (UÉvora) • Carlos Tenreiro (UCoimbra) • M. Ivette Gomes (FCUL) Mini-Curso • M. Salomé Cabral (FCUL) • M. Helena Gonçalves (UAlgarve) Comissão Organizadora • Alexandra Seco (ESTG, IPLeiria) • António Pacheco (IST, UTL) • Helena Ribeiro (ESTG, IPLeiria) • M. Rosário de Oliveira (IST, UTL) • Miguel Felgueiras (ESTG, IPLeiria) • Rui Santos (ESTG, IPLeiria) Mensagem do Presidente do Congresso Caros Congressistas da SPE 2011, Termina dentro de meses este segundo mandato como Presidente da Sociedade Portuguesa de Estatı́stica, que tive a honra de servir nas mais variadas formas e funções, desde a de sócio empenhado, que sempre fui desde a fundação, à de Presidente. Nesta função contei com o apoio inestimável da Direcção que me acompanhou e da Assembleia Geral e Conselho Fiscal, amigos e companheiros desta jornada de 6 anos sem os quais os importantes progressos conseguidos não teriam sido possı́veis. Como não teriam sido possı́veis sem a colaboração de tantos e tantos sócios em diversas Comissões, organização de actividades e participação na vida da Sociedade. E que melhor forma de coroar esta etapa do que a de presidir a este XIX Congresso Anual da Sociedade Portuguesa de Estatı́stica, na companhia de colegas e amigos, na Nazaré do mar, dos pescadores, das sete saias, de gente indómita, sofrida e alegre, das lendas e mitos e, hoje, também, a capital da Estatı́stica em Portugal. Nesta nossa festa anual, em que cocelebramos as nossas realizações em prol da Estatı́stica e suas aplicações, devemos estar gratos à Comissão Organizadora e ao Instituto Superior Técnico e ao Instituto Politécnico de Leiria por terem ajudado a pôr de pé este grande evento, com uma palavra muito especial aos nossos colegas António Pacheco Pires e Alexandra Seco pelo trabalho de coordenação. Naturalmente, a Comissão Cientı́fica, as instituições parceiras e os patrocinadores tiveram um papel relevante no sucesso desta iniciativa, que muito se agradece. Mas o seu sucesso deve-se principalmente a si, caro convidado, autor ou participante. Neste momento em que se avizinha o regresso à condição de militante de base, desejado mas nem por isso menos nostálgico, estou certo de interpretar o sentimento dos restantes membros dos órgãos sociais ao agradecer aos sócios da SPE esta oportunidade e honra que nos deram de a podermos servir de uma forma mais intensa. O que, em conjunto com os sócios, conseguimos fazer muito deve aos membros dos órgãos sociais que nos precederam e sobre cujas realizações assentámos o nosso trabalho. Por iniciativa da Direcção e o apoio da Comissão Organizadora e da Comissão Cientı́fica, quisemos prestar-lhes uma singela homenagem através das pessoas dos anteriores Presidentes da SPE, Fernando Rosado, Ivette Gomes e João Branco, que se reformaram neste último ano e que convidámos para proferir conferências plenárias. Felizmente aceitaram todos e assim nos honraram com o seu saber e a sua experiência, que certamente continuarão a pôr ao serviço da SPE e da Estatı́stica. Seria interessante que esta prática, que ora iniciámos, tivesse continuidade no futuro. E, para concluir, é altura de, como nas histórias, formular três desejos. Um, que se dirige aos futuros dirigentes, é o de que tenham os maiores sucessos no exercı́cio das suas funções, na certeza de que o seu sucesso será também o nosso sucesso, o sucesso da SPE. Outro, para todos os colegas participantes, é a de que este Congresso lhes seja útil e que nos possamos voltar a ver todos daqui a um ano no XX Congresso Anual da SPE. O último vai para todos os sócios da SPE e é o de que o próximo ano possa ser estatisticamente profı́cuo e pleno de realizações profissionais e pessoais. Carlos Braumann SPE 2011 i Mensagem da Comissão Organizadora Caros Congressistas da SPE 2011, Por convite da Direção da Sociedade Portuguesa de Estatı́stica, a organização do XIX Congresso Anual da SPE (SPE 2011) foi entregue ao Instituto Superior Técnico da Universidade Técnica de Lisboa e à Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria. Para o efeito, foi constituı́da uma Comissão Organizadora formada por docentes dessas duas instituições, os quais propuseram a turı́stica, e bem pitoristicamente portuguesa, vila da Nazaré para local de realização do Congresso, no perı́odo de 28 de Setembro a 1 de Outubro de 2011. Para acolher o programa cientı́fico do Congresso, selecionaram o contemporâneo Hotel Miramar Sul, o qual está integralmente reservado aos participantes da SPE 2011 durante o decorrer do evento. Gostarı́amos de agradecer à Direção da SPE o amável convite que nos endereçou, assim como a confiança que em nós depositou na organização da SPE 2011. Fazemos votos que este evento consiga corresponder às suas elevadas expetativas, contribuindo para a divulgação da Estatı́stica, não só a nı́vel nacional, como igualmente ao nı́vel internacional. Para tal, contamos com a apresentação de inúmeras comunicações orais, convidadas e propostas, bem como diversas sessões de posters. E porque o convı́vio não é menos importante, em paralelo propomos um programa social que esperamos que seja do agrado de todos. Neste sentido, usufruiremos de um passeio pela região (incluindo visita a Alcobaça ou, em alternativa, a Óbidos), de um cocktail de boas vindas na Nazaré e de um jantar de confraternização na Quinta do Fidalgo — Tromba Rija, na vila da Batalha. Importa aqui salientar que, para que fosse possı́vel a concretização deste congresso, muitos foram os que, direta ou indiretamente, deram um contributo significativo para a sua realização. Por este motivo, gostarı́amos de expressar aqui a nossa gratidão a todos aqueles que, de alguma forma, contribuı́ram para o sucesso deste evento, incluindo em particular os conferencistas convidados, que gentilmente aceitaram o convite para participar neste evento e nos presentear com as suas comunicações, os colegas que aceitaram presidir às várias sessões da SPE 2011 e todos os autores e participantes neste evento mor da SPE. De entre os conferencistas convidados, gostarı́amos de começar por mencionar os antigos presidentes da SPE: • M. Ivette Gomes (1990–1994) • João A. Branco (1994–2000) • Fernando Rosado (2000–2006) que, em comum, têm o facto de terem presidido com grande mérito e elevada dedicação à SPE e de se terem aposentado no decorrer do corrente ano. Devido a esses factos e à grande estima pessoal pelos antigos presidentes da SPE, a Organização do Congresso associou-se com o maior gosto à iniciativa da Direção da SPE de homenagear na SPE 2011 estes nossos colegas, prestando-lhes tributo pelas suas qualidades pessoais e, muito em especial, pela trabalho determinante que desenvolveram em prol da SPE. Em segundo lugar, aos professores Graciela Boente, da Universidad de Buenos Aires – Argentina, e Wolfgang Schmid, SPE 2011 iii Mensagem da Comissão Organizadora da Europa-Universität Viadrina – Alemanha, que partilharão connosco um pouco do seu grande saber. Não podemos também deixar de expressar um apreço especial às professoras M. Salomé Cabral e M. Helena Gonçalves pela apresentação do mini-curso, intitulado Análise de Dados Longitudinais. Associado à homenagem aos antigos presidentes da SPE, prestamos os nossos maiores agradecimentos às professoras Isabel Fraga Alves, Manuela Souto de Miranda e M. Manuela Neves por terem prontamente e muito gentilmente aceite ser porta-vozes em primeira instância do reconhecimento da comunidade estatı́stica nacional a, respetivamente, M. Ivette Gomes, João A. Branco e Fernando Rosado. Gostarı́amos ainda de agradecer à Direção da SPE e à Comissão Cientı́fica da SPE 2011 pelo apoio continuamente prestado, bem como a todas as instituições que patrocinaram este evento, à Escola Superior de Tecnologia e Gestão de Leiria, ao Instituto Superior Técnico, ao Instituto Nacional de Estatı́stica, à PSE – Produtos e Serviços de Estatı́stica, ao Banco de Portugal, ao CEMAT – Centro de Matemática e Aplicações, ao SAS Institute, Software, Lda., à Câmara Municipal da Nazaré, à Câmara Municipal de Leiria e, para concluir, ao Hotel Miramar Sul que acolheu este congresso da SPE. Por fim, desejamos que a SPE 2011 se materialize num encontro socialmente agradável e cientificamente frutı́fero para todos os participantes, e que estimule o crescimento da investigação em Probabilidade e Estatı́stica em Portugal, a cooperação entre investigadores, a divulgação da produção cientı́fica, quer na sua vertente mais teórica quer nas suas múltiplas aplicações, bem como a troca de experiências e saberes relativos ao ensino da Estatı́stica. Fazemos votos que todos os participantes e seus acompanhantes usufruam de uma excelente estadia na Nazaré, onde poderão passear no aprazı́vel paredão junto à praia, rodeada por encostas ı́ngremes, descobrir os tı́picos trajes ainda utilizados nesta vila, bem como saborear a rica e variada gastronomia oferecida na região. Votos de um bom Congresso para todos! A Comissão Organizadora da SPE 2011, Alexandra Seco António Pacheco Helena Ribeiro M. Rosário de Oliveira Miguel Felgueiras Rui Santos SPE 2011 iv Programa Resumido P ROGRAMA R ESUMIDO Quarta, 28/09/2011 09:00 — Análise de Dados Longitudinais (M. Salomé Cabral e M. Helena Gonçalves) 1 17:00 – SESSÃO DE ABERTURA DO CONGRESSO 17:30 — O lado não matemático da Estatı́stica (João A. Branco) 3 19:30 — RECEPÇÃO DE BOAS-VINDAS na Biblioteca Municipal da Nazaré Quinta, 29/09/2011 9:00 Análise Multivariada I Biostatı́stica I Processos Estocásticos I Extremos I 5 11 17 23 10:00 — Sessão de POSTERS I 29 10:30 Séries Temporais I Inferência Estatı́stica I Controlo de Qualidade Aplicações I 57 63 69 75 11:35 — On the application of statistical process control in finance (Wolfgang Schmid) 81 14:30 — PASSEIO DO CONGRESSO 153 11:35 — Some recent results for functional data analysis (Graciela Boente) 159 14:30 Estatı́sticas Oficiais Aplicações III Inferência Estatı́stica III Variáveis Intervalares 163 169 175 181 15:35 — A Força dos menores (Fernando Rosado) 187 16:30 — Sessão de POSTERS III 189 17:00 Análise Multivariada III Biostatı́stica III Processos Estocásticos III Extremos III 215 221 227 233 18:00 — SAS 239 19:00 — JANTAR DO CONGRESSO Sábado, 01/10/2011 09:00 Séries Temporais II Econometria Estatı́stica Bayesiana Análise de Sobrevivência 10:20 — Sessão de POSTERS IV 19:00 — Mixer da jSPE Sexta, 30/09/2011 9:00 Análise Multivariada II Biostatı́stica II Processos Estocásticos II Extremos II Aplicações II 241 249 257 265 273 10:50 — A importância de métodos de re-amostragem em Estatı́stica de Extremos (M. Ivette Gomes) 301 83 89 95 101 11:45 — Sessão de Entrega dos Prémios SPE JÚNIOR 10:00 — Sessão de POSTERS II 107 12:10 — SESSÃO DE ENCERRAMENTO DO CONGRESSO 10:30 Inferência Estatı́stica II Telecomunicações Modelos Lineares 135 141 147 SPE 2011 12:30 — Almoço de Despedida do Congresso v Programa e Índice de Apresentações P ROGRAMA E ÍNDICE DE A PRESENTAÇ ÕES P ROGRAMA R ESUMIDO v Quarta, 28/09/2011 08:00 Abertura do Secretariado do Congresso 09:00 – 10:30 MINI-CURSO Sala Atlântico – Presidente: Maria Eduarda Silva M. Salomé Cabral e M. Helena Gonçalves Análise de Dados Longitudinais . . . . . . . . . . . . . . . . . . . . 1 10:30 – 11:00 Pausa para Café 11:00 – 12:30 MINI-CURSO (cont.) 12:30 – 14:30 Pausa para Almoço 14:30 – 16:30 MINI-CURSO (cont.) 16:30 – 17:00 Pausa para Café 17:00 – 17:30 SESSÃO DE ABERTURA DO CONGRESSO Sala Premium – Presidente: Carlos A. Braumann 17:30 – 18:25 HOMENAGEM a JOÃO A. BRANCO Sala Premium – Presidente: Fernando Rosado 17:30 Tributo a João A. Branco 17:40 Sessão Plenária I João A. Branco O lado não matemático da Estatı́stica . . . . . . . . . . . . . . . . . . 3 19:30 – 20:30 RECEPÇÃO DE BOAS-VINDAS na Biblioteca Municipal da Nazaré (Partida em autocarro do Hotel Miramar Sul às 19:10) Quinta, 29/09/2011 08:00 Abertura do Secretariado do Congresso SPE 2011 vii Programa e Índice de Apresentações 09:00 – 10:00 Comunicações Orais – Análise Multivariada I Sala Premium – Presidente: A. Pedro Duarte Silva Júlia Teles Coeficiente de concordância correlacional: use mas não abuse . . . . . . . . . . 5 Irina Kislaya, Miguel Portela, Patrı́cio Costa, Manuel João Costa e Maria Conceição Serra Early identification of students at risk of failure in the first year of medical degree 7 Manuela Figueira Neves e Fernando Rosado Estudo de outliers em dados forenses . . . . . . . . . . . . . . . . . . . . . . . . 9 09:00 – 10:00 Comunicações Orais – Biostatı́stica I Sala Dinastia – Presidente: Manuel Scotto Ana Subtil, M. Rosário de Oliveira e Luzia Gonçalves Comparação de intervalos de confiança para sensibilidades e especificidades . . . 11 Filipa Mourão, Ana Braga e Pedro Oliveira Estimador não paramétrico, condicional ao sexo, para a curva ROC do CRIB . . . 13 Carla Henriques, Ana Cristina Matos e Luı́s Ferreira dos Santos Diagnóstico de sı́ndrome Brugada: Uma lufada de ar fresco! . . . . . . . . . . . 15 09:00 – 10:00 Comunicações Orais – Processos Estocásticos I Sala Caminho Real – Presidente: Paula Milheiro de Oliveira Fátima Ferreira, António Pacheco e Helena Ribeiro Avaliação do desempenho de filas M X /G − G/1/n . . . . . . . . . . . . . . . . 17 Maria Conceição Serra, Atiyo Ghosh e Patsy Haccou Quantifying stochastic introgression processes with hazard rates . . . . . . . . . 19 Maria de Fátima Brilhante, Dinis Pestana e Maria Luı́sa Rocha Conjuntos de Cantor com reparação aleatória . . . . . . . . . . . . . . . . . . . 21 09:00 – 10:00 Comunicações Orais – Extremos I Sala Atlântico – Presidente: Marta Ferreira Manuel Cabral Morais e Tiago Salvador O problema do caixeiro viajante e a teoria de valores extremos . . . . . . . . . . 23 João Paulo Martins, Rui Santos e Ricardo Sousa Distribuição do máximo condicionada à soma aplicada em testes quantitativos compostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Marco Aurélio Sanfins e Danilo Monte-Mor GEV Long-Short Strategy: uma nova modalidade quantitativa . . . . . . . . . . . 27 SPE 2011 viii Programa e Índice de Apresentações 10:00 – 10:30 Pausa para Café e Posters 10:00 – 10:30 Sessão de POSTERS I Ana Cristina Casimiro e Paulo Infante Cartas de controlo em saúde . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Clara Castro, Maria José Bento, Andreia Pereira e Inês Sousa Prevalência, incidência e sobrevivência dos cancros do estômago e mama na Região Norte de Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Marta Ferreira Estrutura de dependência e comportamento extremal de um processo Pareto . . . 33 Fernanda Otı́lia Figueiredo e Philippe Castagliola Carta de medianas com limites de controlo estimados . . . . . . . . . . . . . . . 35 Dulce Gomes, Carla Nunes, Patrı́cia Filipe e Teodoro Briz Controlo da tuberculose em Portugal: demora entre o inı́cio dos primeiros sintomas e o diagnóstico da doença . . . . . . . . . . . . . . . . . . . . . . . . 37 Délia Gouveia, Luiz Guerreiro Lopes e Sandra Mendonça Aplicação da teoria dos extremos ao estudo da precipitação na Ilha da Madeira . . 39 Manuela Larguinho, José Carlos Dias e Carlos A. Braumann Análise da distribuição χ 2 não central na avaliação de Opções Europeias num processo de difusão CIR . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Cristina Martins, Esmeralda Gonçalves e Nazaré Mendes Lopes Sobre o efeito de Taylor em modelos bilineares . . . . . . . . . . . . . . . . . . 43 Rui Pascoal e Jorge Marques Dinâmica estocástica na difusão de tecnologias de banda larga em Portugal . . . 45 Paulo Santos, M. Ivette Gomes e Patrı́cia de Zea Bermudez Testes não-paramétricos para validação de modelos extremais: uma aplicação a dados de atletismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Fernando Sequeira e Sı́lvio Velosa Múltiplos caminhos para a uniforme . . . . . . . . . . . . . . . . . . . . . . . . 49 Tufi Machado Soares, Neimar Fernandes da Silva, Mariana Calife Nóbrega e Alexandre Nicolella Fatores associados ao abandono escolar no Ensino Médio público de Minas Gerais 51 Inês Sousa Análise de dados longitudinais com drop-out dependente da variável resposta . . 53 Eugen Ursu e Kamil Feridun Turkman Periodic autoregressive model identification using genetic algorithms . . . . . . . 55 SPE 2011 ix Programa e Índice de Apresentações 10:30 – 11:30 Comunicações Orais – Séries Temporais I Sala Premium – Presidente: M. Manuela Neves Ana Diniz, Inês Faria e João Barreiros Músicos e crianças: Caracterização de séries de tapping bimanual . . . . . . . . 57 Pedro M.D.C.B. Gouveia Alterações dos padrões de sazonalidade ao longo do ciclo da procura turı́stica . . 59 Fernando Sebastião e Irene Oliveira Análise espectral singular no estudo do número de vı́timas mortais em acidentes de viação em Portugal Continental . . . . . . . . . . . . . . . . . . . . . . 61 10:30 – 11:30 Comunicações Orais – Inferência Estatı́stica I Sala Dinastia – Presidente: Russell Alpizar-Jara Sara Roque, Adelaide Freitas e Laura Carreto Uma avaliação experimental de diferentes metodologias estatı́sticas de dados de microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Paulo C. Rodrigues, Marcos Malosetti, Martin Boer, Hugh G. Gauch e Fred van Eeuwijk Comparison of statistical methods for the identification of the genetic basis of plant responses to stress . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Efigénio Rebelo, Patrı́cia Oom do Valle e Rui Nunes Testes à presença de autocorrelação usando a regressão de Gauss-Newton . . . . 67 10:30 – 11:30 Comunicações Orais – Controlo de Qualidade Sala Caminho Real – Presidente: Paulo Infante Patrı́cia Ferreira Ramos, Manuel Cabral Morais, António Pacheco e Wolfgang Schmid Ordenação estocástica na avaliação qualitativa do desempenho de esquemas conjuntos para processos bivariados . . . . . . . . . . . . . . . . . . . . . . . 69 Manuel do Carmo, Paulo Infante e Jorge Mendes O revisitar de um método adaptativo em controlo estatı́stico da qualidade . . . . . 71 Miguel Casquilho e Fátima C. Rosa Estratégias de enchimento de sacos com itens de peso aleatório e soma constrangida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 10:30 – 11:30 Comunicações Orais – Aplicações I Sala Atlântico – Presidente: Conceição Amado Paula C.R. Vicente e Maria de Fátima Salgueiro Dados omissos resultantes de planned missing designs: contributo para a análise do Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) . . . 75 SPE 2011 x Programa e Índice de Apresentações Marco Aurélio Sanfins, Camila Silva, Danilo Monte-Mor e Tiago Ribeiro RiD – Uma medida para o cálculo do risco de insolvência . . . . . . . . . . . . . 77 Elena Almaraz Luengo, Eduardo Almaraz Luengo e Maribel Luengo y Dos Santos Possibilistic downside risk measures and applications . . . . . . . . . . . . . . . 79 11:35 – 12:30 Sessão Plenária II Sala Premium – Presidente: Manuel Cabral Morais Wolfgang Schmid On the application of statistical process control in finance . . . . . . . 81 12:30 – 14:30 Pausa para Almoço 14:30 – 18:30 PASSEIO DO CONGRESSO 19:00 Mixer da jSPE (Sala Atlântico) Sexta, 30/09/2011 08:30 Abertura do Secretariado do Congresso 09:00 – 10:00 Comunicações Orais – Análise Multivariada II Sala Premium – Presidente: Manuela Souto de Miranda Catarina Marques e Jorge Lengler A influência da orientação para o mercado na performance de exportação: O estudo de efeitos de interacção e quadráticos . . . . . . . . . . . . . . . . . 83 Ana Rita Silva, Ana C. Braga, Isabel Araújo, Teresa Mota, José M. Oliveira e Jorge Oliveira Abordagem multivariada à trilogia solo-vinha-vinho. Caso da casta Vinhão . . . 85 Maria José Amorim e Margarida Cardoso Índices de informação mútua na avaliação de estabilidade de agrupamentos . . . 87 09:00 – 10:00 Comunicações Orais – Biostatı́stica II Sala Dinastia – Presidente: Isabel Pereira Joana Gomes Dias e Carlos Carvalho Metodologia de captura-recaptura na vigilância epidemiológica da doença dos legionários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Tiago A. Marques, Steve W. Martin, Ronald P. Morrissey, Susan Jarvis, Nancy DiMarzio, David Moretti e David K. Mellinger Spatially explicit capture-recapture minke whale density estimation . . . . . . . . 91 SPE 2011 xi Programa e Índice de Apresentações Fernando Ceia e Russell Alpizar-Jara O comprimento descritivo mı́nimo na amostragem por transectos pontuais . . . . 93 09:00 – 10:00 Comunicações Orais – Processos Estocásticos II Sala Caminho Real – Presidente: Cláudia Nunes Ana Prior e Paula Milheiro de Oliveira Estimação estatı́stica dos parâmetros do processo de Ornstein-Uhlenbeck bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Sandra Lagarto e Carlos A. Braumann O modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados: aplicação à evolução temporal das taxas de mortalidade masculina e feminina da população portuguesa . . . . . . . . . . . . . . . . . . 97 Clara Carlos e Carlos A. Braumann Tempos de extinção para um modelo de crescimento populacional aproximadamente logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 09:00 – 10:00 Comunicações Orais – Extremos II Sala Atlântico – Presidente: Luı́sa Canto e Castro de Loura M. Ivette Gomes Comparação assintótica de estimadores de um parâmetro de forma de segundaordem em caudas pesadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 M. Ivette Gomes e Dinis Pestana Uma generalização do estimador de Hill . . . . . . . . . . . . . . . . . . . . . . 103 Lı́gia Henriques-Rodrigues e M. Ivette Gomes Excessos acima de nı́veis aleatórios e estimação linear óptima e centrada . . . . . 105 10:00 – 10:30 Pausa para Café e Posters 10:00 – 10:30 Sessão de POSTERS II Carla Correia-Gomes, Denisa Mendonça, Madalena Vieira-Pinto e João Niza-Ribeiro Factores de risco para a detecção de Salmonella sp. em suı́nos reprodutores em Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Patrı́cia Costa, Maria Eugénia Ferrão e Pedro Oliveira Modelos de resposta ao item: linking entre escalas de Matemática . . . . . . . . 109 Joana Dias, Ana Rita Gonçalves, Ana Maria Correia e Emilia Athayde Absentismo escolar - detecção precoce de epidemias . . . . . . . . . . . . . . . 111 Otı́lia Dias, Isabel Pinto Doria e Ana Sousa Ferreira Estudantes do Ensino Superior: Caminhos para o sucesso ou insucesso . . . . . . 113 SPE 2011 xii Programa e Índice de Apresentações Sofia Eurico, Patrı́cia Oom do Valle e João Albino Silva A satisfação e lealdade dos diplomados em turismo face às instituições de ensino superior frequentadas. Uma aplicação do método PLS-PM . . . . . . . . . 115 A. Rita Gaio e Joaquim F.P. da Costa Modelos de misturas na identificação de padrões de jardins da cidade do Porto . . 117 João Neves, Cláudia Pascoal, M. Rosário de Oliveira, José Maia e Duarte Freitas Será possı́vel encontrar um próximo Cristiano Ronaldo? . . . . . . . . . . . . . . 119 Ana Rita Nunes, Sı́lvia Shrubsall e Isabel Natário Modelação espacial de acidentes rodoviários em Lisboa . . . . . . . . . . . . . . 121 Patrı́cia Oom do Valle, Manuela Guerreiro e Júlio Mendes Participação no Allgarve, imagem do Allgarve e imagem do Algarve: uma aplicação da análise de componentes principais não linear e da análise de correspondências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Rui Paiva Módulos interativos no ensino de Probabilidades e Estatı́stica . . . . . . . . . . . 125 Cláudia Pereira, Paulo Infante e Gonçalo Jacinto Modelação Estatı́stica pela Teoria da Resposta ao Item . . . . . . . . . . . . . . 127 Fernando Rosado Estatı́stica Forense com dados Normais — Uma abordagem (bayesiana e frequencista) ao estudo de outliers . . . . . . . . . . . . . . . . . . . . . . . . 129 Jorge Santos, Raquel Menezes e Carlos Teixeira Análise prospectiva das condições de higiene e segurança alimentar na restauração131 Tufi Machado Soares, Neimar Fernandes da Silva, Mariana Calife Nóbrega e Alexandre Nicolella Uma análise do fracasso escolar no Ensino Médio público de Minas Gerais . . . 133 10:30 – 11:30 Comunicações Orais – Inferência Estatı́stica II Sala Premium – Presidente: Carla Henriques Paulo Araújo Santos e Isabel Fraga Alves Momentos de um novo estimador para o parâmetro de forma da distribuição Weibull discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Carlos Tenreiro Núcleos de fronteira na estimação da função de distribuição . . . . . . . . . . . . 137 Filipe J. Marques e Carlos A. Coelho O teste de independência de vários grupos de variáveis aleatórias para várias amostras – Distribuições exacta e quase-exactas da estatı́stica de razão de verosimilhanças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 SPE 2011 xiii Programa e Índice de Apresentações 10:30 – 11:30 Comunicações Orais – Telecomunicações Sala Dinastia – Presidente: Fernanda Otı́lia Figueiredo Cláudia Pascoal, M. Rosário de Oliveira, Peter Filzmoser, António Pacheco e Rui Valadas Os Piratas da Internet II: O Cofre das Anomalias Mortas . . . . . . . . . . . . . 141 Gonçalo Jacinto, Nelson Antunes e António Pacheco Connectividade em Redes de Telecomunicações Ad Hoc . . . . . . . . . . . . . 143 Gonçalo Jacinto e Nelson Antunes Problemas inversos em filas de espera e sua aplicação à monitorização da Internet 145 10:30 – 11:30 Comunicações Orais – Modelos Lineares Sala Caminho Real – Presidente: Maria do Carmo Miranda Guedes Dulce Gamito Pereira, João Tiago Mexia e Victor Ramos Tavares Validação estocástica do algoritmo ziguezague na análise conjunta de regressões . 147 Conceição Rocha, Manuel Oliveira e Teresa Mendonça Aplicação de modelos com dados em painel - estudo de caso . . . . . . . . . . . 149 Luı́s Chorão e José G. Dias Modelação da perda em empréstimos hipotecários: Uma aplicação a um banco português . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 10:30 – 11:30 Comunicações Orais – Aplicações II Sala Atlântico – Presidente: Frederico Caeiro José G. Dias e Sabu S. Padmadas Factores explicativos do nı́vel nutricional das mulheres indianas: Uma análise multinı́vel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 José Ramos Pires Manso e Ernesto Ferreira Há causalidade entre as variáveis económicas e os indicadores de saúde? Uma abordagem através de vectores autorregressivos com correcção de erros e da causalidade multivariada à Granger . . . . . . . . . . . . . . . . . . . . 155 Luı́sa Carvalho, Paulo Infante e Anabela Afonso Os Eborenses e a prática desportiva . . . . . . . . . . . . . . . . . . . . . . . . . 157 11:35 – 12:30 Sessão Plenária III Sala Premium – Presidente: Ana M. Pires Graciela Boente Some recent results for functional data analysis . . . . . . . . . . . . 159 12:30 – 14:30 Pausa para Almoço SPE 2011 xiv Programa e Índice de Apresentações 14:30 – 15:30 Comunicações Orais – Estatı́sticas Oficiais Sala Premium – Presidente: José Ramos Pires Manso José A. Pinto Martins Acesso à informação estatı́stica oficial para fins de investigação cientı́fica . . . . 163 Elizabeth Reis, Paula Vicente e Álvaro Rosa Qualidade dos Censos 2011: Mapa de Alerta . . . . . . . . . . . . . . . . . . . . 165 João Farrajota Censos 2011 - Inquérito de Qualidade . . . . . . . . . . . . . . . . . . . . . . . 167 14:30 – 15:30 Comunicações Orais – Aplicações III Sala Dinastia – Presidente: Antónia Amaral Turkman Luı́s Margalho, Raquel Menezes e Inês Sousa Modelos Espaço-temporais. Aplicação à previsão da temperatura na superfı́cie terrestre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Isabel Natário, Manuela M. Oliveira, M. Lucı́lia Carvalho, Susete Marques e José Borges Modelação espaço-temporal de fogos florestais em Portugal . . . . . . . . . . . . 171 Thelma Sáfadi e Airlane P. Alencar Volatilidade dos principais mercados mundiais . . . . . . . . . . . . . . . . . . . 173 14:30 – 15:30 Comunicações Orais – Inferência Estatı́stica III Sala Caminho Real – Presidente: Carlos Tenreiro Dulce Gamito Pereira, João Tiago Mexia e Victor Ramos Tavares Intervalos de confiança para os nodos do contorno superior em análise conjunta de regressões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Pedro Macedo, Elvira Silva e Manuel Scotto Estimadores de máxima entropia em análise de eficiência . . . . . . . . . . . . . 177 Ana Isabel Carita e António Paulo Ferreira Vencer um jogo de basquetebol: uma análise com probabilidades condicionais . . 179 14:30 – 15:30 Comunicações Orais – Variáveis Intervalares Sala Atlântico – Presidente: Paula Brito Paulo Teles e Paula Brito Modelização de séries temporais intervalares por modelos espácio-temporais . . . 181 Sónia Dias e Paula Brito Regresão linear com variáveis intervalares . . . . . . . . . . . . . . . . . . . . . 183 A. Pedro Duarte Silva e Paula Brito MAINT.DATA: Um pacote de R para a análise paramétrica de dados intervalares 185 SPE 2011 xv Programa e Índice de Apresentações 15:35 – 16:30 HOMENAGEM a FERNANDO ROSADO Sala Premium – Presidente: Carlos A. Braumann 15:35 Tributo a Fernando Rosado 15:45 Sessão Plenária IV Fernando Rosado A Força dos menores . . . . . . . . . . . . . . . . . . . . . . . . . . 187 16:30 – 17:00 Pausa para Café e Posters 16:30 – 17:00 Sessão de POSTERS III Anabela Afonso e Russell Alpizar-Jara Amostragem em duas fases adaptativa para estimar a abundância de populações raras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Conceição Amado Medidas de centralidade, dispersão e simetria em variáveis categóricas ordinais . 191 Dário Ferreira, Sandra Ferreira, Célia Nunes e João Tiago Mexia Normalidade aproximada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 Adelaide Maria Sousa Figueiredo Análise de variância robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Sónia Freitas, Maria Isabel Mendonça, Eva Henriques e Roberto Palma dos Reis O genotipo CC do locus 9p21 apresenta risco acrescido de doença das artérias coronárias perante valores elevados de PCR de alta sensibilidade . . . . . . 197 Vanda M. Lourenço e Ana M. Pires Regressão-M em estudos de associação genéticos de caracterı́sticas quantitativas . 199 Francisco Macedo e Ana M. Pires Leis da genética de Mendel: a enriquecedora controvérsia . . . . . . . . . . . . . 201 Pedro Macedo, Elvira Silva e Manuel Scotto Funções distância direccionais: novas medidas de eficiência . . . . . . . . . . . . 203 Cristina Miranda, Manuela Souto de Miranda, Anabela Rocha e M. Ivette Gomes Uma versão robusta para o estimador do ı́ndice extremal de Nandagopalan . . . . 205 Isabel Pereira e Marco Marto Estimação simultânea da altura dominante, mortalidade e área basal no modelo GLOBULUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 Maria João Polidoro, Fernando Magalhães e Antónia Amaral Turkman Métodos bayesianos de adequação de modelos estatı́sticos: um estudo de simulação209 SPE 2011 xvi Programa e Índice de Apresentações Isabel M. Rodrigues, Ana M. Bianco e Graciela Boente Testes robustos para modelos lineares generalizados com respostas incompletas . 211 Natascha Almeida Marques da Silva, Ângela Maria Quintão Lana, Fabyano Fonseca e Silva, Renato Ribeiro de Lima, Martinho de Almeida e Silva e José Aurélio Garcia Bergmann Utilização do algoritmo SAEM na análise genética de bovinos . . . . . . . . . . 213 17:00 – 18:00 Comunicações Orais – Análise Multivariada III Sala Premium – Presidente: Isabel Rodrigues Nuno Lavado e Teresa Calapez Piecewise Loadings - indicadores clássicos adaptados às variantes não-lineares da ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Armindo Carvalho e Francisco V. Martins Informação estatı́stica e decisão empresarial: avaliação das escalas de medida de um modelo estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Maria de Fátima Salgueiro Modelos de análise factorial exploratória e confirmatória parameterizados como modelos com grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 17:00 – 18:00 Comunicações Orais – Biostatı́stica III Sala Dinastia – Presidente: Luzia Gonçalves Conceição Rocha, Maria Eduarda Silva e Teresa Mendonça Modelos de simulação para o bloqueio neuro-muscular: uma análise estatı́stica . 221 Lisandra Rocha, Inês Sousa e Raquel Menezes Análise de dados longitudinais com as observações dependentes do tempo de medição: uma revisão bibliográfica . . . . . . . . . . . . . . . . . . . . . . 223 Sónia Gouveia e Manuel Scotto Predicting hypotension in intensive care monitoring: an optimal alarm system approach . . . . . . . . . . . . . . . . . . . . . . 225 17:00 – 18:00 Comunicações Orais – Processos Estocásticos III Sala Caminho Real – Presidente: Maria de Fátima Brilhante Nuno Brites, Carlos A. Braumann, Clara Carlos e Patrı́cia A. Filipe gSDE Software: tempos de primeira passagem em modelos estocásticos de crescimento individual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 Patrı́cia A. Filipe, Carlos A. Braumann, Clara Carlos e Carlos J. Roquete Crescimento individual em ambiente aleatório: um problema de optimização . . . 229 SPE 2011 xvii Programa e Índice de Apresentações Débora Ricardo e Cláudia Nunes Processos de difusão com saltos correlacionados: Aplicação à polı́tica óptima de investimento em linha de alta velocidade . . . . . . . . . . . . . . . . . . . 231 17:00 – 18:00 Comunicações Orais – Extremos III Sala Atlântico – Presidente: M. Ivette Gomes Isabel Fraga Alves e Paulo Araújo Santos Quantis extremais, value-at-risk e método DPOT . . . . . . . . . . . . . . . . . 233 Frederico Caeiro e M. Ivette Gomes Estimação de um parâmetro de forma de segunda ordem . . . . . . . . . . . . . 235 Miguel de Carvalho e Anthony Davison Estimação não-paramétrica em extremos multivariados . . . . . . . . . . . . . . 237 18:00 – 18:20 Comunicações Orais – SAS Sala Premium – Presidente: Isabel Rodrigues Jos van der Velden SAS no ensino superior: capacidades analı́ticas sem custos . . . . . . . . . . . . 239 19:00 JANTAR DO CONGRESSO Sábado, 01/10/2011 08:30 Abertura do Secretariado do Congresso 09:00 – 10:20 Comunicações Orais – Séries Temporais II Sala Premium – Presidente: Jorge Caiado Clara Cordeiro e M. Manuela Neves Intervalos de previsão usando o procedimento Boot.EXPOS . . . . . . . . . . . . 241 Sara Marques, Maria do Carmo Miranda Guedes, Maria Eduarda Silva e Nuno Carmona Redes neuronais na previsão de séries temporais . . . . . . . . . . . . . . . . . . 243 Carla Bessa, Francisco Lage Calheiros e M. Manuela Neves Análise de séries temporais multivariadas: desafios e perspectivas. Aplicações . . 245 Nélia Silva e Isabel Pereira Previsão em modelos bilineares de valores inteiros . . . . . . . . . . . . . . . . . 247 SPE 2011 xviii Programa e Índice de Apresentações 09:00 – 10:20 Comunicações Orais – Econometria Sala Dinastia – Presidente: Isabel Fraga Alves Bruno Pires Cash-Flow at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 Ana Almeida e Teresa Crespo Estatı́sticas da titularização em Portugal – compilação de dados e avaliação de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 Ana Cláudia Gouveia e Sı́lvia Fonte Santa Impacto dos sistemas de pensões ocupacionais na mobilidade do trabalho . . . . 253 Homero Alexandre Gonçalves Como podem as bases de dados administrativas ajudar a compreender o comportamento financeiro das sociedades não financeiras? . . . . . . . . . . . . . 255 09:00 – 10:20 Comunicações Orais – Estatı́stica Bayesiana Sala Caminho Real – Presidente: Kamil Feridun Turkman Conceição Ribeiro, Antónia Amaral Turkman e João Lourenço Cardoso Modelação de acidentes rodoviários . . . . . . . . . . . . . . . . . . . . . . . . 257 Raquel Nicolette, Isabel Pereira e Manuel Scotto Inferência bayesiana em modelos auto-regressivos de valores inteiros com limiares auto-induzidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Leonel Vicente e Kamil F. Turkman Estatı́stica bayesiana no planeamento de recursos humanos . . . . . . . . . . . . 261 Tufi Machado Soares, Neimar da Silva Fernandes e Sarah Martins Salomão Brodbeck Novas estruturas muldimensionais da TRI para consideração do efeito da ansiedade na proficiência do aluno em avaliações de larga escala . . . . . . . . . 263 09:00 – 10:20 Comunicações Orais – Análise de Sobrevivência Sala Atlântico – Presidente: Isabel Natário Ana Moreira e Luı́s Machado O estimador de Aalen-Johansen pré-suavizado . . . . . . . . . . . . . . . . . . . 265 Regina Bispo, Joana Bernardino e Tiago A. Marques Estratégia de verificação de cadáveres de aves em testes de remoção nos estudos de monitorização de parques eólicos . . . . . . . . . . . . . . . . . . . . . 267 Sara Simões Dias, Valeska Andreozzi e Rosário Oliveira Martins Análise da duração dos internamentos por VIH/SIDA através de um modelo hierárquico de misturas finitas . . . . . . . . . . . . . . . . . . . . . . . . 269 SPE 2011 xix Programa e Índice de Apresentações Luı́s Antunes, Maria José Bento e Denisa Mendonça Imputação múltipla - Uma aplicação ao tratamento de dados omissos em análise de sobrevivência de doentes oncológicos . . . . . . . . . . . . . . . . . . . 271 10:20 – 10:50 Pausa para Café e Posters 10:20 – 10:50 Sessão de POSTERS IV Adriana Belo, Cristina Rocha e Pedro Monteiro Factores de risco para a ocorrência de enfartes múltiplos decorrentes de uma sı́ndrome coronária aguda . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Daniela Cunha, Luı́s Antunes, Maria José Bento e Luı́s Machado Aplicação do algoritmo EM na modelação da sobrevivência relativa de doentes oncológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Filipe Felisberto, Miguel Felgueiras, António Pereira e Alexandra Seco Modelo logı́stico de detecção de quedas . . . . . . . . . . . . . . . . . . . . . . 277 Ana Cristina Moreira Freitas Processo das excedências para sistemas dinâmicos . . . . . . . . . . . . . . . . . 279 Maria Conceição Manso, Sandra Gavinha e Patrı́cia Manarte Monteiro Regressão logı́stica múltipla: previsão do estado de conservação de próteses dentárias removı́veis em idosos institucionalizados . . . . . . . . . . . . . 281 Maria Alice Martins, Helena Ribeiro e Rui Santos Estatı́stica no ensino secundário — um contributo para a clarificação do estudo da regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . 283 Isabel Tiago de Oliveira, Sabu S. Padmadas e José G. Dias Modelação do impacto da pobreza nas escolhas contraceptivas na Índia: uma análise multinı́vel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 Rosa Oliveira e Armando Teixeira-Pinto Métodos de regressão para observações repetidas em Saúde . . . . . . . . . . . . 287 Boris Oumow, Miguel de Carvalho e Anthony Davison Modelo de mistura bayesiano para extremos não-estacionários . . . . . . . . . . 289 Salomé Pedro, Rui Santos e Luı́s Cotrim Simulação – uma aplicação ao problema da ruı́na do jogador . . . . . . . . . . . 291 Alexandra Pinto, Fernando Bação e Victor Lobo Visualização de dados multivariados: radar plot versus tabela-gráfico . . . . . . . 293 Ana Sousa, Zilda Mendes e Maria Antónia Turkman Factores que influenciam a qualidade de vida dos doentes diabéticos . . . . . . . 295 Laetitia Teixeira, Anabela Rodrigues e Denisa Mendonça Riscos competitivos em estudos de diálise peritoneal . . . . . . . . . . . . . . . 297 SPE 2011 xx Programa e Índice de Apresentações Estela Vilhena et al. Preditores da qualidade de vida em pessoas com doenças crónicas . . . . . . . . 299 10:50 – 11:45 HOMENAGEM a M. IVETTE GOMES Sala Premium – Presidente: João A. Branco 10:50 Tributo a M. Ivette Gomes 11:00 Sessão Plenária V M. Ivette Gomes A importância de métodos de re-amostragem em Estatı́stica de Extremos . . . . . . . . . . . . . . . . . . . . . 301 11:45 – 12:10 Sessão de Entrega dos Prémios SPE JÚNIOR 12:10 – 12:30 SESSÃO DE ENCERRAMENTO DO CONGRESSO 12:30 Almoço de Despedida do Congresso Índice de Autores 303 SPE 2011 xxi Quarta, 28/09/2011 MINI-CURSO Sala Atlântico, 09:00–16:30 Análise de Dados Longitudinais M. Salomé Cabral1 e M. Helena Gonçalves2 1 CEAUL, Departamento de Estatı́stica e Investigação Operacional da Faculdade de Ciências da Universidade de Lisboa, [email protected] 2 CEAUL, Departamento de Matemática da Faculdade de Ciências e Tecnologia da Universidade do Algarve, [email protected] Resumo: Os dados longitudinais surgem sempre que observações repetidas da variável resposta são obtidas ao longo do tempo para cada indivı́duo, num ou mais grupos em estudo. As investigações envolvendo este tipo de dados são referidas como estudos longitudinais e desempenham um papel fundamental nas mais variadas áreas de conhecimento na medida em que é possı́vel caracterizar as alterações dentro do indivı́duo e relacionar essas alterações com um conjunto de factores que não o tempo. Os estudos longitudinais constituem, assim, uma importante estratégia na investigação em várias áreas cientı́ficas. Existe uma grande variedade de desafios na análise de dados longitudinais. Por um lado, devido à sua natureza, as medições repetidas provenientes de estudos longitudinais são multivariadas e têm uma estrutura complexa de autocorrelação cuja modelação desempenha um papel fundamental na análise deste tipo de dados. Por outro, a natureza da variável resposta pode ser contı́nua ou discreta, condicionando a metodologia a utilizar e, no caso discreto, obrigando a ter em conta os próprios objectivos da inferência. Todos estes factores contribuem para a importância deste tema não só do ponto de vista teórico mas também prático, tendo-se assistido nos últimos 20 anos a um grande desenvolvimento das metodologias estatı́sticas para analisar dados longitudinais. Neste curso serão apresentados os conceitos fundamentais da Análise de Dados Longitudinais assim como os diferentes modelos e métodos de análise usados nos diversos tipos de dados longitudinais. Exemplos das áreas da biologia e da medicina irão ilustrar estas metodologias, usando-se para o efeito bibliotecas do programa R. Palavras–chave: Dados longitudinais contı́nuos, dados longitudinais discretos, efeitos aleatórios, heterocedasticidade, correlação, modelo marginal, modelo com efeitos aleatórios SPE 2011 1 Quarta, 28/09/2011 Sessão Plenária I Sala Premium, 17:30–18:25 O lado não matemático da Estatı́stica João A. Branco Departamento de Matemática e CEMAT, IST, UTL, [email protected] Resumo: Um olhar, mesmo que despretencioso, para a história da Estatı́stica, só para recordar o que é, quais os seus objectivos e métodos de trabalho, diz-nos que a presença da matemática é, de um modo geral, uma presença constante e indispensável na actividade estatı́stica e no próprio desenvolvimento da Estatı́stica. Mas, para existir e actuar, a Estatı́stica depende de vários outros saberes que, aqui, colocamos num outro lado, o lado não matemático da Estatı́stica. A tradição, dando ênfase aos aspectos matemáticos, tem levado a que seja dada uma atenção insuficiente ao lado não matemático. Nesta apresentação espreitamos o lado não matemático da Estatı́stica para ver e saborear, com exemplos de análises reais, alguns desses saberes indispensáveis, também eles, ao trabalho estatı́stico. Concluı́mos deixando: (i) a certeza de que uma condição para o sucesso das boas análises está em não esquecer qualquer dos dois lados que formam os pilares da Estatı́stica e (ii) a preocupação de que um olhar demasiado enviesado, para um ou outro dos lados, não só empobrece a análise como pode trazer consequências negativas para outros aspectos da actividade, como é o caso do ensino da Estatı́stica. Palavras–chave: Matemática, estatı́stica, ensino da estatı́stica SPE 2011 Mesa: Fernando Rosado 3 Quinta, 29/09/2011 Análise Multivariada I Sala Premium, 09:00–10:00 Coeficiente de concordância correlacional: use mas não abuse Júlia Teles CIPER e Secção de Métodos Matemáticos, Faculdade de Motricidade Humana, Universidade Técnica de Lisboa, [email protected] Resumo: Avaliar a reprodutibilidade de uma experiência, método ou instrumento, ou a fiabilidade entre juı́zes é um assunto que tem interessado diversos investigadores, nomeadamente nas áreas da Saúde e do Desporto. Lin (1989, 1992) desenvolveu um ı́ndice, o Coeficiente de Concordância Correlacional, para quantificar a concordância entre duas avaliações. Lin (1989) e Barnhart et al. (2002) apresentam uma generalização desta medida para mais de duas avaliações. Quando a variabilidade entre indivı́duos é substancialmente superior à variabilidade entre avaliações esta medida sobrestima o verdadeiro valor da concordância. Alguns exemplos ilustrando esta situação, assim como algumas soluções para identificar e ultrapassar este problema irão ser apresentados. Palavras–chave: Reprodutibilidade, coeficiente de concordância correlacional Introdução Sejam X1 , . . . , Xm as variáveis aleatórias que representam as m avaliações de uma caracterı́stica medida numa escala contı́nua, para um indivı́duo seleccionado aleatoriamente numa determinada população. Lin (1989) expressa o grau de concordância entre as variáveis X j e Xk à custa do correspondente valor esperado do quadrado da diferença, i.e., E[(X j − Xk )2 ] = (µ j − µk )2 + (σ 2j + σk2 − 2σ jk ) , onde µ j = E(X j ), σ 2j = var(X j ) e σ jk = cov(X j ,Xk ), com j,k = 1,2, . . . , m e j 6= k. Se X j e Xk estiverem em concordância perfeita, então E[(X j − Xk )2 ] = 0. De modo a obter um ı́ndice no intervalo [−1,1], Lin (1989) propôs o Coeficiente de Concordância Correlacional, ρ cjk , definido por ρ cjk = 1 − 2σ jk E[(X j − Xk )2 ] = . 2 E[(X j − Xk ) | X j ,Xk são não correlacionadas] (µ j − µk )2 + (σ 2j + σk2 ) Este coeficiente pode ser escrito como o produto de duas componentes, ρ cjk = ρ ×Cb , em que ρ , o coeficiente de correlação linear de Pearson, é a componente de precisão, e Cb é a componente de exactidão, que quantifica o desvio da recta de regressão linear relativamente à recta de concordância (bissectriz dos quadrantes ı́mpares). Coeficiente de Concordância Correlacional Global Diversas generalizações deste coeficiente têm sido propostas para situações de múltiplas avaliações (e.g., Lin, 1989; King e Chinchilli, 2001; Barnhart et al., 2002). Argumentando que, neste caso, faz sentido usar a variabilidade inter-avaliações, V = ∑mj=1 (X j − X)2 /(m − 1), para descrever a discordância entre avaliadores, instrumentos, etc., Barnhart et al. (2002) apresentam o Coeficiente de SPE 2011 Mesa: A. Pedro Duarte Silva 5 Quinta, 29/09/2011 Análise Multivariada I Sala Premium, 09:00–10:00 Concordância Correlacional Global, ρoc , para quantificar a concordância entre múltiplas avaliações, ρoc = 1 − E(V ) . E(V | X1 ,X2 . . . , Xm são não correlacionadas] m 2 Como V = ∑m−1 j=1 ∑k= j+1 (X j − Xk ) /(m(m − 1)), então ρoc = m c ∑m−1 j=1 ∑k= j+1 w jk ρ jk m ∑m−1 j=1 ∑k= j+1 w jk , sendo w jk = (µ j − µk )2 + (σ 2j + σk2 ). Este ı́ndice não é mais do que uma média dos Coeficientes de Concordância Correlacional entre os diversos pares de variáveis, ρ cjk , ponderada por w jk . Representando por µ o valor médio global, ρoc pode ser escrito em função dos valores médios, variâncias e covariâncias, ρoc = m 2 ∑m−1 j=1 ∑k= j+1 σ jk (m − 1) ∑mj=1 σ 2j + m ∑mj=1 (µ j − µ )2 = m 2 ∑m−1 j=1 ∑k= j+1 σ jk m 2 (m − 1) ∑mj=1 σ 2j + ∑m−1 j=1 ∑k= j+1 ( µ j − µk ) . Utilizando o método dos momentos, obtém-se, para estimador de ρoc , ρ̂oc = m 2 ∑m−1 j=1 ∑k= j+1 S jk (m − 1) ∑mj=1 S2j + m ∑mj=1 (Y j −Y )2 , onde Y j , S2j e S jk são, respectivamente, a média, a variância e a covariância amostrais, e Y é a média global. Várias abordagens têm sido propostas para a estimação do erro standard de ρ̂oc : aproximação à distribuição normal com transformação-Z de Fisher (Lin, 1989), equações de estimação generalizadas (Barnhart e Williams, 2001), estatı́stica-U (King e Chinchilli, 2001) e bootstrap (e.g., Barnhart et al., 2002). Nota Final Quando a variabilidade entre indivı́duos é substancialmente superior à variabilidade entre avaliações o Coeficiente de Concordância Correlacional sobrestima a concordância. Por isso, use mas não abuse. Bibliografia [1] Barnhart, H.X., Haber, M. e Song, J.L. (2002). Overall concordance correlation coefficient for evaluating agreement among multiple observers. Biometrics, 58, 1020–1027. [2] Barnhart, H.X. e Williamson, J.M. (2001). Modeling concordance correlation via GEE to evaluate reproducibility. Biometrics, 57, 931–940. [3] King, T.S. e Chinchilli, V.M. (2001). A generalized concordance correlation coefficient for continuous and categorical data. Statistics in Medicine, 20, 2131–2147. [4] Lin, L.I.-K. (1989). A concordance correlation coefficient to evaluate reproducibility. Biometrics, 45, 255–268. [5] Lin, L.I.-K. (1992). Assay validation using the concordance correlation coefficient. Biometrics, 48, 599–604. SPE 2011 Mesa: A. Pedro Duarte Silva 6 Quinta, 29/09/2011 Análise Multivariada I Sala Premium, 09:00–10:00 Early identification of students at risk of failure in the first year of medical degree Irina Kislaya1 , Miguel Portela2 , Patrı́cio Costa1 , Manuel João Costa1 e Maria Conceição Serra3 1 School of Health Sciences, University of Minho, {irinakislaya,pcosta,mmcosta}@ecsaude.uminho.pt 2 School of Economics and Management, University of Minho, [email protected] 3 School of Science, Dep. Math. and Applications, University of Minho, [email protected] Abstract: Academic failure is a frequent phenomena in medical education, with huge impact both on students and medical school, and yet it is poorly understood. For the student, failure is a serious source of distress and demotivation. For the medical schools, it is an issue of organizational, financial and academic accountability. Failure represents increased costs with students’ training and also delays their entrance into the labor market. The first year in the university is often daunting for students and rates of failure in this year are often the highest. Several studies in the USA and UK indicate that medical students who start failing in first year courses continue to struggle along the degree and become poor doctors. The most effective way of remediation of persistent failure is to ensure that “academically at risk” students are identified very early in the degree allowing medical schools to take preventive measures and to work out solutions for these students. The main goal of this study is to develop a statistical model that flags, as early as possible, students at risk of failure in the first year of medical degree. To achieve this goal, administrative data related to first year students of the School of Health and Sciences of Minho University (3 entry cohort) is analyzed. The data consists of individual measures of academic performance in first year courses, high school grade point average, socio-demographic and personality variables collected annually and thus available from of the School’s longitudinal database. At Minho University, the first year study plan of the undergraduate medical program comprises seven courses, organized sequentially along the academic year. In the ten years of existence of the program, it became clear that “Functional and Organic Systems I”, course (FOSI, 25 ECTS) had the highest rates of failure (greater than 25%). Furthermore, failure in FOSI results in a great cost to students, once success in this course is essential for success in subsequent courses: “Functional and Organic Systems II”, and “Functional and Organic Systems III”, taught at the second year of the degree. Therefore, FOSI was chosen as criteria for failure in the analysis. In order to determine which factors influence the academic performance in the first year course with the highest failure rates, we have used several statistical tools, namely: multivariate logistic regression, discriminant analysis and classification trees. Keywords: Logistic regression, discriminant analysis, medical students, academic performance Acknowledgements: FCT - Fundação para a Ciência e Tecnologia (PT DC/ESC/65116/2006) SPE 2011 Mesa: A. Pedro Duarte Silva 7 Quinta, 29/09/2011 Análise Multivariada I Sala Premium, 09:00–10:00 Bibliography [1] Challis, M., Fleet, A. and Basyone, G. (1999). An accident waiting to happen? A case for medical education. Medical Teacher, 21, 582–585. [2] Ferguson, E., James, D. and Madeley, L. (2002). Factors associated with success in medical school and in a medical career: systematic review of the literature. BMJ, 324, 952–957. [3] Hastie, T., Tibshirani, R. and Friedman, J. (2001). The Elements of Statistical Learning. Data mining, Inference, and Prediction. Springer-Verlag. [4] Hosmer, D.W. and Lemeshow, S. (2000). Applied Logistic Regression. 2nd ed., Wiley. [5] Huberty, C.J. (1994). Applied Discriminant Analysis. Wiley. [6] Lievens, F., Coetser, P., De Fruyt, F. and De Maeseneer, J. (2002). Medical Students’ personality characteristics and academic performance: a five-factor model perspective. Medical Education, 36, 1050–1056. SPE 2011 Mesa: A. Pedro Duarte Silva 8 Quinta, 29/09/2011 Análise Multivariada I Sala Premium, 09:00–10:00 Estudo de outliers em dados forenses Manuela Figueira Neves1 e Fernando Rosado2 1 2 Instituto Politécnico da Guarda, CEAUL e UDI/IPG , [email protected] Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL, [email protected] Resumo: A Estatı́stica Forense é um domı́nio muito recente inserido no âmbito da Ciência Estatı́stica. No último quarto do século passado tornou-se evidente a sua importância na ciência forense e na criminalı́stica, tendo já entrado nos temas de topo, quer no domı́nio cientı́fico quer no campo profissional. Têm sido várias as contribuições para o estudo de observações outliers em ambiente forense. Neste trabalho apresentamos diversas metodologias estatı́sticas para o estudo de outliers assim como algumas aplicações a dados forenses. Palavras–chave: Estatı́stica forense, outliers, análise bayesiana Introdução Em qualquer amostra ou conjunto de dados estatı́sticos é possı́vel a observação de valores discordantes. O estudo desse tipo de observação pode ser levado a cabo segundo duas abordagens distintas e antagónicas: a tradicional e a generativa (Rosado, 1984). Na abordagem tradicional o objectivo principal do estudo de outliers é testar uma observação como discordante. A observação a testar testada é previamente escolhida pelo analista. Esta é a primeira caracterı́stica de subjectividade desta análise, dita tradicional. Pelo contrário, no estudo proposto em Rosado (1984, 2006) introduz-se objectividade na análise dos valores discordantes de uma amostra de dados estatı́sticos. A observação, eventualmente, decidida como outlier não é fixada pelo analista a priori. A problemática do estudo de observações discordantes será conduzida no ambiente da Estatı́stica Forense. Outliers em Estatı́stica Forense Na sequência dos primeiros resultados de Lindley (1977) e seguindo métodos de Aitken e Taroni (2004), Aitken et al. (2007) usam a razão de vantagens em dois nı́veis para estudar a evidência. As chances constituem um ponto de partida para a discussão na actividade forense. Mas, a comparação de hipóteses é sempre apoiada e decidida com base em observações. Em qualquer amostra de dados estatı́sticos, e de acordo com o ponto de vista bayesiano, nenhuma observação deve ser rejeitada. Neste trabalho proceder-se-á à identificação de observações outliers de dados analisados em Aitken e Lucy (2004). Estes dados referem-se a fragmentos de vidro de janelas partidas que foram analisados em relação à sua composição. Tais observações serão objecto de testes formais para aferir da sua condição de outlier, assumindo a normalidade dos dados. Ainda na hipótese de normalidade serão também objecto de estudo os dados construı́dos por Evett (1977). Agradecimentos: Esta investigação é parcialmente financiada pela FCT/OE. SPE 2011 Mesa: A. Pedro Duarte Silva 9 Quinta, 29/09/2011 Análise Multivariada I Sala Premium, 09:00–10:00 Bibliografia [1] Aitken, C.G.G. e Lucy, D. (2004). Evaluation of trace evidence in the form of multivariate data. Applied Statistics, 53, 109–122. [2] Aitken, C.G.G., Shen, Q., Jensen, R. e Hayes, B. (2007). The evaluation of evidence for exponentially distributed data. Computational Statistics and Data Analysis, 51, 5682–5693. [3] Aitken, C.G.G. e Taroni, F. (2004). Statistics and Evaluation of Evidence for Forensic Scientists. Wiley. [4] Barnett, V. e Lewis, T. (1994). Outliers in Statistical Data. Wiley. [5] Evett, I.W. (1977). The interpretation of refractive index measurements. Forensic Science, 209–217. [6] Lindley, D.V. (1977). A problem in forensic science. Biometrika, 207–213. [7] Paulino, D., Amaral-Turkman, A. e Murteira, B. (2003). Estatı́stica Bayesiana. Fundação Calouste Gulbenkian. [8] Rosado, F. (1984). Existência e detecção de outliers - Uma abordagem metodológica. Tese de Doutoramento, Universidade de Lisboa. [9] Rosado, F. (2006). Outliers em Dados Estatı́sticos. Edições SPE. [10] Taroni, F., Bozza, S., Biedermann, A., Garbolino, P. e Aitken, C.G.G. (2010). Data Analysis in Forensic Science - a Bayesian Decision Perspective. Wiley. SPE 2011 Mesa: A. Pedro Duarte Silva 10 Quinta, 29/09/2011 Biostatı́stica I Sala Dinastia, 09:00–10:00 Comparação de intervalos de confiança para sensibilidades e especificidades Ana Subtil1 , M. Rosário de Oliveira1 e Luzia Gonçalves2 1 Departamento de Matemática e CEMAT, Instituto Superior Técnico, Universidade Técnica de Lisboa, {asubtil,rsilva}@math.ist.utl.pt 2 Unidade de Saúde Pública Internacional e Bioestatı́stica, Instituto de Higiene e Medicina Tropical, Universidade Nova de Lisboa e CEAUL, [email protected] Resumo: A estimação intervalar de uma proporção é uma questão de grande relevância prática, como demonstra a presença generalizada deste tópico no ensino introdutório da Estatı́stica. Embora a divulgação e utilização do intervalo de confiança de Wald seja prevalecente, as suas limitações têm sido apontadas por diversos autores [1, 2, 3, 4]. Estes trabalhos identificam e comparam métodos alternativos de construção de intervalos de confiança com propriedades desejáveis e, deste modo, fornecem orientações relativamente às escolhas mais adequadas a cada caso prático especı́fico. A sistemática necessidade de avaliação do desempenho de testes de diagnóstico, nomeadamente motivada pelo permanente surgimento de novos testes, suscita a construção de intervalos de confiança associados a indicadores de desempenho dos testes. A sensibilidade, que é a probabilidade do resultado do teste ser positivo quando aplicado a um indivı́duo doente, e a especificidade, que corresponde à probabilidade do resultado ser negativo quando aplicado a um indivı́duo não doente, são duas das medidas de desempenho mais utilizadas. A sensibilidade (especificidade) consiste numa probabilidade condicional e o estimador de máxima verosimilhança desta probabilidade define-se em função do número de doentes (não doentes) em estudo, que é uma variável aleatória dependente da prevalência da doença. Neste contexto, a probabilidade de cobertura e o valor esperado do comprimento do intervalo de confiança, critérios utilizados de forma recorrente na apreciação de diferentes métodos de estimação intervalar [3, 4], têm de ser redefinidos. Ignorando esta necessidade, as conclusões dos trabalhos que avaliam diferentes métodos de construção de intervalos de confiança não são necessariamente válidas para a sensibilidade e a especificidade. No presente trabalho, a probabilidade de cobertura e o valor esperado do comprimento do intervalo de confiança são redefinidos e utilizados na comparação de métodos de construção de intervalos de confiança para a sensibilidade e a especificidade de um teste de diagnóstico. A selecção dos métodos teve em consideração trabalhos anteriores sobre o problema da estimação intervalar de uma proporção binomial [1, 2, 3, 4] e recaiu sobre os seguintes métodos: Clopper-Pearson, bayesiano com distribuição a priori uniforme e de Jeffreys, Wilson (ou Score), Wald, Anscombe, AgrestiCoull, mid-P e Wald. Os méritos e limitações de cada método são debatidos e, apesar da dificuldade em identificar o melhor método de estimação intervalar em todas as circunstâncias, os métodos de Wilson e Jeffreys conduzem a resultados promissores. Palavras–chave: Intervalo de confiança, probabilidade de cobertura, sensibilidade, especificidade Agradecimentos: Trabalho parcialmente financiado pela FCT através do projecto PTDC/SAUESA/81240/2006. SPE 2011 Mesa: Manuel Scotto 11 Quinta, 29/09/2011 Biostatı́stica I Sala Dinastia, 09:00–10:00 Bibliografia [1] Agresti, A. e Coull, B.A. (1998). Approximate is better than “exact” for interval estimation of binomial proportions. American Statistician, 52, 119–126. [2] Brown, L.D., Cai, T.T. e Dasgupta, A. (2002). Confidence intervals for a binomial proportion and asymptotic expansions. The Annals of Statistics, 30, 160–201. [3] Newcombe, R. (1998). Two-sided confidence intervals for the single proportion: comparison of seven methods. Statistics in Medicine, 17, 857–872. [4] Pires, A.M. e Amado, C. (2008). Interval estimates for a Binomial proportion: comparison of twenty methods. REVSTAT, 6, 165–197. SPE 2011 Mesa: Manuel Scotto 12 Quinta, 29/09/2011 Biostatı́stica I Sala Dinastia, 09:00–10:00 Estimador não paramétrico, condicional ao sexo, para a curva ROC do CRIB Filipa Mourão1 , Ana Braga2 e Pedro Oliveira3 1 Instituto Politécnico de Viana do Castelo, [email protected] Universidade do Minho, [email protected] 3 Instituto de Ciências Biomédicas Abel Salazar, [email protected] 2 Resumo: Em investigação médica, a curva ROC (Receiver Operating Characteristic) é uma técnica muito bem aceite para avaliar o desempenho de um teste de diagnóstico, sendo a AUC (Area Under Curve) o ı́ndice mais usado para avaliar a qualidade desse desempenho. No entanto, em algumas situações, o desempenho do teste de diagnóstico, a própria curva ROC e a AUC pode ser fortemente influenciado pela presença de covariáveis, sejam elas contı́nuas ou categóricas (López-de-Ullibarri et al., 2007). Por definição, a curva ROC é a representação gráfica, no plano unitário, dos pares de valores sensibilidade ou Fracção de Verdadeiros Positivos (FVP) e 1-especificidade ou Fracção de Falsos Positivos, ordenadas e abcissas, respectivamente, obtidos ao considerar todos os possı́veis valores de corte da escala, proporcionando uma representação global da exactidão dessa escala. Uma curva ROC é deste modo uma descrição empı́rica da capacidade da escala poder discriminar entre dois estados (anormal, normal) na qual cada ponto traduz um compromisso diferente entre FVP e FFP obtido, por exemplo, pela adopção de valores de corte diferentes (Metz, 1986). A escala de gravidade clı́nica, CRIB - Clinical Risk Index for Babies, surgiu em 1993 para prever a mortalidade de recém-nascidos com menos de 32 semanas de gestação (Dorling et al., 2005). Em trabalhos anteriores (Braga et al., 1997) este ı́ndice foi avaliado como apresentando um bom desempenho na avaliação do risco de falecimento para recém-nascidos de muito baixo peso (peso inferior a 1500 gr). Ilustraremos, neste trabalho, aplicando o método kernel para obter uma curva ROC suavizada, como o peso ao nascer pode influenciar a escala CRIB na discriminação entre bebés com risco de falecimento (anormais) e de sobrevivência (normais). Palavras–chave: ROC (Receiver Operating Characteristic), CRIB (Clinical Risk Index for Babies), kernel Bibliografia [1] Braga, A.C., Oliveira, P., e Gomes, A. (1997). Avaliação do risco de morte em recém-nascidos de muito baixo peso: uma comparação de ı́ndices de risco baseada em curvas ROC. IV Congresso Anual da Sociedade Portuguesa de Estatı́stica. Editores: Luı́sa Canto e Castro, Dinis Pestana, Rita Vasconcelos e Isabel Fraga Alves. Edições Salamandra. [2] Dorling, J.S., Field, D.J., e Manktelow, B. (2005). Neonatal disease severity scoring systems Arch. Dis. Child. Fetal Neonatal, 90:F11-F16. [3] López-de-Ullibarri, I., Cao, R., Cadarso-Suárez, C., Lado, M.J. (2007). Nonparametric estimation of conditional ROC curves: application to discrimination tasks in computerized detection of early breast cancer. Preprint submitted to Elsevier. [4] Metz, C.E. (1986). Statistical Analysis of ROC Data in Evaluating Diagnostic Performance. Multiple Regression Analysis: Applications in the Health Sciences. American Institute of Physics, 13:365-384. SPE 2011 Mesa: Manuel Scotto 13 Quinta, 29/09/2011 Biostatı́stica I Sala Dinastia, 09:00–10:00 Diagnóstico de sı́ndrome Brugada: Uma lufada de ar fresco! Carla Henriques1 , Ana Cristina Matos1 e Luı́s Ferreira dos Santos2 1 2 Escola Sup. Tecnologia e Gestão, Instituto Politécnico de Viseu, {carlahenriq,amatos}@estv.ipv.pt Serviço de Cardiologia, Hospital São Teotónio de Viseu, [email protected] Resumo: A Sı́ndrome Brugada (SB) é uma doença com carácter hereditário que predispõe à morte súbita cardı́aca (MSC) indivı́duos sem cardiopatia estrutural. O seu diagnóstico é feito detetando o padrão tı́pico no electrocardiograma, dito padrão Tipo 1 de Brugada, mas este nem sempre é visı́vel, o que torna o diagnóstico difı́cil. Neste trabalho foram pesquisadas outras medidas electrocardiográficas, independentes do padrão tı́pico, que tivessem bom potencial para diferenciar os portadores e não portadores da mutação genética responsável pela doença. A combinação destas medidas através de modelos lineares permitiu potenciar a capacidade de discriminação entre os dois grupos, obtendo-se soluções de combinação destas medidas cujas curvas ROC associadas têm AUC (área sob a curva ROC) superior a 0.9, o que se traduz numa capacidade admirável para discriminar os dois grupos. Assim, estas soluções afiguram-se alternativas eficazes no diagnóstico de SB que poderão evitar a procura de um padrão Tipo 1 num electrocardiograma. Palavras–chave: Curvas ROC, modelos de regressão, sensibilidade, especificidade Apresentação do problema em estudo e soluções pesquisadas A Sı́ndrome de Brugada (SB) é uma doença caracterizada por disfunção dos canais de sódio cardı́acos que resulta de uma mutação genética, na maioria dos casos herdada de um dos progenitores, e que predispõe a arritmias cardı́acas malignas e a paragem cardı́aca súbita. Estima-se que esta doença seja responsável por pelo menos 20% dos casos de morte súbita cardı́aca em indivı́duos com coração estruturalmente normal e por pelo menos 4% de todos os casos de morte súbita cardı́aca (MSC) (Antzelevitch et al., 2005), o que, claramente, explica o crescente interesse cientı́fico à sua volta. Na verdade, ela é uma entidade clı́nica muito recente, já que foi documentada pela primeira vez em 1992 por Brugada e Brugada (1992) e em Portugal em 1999 em Cavaco et al. (1999), mas o número de publicações a seu respeito tem crescido consideravelmente nos últimos anos. Os indivı́duos portadores da mutação genética podem nunca vir a ter sintomas, no entanto, o primeiro sintoma da doença pode ser a morte súbita cardı́aca, sendo por isso uma espécie de “ameaça”, por vezes “silenciosa”, nos familiares de portadores da doença. A única forma de eliminar a ameaça de morte súbita é a implantação de um cardioversor-desfibrilhador implantável (CDI), mas este é muito caro, bastante desconfortável para o doente e pode levar a complicações, sendo por isso aconselhável apenas a doentes de alto risco. O diagnóstico da doença é usualmente feito através de um electrocardiograma (ECG) no qual se detecta um padrão caracterı́stico, designado por padrão Tipo 1 ou ECG de Brugada, em associação com outros critérios clı́nicos fáceis de identificar. Uma grande dificuldade associada a este meio de diagnóstico é detectar o padrão Tipo 1 num electrocardiograma, pois este é frequentemente intermitente, isto é, indivı́duos doentes apresentam intermitentemente ECGs normais e ECGs com SPE 2011 Mesa: Manuel Scotto 15 Quinta, 29/09/2011 Biostatı́stica I Sala Dinastia, 09:00–10:00 algum padrão Brugada. Os testes genéticos também não são uma solução adequada, pois são muito dispendiosos e por vezes é difı́cil detectar a mutação responsável. É neste contexto que se enquadra o presente trabalho. A partir da análise de registos de 113 elementos de duas famı́lias portuguesas, com 42 portadores de mutação genética, pesquisaram-se medidas electrocardiográficas que pudessem discriminar entre os portadores da mutação genética e não portadores, com vista a efectuar um diagnóstico sem ter de recorrer à detecção do padrão Brugada. Através do recurso a curvas ROC, e outras técnicas estatı́sticas, foi possı́vel identificar cinco medidas electrocardiográficas com bom poder para discriminar entre os portadores e não portadores da mutação. A questão natural que se seguiu foi a de combinar a informação destas medidas, da forma mais eficiente possı́vel, de modo a aproveitar o potencial de cada uma para a discriminação entre os dois grupos. Para isso foram explorados modelos de análise univariada e multivarida, nomeadamente modelos de regressão logı́stica. Como resultado deste esforço, perspectivam-se neste trabalho formas de combinar estas medidas, que neste conjunto de dados se revelaram mais eficientes do que a detecção do padrão Brugada. As análises feitas incluı́ram não só as cinco medidas per si, mas também possı́veis interacções entre elas, a avaliação do problema de escala das varáveis e avaliação do ajustamento dos modelos de regressão logı́stica. Na avaliação destes modelos recorremos também à metodologia bootstrap. Obtivemos soluções cujas curvas ROC apresentam uma área superior a 0.9, o que sugere uma capacidade notável para discriminar entre os dois grupos (Hosmer e Lemeshow, 2000). Pelo desempenho admirável demonstrado nos dados disponı́veis, estas soluções motivam claramente a sua exploração futura com dados de mais doentes e mais famı́lias. Bibliografia [1] Antzelevitch C., Brugada P., Borggrefe M., Brugada J., Brugada R., Corrado D., Gussak I., LeMarec H., Nademanee K., Perez Riera A.R., Shimizu W., Schulze-Bahr E., Tan H. e Wilde, A. (2005). Brugada syndrome: report of the second consensus conference: endorsed by the Heart Rhythm Society and the European Heart Rhythm Association. Circulation, 111, 659670. [2] Brugada, P. e Brugada, J. (1992). Right bundle branch block, persistent ST segment elevation and sudden cardiac death: a distinct clinical and electrocardiographic syndrome. A multicenter report. J. Am. Coll. Cardiol., 20, 1391-1396. [3] Cavaco, D., Adragão, P., Mendes, M., Morgado, F., Parreira, L., Bonhorst, D. e Seabra-Gomes, R. (1999). The Brugada syndrome–a clinical case. Rev Port Cardiol., 18(2), 169-173. [4] Hosmer, D.W., Lemeshow, S. (2000). Applied Logistic Regression (2nd Edition). John Wiley and Sons, New York. SPE 2011 Mesa: Manuel Scotto 16 Quinta, 29/09/2011 Processos Estocásticos I Sala Caminho Real, 09:00–10:00 Avaliação do desempenho de filas M X /G − G/1/n Fátima Ferreira1 , António Pacheco2 e Helena Ribeiro3 1 Universidade de Trás-os-Montes e Alto Douro, CM–UTAD, [email protected] IST, Universidade Técnica de Lisboa, CEMAT, [email protected] 3 ESTG, Instituto Politécnico de Leiria, CEMAT, [email protected] 2 Resumo: Neste trabalho, avaliamos o desempenho de filas M X /G − G/1/n em perı́odos de ocupação contı́nua, i.e., perı́odos ininterruptos iniciados no instante em que um cliente começa a ser servido e terminados no subsequente instante em que o sistema fica vazio. Estas filas são dinâmicas no sentido de serem capazes de adaptar o seu tipo de serviço em situações de congestionamento. Palavras–chave: Filas M X /G − G/1/n, misturas de Poisson, perı́odos de ocupação contı́nua Motivação e breve introdução aos sistemas oscilantes Filas de espera modelam muitas situações da vida quotidiana. De facto, em qualquer situação onde num dado momento existam clientes a requerer um serviço em número superior ao número de servidores há formação de uma fila, fı́sica ou conceptual. Estas filas de espera cumprem uma missão de organização social indispensável na vida actual, permitindo às entidades uma prestação de serviços ordeira e mais justa. Nelas os clientes esperam pelo serviço de acordo com a disciplina da fila, são servidos obedecendo à disciplina de serviço e, em seguida, deixam o sistema. Com raı́zes associadas à modelação de redes telefónicas [4], as filas de espera encontram hoje em dia aplicações nas mais diversas áreas e actividades (veja-se, e.g., [1, 3, 6]). Desde os modelos clássicos de filas de espera – tradicionalmente com um único servidor, chegadas individuais de clientes e capacidade infinita da fila de espera – inúmeras extensões têm sido propostas na literatura visando a incorporação de caracterı́sticas mais adequadas à modelação de situações reais. Desde logo a consideração de sistemas com capacidade finita e chegadas em grupo, relevantes para modelar, e.g., chegadas de clientes a um restaurante ou chegadas de cartas a um posto dos correios. A relevância dos sistemas com chegadas em grupo e capacidade finita (como os considerados neste trabalho) está bem patente na quantidade de trabalhos apresentados na literatura respeitantes a estes sistemas (veja-se, e.g., [3] e referências incluı́das). Na perspectiva do cliente, a avaliação do desempenho das filas passa sobretudo pelo estudo (da distribuição) do tamanho da fila e dos tempos de espera no sistema. Numa avaliação do desempenho orientada para a perspectiva do servidor é relevante estudar-se, para além das medidas referidas, a duração de perı́odos de ocupação contı́nua do sistema e os números de clientes servidos e de clientes perdidos nesses mesmos perı́odos. No dimensionamento de uma fila pretende-se que as probabilidades de perda de clientes e os tempos de espera na fila sejam baixos e que a utilização dos servidores seja elevada. De facto, se por um lado filas ou perı́odos de espera longos acarretam custos elevados, com inerente degradação do serviço e consequente perda de clientes, do ponto de vista do sistema é dispendioso manter um servidor com baixa utilização. Contudo, é bem conhecido que com filas de espera regulares é impossı́vel conciliar os dois objectivos referidos, uma vez que não é possı́vel reduzir perdas de clientes e tempos de SPE 2011 Mesa: Paula Milheiro de Oliveira 17 Quinta, 29/09/2011 Processos Estocásticos I Sala Caminho Real, 09:00–10:00 espera na fila sem que os servidores passem por perı́odos de fraca utilização (veja-se, e.g., [7, 8]). Uma das formas de aumentar a utilização do servidor, mantendo as perdas e os tempos de espera na fila controlados, é considerar filas de espera dinâmicas nas quais as caracterı́sticas de serviço reagem à congestão do sistema, adaptando o tipo de serviço a situações de congestionamento ou de rarefacção. Estas filas têm vindo a ser estudados por diversos autores (veja-se, e.g., [2, 5, 9]). Neste trabalho, consideramos filas M X /G − G/1/n, com n = (n,a,b), no sentido da definição de Chydzinski [2], com n, a e b inteiros tais que 0 ≤ a < b ≤ n. Estas são filas de capacidade finita, n, às quais os clientes chegam em grupos segundo um processo de Poisson composto. Os clientes são servidos por ordem de chegada por um único servidor, cujo mecanismo de serviço oscila entre duas fases, 1 e 2, com diferentes distribuições de serviço, em função da evolução do número de clientes no sistema. Especificamente, a evolução processa-se da seguinte forma: se num determinado instante o sistema está a operar na fase 1, o número de clientes no sistema é menor do que b e o sistema permanece na fase 1 enquanto que o número de clientes no sistema se mantiver menor que b. No preciso instante em que o número de clientes no sistema excede b − 1, o sistema passa a operar na fase 2, permanecendo nesta fase até ao instante subsequente em que o número de clientes no sistema passe a ser menor ou igual a a. Nesse instante o sistema passa de novo a operar na fase 1, e assim sucessivamente. Tirando partido da estrutura regenerativa markoviana destes sistemas, deduzimos neste trabalho um procedimento recursivo na capacidade do sistema para o cálculo de medidas de desempenho de filas M X /G − G/1/n em perı́odo de ocupação contı́nua, nomeadamente para o cálculo das distribuições dos números de perdas de clientes e de clientes servidos nesses perı́odos. Computacionalmente, o processo recursivo é de fácil implementação. Para ilustrar a sua eficácia, calculamos as medidas de desempenho referidas para uma ampla variedade de filas com diferentes distribuições de serviço. Bibliografia [1] Boxma, O.J. e Syski, R. (1988). Queueing Theory and its Applications. Cwi Monographs, North-Holland. [2] Chydzinski A. (2003). The M − M/G/1-Type Oscillating Systems. Cybernetics and Systems Analysis, 39(2), 316–324. [3] Dshalalow, J.H.F. (1997). Frontiers in Queueing: Models and Applications in Science and Engineering. Boca Raton, FL: CRC. [4] Erlang, A.K. (1909). The Theory of Probabilities and Telephone Conversations. Nyt tidsskrift for Matematik, B, 20, 33–39. [5] Ferreira F., Pacheco A. e Ribeiro H. (2009). Analysis of Finite Oscillating GI X /M(n)/N Queueing Systems. Em Recent Advances in Stochastic Operations Research II (Editores, T. Dohi, S. Osaki e K. Sawaki), 79–98. [6] Golubchik, L. e Lui, J.C.S. (2002). Bounding of Performance Measures for Threshold-Based Queuing Systems: Theory and Application to Dynamic Resource Management in Video-onDemand Servers. IEEE Transactions on Computers, 51(4), 353–372. [7] Kleinrock, L. (1975). Queueing Systems. Volume I: Theory. Wiley. [8] Medhi, J. (2003). Stochastic Models in Queueing Theory. Academic Press, Amsterdam. [9] Takagi, H. (1985). Analysis of a finite-capacity M/G/1 queue with a resume level. Performance evaluation, 5(3), 197–203. SPE 2011 Mesa: Paula Milheiro de Oliveira 18 Quinta, 29/09/2011 Processos Estocásticos I Sala Caminho Real, 09:00–10:00 Quantifying stochastic introgression processes with hazard rates Maria Conceição Serra1 , Atiyo Ghosh2 and Patsy Haccou3 1 Department of Mathematics and Applications, Minho University, [email protected] Institute of Environmental Sciences, Leiden University, [email protected] 3 Mathematical Institute, Leiden University, [email protected] 2 Abstract: Introgression is the permanent incorporation of genes from one population into another through hybridization and backcrossing. It is currently of particular concern as a possible mechanism for the spread of modified crop genes to wild populations. The hazard rate is the probability per time unit that such an escape event takes place, given that it has not happened before. It is a quantitative measure of introgression risk that takes the stochastic elements inherent in introgression processes into account. We present a methodology, based on multitype Galton-Watson branching processes, to calculate the hazard rate for situations with time-varying gene flow from a crop to a large recipient wild population. Several types of time-inhomogeneity are examined, including deterministic periodicity as well as random variation. Furthermore, we examine the effects of an extended fitness bottleneck of hybrids and backcrosses in combination with time-varying gene flow. We discuss the implications of our results for crop management and introgression risk assessment. Keywords: Branching process, invasion, transgene, random environment Bibliography [1] Ghosh, A., Serra, M.C. and Haccou, P., Quantifying stochastic introgression processes with hazard rates. Submitted for publication. [2] Serra, M.C. and Haccou, P. (2007). Dynamics of escape mutants, Theoretical Population Biology, 72, 167-178. SPE 2011 Mesa: Paula Milheiro de Oliveira 19 Quinta, 29/09/2011 Processos Estocásticos I Sala Caminho Real, 09:00–10:00 Conjuntos de Cantor com reparação aleatória Maria de Fátima Brilhante1 , Dinis Pestana2 e Maria Luı́sa Rocha3 1 Universidade dos Açores e CEAUL, [email protected] CEAUL, [email protected] 3 Universidade dos Açores, [email protected] 2 Resumo: Investigamos o efeito de reparações aleatórias, definidas como adjunção de um segmento definido por mı́nimo e máximo de duas observações independentes de uma população com suporte em [0,1], em cada etapa da construção iterativa de um conjunto aleatório de Cantor, admitindo independência das amostras usadas nas fases de supressão e reconstrução. A análise é feita em termos do diâmetro esperado e do comprimento total esperado ao fim de um número fixo de ciclos do que se obtém com e sem reparação. Palavras–chave: Conjuntos de Cantor aleatórios, modelos beta, padrões de aleatoriedade em [0,1] Introdução Em importantes questões biológicas e industriais (treino de doentes com lesões cerebrais, recuperação de informação em unidades de armanazenamento danificadas por picos de corrente eléctrica), quer a extensão dos estragos quer a capacidade de reparação são eventualmente aleatórios. Aleixo e Pestana (2011) definiram extensões dos conjuntos de Cantor aleatórios, considerando que em cada etapa a supressão de um conjunto (determinista ou aleatória, definida à custa de estatı́sticas ordinais) é moderada por uma recuperação, eventualmente parcial, da zona destruı́da. Nesse estudo inicial, a modelação quer do segmento que é suprimido quer do segmento que é recuperado foi feita com betas com parâmetros escolhidos por conveniência de cálculo, e a avaliação dos benefı́cios de reparar aleatoriamente foi feita em termos da dimensão de Hausdorff do fractal obtido como limite da iteração do procedimento de destruição/reconstrução. Em Aleixo et al. (2011) o estudo deste processo de random damage/repair foi orientado para a avaliação do efeito de um número finito, em geral baixo, de ciclos de destruição/reconstrução. Descrição de Fk no caso de destruição e reconstrução com o mesmo modelo Partindo de F0 = [0,1], considerem-se ciclos de destruição/reconstrução com as seguintes regras: 1. Seja Fk = Nk [ Ci,k uma união de segmentos Ci,k , onde N1 = i=1 Nk−1 independentes de N1 e Nk = 1 2 3 1 6 2 3 1 6 , N1,i são réplicas ∑ N1,i . i=1 SPE 2011 Mesa: Paula Milheiro de Oliveira 21 Quinta, 29/09/2011 Processos Estocásticos I Sala Caminho Real, 09:00–10:00 2. Fase de destruição: Em cada segmento Ci,k elimina-se um segmento intermédio delimitado pelos mı́nimo e máximo de dois pontos (X1 ,X2 ) gerados em Ci,k , com uma distribuição seleccionada. 3. Fase de reparação: Gera-se uma amostra de tamanho 2 (Y1 ,Y2 ), independente de (X1 ,X2 ), e identicamente distribuı́da, e une-se (Y1:2 ,Y2:2 ) a Ci,k − (X1:2 ,X2:2 ). Este procedimento é facilmente generalizável para o caso de (X1 ,X2 ) e (Y1 ,Y2 ) não serem identicamente distribuı́das, apenas se perde a simplicidade de poder considerar (X1 ,X2 ,Y1 ,Y2 ) uma amostra de tamanho 4 de uma mesma população, o que tem consequências logo a nı́vel da distribuição das variáveis aleatórias de contagem Nk . Avaliação dos benefı́cios da reparação aleatória Um efeito perverso da reparação aleatória é a possibilidade de se reparar o que não está danificado — como afinal acontece no nosso quotidiano, por exemplo quando se leva o carro à revisão e o protocolo seguido leva a substituir velas, correia da ventoı́nha, etc., estejam ou não funcionais. No contexto de conjuntos de Cantor aleatórios, comparamos (com simulação quando a abordagem analı́tica não é possı́vel) o diâmetro e soma dos comprimentos dos segmentos, para alguns valores moderados do número de ciclos do que ocorre no Cantor determinista clássico, nos Cantor aleatórios obtidos usando estatı́sticas ordinais, e na extensão usando reparação aleatória. Além de se explorar a situação em que destruição e reconstrução são betas, eventualmente com diferentes parâmetros, aborda-se também o caso de parentes betinhas (cf. Brilhante et al. [4]) ou BetaBoop (cf. Brilhante et al. [3]). Agradecimentos: Investigação financiada por FCT/OE. Bibliografia [1] Aleixo, S. e Pestana, D. (2011). Stuttering Cantor-Like Random Sets. Em Luzar-Stiffler, ed. Proc. ITI 2011, 33rd Int. Conf. Information Technology Interfaces (em impressão). [2] Aleixo, S., Brilhante, M.F. e Pestana, D. (2011). General stuttering Beta(p,q) Cantor-like random sets. ISI 2011, 58th Session of the International Statistical Institute (em impressão). [3] Brilhante, M.F., Gomes, M.I. e Pestana, D. (2011). BetaBoop Brings in Chaos Em Skiadas, C. H., ed., Proc. Chaos 2011, 4th Chaotic Modeling and Simulation International Conference (em impressão). [4] Brilhante, M.F., Pestana, D. e Rocha, M.L. (2011). Betices, Bol. Soc. Port. Mat.. (em impressão). SPE 2011 Mesa: Paula Milheiro de Oliveira 22 Quinta, 29/09/2011 Extremos I Sala Atlântico, 09:00–10:00 O problema do caixeiro viajante e a teoria de valores extremos Manuel Cabral Morais1 e Tiago Salvador2 1 2 Departamento Matemática – CEMAT, Instituto Superior Técnico, [email protected] Instituto Superior Técnico, [email protected] Resumo: A simplicidade de definição, a diversidade de aplicações e a dificuldade de resolução do problema do caixeiro viajante (PCV) constituem algumas das caracterı́sticas comuns à maior parte dos problemas que têm vindo a atrair e intrigar os matemáticos. De facto, até hoje não é conhecido nenhum algoritmo que consiga resolver este problema em tempo polinomial. Neste trabalho as estimativas pontuais e intervalares do custo óptimo do PCV são calculadas com base em custos mı́nimos obtidos em diversas execuções dos algoritmos 2 e 3-optimal e respectivas variantes gananciosas. O modelo extremal considerado é o Weibull de mı́nimos tri-paramétrico, cujo parâmetro de localização representa tal custo óptimo. Palavras–chave: Problema do caixeiro viajante, algoritmo λ -optimal, Weibull de mı́nimos O problema do caixeiro viajante Considere-se um caixeiro viajante que pretende visitar uma única vez cada uma de N cidades de uma dada lista, regressando à cidade donde partiu. Admita-se que ele conhece o custo da viagem entre quaisquer duas cidades. O problema do caixeiro viajante (PCV) consiste em encontrar a sequência de cidades tal que o custo total do percurso associado seja mı́nimo – percurso óptimo. O PCV é um problema NP-difı́cil e como tal não é esperado encontrar nenhum algoritmo exacto que resolva o PCV em tempo polinomial. Assim, foram propostos vários algoritmos que nem sempre devolvem a solução óptima mas que permitem obter soluções razoáveis em tempo útil, constituindo um compromisso entre a qualidade da solução obtida e o tempo que se demora a obtê-la. São disso exemplo os algoritmos λ -optimais e respectivas variantes gananciosas. O PCV e a teoria dos valores extremos É também importante obter estimativas pontuais e intervalares para o custo da solução óptima baseado em resultados de n execuções de tais algoritmos. Este tipo de inferências requer a especificação de um modelo probabilı́stico que caracterize o comportamento das observações recolhidas que neste caso não passam de custos de soluções aproximadas do PCV. A ideia de usar o modelo extremal Weibull de mı́nimos tri-paramétrico não é nova, tendo este modelo já sido utilizado por outros autores, dos quais se destacam Golden (1977), Golden e Alt (1979) e Los e Lardinois (1982). O custo da solução óptima do PCV corresponderá ao parâmetro de localização desconhecido deste modelo extremal. SPE 2011 Mesa: Marta Ferreira 23 Quinta, 29/09/2011 Extremos I Sala Atlântico, 09:00–10:00 Quanto às estimativas pontuais, calculamos as estimativas de máxima verosimilhança e, visto que surgem algumas dificuldades na sua obtenção, recorremos também às alternativas propostas por Zanakis (1979) e Wyckoff et al. (1980). No que diz respeito à estimação intervalar, fizemos uso dos intervalos de confiança propostos por Golden e Alt (1979) e Los e Lardinois (1982), tirando partido das estimativas pontuais. Complementarmente, foi efectuada uma análise descritiva dos dados, realizados o teste de Kolmogorov-Smirnov para avaliar a qualidade do modelo extremal utilizado e o teste de Mann-Whitney para identificar o algoritmo λ -optimal (ou a sua variante) responsável pelas soluções com menor custo esperado. Agradecimentos: O segundo autor agradece o apoio financeiro concedido pelo Programa Novos Talentos em Matemática (Fundação Calouste Gulbenkian). Bibliografia [1] Golden, B.L. (1977). A statistical approach to the TSP. Networks, 7, 209–225. [2] Golden, B. e Alt, F. (1979) Interval estimation of a global optimum for large combinatorial problems. Naval Research Logistics Quaterly, 26, 69–77 [3] Lawler, E., Lenstra, J., Rinnooy Kan, A. e Shmoys, D. - editores (1985). The Traveling Salesman Problem: A Guide Tour of Combinatorial Optimization. John Wiley & Sons. [4] Los, M. e Lardinois, C. (1982). Combinatorial programming, statistical optimization and the optimal transportation problem. Transportation Research Part B: Methodological, 16, 89–124. [5] Wyckoff, J., Bain, L. e Engelhardt, M. (1980). Some complete and censored sampling results for the three-parameter Weibull distribution. Journal of Statistical Computation and Simulation, 11, 139–151. [6] Zanakis, S. (1979). A simulation study of some simple estimators for the three parameter Weibull distribution. Journal of Statistical Computation and Simulation, 9, 101–116. SPE 2011 Mesa: Marta Ferreira 24 Quinta, 29/09/2011 Extremos I Sala Atlântico, 09:00–10:00 Distribuição do máximo condicionada à soma aplicada em testes quantitativos compostos João Paulo Martins1 , Rui Santos1 e Ricardo Sousa2 1 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de Estatı́stica e Aplicações da Universidade de Lisboa, {jpmartins, rui.santos}@estg.ipleiria.pt 2 Escola Superior de Tecnologia da Saúde de Lisboa do Instituto Politécnico de Lisboa, CEAUL — Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] Resumo: Neste trabalho investigamos a distribuição do máximo, condicionada ao valor da soma, em amostras conjuntas com o objectivo de definirmos limiares crı́ticos para testes quantitativos compostos utilizando a metodologia de Dorfman (1943), considerando diferentes nı́veis de especificidade e de sensibilidade. Palavras–chave: Teoria de Dorfman, distribuição de extremos condicionados a somas, sensibilidade, especificidade, variáveis quantitativas A inspeção conjunta de unidades miscı́veis permite economizar substancialmente em áreas tais como amostragem de aceitação ou análises clı́nicas conjuntas. As 50 páginas de bibliografia anotada, só na área de composite sampling, publicadas por Boswell et al (1996), evidenciam bem a importância do tema. A ideia original de Dorfman (1943), aplicada inicialmente a análises qualitativas conjuntas de sangue, é uma estratégia que se adequa apenas a casos em que se pretende determinar a presença (positividade) ou ausência (negatividade) de determinada caracterı́stica nas unidades amostrais. A extensão da metodologia de Dorfman não é porém imediata quando a positividade é determinada por uma quantidade determinada na análise exceder um determinado patamar (ou, alternativamente, ficar aquém de um limiar), um ponto de corte previamente determinado usando cohortes de doentes e de não doentes para calibrar a análise por forma a ter valores aceitáveis de sensibilidade e de especificidade. De facto, ao combinar várias amostras numa única para fazer uma análise conjunta, estamos a somar quantidades, o que assintoticamente é modelável em termos de peso da soma das caudas; por outro lado, assintoticamente o máximo e o mı́nimo dependem do peso de uma das caudas (direita e esquerda, respectivamente). Mas a velocidade de convergência quer da distribuição da soma quer da distribuição de um extremo é frequentemente lenta, e a quantidade de unidades amostrais que se devem combinar, que naturalmente depende da prevalência p da caracterı́stica que se pretende detectar, é em geral pequeno. Assim, os resultados assintóticos — que começaram a ser explorados por Chow e Teugels (1979), havendo actualmente uma vasta bibliografia sobre este tema, veja-se de Haan e Ferreira (2006) — devem ser secundarizados relativamente a resultados para miscigenação de um pequeno número de unidades amostrais, que em geral terão que ser tratados por Monte Carlo. Esta problemática tem vindo a ser tratada também por Sousa (2005, 2006, 2008). Neste trabalho, investigamos os casos em que o resultado do teste pode ser modelado por uma variável quantitativa X. A intenção de um teste individual é identificar se um determinado indivı́duo possui uma quantidade dessa substância que ultrapasse um determinado limiar crı́tico l pré-fixado. Neste quadro, tentamos estender a metodologia de Dorfman. Assim, considere-se a análise de uma SPE 2011 Mesa: Marta Ferreira 25 Quinta, 29/09/2011 Extremos I Sala Atlântico, 09:00–10:00 amostra composta X1 ∪ · · · ∪ Xn de n unidades amostrais. Os problemas considerados consistem em determinar qual o valor ótimo de n que maximiza a eficiência, isto é, o valor ótimo que minimiza o número esperado de testes de laboratório a realizar. Outra importante questão relaciona-se com a identificação de um limiar crı́tico l ∗ que permita concluir que, se a quantidade de substância total nessas n amostras S = ∑ni=1 Xi ultrapassa l ∗ , (S > l ∗ ), então com probabilidade superior a um valor fixado existe pelo menos uma amostra tal que Xi > l. Admitindo que a mistura de amostras é perfeita, a utilização de amostragem composta permite conhecer a quantidade total de substância presente nas n amostras, isto é, permite conhecer S. Assim, a distribuição do max (X1 , · · · ,Xn ) condicionado ao conhecimento de S (de Haan e Ferreira, 2006) assume particular importância na definição de l ∗ . No caso da distribuição parente ser uma das leis estáveis, nomeadamente a lei gaussiana ou a lei Cauchy, o conhecimento dessa distribuição é facilitado. Uma alternativa ao recurso à distribuição do máximo amostral é a utilização de testes de hipóteses paramétricos quando possı́vel. Contudo, é imprescindı́vel acautelar a questão da potência do teste. A solução na prática passará frequentemente por compatibilizar a eficiência da metodologia com a potência do teste. A utilização de amostragem composta acarreta o problema dos resultados dos testes laboratoriais não serem completamente fiáveis. A presença de uma substância está sujeita a eventuais erros de deteção que são caracterizados através da sensibilidade e da especificidade. Esta questão é discutida, quer assumindo que a miscigenação de unidades não altera as caracterı́sticas operacionais do teste, quer admitindo que a sensibilidade e/ou a especificidade são afetadas por fenómenos associados a ultradiluição e consequente rarefação. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Boswell, M.T., Gore, S.D., Lovison, G. e Patil, G.P. (1996). Annotated bibliography of composite sampling, Part A: 1936–92, Environmental and Ecological Statistics 3, pp. 1–50. [2] Chow, T.L. e Teugels, J.L. (1979). The sum and the maximum of i.i.d. random variables. Em Hradec Králové, ed., Proceedings of the Second Prague Symposium on Asymptotic Statistics, pp. 81–92. North-Holland, Amsterdam. [3] de Haan, L. e Ferreira, A. (2006). Extreme Value Theory – An Introduction, Springer, New York. [4] Dorfman, R. (1943). The detection of defective members in large populations, Ann. Math. Statistics 14, pp. 436–440. [5] Sousa, R. (2005). Análises ao sangue conjuntas. Uma estratégia para redução de custos. Actas da IV Conferência Estatı́stica e Qualidade na Saúde, pp. 190–196. [6] Sousa, R. (2006). Análises ao sangue conjuntas. Uma consideração mais realista. Actas da V Conferência Estatı́stica e Qualidade na Saúde, pp. 129–133. [7] Sousa, R. (2008). O Problema de Dorfman Revisitado - Análises Quantitativas, Actas da VI Conferência Estatı́stica e Qualidade na Saúde, pp. 140–144. SPE 2011 Mesa: Marta Ferreira 26 Quinta, 29/09/2011 Extremos I Sala Atlântico, 09:00–10:00 GEV Long-Short Strategy: uma nova modalidade quantitativa Marco Aurélio Sanfins1 e Danilo Monte-Mor2 1 2 UFF - Universidade Federal Fluminense, [email protected] IFES - Instituto Federal do Espı́rito Santo, [email protected] Resumo: A participação no mercado de investimento de fundos de retorno absoluto (Hedge Funds) tem crescido de forma expressiva. Dentre as principais estratégias de arbitragem utilizadas pelos gestores desses fundos destaca-se a estratégia long-short, baseada no comportamento de curto prazo desproporcional e até mesmo antagônico dos preços de ativos financeiros. A Teoria de Valores Extremos (TVE), um importante ramo da probabilidade, foi utilizada neste trabalho para que fossem modeladas as séries da relação direta entre preços de ativos. A partir de tal modelagem foi criada uma nova estratégia quantitativa long-short de arbitragem, a qual denominamos GEV Long-Short Strategy. Palavras–chave: Arbitragem, estratégias long-short, hedge funds, pair trading, teoria de valores extremos Introdução Os Hedge Funds abrangem diversos fundos não tradicionais como, por exemplo, fundos que exploram ineficiências de mercado através de estratégias sofisticadas de arbitragem. Os fundos que adotam a estratégia long-short são Hedge Funds que utilizam posições tanto compradas (long), quanto vendidas (short), em ações de empresas e ı́ndices de ações, seja no mercado à vista ou de derivativos, para rentabilizar e proteger suas carteiras. As estratégias long-short compreendem a manutenção simultânea de posições compradas e vendidas em ações e derivativos, ambos susceptı́veis a apreciação ou depreciação. Nesse tipo de estratégia, mais importante que a valorização ou desvalorização das ações é o desempenho relativo entre as posições compradas e vendidas, que se fundamenta nas inúmeras anomalias dos mercados e que é reforçado em perı́odos de forte volatilidade. É o comportamento por vezes antagônico ou desproporcional dos ativos que permite aos players do mercado estruturar estratégias long-short para proteger suas carteiras e gerar retornos adicionais, superiores aos custos de oportunidade e independentes ao movimento do mercado. Por muitos anos os gestores avaliaram os co-movimentos entre os mercados e construiram seus portifólios a partir de análises como as que envolvem o conceito linear de correlação para modelar as interdependências entre ativos financeiros e as que envolvem a distribuição normal. Percebe-se, entretanto, que a modelagem probabilı́stica das séries dos co-movimentos dos preços desses ativos requer distribuições com caudas pesadas e que mesmo pares de ativos que apresentam forte correlação podem por vezes oferecer no curto prazo oportunidades de arbitragem. Nesse sentido, faz-se necessário o desenvolvimento de técnicas quantitativas long-short mais apro- SPE 2011 Mesa: Marta Ferreira 27 Quinta, 29/09/2011 Extremos I Sala Atlântico, 09:00–10:00 priadas à análise dos co-movimentos extremos de pares de ativos e que estejam fora dos padrões da normalidade. É nesse contexto que a Teoria dos Valores Extremos desempenha um papel fundamental, dada a sua grande capacidade de modelagem de dados extremos. O principal objetivo deste trabalho é utilizar a Teoria de Valores Extremos para se estabelecer uma nova modalidade quantitativa long-short, a qual denominamos GEV Long-Short Strategy, de modo que os fundos tenham a capacidade de gerar ganhos positivos ao proverem retornos não necessariamente correlacionados com classes de ativos tradicionais e com redução dos riscos de investimento. Nova proposta quantitativa long-short Definição 1 (Quantil GEV Long-Short). Seja {X1 ,X2 ,...,Xn } um conjunto de variáveis aleatórias que representam a razão de precificação entre ativos com mesma função de distribuição F. Denominamos Quantil GEV Long-Short o quantil 95% (ou 5%) obtido através da distribuição extrema para o qual a distribuição dos máximos (ou mı́nimos) padronizados converge, respectivamente. Os quantis GEV Long-Short, juntamente com os quantis fornecidos pela normal, serão superpostos à série das razões para um perı́odo subsequente ao perı́odo analisado. Como inferências acerca da verdadeira distribuição F da série podem ser feitas a partir da GEV ajustada, serão superpostos também nesse gráfico os verdadeiros quantis da série, ambos obtidos a partir da GEV estimada. Esses quantis serão utilizados para que sejam verificados os momentos em que a razão de precificação ocupe quantis extremos. A busca pelo timing de arbitragem mais oportuno nos leva a definir: Definição 2 (Saturação relativa do desequilı́brio). Define-se por saturação relativa do desequilı́brio o momento em que ativos encontram-se com relação de precificação fora do intervalo definido pelos quantis GEV Long-Short. Bibliografia [1] Embrechts, P., Kluppelberg, C. e Mikosch, T. (1997). Modelling Extremal Events for Insurance and Finance. Springer-Verlag: Berlin. [2] Embrechts, P. (2000). Extreme Value Theory: Potential and Limitation as an Integrated Risk Management Tool. Department of Mathematik, ETH, Zentrum, CH 8092, Zurich. [3] Fisher, R.A. e Tippett, L.H.C. (1928). Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample. Proccedings of the Cambridge Philosophical Society, n.24, p.180-190. [4] Liang, B. (1999). On the Performance of Hedge Funds. [5] Mendes, B.V.M. (2004). Introdução à Análise de Eventos Extremos. E-papers Serviços Editoriais Ltda, Rio de Janeiro. [6] Sanfins, M.A.S. (2009). Copulas para distribuições generalizadas de valores extremos multidimensionais. Rio de Janeiro: UFRJ/IM. SPE 2011 Mesa: Marta Ferreira 28 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Cartas de controlo em saúde Ana Cristina Casimiro1 e Paulo Infante2 1 2 Universidade de Évora - MMEAD, [email protected] Universidade de Évora - DMAT, CIMA-UE, [email protected] Resumo: O Controlo Estatı́stico de Qualidade tem vindo recentemente a assumir um papel importante na área da saúde, havendo registo de várias aplicações bem sucedidas como se pode ver, por exemplo, nos artigos de revisão de Tennant et al.(2007) e Thor et al.(2007). Neste sector têm merecido maior destaque a aplicação do controlo estatı́stico de qualidade à avaliação do desempenho hospitalar, monitorização de doenças e controlo de surtos infecciosos, nomeadamente após intervenção cirúrgica. As múltiplas aplicações surgem nas diversas especialidades de medicina. Neste trabalho pretende-se fundamentalmente mostrar como a utilização de metodologias do controlo estatı́stico da qualidade neste contexto especı́fico podem ser uma mais-valia na análise de diversos dados que são diariamente produzidos por uma instituição hospitalar. Em particular, a carta de controlo permite a distinção entre a variação natural do processo e outras formas de variação e, consequentemente, a informação incorporada permite dar um feedback muito importante aos serviços que resulte num apoio a todos os profissionais neles integrados, podendo conduzir à implementação de acções que permitam melhorar a qualidade. Com a colaboração do Hospital do Espı́rito Santo de Évora iremos considerar dados relativos ao número de dias de internamento e proporção de readmissões. Por outro lado, mostramos a aplicação das cartas de controlo com o intuito de realizar um controlo de qualidade eficaz e efectivo sobre alguns Grupos de Diagnóstico Homogéneos (GDH) médicos e cirúrgicos. Para diferentes casos abordados pretende-se seleccionar a melhor carta a utilizar em termos de desempenho estatı́stico e aplicabilidade. Procuramos, ainda, formalizar algumas linhas gerais para uma correcta aplicação desta ferramenta estatı́stica para ser utilizada dentro dos diversos serviços. Palavras–chave: Cartas de controlo, estatı́stica e qualidade na saúde Bibliografia [1] Tennant, R.; Mohammed, M.A.; Coleman, J.J.; Martin, U. (2007). Monitoring Patientes using Control Charts: a systematic review. International Journal for Quality in Health Care, 19, 187–194. [2] Thor, J.; Lundberg, J.; Ask, J.; Olsson, J.; Carli, C.; Harenstam, K.P.; Brommels, M. (2007). Application of statistical process control in healthcare improvement: systematic review. Quality and Safety in Health Care, 16, 387–399. SPE 2011 29 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Prevalência, incidência e sobrevivência dos cancros do estômago e mama na Região Norte de Portugal Clara Castro1 , Maria José Bento1 , Andreia Pereira2 e Inês Sousa2 1 2 RORENO/IPO Porto, [email protected] Departamento de Matemática e Aplicações, Universidade do Minho, [email protected] Resumo: Neste trabalho, pretendemos comparar estimativas para a prevalência, obtidas através de dois diferentes métodos de estimação: método directo [1] e método indirecto [2]. Palavras–chave: Prevalência, incidência, sobrevivência Introdução Neste trabalho, pretendemos comparar estimativas para a prevalência, obtidas através de dois diferentes métodos de estimação: método directo [1] e método indirecto [2]. Foram analisadas duas bases de dados, ambas disponibilizadas pelo RORENO (Registo Oncológico Regional do Norte). Foram considerados doentes, diagnosticados entre 2001 e 2005, residentes na Região Norte de Portugal, com cancro de estômago e cancro da mama feminina, com idades superiores ou iguais a 15 anos. Foram escolhidos estes dois tumores uma vez que estes têm padrões de sobrevivência muito distintos. Enquanto no caso dos tumores do estômago a sobrevivência é reduzida (sobrevivência relativa a 5 anos de cerca de 35%) e nos tumores da mama a sobrevivência é bastante elevada (cerca de 86%). A prevalência tem como base compreender o impacto de um tumor na população, ou seja o quanto comum ou rara esta doença é. O método directo estima a prevalência a partir da contagem do número de casos incidentes que permanecem vivos no final do perı́odo de interesse. O método indirecto baseia-se na modelação matemática para a estimação da prevalência, usando para isso valores estimados da incidência e sobrevivência. Com este trabalho pretendemos comparar os resultados da aplicação dos diferentes métodos abordados na avaliação da prevalência de doentes com cancro do estômago e da mama feminina. Os resultados obtidos da incidência e da sobrevivência para cada um destes tumores também são apresentados. Todos os cálculos foram efectuados usando o software R. Para a estimação da sobrevivência, foi utilizado o package relsurv [3]. Bibliografia [1] Capocaccia R., Colonna M. e Corazziari I. (2002). Measuring cancer prevalence in Europe: the EUROPREVAL Project. Annals of Oncology, 13, 831–839. [2] Pisani P., Bray F. e Parkin M.D. (2002). Estimates of the world-wide prevalence of cancer for 25 sites in the adult population. Annals of Oncology, 97(1), 72–81. [3] R Development Core Team (2009). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. SPE 2011 31 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Estrutura de dependência e comportamento extremal de um processo Pareto Marta Ferreira Departamento de Matemática, Universidade do Minho, Braga, Portugal, [email protected] Resumo: Os processos auto-regressivos de cauda pesada definidos com o operador “mı́nimo” ou “máximo” podem ser usados como boas alternativas aos clássicos modelos lineares ARMA com caudas pesadas, no que respeita à modelação de valores extremos de uma série temporal. Neste artigo apresenta-se uma caracterização completa da estrutura de dependência e do comportamento extremal do processo auto-regressivo de mı́nimos Yeh-Arnold-Robertson Pareto(III). Palavras–chave: Condições de dependência, medidas de dependência de cauda, processos pareto, teoria de valores extremos Introdução O objectivo principal de uma análise de valores extremos é a estimação da probabilidade de ocorrência de eventos mais extremos do que qualquer dos já observados. Como exemplo, suponhamos que a projecção de um dique requer a defesa de uma zona costeira para todos os nı́veis do mar dos próximos 100 anos. Os modelos extremais são ferramentas que permitem extrapolações deste tipo. O resultado central na Teoria de Valores Extremos (TVE) clássica estabelece que, se numa dada uma sucessão {Xn }n≥1 de v.a.’s i.i.d.’s, com função distribuição marginal F, existirem constantes reais an > 0 e bn , tais que, P(max(X1 ,...,Xn ) ≤ an x + bn ) −→n→∞ Gγ (x) , (1) para uma função não degenerada Gγ , então esta será uma função Generalizada de Valores Extremos (GVE), dada por Gγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, γ ∈ R, com G0 (x) = exp(−e−x ), e diz-se que F pertence ao domı́nio de atracção de Gγ , abreviadamente, F ∈ D(Gγ ). O parâmetro γ , conhecido como ı́ndice de cauda, é um parâmetro de forma que determina o peso da cauda de F, sendo assim crucial na TVE. Se γ > 0 tem-se cauda pesada (domı́nio de atracção Fréchet), γ = 0 significa cauda exponencial (domı́nio de atracção Gumbel) e γ < 0 indica uma cauda leve (domı́nio de atracção Weibull). Os primeiros resultados na TVE desenvolveram-se assumindo independência entre as v.a.’s mas, mais recentemente, tem-se assistido a um desenvolvimento de modelos e ferramentas para a modelação de dependência, um pressuposto mais realista em muitas situações. Vários processos autoregressivos de máximos têm sido considerados na modelação de valores extremos como boas alternativas aos clássicos modelos lineares ARMA de cauda pesada (Davis e Resnick [4], Ferreira and Canto e Castro [5]). Como Vito Pareto [6] observou, muitas variáveis económicas possuem caudas SPE 2011 33 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 pesadas, não sendo bem modeladas pela curva normal. Assim, propôs um modelo, mais tarde designado “Pareto” em sua honra, cuja cauda decresce a uma potência negativa de x, quando x → ∞, i.e., 1 − F(x) ∼ cx−α , quando x → ∞ . Generalizações da distribuição Pareto foram propostas para a modelação de variáveis económicas (uma exposição do assunto pode ver-se em Arnold [2]). Qualquer processo estocástico cujas margens têm distribuição Pareto ou uma generalização da mesma é designado um processo Pareto. Aqui considera-se o processo Yeh-Arnold-Robertson Pareto(III) (Yeh et al. [7]), abreviadamente YARP(III)(1), dado por Xn = min p−1/α Xn−1 , 1 εn , 1 −Un (2) onde as inovações {εn }n≥1 são v.a.’s i.i.d.’s com distribuição Pareto(III)(0,σ ,α ), i.e., uma generalizada Pareto de tipo III, tal que, h x − µ α i−1 , x > µ. 1 − Fε (x) = 1 + σ (3) com σ ,α > 0, e {Un }n≥1 é uma sucessão de v.a.’s i.i.d.’s com distribuição Bernoulli(p) (independente das inovações). Por convenção, 1/0 interpreta-se como +∞. Condicionando em Un , facilmente se vê que o processo YARP(III)(1) tem distribuição marginal Pareto(III)(0,σ ,α ) e toma-se a mesma distribuição para X0 para obter um processo completamente estacionário. Neste trabalho apresenta-se uma caracterização da estrutura de dependência e do comportamento da cauda direita (a mais utilizada em aplicações) do processo YARP(III)(1) definido em (2). Concluir-se-á que é similar ao processo ARMAX considerado em Alpuim [1], Davis e Resnick [4], Canto e Castro [3], entre outros, fornecendo assim uma alternativa na modelação de valores extremos. Bibliografia [1] Alpuim, M.T. (1989). An extremal markovian sequence. J. Appl. Probab., 26, 219-232. [2] Arnold, B.C. (1983). Pareto Distributions. International Cooperative Publishing House, Fairland, MD. [3] Canto e Castro, L. (1992). Sobre a Teoria Assintótica de Extremos. Ph. D. Thesis, FCUL. [4] Davis, R., Resnick, S. (1989). Basic properties and prediction of max-ARMA processes. Adv. Appl. Probab., 21, 781-803. [5] Ferreira, M., Canto e Castro, L. (2010). Modeling rare events through a pRARMAX process. J. Statist. Plann. Inference, 140(11), 3552-3566. [6] Pareto, V. (1897). Cours d’economie Politique. Vol.II. F. Rouge, Lausanne. [7] Yeh, H.C., Arnold, B.C., Robertson, C.A. (1988). Pareto Processes. J. Appl. Probab., 25, 291301. SPE 2011 34 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Carta de medianas com limites de controlo estimados Fernanda Otı́lia Figueiredo1 e Philippe Castagliola2 1 2 Faculdade de Economia da Universidade do Porto e CEAUL, [email protected] Université de Nantes & IRCCyN, [email protected] Resumo: Neste trabalho é proposta uma carta de medianas para monitorização do valor médio de um processo gaussiano como alternativa à carta de médias sempre que é necessário estimar parâmetros do processo. Os resultados do estudo de simulação efectuado levam-nos a concluir que a carta proposta quando comparada com a carta de medianas implementada com limites exactos ou com a carta de médias com limites estimados possui propriedades mais robustas à estimação de parâmetros do processo, nomeadamente no que respeita aos valores obtidos para os parâmetros ARL e SDRL da distribuição do RL. Para facilitar a implementação da carta de medianas proposta é disponibilizado o valor do parâmetro da carta usado na determinação dos limites de controlo que permite obter um determinado valor ARL sob controlo, para várias combinações da dimensão das amostras a recolher e do número de subgrupos usados na estimação de parâmetros do processo. Palavras–chave: Cartas de controlo, RL e condicional RL Carta de medianas com limites de controlo estimados Para a monitorização do valor médio de um processo, ou mais geralmente da sua localização, apesar da carta de médias ser mais utilizada e apresentar melhor desempenho na detecção de alterações no processo do que a carta de medianas, esta última é bastante popular devido essencialmente à robustez da mediana amostral a outliers, a situações de contaminação ou a pequenos desvios da distribuição subjacente aos dados relativamente à hipótese de normalidade, muitas vezes admitida aquando da implementação de uma carta de controlo. Note-se que em aplicações práticas é usual desconhecer-se o valor dos parâmetros da distribuição associada aos dados do processo, sendo necessário estimá-los a partir de um conjunto de dados recolhidos previamente para esse efeito, sabendo-se ainda que esta estimação tem um impacto mais ou menos significativo no desempenho da carta. Assim parece-nos importante estudar as propriedades da carta de medianas com limites de controlo estimados proposta neste trabalho para monitorizar o valor médio de um processo gaussiano, aqui denotada por carta Ỹ . Para uma revisão de literatura sobre cartas de controlo com limites estimados ver [1]. Denotemos a i-ésima amostra retirada do processo por (Yi,1 , . . . ,Yi,n ), i = 1,2, . . . , constituı́da por n variáveis aleatórias independentes com distribuição N(µ0 + δ σ0 ,σ0 ), onde µ0 e σ0 denotam o valor médio e o desvio padrão do processo quando este se encontra sob controlo estatı́stico, respectivamente, e δ denota a magnitude da eventual alteração ocorrida no valor médio do processo medida em unidades de σ0 . Seja Ỹi a mediana amostral do i-ésimo subgrupo, neste caso a estatı́stica de controlo da carta Ỹ . Os parâmetros µ0 e σ0 , que admitimos desconhecidos, são estimados a partir de m subgrupos SPE 2011 35 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 (Xi,1 , . . . ,Xi,n ), i = 1, . . . ,m de dimensão n, admitindo-se independência entre as variáveis dentro e entre subgrupos, e que Xi, j ∼ N(µ0 ,σ0 ). Os limites de controlo estimados da carta Ỹ em estudo são do tipo d = µ̂0′ − K σ̂0′ , LCI d = µ̂0′ + K σ̂0′ , LCS (1) (2) onde K é um parâmetro da carta obtido recorrendo à distribuição condicional do RL e de modo a obter um valor ARL especı́fico sob controlo, µ̂0′ e σ̂0′ são os estimadores de µ0 e σ0 definidos por µ̂0′ = 1 m ∑ X̃i , m i=1 (3) σ̂0′ 1 d2,n (4) = ! 1 m ∑ Ri , m i=1 X̃i e Ri denotam, respectivamente, a mediana e a amplitude do i-ésimo subgrupo e d2,n = E(Ri /σ0 ) é uma constante tabelada em modelo normal para os valores usuais de n. Conclusões A carta de medianas com limites estimados aqui proposta pode exibir propriedades distintas das obtidas para a carta de medianas implementada com limites exactos em virtude da estimação de parâmetros do processo, tal como acontece com outras cartas implementadas com limites estimados. No entanto, se usarmos um número relativamente grande de subgrupos na estimação de parâmetros do processo ou se determinarmos o parâmetro da carta recorrendo à distribuição condicional do RL, conseguimos obter uma carta de medianas com um desempenho interessante em termos dos valores obtidos para alguns parâmetros usuais da distribuição do RL. Atendendo a que do ponto de vista prático a escolha de um número elevado de subgrupos para efectuar a estimação levanta em geral problemas à implementação da carta, fornecemos, para algumas combinações de n e m, o valor do parâmetro K que permite obter um valor ARL sob controlo de 370.4, o que facilita a utilização da carta Ỹ . Agradecimentos: Este trabalho foi parcialmente financiado pelo centro de investigação CEAUL, FCT/OE. Bibliografia [1] Jensen, W., Jones-Farmer, L., Champ, C. e Woodall, W. (2006). Effects of Parameter Estimation on Control Chart Properties: A Literature Review. Journal of Quality Technology, 38(4), 349–364. SPE 2011 36 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Controlo da tuberculose em Portugal: demora entre o inı́cio dos primeiros sintomas e o diagnóstico da doença Dulce Gomes1 , Carla Nunes2 , Patrı́cia A. Filipe1 e Teodoro Briz2 1 Escola de Ciência e Tecnologia, Universidade de Évora, CIMA/UE, {dmog, pasf}@uevora.pt 2 Escola Nacional de Saúde Pública, Universidade Nova de Lisboa, CIESP e CMDT-LA, {cnunes, tshb}@ensp.unl.pt Resumo: Este trabalho visa uma melhor compreensão das dimensões que estejam explicativamente associadas ao tempo decorrido desde o inı́cio dos primeiros sintomas e o diagnóstico da tuberculose (“demora”) e do provável papel deste no nı́vel de incidência. Aplicar-se-á modelos de análise de sobrevivência, com o objectivo de caracterizar a demora em causa. O evento de interesse aqui é o diagnóstico da doença. Este perı́odo em análise é extremamente importante na disseminação da tuberculose, pois é aquele em que o indivı́duo já infectado e doente circula livremente, sendo um foco de infecção e constituindo um perigo para a saúde da população se for bacilı́fero (cerca de 60% dos casos pulmonares). Serão consideradas algumas variáveis explicativas da demora como: a região de proveniência, a idade, o sexo e os factores de risco de adoecer conhecidos (e.g., HIV), entre outros. Nesta fase não são estudadas as dimensões da demora relacionadas com os serviços de saúde. Palavras–chave: Tuberculose, análise de sobrevivência, aglomerações espácio-temporais A tuberculose em Portugal é mencionada em diversos meios com alguma frequência e preocupação: o nı́vel de endemia é de grau médio-baixo à escala mundial, tende a reduzir-se com lentidão e encontra-se na situação menos favorável da Europa Ocidental. A actual disponibilidade de meios eficazes de controlo sustém a expectativa de maior influência sobre a endemia: um programa de intervenção bem fundamentado, com um sistema de vigilância da doença e um desempenho global bastante razoável. A co-infecção pelo VIH em pelo menos 15% dos casos novos de tuberculose, e alguma ineficiência na articulação entre serviços poderão explicar em parte esta dificuldade de controlo. Assim, há ainda progressos importantes a promover, em particular nos concelhos com maior risco de adoecer, dado que os factores que mais perpetuam a doença na população estarão sobretudo relacionados com contextos sócio-económicos, culturais, comportamentais e organizacionais favoráveis à transmissão do bacilo, à não-detecção precoce de novos casos nem de situações de doença latente, e à não-adesão à terapêutica em grupos especı́ficos (Briz, et al.[1]). Estudos anteriores de Epidemiologia Espacial, e em particular de processos de clustering espaciotemporal, foram levados a cabo com o objectivo de caracterizar as taxas de incidência notificada em Portugal (Nunes[2] e Nunes, et al.[3]). A partir deste estudo, verificou-se a existência de acentuada heterogeneidade geográfica da incidência, com aglomeração espacio-temporal significativa. Deste modo, e tendo em conta a dinâmica da endemia, serão aplicadas técnicas de análise de sobrevivência nas áreas de maior risco de tuberculose e também nas de risco menor, fazendo intervir no modelo os factores determinantes presentes nessas áreas. A base de dados é constituı́da por todos os casos de tuberculose diagnosticados e reportados no ano de 2009. SPE 2011 37 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações (CIMA-UE) e do Centro de Investigação e Estudos em Saúde Pública (CIESP-UNL) e do Centro de Malária e Doenças Tropicais (CMDT-LA/UNL), a primeira e a última unidades financiadas pela Fundação para a Ciência e Tecnologia. Bibliografia [1] Briz, T., Nunes, C., Alves, J. e Santos, O. (2009). O Controlo da Tuberculose em Portugal: uma apreciação crı́tica epidemiológica global. Revista Portuguesa de Saúde Pública, no 1, 19– 54. [2] Nunes C. (2007). Tuberculosis incidence in Portugal: spatiotemporal clustering. International Journal of Health Geographics, 6–30. [3] Nunes, C. e Gomes, D. (2009). Processo de detecção de aglomerações espácio-temporais: alguns condicionantes. Estatı́stica. Arte de Explicar o Acaso. Actas do XVI Congresso da Sociedade Portuguesa de Estatı́stica. (I. Oliveira, E. Correia, F. Ferreira, S. Dias, C. Braumann, eds.), 477–488, Edições SPE. SPE 2011 38 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Aplicação da teoria dos extremos ao estudo da precipitação na Ilha da Madeira Délia Gouveia1 , Luiz Guerreiro Lopes2 e Sandra Mendonça3 1 Universidade da Madeira, Centro de Investigação de Montanha, Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] 2 Universidade da Madeira, Centro de Investigação de Montanha, Instituto de Ciências Agrárias e Ambientais Mediterrânicas, [email protected] 3 Universidade da Madeira, Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] Resumo: A análise de processos espaciais na perspectiva da teoria dos valores extremos tem tido grandes desenvolvimentos na última década, veja-se, por exemplo, Buishand et al. [1] e De Haan e Zhou [2]. No presente trabalho é apresentado o resultado da exploração, local e espacial, feita neste contexto aos dados de precipitação provenientes de estações udométricas da Ilha da Madeira. Palavras–chave: Estatı́stica de extremos, extremos espaciais, precipitação intensa Bibliografia [1] Buishand, T. A. , De Haan, L. e Zhou, C. (2008). On spatial extremes: with application to a rainfall problem. Annals of Applied Statistics, 2(2), 624–642. [2] De Haan, L. e Zhou, C. (2008). On extreme value analysis of a spatial process. REVSTAT – Statistical Journal, 6(1), 71–81. SPE 2011 39 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Análise da distribuição χ 2 não central na avaliação de Opções Europeias num processo de difusão CIR Manuela Larguinho1 , José Carlos Dias2 e Carlos A. Braumann3 1 Área de Matémática do ISCAC, [email protected] Finance Research Center (UNIDE/ISCTE) e Área de Finanças do ISCAC, [email protected] 3 Centro de Investigação em Matemática e Aplicações - Universidade de Évora, [email protected] 2 Resumo: Assumindo o processo de difusão de Cox-Ingersoll-Ross (CIR) o preço de uma opção Europeia sobre obrigações de cupão zero requer o cálculo da função de distribuição qui-quadrado não central. Neste trabalho comparamos o desempenho de alguns métodos alternativos no cálculo desta distribuição de probabilidade e a respectiva eficiência na avaliação das opções. Palavras–chave: Difusão CIR, distribuição qui-quadrado não central Introdução O modelo CIR, proposto por [2], é um modelo de equilı́brio intertemporal, sendo um dos mais populares que tende a ultrapassar o problema das taxas de juro negativas. É utilizado para valorizar obrigações de cupão zero e opções de compra e venda sobre este tipo de obrigações. A fórmula de cálculo para os preços das opções pode apresentar alguma complexidade uma vez que envolve a necessidade da função de distribuição qui-quadrado não central. Difusão CIR e métodos alternativos para o cálculo da distribuição χ 2 não central Sob o espaço de probabilidade de risco neutro (Ω, F , Q), [2] assumem que a dinâmica da taxa de juro, rt , é dada pela seguinte equação diferencial estocástica (EDE): √ drt = [κθ − (λ + κ )rt ]dt + σ rt dWtQ , (1) onde WtQ é o movimento Browniano padrão sob Q, κ ,θ e σ são constantes positivas que representam a taxa de reversão à média, a taxa média a longo prazo e a volatilidade da taxa de juro, respectivamente, e λ é o prémio de risco. De modo a assegurar que a taxa de juro permanece positiva temos de impor que 2κθ > σ 2 . Sob a difusão CIR, o preço no instante t de uma obrigação de cupão zero com maturidade em S, Z(r,t,S), é dado por : Z(r,t,S) = A(t,S)e−B(t,S)r , SPE 2011 (2) 41 Quinta, 29/09/2011 onde A(t,S) = 2γ e Sessão de POSTERS I (κ +λ +γ )(S−t) /2 (κ +λ +γ ) eγ (S−t) −1 +2γ 2κθ2 σ , B(t,S) = 2 eγ (S−t) −1 Átrio do Café, 10:00–10:30 (κ +λ +γ ) eγ (T −t) −1 +2γ 1/2 2 2 . e γ = (κ + λ ) + 2σ Denotemos por ZCcall (r,t,T,S,X), o preço no instante t de uma opção de compra Europeia de maturidade T > t, preço de exercı́cio X, subscrita sobre uma obrigação de cupão zero de maturidade S > T e com a taxa de juro de juro instantânea no instante t dada por rt . O preço da opção é dado por " 4κθ 2φ 2 reγ (T −t) ZCcall (r,t,T,S,X) = Z(r,t,S) χ 2r∗ [φ + ψ + B(T,S)]; 2 , σ φ + ψ + B(T,S) " # 2 reγ (T −t) ′2 κθ φ 2 4 −X Z(r,t,T ) χ 2r∗ [φ + ψ ]; 2 , , σ φ +ψ ′2 onde ψ = κ +λ +γ , σ2 φ= 2γ σ 2 eγ (T −t) −1 # (3) ′2 , r∗ = ln A(T,S) /B(T,S) e χ (x; ν , δ ) é a função de distriX buição qui-quadrado não central com ν graus de liberdade e parâmetro de não centralidade δ , r∗ é a taxa de juro crı́tica, abaixo da qual pode ocorrer o exercı́cio da opção, isto é, X = P(r∗ , T, S). Neste trabalho comparamos o desempenho dos algoritmos propostos por [1], [3] e [4] para o cálculo da função de distribuição qui-quadrado não central. Agradecimentos: Larguinho e Braumann são membros do Centro de Investigação em Matemática e Aplicações (CIMA) da Universidade de Évora e Dias é membro do Finance Research Center do ISCTE-IUL, ambos os centros financiados pela Fundação para a Ciência e Tecnologia (FCT). Bibliografia [1] Benton, D. e Krishnamoorthy, K. (2003). Computing discrete mixtures of continuous distributions: noncentral chisquare, noncentral t and the distribution of the square of the sample multiple correlation coefficient. Computational Statistics and Data Analysis, 43, 249–267. [2] Cox, J.C., Ingersoll, J.E. e Ross, S.A. (1985). A theory of the term structure of interest rates. Econometrica, 53, 385–408. [3] Ding, C.G. (1992). Algorithm AS 275: computing the non-central χ 2 distribution function. Applied Statistics, 41, 478–482. [4] Schroder, M. (1989). Computing the constant elasticity of variance option pricing formula. Journal of Finance, 44, 211–219. SPE 2011 42 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Sobre o efeito de Taylor em modelos bilineares Cristina Martins1 , Esmeralda Gonçalves2 e Nazaré Mendes Lopes2 1 2 Departamento de Matemática da FCTUC, [email protected] CMUC, Department of Mathematics, University of Coimbra, {esmerald, nazare}@mat.uc.pt Resumo: Em 1986, Taylor observou, com base em várias séries financeiras analisadas, que a autocorrelação empı́rica de determinada ordem da série em valor absoluto é superior à autocorrelação empı́rica da mesma ordem do quadrado dessa série. Posteriormente, vários estudos têm sido levados a cabo com o objectivo de analisar a presença deste facto em modelos de séries temporais, tanto a nı́vel empı́rico (efeito de Taylor) como a nı́vel teórico (propriedade de Taylor). Com base num estudo de simulação, é analisada, neste trabalho, a presença do efeito de Taylor na classe dos modelos bilineares simples. Palavras–chave: Modelos bilineares, efeito de Taylor Introdução A procura de caracterı́sticas empı́ricas não triviais, ditas factos estilizados, em dados temporais, nomeadamente financeiros, tem sido objecto de vários estudos com vista à identificação de modelos que melhor se adequem a tal tipo de dados. Um facto estilizado identificado por Taylor em 1986, a partir da análise estatı́stica de 40 séries, é o chamado efeito de Taylor. De facto, Taylor constatou empiricamente que a autocorrelação empı́rica de ordem n, n ∈ {1, . . . ,30}, da série em d t |,|Xt−n |), é maior do que a autocorrelação empı́rica da mesma orvalor absoluto, ρ̂n (1) = corr(|X 2 ), isto é, ρ̂ (1) > ρ̂ (2). A presença desta relação d t2 ,Xt−n dem do quadrado da série, ρ̂n (2) = corr(X n n empı́rica em séries de valores reais tem sido explorada em diversos trabalhos, mas a verificação de que os modelos para séries temporais satisfazem a relação teórica correspondente é ainda uma área pouco estudada pelo facto das expressões destas autocorrelações não serem conhecidas para a maior parte dos modelos. Nesta área, He e Teräsvirta (1999) analisam o efeito de Taylor no modelo AVGARCH(1,1) (modelo GARCH(1,1) em valor absoluto) usando as expressões analı́ticas das autocorrelações teóricas por eles obtidas. He e Teräsvirta atribuem a designação propriedade de Taylor à relação teórica ρn (1) > ρn (2), n ≥ 1, tendo concluı́do que, para n = 1, esta propriedade é verificada pelo modelo AVGARCH(1,1). Gonçalves, Leite e Mendes-Lopes (2009) estudam a presença da propriedade de Taylor nos modelos TARCH, concluindo que tal propriedade está presente para algumas parametrizações do modelo TARCH de primeira ordem. Os modelos bilineares têm-se também revelado adequados na modelação de dados financeiros, pelo que é de todo o interesse analisar a presença, nestes modelos, da referida propriedade de Taylor. O presente trabalho pretende ser uma primeira abordagem deste estudo no modelo bilinear simples (m.b.s.) Xt = β Xt−k εt−l + εt , k > 0, l > 0, onde β é um parâmetro real e (εt ,t ∈ Z) é um processo de erro. O modelo tem a designação de superdiagonal se k > l, diagonal se k = l e subdiagonal se k < l. SPE 2011 43 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Efeito de Taylor no modelo bilinear simples Sob algumas hipóteses relativas ao processo (εt ,t ∈ Z), Martins (1997 e 1999) estabelece uma condição necessária e suficiente para que o processo (Xt ,t ∈ Z) obedecendo à equação de evolução do m.b.s. seja fortemente estacionário, ergódico e fracamente estacionário e obtém alguns momentos de Xt . Em particular, são apresentados os valores de ρn (2), n ∈ N, para os modelos superdiagonal e diagonal. Para o modelo subdiagonal, tais valores são estabelecidos nos casos l = 2k − p, 0 < p < k, e l = 2k. No entanto, a inexistência de resultados sobre as autocorrelações do modelo (|Xt |,t ∈ Z), não permite ainda o estudo da propriedade de Taylor nos m.b.s.. Assim, a presença do efeito de Taylor é analisada a partir de um estudo de simulação para tais modelos. Gera-se Xt considerando que (εt ,t ∈ Z) é uma sucessão de variáveis aleatórias reais independentes e identicamente distribuı́das com uma lei normal ou com uma lei uniforme, ambas centradas, e β tal que |β | < σ12 , com σ 2 = E(εt2 ). As simulações efectuadas sugerem que existem valores de n para os quais a série simulada apresenta o efeito de Taylor, mas, fixado n, o efeito não é verificado para todos os valores de β acima referidos. Mais precisamente, parece evidente a existência de um valor m ∈ 0, σ12 , tal que o efeito é produzido para valores de β que verificam m < |β | < σ12 . Mais, a amplitude do intervalo ]m, σ12 [ parece diminuir significativamente quando, em vez da distribuição normal centrada com desvio padrão σ , se considera para εt a distribuição uniforme centrada com o mesmo desvio padrão. Assim, a um aumento da curtose da distribuição de εt parece corresponder uma diminuição do valor de m, pelo que será de esperar que, para valores suficientemente elevados da curtose da distribuição de εt , o valor de m se aproxime de zero e a propriedade de Taylor seja verificada para todas as possı́veis parametrizações. Esta influência da curtose da distribuição de εt na verificação da propriedade de Taylor foi também observada por Gonçalves, Leite e Mendes-Lopes (2009) no modelo TARCH(1). Para ilustrar estes factos, apresentam-se a seguir algumas das simulações efectuadas com o modelo diagonal de ordem 1 (k = 1), para n = 1 e σ = 1. Note-se que m parece situar-se entre 0.5 e 0.6 no caso da lei normal e entre 0.8 e 0.85 no caso da lei uniforme. √ √ εt ∼ N(0,1) (|β | < 1) εt ∼ U([− 3, 3]) (|β | < 1) β ρ̂1 (1) ρ̂1 (2) Ef. Taylor? β ρ̂1 (1) ρ̂1 (2) Ef. Taylor? 0.2 0.1284 0.1784 Não 0.7 0.5184 0.5768 Não 0.5 0.4387 0.4595 Não 0.8 0.5981 0.6056 Não 0.6 0.4926 0.4672 Sim 0.85 0.6414 0.6167 Sim 0.7 0.5402 0.4722 Sim 0.9 0.6721 0.6211 Sim 0.8 0.5897 0.4860 Sim 0.99 0.7073 0.5911 Sim Este estudo será complementado com a consideração de outras distribuições para o processo de erro, cujo desempenho será comparado tendo em conta o peso das caudas, bem como de outros modelos bilineares. Bibliografia [1] Gonçalves, E., Leite, J. e Mendes-Lopes, N. (2009). A mathematical approach to detect the Taylor property in TARCH processes. Statistics and Probability Letters, 79, 602–610. [2] He, C. e Teräsvirta, T. (1999). Properties of moments of a family of GARCH processes. J. Econom. 92, 173–192. [3] Martins, C.M. (1997) On the autocorrelations related to a bilinear model with non-independent shocks. Statistics and Probability Letters, 36, 245–250. [4] Martins, C.M. (1999) Higher order moments of bilinear subdiagonal models with nonindependent shocks. Annales de l’I.S.U.P., 43, 1, 29–42. [5] Taylor, S. (1986). Modelling Financial Time Series. Wiley. SPE 2011 44 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Dinâmica estocástica na difusão de tecnologias de banda larga em Portugal Rui Pascoal e Jorge Marques Faculdade de Economia da Universidade de Coimbra, {ruiapsp, jmarques}@fe.uc.pt Resumo: O propósito deste artigo é complementar um estudo efectuado anteriormente pelos mesmos autores sobre a evolução do número de subscritores de acesso fixo por banda larga em séries de dados referente ao perı́odo de 2000 a 2009, introduzindo agora uma estrutura para a parte estocástica nos modelos de crescimento: exponencial, logı́stico, Gompertz, Bass e Michaelis-Menten. Desta forma, procura-se melhorar quer o ajustamento desses modelos às séries quer a sua capacidade de previsão. Palavras–chave: Modelos de difusão, banda larga, processos estocásticos Introdução Em [4] analisou-se o comportamento das séries do número de subscritores de Internet de Banda Larga por cabo, recorrendo a diversos modelos de crescimento: exponencial, logı́stico, Gompertz, Bass e Michaelis-Menten. Este último modelo revela uma melhor capacidade de previsão face às novas observações, ajustando-se às caracterı́sticas de difusão das tecnologias de Banda Larga. O propósito do presente estudo é a introdução duma versão mais geral destes modelos, que consiste em acrescentar à função representativa do trend uma estrutura para a parte estocástica. Esta visa melhorar o ajustamento dos modelos referidos e encontrar explicação para os resı́duos obtidos na sua estimação. A parte estocástica pode ser modelada através, por exemplo, de uma formulação ARFIMA para a componente do erro que explique a estrutura de correlação dos resı́duos. Outra abordagem possı́vel consiste em considerar uma equação diferencial estocástica que complemente a equação diferencial determinı́stica que caracteriza os modelos de crescimento. Este tipo de abordagem é utilizada por exemplo para modelar o crescimento individual de organismos [2]. Por fim, refira-se que as estimações são efectuadas recorrendo ao programa informático R e ao software gSDE [1]. Bibliografia [1] Brites, N.M., Braumann, C.A., Filipe, P.A. e Roquete, C.J. (2010). gSDE: Stochastic Differential Equation Software for model growth: User guide Version 1.0 [Available at http://home.uevora.pt/ braumann/project/projectoS.htm] SPE 2011 45 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 [2] Filipe, P.A., Braumann, C.A., Brites, N.M. e Roquete, C.J. (2010). Modelling Animal Growth in Random Environments: An Application Using Nonparametric Estimation. Biometrical Journal, 52(5):653–666. DOI:10.1002/bimj.200900273 [3] Mahler, A. e Everett M. R. (1999). The Diffusion of Interactive Communication Innovations and the Critical Mass: The Adoption of Telecommunications Services by German Banks. Telecommunications Policy, 23 (10-11), 719–740. [4] Pascoal, R. e Marques, J. (2011). Fitting Broadband Diffusion by Cable Modem in Portugal. [Submetido a sellected papers do XVIII Congresso Anual da Sociedade Portuguesa de Estatı́stica] [5] Pereira, P. e Pernı́as-Cerrillo J. C. (2005). The diffusion of cellular telephony in Portugal before UMTS: a time series approach. CEPR Discussion Papers Number 2598 [6] Stremersch, S., Muller, M. e Peres, R. (2010). Does New Product Growth Accelerate across Technology Generations? Marketing Letters, 21, pp. 103–120 [7] Tellis, Gerard J., Stremersch, S. e Yin, E. (2003). The International Takeoff of New Products: The Role of Economics, Culture, and Country Innovativeness. Marketing Science, Vol. 22, No. 2. SPE 2011 46 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Testes não-paramétricos para validação de modelos extremais: uma aplicação a dados de atletismo Paulo Santos1 , M. Ivette Gomes2 e Patrı́cia de Zea Bermudez2 1 2 DEIO, FCUL, Universidade de Lisboa, paulopaulo [email protected] DEIO, FCUL e CEAUL, Universidade de Lisboa, {ivette.gomes, patzea}@fc.ul.pt Resumo: Os testes não-paramétricos de ajustamento são frequentemente usados em contexto paramétrico, com o objectivo de validar determinado modelo, como sendo o modelo subjacente aos dados. Os pontos crı́ticos destes testes são facilmente acessı́veis em tabelas, válidas quando não há necessidade de estimar parâmetros desconhecidos, uma situação totalmente irrealista na prática. Procederemos à construção de tabelas de pontos crı́ticos das estatı́sticas de ajustamento mais usuais, para serem usadas na validação de alguns dos modelos extremais mais relevantes. Essas tabelas só podem ser construı́das através de simulações de Monte-Carlo, que serão delineadas em R. Procedemos ainda a uma aplicação a dados de atletismo. Palavras–chave: Teoria de valores extremos, testes de ajustamento, pontos crı́ticos Introdução e objectivos Este artigo incide sobre testes não-paramétricos de ajustamento, de entre os quais destacamos os testes de Kolmogorov-Smirnov, de Stephens e de Cramér-von Mises. Face a uma amostra aleatória de dimensão n, (X1 , X2 . . . . , Xn ) proveniente de um modelo desconhecido, com função de distribuição (f.d.) F, denotemos por (X1:n ≤ X2:n ≤ · · · ≤ Xn:n ) a amostra de estatı́sticas ordinais ascendentes associada à amostra (X1 , X2 . . . . , Xn ). Qualquer das estatı́sticas de teste atrás referidas são medidas de distância entre a f.d. teórica, F, e a f.d. empı́rica, denotada por Fn∗ (x), imagem estatı́stica da f.d. F(x) = P(X ≤ x), desconhecida. Na Secção 2, abordamos os testes de ajustamento a considerar neste trabalho, e fazemos uma breve introdução a resultados limites em Teoria de Valores Extremos (TVE). Na Secção 3, referimos a obtenção de um conjunto de tabelas de pontos crı́ticos das estatı́sticas apresentadas na Secção 2, para alguns dos modelos aı́ mencionados. Finalmente, na Secção 4, procedemos a uma aplicação a dados de atletismo. Breve referência aos testes de ajustamento em estudo e à Teoria de Valores Extremos R Qualquer estatı́stica da forma R G Fn∗ (x), F(x) dF(x) tem, se F for contı́nua, f.d. independente de F, fornecendo pois um possı́vel teste de ajustamento. Os testes abordados neste artigo são medidas de distância entre a f.d. F, desconhecida, e a f.d. empı́rica Fn∗ (x) associada à amostra em estudo. Referimos de Kolmogorov-Smirnov, Dn := supx∈R |Fn∗ (x) −RF(x)|, de CramérR o teste ∗ 2 von Mises, Wn := n R (Fn (x) − F(x))2 dF(x), e o teste de Stephens, Un2 := n R (Fn∗ (x) − F(x) − R ∗ 2 R (Fn (y) − F(y))dF(y)) dF(x). É sobre este tipo de testes que nos iremos debruçar nas secções seguintes. Procederemos à construção de tabelas assintóticas, quando não há necessidade de estimar parâmetros. Na Secção 3, veremos como se podem construir tabelas para o caso em que temos que proceder à estimação de parâmetros. SPE 2011 47 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Referimos em seguida alguns dos modelos importantes em TVE. A distribuição limite não-degenerada da sucessão de máximos parciais, {Xn:n := max(X1 , X2 , . . . , Xn )}n≥1 , é do tipo da chamada distribuição de Valores Extremos, com a forma funcional Gγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, onde γ (∈ R) é o ı́ndice de valores extremos. Face ao facto de se ter X1:n := min X1 , X2 , . . . Xn = − max − X1 , −X2 , . . . , −Xn as possı́veis distribuições limite para a sucessão de mı́nimos parciais, X1:n , são então do tipo, G∗γ (x) = 1 − Gγ (−x). Quanto ao comportamento limite dos excessos acima de um nı́vel elevado u, para u = un → +∞, quando n → ∞, obtemos distribuições do tipo da generalizada 1 de Pareto (GP), com a forma funcional, GPγ (x) = 1 + ln Gγ (x) = 1 − (1 + γ x)− γ , 1 + γ x > 0, x > 0. Para mais detalhes, veja-se [1]. Construção de tabelas de pontos crı́ticos As tabelas de pontos crı́ticos construı́das estão relacionadas com os três testes de ajustamento discutidos na Secção 2, e com os modelos aı́ referidos, bem como com as suas versões parciais, tais como os modelos Gumbel, Fréchet, Weibull, Exponencial e Beta, e com a estimação de parâmetros desconhecidos através dos estimadores de momentos, de momentos ponderados de probabilidade (veja-se [2]) e de máxima verosimilhança (veja-se [3]). Para a construção destas tabelas, a técnica das réplicas mostrou-se preferı́vel ao métodos dos quantis, quer em termos de precisão, quer em termos de eficiência. Uma aplicação a dados de atletismo Nesta Secção estamos interessados na aplicação dos resultados obtidos a dados das melhores marcas pessoais em algumas modalidades do atletismo. Face à forma como os dados foram recolhidos, justifica-se plenamente uma análise paramétrica quer do ı́ndice de valores extremos, quer do limite superior do suporte, o possı́vel recorde mundial, dadas as condições vigentes. Os dados em análise estão relacionados com os 60 Metros Barreiras (60MB) e os 1500 Metros, bem como o salto em altura e o salto em comprimento. As fontes foram http://www.iaaf.org/statistics/toplists/index.htmx e http://hem.bredband.net/athletics/athletics all-time best.htm. Os dados foram coleccionados até ao fim de 2010, e para qualquer atleta só se contabilizou a melhor marca. Devido ao nosso interesse em modelos relacionados com a cauda direita F = 1 − F do modelo subjacente aos dados, convertemos tempos de corrida em velocidades. Por exemplo, 10 segundos nos 60MB (igual a 0.06 quilómetros) são transformados numa velocidade de 3600 × 0.06/10 = 21.6 km/h. Deste modo, quanto mais elevada for a velocidade, melhor é o resultado. A mesma situação ocorre com as modalidades salto em altura e salto em comprimento. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Embrechts, P., Klüppelberg, C. e Mikosch, T. (1997). Modelling Extremal Events for Insurance and Finance. Springer, Berlin, Heidelberg. [2] Hosking, J.R.M. e Wallis, J.R. (1987). Parameter and quantile estimation for the generalized Pareto distribution. Technometrics 29, 339–349. [3] Johnson, N.L., Kotz, S. e Balakrishnan, N. (1994; 1995). Continuous Univariate Distributions. Volumes 1; 2. Wiley Series in Probability and Mathematical Statistics. SPE 2011 48 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Múltiplos caminhos para a uniforme Fernando Sequeira1 e Sı́lvio Velosa2 1 2 Faculdade de Ciências da Universidade de Lisboa, [email protected] Universidade da Madeira, [email protected] Resumo: Os resultados de Gomes et al. (2009) sugerem a conjectura de que, para X e Y variáveis aleatórias (v.a.) independentes com suporte em [0,1], as transformações V = X + Y − [X + Y ] e W = min{ YX , 1−X 1−Y } produzem v.a. com distribuições mais próximas da uniforme que a de X. Seguindo Johnson (2004), procuramos formalizar e confirmar esta conjectura, traduzindo a aproximação à uniforme em termos de aumento de entropia e decréscimo da informação de Fisher. Palavras–chave: Distribuição uniforme, entropia, informação de Fisher, transformações de variáveis aleatórias Introdução Num estudo de simulação, Gomes et al. (2009) notaram que, para as v.a. independentes X e Y com f.d.p. da famı́lia fXm (x) = (mx + 1 − m/2)I(0,1) (x), m ∈ [−2, 2] , as transformações V = X + Y − [X + Y ] e W = min{ YX , 1−X 1−Y } parecem produzir v.a. com distribuições mais próximas da uniforme que a de qualquer um dos termos . Brilhante et al. (2010) observam que, para elementos independentes Xm e X p desta famı́lia, W = min{Xm /X p , (1 − Xm )/(1 − X p )} tem a distribuição de Xmp/6 , donde é imediato que W é uniforme se e só se Xm é uniforme ou Xp é uniforme (m = 0 ou p = 0). Notam também que a aproximação de W à uniforme, na mesma famı́lia de v.a., se pode exprimir em termos da sua entropia: H(X0 ) ≥ H(W ) ≥ max{H(Xm ),H(X p )}. Por outro lado, conforme Deng e George (1992), W = min{X/Y, (1 − X)/(1 −Y )}, onde X e Y são v.a. independentes com suporte [0,1] arbitrárias, é uniforme desde que X o seja. Investigamos o comportamento da entropia de W nesta situação mais geral. No caso da transformação V = X + Y − [X + Y ], onde X e Y são v.a.’s independentes com suporte [0,1], é imediato da forma da densidade, fV (v) = Z v 0 fX (x) fY (v − x)dx + Z 1 v fX (x) fY (1 + v − x)dx que se obtém também uma uniforme desde que X ou Y o sejam. Para as variáveis da famı́lia Xm fica fV (v) = (1 − mp/12 + mpv/2 − mpv2 /2)I (0,1) (v) e novamente se constata que a transformação V aproxima as distribuições de partida da uniforme, na medida em que supv∈[0,1] | fV (v) − 1| < supx∈[0,1] | fX (x) − 1|. Seguindo Johnson (2004), procuramos formalizar e exprimir a aproximação à uniforme produzida pelas transformações V e W em termos de aumento de entropia e decréscimo da informação de SPE 2011 49 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Fisher. A convergência para a uniforme era expectável em virtude do facto bem conhecido de que a densidade limite de convoluções num grupo topológico compacto G é uniforme relativamente à medida de Haar em G, donde advém o princı́pio de entropia máxima H( f ) ≤ 0, f ∈ G, com igualdade se e só se f é uniforme. Bibliografia [1] Brilhante, M. F., Mendonça, S., Pestana, D. e Sequeira, F. (2010). Using Powers of Products to Test Uniformity. Notas e Comunicações do CEAUL, 02/2010. [2] Deng, Y. e George, E. O. (1992). Some characterizations of the uniform distribution with applications to random number generation. Em Ann. Instit. Statistical Mathematics (Editores, eds.), 44, 379–385. [3] Gomes, I., Pestana, D., Sequeira, F., Mendonça, S. e Velosa, S. (2009). Uniformity of offsprings from uniform and non-uniform parents. Proceedings of the ITI 2009, 31th International Conference on Information Technology Interfaces 2009, (Luzar-Stiffler, V., Jarec, I. e Bekic, Z., eds.), 243–248. [4] Johnson, O. (2004). Information Theory and the Central Limit Theorem. London: Imperial College Press. SPE 2011 50 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Fatores associados ao abandono escolar no Ensino Médio Público de Minas Gerais Tufi Machado Soares1 , Neimar Fernandes da Silva1 , Mariana Calife Nóbrega1 e Alexandre Nicolella2 1 2 CAED-UFJF, {tufi, neimar, calife}@caed.ufjf.br USP/Campus Ribeirão Preto-Faculdade de Economia, [email protected] Resumo: Este artigo tem como objetivo principal apontar quais são os principais fatores que influenciam o abandono escolar no Ensino Médio. Os dados utilizados se baseiam numa série histórica construı́da a partir do levantamento das PNAD - Pesquisa Nacional por Amostra de Domicı́lios - e uma ampla pesquisa realizada no estado de Minas Gerais, esta pesquisa culminou com a coleta de diversas informações de um total de 3.418 entrevistados (entre alunos cursantes e não-cursantes). Com base nesses dados, estimaram-se modelos de Regressão de Risco Proporcional de Cox, que permitiram identificar a correlação entre fatores intra e extra-escolares com o abandono precoce. Outro modelo desenvolvido utilizou as bases de dados da PNAD, em que um modelo Logito foi estimado, permitindo verificar a taxa do não abandono na trajetória do Ensino Médio também para Minas Gerais. Entre os resultados encontrados destacam-se alguns fatores expressivos na explicação do abandono como: a dificuldade nas disciplinas, ansiar por uma escola diferente, perceber melhores oportunidades de trabalho com a continuidade dos estudos e a importância atribuı́da na escolha da escola. Palavras–chave: Abandono escolar, Ensino Médio, pesquisa nacional por amostra de domicı́lios, pesquisa sobre abandono escolar Introdução Este artigo tem por objetivo apontar algumas caracterı́sticas associadas ao abandono escolar dificultando a conclusão do Ensino Médio pelos jovens com no mı́nimo oito anos de escolaridade nas escolas públicas do Estado de Minas Gerais. Especificamente, para tal, pretende-se produzir conhecimento empregando dados secundários, por meio da utilização dos dados disponı́veis nas PNADs (1987 a 1992) e dados primários, produzidos pela PSAE - Pesquisa Sobre Abandono Escolar. Com a articulação destas formas de análise, será possı́vel checar a robustez dos resultados alcançados em cada uma das abordagens. Algumas pesquisas apontaram o abandono escolar do jovem no Ensino Médio influenciada pela necessidade de entrar no mercado de trabalho, seja colaborando com o orçamento familiar, seja para ter o próprio dinheiro. Esta visão pode estar ignorando diversos fatores que os jovens consideram ao decidir abandonar a escola. Outros fatores que podem ser listados como capazes de afastarem os jovens dos bancos escolares, inclui-se a falta de interesse na/pela escola, seja, por caracterı́sticas individuais, familiares, ou até mesmo da escola (qualidade ensino, infra-estrutura, excesso de conteúdos), são questões que ainda pouco se compreende no Brasil. O desinteresse também aparece como forte motivo que influencia a decisão de abandonar a escola SPE 2011 51 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 e entendê-lo torna-se de suma importância tanto para melhor compreensão do estado de fragilidade que esses jovens se encontram quanto um indicador importante na orientação de polı́ticas educacionais que visam reverter tal quadro. Na maioria dos estudos fica evidente uma dicotomia entre fatores internos e fatores externos como causadores do abandono escolar. Três modelos estatı́sticos foram desenvolvidos para explicar o abandono escolar, entre eles, dois Modelos de Regressão de Risco Proporcional de Cox [2] que utilizaram dados da PSAE, que inovam em técnicas de modelagens de eventos recorrentes, que para este caso foi o abandono, condicionado as covariáveis ligadas a dados educacionais no Brasil. Para os dados da PNAD [1], estimou-se o Modelo de Variáveis Dependentes Binárias (Logito) com dados empilhados (Pooling) com binárias de coorte e ano. Com os resultados dos modelos estatı́sticos foi possı́vel mensurar o impacto positivo e negativo dos fatores ligados a abandono, tais como: condição socioeconômica, gênero, defasagem idade/série, trabalho, dificuldade nas disciplinas, percepção de melhores oportunidades de trabalho com a continuidade dos estudos, o anseio por uma escola dinâmica, pretensão de cursar faculdade, interesse e incentivo da famı́lia nos estudos, entre outros no abandono precoce. Bibliografia [1] Brasil. Ministério do Planejamento, Orçamento e Gestão. Instituto Brasileiro de Geografia e Estatı́stica. Pesquisa Nacional por Amostra de Domicı́lios (PNAD). Rio de Janeiro: IBGE; 2001-2008. [2] Colosimo, E.A. e Giolo, S.R. (2006). Análise de Sobrevivência Aplicada. 1a ed. Edgard Blücher Ltda: São Paulo. SPE 2011 52 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Análise de dados longitudinais com drop-out dependente da variável resposta Inês Sousa Departamento de Matemática e Aplicações, Universidade do Minho, [email protected] Resumo: Nesta apresentação proponho explorar as dificuldades dos modelos longitudinais quando o processo de dados faltantes está dependente do processo de medida. Palavras–chave: Análise de dados longitudinais, drop-out dependente da variável resposta Introdução Estudos longitudinais são desenvolvidos quando se pretende obter medidas repetidas para um mesmo indivı́duo ou entidade. Usualmente, estes aparecem em contexto de bioestatı́stica quando o efeito de um tratamento/droga/cirurgia quer ser estudado ao longo do tempo. Desta forma, os modelos estatı́sticos longitudinais permitem distinguir variabilidade entre indivı́duos e dentro do indivı́duo ao longo do tempo. Os modelos longitudinais combinam técnicas de séries temporais e análise multivariada. No entanto, quando seguimos indivı́duos ao longo do tempo estes podem originar séries temporais de diversas dimensões, devido ao facto de podermos perder indivı́duos ao longo do estudo. Temos assim os chamados drop-out. O motivo pelo qual os indivı́duos saem do estudo, originando drop-out, pode ou não estar relacionado com a variável resposta de interesse. Por exemplo, se um indivı́duo sai do estudo porque mudou de residência, não é esperado que esta causa esteja relacionado com o objectivo do estudo. Por outro lado, se um indivı́duo decide sair do estudo porque cada vez se sente pior, o facto de termos dados faltantes está fortemente associado com a variável em estudo. Neste trabalho, pretendemos comparar diferentes modelos longitudinais que consideram a associação entre os dois processos estocásticos, o de variável resposta e o do processo de drop-out. Bibliografia [1] Sousa I. (2011). A review on joint modelling of longitudinal measurements and time-to-event. REVSTAT, 9(1), 57–81. SPE 2011 53 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 Periodic autoregressive model identification using genetic algorithms Eugen Ursu1 , Kamil Feridun Turkman1 1 CEAUL, {eugenursu,kfturkman}@fc.ul.pt Abstract: A periodic autoregressive model (PAR) extends the classical autoregressive (AR) model by allowing the parameters to vary with seasons. Selecting PAR time series models can be computationally expensive and the results are not always satisfactory. We propose a new automatic procedure to the model selection problem by using the genetic algorithm. The Bayesian information criterion (BIC) is used as a tool to identify the order of the PAR model. The success of the proposed procedure is illustrated in a small simulation study, and an application with monthly data is presented. Keywords: Periodic time series, identification, genetic algorithms Periodic models A periodic autoregressive (PAR) model extends the classical autoregressive (AR) model by allowing the autoregressive parameters to vary with the seasons. Let Y = {Yt , t ∈ Z} be a periodic autoregressive (PAR) stochastic process: p(ν ) Yns+ν = ∑ φk (ν )Yns+ν −k + εns+ν ; (1) k=1 for fixed ν and predetermined value s, the random variable Yns+ν denotes the realization during the ν th season, with ν ∈ {1, . . . ,s}, at year n, n ∈ Z. The autoregressive model order at season ν is given by p(ν ), and φk (ν ), k = 1, . . . ,p(ν ), are the autoregressive model coefficients during season ν , ν = 1, . . . ,s. The error process ε = {εt , t ∈ Z} in (1) corresponds to a zero mean periodic white noise, that is E(εt ) = 0 and Var(εns+ν ) = σ 2 (ν ) > 0, ν = 1, . . . ,s. Various selection criteria using AIC or BIC can be employed for PAR model identification. One possible way is to employ the BIC selection criteria separately for each of the seasonal components, thus defining the overall BIC criterion as s BIC = ∑ BIC(ν ), (2) ν =1 with log(N) (3) p(ν ), N where ε̂ns+ν , n = 0, . . . ,N − 1 denote the residuals of the adjustment, σ̂ (ν ) corresponds to the least squares estimators of σ (ν ), and p(ν ) represents the number of autoregressive parameters in the BIC(ν ) = log σ̂ 2 (ν ) + SPE 2011 55 Quinta, 29/09/2011 Sessão de POSTERS I Átrio do Café, 10:00–10:30 season ν . The problem with this piecewise identification method is that the number of possible model may become excessively large especially for monthly or weekly data, so a random search algorithm may have to be employed. We suggest the Genetic Algorithm (GA) as a possible solution to this problem. Applying GA to the identification problem A large number of possible solutions of the periodic autoregressive identification problem suggests that a GA will be useful in efficient examination of the space of solutions and select the combination of parameters that corresponds to the best model. While using GA approach, string representations for chromosomes have to be provided. Since the identification will be made for each of the separate periods, one gene for each possible lag will be reserved, filling it with 1 if the parameter is free, and with 0 if the parameter is constrained to zero. The resulting string represents the chromosome. For example, if we take s = 4, ν = 1 and the maximum order equal to 15, the following model Y4n+1 = φ6 (1)Y4n + φ7 (1)Y4n−1 + ε4n+1 is represented in terms of the chromosome 000001100000000. Upon deciding on encoding, a fitness function has to be specified. BIC for each period given in equation (3) cannot be implemented directly as fitness function (which has to be maximized), as the proposed criterion has to be minimized. However, a simple linear transformation (Goldberg, 1989; Gaetan, 2000) f j (ν ) = M + 1 − BIC j (ν ), (4) where BIC j (ν ) is the BIC(ν ) value for the jth chromosome in the current population and M is the maximum value of the current BIC(ν ) in the current population, is a proper fitness function. GA starts with an initial population of chromosomes generated at random. In this paper, the tournament selection method is used, since it is computationally more efficient (Mitchell, 1996). The crossover probability Pc describes how often crossovers will be performed. The probability of a crossover occurring in the interval (0.5, 0.9) is usually high. Hence, upon studying many variants of the crossover method found in the literature, the uniform crossover with Pc = 0.8 was found to be adequate. The probability of mutation Pm is usually assumed small, often taken in the interval (0.001, 0.1). Larger values turn the GA to a random search. We chose Pm = 0.01. Bibliography [1] Gaetan, C. (2000). Subset ARMA model identification using genetic algorithms. Journal of Time Series Analysis, 21, 559–570. [2] Goldberg, D.E. (1989). Genetic Algorithms in Search, Optimization & Machine Learning, Addison-Wesley. [3] Mitchell, M. (1996). An Introduction to Genetic Algorithms. MIT Press. SPE 2011 56 Quinta, 29/09/2011 Séries Temporais I Sala Premium, 10:30–11:30 Músicos e crianças: Caracterização de séries de tapping bimanual Ana Diniz1 , Inês Faria2 e João Barreiros1 1 2 CIPER, FMH, Universidade Técnica de Lisboa, {adiniz,jbarreiros}@fmh.utl.pt Centro de Recursos para a Inclusão de Almeirim, [email protected] Resumo: A percepção do tempo é um tema vital já que muitos movimentos humanos partilham o objectivo de coordenar o movimento com o tempo. Este processo é influenciado por diversos factores tais como a idade, a experiência, etc. Um delineamento experimental usual consiste na produção de movimentos rı́tmicos (tapping) com intervalos isócronos. O elemento de interesse é a série de intervalos inter-resposta. Neste trabalho avaliou-se 5 adultos músicos e 23 crianças sem formação musical numa tarefa rı́tmica e estudou-se as séries de intervalos entre respostas consecutivas. Palavras–chave: Série temporal, processo estocástico, controlo motor, tarefa de tapping Introdução A percepção do tempo e a sua incorporação nos movimentos humanos é um processo fundamental e que conjuga aspectos maturacionais e aspectos comportamentais. Este é um processo demorado e que, em geral, só encontra pontos de estabilidade após as fases da infância. O sistema é também sensı́vel à experiência, como se pode observar pela capacidade acrescida em músicos [3]. Os estudos sobre este tema envolvendo crianças saudáveis são raros, em contraste com as investigações em adultos que são vastas e variadas (e.g., [1], [2]). Os delineamentos experimentais para medir a estabilidade temporal têm visado a produção de movimentos rı́tmicos com as mãos (tapping) com intervalos isócronos. Estas tarefas permitem o registo de medidas precisas com instrumentos simples e têm sido utilizadas há mais de 100 anos [4]. As tarefas rı́tmicas levam à produção de séries de intervalos inter-resposta cujo estudo é de grande interesse teórico e prático. Em particular, a modelação deste tipo de séries permite a caracterização de populações especiais e a identificação de competências individuais com inúmeras finalidades. Amostra e dados Neste estudo considerou-se uma amostra de conveniência composta por 5 adultos, músicos percussionistas, com idade média de 28.0 anos e 23 crianças do 1o ano de escolaridade sem necessidades educativas especiais, sem formação musical, com idade média de 6.8 anos. A tarefa consistiu na percussão bimanual alternada numa superfı́cie lisa (tapping bimanual), com captação do som de impacto por um microfone ligado a um computador. O procedimento foi o de sincronização-continuação, isto é, cada participante foi instruı́do para bater na superfı́cie em simultâneo com sinais sonoros (20 batimentos) e depois continuar a bater com o mesmo ritmo SPE 2011 Mesa: M. Manuela Neves 57 Quinta, 29/09/2011 Séries Temporais I Sala Premium, 10:30–11:30 sem referência sonora (130 batimentos). Os intervalos-alvo foram 300 ms e 600 ms e cada sujeito realizou a tarefa com os dois intervalos numa ordem aleatória. Os valores registados foram os intervalos de tempo It entre batimentos consecutivos. Métodos e resultados O estudo das séries temporais obtidas incidiu sobre as séries totais (direita-esquerda, esquerdadireita, ...) e sobre algumas séries parciais (direita-esquerda, direita-esquerda, ... e direita-direita, direita-direita, ...) de cada indivı́duo. A análise começou pela representação gráfica das séries individuais e pelo cálculo de caracterı́sticas amostrais. Em seguida efectuou-se a modelação das séries individuais através de processos estacionários e não estacionários. Por fim procedeu-se à identificação de padrões nas séries das crianças com base em medidas relevantes. Os resultados sugerem diferenças comportamentais fortes entre adultos e crianças e entre crianças entre si. A Figura 1 mostra as séries totais de intervalos inter-resposta de um adulto e de uma criança com intervalos-alvo de 300 ms e de 600 ms. 700 Intervalo (ms) Intervalo (ms) 400 (a) 350 300 250 200 0 20 40 60 80 Batimento 100 120 400 300 200 100 550 0 20 40 60 80 Batimento 100 120 140 800 Intervalo (ms) Intervalo (ms) 500 (c) 600 500 140 (b) 650 0 20 40 60 80 Batimento 100 120 140 (d) 700 600 500 400 0 20 40 60 80 Batimento 100 120 140 Figura 1: (a) Série de intervalos do adulto A1 com intervalo-alvo de 300 ms; (b) Série de intervalos do adulto A1 com intervalo-alvo de 600 ms; (c) Série de intervalos da criança C1 com intervalo-alvo de 300 ms; (d) Série de intervalos da criança C1 com intervalo-alvo de 600 ms. Bibliografia [1] Delignières, D. e Torre, K. (2009). Vers une nécessaire prise en compte de la complexité: variabilité et fractalité dans la motricité rythmique. Intellectica, 52, 41–54. [2] Diniz, A., Barreiros, J. e Crato, N. (2010). Parameterized estimation of long-range correlation and variance components in human serial interval production. Motor Control, 14, 26–43. [3] Repp, B.H. (2010). Sensorimotor synchronization and perception of timing: effects of music training and task experience. Human Movement Science, 29, 200–213. [4] Stevens, L.T. (1886). On the time-sense. Mind, 11, 393–404. SPE 2011 Mesa: M. Manuela Neves 58 Quinta, 29/09/2011 Séries Temporais I Sala Premium, 10:30–11:30 Alterações dos padrões de sazonalidade ao longo do ciclo da procura turı́stica Pedro M.D.C.B. Gouveia Universidade do Algarve - ESGHT, CIITT, CASEE, [email protected] Resumo: Na última década, a literatura económica tem analisado a relação entre sazonalidade e ciclo económico. Com efeito, tem sido possı́vel obter evidência de alterações nos padrões de sazonalidade ao longo do ciclo económico em variáveis económicas como o Índice de Produção Industrial (vide, inter alia, Matas Mir e Osborn, 2004). Este trabalho estende várias abordagens de datação do ciclo económico (e.g. ciclo clássico, ciclo de desvio e ciclo em taxas de crescimento) a variáveis da procura turı́stica em Portugal e é pioneiro no estudo da existência de interacção entre os padrões de sazonalidade e o ciclo económico. Ou seja, este estudo procura evidência de comportamento assimétrico na sazonalidade em função das fases do ciclo da procura turı́stica, sendo espectável um efeito sazonal mais forte em perı́odos de recessão. Neste artigo, para efeitos do tratamento de dados são utilizados dados com frequência mensal publicados pelo Instituto Nacional de Estatı́stica (INE) relativamente ao número de dormidas de hóspedes na hotelaria e estabelecimentos similares entre 1968 e Fevereiro de 2011 para o Algarve, Madeira, Lisboa, Total de Portugal, segundo os principais mercados emissores. Em termos metodológicos, e no sentido de captar este tipo de não-linearidade nos coeficientes sazonais, são utilizados modelos autorregressivos de tipo Threshold (TAR - Threshold Autorregressive). Os modelos não - lineares têm sido usados para caracterizar variáveis económicas ou séries financeiras que apresentam comportamentos assimétricos que, em muitos casos, estão associados às fases de expansão e de recessão do ciclo. Os modelos Threshold introduzidos por Tong (1978) e Tong e Lim (1980) e extendidos por Tong (1983, 1990) e Hansen (1997) constituem um tipo de modelos não lineares que tem sido objecto de um interesse crescente na literatura (vide, inter alia, Hansen 1997, Caner e Hansen 2001, Fanses e van Dijk, 2005). Os resultados obtidos permitem obter evidência de não linearidade no comportamento sazonal da procura turı́stica, em função das fases do ciclo económico. Os padrões de não-linearidade diferem de acordo com o tipo de ciclo considerado (ciclo clássico, de desvio ou em taxas de crescimento) e da forma como é definida a função indicadora do ciclo económico, particularmente em termos do desfasamento temporal considerado. A abordagem proposta neste artigo pode constituir um instrumento de apoio à decisão de entidades públicas e privadas permitindo, em cada momento, um melhor ajustamento entre a procura e a oferta turı́stica. De facto, esta metodologia permite estimar o efeito de um perı́odo de recessão sobre o peso de cada mês, estação do ano ou época turı́stica no total de dormidas anuais. Palavras–chave: Sazonalidade, ciclo económico, modelos TAR, não-linearidade SPE 2011 Mesa: M. Manuela Neves 59 Quinta, 29/09/2011 Séries Temporais I Sala Premium, 10:30–11:30 Bibliografia [1] Caner, M e Hansen, B.E. (2001). Threshold autoregression with a unit root. Econometrica, 69, 1555-1596. [2] Franses, P.H. e van Dijk, D. (2005). The forecasting performance of various models for seasonality and nonlinearity for quarternly. Production, International Journal of Forecasting, 21, 2005 87-102. [3] Hansen, B.E. (1997). Threshold inference in TAR models. Studies in Non-linear Dynamics and Econometrics, 2, 1-14. [4] Matas-Mir, A. e Osborn, D.R. (2004). Does seasonality change over the business cycle? An investigation using monthly industrial production series. European Economic Review, 48, 1309-1332. [5] Tong, H. (1978), Pattern Recognition and Signal Processing. Amsterdam: Sijthoff & Noordhff. [6] Tong, H. (1983). Threshold inference in TAR models. Springer and Verlag, Lectures Notes in Statistics, 21. [7] Tong, H. (1990), Linear Time Series: A Dynamical Systems Approach. Oxford: Oxford University Press. [8] Tong, H. e Lim, K.S. (1980). Threshold autoregressions, limit cycles and data. Springer Journal of the Royal Statistical Society, B 42, 245-92. SPE 2011 Mesa: M. Manuela Neves 60 Quinta, 29/09/2011 Séries Temporais I Sala Premium, 10:30–11:30 Análise espectral singular no estudo do número de vı́timas mortais em acidentes de viação em Portugal Continental Fernando Sebastião1 , Irene Oliveira2 1 Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Leiria, CM-UTAD, [email protected] 2 Universidade de Trás-os-Montes e Alto Douro, CM-UTAD, [email protected] Resumo: A segurança rodoviária, nas últimas décadas, tem constituı́do matéria relevante para o acompanhamento constante por parte das autoridades nacionais responsáveis, com vista a uma redução permanente dos nı́veis de sinistralidade. Os números da mortalidade em acidentes de viação representam um dos aspectos que tem merecido uma análise cuidada por parte das autoridades competentes. Neste trabalho pretende-se explorar os valores mensais do número de vı́timas mortais resultantes dos acidentes de viação ocorridos em Portugal Continental, obtidos nos últimos treze anos, através da técnica da Análise Espectral Singular. Palavras–chave: Acidentes de viação, análise espectral singular, componentes principais, mortalidade rodoviária, séries temporais Descrição do trabalho Uma extensão da Análise em Componentes Principais é a designada Análise Espectral Singular (SSA), a qual geralmente apresenta resultados que são considerados muito satisfatórios na análise de uma série temporal, nomeadamente nos casos em que os dados ostentam uma estrutura mais complexa como por exemplo em séries com várias componentes sazonais. O principal objectivo da SSA é decompor uma série de dados original num pequeno número de componentes de forma a que seja possı́vel interpretar a tendência e as componentes oscilatórias, desprezando a estrutura de ruı́do subjacente. No ano de 2001, segundo a proposta da Comissão Europeia sobre a polı́tica europeia de transportes, pretendia-se que a União Europeia tivesse como meta a redução para metade das vı́timas mortais nas suas estradas até ao ano de 2010. Estas preocupações presentes na polı́tica de segurança rodoviária nacional, nas últimas décadas, têm contribuı́do para que a sinistralidade rodoviária em Portugal tenha cada vez menos impacto na sociedade e como consequência têm-se vindo a verificar uma diminuição bastante significativa da mortalidade resultante dos acidentes de viação. A análise do comportamento do número de vı́timas mortais provenientes dos acidentes de viação permite uma melhor percepção da influência das polı́ticas adoptadas nos últimos anos, e pode contribuir para um planeamento de novas polı́ticas de sensibilização, de prevenção e de aplicação de legislação. Neste trabalho procederemos a uma breve descrição da técnica da SSA (Elsner e Tsonis, 1996; Golyandina et al., 2001 e Hassani, 2007) e apresentaremos o estudo da série mensal do número SPE 2011 Mesa: M. Manuela Neves 61 Quinta, 29/09/2011 Séries Temporais I Sala Premium, 10:30–11:30 de vı́timas mortais em acidentes de viação ocorridos em Portugal Continental entre os anos de 1998 e 2010. As componentes essenciais para a reconstrução da série dos dados originais, que permitem descrever o sinal através das componentes oscilatórias e da tendência, serão analisadas e utilizadas posteriormente para prever valores da mortalidade rodoviária mensal através do algoritmo de previsão recorrente descrito detalhadamente em Golyandina et al. (2001). Paralelamente, será efectuada uma pequena abordagem às principais legislações nacionais introduzidas ultimamente em matéria de segurança e prevenção rodoviárias, assim como uma comparação em termos de evolução do número de vı́timas mortais em acidentes de viação com outros paı́ses europeus. Bibliografia [1] Elsner, J.B. e Tsonis, A.A. (1996). Singular Spectrum Analysis. A New Tool in Time Series Analysis, New York, Plenum Press. [2] Golyandina, N.E., Nekruktin, V.V. e Zhigljavsky, A.A. (2001). Analysis of Time Series Structure: SSA and Related Techniques. Chapman & Hall, Boca Raton. [3] Hassani, H. (2007). Singular spectrum analysis: Methodology and comparison. Journal of Data Science, 5, 239-257. SPE 2011 Mesa: M. Manuela Neves 62 Quinta, 29/09/2011 Inferência Estatı́stica I Sala Dinastia, 10:30–11:30 Uma avaliação experimental de diferentes metodologias estatı́sticas de dados de microarrays Sara Roque1 , Adelaide Freitas1 e Laura Carreto2 1 2 Departamento de Matemática - Universidade de Aveiro, {a32958, adelaide}@ua.pt Departamento de Biologia - Universidade de Aveiro, [email protected] Resumo: Nos últimos anos têm sido desenvolvidas diversas técnicas estatı́sticas com vista à análise de dados de microarrays. Considerando quatro diferentes metodologias estatı́sticas sobre cinco bases de dados de microarrays, analisámos os resultados obtidos pelos métodos aplicados. Em diversos casos, as diferentes metodologias forneceram proporções de genes diferencialmente expressos muitos semelhantes. No entanto, quando comparámos estes genes, um a um, apenas uma menor parte destes genes são comuns entre metodologias. Palavras–chave: Nı́vel de expressão genética, microarrays, SAM, modelos lineares, métodos empı́ricos de Bayes, rank products Introdução e Resultados Nas últimas décadas, diversas metodologias estatı́sticas para a análise de genes diferencialmente expressos têm vindo a ser desenvolvidas. No entanto, frequentemente na prática apenas uma metodologia é aplicada quando se pretende efectuar uma análise de dados de microarrays, não existindo, em grande parte dos casos, uma justificação estatı́stica para a aplicação do método escolhido. Aplicámos 4 metodologias estatı́sticas a 5 bases de dados, validando os pressupostos. Para a análise referida foram escolhidas metodologias com diferentes abordagens estatı́sticas: (1) a metodologia SAM ([1], implementada no pacote ) que quantifica, para cada gene, a influência da(s) classe(s) no nı́vel de expressão genética através do valor de uma estatı́stica de teste e estima a taxa das falsas descobertas fazendo uso de repetidas permutações dos dados; (2) os modelos lineares para análise de microarrays ([2], implementados no pacote limma) que assumem um modelo linear ajustado a cada gene; (3) os métodos empı́ricos de Bayes paramétricos para análise de microarrays ([3, 4], implementados no pacote EBarrays) os quais podemos tomar um de três modelos: Log-NormalNormal, Gamma-Gamma e Log-Normal-Normal com variância modificada, para cada gene; e, por fim, (4) a metodologia Rank Products ([5], implementada no pacote RankProd) baseada nas ordens das fold changes. Todas estas metodologias estão implementadas na linguagem R e, à excepção do pacote samr, todos os pacotes foram obtidos do Bioconductor. Para o presente estudo experimental foram consideradas 4 bases de dados de microarrays conhecidas na literatura, de acesso livre na Internet, e uma base recentemente criada no Laboratório de microarrays da Universidade de Aveiro contendo 14 microarrays com os nı́veis de expressão de 6388 genes. As primeiras 4 bases de dados foram: (1) a ApoAI [6], constituı́da por 16 microarrays (8 obtidos de ratos cujo gene em causa está activo e 8 cujo gene não está activo) e 6382 genes; (2) a base de dados de Golub [7], formada por 38 microarrays da Affymetrix obtidos de amostras de medula óssea de pacientes com dois tipos de leucemia aguda (27 de um tipo e 11 de outro); (3) a Lymphoma [8] tendo sido considerados os nı́veis de expressão de 7079 genes para 77 microarrays (68 obtido de indivı́duos em condições normais e 9 obtidos de indivı́duos com diffuse large B-cell lymphoma); e, por último, (4) a colonCA [9] que contém 62 microarrays da Affymetrix (40 obtidos de indivı́duos com tumor no cólon e 22 de indivı́duos em condições normais) e 2000 genes. SPE 2011 Mesa: Russel Alpizar-Jara 63 Quinta, 29/09/2011 Inferência Estatı́stica I Sala Dinastia, 10:30–11:30 Verificou-se que apesar de, na maioria dos casos, o número de genes diferencialmente expressos não sofrer grandes alterações entre metodologias, o número de genes comuns às metodologias, duas a duas, sofre uma considerável redução, mesmo considerando uma taxa de falsas descobertas suficientemente baixa garantindo que as discrepâncias entre genes diferencialmente expressos e genes diferencialmente expressos comuns não se devem ao nı́vel da taxa de falsas descobertas considerada. Estas discrepâncias alertam para a necessidade de se estabelecer um procedimento que permita ao biólogo identificar qual o método que conduz a resultados mais fiáveis para determinada base de dados. Agradecimentos: AF agradece à CIDMA (Universidade de Aveiro) o apoio financeiro concedido. Bibliografia [1] Alizadeh, A.A., Eisen, M.B. Davis, R.E. Ma, C. Lossos, I.S. Rosenwald, A. Boldrick, J.C. Sabet, H., Tran, T., Yu, X. Powell, J.I., Yang, L., Marti, G.E., Moore, T., Hudson, J., Jr, Lu, L. Lewis, D.B. Tibshirani, R., Sherlock, G. Chan, W.C., Greiner, T.C., Weisenburger, D.D. Armitage, J.O., Warnke, R., Levy, R., Wilson, W., Grever, M.R., Byrd, J.C., Botstein, D., Brown, P.O. e Staudt, L.M. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling, NATURE, 403, 503–511. [2] Breitling R., Armengaud P., Amtmann A. e Herzyk P. (2004). Rank products: a simple, yet powerful, new method to detect differentially regulated genes in replicated microarray experiments, FEBS Lett.,573(1–3), 83–92. [3] Callow, M.J., Dudoit, S., Gong, E.L., Speed, T.P. e Rubin, E.M. (2000). Microarray expression profiling identifies genes with altered expression in HDL deficient mice. Genome Research, 10, 2022–2029. [4] Efron, B., Tibshirani, R., Storey, J.D. e Tusher, V. (2001). Empirical Bayes analysis of a microarray experiment, J. Am. Stat. Assoc., 96, 1151–1160. [5] Golub, R., Slonim, D.K. Tamayo, P. Huard, C. Gaasenbeek, M. Mesirov, J.P. Coller, H. Loh, M.L. Downing, J.R. Caligiuri, M.A. Bloomfield, C.D. e Lander, E.S. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286, 531–537. [6] Kendziorski, C.M., Newton, M.A., Lan, H. e Gould, M.N. (2003). On parametric empirical Bayes methods for comparing multiple groups using replicated gene expression profiles. Statistics in Medicine, 22, 3899–3914. [7] Smith, G.K. (2004). Linear models and empirical Bayes methods for assessing differential expression in microarray experiments, Statistical Applications in Genetics and Molecular Biology 3, No.1, Article 3. [8] Tusher, V.G., Tibshirani, R. e Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response, Proc. Natl. Acad. Sci. USA, 98, 5116–5121. [9] Alon, U., Barkai, N., Notterman, D.A., Gish, K., Ybarra, S., Mack, D. e Levine, A.J. (1999). Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissue probed by oligonucleotide arrays. Proc. Natl. Acad. Sci. USA 96, 6745–6750. SPE 2011 Mesa: Russel Alpizar-Jara 64 Quinta, 29/09/2011 Inferência Estatı́stica I Sala Dinastia, 10:30–11:30 Comparison of statistical methods for the identification of the genetic basis of plant responses to stress Paulo C. Rodrigues1,2 , Marcos Malosetti2 , Martin Boer2 , Hugh G. Gauch3 e Fred van Eeuwijk2 1 Faculdade de Ciências e Tecnologia, Universidade Nova de Lisboa, Portugal, [email protected] 2 Biometris, Wageningen University, The Netherlands, 3 Crop and Soil Sciences, Cornell University, NY, USA, Abstract: A different response of genotypes across environments (location by year combinations) is frequent in multi-environment trials and is known as genotype by environment interaction (GEI). When the analysis is made in the whole genome, the interactions of interest are between QTL (quantitative trait loci) and environment (QEI). The study and understanding of these interactions is a major challenge in plant breeding and genetics. Within the last years the mixed models methodology has proven to be a powerful method to detect QTL and QEI, because of its ability to account for heterogeneity of variance often present in multi-environment trials [1, 5]. In this paper we propose an alternative to this methodology which can be performed with standard statistical software. The approach presented here is a generalization of the AQ analysis (AMMI analysis followed by QTL scans) in [2], in which we now account for genetic and error variances. It is based on weighted singular value decomposition (SVD) of the GEI data matrix and is conducted in three stages: (i) compute the weights for each environment based on the error variances; (ii) present and apply an adaptation of the additive main effects and multiplicative interaction (AMMI) model where the SVD is replaced by a weighted low rank SVD; and (iii) perform a QTL scan using the predictions from the weighted AMMI model as response. This approach can potentially improve the power for QTL detection as it uses genotypic predictions as response variable. The environments can then be ordered by AMMI parameters that summarize GEI and QEI information in order to reveal consistent patterns and systematic trends that often can be explained in terms of environmental conditions. The proposed methodology is compared with the standard mixed models approach [1, 5] by using two data sets. One about preharvest sprouting scores of a biparental wheat (Triticum aestivum L.) population from 17 environments spread over six years [6], and other about yield for a doubled haploid barley (Hordeum vulgare L.) population tested in 16 environments spread over two years, and the first product of the North American Barley Genome Mapping Project [3, 4]. Keywords: Genotype by environment interactions, QTL by environment interactions, mixed models, AMMI models, low rank approximations Bibliography [1] Boer, M.P., Wright, D., Feng, L.Z., Podlich, D.W., Luo, L., Cooper, M. and van Eeuwijk, F.A. (2007). A mixed-model quantitative trait loci (QTL) analysis for multiple-environment trial SPE 2011 Mesa: Russel Alpizar-Jara 65 Quinta, 29/09/2011 Inferência Estatı́stica I Sala Dinastia, 10:30–11:30 data using environmental covariables for QTL-by-environment interactions, with an example in maize. Genetics, 177, 1801–1813. [2] Gauch, H.G., Rodrigues, P.C., Munkvold, J.D., Heffner, E.L. and Sorrells, M. (2011). Two new strategies for detecting and understanding QTL x Environment interactions. Crop Science, 51, 96–113. [3] Hayes, P.M., Chen, F.Q., Kleinhofs, A., Kilian, A. and Mather, D.E. (1996). Barley genome mapping and its applications. Em Method of Genome Analysis in Plants (Jauhar, P.P.,eds), 229–249, CRC press, Boca Raton, Florida. [4] Hayes, P.M., Liu, B.H., Knapp, S.J., Chen, F., Jones, B., Blake, T., Franckowiak, J., Rasmusson, D., Sorrells, M., Ullrich, S.E., Wesenberg, D. and Kleinhofs, A. (1993). Quantitative trait locus effects and environmental interaction in a sample of North-American Barley Germ Plasm. Theoretical and Applied Genetics, 87, 392–401. [5] Malosetti, M., Voltas, J., Romagosa, I., Ullrich, S.E. and van Eeuwijk, F.A. (2004). Mixed models including environmental covariables for studying QTL by environment interaction. Euphytica, 137, 139–145. [6] Munkvold, J.D., Tanaka, J., Benscher, D. and Sorrells, M.E. (2009). Mapping quantitative trait loci for preharvest sprouting resistance in white wheat. Theoretical and Applied Genetics, 119, 1223–1235. SPE 2011 Mesa: Russel Alpizar-Jara 66 Quinta, 29/09/2011 Inferência Estatı́stica I Sala Dinastia, 10:30–11:30 Testes à presença de autocorrelação usando a regressão de Gauss-Newton Efigénio Rebelo1 , Patrı́cia Oom do Valle1 e Rui Nunes1 1 Faculdade de Economia da Universidade do Algarve, {elrebelo, pvalle, rnunes}@ualg.pt Resumo: Este trabalho deduz dois tipos de testes à autocorrelação tendo por base uma metodologia assente numa regressão auxiliar, denominada de regressão de Gauss-Newton. Ambos os testes são deduzidos em dois contextos particulares: no caso em que a função de regressão não contém valores contemporâneos de variáveis endógenas, situação em que se recorre ao método dos mı́nimos quadrados não lineares (MMQNL); no caso em que a função de regressão contém valores contemporâneos de variáveis endógenas, situação em que se utiliza o método das variáveis instrumentais. O primeiro teste que se apresenta tem por objectivo identificar a presença de autocorrelação, seja ela genuı́na ou não. O segundo teste apresentado visa distinguir a autocorrelação genuı́na da autocorrelação não genuı́na, sendo esta última uma evidência de má especificação. O presente trabalho mostra também que este segundo teste, designado por teste ao factor comum, pode ser deduzido como um teste do χ 2 ou como um teste t. Palavras–chave: Autocorrelação, regressão de Gauss-Newton. SPE 2011 Mesa: Russel Alpizar-Jara 67 Quinta, 29/09/2011 Controlo de Qualidade Sala Caminho Real, 10:30–11:30 Ordenação estocástica na avaliação qualitativa do desempenho de esquemas conjuntos para processos bivariados Patrı́cia Ferreira Ramos1 , Manuel Cabral Morais2 , António Pacheco2 e Wolfgang Schmid3 1 CEMAT, IST, [email protected] CEMAT e DM, IST, {maj, apacheco}@math.ist.utl.pt 3 Department of Statistics, European University Viadrina, [email protected] 2 Resumo: Ao utilizar um esquema conjunto para controlar o vector de médias µ e a matriz de covariâncias Σ de um processo bivariado, é comum ocorrerem sinais erróneos. Estes correspondem a sinais válidos que levam à interpretação errada de uma alteração em µ (resp. Σ) como uma alteração em Σ (resp. µ ). Na sequência de um trabalho anterior, que se centrou na avaliação quantitativa das probabilidades de ocorrência de sinais erróneos em esquemas conjuntos para processos bivariados, fazemos agora uso da ordenação estocástica para avaliar qualitativamente o impacto de alterações em µ ou Σ naquelas probabilidades e outras medidas de desempenho. Palavras–chave: Controlo estatı́stico de processos, sinais erróneos, processos bivariados, esquemas conjuntos SPE 2011 Mesa: Paulo Infante 69 Quinta, 29/09/2011 Controlo de Qualidade Sala Caminho Real, 10:30–11:30 O revisitar de um método adaptativo em controlo estatı́stico da qualidade Manuel do Carmo1 , Paulo Infante2 e Jorge Mendes3 1 ISLA Campus Lisboa, [email protected] Universidade de Évora, CIMA–UE, [email protected] 3 ISEGI – UNL, CEGI, [email protected] 2 Resumo: Neste trabalho, propomo-nos revisitar um esquema adaptativo em controlo da qualidade, que obtém os instantes de amostragem recorrendo à função densidade da distribuição normal padrão calculados para os valores obtidos da média amostral. Para tal, propomos não só considerar outras cartas de controlo e/ou estatı́sticas amostrais, mas também analisar o desempenho deste esquema adaptativo quando se consideram outras funções densidade de probabilidade, como as das distribuições de Laplace, t-Student e Logı́stica. Devido à forma das referidas distribuições e, em particular, às suas caudas mais pesadas, o método pode ganhar em aplicabilidade e revelar-se mais eficaz, para determinadas alterações da qualidade, quando comparado com o método de amostragem clássico e com outros métodos de amostragem adaptativa e até mesmo quando se utiliza a função densidade original. Palavras–chave: Amostragem adaptativa, cartas de controlo, AATS Introdução A melhoria da qualidade de um qualquer produto ou serviço está sempre associada a uma redução da variabilidade de caracterı́sticas da qualidade associadas a esse produto ou serviço. A carta de controlo é a ferramenta estatı́stica de eleição para atingir este objectivo, pois permite a distinção entre a variabilidade inerente ao processo e a variabilidade oriunda de algo externo. Consequentemente, a selecção do tipo de carta de controlo a utilizar num dado contexto e o subjacente processo de amostragem, onde podemos incluir a determinação dos parâmetros associados a essa carta, assumem uma primordial importância. Nas cartas Shewhart clássicas, os instantes de amostragem, os tamanhos das amostras e os limites de controlo são fixos durante todo o processo. Na literatura, a carta de controlo com este procedimento é usualmente designada por carta FSI (Fixed Sampling Intervals). As cartas de controlo usando este esquema de amostragem são pouco eficazes na detecção de alterações pequenas e moderadas. Reynolds et al. (1988) apresentaram um esquema de amostragem adaptativo com dois intervalos de tempo para a recolha das amostras designado por VSI (Variable Sampling Intervals). Vários foram os esquemas de controlo adaptativos que desde então foram apresentados e analisados, uns com um, outros com dois e até mesmo um com os três parâmetros adaptativos (instantes de amostragem, tamanho das amostras e múltiplo do desvio padrão nos limites de controlo). Esta temática continua a merecer grande interesse por parte dos investigadores e recentemente Mahadik e Shirke (2009) apresentaram uma metodologia que usa dois intervalos de amostragem e três dimensões amostrais designada por SVSSI (Special Variable Sample Size and Sampling Intervals). Rodrigues Dias (1999) apresenta uma metodologia recorrendo à função densidade de probabilidade da variável normal reduzida para obter intervalos de amostragem SPE 2011 Mesa: Paulo Infante 71 Quinta, 29/09/2011 Controlo de Qualidade Sala Caminho Real, 10:30–11:30 (NSI – Normal Sampling Intervals), sendo as suas propriedades estatı́sticas e robustez estudadas em Infante (2004), onde o desempenho deste esquema adaptativo é comparado com o de outros. Metodologia Sejam µ0 e σ0 , respectivamente, a média e o desvio padrão de uma caracterı́stica da qualidade X. Designando por ti o instante de amostragem de ordem i e por x̄i o valor médio da amostra correspondente, de acordo com este método, o próximo instante de amostragem (de ordem i+1) é obtido através da expressão, (1) ti+1 = ti + φ (ui ), com ui = x̄i − µ0 √ , t0 = 0, t1 = k.φ (0), x̄0 = µ0 , σ0 / n (2) onde n representa o tamanho fixo de cada amostra, k uma constante de escala conveniente e φ (u) é a função densidade da distribuição normal reduzida. A metodologia NSI é simples, mas a sua aplicação prática por vezes pode tornar-se complicada. Se por um lado podem ser obtidos infinitos intervalos de amostragem, por outro esses intervalos podem ser muito pequenos e de difı́cil aplicação. Com base na ideia subjacente à metodologia NSI, propomos um método onde os intervalos de amostragem são obtidos através de uma função densidade de probabilidade com abas mais pesadas. Um boa escolha da distribuição a usar pode aumentar a eficiência estatı́stica para pequenas alterações da qualidade e também aumentar o menor intervalo de amostragem obtido, tornando mais exequı́vel a sua aplicabilidade prática. Bibliografia [1] Infante, P. (2004). Métodos de Amostragem em Controlo de Qualidade. Universidade de Évora. Tese de Doutoramento. [2] Mahadik, S.B. e Shirke, D.T. (2009). A special variable sample size and sampling interval X̄ chart. Communications in Statistics - Theory and Methods, 38, 1284-1299. [3] Reynolds, M.R., Jr, Amin, R.W.; Arnold, J.C. e Nachlas, J.A. (1988). X̄ charts with variables sampling intervals. Technometrics 30(2): 181-192. [4] Rodrigues Dias, J. (1999). Analysis of a new method to obtain different sampling intervals in statistical quality control. Actas do IV Congresso Galego de Estadı́stica e Investigación de Opéracions, Universidade de Santiago de Compostela, pp. 155-158. SPE 2011 Mesa: Paulo Infante 72 Quinta, 29/09/2011 Controlo de Qualidade Sala Caminho Real, 10:30–11:30 Estratégias de enchimento de sacos com itens de peso aleatório e soma constrangida Miguel Casquilho e Fátima C. Rosa Departamento de Eng.a Quı́mica, Instituto Superior Técnico (UTL), {mcasquilho,fatimacoelho}@ist.utl.pt Resumo: É problemática a obtenção, dentro de especificações, do peso total dum conjunto de n itens com pesos aleatórios, como um saco de frutos, com o resultante n uma variável dependente dos pesos. Neste estudo, simulou-se o peso total, como soma, constrangida às especificações, das n variáveis aleatórias, consideradas gaussianas truncadas, para comparar estratégias de enchimento, clássica e FIFO, aplicáveis neste contexto. A estimativa das fracções “inaptas” (truncagem, desperdı́cio e rejeição) permite a minimização do custo operatório esperado. Palavras–chave: soma constrangida de variáveis aleatórias, variáveis dependentes, Monte Carlo Fundamento e escopo Encontram-se inúmeros produtos, alimentares e outros, à venda em conjuntos de itens em embalagens (sacos, caixas) de certo peso “nominal”. Sempre que os itens (unidades, ou mesmo porções) não se podem segmentar, é problemático obter o peso “certo”, mesmo se, necessariamente, o peso tiver de se situar dentro dum intervalo, cujos extremos são estipulados. Este é um aspecto essencial da Qualidade e seu controle estatı́stico. Os itens, “naturais” (v. g., frutos), ainda que calibrados, ou “artificiais” (v. g., biscoitos, porções de peixe congelado), têm pesos aleatórios. Assim, em rigor, nunca alguém compra um saco com 2 quilos de frutos, a menos que se enuncie um intervalo para o peso, as especificações. O limite inferior, L, é imposto por lei e tipicamente coincide com o peso nominal; e o superior, U, provém —desejavelmente !— de exame técnico-económico. Considerou-se que os itens na embalagem, o saco, provêm duma só população, independentes e identicamente distribuı́dos, com o peso total, W , sujeito aos limites L e U. O número de itens, n, é também aleatório, discreto, dependente dos pesos. Não se tratou o caso simples de n fixado (v. g., 10 biscoitos), que dificulta a conformidade às especificações, mas torna trivial o problema estatı́stico. A questão a tratar é: (tentar) obter sacos de peso constrangido a L < W < U, provindo cada item, de peso w, duma população gaussiana (µ , σ ) sujeita a truncagem, i. é, wa < w < wb ; e adoptando uma certa estratégia de enchimento. Ensaiaram-se: i) estratégia clássica, em que se enche, progressivamente, cada saco até que seja W > L, mesmo que daqui resulte W > U; e ii) estratégia FIFO (“first in first out”), em que o último item a entrar pode “expulsar” o primeiro que existia no conjunto, evitando-se uma situação irreversı́vel. Como variante ao caso clássico, vimos numa empresa, como pequena melhoria, o uso de uma dezena de canais paralelos optativos. No processo, geram-se três fracções “inaptas”, com custos dados: a) fTr , fracção truncada (fora de (wa , wb )), custo cTr ; b) fWa , fracção desperdiçada (“oferecida” ao cliente), custo cWa ; e c) fRe , fracção rejeitada, desvalorizada por reciclagem, custo cRe . Nos custos: cTr é a compensação ao for- SPE 2011 Mesa: Paulo Infante 73 Quinta, 29/09/2011 Controlo de Qualidade Sala Caminho Real, 10:30–11:30 necedor por não escoar o produto truncado; cWa iguala o preço de venda; e cRe mede o prejuı́zo por trabalho de reciclagem. O objectivo é, obviamente, minimizar o valor esperado do custo operatório, z = ∑ c f , ou seja, [min] z = cTr fTr + cWa fWa + cRe fRe , em que, para (µ , σ ) e truncagem dados, z se torna, mediante fWa e fRe (dependendo fTr só da truncagem), uma função de U, a regular pelo embalador, sendo as variações de fWa e fRe opostas. (Como cTr 6= 0 apenas soma uma constante, far-se-á nulo.) Note-se que, se for σ diminuto, “más” combinações dos parâmetros originam exagerados fWa e fRe , pelo que a variação (Deming in [2]) nem sempre “é o inimigo da Qualidade”. Adiante, comparam-se as estratégias de enchimento: clássica e FIFO. Afigurando-se impraticável a via analı́tica, usou-se a simulação por Monte Carlo, cuja exigência suscitou computação paralela. Como previsto, obtém-se no 2.o caso melhoria sensı́vel, justificando a atenção à presente temática. Ilustração Simularam-se as duas estratégias para observar como o custo a minimizar varia com U: zC , clássica; zF , FIFO. Usaram-se (µ , σ ) = (250, 20) g, (wa , wb ) = (210, 295) g, L = 2000 g e c = (0; 1; 0,08). As estratégias ilustram-se na Fig. 1 (esquerda, clássica; direita, FIFO, mediante “tubo” aberto), com os resultados —conforme [1]— na Tab. 1, com o melhor mı́nimo para U = 2050 g e FIFO. Tabela 1: Custo, z, em função de U ( f em %) U 2020 2050 2080 2110 2140 Estratégia clássica fWa fRe 100 zC 0,50 85,7 7,35 1,17 67,4 6,57 1,67 56,5 6,19 1,97 51,6 6,09 2,20 48,7 6,10 Estratégia FIFO fWa fRe 100 zF 0,49 48,0 4,33 1,07 32,9 3,70 1,36 29,4 3,71 1,52 27,6 3,73 1,81 23,9 3,72 Figura 1: Estratégias clássica e FIFO Conclusões O enchimento de itens de peso aleatório com soma constrangida, como num saco com frutos, tem recebido escassa atenção. Na ausência de via analı́tica, a simulação, embora computacionalmente exigente, permite a minimização do custo operatório esperado. As estratégias comentadas são simples mas realistas e ajustáveis, coadjuvando a Qualidade através do seu controle estatı́stico. Agradecimentos: O estudo decorreu no “Centro de Processos Quı́micos”, IST (Instituto Superior Técnico), Universidade Técnica de Lisboa, com computação nos “clusters”: Sigma, do Centro de Informática do IST; e Milipeia, Laboratório de Computação Avançada, Universidade de Coimbra. Bibliografia [1] Casquilho, M. (2011). http://web.ist.utl.pt/∼mcasquilho/compute/qc/Fx-moretubefill.php (Abr.). [2] Gordon, D. K. (2002). Where does Quality begin ? Quality Progress, 35(3), 103–107. SPE 2011 Mesa: Paulo Infante 74 Quinta, 29/09/2011 Aplicações I Sala Atlântico, 10:30–11:30 Dados omissos resultantes de planned missing designs: contributo para a análise do Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) Paula C. R. Vicente1 e Maria de Fátima Salgueiro2 1 2 Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa,Portugal, [email protected] Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa,Portugal, [email protected] Resumo: O Inquérito às Condições de Vida e Rendimento das Famı́lias (ICOR) foi implementado com o objectivo de assegurar a participação portuguesa na base de dados europeia EU-SILC (Statistics on Income and Living Conditions). Sendo o ICOR um painel rotativo, com uma dinâmica de rotatividade anual de 1/4 da amostra, configura uma situação de dados omissos por desenho. Neste artigo é realizada uma sı́ntese de diferentes planned missing designs encontrados na literatura, sendo debatido o seu contributo para a análise do ICOR. Palavras–chave: Painel rotativo, dados omissos, planned missing designs, ICOR Planned missing designs e tipos de dados omissos Um dos problemas mais comuns em estudos longitudinais, nas mais variadas áreas do conhecimento, é a existência de dados omissos. Determinar a abordagem analı́tica adequada para conjuntos de dados com observações incompletas é uma questão bastante delicada, pois a utilização de métodos inadequados pode levar a conclusões erradas. As omissões que podem ser encontradas em estudos com dados longitudinais são de diferentes tipos: item non response, unit non response ou simplesmente atrito ou drop-out, caso em que os indivı́duos abandonam o estudo. Todavia as omissões podem também resultar do desenho do estudo [7]. Num planned missing design os dados omissos ocorrem de acordo com a vontade do investigador, sendo que o objectivo da utilização de um desenho deste tipo prende-se com o propósito de aumentar a qualidade dos dados [1, 2]. Uma técnica muito utilizada para diminuir o número de abandonos e aumentar o número de respostas em inquéritos na área do marketing é designada por split questionnaire design [6]. Esta técnica permite dividir um questionário longo em várias componentes, todas com o mesmo número de variáveis, e administrar aos respondentes somente uma destas fracções, originando assim a obtenção de dados omissos. Esta abordagem é no fundo uma extensão de um outro conceito designado por multiple matrix sampling design, o qual tem sido aplicado em estudos na área da educação [8]. Basicamente, através desta técnica são criados subgrupos de variáveis de forma aleatória, afectando do mesmo modo estes subgrupos a subgrupos de indivı́duos. Este tipo de planeamento revela-se de grande utilidade na estimação de médias populacionais. Contudo, porque algumas combinações de itens não são observadas conjuntamente, pode não ser possı́vel a estimação de correlações entre alguns pares de variáveis [6]. Por outro lado, os split questionnaire design impõem algumas restrições na afectação dos itens aos respondentes. SPE 2011 Mesa: Conceição Amado 75 Quinta, 29/09/2011 Aplicações I Sala Atlântico, 10:30–11:30 Existem ainda outras abordagens que resultam de algumas variações dos multiple matrix sampling, nomeadamente: i) fractional block design [5], abordagem que apesar de permitir a estimação da correlação entre alguns pares de variáveis, apresenta a limitação de necessitar de análises especı́ficas na área dos modelos de equações estruturais; ii) balanced incomplete blocks spiral design [3], abordagem que assegura a estimação da correlação entre todos os pares de variáveis, bem como a média de todas as variáveis; e iii) form design [1], que tem como objectivo aumentar o número de questões que podem ser respondidas por um indivı́duo, permitindo a estimação de todas as correlações, médias e variâncias. Contributo para a análise do ICOR O ICOR resulta da participação portuguesa no EU-SILC (European Statistics on Income and Living Conditions), que é assegurada pelo INE desde 2004 com uma periodicidade anual. Este painel apresenta a particularidade de ser um painel rotativo com uma dinâmica de rotatividade de 1/4 da amostra [4]. Assim, este tipo de painel configura um caso de dados omissos por desenho, uma vez que em cada ano sai uma fracção da amostra. Neste trabalho é apresentada uma sı́ntese da revisão de literatura realizada em termos dos diferentes tipos de planned missing designs que têm sido propostos e das abordagens que têm sido seguidas para lidar com os dados omissos resultantes. É ainda discutido o contributo da aplicação destas metodologias para a análise estatı́stica dos dados do ICOR, face à natureza rotativa do painel. Bibliografia [1] Graham, J., Hofer, S. e Mackinnon, D. (1996). Maximizing the usefulness of data obtained with planned missing value patterns: An application of maximum likelihood procedures. Multivariate Behavioral Research, 31, 197–218. [2] Graham, J., Taylor, B., Olchowski, A. e Cumsille, P. (2006). Planned missing data designs in psychological research. Psychological Methods, 11, 323-343. [3] INE (2009). Inquérito às Condições de Vida e ao Rendimento - ICOR. Documento Metodológico. [4] Johnson, E. (1992). The design of the National Assessment of Educational Progress. Journal of Educational Measurement, 29, 95-110. [5] McArdle, J. (1994). Structural factor analysis experiments with incomplete data. Multivariate Behavioral Research, 29, 409-454. [6] Raghunathan, T. e Grizzle, J. (1995). A split questionnaire survey design. Journal of the American Statistical Association, 90, 429, 54-63. [7] Schaffer, J. e Graham, J. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7, 2, 147-177. [8] Shoemaker, D. (1973). Principles and procedures of multiple matrix sampling. Cambridge, M.A.: Bellinger Publishing. SPE 2011 Mesa: Conceição Amado 76 Quinta, 29/09/2011 Aplicações I Sala Atlântico, 10:30–11:30 RiD – Uma medida para o cálculo do risco de insolvência Marco Aurélio Sanfins1 , Camila Silva1 , Danilo Monte-Mor2 , Tiago Ribeiro3 1 UFF - Universidade Federal Fluminense, [email protected], [email protected] IFES - Instituto Federal do Espı́rito Santo, [email protected] 3 UFRRJ - Universidade Federal Rural do Rio de Janeiro, [email protected] 2 Resumo: A insegurança quanto a solvência das instituições financeiras americanas desencadeou, no ano de 2008, a procura por alternativas alocativas que estivessem menos associadas a riscos gerenciais. Contudo devido a dificuldade de discernimento por partes dos agentes e das instituições financeiras, o horizonte de investimento e a possibilidade de diluição dos riscos inerentes a atividade, seguiram limitados. Mesmo com a injeção direta de recursos pelo Federal Reserve, o risco de insolvência das instituições financeiras manteve-se em patamares elevados, e instaurou-se uma crise de confiança no sistema financeiro. Este trabalho tem por objetivo criar uma nova medida com base no descasamento entre ativos e passivos que indique, a valor presente, o risco de insolvência a que determinada instituição está submetida. Tendo como principal objetivo, fornecer aos analistas de mercado uma ferramenta alternativa, para análise e mensuração do risco de insolvência das instituições financeiras. Palavras–chave: Ativo, descasamento, passivo, probabilidade, risco de insolvência, simulação RiD O risco de insolvência com relação ao descasamento (RiD) é uma função que indica o risco de insolvência de uma instituição a partir da magnitude do fluxo de passivos e das quantidades absolutas e relativas da relação entre ativos e passivos. Seja um espaço de probabilidade onde esta contida as seguintes variáveis: Pt : Ω → R+ é a variável aleatória que assume o valor do passivo para uma certa maturidade, calculado a valor presente no instante de tempo t, e At : Ω → R+ é a variável aleatória que assume o valor do ativo para uma certa maturidade, calculado a valor presente no instante de tempo t. Onde {pt1 , pt2 , ..., ptn } ⊂ R+ e {at1 , at2 , ..., atn } ⊂ R+ são os valores em unidades monetárias que Pt e At pode assumir em n perı́odos com maturidades distintas, respectivamente. Definição 1. O peso atribuı́do a ocorrência de descasamento para um determinado perı́odo k em um instante de tempo t, será dado pela função Wt (k) que assume valor igual a ocorrência da variável aleatória Pt , ou seja, pt Wt (k) = n k t , k = 1,...,n. ∑i=1 pi Definição 2. Seja δt : R+ × R+ → R+ definida como a função indicadora do grau de insolvência relativa à exposição dos ativos e passivos para um determinado perı́odo em um dado instante de tempo t, onde: SPE 2011 Mesa: Conceição Amado 77 Quinta, 29/09/2011 Aplicações I δt (p,a) = Sala Atlântico, 10:30–11:30 1, p ≥ θa exp(p − θ a), p < θ a onde θ ∈ [0,1] é um coeficiente de ajuste de solvência com relação ao risco de crédito a que os ativos estão expostos. Definição 3. O risco de insolvência com base no descasamento entre ativos e passivos de uma instituição financeira para um determinado perı́odo k em um instante de tempo t, definido por RDt é dado pela seguinte expressão: n RDt = ∑ Wt (i) × δt (pti ,ati ). ft (pti ,ati ), k = 1,...,n i=1 onde pti e ati representam os totais de passivos e ativos de cada um dos n perı́odos considerados, respectivamente. Definição 4. O risco marginal de insolvência relativo com base no descasamento entre ativos e passivos de uma instituição financeira para um determinado perı́odo k em um instante de tempo t, que será denotado por Rt , é dado pela variável aleatória, definida em R+ → [0,1] onde sua função de probabilidade é dada por: rt (k|p, a) = e e Wt (k) × δt (ptk ,atk ). ft (ptk ,atk ) n ∑ Wt (i) × δt (pti ,ati ). ft (pti ,ati ) , k = 1,...,n i=1 onde p = (pt1 , pt2 ,...,ptn ) e a = (at1 , at2 ,...,atn ) representam o vetor de passivos e ativos respectivae e mente para todos os n perı́odos considerados. Bibliografia [1] Gonçalves, R.M.L. (2005) Condicionantes do Risco de Liquidez em Cooperativas de Economia e Crédito Mútuo do Estado de Minas Gerais. Disertação de Mestrado. Universidade Federal de Viçosa, Viçosa. [2] Janot, M.M. (1999) Modelos de Previsão de Insolvência Bancária no Brasil: Aplicação de Diferentes Modelos entre 1995 e 1998. Dissertação de Mestrado. Pontifı́cia Universidade Católica do Rio de Janeiro, Rio de Janeiro. [3] Kanitz, S.C. (1976) Indicadores contáveis e financeiros de previsão de insolvência: a experiência da pequena e média empresa brasileira.Tese (Livre Docência) 1976. Faculdade de Economia, Administração e Contabilidade, Universidade de São Paulo, São Paulo. [4] Martins, M.S. (2003) A Previsão de Insolvência pelo Modelo de Cox: Uma Contribuição para a Análise de Companhias Abertas Brasileiras. Dissertação de Mestrado. Universidade Federal do Rio Grande do Sul, Porto Alegre. SPE 2011 Mesa: Conceição Amado 78 Quinta, 29/09/2011 Aplicações I Sala Atlântico, 10:30–11:30 Possibilistic downside risk measures and applications Elena Almaraz Luengo1 , Eduardo Almaraz Luengo2 and Maribel Luengo y Dos Santos3 1 Fac. CC. Matemáticas, Universidad Complutense de Madrid, [email protected] Sta. Ana y San Rafael, [email protected] 3 Ministerio de Educación, [email protected] 2 Abstract: We study classical model of portfolio diversification in fuzzy context. We propose generalizations of this model for particular cases of rates of return and we illustrate them with numerical examples. Markowitz’s mean-variance model has been one of the principal methods of financial theory and assets allocation. This model presents the investor’s problem as a mathematical programming problem. On the other hand, fuzzy theory allows us to represent the investor’s preferences, in particular it can be used in the portfolio selection problem. Many authors have integrated these techniques and have proposed portfolio selection problems in fuzzy environments. Though variance has been a popular risk measure it has some limitations, one of that is that variance considers that deviations above the mean are equally undesirable than deviations below the mean, but in economic context, since low part deviation from the expected value means possible loss of wealth and high part deviation from the expected value means the existence of potential return of the investment, it has shown that semivariance can be better, as a risk measure, than variance. Due to this fact, a new approximation is proposed, introducing the crisp possibilistic semivariance of a fuzzy number and defining the optimization problems for that risk measure. Fundamental concepts about fuzzy numbers and the principal portfolio selection problems will be described. Some mean-semivariance models are particularized in some specific cases and numerical examples will be provided as an illustration. Keywords: Fuzzy number, mean-variance model, portfolio selection, semi-variance Bibliography [1] Almaraz, E. (2010). Fuzzy Mean-Variance portfolio selection problems. Advanced Modelling and Optimization, 12(3), 399–410. [2] Carlsson, C. and Fuller, R.A. (2001). On possibilistic mean value and variance of fuzzy numbers. Fuzzy Sets and Systems, 122, 315–326. [3] Chen, G., Chen, S., Fang, Y. and Wang, S. (2006). A possibilistic Mean VaR Model for Portfolio Selection. Advanced Modeling and Optimiza- tion, 8(1), 99–107. [4] Huang, X. (2007). Portfolio selection with fuzzy returns. Journal of Intelligent and Fuzzy Systems, 18, 383–390. SPE 2011 Mesa: Conceição Amado 79 Quinta, 29/09/2011 Aplicações I Sala Atlântico, 10:30–11:30 [5] Huang, X. (2008). Mean-semivariance models for fuzzy portfolio selection. Journal of Computational and Applied Mathematics, 217, 1–8. SPE 2011 Mesa: Conceição Amado 80 Quinta, 29/09/2011 Sessão Plenária II Sala Premium, 11:35–12:30 On the application of statistical process control in finance Wolfgang Schmid European University Frankfurt (Oder), Germany, [email protected] Abstract: The aim of statistical process control is to detect deviations from a supposed target process as soon as possible after its occurrence. Because the data are analyzed sequentially a change in the parameters of the target process can be detected faster than by using conventional fixed-sample tests. The most important tool of statistical process control are control charts. The first control scheme was proposed by Shewhart (1924). Shewhart control charts have gained widespread applications in engineering. Because they are able to find an error in a production process at an early time point their application allows the reduction of the production costs. The work of Shewhart was the starting point of many new fruitful developments. Because these schemes make exclusively use of the present sample, they are not effective for small and moderate changes. In such cases control schemes with memory like, e.g. the cumulative sum chart of Page (1954) and the exponentially weighted moving average scheme of Roberts (1959) provide better results. Many further schemes have been introduced in literature (cf. Montgomery (2005), Schmid (2007)) for considering among others autocorrelated processes and multivariate extensions. In finance, we encounter many problems of that type. For instance, an analyst is interested to detect quickly changes in the price-process of a stock in order to make no loss. In that context statements about the monitoring of the related risk process are of importance as well. Furthermore, a portfolio manager needs information about the optimal time points of adjusting his portfolio. The application of statistical process control in finance turns out to be much more difficult than in engineering. The target process is unknown and has to be estimated. Frequently, it is a multivariate, sometimes a high-dimensional time series. Moreover, the parameters of interest have a more complex structure. Here it is of importance to monitor, e.g., multivariate quantities like the covariances or cross-covariances of a financial time series, the parameters of a financial process like the CoxIngersoll-Ross process or composite parameters like the optimal portfolio weights. Additionally, a financial process cannot be stopped and thus a problem is how to restart it. In this talk an overview of this topic is given and new approaches are presented. Keywords: Statistical process control, change point detection, control charts, time series analysis, optimal portfolio weights Bibliography [1] Bodnar, O. and Schmid, W. (2007). Surveillance of the mean behavior of multivariate time series. Statistica Neerlandica, 61, 383–406. [2] Frisén, M. (2008). Financial Surveillance. Wiley, New York. SPE 2011 Mesa: Manuel Cabral Morais 81 Quinta, 29/09/2011 Sessão Plenária II Sala Premium, 11:35–12:30 [3] Golosnoy, V. and Schmid, W. (2007). EWMA control charts for monitoring optimal portfolio weights. Sequential Analysis, 26, 195–224. [4] Golosnoy, V., Okhrin, I. and Schmid, W. (2010). New characteristics for portfolio surveillance. Statistics, 44, 303–321. [5] RosoLebowski, M. and Schmid, W. (2006). EWMA charts for monitoring the mean and the autocovariances of stationary processes. Statistical Papers, 47, 595–630. [6] Schipper, S. and Schmid, W. (2001). Sequential methods for detecting changes in the variance of economic time series. Sequential Analysis, 20, 235–262. [7] Schmid, W. (2007). Eighty years of control charts. Sequential Analysis, 26, 117–122. [8] Schmid, W. and Severin, T. (1998). Statistical process control and its application in finance. In: Contributions to Economics: Risk Measurement, Econometrics and Neural Networks, Physica, Heidelberg, 83–104. [9] Schmid, W. and Severin, T. (1999). Monitoring changes in GARCH models. Allgemeines Statistisches Archiv, 83, 281–307. [10] Śliwa, P. and Schmid, W. (2005). Monitoring the cross-covariances of a multivariate time series. Metrika, 61, 89–115. SPE 2011 Mesa: Manuel Cabral Morais 82 Sexta, 30/09/2011 Análise Multivariada II Sala Premium, 09:00–10:00 A influência da orientação para o mercado na performance de exportação: O estudo de efeitos de interacção e quadráticos Catarina Marques e Jorge Lengler Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE-IUL, Lisboa, {catarina.marques,jorge.lengler}@iscte.pt Resumo: No presente estudo examina-se se a orientação para o mercado de empresas brasileiras têm uma relação linear ou quadrática com a performance de exportação. Para além disso, investiga-se se a intensidade do contexto competitivo das empresas modera as relações quadráticas. Os parâmetros do modelo são estimados por PLS Path Modelling (PLS-PM) e é utilizada uma combinação de duas abordagens para a análise dos efeitos não lineares entre variáveis latentes. Palavras–chave: Relações não lineares, efeitos de interacção, relações quadráticas, PLS path modelling, performance de exportação, orientação para o mercado Introdução Com a rápida expansão do comércio internacional, a exportação tornou-se cada vez mais importante para a sobrevivência e crescimento das empresas. No entanto, o processo de internacionalização traz novos desafios às empresas, exigindo melhorias nas suas estratégias e capacidades. Dado que os mercados se tornaram mais competitivos, as empresas precisam criar posturas orientadas ao mercado. Assim, o conceito de orientação para o mercado torna-se um elemento fundamental para apoiar as acções das empresas em contextos estrangeiros quando procuram novas oportunidades e maiores lucros. Nas últimas décadas, vários estudos têm mostrado que a orientação ao mercado é um elemento central na explicação da performance da empresa. No presente estudo analisa-se o papel da orientação para o mercado, mais precisamente de dois dos seus componentes propostos no quadro teórico de Narver e Slater [6], orientação para os consumidores e orientação para a concorrência, como antecedentes na performance de exportação de empresas brasileiras. A forma da relação entre os dois construtos e a performance de exportação tem sido assumida na literatura como linear. No entanto, um estudo recente de Cadogan et al. [1] sugere que esta relação é quadrática, o que pode explicar os resultados inconsistentes e contraditórios encontrados na literatura. Deste modo, é importante avaliar se esta relação é linear ou quadrática. Adicionalmente, investiga-se os efeitos de moderação da intensidade do contexto competitivo sobre as relações quadráticas entre a orientação para o consumidor e concorrência e a performance de exportação. O modelo conceptual proposto é estimado por PLS-PM [7] sobre os dados de uma amostra constituı́da por 197 empresas de exportação brasileiras. O construto performance de exportação é estimado através de um modelo MIMIC, uma vez que é medido simultaneamente por indicadores formativos e reflectivos. Abordagem à análise de efeitos não lineares Várias abordagens à análise de efeitos não lineares entre variáveis latentes têm sido apresentadas na literatura de modelos de equações estruturais [5]. Neste estudo combinam-se duas frequentemente usadas em modelos de estruturas de covariância e adaptadas ao quadro de referência de PLS-PM, as SPE 2011 Mesa: Manuela Souto de Miranda 83 Sexta, 30/09/2011 Análise Multivariada II Sala Premium, 09:00–10:00 abordagens Product Indicator (adaptada por [2]) e Latent variable scores. Os efeitos quadráticos da orientação para o consumdor e da orientação para a concorrência sobre a performance de exportação são obtidos através de um único indicador criado através do quadrado dos escores estandardizados das variáveis latentes, estimados previamente num modelo sem termos quadráticos. Os efeitos de interacção são criados por uma série de termos multiplicativos dos indicadores da variável moderadora, a intensidade competitiva, com os indicadores das variáveis predictoras. Usa-se o processo residual centering [4] para evitar problemas de multicolinearidade, nomeadamente de instabilidade das estimativas dos coeficientes de regressão. Resultados Os resultados revelam que ambas as relações entre os construtos de orientação para o mercado e a performance de exportação são quadráticas. No entanto, enquanto que o coeficiente estimado da relação quadrática entre a orientação para o consumidor e a performance de exportação é positivo, resultando numa curva convexa, a relação orientação para a concorrência - performance de exportação possui um coeficiente negativo, pelo que é descrita por uma curva concava. Contrariamente ao esperado, os resultados indicam que nenhuma das relações quadráticas são moderadas pela intensidade do contexto competitivo das empresas. O valor do R2 de 0,622 comprova o poder explicativo do modelo. Bibliografia [1] Cadogan, J.W., Kuivalainen, O. e Sundqvist, S. (2009). Export market-oriented behavior and export performance: Quadratic and moderating effects under differing degrees of market dynamism and internationalization. Journal of International Marketing, 17(4), 71–89. [2] Chin, W.W., Marcolin, B.L. e Newsted, P.R. (2003). A partial least squares latent variable modeling approach for measuring interaction effects: Results from a Monte Carlo simulation study and an electronic-mail emotion/adoption study. Information Systems Research, 14, 189.217. [3] Little, T.D., Bovaird, J.A. e Widaman, K.F. (2008). On the merits of orthogonalizing powered and product terms: Implications for modeling interactions among latent variables. Structural Equation Modeling, 13(4), 497–519. [4] Marsh, H.W., Wen, Z. e Hau, K.-T. (2004). Structural equation models of latent interactions: evaluation of alternative estimation strategies and indicator construction. Psychological Methods, 9(3), 275-300. [5] Narver, J.C. e Slater, S.F. (1990). The Effect of a market orientation on business profitability. Journal of Marketing, 54(4), 20–35. [6] Wold, H.O. (1974). Causal flows with latent variables: Partings of the ways in the light of NIPALS modeling. European Economic Review, 5(1), 67–86. SPE 2011 Mesa: Manuela Souto de Miranda 84 Sexta, 30/09/2011 Análise Multivariada II Sala Premium, 09:00–10:00 Abordagem multivariada à trilogia solo-vinha-vinho. Caso da casta Vinhão Ana Rita Silva1 , Ana C. Braga2 , Isabel Araújo3 , Teresa Mota4 , José M. Oliveira5 e Jorge Oliveira6 1 Universidade do Minho, [email protected] DPS, Universidade do Minho, [email protected] 3 Vinalia - Soluções de Biotecnologia para a Vitivinicultura, Lda, [email protected] 4 Quinta Campos de Lima, [email protected] 5 IBB, Centre of Biological Engineering, [email protected] 6 Sinergeo - Soluções Aplicadas em Geologia, Hidrogeologia e Ambiente, Lda., [email protected] 2 Resumo: A sustentabilidade dos sistemas de produção agrı́cola é indissociável da sustentabilidade do recurso solo. O conhecimento do solo é essencial para melhorar a rentabilização dos sistemas produtivos e minimizar os processos de degradação deste recurso. A informação detalhada sobre os solos de aptidão vitı́cola deve ser um instrumento de gestão essencial para a rentabilização dos investimentos na produção vitivinı́cola. A ligação da geologia à viticultura surge da aplicação da cartografia geológica e de solos, climatologia, hidrologia e medição de parâmetros pontuais e globais do solo. Pretende-se identificar e estudar múltiplas variáveis que determinam o comportamento fı́sico e quı́mico dos solos, que por sua vez influenciará o crescimento da videira e a qualidade final da uva. Este conhecimento pode ser utilizado para optimizar a produção, de forma a conseguir um produto com caracterı́sticas mais uniformes, em consonância com adequadas tecnologias de vinificação. Este projecto tem com o objectivo global determinar os parâmetros do solo que influenciam o desenvolvimento da vinha, a qualidade das uvas e por conseguinte a qualidade dos vinhos. A parcela em estudo situa-se na Quinta Campos de Lima, em Arcos de Valdevez, e está inserida na região vitivinı́cola Minho, apta à produção do DOC Vinho Verde. A vinha em estudo compreende apenas a casta tinta Vinhão, encontrando-se explorada em Modo de Produção Biológico (MPB), certificada pela EcoCert Portugal. Recorrendo à análise multivariada de dados foi possı́vel reduzir a dimensionalidade do problema no que concerne às variáveis provenientes do solo, da vinha e do vinho e demonstrou-se graficamente, através da construção de biplots, as relações existentes entre variáveis, entre observações e entre variáveis e observações. Procurou-se ainda estabelecer uma relação entre as componentes resultantes desta análise. Palavras–chave: Viticultura, solo, vinha, vinho, estatı́stica multivariada, biplots SPE 2011 Mesa: Manuela Souto de Miranda 85 Sexta, 30/09/2011 Análise Multivariada II Sala Premium, 09:00–10:00 Índices de informação mútua na avaliação de estabilidade de agrupamentos Maria José Amorim1 e Margarida Cardoso2 1 Área Departamental de Matemática, ISEL-Instituto Superior de Engenharia de Lisboa, [email protected] 2 Departamento de Método Quantitativos e UNIDE, ISCTE-Instituto Universitário de Lisboa, [email protected] Resumo: Neste trabalho avalia-se o desempenho de diversos ı́ndices de informação mútua no papel de indicadores da estabilidade de partições. Nesta avaliação são determinadas estimativas dos valores dos ı́ndices sob hipótese de independência restrita. A análise de dados é efectuada sobre quatro bases de dados com estruturas de agrupamento conhecidas, às quais se associam partições alternativas. Palavras–chave: Avaliação de agrupamentos, estabilidade, informação mútua Introdução A estabilidade é reconhecida como uma propriedade desejável de uma solução de agrupamento, e.g. Mirkin (1996). Na avaliação da estabilidade de resultados de agrupamento provenientes de amostras diversas pode recorrer-se à utilização de validação cruzada. Os resultados de validação cruzada de agrupamentos (partições, em particular) sintetizam-se em valores de ı́ndices de concordância entre as partições produzidas sobre amostras diversas, entre os quais se contam os ı́ndices de informação mútua. O principal objectivo do presente estudo é avaliar o desempenho de diversos ı́ndices de informação mútua no papel de indicadores da estabilidade de partições, resultados de agrupamento. Nesta avaliação são determinadas estimativas dos valores dos ı́ndices sob hipótese de independência restrita (Amorim e Cardoso, 2010). Índices de informação mútua Na literatura encontram-se definidos múltiplos ı́ndices de concordância e, em particular, diversos ı́ndices de informação mútua. Todos estes se baseiam no conceito fundamental de informação mútua I(PK ,PQ ) = K Q nkq nkq log( nk. n.q ), k=1 q=1 n n ∑∑ (1) cujos cálculos se referem aos dados na tabela de contingência que associa as duas partições consideradas, ou tabela de classificação cruzada [nkq ] de frequências conjuntas observadas no grupo Ck de partição PK e no grupo Cq e partição PQ com marginais nk. e n.q (k = 1, . . . ,K, q = 1, . . . ,Q). O valor máximo de I é dado pelo mı́nimo entre as entropias- H- de cada partição, pelo que uma normalização natural de I advém da divisão por esse mesmo mı́nimo. Uma medida alternativa de informação mútua normalizada é proposta por (Strehl e Gohosh, 2002), que adoptam uma normalização que SPE 2011 Mesa: Manuela Souto de Miranda 87 Sexta, 30/09/2011 Análise Multivariada II Sala Premium, 09:00–10:00 resulta da divisão de I pela média geométrica das entropias. Na proposta de (Fred e Jain, 2003) a normalização é efectuada considerando a média simples das entropias. Um ı́ndice alternativo, proposto por (Meila, 2005) - Variação de Informação - pode ser equacionado como a soma das entropias condicionadas de cada uma das partições pela outra. A divisão deste ı́ndice por log(n) fá-lo variar, convenientemente, no intervalo [0,1]. Uma vez que este ı́ndice varia no sentido inverso da força de associação pode considerar-se 1 −V I/log(n) como um indicador da concordância entre partições. Análise experimental Para comparar o desempenho dos diversos ı́ndices de informação mútua na avaliação da estabilidade de agrupamentos consideram-se quatro bases de dados simulados. Geram-se então quatro misturas de Normais diferenciadas pelos nı́veis de sobreposição dos grupos que as originam (com recurso ao package MixSim do R, Maitra e Melnykov, 2010). Para cada base de dados são efectuadas análises de agrupamento alternativas, utilizando implementações dos algoritmos K-Médias e EM-Expectation Maximation (e.g. Everitt et al., 2001). Para avaliar a estabilidade das partições resultantes, recorre-se ao procedimento de validação cruzada proposto em (Cardoso et al., 2009). Em complemento, determina-se a concordância entre as soluções e a estrutura real dos dados. Os resultados obtidos são discutidos nas perspectivas descritiva simples e considerando as estimativas obtidas sob hipótese de concordância por acaso. Nas conclusões resumem-se as vantagens-desvantagens dos ı́ndices que apresentam um comportamento muito diverso no contexto estudado. Bibliografia [1] Amorim, M.J.P.C. e Cardoso, M.G.M.S. (2010). Limites de concordância entre duas partições. Livro de resumos, XVIII Congresso Anual da Sociedade Portuguesa de Estatı́stica, 1,47-48. [2] Cardoso, M.G.M.S., Carvalho, A.P.L., e Faceli, K. (2009). Evaluation of clustering results: the trade-off bias-variability. In Classification as a Tool for Research. Proceedings of the 11th IFCS Biennial Conference. Dresden, March 13-18, 2009 Studies in Classification, Data Analysis, and Knowledge Organization Springer, Berlin-Heidelberg-New York, 201-208. [3] Everit, B., Landau, S. e Morven, L. (2001). Cluster Analysis. 4th Ed. Arnold. [4] Fred, A. e Jain, A.K. (2003). Robust data clustering. In Proceedings of the IEEE Computer Society Conference on Computer Vision Pattern Recognition, 2003. CVPR . [5] Maitra, R. e Melnykov, V. (2010). Simulating Data to Study Performance of Finite Mixture Modeling and Clustering Algorithms. Journal of Computational and Graphical Statistics, 2, 354-376. [6] Meilã, M.(2007). Comparing Clusterings - an information based distance. Journal of Multivariate Analysis, 98,873-895. [7] Mirkin, B. (1996). Mathematical Classification and Clustering. Dordrecht/Boston/London, Kluwer Academic Plublishers. [8] Strehl, A. e Gohosh, J. (2002). Cluster ensembles - a knowledge reuse framework for combining partitions. Journal of Machine Learning Research,3,583-617. SPE 2011 Mesa: Manuela Souto de Miranda 88 Sexta, 30/09/2011 Biostatı́stica II Sala Dinastia, 09:00–10:00 Metodologia de captura-recaptura na vigilância epidemiológica da doença dos legionários Joana Gomes Dias1 , Carlos Carvalho1 , Ana Filipa Ribeiro2 , Denisa Mendonça 3 e Susana Faria 4 1 Departamento de Saúde Pública - ARSNorte, IP, {jdias,ccarvalho}@arsnorte.min-saude.pt Universidade do Minho, [email protected] 3 Instituto de Ciências Biomédicas Abel Salazar e Instituto de Saúde Pública da Universidade do Porto, [email protected] 4 Universidade do Minho, [email protected] 2 Resumo: A doença dos legionários é uma pneumonia atı́pica grave, causada por bactérias do género Legionella. Como todos os sistemas de informação, o sistema do Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários tem problemas de subnotificação. O objectivo do estudo foi avaliar a exaustividade do sistema, usando métodos de captura-recaptura. A estimativa do número de casos não detectados foi de 167. Assim, o número estimado de casos de doença na região foi de 614. Palavras–chave: Captura-recaptura, modelos log-lineares, doença dos legionários, tabelas de contingência Introdução A doença dos legionários (DL) é uma pneumonia atı́pica grave, causada por bactérias do género Legionella [1]. A infecção transmite-se por via aérea (respiratória), através da inalação de gotı́culas de água (aerossóis) ou mais raramente por aspiração de água contaminada com a bactéria [1]. A DL foi descrita pela primeira vez em 1976, após um surto de pneumonia que ocorreu numa convenção da Legião Americana, num hotel de Philadelphia [1]. Desde então a doença foi identificada em todo o Mundo, em Portugal a DL foi descrita pela primeira vez em 1979 (publicação em boletim da OMS). Na região Norte de Portugal (RN) o primeiro surto de doença foi registado em Agosto de 2000. Em 2004 foi criado o Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários (PVEIDL), através da Circular Normativa N.o 05/DEP de 22/02/2004 da Direcção-Geral da Saúde, que prevê a notificação clı́nica dos casos às autoridades de saúde (DDO) e a notificação laboratorial (LAB) ao Instituto Nacional de Saúde Dr. Ricardo Jorge. Como todos os sistemas de informação, este sistema tem problemas de subnotificação, apesar de esta não estar quantificada. Como em qualquer sistema de informação dependente de notificação, a exaustividade dos registos não é completa. A subnotificação impede o conhecimento exacto da incidência da doença e a implementação em tempo útil das medidas de interrupção da cadeia de transmissão das doenças. O objectivo do estudo foi avaliar a exaustividade do Programa de Vigilância Epidemiológica Integrada da Doença dos Legionários, usando uma terceira fonte de informação - Grupos de Diagnóstico Homogéneo (GDH). SPE 2011 Mesa: Isabel Pereira 89 Sexta, 30/09/2011 Biostatı́stica II Sala Dinastia, 09:00–10:00 Material e métodos O número anual de casos de DL na região de Saúde do Norte no perı́odo entre 2004 e 2009 foi obtido a partir das seguintes fontes de informação: DDO, LAB e GDH. Para avaliar o grau de subnotificação de casos de DL na RN, no perı́odo de 2004 a 2009, utilizaram-se métodos de captura-recaptura [2, 3]. Esta metodologia tem sido cada vez mais usada por epidemiologistas para analisar se os sistemas de informação são exaustivos e completos, tendo por base a teoria de análise de tabelas de contingência incompletas e, na prática, implicando o uso de modelos log-lineares [2, 3]. Depois de ajustados modelos log-lineares, estimou-se o número de casos de DL que ocorreram no perı́odo em estudo, com os respectivos intervalos de confiança. Os softwares estatı́sticos utilizados para o tratamento de dados foram o SPSS 18 para o Windows e o Epidat 3.1. Resultados Durante o perı́odo em estudo registaram-se 447 casos de DL, dos quais 168 foram detectados pelo sistema DDO, 127 pelo sistema LAB e 374 pelo sistema GDH. De salientar que 200 casos de internamento por DL não foram detectados pelo Sistema de Vigilância Integrado da Doença dos Legionários. Após o ajuste por modelos log-lineares, o modelo escolhido para estimar o número de casos de DL que não foi detectado por nenhuma fonte foi o que apresenta a independência entre o sistema LAB e o sistema GDH. A estimativa do número de casos não detectados foi de 167. Assim, o número estimado de casos de DL foi de 614 (IC a 95%: (533,696)). O PVEIDL apresentou uma exaustividade de 60,8%. Conclusões O problema da subnotificação na DL dificulta o conhecimento da sua incidência na população. A metodologia de captura-recaptura recorrendo aos modelos log-lineares, utilizando uma terceira fonte de dados independente, poderá ser uma importante ferramenta não só para estimar o número real de casos de doença mas também para monitorizar a performance do PVEIDL. Bibliografia [1] Brookmeyer R. e Stroup D. (2004). Monitoring the Health of Populations: Statistical Principles and Methods for Public Health, USA, Oxford University Press. [2] Chin J. (2000). Control of Communicable Diseases Manual, 17th ed. Washington: American Public Health Association. [3] International Working Group for Disease Monitoring and Forecasting. (1995). CaptureRecapture and Multiple-Record Systems Estimation I: History and Theoretical Development. American Journal of Epidemiology, 142 (10), 1047–1058 SPE 2011 Mesa: Isabel Pereira 90 Sexta, 30/09/2011 Biostatı́stica II Sala Dinastia, 09:00–10:00 Spatially explicit capture-recapture minke whale density estimation Tiago A. Marques1 , Steve W. Martin2 , Ronald P. Morrissey3 , Susan Jarvis3 , Nancy DiMarzio3 , David Moretti3 and David K. Mellinger4 1 Centre for Research into Ecological and Environmental Modeling, University of St Andrews, Scotland; Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] 2 Space and Naval Warfare Systems Center Pacific, U.S.A., 3 Naval Undersea Warfare Center, U.S.A., 4 Cooperative Institute for Marine Resources Studies, Oregon State University, U.S.A., Abstract: Density estimation for marine mammal species is performed primarily using visual distance sampling or capture-recapture. Recent advances in spatially explicit capture-recapture has led data from multiple hydrophones over which sounds can be associated into capture histories to be naturally suited to be used for density estimation. Here we review the use of spatially explicit capture-recapture methods and present an application of these methods to the estimation of minke whale density in Hawaiian waters. Keywords: Cue count, passive acoustic density estimation, passive acoustic monitoring, boing vocalization, spatially explicit capture-recapture Introduction Estimating animal density is one of the fundamental steps for adequate conservation and management measures to be implemented. Therefore, reliable methods to estimate density are fundamental to reach those goals. In recent years, spatially explicit capture-recapture has been developed and implemented in both Bayesian (e.g. [5]) and likelihood frameworks (e.g. [1]). Minke whales (Balaenoptera acutorostrata) are one of the smallest and most abundant baleen whales, and as with many other cetacean species, existing density and abundance estimates are largely based on visual line transect surveys. However, in some areas, the animals appear to be extremely cryptic to visual observation, making such methods inexact or infeasible. A set of bottom mounted hydrophones at the US Navy Pacific Missile Range Facility (PMRF) north of Kauai, Hawaii, has been detecting “boing”sounds which can be associted with minke whales. In this work we illustrate how these sounds, associated into capture histories across the hydrophones, can be used to estimate minke whale “boing”density using spatially explicit capture-recapture. We used the freely available R package secr [2] to implement the methods in a likelihood framework. Estimated boing density was 130 boings per hour per 10,000 km2 (95% CI 104-163). Converting “boing”density into minke whale density comes at the expense of considering a cue production rate. Little is known about the population’s acoustic behavior, so conversion from boing to animal SPE 2011 Mesa: Isabel Pereira 91 Sexta, 30/09/2011 Biostatı́stica II Sala Dinastia, 09:00–10:00 density is difficult. As a demonstration of the method, we used a tentative boing rate of 6.04 boings per hour, from a single animal tracked in 2009, to give an estimate of 21.5 boing-calling minke whales per 10,000 km2 . A preliminary analysis of similar data in both a Bayesian and likelihood frameworks has been presented at the 2009 SPE conference, and was later published in Marques et al. ([3]). The current research has been submitted as an original paper to Marine Mammal Science, and is currently under review [4]. Acknowledgements: SWM acknowledges the support of personnel at the Pacific Missile Range Facility, notably Jim Hager, Mike Dick, Eliseo Bolosan and Robin Higuchi, in collection of acoustic data over several years. This work is an output of the NOPP-sponsored project Density Estimation of Cetaceans from passive Acoustic Fixed sensors (DECAF), funded jointly by the Joint Industry Program of the International Association of Oil and Gas Producers and the US National Marine Fisheries Service. We thank other DECAF members for input, particularly David Borchers who provided insightful comments regarding the SECR analysis. The minke whale data used are freely available on the Ocean Biogeographic Information System (OBIS-SEAMAP) web site. Bibliography [1] Borchers, D.L. e Efford, M. (2008). Spatially explicit maximum likelihood methods for capture-recapture studies. Biometrics, 64, 377–385. [2] Efford, M. (2008). secr - Spatially Explicit Capture-Recapture in R, version 1.2.10. Department of Zoology, University of Otago, Dunedin, New Zealand [3] Marques, T.A., Thomas, L., Martin, S.W., Mellinger, D.K., Jarvis, S., Morrissey, R.P., Ciminello, C.-A. e DiMarzio, N. (2011). Spatially explicit capture recapture methods to estimate minke whale abundance from data collected at bottom mounted hydrophones. Journal of Ornithology. DOI:10.1007/s10336-010-0535-7. [4] Martin, S.W., Marques, T.A., Thomas, L., Morrissey, R.P., Jarvis, S., DiMarzio, N., Moretti, D. e Mellinger, D.K. (submitted). Estimating minke whale (Balaenoptera acutorostrata) boing sound density using passive acoustic sensors. Marine Mammal Science. [5] Royle, J.A. e Young, K.V. (2008). A hierarchical model for spatial capture-recapture data Ecology, 89, 2281–2289. SPE 2011 Mesa: Isabel Pereira 92 Sexta, 30/09/2011 Biostatı́stica II Sala Dinastia, 09:00–10:00 O comprimento descritivo mı́nimo na amostragem por transectos pontuais Fernando Ceia1 e Russell Alpizar-Jara2 1 2 Escola EB23 José Régio, CIMA, Universidade de Évora, [email protected] Departamento de Matemática, CIMA, Universidade de Évora, [email protected] Resumo: Os métodos de amostragem por distâncias, têm vindo a ser amplamente utilizados na estimação da densidade de uma população de animais ou objectos numa determinada área de estudo. Destes, destacam-se os transectos pontuais, nos quais o observador fixa-se num ponto à procura dos indivı́duos da população em estudo. De forma a estimar a densidade de objectos é necessário ajustar uma função densidade de probabilidade f (r|θ ), onde r representa o raio do cı́rculo onde o objecto foi detectado e θ um vector de parâmetros. Em [1] é apresentada uma abordagem semi-paramétrica, onde o objectivo principal é a obtenção dos estimadores de máxima verosimilhança de θ recorrendo a uma função de detectabilidade ajustada por termos de uma expansão em série. Neste trabalho, propõe-se uma abordagem não paramétrica para o cálculo da densidade populacional em transectos pontuais, baseada numa aplicação desenvolvida por [2] para transectos lineares. Esta recorre ao princı́pio do Comprimento Descritivo Minimo proposto por [5], e a sua aplicação na estimação de uma função densidade por um histograma [4], tendo-se efectuado uma transformação dos dados iniciais proposta em [3]. Para ilustrar a metodologia, analisam-se os dados resultantes de uma simulação relativa a transectos pontuais do programa DISTANCE [6], e comparam-se as duas abordagens de estimação. Apesar dos resultados preliminares mostrarem uma ligeira vantagem para a metodologia semi-paramétrica, a performance dos estimadores obtidos com ambas abordagens estão bastante próximos dos valores reais. Palavras–chave: Amostragem por distâncias, transectos pontuais, comprimento descritivo mı́nimo, simulação por métodos de Monte Carlo Bibliografia [1] Buckland, S.T., Anderson, D.R., Burnham, K.P., Laake, J.L., Borchers, D.L. e Thomas, L. (2001). Introduction to Distance Sampling. Oxford University Press, Oxford. [2] Burnham, K.P., Anderson, D.R., e Laake, J.L. (1980). Estimation of Density from Line Transect Sampling of Biological Populations. Wildlife Monographs 72, 3-202. [3] Ceia, F.J.M.F. (2009). O Comprimento Descritivo Mı́nimo na Amostragem por Transectos Lineares. Dissertação de Mestrado. Universidade de Évora. [4] Kontkanen, P. e Myllymäki, P. (2006). Information-Theoretically Optimal Histogram Density Estimation. Helsinki Institute for Information Techonology. [5] Rissanen, J. (1978). Modeling by shortest data description. Automatica 14, 465-471. SPE 2011 Mesa: Isabel Pereira 93 Sexta, 30/09/2011 Biostatı́stica II Sala Dinastia, 09:00–10:00 [6] Thomas, L., Buckland, S.T., Rexstad, E.A., Laake, J.L., Strindberg, S., Hedley, S.L., Bishop, J.R.B., Marques, T.A. e Burnham, K.P. (2010). Distance software: design and analysis of distance sampling surveys for estimating population size. Journal of Applied Ecology 47: 514. DOI: 10.1111/j.1365-2664.2009.01737. SPE 2011 Mesa: Isabel Pereira 94 Sexta, 30/09/2011 Processos Estocásticos II Sala Caminho Real, 09:00–10:00 Estimação estatı́stica dos parâmetros do processo de OrnsteinUhlenbeck bidimensional Ana Prior1 e Paula Milheiro de Oliveira2 1 2 Instituto Superior de Engenharia de Lisboa, [email protected] Faculdade de Engenharia da Universidade do Porto, [email protected] Resumo: O processo de Ornstein-Uhlenbeck tem sido utilizado na prática para modelar diversos fenómenos fı́sicos, revestindo-se assim de particular importância a estimação estatı́stica dos seus parâmetros. Trata-se de um processo estocástico que satisfaz a equação diferencial estocástica 1 dXt = AXt dt + B 2 dWt , (1) 1 onde {Wt ,t ≥ 0} é um processo de Wiener bidimensional e A e B 2 são matrizes quadradas de ordem 2. Este trabalho tem por objectivo o estudo do problema da estimação estatı́stica dos parâmetros A, 1 1 matriz de deriva, e B = B 2 B 2 T , matriz de difusão, do modelo (1) em tempo contı́nuo. Em tempo contı́nuo, recorrendo à Formula de Itô, a estimação da matriz de difusão B não oferece dificuldade. Assim, apenas a estimação da matriz de deriva A constitui um problema que tem merecido a atenção dos investigadores. Na utilização do método de máxima verosimilhança assume particular importância a derivada de Radon-Nikodym da medida gerada pelo processo com respeito à medida de Wiener. Uma revisão bibliográfica dos resultados obtidos no problema da estimação da matriz A e em especial das condições impostas para a obtenção do estimador de máxima verosimilhança e a verificação das suas propriedades mostra que o caso particular em que se tem A= 0 − mk 1 − mc 1 e B2 = 0 0 0 σ , (2) não fica coberta pela grande parte dos resultados teóricos conhecidos, não sendo sequer conhecido o estimador de máxima verosimilhança de A e muito menos sendo garantidas suas propriedades. No entanto a equação (1) nestas condições serve de modelo para o movimento vibratório de estruturas sujeitas a acções aleatórias e daı́ o seu interesse prático. Consideramos portanto o problema de estimar k e c no modelo (1)-(2), com X0 = 0, sendo os processos Wti , com i = 1,2 processos de Wiener independentes num espaço de probabilidade (Ω,̥,P). Admite-se que o processo (Xt )t>0 é observado no intervalo [0,T ] , sem perda de generalidade. A principal dificuldade deste problema reside no facto de a matriz de difusão B ser uma matriz singular, uma vez que os resultados anteriormente referidos requerem que a matriz B seja não singular. Propomos um estimador para o modelo (1)-(2) e analisamos a sua consistência, centricidade e distribuição assimptótica. Palavras–chave: Processo Ornstein-Uhlenbeck, modelo linear, estimador máxima verosimilhança, derivada de Radon-Nikodym SPE 2011 Mesa: Cláudia Nunes 95 Sexta, 30/09/2011 Processos Estocásticos II Sala Caminho Real, 09:00–10:00 Bibliografia [1] Arato, M. (1982). Linear stochastic systems with constant coefficients. A statistical approach. Lectures Notes in Control and Information Sciences, 45. Springer-Verlag, Berlin. [2] Basak, G. e Lee, P. (2008). Asymptotic properties of an estimator of the drift coefficients of multidimensional Ornstein-Uhlenbeck processes that are not necessarily stable. Electronic Journal of Statistics, Vol.2, 1309-1344. [3] Khasminskii, R.Z., Krylov, N. e Moshchuk, N. (1999). On the estimation of parameters for linear stochastic differential equations. Probability Theory Related Fields, 113, 443-472. [4] Prakasa Rao, B.L.S. (1999). Statistical inference for diffusion type process. Kendall´s Library of Statistics, 8. Edward Arnold, London. Oxford University Press, New York. [5] Rao, B. e Basawa, I.(1980). Statistical Inference for Stochastic Processes. London, Academic Press. SPE 2011 Mesa: Cláudia Nunes 96 Sexta, 30/09/2011 Processos Estocásticos II Sala Caminho Real, 09:00–10:00 O modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados: aplicação à evolução temporal das taxas de mortalidade masculina e feminina da população portuguesa Sandra Lagarto e Carlos A. Braumann CIMA, Universidade de Évora, {sdlagarto, braumann}@gmail.com Resumo: Na análise transversal de dados demográficos, há que ter em conta as flutuações aleatórias das condições “ambientais” (em sentido lato), pelo que utilizamos equações diferenciais estocásticas (EDE). Fixada a idade de interesse, aplica-se o modelo de Gompertz bidimensional estocástico com processos de Wiener correlacionados às Taxas Brutas de Mortalidade (TBM) da população masculina e feminina portuguesa (séries anuais entre 1940 e 2009). Compara-se o modelo completo, com correlação entre os processos de Wiener unidimensionais relativos a cada sexo, e o modelo sem correlação entre esses processos. Palavras–chave: Modelo de Gompertz bidimensional estocástico, processos de Wiener correlacionados, taxas de mortalidade Introdução As séries temporais das TBM da população portuguesa caracterizam-se por uma forte tendência decrescente, comum a todas as idades, e que se verifica em ambos os sexos. Há, no entanto, factores ambientais que variam aleatoriamente ao longo do tempo. Para tal, usamos como modelo de evolução temporal das TBM de uma dada idade e sexo, um modelo de Gompertz estocástico. Contudo, os factores ambientais podem afectar os indivı́duos dos dois sexos de forma semelhante (por exemplo, quando a taxa de mortalidade, de uma idade, cresce de um ano para o outro, nos indivı́duos do sexo feminino, há uma forte tendência para as dos indivı́duos do sexo masculino terem idêntico comportamento). Esta correlação, entre os efeitos dos factores ambientais nas taxas de mortalidade dos dois sexos, implica que os processos de Wiener associados às EDE que as modelam devem estar correlacionados. Aplicação do modelo de Gompertz estocástico com processos de Wiener correlacionados Consideremos uma determinada idade e sejam Xi (t) as TBM dessa idade no ano t, respectivamente i = 1 para o sexo feminino e i = 2 para o sexo masculino. Seja Yi (t) = ln Xi (t). O modelo de Gompertz estocástico com correlação pode escrever-se na forma do sistema de EDE autónomas dY1 (t) = b1 (A1 −Y1 (t))dt+σ1 dW1∗ (t), dY2 (t) = b2 (A2 −Y2 (t))dt+σ2 dW2∗ (t), SPE 2011 Mesa: Cláudia Nunes 97 Sexta, 30/09/2011 Processos Estocásticos II Sala Caminho Real, 09:00–10:00 com Yi (t0 ) = yi,t0 suposto conhecido e os parâmetros Ai (taxas médias de mortalidade assintóticas, em escala logarı́tmica), bi (velocidades de aproximação ao regime assintótico) e σi (intensidades das flutuações ambientais) todos positivos. Supomos que W1∗ (t) e W2∗ (t) são processos de Wiener padrão correlacionados com coeficiente de correlação ρ (outro parâmetro do modelo). Podemos escrevê-los à custa de dois processos de Wiener padrão independentes W1 (t) e W2 (t): W1∗ (t) = α W1 (t) + β W2 (t) e W2∗ (t) = β W1 (t) + α W2 (t), com α = ((1 + (1 − ρ 2 )1/2 )/2)1/2 e β = sinal(ρ )((1 − (1 − ρ 2 )1/2 )/2)1/2 = sinal(ρ )(1 − α 2 )1/2 . As soluções no instante t são dadas por R Y1 (t) = A1 + (y1,t0 − A1 )exp{−b1 (t − t0 )} + σ1 exp{−b1t} tt0 exp{b1 s} dW1∗ (s), R Y2 (t) = A2 + (y2,t0 − A2 )exp{−b2 (t − t0 )} + σ2 exp{−b2t} tt0 exp{b2 s} dW2∗ (s), com distribuições marginais gaussianas com as médias e variâncias indicadas: Y1 (t) ⌢ N (A1 + (y1,t0 − A1 )exp{−b1 (t − t0 )},σ12 (1 − exp{−2b1 (t − t0 )})/2b1 ), Y2 (t) ⌢ N (A2 + (y2,t0 − A2 )exp{−b2 (t − t0 )},σ22 (1 − exp{−2b2 (t − t0 )})/2b2 ). A distribuição conjunta é normal bivariada com coeficiente de correlação 1 +b2 )(t−t0 )}) ρ (1−exp{−2b(1−exp{−(b (t−t )})1/2 (1−exp{−2b (t−t 1 0 2 0 )}) 1/2 2(b1 b2 )1/2 b1 +b2 . Podemos ainda obter Yi (t −1) condicionado a yi,t−1 (i = 1,2) no instante t −1 (a chamada distribuição de transição) fazendo nas expressões anteriores t0 = t − 1. Devido à propriedade de Markov das soluções, a verosimilhança das observações é dada pelo produto das densidades de transição. O modelo sem correlação é idêntico ao anterior pondo ρ = 0. Os parâmetros são estimados pelo método de máxima verosimilhança. Um teste de razão de verosimilhanças pode ser usado para comparar o modelo com correlação com o modelo sem correlação. Na comparação de modelos, serão usadas medidas de performance, técnicas de validação cruzada e estudo da capacidade preditiva (veja-se metodologia em [1, 2] e referências aı́ contidas). Os resultados preliminares, em várias idades, sugerem quer menores erros de ajustamento, quer previsões mais realı́sticas nos modelos em que foi considerada a correlação entre os sexos, com um favorecimento deste efeito nos indivı́duos do sexo feminino relativamente aos do sexo masculino. Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações (CIMA), unidade financiada pela FCT. Bibliografia [1] Filipe, P.A., Braumann, C.A., Brites, N.M. e Roquete, C.J. (2010). Modelling animal growth in random environments: An application using nonparametric estimation. Biometrical Journal 52, DOI 10.1002/bimj.200900273. [2] Filipe, P.A., Braumann, C.A. e Roquete, C.J. (2010). Multiphasic Individual Growth Models in Random Environments. Methodology and Computing in Applied Probability, DOI 10.1007/s11009-010-9172-0. SPE 2011 Mesa: Cláudia Nunes 98 Sexta, 30/09/2011 Processos Estocásticos II Sala Caminho Real, 09:00–10:00 Tempos de extinção para um modelo de crescimento populacional aproximadamente logı́stico Clara Carlos1,2 e Carlos A. Braumann2 1 Escola Superior de Tecnologia do Barreiro, Instituto Politécnico de Setúbal, [email protected] 2 Centro de Investigação em Matemática e Aplicações, Universidade de Évora, [email protected] Resumo: Por vezes ao estudar o crescimento populacional considera-se o modelo logı́stico como uma aproximação ao modelo real que se desconhece. No caso de populações crescendo em ambiente aleatório estudamos o efeito dessa aproximação nos tempos de extinção da população. Palavras–chave: Crescimento populacional, ambiente aleatório, tempos de extinção Consideramos o modelo determinı́stico de crescimento populacional, com a taxa de crescimento per capita com a forma 1 dX = f (X), X(0) = x, (1) X dt onde X = X(t) representa o tamanho da população no instante t ≥ 0, f é uma função real definida para X > 0 e suponhamos conhecida a população inicial X(0) = x > 0. Um dos modelos usados na literatura é o modelo logı́stico ou de Pearl-Verhulst, onde a taxa decrescimento per capita decresce linearmente com o tamanho da população, isto é, f (X) = r 1 − KX , com r > 0 a taxa intrı́nseca de crescimento e K > 0 a capacidade de sustento do meio. No entanto, a verdadeira taxa de crescimento per capita pode afastar-se ligeiramente do modelo logı́stico e nada nos garante que o modelo utilizado retrate o comportamento da população. Vejamos o que sucede se o modelo correcto se desviar do logı́stico, para o que consideramos f (X) = r 1 − KX + α (X), onde α , função de classe C1 com |α (X)| < δ , é uma espécie de erro relativo. r Suponhamos que o ambiente está sujeito a perturbações aleatórias e que os efeitos dessas perturbações sobre a taxa de crescimento per capita da população é um ruı́do que pode ser aproximado por um ruı́do branco padrão σ ε (t), onde σ > 0 é a intensidade do ruı́do e ε (t) é um ruı́do branco padrão. Nesse caso, o modelo passa a ser uma equação diferencial estocástica usualmente escrita na forma 1 dX = f (X) + σ ε (t), X dt (2) dX = f (X)Xdt + σ XdW (t), (3) onde W (t) é um processo de Wiener padrão. O modelo (2) tem solução única até um instante de explosão e é um processo de difusão com coeficiente de tendência σ2 X a(X) = X r 1 − + α (X) + (4) K 2 e coeficiente de difusão SPE 2011 b2 (X) = σ 2 X 2 , (5) Mesa: Cláudia Nunes 99 Sexta, 30/09/2011 Processos Estocásticos II Sala Caminho Real, 09:00–10:00 usando o cálculo de Stratonovich. As fronteiras são X = 0 e X = +∞ e o espaço de estados é (0, + ∞). Ambas as fronteiras são não-atractivas, o que implica que não existe extinção matemática e não existem explosões, garantindo a existência e unicidade de (2) para todo o t > 0. Existe densidade estacionária da forma p(y) = Dy R 2r −1 σ2 Zy α (θ ) 2 2r dθ , exp − 2 y exp σ K σ2 n θ (6) com D constante tal que 0+∞ p(y)dy = 1. O processo é ergódico e a distribuição de X(t) converge para a distribuição estacionária. O facto de não existir ”extinção matemática” (X(t) tornar-se nulo ou X(t) → 0 quando t → +∞) para este modelo não significa que a população não esteja extinta no sentido biológico. Assim, para estudar a extinção é preferı́vel usar o conceito de ”extinção realista”, em que se considera que a população está extinta quando atinja um limiar positivo (a > 0) adequadamente escolhido. Supondo que a população inicial é superior a essse limiar, apresentamos, para este modelo, expressões para a média e a variância dos tempos de primeira passagem pelo limiar a (tempo de extinção), Z +∞ Zθ Z 2r 2r 2 2 x − 2r2 −1 2r α (η ) 2 −1 σ σ exp exp E[Ta |X(0) = x] = 2 ξ ξ θ dη − 2 θ dθ dξ σ a σ 2K σ2 ξ η σ K ξ (7) e Z +∞ Z 8 x − 2r2 −1 2r 2r − 2r2 −1 σ σ ζ ζ ξ ξ Var[Ta |X(0) = x] = exp exp σ4 a σ 2K σ 2K ζ Z Z +∞ 2r 2 θ α (η ) 2r θ σ 2 −1 exp − 2 θ + 2 dη dθ σ K σ ζ η ξ Z Z +∞ 2r 2 θ α (η ) 2r 2 −1 σ θ dη dθ dξ dζ , (8) exp − 2 θ + 2 σ K σ ξ η ξ respectivamente. Estudamos o efeito sobre a média e o desvio padrão do tempo de extinção dos pequenos desvios do modelo em relação ao modelo logı́stico, já apresentado em trabalhos anteriores ([3, 4]). Finalmente ilustramos os resultados obtidos com alguns exemplos numéricos do comportamento da média e do desvio padrão do tempo de extinção. Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações (CIMA) da Universidade de Évora, financiado pela Fundação para a Ciência e a Tecnologia (FCT). Bibliografia [1] Carlos, C. e Braumann, C.A. (2005). Tempos de extinção para populações em ambiente aleatório. Em Estatı́stica Jubilar, Braumann, C.A., Infante, P., Oliveira, M., Alpı́zar-Jara, R. e Rosado, F. (Eds.), 133–142, Edições SPE. [2] Carlos, C. e Braumann, C.A. (2006). Tempos de extinção para populações em ambiente aleatório e cálculos de Itô e Stratonovich. Em Ciência Estatı́stica, L. Canto e Castro, E. G. Martins, C. Rocha, M. F. Oliveira, M. M. Leal e F. Rosado (Eds.), 229–238, Edições SPE. SPE 2011 Mesa: Cláudia Nunes 100 Sexta, 30/09/2011 Extremos I Sala Atlântico, 09:00–10:00 Comparação assintótica de estimadores de um parâmetro de forma de segunda-ordem em caudas pesadas M. Ivette Gomes DEIO and CEAUL, Universidade de Lisboa, [email protected] Resumo: Em contexto de terceira-ordem, procedemos à comparação assintótica de dois estimadores alternativos do parâmetro de forma mais usual em contexto de cauda-direita pesada. Palavras–chave: paramétrica Teoria de valores extremos, propriedades assintóticas, estimação semi- Introdução e objectivos Num contexto de caudas direitas pesadas, procederemos a uma comparação assintótica de dois estimadores de um parâmetro de segunda-ordem ρ , o estimador implı́cito em [2] e uma das classes de estimadores em [3]. Na área de Estatı́stica de Extremos, um modelo F diz-se de cauda direita pesada sempre que F := 1 − F é uma função de variação regular (no infinito) com um ı́ndice de variação regular negativo e igual a −1/γ , γ > 0, or equivalentemente, a função quantil recı́proca U(t) := F ← (1 − 1/t), t ≥ 1, com F ← (x) := inf{y : F(y) ≥ x}, é de variação regular com ı́ndice γ , i.e., para qualquer x > 0, limt→∞ F(tx)/F(t) = x−1/γ ou equivalentemente limt→∞ U(tx)/U(t) = xγ . O parâmetro de segunda-ordem ρ (≤ 0) rege a velocidade de convergência na condição de primeiraordem atrás referida, e é o parâmetro não-positivo que aparece na relação limite, lim lnU(tx) − lnU(t) − γ ln x /A(t) = xρ − 1 /ρ , (1) t→∞ x > 0, e onde |A| é então de variação regular com ı́ndice ρ . Este parâmetro de segunda-ordem ρ , que admitimos ser negativo, é o parâmetro de interesse neste artigo. De forma a obter informação completa sobre o comportamento assintótico dos estimadores de ρ , é necessário admitir uma condição de terceira-ordem, que rege a velocidade de convergência em (1), garantindo-se que para todo o x > 0, ′ lim lnU(tx) − lnU(t) − γ ln x /A(t) − xρ − 1 /ρ /B(t) = xρ +ρ − 1 /(ρ + ρ ′ ), (2) t→∞ onde |B(t)| tem de ser de variação regular com ı́ndice ρ ′ . Aparece então este parâmetro de terceiraordem ρ ′ ≤ 0. Neste artigo consideramos uma classe de modelos de tipo Pareto, com função de cauda F(x) = 1 − F(x) = Cx−1/γ 1 + D1 xρ /γ + D2 x2ρ /γ + o x2ρ /γ quando x → ∞, com C > 0, D1 , D2 6= 0, ρ < 0. Note-se que admitir este tipo de cauda direita é equivalente a dizer que se verifica (2) com ρ = ρ ′ < 0 e que podemos escolher A(t) = α t ρ =: γ β t ρ , B(t) = β ′ t ρ = β ′ A(t) ξ A(t) β′ =: , β , β ′ 6= 0, ξ = , βγ γ β (3) com β e β ′ parâmetros de “escala” de segunda e terceira-ordem, respectivamente. Na Secção 2 deste artigo, introduzimos os estimadores em análise, e fornecemos, na Secção 3, uma descrição breve do comportamento assintótico desses estimadores de ρ . SPE 2011 Mesa: Luı́sa Canto e Castro de Loura 101 Sexta, 30/09/2011 Extremos I Sala Atlântico, 09:00–10:00 Os estimadores de ρ em análise Face a uma amostra aleatória, (X1 , X2 , . . . , Xn ), usamos a notação (X1:n ≤ X2:n ≤ · · · ≤ Xn:n ) para a amostra de estatı́sticas ordinais ascendentes associada. Uma das classes de estimadores de ρ em análise é o mais simples estimador em [3]. Esta classe de estimadores pode ser parametrizada em termos de um parâmetro de controlo τ ∈ R, e é definida do modo seguinte: τ /2 τ (2) (1) 3(T (τ ) (k) − 1) Mn (k) − Mn (k)/2 n (τ ) FAGH FAGH (k) ≡ ρbn (k; τ ) := − (τ ) ρbn , Tn (k) := τ /3 , τ /2 (3) (2) Tn (k) − 3 − Mn (k)/6 Mn (k)/2 para τ 6= 0 e com a continuação usual para τ = 0, onde, denotando Vik os excessos das log( j) observações, Vik := ln Xn−i+1:n − ln Xn−k:n , 1 ≤ i ≤ k, Mn (k) := ∑ki=1 Vikj /k, j ≥ 1. A segunda classe, baseada no facto de Ui = i(ln Xn−i+1:n − ln Xn−i:n ), 1 ≤ i ≤ k, serem aproximadamente exponenciais −ρ com valor médio µi = γ eβ (i/n) , 1 ≤ i ≤ k, é a classe de estimadores de ρ em [2], onde se considera a maximização conjunta, em γ , β e ρ , da log-verosimilhança, ln L(γ , β , ρ ;Ui , 1 ≤ i ≤ k) = −k ln γ − β ∑ki=1 (i/n)−ρ − 1γ ∑ki=1 exp(−β (i/n)−ρ )Ui . Esse estimador será denotado ρbnFH (k). Comportamento assintótico dos estimadores de ρ Nas linhas de investigação em [3] e [1], mas com algumas indicações adicionais relacionadas com o comportamento assintótico dos estimadores em análise, enunciamos o teorema seguinte: Teorema 1. √Sob a validade da condição (1), com ρ < 0, e para k tal que k = kn → ∞, k/n → 0 e k A(n/k) → ∞, quando n → ∞, ρbnFH (k) e ρ̂nFAGH (k) são consistentes para a estimação de ρ . Se admitirmos adicionalmente a validade de (2), com A e B dados em √ d (3), podemos garantir que ρbn• (k) − ρ = σ• Uk• /( k A(n/k)) + b• A(n/k)(1 + √ o p (1)), onde FH FAGH são Uk e Uk p variáveis aleatórias normal padrão, σFH = γ (1 − ρ )(1√− 2ρ ) 1 − 2ρ /ρ e σFAGH√ = γ (1 − ρ )3 2ρ 2 − 2ρ + 1/ρ . Consequentemente, se admitirmos que kA2 (n/k) → λA , finito, k A(n/k) (ρbn• (k) − ρ ) é assintóticamente nomal com valor médio λA b• e σ•2 . Procederemos a uma comparação assintótica de ρ̂nFH (k) e de ρ̂nFAGH (k), quer para um k genérico, quer em nı́veis óptimos, i.e., nı́veis k = k0• em que o erro médio quadrático assintótico de ρ̂n• é mı́nimo, referindo ainda a discrepância entre comportamento assintótico e em amostras finitas. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Caeiro, F. e Gomes, M.I. (2010). Asymptotic comparison at optimal levels of reduced-bias extreme value index estimators. Notas e Comunicações CEAUL 24/2010. [2] Feuerverger, A. e Hall, P. (1999) Estimating a tail exponent by modelling departure from a Pareto distribution. Ann. Statist., 27, 760–781. [3] Fraga Alves, M.I., Gomes, M.I. e de Haan, L. (2003). A new class of semi-parametric estimators of the second order parameter. Portugaliae Mathematica, 60:2, 193–213. SPE 2011 Mesa: Luı́sa Canto e Castro de Loura 102 Sexta, 30/09/2011 Extremos I Sala Atlântico, 09:00–10:00 Uma generalização do estimador de Hill M. Ivette Gomes e Dinis Pestana DEIO e CEAUL, Universidade de Lisboa, {ivette.gomes,dinis.pestana}@fc.ul.pt Resumo: Neste trabalho estamos interessados numa generalização simples do estimador de Hill, baseada na média de ordem p de estatı́sticas fulcrais na construção do clássico estimador de Hill para um ı́ndice de valores extremos positivo. Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, caudas pesada Introdução e objectivos Face a uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), proveniente de uma população com função de distribuição (f.d.) F, denotemos (X1:n ≤ · · · ≤ Xn:n ) a amostra associada das estatı́sticas ordinais ascendentes. Admitamos ainda que é possı́vel normalizar a sucessão de máximos parciais, de modo a obtermos um limite não degenerado, necessariamente com f.d. do tipo EVγ (x) = exp(−(1 + γ x)−1/γ ), 1 + γ x > 0, γ ∈ R. Dizemos então que F pertence ao domı́nio de atração para máximos de EVγ , e usamos a notação F ∈ DM EVγ . O parâmetro γ é o ı́ndice de valores extremos (EVI, do Inglês extreme value index). Iremos aqui trabalhar com modelos de cauda direita F := 1 − F pesada, i.e., com γ > 0. Com a notação U(t) := F ← (1 − 1/t), t ≥ 1, com F ← (x) = inf{y : F(y) ≥ x}, + F ∈ DM ≡ DM EVγ γ >0 ⇐⇒ lim U(tx)/U(t) = xγ ∀ x > 0, (1) t→∞ i.e., U(·) é uma função de variação regular no infinito, com um ı́ndice de variação regular γ (veja-se + [1]). Para modelos F ∈ DM , os estimadores clássicos do EVI são os estimadores de Hill [5], H(k) := 1 k ∑ ln (Xn−i+1:n /Xn−k:n ) , k i=1 1 ≤ k < n. Note-se que H(k) é o logaritmo da média geométrica de Uik := Xn−i+1:n /Xn−k:n : !1/k k H(k) = ∑ ln (Xn−i+1:n /Xn−k:n )1/k = ln i=1 (2) k ∏ (Xn−i+1:n/Xn−k:n ) . i=1 Mais geralmente, iremos agora considerar a média de ordem p ≥ 0 das estatı́sticas Uik , 1 ≤ i ≤ k < n, dada por p 1/p se p > 0 ∑ki=1 Uik /k A p (k) = (3) 1/k k se p = 0, ∏i=1 Uik e o estimador do EVI, Hp (k) := SPE 2011 (1 − exp(−p ln A p (k))) /p se p > 0 ln A0 (k) = H(k) (4) se p = 0, Mesa: Luı́sa Canto e Castro de Loura 103 Sexta, 30/09/2011 Extremos I Sala Atlântico, 09:00–10:00 dependente agora deste parâmetro de controlo p ≥ 0, e com H(k) e A p (k) definidos em (1) e (3), respectivamente. Para a derivação do comportamento não degenerado de estimadores do EVI, em contexto semiparamétrico, é usual restringir o domı́nio DM + , admitindo a validade de uma condição do tipo, lim t→∞ U(tx)/U(t) − xγ xρ − 1 = xγ A(t) ρ ∀ x > 0, (5) e onde |A| tem então de ser de variação regular com ı́ndice ρ , necessariamente não-positivo [2]. É então válido o teorema seguinte, generalização para p > 0 do resultado para p = 0 em [4]. Teorema 1. Sob a validade da condição de primeira-ordem, em (1), e para k = kn sucessão intermédia, i.e., se k = kn → ∞ e kn = o(n), quando n → ∞, a classe de estimadores Hp (k), em (4) é consistente para a estimação de γ . Se além dissso admitirmos a validade da condição de segundaordem, em (5), temos a validade da representação assintótica γ (1 − pγ ) Zk 1 − pγ d Hp (k) = γ + √ √ + A(n/k) + o p (A(n/k)), 1 − pγ − ρ k 1 − 2pγ com Zk assintoticamente normal padrão. Com base em artigos variados, de entre os quais referimos [3], procederemos ainda à comparação, em nı́veis óptimos, no sentido de erro quadrático médio mı́nimo, da nova classe Hp , p > 0, com H0 , mostrando a existência de uma vasta região de valores de p onde Hp compara favoravelmente com H0 ≡ H. Avançaremos ainda com um estudo de simulação, para comparação dos elementos da classe de estimadores em (4), em amostras de dimensão finita. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Bingham, N., Goldie, C.M., e Teugels, J.L. (1987). Regular Variation. Cambridge Univ. Press, Cambridge. [2] Geluk, J., e Haan, L. de (1987). Regular Variation, Extensions and Tauberian Theorems. CWI Tract 40, Center for Mathematics and Computer Science, Amsterdam, The Netherlands. [3] Gomes, M.I. e Neves, C. (2008). Asymptotic comparison of the mixed moment and classical extreme value index estimators. Statistics and Probability Letters 78:6, 643-653. [4] Haan, L. de e Peng, L. (1998). Comparison of tail index estimators. Statistica Neerlandica 52, 60-70. [5] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Annals Statistics 3, 1163-1174. SPE 2011 Mesa: Luı́sa Canto e Castro de Loura 104 Sexta, 30/09/2011 Extremos I Sala Atlântico, 09:00–10:00 Excessos acima de nı́veis aleatórios e estimação linear óptima e centrada Lı́gia Henriques-Rodrigues1 e M. Ivette Gomes2 1 CEAUL, Universidade de Lisboa, e Instituto Politécnico de Tomar, [email protected] 2 DEIO, FCUL e CEAUL, Universidade de Lisboa, [email protected] Resumo: Neste artigo abordamos um método de estimação, semi-paramétrico e invariante para mudanças de localização e escala, de um ı́ndice de valores extremos (EVI, do inglês, extreme value index) positivo. Tomando como base estimadores lineares centrados (BLUE, do Inglês best linear unbiased estimators) do EVI, consideramos agora estimadores PORT-BLUE do EVI, propomos um método heurı́stico de escolha adaptativa dos parâmetros de controlo, e aplicamos esse método à análise de dados ambientais. Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, estimadores lineares centrados, excessos acima de nı́veis aleatórios Introdução e objectivos Em Estatı́stica, sempre que colocamos a questão de como combinar informação de modo a melhorar o comportamento de um estimador, somos frequentemente levados a pensar em estimadores lineares centrados e óptimos, i.e., em combinações lineares de um conjunto adequado de estatı́sticas, com variância mı́nima na classe dessas combinações lineares. Na área de Estatı́stica de Extremos, e no que concerne a estimação do ı́ndice de valores extremos, foi derivado e estudado em [2] o comportamento de estimadores BLUE assintoticamente centrados. Mas, tal como acontece com os estimadores clássicos de Hill ([5]), esses estimadores não são invariantes para mudanças de localização, contrariamente aos estimadores PORT-Hill, introduzidos recentemente em [1], onde PORT é a sigla para peaks over random threshold. Neste artigo consideramos estimadores PORT-BLUE do EVI, a introduzir na Secção 2, e derivamos o seu comportamento assintótico. Na Secção 3, sugerimos uma escolha adaptativa dos parâmetros de controlo em jogo e uma aplicação a dados ambientais. Estimadores PORT-BLUE do EVI Seja Xn = (X1 , . . . , Xn ), uma amostra aleatória de n variáveis aleatórias (v.a.’s) independentes e identicamente distribuı́das com distribuição F, e denotemos Xi:n , 1 ≤ i ≤ n, a i-ésima estatı́stica ordinal ascendentes associada. Se o máximo, Xn:n , linearmente normalizado, convergir para uma v.a. não degenerada, então, para algum γ ∈ R, onde γ é o chamado EVI, essa v.a. limite tem uma distribuição do tipo da distribuição de valores extremos (EV, do inglês extreme value), então que F está no domı́nio de atração (para EVγ (x) := exp − (1 + γ x)−1/γ , 1 + γ x > 0. Dizemos máximos) de EVγ , e escrevemos F ∈ DM EVγ . O EVI está directamente relacionado com o peso da cauda direita F := 1 − F, e iremos considerar caudas direitas pesadas, i.e. γ > 0. Então, com SPE 2011 Mesa: Luı́sa Canto e Castro de Loura 105 Sexta, 30/09/2011 Extremos I Sala Atlântico, 09:00–10:00 U(t) := F ← (1 − 1/t) := inf {x : F(x) ≥ 1 − 1/t}, e com a notação RVα para a classe de funções de variação regular com ı́ndice de variação regular α , F ∈ DM (EVγ )γ >0 ⇐⇒ U ∈ RVγ ⇐⇒ F ∈ RV−1/γ . A consideração da contrapartida empı́rica de U(t) leva-nos então aos estimadores de Hill, médias de k excessos das log-observações, com k = kn sucessão intermédia de inteiros (k = kn → ∞ e k/n → 0, quando n → ∞), denotados Hn (k) ≡ Hn (k; Xn ). Face à não invariância para a localização dos estimadores de Hill, podemos pensar na classe de estimadores PORT-Hill baseados numa amostra de excessos acima de um nı́vel aleatório Xnq :n , nq := [nq] + 1, 0 < q < 1, (q) denotada Xn := Xn:n − X[nq]+1:n , . . . , X[nq]+2:n − X[nq]+1:n . Esses estimadores PORT-Hill do EVI têm a mesma forma funcional dos estimadores de Hill, mas com a amostra inicial Xn substituı́da (q) (q) (q) por Xn , ou seja, Hn (k) ≡ Hn (k; Xn ). Em [2] consideraram-se combinações lineares assintoticamente centradas de estimadores de Hill (os chamados estimadores BLUE-H do EVI) calculados em nı́veis intermédios k − m + 1,k − m + 2, · · · ,k, i.e., combinações lineares baseadas no vector, H ≡ (Hn (k − m + 1), · ·· , Hn (k)). Avançamos agora com os estimadores PORT-BLUE-H do EVI, (q) (q) (q) (q) baseados em H ≡ Hn (k − m + 1), · · · , Hn (k) , e denotados BLn (k). A normalidade assintótica destes estimadores é obtida face à validade de uma condição de segunda ordem adequada, que rege a velocidade de convergência na condição de primeira ordem, U ∈ RVγ . Escolha dos parâmetros de controlo e aplicação a dados ambientais A escolha de k e q nos estimadores PORT-BLUE-H do EVI é feita com base num “bootstrap” duplo, (q) (q) baseado na estatı́stica auxiliar, Tn (k) := BLn ([k/2]) − BLn (k), na linha de [3]. Procedemos ainda à aplicação do algoritmo na análise de dados ambientais, relacionados com o número de hectares ardidos em Portugal durante um perı́odo de 14 anos (1990-2003). A amostra, de dimensão n = 2627, não parece ter uma estrutura temporal significativa, e usámos a amostra global, embora nos pareça sensata a consideração de diferentes regiões, de modo a evitar heterogeneidade espacial. Fomos conduzidos a q = 0, a uma escolha do nı́vel k̂0BL = 1319 e à estimativa PORT-BLUE-H dada por BL∗ = 0.66, um valor consentâneo com valores anteriormente obtidos para estes dados. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Araújo Santos, P., Fraga Alves, M.I. e Gomes, M.I. (2006). Peaks over random threshold methodology for tail index and quantile estimation. Revstat 4:3, 227–247 (2006) [2] Gomes, M.I., Figueiredo, F. e Mendonça, S. (2005). Asymptotically best linear unbiased tail estimators under a second order regular variation. J. Statist. Planning and Inference 134:2, 409–433. [3] Gomes, M.I., Henriques-Rodrigues, L. e Miranda, C. (2011). Reduced-bias location-invariant extreme value index estimation: a simulation study. Comm. in Statist. – Simul. & Comput. 40:3, 424–447. DOI: 10.1080/03610918.2010.543297 [4] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Ann. Statist. 3, 1163–1174. SPE 2011 Mesa: Luı́sa Canto e Castro de Loura 106 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Factores de risco para a detecção de Salmonella sp. em suı́nos reprodutores em Portugal Carla Correia-Gomes1 , Denisa Mendonça1 , Madalena Vieira-Pinto2 e João Niza-Ribeiro1 1 ICBAS-UP (Departamento de Estudos das Populações)/ISPUP, {cgomes, dvmendon}@icbas.up.pt, [email protected] 2 UTAD, Departamento de Veterinária, Clı́nicas Veterinárias, [email protected] Resumo: A Salmonela é uma das principais causas de doenças transmitidas pelos alimentos na União Europeia. O conjunto de dados analisados neste trabalho refere-se a um estudo transversal em suı́nos reprodutores em Portugal. O objectivo deste estudo foi a pesquisa de factores de risco para a presença de Salmonela em suı́nos reprodutores. Foram recolhidas um total de 1.670 amostras fecais, pertencentes a 167 explorações. Destas 170 amostras foram positivas para Salmonela. Foi, também, aplicado um questionário para recolher informações sobre o maneio a nı́vel da exploração e factores de risco potenciais para a Salmonela. Foi aplicada uma análise multinı́vel ao conjunto dos dados. O primeiro nı́vel foi atribuı́do às amostras fecais e o segundo nı́vel foi atribuı́do as explorações. Os resultados mostram associações significativas (p < 0.05) a nı́vel da exploração e a nı́vel da amostra. Este estudo forneceu informações valiosas que devem ser incorporadas em futuros planos de controlo deste agente na produção de suı́nos em Portugal. Palavras–chave: Salmonela, análise multinı́vel Introdução Salmonela é uma das principais causas de doenças veiculadas pelos alimentos na União Europeia (UE) nos últimos dez anos [1], sendo alguns casos associados a carne de porco. Nos suı́nos este agente passa despercebido pois provoca geralmente infecções sub-clı́nicas. Para se reduzir a prevalência deste agente é necessário saber quais os factores de risco associados ao tipo de produção existente. Alguns dos factores de risco conhecidos [2] estão ligados a: 1) medidas de biossegurança, 2) maneio da exploração, 3) a prática alimentares, e 4) estado de saúde dos animais relativamente a outros agentes. O objectivo do estudo foi a pesquisa de factores de risco para a presença de Salmonela em suı́nos reprodutores. Material e Métodos Foi realizada uma amostragem representativa proporcional das explorações com porcos reprodutores em Portugal de acordo com as especificações da Decisão da Comissão 2008/55/EC. Em cada exploração eram recolhidas 10 amostras compostas de fezes. As amostras foram enviadas para o laboratório para detecção de Salmonela e cada amostra positiva foi serotipada. A informação refe- SPE 2011 107 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 rente aos potenciais factores de risco foi recolhida através de um inquérito a todas as explorações da amostra. Como os dados seguem uma estrutura multinı́vel, amostras fecais (primeiro nı́vel) que pertencem a explorações (segundo nı́vel), foi considerada uma análise multinı́vel utilizando um modelo misto generalizado [3], cuja variável dependente seguia uma distribuição de Bernoulli, com a função de ligação logite. Foi utilizado o procedimento glmmPQL do pacote MASS [4] do software R gratuito [5], que ajusta o modelo através de método de quase-verosimilhança penalizada. As variáveis com p ≤ 0.15, na análise univariável, foram selecionadas para entrar no modelo multivariável. Os coeficientes de regressão, em seguida, foram convertidos para odds ratio (OR) e calculados os intervalos de confiança a 95% para estes. Resultados Foram recolhidas um total de 1.670 amostras (nı́vel 1), pertencentes a 167 explorações (nı́vel 2) que preencheram o questionário. De todas as amostras recolhidas 170 foram positivas para detecção de Salmonela, correspondendo a 76 explorações infectadas. Resultados do modelo multinı́vel multivariável revelaram que as seguintes variáveis estão significativamente associadas à presença de Salmonela (p < 0.05): região da exploração, tamanho da exploração, origem do sémen utilizado na exploração, fase de produção, origem da dieta, controlo dos roedores, origem dos varrascos, e número de animais nos parques amostrados. Conclusão Estes resultados são importantes para avaliar o risco das explorações relativamente à Salmonela e podem ser utilizados em programas de controlo do agente e em sistemas de vigilância baseados no perfil de risco das explorações. Agradecimentos: Às autoridades veterinárias oficiais pela cedência dos dados. À FCT pela bolsa de doutoramento. Bibliografia [1] EFSA (2011). The European Union Summary Report on Trends and Sources of Zoonoses, Zoonotic Agents and Food-borne Outbreaks in 2009. EFSA Journal, 9(3), 2090. [2] Fosse, J., Seegers, H. e Magras, C. (2009). Prevalence and risk factors for bacterial food-borne zoonotic hazards in slaughter pigs: a review. Zoonoses and public health 2009, 56(8), 429–54. [3] Goldstein, H. (2011). Multilevel Statistical Models. John Wiley&Sons. [4] Venables, W.N. e Ripley, B.D. (2002). Modern Applied Statistics with S.. Springer. [5] R Development Core Team (2010). R: A Language and Environment for Statistical Computing. http://www.R-project.org. SPE 2011 108 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Modelos de resposta ao item: linking entre escalas de Matemática Patrı́cia Costa1 , Maria Eugénia Ferrão2 e Pedro Oliveira3 1 Joint Research Centre - European Commission, [email protected] Departamento de Matemática - Universidade da Beira Interior e CEMAPRE, [email protected] 3 Instituto de Ciências Biomédicas Abel Salazar - Universidade do Porto, [email protected] 2 Resumo: Linking define-se como sendo o procedimento estatı́stico usado para ajustar a classificação dos examinandos em testes ou formas de teste com diferentes especificações (em termos de conteúdo e/ou nı́vel de dificuldade e/ou na aferição de diferentes factores latentes) a uma escala única (Kolen e Brennan [2]). O linking entre as escalas obtidas pela aplicação da Prova de Aferição de Matemática do 6o ano de escolaridade, do Ensino Básico, e do teste 3EMat (Costa, Oliveira e Ferrão [1]) foi efectuado pelo método linear e pelo método baseado na estimação conjunta dos parâmetros dos itens e do factor latente, assumindo que cada um dos instrumentos é um subteste aplicado à mesma amostra. A correlação entre a classificação obtida através da estimação conjunta e as restantes classificações é forte, mostrando ser promissor o método aplicado para estabelecer a métrica na perspectiva de comparação dos resultados escolares ao longo do tempo. A análise dos resultados, do teste de hipóteses para amostras emparelhadas, permitiu verificar que não existem diferenças estatı́sticamente significativas entre as classificações obtidas nos dois instrumentos. Esta aplicação evidencia uma das vantagens da utilização da classe de Modelos de Resposta ao Item que é a comparação entre examinandos da mesma população que foram submetidos a instrumentos totalmente diferentes. Palavras–chave: Modelos de resposta ao item, comparação de instrumentos, linking Agradecimentos: Os autores agradecem ao Gabinete de Avaliação Educacional (GAVE) do Ministério da Educação pelos dados disponibilizados. Bibliografia [1] Costa, P., Oliveira, P. e Ferrão, M.E. (2008). Equalização de escalas com o modelo de resposta ao item de dois parâmetros. Em Estatı́stica - da Teoria à Prática, Actas do XV Congresso Anual da Sociedade Portuguesa de Estatı́stica (Hill, M.; Ferreira, M.; Dias, J.; Salgueiro, M.; Carvalho, H.; Vicente, P. e Braumann, C., eds.), 155–166. Edições SPE. [2] Kolen, M.J. e Brennan, R.L. (2004). Test Equating, Scaling, and Linking: Methods and Practices - 2nd ed. Springer. SPE 2011 109 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Absentismo escolar - detecção precoce de epidemias Joana Dias1 , Ana Rita Gonçalves2 , Ana Maria Correia1 e Emilia Athayde3 1 Departamento de Saúde Pública - ARSNorte, IP, {jdias, acorreia}@arsnorte.min-saude.pt Universidade do Minho, [email protected] 3 Departamento de Matemática e Aplicações, Universidade do Minho, [email protected] 2 Resumo: Desde o ano lectivo 2006/2007 que o Departamento de Saúde Pública (DSP) tem em funcionamento o Sistema de Monitorização do Absentismo Escolar na região Norte. Este trabalho tem como objectivo propor um método estatı́stico para a detecção precoce de “picos” no absentismo escolar na região Norte. Recomenda-se a implantação do método CUSUM e do método de Cullen durante os dois próximos anos lectivos no Sistema de Monitorização do Absentismo Escolar na região Norte. Palavras–chave: Absentismo escolar, epidemias, detecção precoce Introdução Em 2005, o Departamento de Saúde Pública (DSP) da Administração Regional de Saúde do Norte, I.P. desenvolveu um conjunto de actividades de preparação face à ameaça de pandemia de gripe. Dentro dessas actividades, a implementação de um sistema de informação que forneça dados fiáveis que permitam identificar com celeridade a ocorrência de surtos de gripe, foi considerada prioritária. Assim, desde o ano lectivo 2006/2007 que o DSP tem em funcionamento o Sistema de Monitorização do Absentismo Escolar na região Norte. Na actual fase de desenvolvimento do projecto, é fundamental a identificação de um processo que permita validar “picos” de absentismo escolar detectados pelo sistema. Objectivo Propor um método estatı́stico para a detecção precoce de “picos” no absentismo escolar na região Norte. Material e Métodos O Sistema de Monitorização do Absentismo Escolar integra uma amostra de escolas do 1o , 2o e 3o Ciclos do Ensino Básico da região e está activo entre a semana 40 de cada ano e a semana 20 do ano seguinte, interrompendo-se durante os fins-de-semana e as férias escolares. Os dados utilizados para este estudo abrangem os anos lectivos 2006/2007, 2007/2008, 2008/2009 e 2009/2010. Para a caracterização do absentismo escolar, calculou-se o absentismo (%) semanal para a região em cada um dos anos lectivos em estudo. Para a construção da área basal, testaram-se quatro métodos estatı́sticos: método de Cullen; método do 3o Quartil; método de Albuquerque; método CUSUM. Para SPE 2011 111 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 a construção dos gráficos, utilizaram-se os dados semanais de absentismo escolar na região, nos três primeiros anos lectivos. Os dados do ano lectivo 2009/2010 foram usados para teste. Em Portugal, a vigilância epidemiológica da gripe é realizada pela Rede de Médicos-Sentinela em colaboração com o Centro Nacional da Gripe. Semanalmente é elaborado um Boletim de Vigilância Epidemiológica da gripe sazonal. Este boletim permitiu identificar as semanas epidémicas da gripe sazonal em Portugal, para posteriormente serem comparadas com as semanas epidémicas obtidas pelos métodos referidos anteriormente. Resultados A análise das semanas epidémicas assinaladas pelos quatro métodos estatı́sticos utilizados (n = 33 semanas), mostrou que o método de Cullen detectou 10 semanas epidémicas, o método de Albuquerque detectou 10 semanas, o método do 3o Quartil detectou 14 e o método CUSUM detectou 12 semanas epidémicas. Comparando as semanas epidémicas detectadas por cada um dos métodos, com as semanas epidémicas da gripe sazonal identificadas pela Rede de Médicos-Sentinela, verificou-se que o método CUSUM foi o que melhor identificou as semanas epidémicas no absentismo escolar, quando comparadas com a actividade gripal em Portugal. Os métodos de Cullen e de Albuquerque também apresentaram valores elevados na proporção de verdadeiras semanas epidémicas identificadas. Conclusão O método CUSUM apresentou uma maior proporção de verdadeiras semanas epidémicas identificadas, seguido pelos métodos de Cullen e de Albuquerque. Portanto, recomenda-se a implantação do método CUSUM e do método de Cullen durante os dois próximos anos lectivos no Sistema de Monitorização do Absentismo Escolar na região Norte. Bibliografia [1] DSP - ARSNorte (2010). Vigilância do Absentismo Escolar na região Norte: 2009/2010. Unidade de Vigilância Epidemiológica. Administração Regional de Saúde do Norte, I.P.. [2] Montgomery, D.C. (2008). Introduction to Statistical Quality Control. John Wiley & Sons. [3] Schmidt, W.P., Pebody, R. e Mangtani, P. (2010). School absence data for influenza surveillance: a pilot study in the United Kingdom. Euro Surveill., 15(3):pii=19467. SPE 2011 112 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Estudantes do Ensino Superior: Caminhos para o sucesso ou insucesso Otı́lia Dias1 , Isabel Pinto Doria2 e Ana Sousa Ferreira3 1 ESTBarreiro, Instituto Politécnico de Setúbal, CEAUL , [email protected] LEAD, FP - Universidade de Lisboa, CEAUL, [email protected] 3 LEAD, FP - Universidade de Lisboa, UNIDE e CEAUL, [email protected] 2 Resumo: O insucesso escolar afecta muitos estudantes do ensino superior, conduzindo frequentemente ao abandono escolar e a profissões pouco diferenciadas e/ou mal remuneradas. Pretendendo conhecer as variáveis que impactam o sucesso escolar, bem como indicadores de proximidade do percurso académico, o Instituto Politécnico de Setúbal (IPS) desenhou um estudo com vista a identificar as variáveis predisponentes ao sucesso, insucesso e abandono escolares. Este trabalho incide sobre o estudo piloto que decorreu na Escola Superior de Tecnologia do Barreiro (ESTBarreiro, IPS) e procura compreender como é que as caracterı́sticas socio-demográficas dos estudantes, o seu nı́vel de envolvimento com a escola e com a famı́lia e as notas de ingresso no ensino superior explicam o sucesso/insucesso. Palavras–chave: Análise multivariada de dados, insucesso, sucesso Introdução O insucesso escolar afecta muitos estudantes do ensino superior, conduzindo frequentemente ao abandono escolar e a profissões pouco diferenciadas e/ou mal remuneradas. O ensino superior em Portugal tem vindo a viver profundas mudanças nos últimos anos. A generalização do acesso ao ensino superior, as reestruturações dos planos curriculares em consequência do Processo de Bolonha e o aumento dos estudantes ao abrigo do acesso para Maiores de 23 anos, introduziram nas instituições de ensino superior um corpo de estudantes bastante diferenciado relativamente às suas competências, dificuldades e expectativas, que importa conhecer. Em Portugal, o tema do insucesso e do abandono escolar tem sido objecto de numerosos estudos cientı́ficos procurando identificar os factores potencialmente relevantes para a sua compreensão (Projectos inovadores no ensino superior - Programa de Intervenção Operacional Ciência e Inovação 2010). As publicações da OCDE e os resultados apresentados pelo Ministério da Ciência, Tecnologia e Ensino Superior [1] apontam para taxas de sobrevivência (rácio entre número de diplomados e número de inscritos no 1o ano/1a vez) nas instituições do ensino superior portuguesas, na ordem dos 67% registando-se contudo taxas mais elevadas de abandono e insucesso durante o 1o ano de ingresso. Os ı́ndices de sobrevivência mais elevados foram observados nas áreas da Saúde e das Ciências Sociais e Humanas, e os mais baixos nas áreas da Informática, Engenharia e Ciências Exactas ou da Natureza. Os nı́veis de insucesso no ensino superior constituem um problema que afecta o ambiente escolar e acarretam diversas disfunções pessoais e sociais. SPE 2011 113 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Procedimento e Resultados Assumindo que a melhoria da qualidade necessita do conhecimento das variáveis que impactam o sucesso escolar, bem como de indicadores do percurso académico, o Instituto Politécnico de Setúbal (IPS) desenhou, através da UNIQUA (Unidade para a Qualidade e a Avaliação), um estudo com vista a identificar os factores predisponentes ao sucesso, insucesso e abandono escolares. O inquérito desenvolvido para os estudantes do 1o ano/1a vez, para além de conseguir identificar os factores e processos potencialmente relevantes para a compreensão do sucesso e insucesso escolares, pretendeu também disponibilizar dados e informações sobre o perfil dos seus estudantes de modo a contribuir para o planeamento das estratégias educativas a adoptar. Este inquérito incluiu a informação solicitada pelo RAIDES (Inquérito ao Registo de Alunos Inscritos e Diplomados do Ensino Superior) e a informação contida na ficha de candidatura. A primeira aplicação piloto decorreu na Escola Superior de Tecnologia do Barreiro (ESTBarreiro, IPS) relativa aos resultados académicos do 1o semestre do ano lectivo de 2010/2011 incidindo nas três Licenciaturas de Engenharia Civil (LEC), Engenharia Quı́mica (LEQ) e Gestão da Construção (LGC). No presente ano lectivo, o inquérito foi preenchido por todos os estudantes de 1a vez durante o acto da matrı́cula. Dos 118 estudantes da ESTBarreiro/IPS que ingressaram pela 1a vez e para o 1o ano em 2010/2011 (78 em LEC, 10 em LEQ e 30 em LGC), apenas 27% são do sexo feminino, 75% são solteiros e 79% nasceram em Portugal. Estes estudantes são provenientes maioritariamente do distrito de Setúbal (75%), vindo de Lisboa cerca de 18% e de Santarém cerca de 3%. A média das idades destes estudantes que ingressaram na ESTBarreiro/IPS é de 26 anos (d.p. 9), sendo que 51% dos estudantes têm uma idade inferior a 23 anos e 25% uma idade superior a 32 anos, observandose um máximo de 51 anos e um mı́nimo de 17 anos. Os estudantes com mais idade são em geral os que procuraram os cursos de Mestrado e Pós-graduação, enquanto os mais novos visaram os cursos de LEC e LEQ e entraram pelo Concurso Nacional de Acesso (CNA). A opção pelo curso foi referida ser por vocação por 46% dos estudantes de LEC, 20% de LEQ e 27% LGC tendo todos estes estudantes indicado grandes expectativas em relação ao curso: a maior parte destes estudantes conta vir a ter sucesso a todas as unidades curriculares. Dos alunos que entraram no 1o ano/1a vez pelo Concurso Nacional de Acesso observou-se uma média do Ensino Secundário de 130 pontos (desvio padrão 11) e uma nota média de candidatura de 123 pontos (desvio padrão 12), registando-se um máximo de 149 pontos e um mı́nimo de 105 pontos nesta candidatura. À luz dos objectivos referidos, a análise dos dados obtidos neste estudo incide sobre o estudo da relação entre as motivações, caracterı́sticas pessoais (ex: expectativas sobre o curso; idade; género; experiências de trabalho social) e o sucesso académico recorrendo a métodos de análise multivariada [2, 3]. Os principais resultados deste estudo são apresentados e discutidos, bem como algumas conclusões preliminares. Bibliografia [1] CIES-ISCTE, ISFLUP (2009). Os Estudantes e os seus trajectos no Ensino Superior. Insucesso, Factores e Processos, Promoção de boas práticas. Projecto ETES. [2] Pinto Doria, I. (2008). Representações Euclidianas de Dados - Uma Abordagem para Variáveis Heterogéneas. Tese de Doutoramento, Universidade de Lisboa. [3] Sousa Ferreira, A. (2000). Combinação de Modelos em Análise Discriminante sobre Variáveis Qualitativas. Tese de Doutoramento, Universidade Nova de Lisboa. SPE 2011 114 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 A satisfação e lealdade dos diplomados em turismo face às instituições de ensino superior frequentadas. Uma aplicação do método PLS-PM Sofia Eurico1 , Patrı́cia Oom do Valle2 e João Albino Silva2 1 Instituto Politécnico de Leiria - Escola superior de Turismo e Tecnologia do Mar, [email protected] 2 Faculdade de Economia da Universidade do Algarve, {pvalle, jsilva}@ualg.pt Resumo: O presente trabalho descreve os resultados de um estudo que visa identificar os elementos que influenciam o processo de formação da satisfação e da lealdade dos diplomados em Turismo para com a Instituição de Ensino Superior (IES) frequentada. A metodologia do Índice Europeu de Satisfação do Consumidor, ECSI, serviu de ponto de partida para a construção de um modelo de investigação, norteado por um conjunto de construtos mensuráveis por meio de variáveis observáveis. O método PLS-PM foi utilizado para especificar, estimar, validar e representar o modelo num diagrama de caminhos que permitiu espelhar as relações hipotéticas que se estabelecem entre as diferentes variáveis. 166 diplomados em Turismo, já integrados no mercado de trabalho no sector do Turismo, foram inquiridos e os resultados sugerem que a imagem institucional é o antecedente mais significativo da satisfação. Esse resultado tem implicações para as IES, tendo em conta a competitividade existente e a necessidade de estratégias que actuem em conformidade com a situação. Palavras–chave: Ensino Superior em Turismo, satisfação, ECSI, PLS-PM SPE 2011 115 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Modelos de misturas na identificação de padrões de jardins da cidade do Porto A. Rita Gaio e Joaquim F. P. da Costa Departamento de Matemática da Faculdade de Ciências da Universidade do Porto, {argaio, jpcosta}@fc.up.pt Resumo: Este trabalho enquadra-se na área de Análise Classificatória usando essencialmente modelos de misturas finitas. Mais concretamente, pretende-se agrupar um conjunto de 95 jardins e praças da cidade do Porto, descritos por 3 variáveis discretas e 4 contı́nuas. É assumido que a componente contı́nua segue uma distribuição normal multivariada, a componente discreta segue uma multinomial e que as duas componentes são independentes. No final procede-se à identificação dos jardins tı́picos e respectivas caracterı́sticas. Palavras–chave: Modelos de misturas finitas, análise em componentes principais Introdução Para K componentes, a equação genérica do modelo multivariado de misturas finitas é h(yi |ϕ ) = com K ∑ πk = 1 e K ∑ πk (wi , α ) fk (yi |θk ) (1) k=1 πk > 0, k = 1, . . . , K. k=1 Aqui, h designa a função densidade de probabilidade total, yi = (yi1 , . . . ,yiJ ) é um vector de J observações (categóricas ou contı́nuas) para a unidade i, ϕ = (α t , θ1t , . . . ,θKt ) é o conjunto dos parâmetros do modelo a serem estimados, π1 . . . ,πK são as proporções da mistura, f1 , . . . , fK são as densidades das componentes, e w é um vector de variáveis concomitantes, que influenciam as proporções da mistura. O modelo (1) resulta da composição de dois modelos: o modelo de variáveis concomitantes e o modelo especı́fico das componentes. O modelo de variáveis concomitantes determina as proporções da mistura em função das variáveis concomitantes, através de um modelo de regressão logı́stica multinomial com parâmetros α i.e., para k ∈ {1,2, . . . ,K}, t e(1,w )αk πk (w,α ) = K (1,wt )α k ∑k=1 e t t t com α = (α1 , . . . , αK ) e α1 = 0. O modelo especı́fico das componentes modela as densidades fk (.|θk ), com parâmetros θk , k = 1, . . . ,K. Dentro da mistura k, assume-se que a densidade de cada yi j provém da famı́lia exponencial (no nosso caso, distribuições Gaussianas e Multinomiais). SPE 2011 117 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Os dados considerados foram recolhidos no âmbito do projecto “Biodiversity and Landscape Design” (http://bio-diver-city.fc.up.pt/), consistindo dos 95 jardins e praças existentes na cidade do Porto. As variáveis y j consistem de 3 áreas (de coberto vegetal, de impermeabilidade e de plano de água), da idade dos jardins, uso dominante para o qual os jardins foram concebidos, e o carácter do espaço verde. Após a formação dos grupos pretende-se, por um lado, identificar o jardim representativo de cada grupo, e, por outro, descrever as caracterı́sticas de cada padrão encontrado. Esta última tarefa será realizada através da análise em componentes principais. Bibliografia [1] Fahey, M.T., Thane, C.W., Bramwell, G.D. e Coward, W.A. (2007). Conditional Gaussian mixture modelling for dietary pattern analysis. Journal of the Royal Statistical Society: Series A, 170, Part 1, 149–166. [2] Gruen, B. e Leisch, F. (2008). FlexMix Version 2: Finite mixtures with concomitant variables and varying and constant parameters. Journal of Statistical Software, 28(4); http://www.jstatsoft.org/v28/i04/ [3] McLachlan, G.J. e Peel, D. (2000). Finite Mixture Models. Wiley: New York. SPE 2011 118 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Será possı́vel encontrar um próximo Cristiano Ronaldo? João Neves1 , Cláudia Pascoal1 , M. Rosário de Oliveira1 , José Maia2 e Duarte Freitas3 1 CEMAT e Departamento de Matemática, Instituto Superior Técnico, Universidade Técnica de Lisboa, {joao.d.neves, claudiapascoal}@ist.utl.pt, [email protected] 2 Faculdade de Desporto, Universidade do Porto, [email protected] 3 Departamento de Educação Fı́sica e Desporto, Universidade da Madeira, [email protected] Resumo: O Futebol infanto-juvenil é caracterizado por um vasto quadro de exigências formais, funcionais, técnicas, tácticas e estratégicas. Uma das principais tarefas dos treinadores/seleccionadores é tomar decisões de selecção, quase sempre de modo subjectivo, sobre os jovens que melhor configuram as exigências do treino e da competição. A avaliação objectiva das caracterı́sticas dos jovens futebolistas e das suas aptidões permite tomar decisões mais acertadas. Um dos grandes desafios na selecção refere-se, precisamente, à obtenção de perfis que permita diferenciar, com maior rigor e segurança, classes de jovens seleccionados em diferentes escalões competitivos. A abundância de informação, disponibilizada pelo crescente avanço tecnológico, tem tornado o problema de identificar as variáveis relevantes na descrição de um dado fenómeno, de importância capital em muitas áreas de conhecimento, que não apenas a Estatı́stica. Por exemplo, Blum e Langley [1] referem que o número de objectos necessário para obter uma dada precisão com o método de classificação do vizinho mais próximo cresce exponencialmente com o número de variáveis irrelevantes consideradas. Assim, o estudo de um conjunto de dados é, por vezes, dividido em duas fases: decidir quais as variáveis a usar na descrição do problema e como combinar essas variáveis para efectivamente resolver o problema real. Neste trabalho, considera-se um conjunto de dados formados por indicadores somáticos e motores dos jogadores de futebol das camadas infanto-juvenis da Região Autónoma da Madeira [3] recolhidos com o objectivo de estudar o problema de selecção de jovens futebolistas. Identificam-se as variáveis relevantes na escolha dos atletas seleccionados tendo em conta a informação mútua. Este indicador mede a quantidade de informação que uma variável contém acerca da outra, sendo uma medida de dependência linear e não linear entre variáveis [2]. Os resultados baseados nos estimadores clássicos de informação mútua são comparados com um novo método robusto de selecção de variáveis, também ele construı́do a partir deste indicador. Uma vez que os critérios de selecção dos treinadores parecem diferir entre os dois escalões de competição, os resultados obtidos são separados nos dois escalões analisados. Palavras–chave: Informação mútua, selecção de variáveis, futebol Bibliografia [1] Blum, A.L. e Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, 245–271. [2] Cover, T.M. e Thomas, J.A. (2007). Elements of information theory. 2a Edição. John Wiley and Sons. SPE 2011 119 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 [3] Quintal, A.J., Teixeira, A.L., Freitas, M.A., Maia, J.A., Freitas, D.L., Valdivia, A.B., Seabra, A.F., Garganta, R.M., Almeida, S.M., e Gouveia, E.R. (2007). O atleta infanto-juvenil madeirense. Selecção, performance motora e morfológica externa. Faculdade de Desporto da Universidade do Porto e Universidade da Madeira - Departamento de Educação Fı́sica e Desporto. SPE 2011 120 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Modelação espacial de acidentes rodoviários em Lisboa Ana Rita Nunes1 , Sı́lvia Shrubsall2 e Isabel Natário3 1 Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, [email protected] Centro de Sistemas Urbanos e Regionais (CESUR), Instituto Superior Técnico, [email protected] 3 Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] 2 Resumo: Os acidentes rodoviários em meio urbano contribuem para o decréscimo da qualidade de vida e para a inequidade social das cidades. Em Portugal o número e gravidade dos acidentes rodoviários decresceu muito nos últimos 20 anos, mas essa tendência não foi acompanhada em meio urbano onde a situação se afasta inaceitavelmente da média europeia. Estudos noutros paı́ses têm revelado a existência de relações entre as caracterı́sticas urbanas e a localização dos acidentes, permitindo adequar polı́ticas e gerir recursos eficazmente. Em Portugal não são conhecidos estudos sistemáticos neste âmbito. Na cidade de Lisboa tem vindo a verificar-se um decréscimo no número e gravidade dos acidentes rodoviários, mas a situação continua a ser preocupante. Deste modo, com base no conjunto de todos os acidentes com vı́timas ocorridos na cidade de Lisboa entre 2004 e 2007, os dados são tratados e analisados, na tentativa da caracterização do problema e, também, com vista a encontrar factores que se mostrem mais importantes na explicação da gravidade dos acidentes. Esta análise exploratória é feita recorrendo aos modelos lineares generalizados, nomeadamente ao modelo de regressão logı́stica na análise da gravidade dos acidentes e ao modelo de Poisson na análise do número de acidentes em cada freguesia da cidade de Lisboa. Estes dados são, ainda, geo-referenciados, pelo que se pretende explorar a natureza espaço-temporal dos mesmos, tentando perceber padrões geográficos e/ou temporais existentes, identificando factores de risco associados. Considerando a localização da ocorrência de cada acidente como aleatória enquadra-se este problema na teoria dos processos pontuais espaciais, eventualmente com marcas que podem traduzir a gravidade do referido acidente, permitindo a estimação da superfı́cie de risco associada em função de factores extrı́nsecos ao acidente. Em alternativa o número de acidentes pode, também, ser agregado em áreas, como sendo ruas, quarteirões ou freguesias. Pretende-se assim identificar medidas mais eficientes, tendo em conta as condições prevalecentes a nı́vel local, bem como realizar uma comparação com realidades internacionais no que respeita a segurança rodoviária. Palavras–chave: Acidentes rodoviários, modelos lineares generalizados, processos pontuais espaciais Agradecimentos: Este trabalho é parcialmente suportado pelo projecto SACRA, Spatial Analysis of Child Road Accidents, PTDC/TRA/66161/2006. Os dados utilizados no estudo foram cedidos pela Autoridade Nacional de Segurança Rodoviária, e a sua geo-referenciação foi feita pelo Laboratório Nacional de Engenharia Civil. SPE 2011 121 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Bibliografia [1] Al-Ghamdi, A.S. (2002). Using logistic regression to estimate the influence of accident factors on accident severity. Accident Analysis & Prevention, 34, 729–741. [2] Baddeley, A. (2008). Analysing Spatial Point Patterns in R. Workshop notes, CSIRO, 2008. http://www.csiro.au/resources/pf16h.html [3] Baddeley, A., Bárány, I. e Schneider, R. (2007). Spatial Point Processes and their applications. Lecture notes in mathematics. Springer. [4] Carvalho, M.L. e Natário, I. (2008). Análise de Dados Espaciais. Sociedade Portuguesa de Estatı́stica. SPE 2011 122 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Participação no Allgarve, imagem do Allgarve e imagem do Algarve: uma aplicação da análise de componentes principais não linear e da análise de correspondências Patrı́cia Oom do Valle1 , Manuela Guerreiro1 e Júlio Mendes1 1 Faculdade de Economia da Universidade do Algarve, {pvalle, mmguerre, jmendes}@ualg.pt Resumo: A imagem do Algarve enquanto destino turı́stico encontra-se fortemente ligada ao seu produto turı́stico principal, o sol e o mar. Em 2007, o Governo português lançou o programa de eventos Allgarve como os objectivos de aumentar a procura turı́stica e de reposicionar a imagem da região enquanto destino igualmente atento e dinâmico no que respeita à oferta de produtos culturais. Concebido na perspectiva dos turistas, o programa Allgarve não foi inicialmente bem recebido por parte dos residentes na região. Três anos após o surgimento do programa, este estudo avalia o nı́vel de participação dos residentes algarvios nos eventos do Allgarve e em que medida o seu grau de envolvimento se traduz numa imagem diferente do programa mas também do próprio Algarve. O interesse desta análise decorre do facto do Algarve ser o principal destino de férias dos algarvios e estes representarem uma proporção muito importante do público dos eventos integrados no Allgarve. Os dados do estudo resultaram da aplicação de um questionário estruturado a uma amostra de 241 residentes em Albufeira. A análise dos dados assenta no uso sequencial da Análise de Componentes Principais não Lineares e da Análise de Correspondências Múltiplas. O estudo evidencia que os residentes participantes nos eventos têm uma imagem do Allgarve e do próprio Algarve diferente da partilhada pelos residentes não participantes. Os primeiros tendem a percepcionar mais o Allgarve como um programa de eventos culturais e o Algarve como um destino de cultura e de glamour. Os segundos revelam com uma maior frequência que o Allgarve é desporto, feiras e gastronomia e que o Algarve é um destino seguro e familiar. As conclusões deste estudo evidenciam a relevância dos eventos enquanto instrumentos de reposicionamento de estratégias de imagem, dos eventos e dos próprios destinos. Palavras–chave: Análise de componentes principais não lineares, análise de correspondências múltiplas, Allgarve, Algarve, imagem SPE 2011 123 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Módulos interativos no ensino de Probabilidades e Estatı́stica Rui Paiva Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria e Centro de Matemática da Universidade do Porto, [email protected] Resumo: O objectivo deste trabalho é apresentar o projeto MITO – “Módulos Interativos de Treino Online” e descrever a experiência educativa de utilização de conteúdos interativos no ensino de Probabilidades e Estatı́stica na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria. A experiência centrou-se nas unidades curriculares de Estatı́stica dos cursos de licenciatura em Contabilidade e Finanças e Engenharia Mecânica e fez uso de diversos tipos de componentes interativas. Palavras–chave: Ensino a distância, interativo, GeoGebra, Moodle, STACK Introdução No Espaço Europeu, a educação superior atravessa mudanças efetivas e significativas que tiveram inı́cio há onze anos com a Declaração de Bolonha. O problema maior que estas mudanças colocam às instituições de Ensino Superior é resolver a equação constituı́da pela necessidade de democratizar o acesso ao seu ensino com a exigência, a profundidade e o rigor dos conhecimentos que ela tem obrigação de produzir e de transmitir. Fomentar o estudo persistente, empenhado e continuado ao longo do ano letivo e não apenas em momentos pontuais, que em pouco contribuem para a consolidação dos saberes, está entre os principais objetivos da Declaração de Bolonha. Para que tal aconteça, a avaliação, independentemente do formato que possa assumir - exames, testes, trabalhos de casa individuais, trabalhos de grupo, etc. -, assume um papel fundamental. A revisão frequente da matéria e a avaliação dos alunos ao longo do ano letivo implica um grande esforço por parte do professor e, no caso do ensino da Matemática, é uma tarefa extremamente difı́cil com o atual número de alunos existente no Ensino Superior. Neste sentido, a utilização de tecnologias tı́picas do e-learning dentro e fora da sala de aula pode assumir um papel fundamental. É neste contexto que surge o projeto MITO – “Módulos Interativos de Treino Online”, promovido pelo Departamento de Matemática (DMAT) da Escola Superior de Tecnologia e Gestão (ESTG) do Instituto Politécnico de Leiria (IPL). O principal objetivo é a construção de conteúdos interativos de apoio às unidades curriculares do DMAT lecionadas no ensino presencial e no ensino à distância. O projeto MITO (www.mito.ipleiria.pt/moodlemat) planeia converter-se num projeto mais abrangente, integrando os outros Departamentos da ESTG, as outras Escolas e Unidades Orgânicas do IPL, instituições de ensino superior nacionais e escolas do ensino básico e secundário. Vamos apresentar o projeto MITO e o seu desenvolvimento na ESTG no ano letivo 2010/11 no ensino de Probabilidades e Estatı́stica através das seis componentes de um módulo interativo do MITO: perguntas de treino e de avaliação (com correção e resolução automáticas, comentário à resposta errada e introdução da resposta sob a forma de expressão matemática), gráficos estáticos SPE 2011 125 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 e aleatórios com elevado nı́vel de detalhes, gráficos interativos gerados pelo software GeoGebra (www.geogebra.org), livros interativos do MITO, vı́deos tutoriais com elevada qualidade tipográfica e slides interativos. Bibliografia [1] Damião, M.H., Belo, P. e Ribeiro, C. (2009). Reorganização curricular de Bolonha: Percepções de alunos universitários. Centro de Psicopedagogia de Universidade de Coimbra. [2] Sangwin, C. (2007). Assessing elementary algebra with STACK. International Journal for Mathematical Education in Science and Technology, 8, 38, 987-1002. [3] Wild, I. (2009). Moodle 1.9 Math, Packt Publishing. SPE 2011 126 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Modelação Estatı́stica pela Teoria da Resposta ao Item Cláudia Pereira1 , Paulo Infante2 e Gonçalo Jacinto2 1 2 ECT da Universidade de Évora, [email protected] ECT da Universidade de Évora e CIMA-UE, {pinfante, gjcj}@uevora.pt Resumo: A Teoria da Resposta ao Item (TRI) pretende encontrar soluções que a teoria clássica dos testes não consegue dar resposta, nomeadamente, a de proporcionar medições que não dependam do instrumento de avaliação utilizado e conceber instrumentos de medida cujas propriedades não dependam dos objectos medidos. O objectivo deste trabalho é modelar estatisticamente o grau de dificuldade de provas de avaliação pela Teoria de Resposta ao Item. Pretende-se analisar os graus de dificuldade das provas nacionais de Matemática do 3◦ ciclo do Ensino Básico e do Ensino Secundário nos anos de 2008, 2009 e 2010, através da Teoria de Resposta ao item, de forma a correlacionar a dificuldade das provas e de algumas questões com os seus resultados finais e de modo a avaliar comparativamente esta associação nos últimos 3 anos. Por outro lado, procuramos estudar a influência do factor localização geográfica tomando como referência a divisão do paı́s em NUTS II. Palavras–chave: Teoria de Resposta ao Item, modelo logı́stico, correlação bisserial SPE 2011 127 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Estatı́stica Forense com dados Normais — Uma abordagem (bayesiana e frequencista) ao estudo de outliers Fernando Rosado Faculdade de Ciências da Universidade de Lisboa, Departamento de Estatı́stica e Investigação Operacional, Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] Resumo: Recentemente, Rosado (2009), Rosado e Neves (2008a) e Rosado e Neves (2008b), apresentaram alguma reflexão sobre a problemática dos outliers bayesianos em geral e, mais especificamente, contribuições para o estudo de observações discordantes em dados de Estatı́stica Forense. Neste trabalho faz-se uma análise dos trabalhos pioneiros de Lindley e Evett e da respectiva contribuição para o estudo de outliers bayesianos. Para além da perspectiva histórica concretiza-se um estudo de outliers nos dados construı́dos por Evett (1977). A sı́ntese deste trabalho permite formular uma metodologia essencialmente prática para estudo de outliers em Estatı́stica Forense com dados Normais. Palavras–chave: Outliers, estatı́stica forense, razão das chances, análise bayesiana Sobre o estudo de outliers numa perspectiva bayesiana Em estudos da prática estatı́stica, principalmente na Estatı́stica Forense, “o ADN” e “os fragmentos de vidro” são casos que requerem especial cuidado quer na interpretação dos dados quer no cálculo ou valor de prova. É mais sobre os segundos que falaremos neste trabalho. Para uma análise de outliers, através de dois exemplos, a seguir usaremos dados dos estudos pioneiros de Evett (1977) e Lindley (1977). Guttman (1973) é um trabalho de referência para a abordagem bayesiana no estudo de outliers. O interesse desse estudo torna-se particularmente importante na Estatı́stica Forense, como veremos. O modelo considerado por Guttman (1973) usa a Normalidade nos dados o que é particularmente interessante para o estudo que pretendemos fazer neste trabalho. No entanto é limitativo pois apenas considera observações discordantes por alterações no parâmetro de localização. Numa perspectiva mais actual do estudo de outliers é mais importante a formalização da influência do parâmetro de escala. É um trabalho que pode ser feito na continuação daquele que ora apresentamos. Como habitualmente, dispomos de n observações x1 , . . . , xn . No modelo de discordância, seja considerada uma hipótese que admite aquelas observações geradas por uma normal N(µ ,σ ) e que, para construir uma alternativa, também se supõe que uma delas possa ter sido gerada por uma normal N(µ + m,σ ). Assim, com estes pressupostos, podemos prosseguir o estudo em diversas vertentes: numa perspectiva de um Modelo Generativo com Alternativa Natural para estudo de outliers numa amostra (método GAN, como é feito em Rosado (2006), cap. 4) ou, embora mais restritiva, numa abordagem de deslizamento (como é feito em Barnett and Lewis (1994), p. 49 e p. 103) ou, ainda, na abordagem bayesiana proposta, entre outros, por Guttman (1973). Porque desejamos prosseguir para uma análise de observações discordantes em Estatı́stica Forense no que se segue optaremos de perto pela última das metodologias referidas. O ponto teórico de partida é a consideração das SPE 2011 129 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 distribuições a priori e a posteriori para os parâmetros envolvidos. Neste contexto é particularmente relevante a influência de m que, de algum modo, é empiricamente considerada como uma medida de contaminação dos dados o que pode ser usado para analisar a presença de um outlier na amostra. Conclusão Aqui chegados, várias questões são geradas pelo estudo prático que elaborámos. Para além do tema teórico fundamental da problemática e da controvérsia “bayesianismo vs frequencismo” também o modo como os métodos bayesianos investigam a presença (ou a ausência?) de observações discordantes numa amostra é questão que se deve aprofundar. Um outro tema - e este, se possı́vel, ainda mais complexo e que exige pesquisa - envolve o número de contaminantes na amostra e toda a problemática de contaminação “em bloco” ou “sequencial”; já um pouco estudada na estatı́stica dita tradicional. Concordamos com Aitken and Taroni (2004) que, no prefácio das duas edições da sua obra, registam e realçam o aumento da importância da Estatı́stica na Ciência Forense. Em dez anos, dizem, foi enorme o avanço alcançado. Mas, muito há para fazer! E, quando tudo está dito e feito, podemos continuar a citar Barnett and Lewis (1994, p. 459) para concluir que o principal problema no estudo de outliers numa amostra continua a ser aquele que os primeiros investigadores enfrentaram: O que é um outlier e o que fazer com essa observação? Agradecimentos: Investigação parcialmente apoiada pela Fundação para a Ciência e Tecnologia (FCT/OE) Bibliografia [1] Aitken, C. e Taroni, F. (2004). Statistics and Evaluation of Evidence for Forensic Scientists.2a edição. Wiley. [2] Barnett, V. e Lewis, T. (1994) - Outliers in Statistical Data. 3a edição. Wiley. [3] Curran, J.M. (2003) - The Statistical Interpretation of Forensic Glass Evidence. International Statistical Review 497-520. [4] Evett, I.W. (1977) - The interpretation of refractive index measurements. Forensic Science, 209-217. [5] Guttman, I. (1973) - Care and handling of univariate or multivariate outliers in detecting spuriosity - a Bayesian approach. Technometrics 723-8. [6] Hawkins, D.H. (1980) - Identification of Outliers. Chapman and Hall. [7] Lindley, D.V. (1977)- A problem in forensic science. Biometrika, 207-13. [8] Rosado, F.(2006) - Outliers em Dados Estatı́sticos. Edições SPE. [9] Rosado, F.(2009) - Outliers bayesianos em Estatı́stica Forense. TechnicalReport CEAUL 08/09. [10] Rosado, F. e Neves, M. (2008a) - Sobre a Crescente Importância da Estatı́stica na Ciência Forense. Technical Report CEAUL 1/2008. [11] Rosado, F. e Neves, M. (2008b) - Notes on Forensic Statistics and Outlier Identification. Technical Report CEAUL 25/2008. SPE 2011 130 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Análise prospectiva das condições de higiene e segurança alimentar na restauração Jorge Santos1 , Raquel Menezes1 e Carlos Teixeira2 1 Departamento de Matemática e Aplicações, Universidade do Minho, {jorge.mfd, rmenezes}@sapo.pt 2 Empresa Forvisão, Guimarães, [email protected] Resumo: As condições de Higiene e Segurança Alimentar em estabelecimentos de Restauração são de grande importância para todos nós. Numa primeira fase deste trabalho, analisam-se resultados obtidos em 266 auditorias efectuadas na zona Norte de Portugal. Faz-se uma análise por Distrito, Concelho e Lotação de cada restaurante, pretendendo-se por exemplo avaliar se o Distrito ou/e Concelho de origem dos restaurantes afecta as classificações obtidas nos parâmetros avaliados pela Lista de Verificação. Outros objectivos primordiais deste trabalho passam pela identificação de pontos crı́ticos e possı́veis intervenções. Procuram-se identificar responsabilidades dos resultados obtidos nas auditorias, se são do pessoal ou do próprio empresário. Procura-se perceber se o tipo de investimento necessário para melhorar as classificações são do tipo corpóreo ou não corpóreo, ou se serão requisitos de projecto ou pós-arranque ao funcionamento do estabelecimento. Por último, pretende-se avaliar a evolução entre 2 auditorias. Faz-se um estudo comparativo que envolve, para além dos dados anteriores, os resultados obtidos numa segunda auditoria decorrida sensivelmente 2 meses mais tarde. A segunda auditoria foi efectuada a 51 restaurantes, escolhidos entre o total de 266 iniciais, tendo sido os restaurantes em questão previamente avisados. Palavras–chave: Testes de associação, teste de McNemar, auditorias, restauração Introdução A base de dados fornecida é referente a auditorias executadas em estabelecimentos da Restauração do Norte de Portugal, segundo uma Lista de Verificação para o Controlo da Higiene e Segurança Alimentar na Restauração, elaborada pela Forvisão seguindo a legislação Europeia, através da Directiva 93/43/CEE de 14 Junho e dos Regulamentos 852/2004 e 853/2004 de 29 de Abril, e a legislação Nacional através dos DL 67/98 de 18 Março, DL 425/99 de 21 Outubro e o DL 113/2006 de 12 de Junho. Esta lista está dividida em oito áreas distintas de parâmetros controlados, nomeadamente as áreas: “Higiene Pessoal”, “Instalações Sanitárias do Pessoal”, “Vestiários do Pessoal”, “Cozinha/Copa/ Balcão”, “Armazéns/Dispensas/Frigorı́ficos/Arcas Congeladoras”, “Sala de Refeições”, “Fornecedores”e ‘Condições Gerais”, em que cada parâmetro é classificado por um dos seguintes nı́veis “Não Conforme”, “Conforme”, “Não Aplicável” ou “Não Observado”. Com o objectivo de avaliar as condições de Higiene e Segurança Alimentar, tem-se então disponı́vel um total de 106 parâmetros, todos eles auditados em cada um do total de 266 restaurantes, localizados em quatro distritos do SPE 2011 131 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Norte de Portugal. Inicializou-se este estudo com uma análise exploratória dos dados. Seguidamente, para verificar a existência de associações entre algumas variáveis em estudo, recorreu-se ao Teste do Qui-Quadrado, que como hipótese nula supõe a independência das variáveis, isto é a inexistência de associação entre elas. Quando os pressupostos deste teste não forem verificados, como por exemplo existirem células com uma frequência esperada inferior a 5, recorremos ao teste exacto de Fisher para testar a existência de associação entre as variáveis. Para as variáveis em que se provou existir uma associação estatisticamente significativa, utilizou-se o coeficiente V de Cramer para medir a força dessa associação. Na comparação entre as duas auditorias recorreu-se ao teste de McNemar para testar a significância de mudança de estado entre niveis, tendo-se concluido que ocorreram diferenças significativas entre auditorias, com melhorias na auditoria que ocorreu mais tarde. As áreas que mais melhoraram as suas classificações foram a “Higiene Pessoal”, “Instalações Sanitárias” e “Vestiários do Pessoal”. Bibliografia [1] Baptista, P. e Antunes, C. (2005). Higiene e Segurança Alimentar na Restauração, Volume II – Avançado, Forvisão - Consultadoria em Formação Integrada, S.A., Guimarães. [2] Baptista, P. e Linhares, M. (2005). Higiene e Segurança Alimentar na Restauração, Volume I – Iniciação, Forvisão - Consultadoria em Formação Integrada, S.A., Guimarães. [3] Pereira, A. (2008). Guia Prático de Utilização do SPSS – Análise de Dados para Ciências Sociais e Psicologia (7.a ed.), Edições Silabo, Lda, Lisboa. [4] Pestana, M.H. e Gageiro, J.N. (2009). Análise Categórica, Árvores de Decisão e Análise de Conteúdo – em Ciências Sociais e da Saúde com o SPSS, Lidel – Edições Técnicas, Lda, Lisboa. SPE 2011 132 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 Uma análise do fracasso escolar no Ensino Médio público de Minas Gerais Tufi Machado Soares1 , Neimar Fernandes da Silva1 , Mariana Calife Nóbrega1 e Alexandre Nicolella2 1 2 CAED-UFJF, {tufi, neimar, calife}@caed.ufjf.br USP/Campus Ribeirão Preto-Faculdade de Economia, [email protected] Resumo: O artigo discute os determinantes do abandono escolar no Ensino Médio. Os dados utilizados se baseiam em uma ampla pesquisa realizada em seis pólos regionais de educação do estado de Minas Gerais, que culminou com a coleta de diversas informações de um total de 3.418 entrevistados - entre alunos cursantes e não-cursantes. Com base nesses dados, estimaram-se dois modelos de Regressão de Riscos Proporcionais de Cox, que permitiram identificar a correlação entre diversas variáveis e a chegada ao terceiro ano do Ensino Médio, e, o efeito sobre a Taxa de Abandono condicionado às reprovações anteriores. O terceiro modelo desenvolvido utilizou as bases de dados da PNAD - Pesquisa Nacional por Amostra de Domicı́lios - que estimou-se um modelo Logito, que permitiu verificar a conclusão do Ensino Médio, para os jovens com 18 anos ou mais de idade por coorte de nascimento. Os resultados encontrados vão ao encontro dos principais desenvolvimentos da literatura, demonstrando a influência negativa, entre outros fatores, da gravidez na adolescência, defasagem idade/série, repetência, pertencer ao gênero masculino, ı́ndice socioeconômico baixo e necessidade de trabalhar para ajudar a famı́lia. No entanto, outros dois fatores foram medidos na pesquisa a (falta de) qualidade do professor e a dificuldade nas disciplinas. Palavras–chave: Fracasso escolar, Ensino Médio, modelo de regressão Introdução O fenômeno do abandono escolar é particularmente grave no sistema educacional público brasileiro. Sabe-se que os diferentes públicos que compõem este contingente encontram-se sujeitos a diversas condições educacionais. Valle e Hasenbalg [3], destacam que a educação no Brasil é conhecida por apresentar distintas caracterı́sticas, como distribuição muito desigual da escolaridade da população; ausência de igualdade de oportunidades educacionais, retratada pela alta correlação entre o nı́vel educacional das crianças e o de seus pais e avós; profundas disparidades regionais nos nı́veis educacionais; e nı́vel educacional médio demasiadamente baixo. Este trabalho interpreta, porém, o efeito de variáveis ligadas aos alunos e suas trajetórias escolares, destacando fatores que influenciam a permanência do aluno no sistema educacional. Este estudo presta-se, portanto, a uma análise dos determinantes de chegada e de conclusão do Ensino Médio, que de uma maneira geral, corroboram para o abandono precoce desses jovens. Os resultados apresentados por este artigo se baseiam em duas amostras, sendo uma pesquisa realizada em 46 escolas do estado de Minas Gerais, ao final de 2009, intitulada de PSAE - Pesquisa Sobre Abandono Escolar - e uma série histórica de dados da PNAD [1], coletadas nos anos de 2001 a 2008. SPE 2011 133 Sexta, 30/09/2011 Sessão de POSTERS II Átrio do Café, 10:00–10:30 A PSAE teve como população alvo os alunos cursantes do Ensino Médio das escolas públicas do estado referido, no ano de 2009 e os alunos que abandonaram o mesmo sistema educacional antes de sua conclusão nos anos de 2006, 2007, 2008 e 2009. No total, foram aplicados 3.418 questionários, o que permitiu delinear um panorama dos jovens que frequentam/frequentaram o sistema educacional mineiro em suas particularidades como situação familiar, dificuldades enfrentadas dentro e fora da escola, expectativas para o futuro, entre outras. Com base nas respostas, estimaram-se dois modelos estatı́sticos (Modelo de Regressão de COX [2]) que nos permitiu identificar os principais fatores associados à chegada ao 3o ano do Ensino Médio, e, o efeito da Taxa de Abandono condicionado às reprovações e abandonos por essa população. Enquanto, com a utilização das bases de dados da PNAD, foi possı́vel trabalhar com cerca de 380 mil casos, devido o caráter nacional da pesquisa. Pelo fato de a PSAE ser uma pesquisa especı́fica para o Ensino Médio, as informações nela contidas são muito mas ricas para a análise do abandono escolar para esta etapa de escolaridade do que aquelas contidas na PNAD, no entanto, esta pode trazer informações relevantes para o entendimento do abandono, por exemplo, sobre os determinantes da conclusão do Ensino Médio por grupos de alunos nascidos nos mesmos anos. Dessa forma, com base nas respostas, estimou-se outro modelo estatı́stico (Logito) que nos permitiu identificar outros fatores determinantes na conclusão da etapa de escolaridade, para os jovens com 18 anos ou mais de idade por coorte de nascimento. Acredita-se que a análise das duas pesquisas de forma conjunta cooperem para um melhor entendimento do abandono escolar no Ensino Médio para o estado de Minas Gerais. Em especial, percebeu-se que as caracterı́sticas mais marcantes em determinar a fuga da escola ou sua conclusão, eram aquelas já apontadas pela literatura educacional, como dificuldade em conciliar trabalho com os estudos, gravidez na adolescência, problemas familiares, excesso de matérias, falta de interesse, defasagem idade/série. No entanto, outros dois fatores se sobressaı́ram nesta pesquisa à dificuldade em aprender e a quando falta no trabalho do professor. Bibliografia [1] Brasil. Ministério do Planejamento, Orçamento e Gestão. Instituto Brasileiro de Geografia e Estatı́stica. Pesquisa Nacional por Amostra de Domicı́lios (PNAD). Rio de Janeiro: IBGE; 2001-2008. [2] Colosimo, E.A. e Giolo, S.R. (2006). Análise de Sobrevivência Aplicada. 1a ed. Edgard Blücher Ltda: São Paulo. [3] Valle, N. e Hansenbalg, C. (2000). Tendências da desigualdade educacional no Brasil. Dados, Rio de Janeiro, V.43, n.3, p.423-445. SPE 2011 134 Sexta, 30/09/2011 Inferência Estatı́stica II Sala Premium, 10:30–11:30 Momentos de um novo estimador para o parâmetro de forma da distribuição Weibull discreta Paulo Araújo Santos1 , Isabel Fraga Alves2 1 2 Instituto Politécnico de Santarém e CEAUL, [email protected] Faculdade de Ciências da Universidade de Lisboa e CEAUL, [email protected] Resumo: Apresentamos expressões teóricas para os momentos do estimador das proporções de Khan, Khalique e Abouammoh (1989), e para os momentos de um novo estimador proposto para o parâmetro de forma da distribuição Weibull discreta. Mostramos que o novo estimador tem um desempenho favorável comparativamente ao estimador das proporções, tanto em termos de viés, como de erro quadrático médio. Palavras–chave: Distribuição Weibull discreta, parâmetro de forma Introdução Em diversos campos de aplicação, modelamos os dados observados como uma amostra de um modelo contı́nuo. Em Grimshaw et al. (2005), um estudo é motivado pela prática comum de testar a dependência com base em durações com dados económicos e financeiros, utilizando a distribuição Weibull contı́nua quando os dados são na realidade de tipo discreto. Também em fiabilidade, vários estudos envolvem variáveis aleatórias discretas, como o número de cópias tiradas por uma máquina, o número de ciclos de uma máquina de lavar, entre outras. Devido a restricções práticas, com frequência, materiais, equipamentos, dispositivos e estruturas, são monotorizados periodicamente e não continuamente. Nestes casos, a distribuição Weibull discreta desempenha um papel importante. Para uma resenha sobre distribuições discretas de tempos de vida, veja-se Bracquemond e Gaudoin (2003). A distribuição Weibull discreta pode ser aplicada na análise de renovação polı́tica (Lin e Guillén, 1998) ou em problemas económicos envolvendo dependência com base em durações, por exemplo, o backtesting de modelos Value-at-Risk (Haas, 2005). A distribuição Weibull discreta, versão de Nakagawa e Osaki (1975), também conhecida como distribuição Weibull discreta tipo I, tem as seguintes função distribuição e função massa de probabilidade: FD (d) = θ 1 − qd , d = 1,2,3,... (pontos de salto) , 0, x<1 θ θ fD (d) = q(d−1) − qd , d = 1,2,3,..., para 1 < q < 0 e θ > 0. Nesta distribuição, θ é o parâmetro de forma e o parâmetro q é a probabilidade de uma duração ser superior a 1. Se W é uma variável aleatória (v.a.) Weibull contı́nua, SPE 2011 Mesa: Carla Henriques 135 Sexta, 30/09/2011 Inferência Estatı́stica II Sala Premium, 10:30–11:30 então por discretização D = [W ] + 1, onde [W ] denota a parte inteira de W , obtemos uma v.a. Weibull discreta tipo I. Em 1984, Stein e Dattero (1984), introduziram a Weibull discreta tipo II. Em 1985, Padgett e Spurrier (1985) introduziram a Weibull discreta tipo III. A distribuição tipo II tem uma desvantagem que decorre de ter um suporte limitado. A estimação de parâmetros é difı́cil na distribuição tipo III. No estudo sobre distribuições discretas de tempos de vida, Bracquemond e Gaudoin (2003), recomendam a utilização da distribuição tipo I. Neste trabalho apresentamos expressões teóricas para os momentos do estimador das proporções de Khan, et al. (1989), e para os momentos de um novo estimador proposto para o parâmetro de forma θ . Mostramos que o novo estimador tem um desempenho muito superior em comparação com o estimador das proporções, quer em termos de viés, quer em termos de erro quadrático médio. Agradecimentos: Este trabalho é parcialmente financiado pela Fundação para a Ciência e Tecnologia (FCT/PROTEC e FCT/OE). Bibliografia [1] Bracquemond, C. e Gaudoin, O. (2003). A survey on discrete lifetime distributions. International Journal of Reliability, Quality and Safety Engineering, 10, 69–98. [2] Grimshaw S.D., McDonaldb J., McQueenc G.R. e Thorleyc S. (2005). Estimating Hazard Functions for Discrete Lifetimes Communications in Statistics - Simulation and Computation, 34(2), 451–463. [3] Haas, M. (2005). Improved duration-based backtesting of Value-at-Risk, Journal of Risk, 8(2), 17–36. [4] Khan, M.S.A., Khalique, A. e Abouammoh, A.M. (1989). On Estimating Parameters in a Discrete Weibull Distribution. IEEE Transactions Reliability, 38, Aug., 348–350. [5] Lin T. e Guillén M. (1998). The rising Hazards of Party Incumbency. A Discrete Renewal Analysis. Political Analysis. An Annual Publication of the Methodology Section of the American Political Science Association. vol. 7, 31–57. [6] Nakagawa T. e Osaki S., (1975). The discrete Weibull distribution. IEEE Transactions Reliability, vol 24, Dec., 300–301. [7] Padgett W.J. e Spurrier J.D., (1985). Discrete failure models. IEEE Transactions Reliability, vol. 34, no.3, 253–256. [8] Stein W.E. e Dattero R., (1984). A new discrete Weibull distribution, IEEE Transactions Reliability, vol R-33, Jun., 196-197. SPE 2011 Mesa: Carla Henriques 136 Sexta, 30/09/2011 Inferência Estatı́stica II Sala Premium, 10:30–11:30 Núcleos de fronteira na estimação da função de distribuição Carlos Tenreiro CMUC, Departamento de Matemática, Universidade de Coimbra, [email protected] Resumo: São bem conhecidos os efeitos de fronteira em estimadores do núcleos de curvas com suporte compacto, como a regressão ou a densidade de probabilidade. No contexto, menos estudado, da estimação da função de distribuição, consideramos neste trabalho estimadores do núcleo com correcção de fronteira e estabelecemos algumas das suas propriedades assintóticas. Os resultados obtidos mostram a superioridade do estimador com correcção de fronteira relativamente ao estimador não corrigido do núcleo no caso da função de distribuição subjacente às observações não ser suficientemente regular nos pontos extremos do suporte da distribuição. Palavras–chave: Estimador do núcleo da função de distribuição, núcleos de fronteira, propriedade de Chung-Smirnov, erro quadrático médio integrado Introdução Sendo X1 , . . . ,Xn cópias independentes duma variável aleatória real absolutamente contı́nua com densidade de probabilidade f e função de distribuição F, desconhecidas, o estimador do núcleo de F, introduzido por autores como Tiago de Oliveira [6], Watson e Leadbetter [7] ou Nadaraya [4], surge como integral do estimador da densidade de Parzen-Rosenblatt, sendo definido, para x ∈ R, por 1 n x − Xi F̄nh (x) = ∑ K̄ , (1) n i=1 h R onde K̄(u) = ]−∞,u] K(v)dv, para u ∈ R, com K um núcleo em R, isto é, uma densidade de probabilidade simétrica e limitada com suporte [−1,1], e h = hn uma sucessão de números reais estritamente positivos que converge para zero quando n tende para infinito. Com o objectivo de melhorar o desempenho do estimador (1) quando F não é suficientemente regular nos pontos extremos do suporte [a,b] da distribuição (suporte este que supomos conhecido), consideramos neste estudo a utilização dos chamados núcleos de fronteira, propostos para os estimadores do núcleo da regressão e da densidade em [1], [2], [3] e [5]. O estimadorR do núcleo com correcção de fronteira Fnh é definido por (1) sendo K̄ substituı́do por K̄x,h (u) = ]−∞,u] Kx,h (v)dv, onde, para x ∈ ]a,b[ e 0 < h ≤ (b − a)/2, Kx,h toma a forma L K (u; (x − a)/h), a < x < a + h K(u), a+h ≤ x ≤ b−h Kx,h (u) = R K (u; (b − x)/h), b − h < x < b, onde K L (·; α ) e K R (·; α ) são, para α ∈ ]0,1[, núcleos de segunda ordem com suportes contidos em [−1,α ] e [−α ,1], respectivamente. Além disso, definimos Fnh (x) = 0 para x ≤ a e Fnh (x) = 1 para x ≥ b. SPE 2011 Mesa: Carla Henriques 137 Sexta, 30/09/2011 Inferência Estatı́stica II Sala Premium, 10:30–11:30 Se, em particular, tomarmos K L (u; α ) = K(u/α )/α , verificamos que Fnh é, com probabilidade um, uma função de distribuição contı́nua. Assim, no contexto da estimação da função de distribuição, e contrariamente ao que acontece no caso da estimação da densidade de probabilidade, a vantagem teórica do estimador com correcção de fronteira que estabelecemos nos resultados seguintes, é compatı́vel com a propriedade natural de obtermos um estimador próprio da função de distribuição. Principais resultados R Teorema 1 (Convergênica uniforme). Para ℓ = L,R, seja K ℓ tal que supα ∈ ]0,1[ |K ℓ (u; α )| du < ∞. Se h → 0, então sup |Fnh (x) − F(x)| → 0 quase completamente. x∈R Teorema 2 (Propriedade de Chung-Smirnov). Nas condições do Teorema 1, se F é de Lipschitz e (n/ log log n)1/2 h → 0, ou se F ′ é de Lipschitz em [a,b] e (n/ log log n)1/2 h2 → 0, então lim sup (2n/ log log n)1/2 sup |Fnh (x) − F(x)| ≤ 1 quase certamente. n→∞ x∈R Teorema 3 (Desenvolvimento assintótico do erro quadrático médio integrado (EQMI)). Para ℓ = é tal que L,R, se Kℓ 2 R1 R ℓ |K (u; α )|du d α < ∞ e a restrição de F ao intervalo [a,b] é duas vezes continuamente dife0 renciável, então Z Z Z 1 h E {Fnh (x) − F(x)}2 dx = F(x)(1 − F(x))dx − 2 uK(u)K̄(u)du n n Z 2 Z h4 2 u K(u)du F ′′ (x)2 dx + O n−1 h2 + o h4 . + 4 Bibliografia [1] Gasser, T. e Müller, H.-G. (1979). Kernel estimation of regression functions. In Smoothing Techniques for Curve Estimation, Gasser, T., Rosenblatt, M. (Eds), Lecture Notes in Mathematics, 757, 23–68. [2] Gasser, T., Müller, H.-G. e Mammitzsch, V. (1985). Kernels for nonparametric curve estimation. J.R. Stat. Soc. Ser. B Stat. Methodol., 47, 238–252. [3] Müller, H.-G. (1991). Smooth optimum kernel estimators near endpoints. Biometrika, 78, 521– 530. [4] Nadaraya, E.A. (1964). Some new estimates for distribution functions. Theory Probab. Appl., 9, 497–500. [5] Rice, J. (1984). Boundary modification for kernel regression. Comm. Statist. Theory Methods, 13, 893–900. [6] Tiago de Oliveira, J. (1963). Estatı́stica de densidades: resultados assintóticos. Rev. Fac. Ciên. Lisboa, 9, 111–206. [7] Watson, G.S. e Leadbetter, M.R. (1963). On the estimation of the probability density. I. Ann. Math. Statist., 34, 480–491. [8] Yamato, H. (1973). Uniform convergence of an estimator of a distribution function. Bull. Math. Statist., 15, 69–78. SPE 2011 Mesa: Carla Henriques 138 Sexta, 30/09/2011 Inferência Estatı́stica II Sala Premium, 10:30–11:30 O teste de independência de vários grupos de variáveis aleatórias para várias amostras – Distribuições exacta e quase-exactas da estatı́stica de razão de verosimilhanças Filipe J. Marques e Carlos A. Coelho 1 Departamento de Matemática, Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, {fjm,cmac}@fct.unl.pt Resumo: Neste trabalho, são desenvolvidas distribuições quase-exactas para a estatı́stica de razão de verosimilhanças, λ , utilizada para testar a hipótese de independência de vários grupos de variáveis para várias amostras. Utilizando uma decomposição da hipótese nula, em estudo, em duas hipóteses nulas parciais, pode-se obter a expressão da estatı́stica de teste λ , bem como a expressão do seu h-ésimo momento nulo e da função caracterı́stica da variável aleatória W = − log λ . Esta decomposição da hipótese nula induz uma factorização na função caracterı́stica de W que, juntamente com resultados obtidos em [2] e [3], são a base para a obtenção das distribuições exactas de W e λ sob uma forma adequada ao desenvolvimento de distribuições quase-exactas para estas estatı́sticas. As distribuições quase-exactas assim obtidas correspondem a uma distribuição Gama Quase-Inteira Generalizada (GQIG, veja-se [2]) ou a misturas de distribuições GQIG. Os estudos numéricos desenvolvidos mostram a qualidade das aproximações obtidas e as suas boas propriedades assimptóticas. Palavras–chave: Distribuição gama inteira generalizada, independência de grupos de variáveis, igualdade de matrizes de covariância Distribuições exacta e quase-exactas para a estatı́stica de razão de verosimilhanças do teste de independência de vários de grupos de variáveis aleatórias para várias amostras O teste de independência de grupos de variáveis aleatórias para várias amostras é uma generalização do usual teste de independência de grupos de variáveis aleatórias. No caso em estudo, consideramos q amostras independentes, cada uma extraı́da de uma população multivariada normal, Np (µ j , Σ j ) com j = 1, . . . ,q . Estamos interessados em testar a hipótese nula Σ11 0 . . . 0 0 Σ22 . . . 0 (1) H0 : Σ1 = Σ2 = · · · = Σq = .. .. .. .. ( Σii não especificadas) . . . . 0 0 ... Σkk onde Σii é de ordem pi × pi com i = 1, . . . ,k e p = p1 + · · · + pk . A hipótese nula em (1) pode ser decomposta em duas hipóteses nulas parciais onde SPE 2011 H0 = H0b|0a ◦ H0a (2) H0a : Σ1 = Σ2 = · · · = Σq (= Σ) (Σ não especificada) (3) Mesa: Carla Henriques 139 Sexta, 30/09/2011 Inferência Estatı́stica II Sala Premium, 10:30–11:30 é a hipótese nula de igualdade de q matrizes de covariância (veja-se [1]) e onde H0b|0a : Σi j = 0 for i 6= j where i, j = 1, . . . ,k assumindo que Σ1 = Σ2 = · · · = Σq (= Σ) (4) é a hipótese nula para testar a independência dos k grupos de variáveis (veja-se [1]). A decomposição da hipótese nula, H0 , em (2) permite-nos obter a estatı́stica de teste, λ , como o produto das estatı́sticas de razão de verosimilhanças, λa e λb|a , utilizadas para testar respectivamente H0|a e H0b|0a em (3) e (4). Dada a independência das estatı́sticas λa e λb|a sob H0 , a expressão do h-ésimo momento nulo de λ pode ser obtido como o produto dos h-ésimos momentos nulos de λa e λb|a . Esta decomposição da hipótese nula induz também uma factorização na função caracterı́stica da variável aleatória W = − log λ , a qual, juntamente com os resultados obtidos em [2] e [3], é a base para o desenvolvimento de distribuições quase-exactas para W e para λ . As distribuições quase-exactas assim obtidas correspondem a uma distribuição Gama Quase-Inteira Generalizada (GQIG, veja-se [2]) ou misturas de distribuições GQIG. São apresentados gráficos das funções densidade de probabilidade e distribuição quase-exactas de λ , para diferentes casos, e realizados estudos numéricos, baseados numa medida de proximidade entre funções caracterı́sticas que é também uma medida de proximidade entre funções distribuição, os quais mostram a qualidade das aproximações desenvolvidas. Agradecimentos: Este trabalho de investigação foi financiado pela Fundação para a Ciência e Tecnologia através do Centro de Matemática e Aplicações (CMA) da Universidade Nova de Lisboa (Financiamento Base 2010 ISFL-1-297 de FCT/MCTES/PT). Bibliografia [1] Anderson, T.W. (2003). An Introduction to Multivariate Statistical Analysis. 3rd ed. New York, J. Wiley & Sons. [2] Coelho, C.A. (2004). The Generalized near-integer gamma distribution: a basis for “nearexact” approximations to the distributions of statistics which are the product of an odd number of independent Beta random variables. Journal of Multivariate Analysis, 89, 191-218. [3] Coelho, C.A. e Marques, F.J. (2011). Near-exact distributions for the likelihood ratio test statistic to test equality of several variance-covariance matrices in elliptically contoured distributions. Computational Statistics (aceite para publicação). SPE 2011 Mesa: Carla Henriques 140 Sexta, 30/09/2011 Telecomunicações Sala Dinastia, 10:30–11:30 Os Piratas da Internet II: O Cofre das Anomalias Mortas Cláudia Pascoal1 , M. Rosário de Oliveira1 , Peter Filzmoser2 , António Pacheco1 e Rui Valadas3 1 CEMAT e Departamento de Matemática, Instituto Superior Técnico, Universidade Técnica de Lisboa, [email protected], {rsilva,apacheco}@math.ist.utl.pt 2 Department of Statistics and Probability Theory, Vienna University of Technology, [email protected] 3 Instituto de Telecomunicações, Instituto Superior Técnico, Universidade Técnica de Lisboa, [email protected] Resumo: Após o primeiro enredo cujo guião principal se centra no estudo de diversos métodos de deteção de anomalias na transmissão de dados na Internet baseados em componentes principais robustas, a ação desenvolve-se agora numa outra direção. Neste novo espisódio, as personagens pretendem selecionar, de um vasto leque de variáveis, as mais promissoras na identificação destas anomalias. Em problemas reais, a existência de variáveis que não contribuem efectivamente para distinguir anomalias de tráfego regular, prejudica o desempenho dos métodos de deteção de anomalias. De modo a minimizar este problema, sugere-se um novo método robusto de seleção de variáveis que se baseia numa medida de associação entre variáveis, popular entre a comunidade da Teoria da Informação [1], mas menos conhecido entre os estatı́sticos. Esta medida, denominada Informação Mútua, mede associações lineares e não-lineares entre 2 variáveis e goza de um conjunto de propriedades teóricas interessantes que a tornaram presença assı́dua em métodos de seleção de variáveis aplicados a diversas áreas. Blum e Langley [2] agrupam os métodos de seleção de variáveis em 3 categorias, denominando por métodos de filtragem (filter methods) aqueles que realizam a seleção de variáveis a priori ao método de análise que se pretende utilizar, que neste caso é: método de identificação de outliers (ou anomalias) baseado em componentes principais robustas. A Informação Mútua é calculada entre cada variável disponı́vel para caracterizar os objectos e a variável (binária, no presente exemplo) que representa a classe a que cada objecto (fluxo) pertence (assume o valor 1, se o fluxo é anómalo e 0 caso contrário). Para tal, utiliza-se um estimador robusto da Informação Mútua, menos sensı́vel a classificações incorrectas dos fluxos como anómalos ou regulares. Este facto é particularmente importante no caso do tráfego de Internet pois raramente há certezas absolutas quanto à classe a que cada fluxo da amostra de treino efectivamente pertence [3]. As variáveis selecionadas como informativas na classificação das observações, são utilizadas na estimação robusta de componentes principais. Cada nova observação será então projectada nestas direções e classificada como anómala ou regular. A avaliação dos novos métodos propostos é feita, não só através de um estudo de simulação, mas também através de dados obtidos a partir de um emulador de redes, que reconstitui condições muito próximas da realidade do funcionamento da Internet actual, e simultaneamente permite obter fluxos em que se sabe exactamente qual a classe a que pertencem. Tal facto, permite avaliar de forma efectiva o desempenho dos métodos de deteção de anomalias. Palavras–chave: Seleção de variáveis, informação mútua, deteção de anomalias, análise em componentes principais SPE 2011 Mesa: Fernanda Otı́lia Figueiredo 141 Sexta, 30/09/2011 Telecomunicações Sala Dinastia, 10:30–11:30 Bibliografia [1] Walters-Williams, J. e Li, Y. (2009). Estimation of mutual information: A survey. Proceedings of the 4th International Conference on Rough Sets and Knowledge Technology, 5589/2009, 389–396. [2] Blum, A.L. e Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, 245–271. [3] Ringberg, H., Roughan, M. e Rexford, J. (2008). The need for simulation in evaluating anomaly detectors. SIGCOMM Comput. Commun. Rev., 38, 1, 55–59. SPE 2011 Mesa: Fernanda Otı́lia Figueiredo 142 Sexta, 30/09/2011 Telecomunicações Sala Dinastia, 10:30–11:30 Connectividade em Redes de Telecomunicações Ad Hoc Gonçalo Jacinto1 , Nelson Antunes2 e António Pacheco3 1 ECT da Universidade de Évora e CIMA-UE, [email protected] FCT da Universidade do Algarve e CEMAT, [email protected] 3 Instituto Superior Técnico, Universidade Técnica de Lisboa e CEMAT, [email protected] 2 Resumo: Uma rede de telecomunicações ad hoc é uma rede sem fios constituı́da por nós que se organizam autonomamente e sem recurso a qualquer infra-estrutura e onde a comunicação entre dois nós usualmente ocorre através de rotas com múltiplas ligações. Uma das medidas mais importantes para avaliar o desempenho dos protocolos de selecção de rotas é o número de ligações necessárias para construir uma rota, sendo que a criação dessa rota tem que ter em conta, além de outros factores, a distribuição espacial dos nós, o alcance de transmissão de cada nó e o protocolo utilizado. Neste trabalho é derivada a distribuição de probabilidade do número de ligações de uma rota numa rede de telecomunicações ad hoc, quando o número de nós é fixo e uniformemente distribuı́do entre o nó emissor e o nó destino. Esta distribuição é derivada usando o método de aleatorização de Poisson. As rotas seleccionadas usam os protocolos que seleccionam o nó mais afastado ou o nó mais próximo do nó emissor. São obtidos resultados numéricos para comparar os protocolos de selecção de rotas e avaliar o respectivo desempenho. Palavras–chave: Redes de telecomunicações ad hoc, conectividade, rotas com múltiplas ligações Introdução e Discussão Uma das medidas mais importantes para avaliar o desempenho dos protocolos de selecção de rotas é o número de saltos necessários para construir uma rota, sendo que a criação dessa rota tem que ter em conta, além de outros factores, a distribuição espacial dos nós, o alcance de transmissão de cada nó e o protocolo utilizado. A interacção destas caracterı́sticas torna bastante complexa a tarefa de obter a distribuição de probabilidade do número de ligações necessárias para efectuar uma comunicação entre o nó emissor e o nó destino. Por estas razões, e apesar da sua importância, existem poucos resultados sobre este tópico e os resultados existentes consideram modelos com rotas com apenas uma ligação ([4, 5]) e/ou resultados aproximados ([3, 2]). No artigo [1] é derivada a distribuição de probabilidade do número de ligações duma rota numa rede unidimensional. Neste trabalho, derivamos a distribuição de probabilidade do número de ligações quando os nós se encontram uniformemente distribuı́dos numa área de interesse, utilizando o método de aleatorização de Poisson. Esta distribuição de probabilidade é obtida para rotas que seleccionam o nó mais afastado ou o nó mais próximo do nó emissor. No final do artigo são apresentados resultados numéricos para avaliar o desempenho da distribuição de probabilidade do número de saltos e para comparar os dois métodos de selecção de rotas. Através dos resultados obtidos concluı́mos que o protocolo que seleccciona o nó mais afastado é mais eficiente para encontrar uma rota entre o nó fonte e o nó destino. SPE 2011 Mesa: Fernanda Otı́lia Figueiredo 143 Sexta, 30/09/2011 Telecomunicações Sala Dinastia, 10:30–11:30 Bibliografia [1] Antunes, N., Jacinto, G. e Pacheco, A. (2008). On the minimum hop count and connectivity in one-dimensional Ad Hoc wireless networks. Telecommunication Systems 39 (2), 366-376. [2] Dulman, S., Rossi, M., Havinga, P. e Zorzi, M. (2006). On the hop count statistics for randomly deployed wireless sensor networks. International Journal of Sensor Network 1 (1), 89–102. [3] Kuo, J.-C. e Liao, W. (2007). Hop count distribution of multihop paths in wireless networks with arbitrary node density: Modeling and its applications. IEEE Transactions on Vehicular Technology 4, 56, 2321 - 2331. [4] Srinivasa, S. e Haenggi, M. (2009). Distance distributions in finite uniformly random networks: Theory and applications. IEEE Transactions on Vehicular Technology, 59 (2), 940949. [5] Vural, S. e Ekici, E. (2005). Analysis of hop distance relationship in spatially random sensor networks. MobiHoc ’05: Proceedings of the 6th ACM international symposium on Mobile ad hoc networking and computing. ACM, New York, USA. SPE 2011 Mesa: Fernanda Otı́lia Figueiredo 144 Sexta, 30/09/2011 Telecomunicações Sala Dinastia, 10:30–11:30 Problemas inversos em filas de espera e sua aplicação à monitorização da Internet Gonçalo Jacinto1 e Nelson Antunes2 1 2 ECT da Universidade de Évora e CIMA-UE, [email protected] FCT da Universidade do Algarve e CEMAT, [email protected] Resumo: Na teoria de filas de espera, usualmente, os parâmetros do sistema são conhecidos e pretende-se derivar as medidas de desempenho do sistema. O problema inverso consiste em observar várias trajectórias do mesmo sistema e, utilizando as equações de evolução do sistema, deduzir os parâmetros que deram origem a estas observações. Este tipo de problemas inversos tem um papel fundamental na avaliação de desempenho e na monitorização do tráfego na Internet e é usualmente denominado por medições activas. Para isso, introduzem-se pacotes de teste da rede, chamados de sondas, e observa-se o seu desempenho. Estes pacotes constituem uma amostra do sistema real, cuja análise permite reconstruir as caracterı́sticas do tráfego original. Neste trabalho, iremos abordar as diferentes metodologias utilizadas na literatura para monitorização do tráfego na Internet através do envio de sondas e estudar o efeito da distribuição do intervalo de tempo entre sondas. No final, iremos apresentar os desafios que ainda se colocam nos problemas inversos em filas de espera e dos possı́veis caminhos para a sua solução. Palavras–chave: Filas de espera, problemas inversos, medições activas Introdução e Discussão A enorme expansão da Internet associada com o aparecimento de novas aplicações multimédia, colocam vários problemas no desempenho e controlo da rede. Torna-se, portanto, necessário monitorizar a rede de forma a que se consiga eficientemente medir a qualidade de serviço e construir mecanismos de controlo da congestão da rede. É neste sentido que as medições activas têm sido alvo de grande interesse por parte dos investigadores, pois permitem medir o desempenho do tráfego da Internet, enviando sondas para a rede (pacotes de teste), cuja observação constitui uma amostra do estado da rede. Este tipo de medições é realizada no inı́cio e no fim da rede, não havendo necessidade de ter acesso ao seu interior e podendo ser facilmente realizada por qualquer utilizador. As medições activas da rede permitem estudar caracterı́sticas tão diversas da rede como perdas e atrasos dos pacotes, a largura de banda disponı́vel, e até as caracterı́sticas do tráfego na rede. Neste trabalho, iremos estudar os problemas inversos em filas de espera com aplicações à monitorização e análise de desempenho da Internet. Isto é, através do envio de sondas para a rede e das suas observações, infere-se os parâmetros que descrevem a fila de espera, nomeadamente, qual a taxa de entrada do tráfego e qual a taxa de serviço dos pacotes. Existem poucos resultados na literatura que estudam este tipo de problemas inversos e os principais são [1, 3, 5]. No entanto, como as SPE 2011 Mesa: Fernanda Otı́lia Figueiredo 145 Sexta, 30/09/2011 Telecomunicações Sala Dinastia, 10:30–11:30 sondas são processadas como pacotes da rede e têm um tamanho positivo, estas irão iteragir com o tráfego real da rede e portanto são por inerência intrusivas. Como resultado desta intrusão, as medidas do sistema perturbado pelas sondas difere das medidas do sistema real, pelo que se levanta um novo problema de determinar as caracterı́sticas do tráfego real através das caracterı́sticas do tráfego perturbado. Também a periodicidade do envio das sondas tem um papel fundamental na análise do sistema real, pois, embora à partida o envio de sondas em intervalos de tempo determinı́sticos pareça ser a forma mais simples, este envio periódico poderá sincronizar com o próprio sistema [4]. Para evitar a sincronização, enviar as sondas segundo um processo de renovamento parece ser uma alternativa. Além disso, se o envio for efectudado segundo um processo de Poisson, um resultado conhecido como PASTA (Poisson Arrivals See Time Averages), assegura que as médias observadas pelas sondas convergem para o verdadeiro valor médio do sistema [2]. Neste trabalho, iremos percorrer as diversas metodologias utilizadas na monitorização do tráfego na Internet através do envio de sondas e estudar o impacto da distribuição do intervalo de tempo entre sondas. No final, iremos apresentar os desafios que ainda se colocam nos problemas inversos em filas de espera e os possı́veis caminhos para a sua solução. Bibliografia [1] Alouf, S., Nain, P. e Towsley, D. F., R. (2001). Inferring network characteristics via momentbased estimators. INFOCOM, 1045-1054. [2] Baccelli, F., Machiraju, S., Veitch, D. e Bolot, J. (2006). The role of PASTA in network measurement. In Proceedings of SIGCOMM ’06. ACM, New York, NY, USA, 231-242. [3] Baccelli, F., Kauffmann, B. e Veitch, D. (2009). Inverse problems in queueing theory and Internet probing. Queueing Systems 63, 59 - 107. [4] Roughan, M. (2006). A comparison of poisson and uniform sampling for active measurements. IEEE Journal on Selected Areas in Communication, 24 (2), 2299-2312. [5] Sharma, V. e Mazumdar, R. (1998). Estimating traffic parameters in queueing systems with local information. Performance Evaluation, 32, 217-230. SPE 2011 Mesa: Fernanda Otı́lia Figueiredo 146 Sexta, 30/09/2011 Modelos Lineares Sala Caminho Real, 10:30–11:30 Validação estocástica do algoritmo ziguezague na análise conjunta de regressões Dulce Gamito Pereira1 , João Tiago Mexia2 e Victor Ramos Tavares3 1 Universidade de Évora, DMAT e CIMA, [email protected] Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, DMAT e CMA, [email protected] 3 Doutorando do Programa de Doutoramento de Matemática, Universidade de Évora, [email protected] 2 Resumo: A Análise Conjunta de Regressões (ACR), tem sido uma técnica bastante utilizada no domı́nio da avaliação de genótipos/cultivares. Mexia et al. (1999), introduziram os ı́ndices ambientais L2 que permitiram estender as técnicas de ACR aos planos de melhoramento em blocos incompletos. Pereira (2004) desenvolveu de forma sistemática a ACR utilizando ı́ndices ambientais L2 . A aplicação destes ı́ndices aos blocos incompletos é concretizada por um algoritmo iterativo - algoritmo ziguezague - e a sua utilização para além de permitir obter estimadores de máxima verosimilhança dos ı́ndices ambientais, permite a obtenção destes estimadores para outros parâmetros e a realização de testes de razão de verosimilhanças. Desta forma consegue-se a integração da ACR na inferência estatı́stica. Embora funcionando bem este algoritmo não dispõe de uma validação teórica para o caso geral em que não se assume trabalhar com blocos completos. Pretende-se agora obter uma validação estocástica do mesmo. Palavras–chave: Análise Conjunta de Regressões, regressão linear, ı́ndices ambientais, validação estocástica, algoritmo ziguezague Bibliografia [1] Mexia, J.T., Pereira, D.G. e Baeta, J. (1999). L2 environmental indexes. Biometrical Letters, 36, 137–143. [2] Pereira, D.G. (2004). Conjunta Pesada de Regressões em Redes de Ensaios. Tese de Doutoramento Universidade de Évora. [3] Pereira, D.G. e Mexia, J.T. (2009). Comparing double minimization and zigzag algorithms in Joint Regression Analysis: the complete case. Journal of Statistical Computation and Simulation, Vol. 80, No.2 133–141. SPE 2011 Mesa: Maria do Carmo Miranda Guedes 147 Sexta, 30/09/2011 Modelos Lineares Sala Caminho Real, 10:30–11:30 Aplicação de modelos com dados em painel - estudo de caso Conceição Rocha1 , Manuel Oliveira2 e Teresa Mendonça3 1 Faculdade de Economia, Universidade do Porto e CIDMA, [email protected] Faculdade de Economia, Universidade do Porto, [email protected] 3 Departamento de Matemática, Faculdade de Ciências, U. do Porto e CIDMA, [email protected] 2 Resumo: Neste estudo de caso é feita uma análise do sinal Bispectral Index Score (BIS) em pacientes sedados por administração de propofol a partir da estimação de modelos com dados em painel. Os dados clı́nicos foram recolhidos durante a monitorização de colonoscopias no Hospital Universitário de Barcelona (84 casos reais). Neste trabalho explora-se a relação entre o sinal de BIS e a quantidade de fármaco administrada, bem como as suas variações com os atributos fı́sicos do paciente (peso, altura, sexo e LBM). Palavras–chave: Dados em painel, regressão multivariada, modelos de efeitos fixos A importância crescente que a medicina preventiva tem vindo actualmente a assumir, conduziu à frequente realização de exames de diagnóstico ou apoio ao diagnóstico mais invasivos, aumentando significativamente o uso de técnicas anestésicas (p.e. sedação). Essencialmente, existem três tipos de fármacos para a anestesia: hipnóticos, opióides e bloqueadores neuromusculares. Os diferentes fármacos visam diferentes objectivos. Os hipnóticos induzem a inconsciência, os opióides para além de analgésicos são também protectores contra os reflexos autonómicos e os bloqueadores neuromusculares são imobilizadores. Com o aparecimento do propofol, usado pela primeira vez em 1977, a anestesia intravenosa sofreu uma revolução, uma vez que é um agente hipnótico adequado para a indução e manutenção da anestesia, [1]. Nas últimas décadas, com a utilização de novos fármacos para administração intravenosa, tais como o opióide remifentanil, bem como o recente desenvolvimento tecnológico a par de uma melhor compreensão dos princı́pios farmacocinéticos levaram ao desenvolvimento de técnicas de anestesia totalmente intravenosas. Com a introdução na prática anestésica das bombas de perfusão TCI (Target Controlled Infusion), [3], foi desencadeada investigação direccionada para o desenvolvimento de novos modelos para fármacos, contribuindo para o avanço de sistemas robustos para previsão e infusão controlada. O TCI para o propofol foi introduzido na prática clı́nica na Europa em 1996, [4], e tem despoletado desde então um crescente interesse na investigação no sentido de optimizar a dose individualizada a administrar. É actualmente reconhecido que a modelação e os métodos de identificação dos sistemas devem atender às caracterı́sticas evidenciadas pelos dados, contribuindo para o desenvolvimento e análise de sistemas estocásticos. Um dos sinais fisiológicos analisados pelo clı́nico é o sinal Bispectral Index Score (BIS) que é, de entre os sinais que medem o grau de hipnose, aquele que clinicamente é mais utilizado. Este sinal, à semelhança dos outros, tem contaminações, o que significa que nem sempre traduz de forma correcta o estado hipnótico do paciente. Neste trabalho explora-se, por recurso à estimação de modelos com dados em painel, quer a relação do sinal BIS com a quantidade de fármaco administrada, quer o modo como a sua variação depende SPE 2011 Mesa: Maria do Carmo Miranda Guedes 149 Sexta, 30/09/2011 Modelos Lineares Sala Caminho Real, 10:30–11:30 dos atributos fı́sicos do paciente. Este estudo de caso tem por base os dados, recolhidos em ambiente clı́nico, de 84 pacientes sedados por administração do hipnótico propofol e do opióide remifentanil que, de acordo com resultados clı́nicos reportados, potencia o efeito do propofol, [5]. Ambos os fármacos foram administrados por recurso ao sistema TCI. Agradecimentos: Conceição Rocha agradece a bolsa de doutoramento SFRH/BD/61781/2009 da FCT/ESF. Os autores agradecem ao Dr. Pedro Gambús e ao Hospital Universitário de Barcelona a base de dados utilizada neste estudo. Bibliografia [1] Absalom, A. e Struys, M. (2007). Overview of Target Controlled Infusions and Total Intravenous Anaesthesia. Academia Press. [2] Anderson, R. E., Barr, G. e Jakobsson, J. G. (2002). Correlation Between AAI-Index and the BIS-Index during propofol hypnosis: A clinical study. Journal of Clinical Monitoring and Computing, 17, 325–329. [3] Enlund, M. (2008). TCI: Target controlled infusion, or totally confused infusion? Call for an optimised population based pharmacokinetic model for Propofol. Upsala J Med Sci, 113(2), 161–170. [4] Russel, D., Wilkies, M., Hunter, S., Glen, J., Hutton, P. e Kenny, G. (1995). Manual compared with target-controlled infusion of propofol. British Journal of Anaesthesia, 75, 562–566. [5] Vuyk, J. (1997). Pharmacokinetic and pharmacodynamic interactions between opioids and Propofol Jounal of Clinical Anesthesia, 9, 23S-26S. SPE 2011 Mesa: Maria do Carmo Miranda Guedes 150 Sexta, 30/09/2011 Modelos Lineares Sala Caminho Real, 10:30–11:30 Modelação da perda em empréstimos hipotecários: Uma aplicação a um banco português Luı́s Chorão e José G. Dias ISCTE – Instituto Universitário de Lisboa, Lisboa, Portugal, [email protected], [email protected] Resumo: A perda em caso de incumprimento (LGD) é uma dimensão fundamental na quantificação do risco de crédito das instituições financeiras. Este trabalho explora o uso de diferentes metodologias de análise de sobrevivência na modelação de LGD. Os resultados são ilustrados utilizando para o efeito uma base de dados de crédito hipotecário de um Banco Português. Palavras–chave: Perda em caso de incumprimento, empréstimos hipotecários, modelos de sobrevivência O Acordo de Basileia permite às instituições financeiras a quantificação do risco de crédito e a consequente determinação dos nı́veis mı́nimos de capital necessário para assegurar um nı́vel mı́nimo de solvabilidade. Existem duas possı́veis abordagens: a abordagem-padrão e a baseada em modelos internos. Sob a égide da primeira, os Bancos calculam os activos ponderados pelo risco de acordo com os ratings externos apurados pelas agências de rating ou, na sua falta, será a entidade supervisora (Banco de Portugal) a fornecer os ponderadores, nomeadamente a probabilidade de incumprimento (PD), a perda em caso de incumprimento (LGD), o montante em default (EAD) e a maturidade (M). Relativamente à segunda abordagem, duas variantes estão disponı́veis: a abordagem simples do método de ratings internos (IRB Foundation) e a abordagem avançada (IRB Advanced). Na primeira, todos os componentes são disponibilizados pela entidade reguladora à excepção da PD que é calculada internamente, mas validada pelo Banco Central; na segunda, todos os componentes são determinados internamente. Como observado por Baesens e Tony em [1], quanto mais avançada é a abordagem, maior a responsabilidade do Banco para determinar os parâmetros de risco. Um dos grandes desafios actuais do sector bancário tem que ver com a adopção, ou não, destes métodos de ratings internos avançados. Durante décadas, o componente PD foi o foco de atenção em termos de modelação, tendo a modelação de LGD sido negligenciada. Os modelos LGD são difı́ceis de estimar e levará algum tempo até que existam dados disponı́veis para construir modelos internos, devido à falta de observações de recuperação e à complexidade do processo de recuperação. Tal como indica o Banco de Espanha em [2], para as carteiras de empréstimo hipotecário, há um novo constrangimento resultante da falta de dados históricos ilustrativos de novos segmentos de exposição (novos canais, novos produtos e novos grupos de clientes). Apesar de se tratar de uma tarefa bastante difı́cil, a modelação da LGD é importante por duas razões: i) os bancos devem optimizar o seu processo de decisão relativamente às solicitações de crédito. No passado, a concessão de um crédito era um processo baseado na observação da PD, i.e., rejeitar clientes de maior risco e aceitar os mais promissores, ao preço mais adequado, permitindo aos Bancos minimizar as perdas e maximizar os lucros esperados [3]. Com a introdução da dimensão LGD, qualquer decisão deve ser baseada no EL (prejuizo esperado) causando uma redução no erro SPE 2011 Mesa: Maria do Carmo Miranda Guedes 151 Sexta, 30/09/2011 Modelos Lineares Sala Caminho Real, 10:30–11:30 do tipo II, também conhecido por risco comercial e proporcionando um aumento no volume de negócios; ii) em conformidade com o Acordo de Basileia II, o cálculo do capital regulatório é altamente sensı́vel à LGD, através do prejuı́zo esperado (EL), como ilustra o seguinte exemplo para uma carteira de hipotecas (Tabela 1): Tabela 1: EL = PD × LGD. PD LGD EL 0.01 40.0 0.4 0.015 26.(6) 0.4 0.02 20.0 0.4 A escassez de soluções para a elaboração de modelos de LGD, quando comparado com a modelação de PD, é por si só um desafio a considerar. Este trabalho explora o uso da análise de sobrevivência na modelação de LGD. Assim, analisa-se o processo de recuperação (complementar da perda) por meio do estimador de Kaplan-Meier, o modelo de Cox, Anderson-Gill, WLW e o modelo PWP [4]. O presente trabalho propõe-se analisar estes diferentes processos de modelação de LGD utilizando para o efeito uma base de dados de crédito hipotecário de um Banco Português. Bibliografia [1] Banco de Espanha (2007). Loss given default estimates under downturn conditions (DLGD) in mortgage loan portfolios in Spain. Validation Document 1 (pp. 10). Madrid: Banco de Espanha. [2] Box-Steffensmeier, J.M. e Zorn, C. (2002). Duration models for repeated events. The Journal of Politics, 64(4), 1069–1094. [3] Experı́an-SCOREX (2002). LGD Scoring Overview: Description, methods and application (pp. 16). [4] Gestel, T.V. e Baesens, B. (2009). Credit Risk Management. Oxford: Oxford University Press. SPE 2011 Mesa: Maria do Carmo Miranda Guedes 152 Sexta, 30/09/2011 Aplicações II Sala Atlântico, 10:30–11:30 Factores explicativos do nı́vel nutricional das mulheres indianas: Uma análise multinı́vel José G. Dias1 e Sabu S. Padmadas2 1 ISCTE – Instituto Universitário de Lisboa, UNIDE, Lisboa, Portugal, [email protected] Centre for Global Health, Population, Poverty & Policy, University of Southampton, United Kingdom, [email protected] 2 Resumo: Este trabalho explora os factores explicativos do nı́vel nutricional das mulheres indianas medido simultaneamente por duas variáveis: o nı́vel de anemia e o ı́ndice de massa corporal. Para o efeito, considera-se um modelo multinı́vel com três nı́veis de modo a permitir modelar simultaneamente a dependência entre as duas variáveis dependentes e controlar o efeito da comunidade. Os resultados mostram que ambos os efeitos são significativos e não devem ser negligenciados neste tipo de análises. Palavras–chave: Nutrição, modelos multinı́vel, anemia, IMC A Índia confronta-se actualmente com um enorme desafio de saúde pública derivado do seu perfil nutricional. De forma persistente, existem elevados nı́veis de subnutrição, em particular do grupo das mulheres e crianças. Estudos mostram que mais de 70% das mulheres grávidas que vivem em meio rural são classificadas como anémicas [1]. Este problema está identificado em todo o sul da Ásia, reflectindo problemas graves de nutrição [2]. Este estudo considera uma definição bidimensional de nutrição, assumindo que a utilização de apenas um indicador pode resultar num perfil incorrecto ou imperfeito de classificação e explicação. Utilizaram-se dois biomarcadores que permitem uma medição mais rigorosa dos ı́ndices nutricionais: o ı́ndice de massa corporal (IMC) e o nı́vel de anemia. Os dados utilizados têm origem no 2005-06 National Family Health Surveys, em que 124385 mulheres de 109041 agregados familiares foram inquiridas em 29 estados indianos, cobrindo as 6 regiões da Índia. Este estudo baseia-se na amostra de 87925 mulheres casadas no momento do inquérito e com idade entre os 15 e os 49 anos. Os nı́veis de anemia e de IMC estão disponı́veis em categorias ordinais para 67416 e 68671 mulheres, respectivamente. A amostra final considerada tem a dimensão de 67325 mulheres. Entre as variáveis explicativas incluı́das no modelo consideraram-se variáveis de rendimento (ı́ndice de riqueza do agregado familiar e a ocupação da inquirida), variáveis espaciais (local de residência e região), a religião e a casta da inquirida, variáveis demográficas (a idade da inquirida, a idade ao primeiro casamento, um indicador de nascimento de filho no último ano, o número de filhos vivos), o nı́vel educacional da inquirida e do marido, a estrutura do agregado familiar e o sexo do responsável pelo agregado, a exposição aos meios de comunicação e variáveis de medição da autonomia feminina. Este trabalho modela simultaneamente estas duas variáveis ordinais utilizando um modelo multinı́vel a três nı́veis, sendo o nı́vel um ocupado pelas variáveis dependentes. O nı́vel dois é ocupado pela inquirida, definindo-se uma estrutura factorial para permitir a correlação entre os nı́veis de resposta da inquirida às duas variáveis de nı́vel um. O nı́vel três controla o efeito da comunidade. Utiliza-se uma parametrização probit ordinal. Para além do efeito significativo das variáveis SPE 2011 Mesa: Frederico Caeiro 153 Sexta, 30/09/2011 Aplicações II Sala Atlântico, 10:30–11:30 independentes em pelo menos uma das variáveis dependentes, os resultados mostram, via efeitos aleatórios, que as respostas estão associadas e existe o efeito do nı́vel comunidade (nı́vel três) que deve ser tido em atenção na estimação e interpretação dos resultados. Agradecimentos: Os autores agradecem o apoio financeiro da FCT – Fundação para a Ciência e a Tecnologia (PTDC/CS-DEM/108033/2008). Bibliografia [1] Bentley, M.E. e Griffiths, P.L. (2003). The burden of anemia among women in India. European Journal of Clinical Nutrition, 57(1), 52–60. [2] Griffiths, P.L. e Bentley, M.E. (2001). The nutrition transition is underway in India. Journal of Nutrition, 131(10), 2692–2700. SPE 2011 Mesa: Frederico Caeiro 154 Sexta, 30/09/2011 Aplicações II Sala Atlântico, 10:30–11:30 Há causalidade entre as variáveis económicas e os indicadores de saúde? Uma abordagem através de vectores autorregressivos com correcção de erros e da causalidade multivariada à Granger José Ramos Pires Manso1 e Ernesto Ferreira2 1 2 Universidade da Beira Interior, [email protected] Universidade da Beira Interior, [email protected] Resumo: A esperança de vida à nascença (LEB) é geralmente apresentada como um indicador de qualidade de vida de um paı́s e para a sua explicação têm sido seleccionados diversos factores, nomeadamente alguns relacionados com as condições de saúde; mas estas condições dependem de indicadores económicos como é o caso do PIB (GDP), as despesas pública (PubHe) e privada (PrvHe) com a saúde, os três agregados expressos em valores constantes (dólares EUA de 2009), per capita e em paridade de poder de compra para que se possam fazer comparações internacionais; a estes acrescentamos ainda o número de médicos e uma trend (variável temporal), habitualmente relacionada com o progresso técnico. O objectivo desta comunicação é assim testar se haverá algum nexo de causalidade multivariada nos termos definidos por Granger das variáveis económicas para os indicadores ou variáveis de saúde (LEB - iniciais de life expectance when born) usando dados da realidade portuguesa, à semelhança do que ocorre nalguns dos paı́ses do mundo ocidental desenvolvido. Com esta investigação esperamos identificar uma interessante rede (network) entre as variáveis acima referidas - económicas e de saúde - usando em particular na análise vectores autorregressivos com correcção de erro (modelos VECM) quer para estudar a sensibilidade do indicador LEB a alterações de alguns dos indicadores económicos e outros como o PIB per capita, as despesas em saúde pública e privada, todas per capita, e ainda o número de médicos e o trend; esta abordagem entronca nas chamadas funções IR (Impulse-Response Functions); é também nossa intenção quantificar a influência de cada uma dessas variáveis explicativas na explicação das variações da esperança média de vida (a chamada Cholesky decomposition) e, acima de tudo, apreciar se existe uma relação de causa e efeito no sentido grangeriano e multivariado do termo daquelas variáveis sobre o indicador esperança de vida em Portugal. Palavras–chave: Metodologia VAR, integração, cointegração, funções impulso-resposta, causalidade multivariada, indicadores de saúde, Portugal SPE 2011 Mesa: Frederico Caeiro 155 Sexta, 30/09/2011 Aplicações II Sala Atlântico, 10:30–11:30 Os Eborenses e a prática desportiva Luı́sa Carvalho1 , Paulo Infante2 e Anabela Afonso2 1 Departamento de Matemática, Universidade de Évora, [email protected] Departamento de Matemática e Centro de Investigação em Matemática e Aplicações, Universidade de Évora, {pinfante, aafonso}@uevora.pt 2 Resumo: Os estilos de vida saudáveis são promovidos por práticas activas que diminuam e combatam o sedentarismo, reduzindo consideravelmente os riscos de várias doenças. A Organização Mundial de Saúde reconhece a grande importância da actividade desportiva para a saúde fı́sica, mental e social, e para o nosso bem-estar. Aponta para a necessidade de polı́ticas que levem em conta as necessidades e possibilidades dos diferentes indivı́duos, procurando integrar a actividade fı́sica no dia-a-dia de todas as faixas etárias em todos os sectores sociais. Neste contexto, diferentes municı́pios têm desenvolvido diversas iniciativas de promoção da prática desportiva procurando também conceber infra-estruturas que tentem ir de encontro a este objectivo e às necessidades e desejos dos seus munı́cipes. Numa colaboração entre a Universidade de Évora e a Câmara Municipal de Évora, desenvolveu-se um estudo tendo como objectivo principal a caracterização da prática desportiva no Concelho de Évora com base nos seus hábitos desportivos, grau de satisfação com a oferta desportiva e com os equipamentos desportivos municipais e perfil sociocultural. Inicialmente foi concebido um questionário tendo em conta os objectivos definidos pela secção de Desporto do Municı́pio de Évora, o qual, depois de validado, foi aplicado a uma amostra representativa dos munı́cipes deste Concelho (com base nos dados fornecidos pelo INE nos Censos 2001). Neste trabalho efectua-se uma descrição das principais etapas do estudo e apresentam-se os resultados mais importantes que caracterizam a actividade fı́sica neste concelho. Além da estatı́stica descritiva e dos testes não paramétricos de associação, utilizam-se ferramentas estatı́sticas que permitem traçar diferentes perfis de praticantes como é o caso da regressão logı́stica. Por fim, compararam-se os resultados deste estudo com os obtidos em estudos desenvolvidos a nı́vel nacional e europeu. A nı́vel nacional refira-se o estudo comparativo apresentado em [1], onde factores como a idade, sexo, nı́vel de escolaridade e estatuto socioprofissional surgem associados à prática desportiva. A nı́vel da União Europeia têm-se realizado alguns estudos relacionados com a temática, sendo o mais recente efectuado pelo Eurobarómetro em 2010, com dados referentes a 2009 [2]. Este estudo indica-nos que Portugal é um dos piores paı́ses da União Europeia, com os menores ı́ndices da prática desportiva (33%) à semelhança dos paı́ses mediterrânicos. Em contrapartida os paı́ses nórdicos, tais como Suécia e Finlândia, apresentam um ı́ndice de prática desportiva de 72%. Palavras–chave: Amostragem, análise exploratória de dados, inferência Bibliografia [1] Mariovet, S. (2000). Práticas Desportivas na Sociedade Portuguesa (1988-1998). Em Actas do IV Congresso Português de Sociologia: Passados Recentes, Futuros Próximos. APS Publicações. Disponı́vel em: SPE 2011 Mesa: Frederico Caeiro 157 Sexta, 30/09/2011 Aplicações II Sala Atlântico, 10:30–11:30 http://www.aps.pt/cms/docs prv/docs/DPR462e088b86481 1.PDF. Consultado a 10 de Abril de 2011. [2] TNS Opinion & Social (2010). Sport and Physical Activity. Special Eurobarometer 334/Wave72.3. European Commission. Disponı́vel em: http://ec.europa.eu/public opinion/archives/ebs/ebs 334 en.pdf. Consultado a 10 de Abril de 2011. SPE 2011 Mesa: Frederico Caeiro 158 Sexta, 30/09/2011 Sessão Plenária III Sala Premium, 11:35–12:30 Some recent results for functional data analysis Graciela Boente Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires and CONICET, Argentina, [email protected] Abstract: In many situations, when dealing with several populations equality of the covariance operators is assumed. In this talk, we will briefly discuss the extension to the functional setting of the common principal component model that has been widely studied when dealing with multivariate observations (see, Flury, [6]). Keywords: Covariance operators, functional data, principal components, robust estimators Introduction Functional data analysis provides modern analytical tools for data that are recoded as images or as a continuous phenomenon over a period of time. Because of the intrinsic nature of these data, they can be viewed as realizations of random functions often assumed to be in L2 (I ), with I a real interval or a finite dimensional Euclidean set. On the other hand, when working with more than one population, as in the finite dimensional case, a common assumption is to assume the equality of covariance operators. In the case of finitedimensional data, test for equality of covariance matrices have been extensively studied (see for example Seber [11]), even when the sample size is greater than the size of the variables (see Ledoit and Wolf [8] and Schott [10]). As in the multivariate setting, assuming equality of covariance operators is not satisfactory since the covariance operators may exhibit some common structure. During this talk we will briefly discuss the extension to the functional setting of the common principal component model and we will present estimators of the unknown parameters as well as a robust approach for the common directions and their size related to the proposal given by Boente et al. [4]. If possible, we will present a proposal for testing the hypothesis that the covariance operators of k− populations of random objects are equal based on the norm of the difference among estimates of the operators. Preliminaries and notation Let us consider independent random elements X1,1 , . . . ,Xk,1 in a separable Hilbert space H (often L2 (I )) with inner product h·,·i and norm kuk = hu,ui1/2 and assume that EkXi,1 k2 < ∞. Denote by µi ∈ H the mean of Xi,1 , µi = E(Xi,1 ) and by Γi : H → H the covariance operator of Xi,1 . Let ⊗ stand for the tensor product on H , e.g., for u, v ∈ H , the operator u ⊗ v : H → H is defined as (u ⊗ v)w = hv,wiu. With this notation, the covariance operator Γi can be written as Γi = E{(Xi,1 − µi ) ⊗ (Xi,1 − µi )}, which is just the functional version of the variance–covariance SPE 2011 Mesa: Ana M. Pires 159 Sexta, 30/09/2011 Sessão Plenária III Sala Premium, 11:35–12:30 matrix in the classical multivariate analysis. The operator Γi is linear, self-adjoint and continuous. R In particular, if H = L2 (I ) and hu, vi = I u(s)v(s)ds, the covariance operator isRdefined through the covariance function of Xi , γi (s,t)R =RCOV(Xi,1 (s), Xi,1 (t)), s,t ∈ I as (Γi u)(t) = I γi (s,t)u(s)ds. It is usually assumed that kγi k2 = I I γi2 (t,s)dtds < ∞ hence, Γi is a Hilbert-Schmidt operator. Hilbert–Schmidt operators have a countable number of eigenvalues, all of them being real. Let F denote the Hilbert space of Hilbert–Schmidt operators with inner product defined by ∞ hH1 , H2 iF = trace(H1 H2 ) = ∑ hH1 uℓ , H2 uℓ i ℓ=1 2 1/2 , where {u : ℓ ≥ 1} is any orthonormal basis of and norm kHkF = hH, HiF = {∑∞ ℓ ℓ=1 kHuℓ k } H , while H1 , H2 and H are Hilbert-Schmidt operators, i.e., such that kHkF < ∞. Choosing an orthonormal basis {φi,ℓ : ℓ ≥ 1} of eigenfunctions of Γi related to the eigenvalues {λi,ℓ : ℓ ≥ 1} such 2 2 that λi,ℓ ≥ λi,ℓ+1 , we get kΓi k2F = ∑∞ ℓ=1 λi,ℓ . In particular, if H = L (I ), we have kΓi kF = kγi k. 1/2 The Karhunen-Loéve expansion for the process leads to Xi,1 = µi + ∞ 1 2 ∑ λiℓ fiℓ φi,ℓ . (1) ℓ=1 The random variables fim are the standardized coordinates of Xi,1 − µi on the basis {φi,ℓ : ℓ ≥ 1}, 1 2 ) = 1, E( f that is, fim = hXi,1 − µi ,φi,m i/λim2 . Note that E( fim ) = 0, while E( fim im f is ) = 0 for m 6= s, since COV (hu, Xi,1 − µi i, hv, Xi,1 − µi i) = hu, Γi vi. The problem Let Xi,1 (t), · · · ,Xi,ni (t) for i = 1, . . . ,k be independent observations from k independent samples of smooth random functions in a separable Hilbert space H with mean µi and covariance operator Γi . An natural way to estimate the covariance operators Γi for i = 1, . . . ,k is to consider the empirical bi = ∑ni Xi, j − Xi ⊗ Xi, j − Xi /ni , where Xi = 1/ni ∑ni Xi, j . Daucovariance operator given by Γ j=1 j=1 √ b xois et al. [5] proved that n Γ converges in distribution to a zero mean gaussian random − Γ i i i element Ui of F . bsi of the covariance operators were studied in Boente and Fraiman [2] while the Smooth estimators Γ robust scatter estimators proposed by Locantore et al. [9] and further developed by Gervini [7] may be considered, if one suspects that outliers may be present in the sample. A natural extension to the functional setting of the common principal components model introduced by Flury [6] is to assume that the covariance operators Γi have common eigenfunctions φℓ (t) but different eigenvalues λiℓ . In this sense, Karhunen-Loéve expansion (1) of the processes Xi,1 , 1 2 1 ≤ i ≤ k, can be written as Xi,1 = µi + ∑∞ ℓ=1 λiℓ f iℓ φℓ , with λi1 ≥ λi2 ≥ · · · ≥ 0 and so, the common eigenfunctions, as in the one–population setting, exhibit the same major modes of variation. We will denote this model the functional common principal component (FCPC) model. As in principal component analysis, the FCPC model could be used to reduce the dimensionality of the data, retaining as much as possible of the variability present in each of the populations. Besides, this SPE 2011 Mesa: Ana M. Pires 160 Sexta, 30/09/2011 Sessão Plenária III Sala Premium, 11:35–12:30 model provides a framework for analysing different population data that share their main modes of variation φ1 , φ2 , . . . . A similar problem was recently studied by Benko et al. [1] who considered the case of k = 2 populations and provide tests for equality of means and equality of a fixed number of eigenfunctions. The aim of this talk is to briefly introduce estimators of the common eigenfunctions under a FCPC model and to describe their asymptotic behaviour, as well as to consider robust estimators based on a projection–pursuit approach. If possible, we will also consider tests for the equality of the covariance operators of k populations, that is, we wish to test the null hypothesis H0 : Γ1 = · · · = Γk against H1 : ∃ i 6= j such that Γi 6= Γ j . Let N = n1 + · · · + nk and assume that ni /N → τi . A natural test statistic is given by Tk,n = bj −Γ b1 k2 , where Γ bi are, for instance, the empirical covariance operators of i−th popuN ∑kj=2 kΓ F lation. The asymptotic behaviour of Tk,n under the null and under contiguous alternatives related to the functional common principal model will be described, as well as a bootstrap approach. Acknowledgements: This talk is based on recent results with Lucas Bali, Daniela Rodriguez and Mariela Sued from the University of Buenos Aires. Bibliography [1] Benko, M., Härdle, P. and Kneip, A. (2009). Common Functional Principal Components. Annals of Statistics, 37, 1-34. [2] Boente, G. and Fraiman, R. (2000). Kernel-based functional principal components. Statistics and Probabability Letters, 48, 335-345. [3] Boente, G., Rodriguez, D. and Sued, M. (2010). Inference under functional proportional and common principal components models. Journal of Multivariate Analysis, 101, 464-475. [4] Boente, G. Pires, A. M. and Rodrigues, I. (2006). General projection–pursuit estimators for the common principal components model: Influence functions and Monte Carlo study. Journal of Multivariate Analysis, 97, 124-147. [5] Dauxois, J., Pousse, A. and Romain, Y. (1982). Asymptotic theory for the principal component analysis of a vector random function: Some applications to statistical inference. Journal of Multivariate Analysis, 12, 136-154. [6] Flury, B. (1988). Common principal components and related multivariate models. New York: John Wiley. [7] Gervini, D. (2008). Robust functional estimation using the spatial median and spherical principal components. Biometrika, 95, 587-600. [8] Ledoit, O. and Wolf, M. (2002). Some hypothesis tests for the covariance matrix when the dimension is large compared to the sample size. Annals of Statistics, 30, 1081-1102. [9] Locantore, N., Marron, J. S., Simpson, D. G., Tripoli, N., Zhang, J. T. and Cohen, K. L. (1999). Robust principal components for functional data (with Discussion). Test, 8, 1-73. SPE 2011 Mesa: Ana M. Pires 161 Sexta, 30/09/2011 Sessão Plenária III Sala Premium, 11:35–12:30 [10] Schott, J. (2007). A test for the equality of covariance matrices when the dimension is large relative to the sample sizes. Computational Statistics & Data Analysis, 51, 6535-6542. [11] Seber, G. (1984). Multivariate Observations. John Wiley and Sons. SPE 2011 Mesa: Ana M. Pires 162 Sexta, 30/09/2011 Estatı́sticas Oficiais Sala Premium, 14:30–15:30 Acesso à informação estatı́stica oficial para fins de investigação cientı́fica José A. Pinto Martins Instituto Nacional de Estatı́stica, [email protected] Resumo: A comunidade académica apresenta necessidades especiais no tocante à informação estatı́stica, nomeadamente para o desenvolvimento de trabalhos de investigação e para a elaboração de teses de Mestrado e Doutoramento. Neste contexto, o Instituto Nacional de Estatı́stica (INE) estabeleceu um Protocolo com a Fundação para a Ciência e a Tecnologia (FCT) e o Gabinete de Planeamento, Estratégia, Avaliação e Relações Internacionais do ex–MCTES (GPEARI), com o objectivo de facilitar o acesso dos investigadores (acreditados) à informação estatı́stica oficial de que necessitam para o exercı́cio da sua actividade. Na apresentação serão explicados os procedimentos necessários à acreditação cientı́fica em sede do GPEARI, bem como o conjunto de bases de dados já preparadas especificamente pelo INE para utilização ao abrigo desta forma de acesso. O acesso a esta informação é gratuito para os investigadores. Palavras–chave: Bases de dados do INE, acreditação de investigadores, dados estatı́sticos individuais anonimizados, estatı́sticas oficiais, acesso gratuito e privilegiado SPE 2011 Mesa: José Ramos Pires Manso 163 Sexta, 30/09/2011 Estatı́sticas Oficiais Sala Premium, 14:30–15:30 Qualidade dos Censos 2011: Mapa de Alerta Elizabeth Reis, Paula Vicente e Álvaro Rosa Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE-IUL, Lisboa, {ear,paula.vicente,alvaro.rosa}@iscte.pt Resumo: No presente estudo desenha-se um Mapa de Alerta com três nı́veis de risco potencial para as freguesias portuguesas com o principal objectivo de fornecer aos coordenadores de freguesia e concelhios informação que lhes permita garantir elevada qualidade dos processos na Operação Censos 2011. Palavras–chave: Censos, qualidade dos processos, análise de clusters, mapa de alerta Introdução Os recenseamentos da habitação e da população (censos) constituem a maior e mais dispendiosa operação estatı́stica que um paı́s pode levar a cabo [1] e têm como principal objectivo fornecer informação estatı́stica de elevada qualidade que responda às necessidades dos seus utilizadores. Nas operações censitárias existe a possibilidade de erro a vários nı́veis e em diferentes etapas do processo. Para os Censos 2011 o INE pretendia implementar mecanismos que permitissem detectar falhas e sinalizar aspectos que pudessem ser melhorados no decorrer da própria operação, bem como quantificar os diferentes tipos de erros [2]. Com esse objectivo foi criado um Sistema de Indicadores de Alerta (SIA) para as unidades estatı́sticas (alojamentos e indivı́duos) a observar nos Censos 2011. Com a sua implementação pretendia-se obter informação sobre potenciais desvios da recolha e averiguar a sua provável causa, monitorizando em tempo real o processo de distribuição e recolha de questionários, desencadeando acções de ajustamento ou correcção com vista a garantir os princı́pios de qualidade que balizam a realização de uma operação censitária. O SIA proposto inclui o desenho de um mapa com três nı́veis de alerta com base num conjunto de indicadores que permitem identificar o grau de risco potencial de cada freguesia não garantir elevada qualidade do produto final e ao qual corresponde um grau de acompanhamento da operação por parte do coordenador concelhio da operação censitária. Mapa de Alerta Para a construção do Mapa de Alerta (MA) com três nı́veis de risco (Reduzido=Verde, Médio=Laranja, Elevado=Vermelho) propõe-se um conjunto de indicadores, que incluem as caracterı́sticas demográficas dos coordenadores ao nı́vel das freguesias (presidentes das Juntas), as suas competências especı́ficas e experiência anterior para a realização deste tipo de tarefas. Esta informação foi recolhida através da realização de um inquérito aos Presidentes das 4260 Juntas de Freguesia (PJF) do Continente e Ilhas com base num questionário estruturado que incluı́a ainda questões sobre a percepção dos PJF em relação às caracterı́sticas da freguesia e dos recenseadores que pudessem SPE 2011 Mesa: José Ramos Pires Manso 165 Sexta, 30/09/2011 Estatı́sticas Oficiais Sala Premium, 14:30–15:30 dificultar o trabalho a desenvolver durante a operação Censos 2011: existência de população idosa, analfabeta, residente em bairros sociais, emigrante, imigrante e sem abrigo; habitações em regime de condomı́nio fechado e alojamentos de segunda habitação; áreas de construção habitacional recente, de difı́cil acesso, com habitações muito dispersas e tipo dormitório; recrutamento de recenseadores com competências e com disponibilidade. Método Para a construção do Mapa de Alerta definem-se os seguintes passos metodológicos: (1) Análise em componentes principais sobre as variáveis recolhidas através do Inquérito aos PJF para reduzir a informação disponı́vel (número de variáveis) e uniformizar as escalas de medida das variáveis originais; (2) Estimação do número de grupos k através de modelos de mistura finita ou segmentos latentes; (3) Classificação não hierárquica das freguesias para uma partição em k grupos através da análise de clusters k-médias; (4) Validação do número de grupos k através da análise discriminante com validação cruzada; (5) Caracterização da partição em k grupos de freguesias com base na informação dos Censos 2001 e no nı́vel de risco potencial de cada agrupamento. Resultados Obtiveram-se 3855 respostas ao inquérito aos PJF num total de 4260 freguesias a quem foi enviado o questionário correspondendo a uma taxa de resposta de 90,5%. Extraı́ram-se sete componentes principais denominadas por “Competências do PJF”, “Experiência do PJF”, “População de difı́cil contacto”, “Competências e disponibilidade dos recenseadores”, “População envelhecida”, “Zonas (interior) desertificadas” e “Zonas com população ausente (recentes ou de 2a habitação)”. A escolha do número de grupos foi previamente validada com a aplicação de modelos de mistura finita ou segmentos latentes que apontaram para a existência de 7 grupos. O grau de risco potencial associado aos sete grupos de freguesias encontra-se sumarizado no quadro seguinte. Tabela 1: Distribuição das freguesias segundo o nı́vel de alerta. No de fregueias (%) População (Censos 2001) (%) Vermelho (risco elevado) 260 (6,7) 2 924 656 (30,1) Laranja (risco médio) 1826 (47,4) 3 778 541 (38,9) Verde (risco reduzido) 1769 (45,9) 3 003 706 (30,9) Bibliografia [1] Instituto Nacional de Estatı́stica (2007). Programa de Acção para os Censos 2011. INE, Gabinete dos Censos. [2] Instituto Nacional de Estatı́stica (2010). Plano de Controlo e Avaliação da Qualidade Censos 2011 - Controlo do Processo Produtivo. INE, Gabinete dos Censos. SPE 2011 Mesa: José Ramos Pires Manso 166 Sexta, 30/09/2011 Estatı́sticas Oficiais Sala Premium, 14:30–15:30 Censos 2011 - Inquérito de Qualidade João Farrajota Instituto Nacional de Estatı́stica, [email protected] Resumo: Após a conclusão dos Censos 2011, realizou-se o Inquérito de Qualidade dos Censos 2011 (IQ), o qual pretende constituir o instrumento de medida da qualidade final daquela operação censitária. Este inquérito por amostragem tem como objectivos fundamentais a avaliação de duas categorias de erros: os erros de cobertura e os erros de conteúdo. Neste trabalho são apresentados aspectos operacionais e o plano de amostragem utilizado no IQ, bem como o processo de estimação. Palavras–chave: Censos, inquérito de qualidade, erros de cobertura, erros de conteúdo Introdução O Inquérito de Qualidade dos Censos 2011 (IQ) tem como objectivo apoiar a aferição quantitativa da qualidade da informação censitária. Serão disponibilizados indicadores sobre erros de cobertura das unidades estatı́sticas observadas (edifı́cios, alojamentos, famı́lias, indivı́duos) e sobre erros de conteúdo das variáveis e respectivas modalidades, incluı́das nos questionários. O projecto é realizado sob responsabilidade metodológica do agrupamento constituı́do pelo Instituto Superior de Estatı́stica e Gestão de Informação da Universidade Nova de Lisboa e pela Qmetrics, SA. Esta entidade foi seleccionada através de concurso público, realizado em 2009. Para além da satisfação das necessidades a nı́vel nacional, os indicadores a disponibilizar permitirão cumprir, na parte correspondente, o Regulamento (UE) n.o 1151/2010, da Comissão, de 08.12.2010. Plano de amostragem O IQ é um inquérito por amostragem que abrange todo o território nacional, sendo representativo ao nı́vel II da Nomenclatura das Unidades Territoriais para fins Estatı́sticos (NUTSII), para o seguinte conjunto de variáveis: alojamento, famı́lia clássica, indivı́duo residente, população activa, população empregada, população residente com 20 ou mais anos de idade, população residente por grupo etário decenal entre os 20 e os 70 anos, nı́vel de instrução (1.o , 2.o e 3.o Ciclos) e sectores de actividade (Secundário e Terciário). Na avaliação dos erros de cobertura dos Edifı́cios e Alojamentos é utilizada uma amostra de secções estatı́sticas, enquanto na avaliação dos erros de cobertura das Famı́lias Clássicas e dos Indivı́duos, bem como na avaliação dos erros de conteúdo das variáveis incluı́das nos questionários é utilizada uma amostra de alojamentos. A amostra foi primeiramente estratificada por NUTSII, o que permite garantir a obtenção de resultados fiáveis, pelo menos para o nı́vel nacional e para as regiões NUTSII. Tendo em conta o duplo objectivo de medição dos erros de cobertura e dos erros de conteúdo, a amostra foi seleccionada, em cada estrato, através de um método multi-etápico, com selecção sistemática, de probabilidades desiguais. Tendo em conta os objectivos definidos acima, na primeira etapa foram seleccionadas SPE 2011 Mesa: José Ramos Pires Manso 167 Sexta, 30/09/2011 Estatı́sticas Oficiais Sala Premium, 14:30–15:30 freguesias, na segunda etapa foram seleccionadas secções estatı́sticas e na terceira etapa foram seleccionados alojamentos. As probabilidades de inclusão nas várias etapas de amostragem recorreram a estimativas da população residente, referentes ao momento da operação censitária, bem como a contagens do número de alojamentos, efectuadas nas freguesias seleccionadas para amostra, na fase de distribuição dos questionários da operação Censos 2011. A dimensão amostral global, bem como a sua repartição pelos vários estratos, foi determinada através da resolução de um problema de optimização não linear que teve como objectivo a minimização do custo total de amostragem, sujeito a um conjunto de restrições que contemplavam limites máximos para os coeficientes de variação dos totais das variáveis seleccionadas ao nı́vel nacional e ao nı́vel de NUTSII. Foram efectuadas simulações com os dados dos Censos 2001 de forma a se determinarem as dimensões amostrais em cada subpopulação definida pelas NUTSII, garantindo-se um coeficiente de variação máximo de 5% ou de 8%, para dois conjuntos de variáveis. 1. Questionários, procedimentos de recolha e meios envolvidos No IQ foram utilizados 4 questionários: Capa de Edifı́cio, Alojamento Familiar, Famı́lia e Individual. Para maior eficácia da recolha de dados e menor sobrecarga dos inquiridos, foram incluı́das no IQ apenas cerca de 50% das variáveis observadas nos Censos (mas com conceitos iguais), coincidindo com as de resposta obrigatória ao Eurostat. A capa de edifı́cio foi utilizada para novo recenseamento (exaustivo) das secções estatı́sticas da amostra, nas quais se procedeu a nova contagem do número de edifı́cios e de alojamentos. A quantificação do número de edifı́cios foi efectuada com apoio na cartografia utilizada nos Censos. Os questionários de alojamento, famı́lia e individual foram aplicados, através de entrevista presencial, a uma sub-amostra de alojamentos, em cada uma das secções da amostra. Foram recenseados cerca de 90.000 alojamentos e entrevistadas cerca de 10.000 famı́lias. A amostra de secções estatı́sticas do IQ permaneceu confidencial até à conclusão da recolha censitária em cada área. A recolha de dados (com referência ao momento censitário, 21 de Março de 2011) iniciouse em meados de Maio, terminou em meados de Agosto e foi efectuada sob a responsabilidade operacional do INE. Para além da coordenação nacional do projecto, estiveram envolvidos 8 coordenadores regionais, 34 técnicos de supervisão e acompanhamento e 233 entrevistadores. Toda a estrutura utilizada foi independente da que esteve envolvida nos Censos. Estimação e produção de indicadores A identificação dos erros de cobertura e de conteúdo faz-se pela comparação dos dados recolhidos nos Censos com os dados recolhidos no Inquérito de Qualidade, sobre a mesma unidade estatı́stica. A metodologia de estimação dos totais populacionais usados para cálculo dos erros de cobertura e conteúdo recorre a estimadores pela regressão que integram informação auxiliar proveniente do recenseamento. Uma versão provisória dos indicadores de qualidade (nesta fase apenas indicadores de cobertura) deverá ser disponibilizada até final de 2011. SPE 2011 Mesa: José Ramos Pires Manso 168 Sexta, 30/09/2011 Aplicações III Sala Dinastia, 14:30–15:30 Modelos Espaço-temporais. Aplicação à previsão da temperatura na superfı́cie terrestre Luı́s Margalho1 , Raquel Menezes2 e Inês Sousa2 1 Departamento de Fı́sica e Matemática, Instituto Superior de Engenharia de Coimbra, [email protected] Departamento de Matemática e Aplicações, Universidade do Minho, {rmenezes, isousa}@math.uminho.pt 2 Resumo: Os modelos geoestatı́sticos espaço-temporais surgem com o registo de dados ao longo do tempo bem como no espaço. Estes modelos têm sido utilizados em diversos contextos, de entre os quais em problemas de observação ambiental, como por exemplo a monitorização da deposição de metais pesados ou a variação da temperatura na superfı́cie terrestre. O objectivo deste trabalho é fazer uma apresentação de modelos espaço-temporais já referidos na literatura, ilustrando com a aplicação a uma base de dados de temperaturas diárias do ano de 2006. Palavras–chave: Geoestatı́stica, modelos espaço-temporais, variograma, predição espaço-temporal Introdução Os modelos espaço-temporais pretendem representar o comportamento de dados recolhidos em várias localizações do espaço, sendo que para cada localização é ainda observável uma dependência temporal. Supondo a observação de um processo Z(si ,t j ) nas localizações si , i = 1, · · · , n, e nos tempos t j , j = 1, · · · , T, o objectivo principal será construir um modelo para fazer previsões de Z(s0 ,t j ) em localizações não observadas s0 para um tempo particular t j . A modelação espaço-temporal pode, então, ser efectuada segundo uma perspectiva temporal, recorrendo a modelos ARMA para analisar as estruturas espacial e temporal, ou recorrendo aos modelos de geoestatı́stica para igualmente modelar as estruturas temporal e espacial. De entre os diversos modelos existentes, podem ser referidos os modelos separáveis, caracterizados por englobarem uma componente puramente espacial e uma componente puramente temporal. Com este trabalho, pretende-se fazer uma compilação dos diversos modelos que são referidos na literatura. Pretende-se ainda apresentar uma exemplificação para uma base de dados de temperatura terrestre, da identificação de um modelo espaço-temporal que permita prever temperaturas para localizações não observadas. Bibliografia [1] Elamtzoglou, I. (2006). Spatio-Temporal Geostatistical Models, with an application in fish stocks. MSc Thesis. University of Lancaster. SPE 2011 Mesa: Antónia Amaral Turkman 169 Sexta, 30/09/2011 Aplicações III Sala Dinastia, 14:30–15:30 [2] Fernández-Casal, R., González-Manteiga, W. e Febrero-Bande, M. (2003). Flexible SpacioTemporal Stationary Variogram Models. Statistics and Computing, 13, 127–136. [3] Gneiting, T., Genton, M.G. e Guttorp, P. (2005). Geostatistical Space-Time Models, Stationarity, Separability and Full Symmetry. Technical Report no. 475. Department of Statistics, University of Washington. [4] Hengl, T. (2009). A Practical Guide to Geostatistical Mapping. Office for Official Publications of the European Communities, Luxembourg. [5] Kyriakidis, P.C. e Journel, A.G. (1999). Geostatistical space-time models: A review. Mathematical Geology, vol. 31, 6, 651–684. [6] Niu, X., McKeaque, I.W. e Elsner, J.B. (2003). Seasonal space-time models for climate systems. Statistical Inference for Stochastic Processes, 6, 111–133. [7] Rouhani, S. e Myers, D.E. (1990). Problems in space-time kriging of geohydrological data. Mathematical Geology, vol. 22, 5, 611–623. SPE 2011 Mesa: Antónia Amaral Turkman 170 Sexta, 30/09/2011 Aplicações III Sala Dinastia, 14:30–15:30 Modelação espaço-temporal de fogos florestais em Portugal Isabel Natário1,2 , Manuela M. Oliveira3 , M. Lucı́lia Carvalho4,2 , Susete Marques 5 e José Borges5 1 Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, [email protected] Centro de Estatı́stica e Aplicações da Universidade de Lisboa, 3 Centro Investigação em Matemática Aplicada, Departamento de Matemática, Universidade de Évora, [email protected] 4 Faculdade de Ciências da Universidade de Lisboa, [email protected] 5 Centro de Estudos Florestais, Instituto Superior de Agronomia da Universidade Técnica de Lisboa, {smarques,joseborges}@isa.utl.pt 2 Resumo: Os incêndios florestais são uma calamidade que tem aumentado consideravelmente nas últimas décadas, também em Portugal, com consequências importantes ao nı́vel económico, social e ambiental. É imprescindı́vel, para a escolha e aplicação de polı́ticas de intervenção efectivas neste problema, que se consiga perceber quais os factores que mais contribuem para este fenómeno. A utilização de sistemas de informação geográficos em conjunto com modelos estatı́sticos adequados podem contribuir de forma importante para este objectivo. Neste contexto, propomos-nos implementar um modelo hierárquico espaço-temporal introduzido em [1], para o risco de incêndio florestal em Portugal, modelando conjuntamente a probabilidade de ignição e o tamanho dos incêndios, numa moldura Bayesiana. Nesta modelação os dados são tomados em pequenas áreas definidas numa grelha regular. Contudo, neste trabalho, consideraremos as freguesias como sub-unidade de área (fronteiras irregulares). Assim, o conjunto de dados em análise, referente ao perı́odo de 2002 a 2007, compreende a percentagem anual de área ardida em cada freguesia, bem como valores anuais de várias covariáveis, desde condições atmosféricas, informação topográfica, proximidade a estradas e densidade populacional Dado que o conjunto das freguesias que dividem Portugal Continental é muito grande (3424 freguesias), a estimação do modelo via técnicas MCMC (Markov Chain Monte Carlo), usual nos modelos Bayesianos aplicados a dados espaço-temporais, fica computacionalmente muito pesada. De forma a ultrapassar este problema, optou-se por fazer a estimação através do método de aproximações de Laplace aninhadas e integradas, Integrated Nested Laplace Approximation (INLA), que apresenta significativas vantagens computacionais. Esta abordagem aproximada tem vindo a ganhar relevância no âmbito dos problemas de estimação Bayesianos que se podem encaixar na sub-classe dos modelos de regressão com estrutura aditiva, os modelos Gaussianos latentes. Descrevemos detalhadamente a génese do procedimento inferencial decorrente do INLA, a sua implementação para a estimação do modelo acima referido na aplicação dos fogos florestais em Portugal, e apontaremos quais as vantagens/desvantagens concretas com que nos confrontámos, relativamente aos métodos de MCMC. Palavras–chave: Risco de incêndio, modelos hierárquicos espaço-temporais, sistemas de informação geográficos, integrated nested Laplace approximation SPE 2011 Mesa: Antónia Amaral Turkman 171 Sexta, 30/09/2011 Aplicações III Sala Dinastia, 14:30–15:30 Bibliografia [1] Amaral-Turkman, M.A., Turkman, K.F., Le Page, Y e Pereira, J.M. (2010). Hierarchical space-time models for fire ignition and percentage of land burned by wildfire. Environmental Ecological Statistics, 17. DOI 10.1007/s10651-010-0153-9. [2] Marques, S., Borges, J., Garcia-Gonzalo, J., Moreira, F., Carreiras, B.M.J., Oliveira, M.M., Cantarinha, A., Botequim, B. e Pereira, J.M.C. (2010). Characterization of wildfires in Portugal. European Journal of Forest Research, DOI 10.1007/s10342-010-0470-4. [3] Rue, H., Martino, S. e Chopin, N. (2009). Approximate bayesian inference for latent gaussian models using integrated nested Laplace approximations (with discussion). Journal of the Royal Statistical Society, Series B, 71, 319–392. [4] Russel-Smith, J., Yates, P., Whitehead, P.J., Smith, R., Craig, R., Allan, G.E., Thackway, R., Frakes, I., Cridland, S., Meyer, C.P. e Malcom, A.M. (2007). International Journal of Wildland Fires, 16, 361–377. SPE 2011 Mesa: Antónia Amaral Turkman 172 Sexta, 30/09/2011 Aplicações III Sala Dinastia, 14:30–15:30 Volatilidade dos principais mercados mundiais Thelma Sáfadi1 e Airlane P. Alencar2 1 2 Universidade Federal de Lavras, Lavras, MG, Brasil, [email protected] Universidade de São Paulo, São Paulo, Brasil, [email protected] Resumo: Neste trabalho estudamos a associação entre as volatilidades estimada das principais bolsas de valores do mundo. As séries consideradas foram valores diários dos ı́ndices S&P500 (US), Shanghai Comp Index (China), FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina), Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010. Os retornos foram ajustados por meio do modelo AR-APARCH e a associação entre as volatilidades estimadas foi obtida com a análise de agrupamento. Observamos essencialmente a formação de três grupos, sendo o primeiro composto por Canadá, Brasil e Japão, o segundo por Estados Unidos, Reino Unido, França, Alemanha e Argentina e o terceiro composto apenas pela China. Palavras–chave: Volatilidade, análise de agrupamento, bolsas de valores Introdução A associação entre os ı́ndices das principais bolsas de valores tem sido estudada por vários pesquisadores. [2] considerando as séries S&P500 (US), Shanghai Comp Index (China), FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina) e Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010 utilizaram o modelo fatorial com três fatores. Eles observaram que o primeiro fator indicou que a crise financeira associada principalmente aos US foi sentida por todas as outras bolsas do mundo. O segundo fator é associado aos paı́ses asiáticos, China e Japão e o terceiro fator associado aos paı́ses europeus, principalmente Inglaterra, França e Alemanha. Neste trabalho estamos interessados em estudar a associação entre a volatilidade estimada das principais bolsas de valores do mundo e agrupá-las utilizando as medidas de correlação linear entre elas. As séries consideradas foram valores diários de S&P500 (US), Shanghai Comp Index (China), FTSE100 (UK), CAC40 (France), DAX (Germany), S&P/TSX (Canada), Bovespa (Brazil), Merval (Argentina), Nikkei 225 (Japan) durante o perı́odo de 04/01/2008 a 10/05/2010. Resultados e Discussão O modelo AR(1)-APARCH(1,1) (para modelo APARCH ver [1]) foi ajustado para as séries de retornos. O retorno foi obtido da maneira usual por rt = lnYt − lnYt−1 , em que Yt é o valor do ı́ndice no tempo t. A Figura 1(a) apresenta as volatilidades estimadas. A China apresenta um comportamento distinto das demais. Em geral, maiores volatilidades são observadas nos ı́ndices do Canadá, Brasil e Japão. O dendrograma da análise de agrupamentos é mostrado na Figura 1(b), onde observa-se a formação SPE 2011 Mesa: Antónia Amaral Turkman 173 Sexta, 30/09/2011 Aplicações III UK 0.6 300 400 0.25 similaridade 0.4 100 200 300 Argentina Japão 300 400 Time 0.4 0.0 0.2 0.4 0.0 0.2 0.4 200 400 0.6 Brasil 0.6 Time França 0 UK 400 US 300 Time Argentina 200 Alemanha 100 Brasil 0 Canada 400 Time Japão 300 0.0 0.2 0.4 0.0 0.2 0.4 0.2 200 400 0.6 Canada 0.2 100 300 Alemanha 0.0 0 200 França 0.0 100 100 Time 0.6 0 0 Time 0.20 200 0.15 100 China 0.4 0.0 0 0.10 400 0.05 300 Time 0.00 200 0.6 100 0.6 0 Agrupamento Completo, Coeficiente de Correlação 0.2 0.4 0.2 0.0 0.0 0.2 0.4 0.6 China 0.6 US Sala Dinastia, 14:30–15:30 0 100 200 300 400 0 Time 100 200 300 400 Bolsas Time (a) Volatilidade estimada. (b) Dendograma para a volatilidade. Figura 1: Volatilidade estimada e Dendrograma. de três grupos, sendo o primeiro composto por Canadá, Brasil e Japão, o segundo por Estados Unidos, Reino Unido, França, Alemanha e Argentina e no terceiro apenas China. Conclusões Concluimos que o Canadá, Brasil e Japão apresentam em geral uma volatilidade estimada maior durante todo o perı́odo analisado, indicando que esses paı́ses podem apresentar maior risco. Os Estados Unidos, Reino Unido e França apresentam volatilidades semelhantes e seguidas por volatilidades um pouco maiores na Argentina e Alemanha. A China, além de apresentar menor volatilidade, apresenta muita estabilidade dos retornos, sem ser muito afetada pela crise do subprime. Agradecimentos: As autoras agradecem o auxı́lio financeiro da FAPEMIG, FAPESP e CNPq. Bibliografia [1] Ding, Z., Engle, R.F. e Granger, C.W.J. (1993). A long memory property of stock market returns and a new model. Journal of Empirical Finance, 1, 83-106. [2] Safadi, T., Alencar, A.P. e Morettin, P.A. (2011). The dynamic factor model: an application to stock market indexes. International Journal of Statistics & Economics, 7 (A11). SPE 2011 Mesa: Antónia Amaral Turkman 174 Sexta, 30/09/2011 Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30 Intervalos de confiança para os nodos do contorno superior em análise conjunta de regressões Dulce Gamito Pereira1 , João Tiago Mexia2 e Victor Ramos Tavares3 1 Universidade de Évora, DMAT e CIMA, [email protected] Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, DMAT e CMA, [email protected] 3 Doutorando do Programa de Doutoramento de Matemática, Universidade de Évora, [email protected] 2 Resumo: A Análise Conjunta de Regressões (ACR), é uma técnica muito utilizada para a avaliação de genótipos/cultivares, integrando numa variável (o ı́ndice ambiental) a capacidade produtiva para cada par (local, ano). A ACR é uma técnica flexı́vel, já que para cada valor da produtividade, medida pelo ı́ndice ambiental, selecciona um ou mais genótipos/cultivares. O conjunto dos genótipos/cultivares seleccionados variará, em geral, com o ı́ndice ambiental. O contorno superior definido pelas linhas das regressões ajustadas pode ser usado para esta selecção. Quando se ajustam as regressões correspondentes aos diferentes genótipos/cultivares obtêm-se como representação uma poligonal com a concavidade voltada para cima, ver Mexia et al. (1997). Os genótipos/cultivares cujas regressões participam no contorno superior são os genótipos/cultivares dominantes já que, para cada um deles, se tem um intervalo de variação do ı́ndice ambiental (que mede a capacidade produtiva) que conduz a rendimentos mais elevados que os restantes. Os outros genótipos/cultivares terão de ser comparados com os genótipos/cultivares dominantes. Aplica-se testes-t e métodos de comparação múltipla para realizar a selecção de genótipos/cultivares. Pretende-se agora obter intervalos de confiança para as abscissas dos vértices da poligonal. Palavras–chave: Análise Conjunta de Regressões (ACR), ı́ndices ambientais, intervalos de confiança, contorno superior Bibliografia [1] Mexia, J.T., Amaro, A.P., Gumão, L. e Baeta, J. (1997). Upper contour of a joint regression analysis. J. Genet. & Breed., 51, 253–255. [2] Pereira, D.G. e Mexia, J.T. (2004). Nodes of the upper contour in joint regression analysis, Colloquium Biometryczne, 34, 267–277. SPE 2011 Mesa: Carlos Tenreiro 175 Sexta, 30/09/2011 Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30 Estimadores de máxima entropia em análise de eficiência Pedro Macedo1 , Elvira Silva2 e Manuel Scotto1 1 2 Departamento de Matemática, Universidade de Aveiro, {pmacedo, mscotto}@ua.pt Faculdade de Economia, Universidade do Porto, [email protected] Resumo: A abordagem de estados contingentes no estudo das fronteiras de produção enfrenta algumas dificuldades, nomeadamente a possibilidade de um grande número de estados, poucas observações por estado e colinearidade. Nesta apresentação ilustra-se o bom desempenho de alguns estimadores de máxima entropia na análise de eficiência técnica com estas fronteiras de produção. Palavras–chave: Máxima entropia, eficiência técnica, fronteiras de produção, abordagem de estados contingentes Introdução O trabalho de Chambers e Quiggin (2000) tem inspirado desenvolvimentos notáveis na literatura sobre a teoria económica da produção. A teoria da produção condicionada a estados contingentes permite uma representação mais realista dos problemas de produção com incerteza, uma vez que os produtores podem alocar diferentes inputs a diferentes estados da natureza e, desta forma, melhor gerir a incerteza. Em análise de eficiência, esta abordagem permite obter nı́veis de eficiência técnica mais elevados quando comparados com os obtidos usando a análise tradicional com fronteiras de produção estocásticas. As fronteiras de produção condicionadas a estados contingentes permitem decompor os desvios à fronteira de produção em erro aleatório, ineficiência do produtor e risco. Embora a teoria da produção condicionada a estados contingentes esteja bem desenvolvida, a sua aplicação empı́rica encontra-se ainda numa fase embrionária e enfrenta algumas dificuldades: possibilidade de um grande número de estados, poucas observações por estado e colinearidade. Os estimadores de máxima entropia generalizada (GME) e cross-entropy (GCE) desenvolvidos por Golan et al. (1996), bem como os estimadores de máxima entropia de ordens superiores (GME-α ) propostos por Golan e Perloff (2002), sendo úteis em amostras de reduzida dimensão e robustos perante colinearidade, são avaliados nesta apresentação através de um estudo de simulação. Fronteira de produção e estimadores de máxima entropia A fronteira de produção condicionada a estados contingentes usada no estudo de simulação é S ln q = ∑ P S ∑ ds b−1 ps ln x ps − ∑ s=1 p=1 P S ∑ ds b−1 ps ln as − ∑ s=1 p=1 P K ∑ b−1 ps ∑ αk zk + v − u, s=1 p=1 (1) k=1 −1 com 0 < b−1 ps ≤ 1, as > 0 e 0 < ∑ p b ps ≤ P, ∀ s (s = 1,2, . . . ,S). O output é denotado por q, S é o número de estados da natureza, P é o número de inputs especı́ficos de cada estado, K é o número de SPE 2011 Mesa: Carlos Tenreiro 177 Sexta, 30/09/2011 Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30 variáveis exógenas, ds é uma variável dummy associada à escolha de estados, b ps são parâmetros que representam a possibilidade de substituição de output entre estados, x ps são os inputs especı́ficos de estados, as são parâmetros especı́ficos de produção, zk são as variáveis exógenas, αk os respectivos parâmetros a estimar, v é a variável que representa o erro aleatório e u a variável que representa a ineficiência técnica. Considerando a fronteira de produção (1) na forma matricial ln q = f (X; β ) + v − u, (2) os estimadores GME e GME-α , com as devidas adaptações, são definidos pela maximização de H(p,w,ρ ) = N R N ∑ Hαe (βr ) + ∑ Hαe (vn ) + ∑ Hαe (un ), 1 r=1 2 n=1 (3) 2 n=1 ou, de forma equivalente, pela maximização de H(p,w,ρ ) = Hαe 1 (β ) + Hαe 2 (v) + Hαe 2 (u), (4) sujeitos às restrições de consistência e aditividade, ln q = XZp + Aw − Bρ , 1R = (IR ⊗ 1′M )p, 1N = (IN ⊗ 1′J )w, 1N = (IN ⊗ 1′L )ρ , (5) onde ⊗ representa o produto de Kronecker, Hαe 1 (·) e Hαe 2 (·) são medidas de entropia (Shannon, Rényi ou Tsallis), e α1 , α2 são as ordens de entropia usadas nas entropias de Rényi e Tsallis. O estimador GCE é definido pela minimização de H(p,w,ρ ,q3 ) = p′ ln p + w′ ln w + ρ ′ ln(ρ /q3 ), (6) sujeito às condições (5). O vector q3 representa informação sobre a componente de ineficiência. Principais resultados Com menor erro quadrático médio e menor diferença entre o valor de eficiência estimado e o valor efectivo, estes estimadores possuem um melhor desempenho que o estimador de máxima verosimilhança na maioria dos casos estudados (modelos com um grande número de estados da natureza, com poucas observações por estado e modelos afectados por colinearidade). Bibliografia [1] Chambers, R.G. e Quiggin, J. (2000). Uncertainty, Production, Choice, and Agency: The State-Contingent Approach. Cambridge University Press, Cambridge. [2] Golan, A., Judge, G. e Miller, D. (1996). Maximum Entropy Econometrics: Robust Estimation with Limited Data. John Wiley & Sons, Chichester. [3] Golan, A. e Perloff, J.M. (2002). Comparison of maximum entropy and higher-order entropy estimators. Journal of Econometrics, 107, 195–211. SPE 2011 Mesa: Carlos Tenreiro 178 Sexta, 30/09/2011 Inferência Estatı́stica III Sala Caminho Real, 14:30–15:30 Vencer um jogo de basquetebol: uma análise com probabilidades condicionais Ana Isabel Carita1 e António Paulo Ferreira2 1 CIPER e Secção de Métodos Matemáticos, Faculdade de Motricidade Humana, Universidade Técnica de Lisboa, [email protected] 2 Laboratório de Perı́cia no Desporto, Faculdade de Motricidade Humana, Universidade Técnica de Lisboa, [email protected] Resumo: A predição do resultado em eventos desportivos é uma matéria que desde sempre tem animado a investigação em desporto. Concretamente, a determinação da probabilidade de vitória num jogo é um problema de investigação actual que envolve treinadores, analistas desportivos e investigadores. No desporto anglo-saxónico, em particular no basquetebol, vários são os modelos probabilı́sticos sugeridos para a predição dos resultados de jogos e de campeonatos, recorrendo a informação de registos relativos a performances anteriores (Orendorff e Johnson, 2007; Ben–Naim et al., 2006; Heit et al., 1994). Muito poucos estudos, porém, se têm dedicado à análise preditiva do resultado do jogo utilizando registos da performance do decurso do próprio jogo (Burke, 2009). Neste trabalho procura–se perceber se estar a ganhar em determinado momento é determinante para vencer o jogo. A partir de uma amostra de 176 jogos da época 2007/08 da fase regular do campeonato da NBA (National Basketball Association), estima-se probabilidades de vitória, condicionais ao resultado que se verifica em diferentes momentos ao longo do jogo. As probabilidades condicionais são calculadas para uma equipa em diferentes circunstâncias competitivas: em função do local do jogo (casa vs fora), do nı́vel de oposição e em face do equilı́brio dos jogos. Para além do estudo da probabilidade condicional de vencer ao longo do jogo, procurou-se igualmente modelar a variável aleatória definida como o tempo de jogo em que ocorre a última alternância no marcador. Palavras–chave: Probabilidade condicional, tempo de jogo, alternância no marcador Bibliografia [1] Ben-Naim, E., Vazquez, F. e Redner, S. (2006). Parity and predictability of competitions. Journal of Quantitative Analysis in Sports, vol 2, Issue 4, Article 1. [2] Burk, B. (2009). Modeling win probability for a college Basketball game. The Wages of Wins Journal (jornal electrónico). [3] Heit, E., Price, P. C. e Bower, G.H. (1994). A Model for predicting the outcomes of Basketball games. Applied Cognitive Psychology, 8, 621–639. [4] Orendorff, D. e Johnson, T. (2007). First-order probabilistic models for predicting the winners of professional Basketball games. Project paper. Department of Computer Science, University of California, Irvine. SPE 2011 Mesa: Carlos Tenreiro 179 Sexta, 30/09/2011 Variáveis Intervalares Sala Atlântico, 14:30–15:30 Modelização de séries temporais intervalares por modelos espácio-temporais Paulo Teles e Paula Brito Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, {pteles, mpbrito}@fep.up.pt Resumo: Neste trabalho é proposto e estudado um modelo espácio-temporal para modelizar séries temporais intervalares, por forma a ter em conta a possı́vel correlação entre os extremos dos intervalos observados. Uma aplicação a dados reais ilustra a abordagem proposta. Palavras–chave: Dados intervalares, séries temporais intervalares, modelo espácio-temporal autoregressivo A Análise de Dados Simbólicos oferece um modelo de representação adequado a dados onde possam ocorrer variabilidade e/ou incerteza em cada observação [3, 4]. Os dados designados “simbólicos” generalizam o quadro clássico, no qual a cada indivı́duo corresponde a observação de um único valor para cada variável, permitindo a presença de valores múltiplos, eventualmente ponderados. Novos tipos de variáveis foram introduzidos, permitindo a representação de variabilidade e/ou incerteza eventualmente inerentes aos dados: variáveis a valores múltiplos, variáveis intervalares e variáveis modais. Para uma exposição mais alargada sobre esta nova área, o leitor poderá consultar [3, 6], ou, mais recentemente, [12]. Uma variável designa-se por intervalar se os seus valores são intervalos de IR; pode ocorrer em múltiplas situações, que resultem de agregacão temporal ou amostragem sistemática, tais como o registo de temperaturas mensais ou da velocidade diária do vento em diferentes localizacões ou ainda retornos diários de accões. Outras fontes de dados intervalares são a agregação de grandes bases de dados em grupos ou classes, onde os valores reais individuais são generalizados por intervalos, ou situações onde existe alguma imprecisão ou incerteza no registo do valor de uma variável clássica (e.g., devido a erros de medida). Os dados intervalares podem ser representados pelos limite inferior e superior de cada intervalo observado, ou, alternativamente, pelo respectivo centro e raio. Quando dados simbólicos intervalares são registados ao longo do tempo, ou outra dimensão, formam uma série temporal intervalar (STI). Em [13], Teles e Brito apresentaram o primeiro modelo para séries temporais intervalares, baseado na estimação de processos ARIMA univariados para os limites dos intervalos. Em [1], [7], [9] e [10] definem processo estocástico intervalar, série temporal intervalar, estacionaridade fraca para processos intervalares e funções de autocovariância e autocorrelação para séries temporais intervalares. Em [1], [7] e [2] os autores focam-se na previsão baseando-se em modelos vectoriais autoregressivos (VAR), modelos vectoriais de correcção de erro (VEC) e filtros de alisamento. Neste trabalho é proposta uma nova abordagem para STI, usando Modelos Espácio-Temporais Auto-Regressivos (modelos STAR), que permitem levar em conta a existência de correlação contemporânea ou dependência entre os limites inferior e superior (ou centro e raio) dos intervalos observados. Começamos por estabelecer o modelo STAR bivariado para os limites da STI e por deduzir o correspondente modelo bivariado para os centros e raios, que se verifica ser um modelo vectorial auto-regressivo (SVAR) da mesma ordem. Os parâmetros deste último modelo são função dos parâmetros do primeiro. Casos particulares importantes e respectivas consequências são ana- SPE 2011 Mesa: Paula Brito 181 Sexta, 30/09/2011 Variáveis Intervalares Sala Atlântico, 14:30–15:30 lisadas. Discutimos depois a previsão dos limites da STI a partir do respectivo modelo STAR e dos centros e raios a partir do modelo SVAR correspondente. Finalmente, é apresentada uma aplicação desta modelização a dados reais, (ver [11]), que consistem na série temporal das velocidades mı́nima e máxima diárias do vento medidas em 5 estações metereológicas da Irlanda no perı́odo 1961-1978. O modelo STAR é estimado para os limites dos intervalos e é verificada a sua adequabilidade. O modelo correspondente para os centros e raios é depois deduzido e as estimativas dos seus parâmetros calculadas a partir do modelo STAR. Seguidamente, os valores da STI são previstos para vários perı́odos (previsões fora da amostra), evidenciando um bom desempenho em termos de previsão. Mostra-se ainda a equivalência entre as previsões obtidas a partir dos limites dos intervalos e dos centros e raios da STI. Bibliografia [1] Arroyo, J. (2008). Métodos de predicción para series temporales de intervalos e histogramas, Unpublished Ph.D. Dissertation, Universidad Pontificia Comillas, Madrid. [2] Arroyo, J., González-Rivera, G. e Maté, C. (2011). Forecasting with interval and histogram data. Some financial applications. In: Ullah, A. et al, Eds. Handbook of Empirical Economics and Finance. Chapman and Hall/CR, New York, pp. 247-280. [3] Billard, L. e Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Analysis. John Wiley and Sons, Chichester. [4] Bock, H.-H. e Diday, E. (Eds.) (2000). Analysis of Symbolic Data. Springer, Heidelberg. [5] Cressie, N.A.C. (1993). Statistics for Spatial Data. John Wiley and Sons, New York. [6] Diday, E. e Noirhomme, M. (Eds.) (2008). Symbolic Data and the SODAS Software. Wiley, Chichester. [7] Garcı́a-Ascanio, C. e Maté, C. (2009). Electric power demand forecasting using interval time series: A comparison between VAR and iMLPC, Energy Policy 38, 715-725. [8] Gneiting, T., Genton, M.G. e Guttorp, P. (2007). Geostatistical space-time models, stationarity, separability, and full symmetry. In: Finkenstädt, B., Held, L. and Isham, V., eds. Statistical Methods for Spatio-Temporal Systems. Chapman and Hall/CRC, London, 151-175. [9] González-Rivera, G. e Arroyo, J. (2010). Time series modelling of histogram-valued data: The daily histogram time series of S&P500 intradaily returns. Int. J. Forecasting (in press). [10] Han, A., Hong, Y., Lai, K. e Wang, S. (2008). Interval time series analysis with an application to the Sterling-Dollar exchange rate, J. Systems Science and Complexity 21, (4), 558-573. [11] Haslett, J. e Raftery, A.E. (1989). Space-time modelling with long-memory dependence: assessing Ireland’s wind-power resource (with discussion). Applied Statistics 38, (1), 1-50. [12] Noirhomme-Fraiture, M. e Brito, P. (2011). Far Beyond the Classical Data Models: Symbolic Data Analysis. Statistical Analysis and Data Mining, Vol. 4, (2), 157-170. [13] Teles, P. e Brito, P. (2005). Modelling interval time series data. Proceedings of the 3rd IASC World Conference on Computational Statistics and Data Analysis. Limassol, Cyprus. SPE 2011 Mesa: Paula Brito 182 Sexta, 30/09/2011 Variáveis Intervalares Sala Atlântico, 14:30–15:30 Regressão linear com variáveis intervalares Sónia Dias1 e Paula Brito2 1 Escola Superior Tecnologia e Gestão, Instituto Politécnico Viana do Castelo, Portugal, [email protected] 2 Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, [email protected] Resumo: Nesta comunicação é apresentado um modelo de regressão linear para variáveis intervalares. O modelo permite, para cada observação, estimar o intervalo de valores de uma variável dependente em função dos intervalos observados nas variáveis independentes. Os parâmetros do modelo são solução óptima de um problema de optimização quadrática, que usa a Distância de Mallows entre as funções quantil associadas aos intervalos observados, assumindo uniformidade. Palavras–chave: Dados simbólicos, variáveis intervalares, regressão linear Nos últimos anos, têm-se desenvolvido diferentes abordagens para a modelização e análise de dados que ultrapassam o modelo usual, onde para cada variável, a cada observação corresponde um único valor, numérico ou categórico. A Análise de Dados Simbólicos [1] generaliza este modelo permitindo que a cada indivı́duo ou classe de indivı́duos observados esteja associado um conjunto finito de valores (variáveis quantitativas a valores múltiplos); um conjunto de categorias (variáveis qualitativas a valores múltiplos); um intervalo (variáveis intervalares) ou uma distribuição (variáveis modais); no caso numérico das variáveis modais, a distribuição pode habitualmente ser representada por um histograma, as variáveis designam-se neste caso por variáveis histograma. Nos últimos anos, os conceitos e métodos da estatı́stica clássica têm vindo a ser adaptados a este tipos de variáveis [1, 8]. De entre os vários tipos de variáveis simbólicas, as variáveis intervalares são as mais estudadas. É de salientar que as variáveis intervalares podem ser vistas como um caso particular das variáveis histograma, quando temos apenas um intervalo com probabilidade igual a um. O primeiro modelo de regressão linear para variáveis intervalares designa-se Método do Centro e foi proposto por Billard e Diday em 2000 [1]. Análogos ao anterior, em 2002, os mesmos autores [2] propõem uma série de modelos dos quais se destaca o Método MinMax. Estes modelos usam o modelo de regressão linear clássico para estimar os centros e raios ou os extremos dos intervalos. Os referidos modelos baseiam-se na diferença entre valores reais e não quantificam a aproximação entre os elementos intervalos. Em 2008, Lima Neto e Carvalho [7] propõem um novo modelo, designado Método do Centro e Amplitude que, tal como os anteriores, requer o ajuste de dois modelos de regressão linear clássicos, um para estimar o centro e outro o raio dos intervalos. No modelo que permite estimar os raios, se os coeficientes estimados forem negativos, poderemos obter valores negativos para os raios. Esta limitação do modelo fez com que dois anos mais tarde, os mesmos autores apresentassem uma nova proposta, o Método do Centro e Amplitude com restrições [6]. Neste novo método, ao modelo de regressão linear que permitia estimar os raios dos intervalos é imposta uma restrição de não negatividade aos parâmetros. No entanto, esta restrição força a que a relação linear entre os raios tenha que ser obrigatoriamente uma relação linear directa. Dadas as limitações dos modelos apresentados e uma vez que as variáveis intervalares são um caso particular das variáveis histograma, particularizamos para variáveis intervalares, o modelo proposto para as variáveis histograma [4]. Este novo modelo irá permitir estimar os intervalos de valores SPE 2011 Mesa: Paula Brito 183 Sexta, 30/09/2011 Variáveis Intervalares Sala Atlântico, 14:30–15:30 para a variável dependente a partir dos intervalos de valores das variáveis independentes, usando neste caso a função quantil para representar os valores que as variáveis intervalares podem tomar, em cada observação. No entanto, o comportamento das funções quantil não permite que o modelo de regressão linear para as variáveis intervalares seja apenas uma adaptação do modelo de regressão linear clássico usando as funções quantil para representar os valores que as variáveis intervalares tomam para cada observação. O modelo proposto assenta em conceitos bem diferentes dos anteriores, e tem como critério minimizar uma distância entre as funções quantil estimadas e observadas, relativas à variável dependente. No entanto, também neste caso se torna necessário impor aos parâmetros restrições de não negatividade, para impedir a multiplicação de funções quantil (necessariamente não decrescentes) por um número real negativo, pois nesta situação obterı́amos funções que não são funções não decrescentes. Contudo, apesar de estarmos a incluir no modelo restrições de não negatividade aos parâmetros, não estamos a impor que a relação linear seja directa, uma vez que no modelo proposto incluı́mos não só as funções quantil que representam os intervalos de valores que as variáveis independentes podem tomar em cada observação, mas também as funções quantil referentes às respectivas variáveis intervalares simétricas. É de salientar, que se restringimos os intervalos a um ponto, o modelo proposto coincide com o modelo de regressão linear clássico. Os valores dos parâmetros do modelo são obtidos como solução óptima do problema de optimização quadrática sujeito a restrições de não negatividade, que usa a distância de Mallows entre as funções quantil associadas aos intervalos observados, sob hipótese de uniformidade. Analogamente ao que acontece no modelo de regressão linear clássico, é então possı́vel deduzir um coeficiente de determinação que permite medir a qualidade do ajuste do modelo. Esta medida é uma das vantagens do modelo proposto. A análise dos resultados do modelo e a sua interpretação será apresentada com base em exemplos já aplicados aos modelos anteriores e em resultados de simulação. Bibliografia [1] Billard, L. e Diday, E. (2000). Regression Analysis for Interval-Valued Data. Em: Data Analysis, Classification, and Related Methods. Proceedings of the Seventh Conference of the International Federation of Classification Societies (IFCS’00). Springer, 369-374. [2] Billard, L. e Diday, E. (2002). Symbolic Regression Analysis. Em: Classification, Clustering and Data Analysis. Proceedings of the Eighth Conference of the International Federation of Classification Societies (IFCS’02). Springer, 281-288. [3] Billard, L. e Diday, E. (2007). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester. [4] Dias, S. e Brito, P. (2011). Linear Regression for Interval and Histogram Variables. Em: Classificação e Análise de Dados, Programa e Resumos das XVIII Jornadas de Classificação e Análise de Dados (JOCLAD’2011), 161-164. [5] Lima Neto, E.A. e de Carvalho, F.A.T. (2008). Centre and Range Method for Fitting a Linear Regression Model to Symbolic Intervalar Data. CSDA, 52, 1500-1515. [6] Lima Neto, E.A. e de Carvalho, F.A.T. (2010). Constrained linear regression models for symbolic interval-valued. CSDA, 54, 333-347. [7] Noirhomme-Fraiture, M. e Brito, P. (2011). Far Beyond the Classical Data Models: Symbolic Data Analysis. Statistical Analysis and Data Mining, (in press). SPE 2011 Mesa: Paula Brito 184 Sexta, 30/09/2011 Variáveis Intervalares Sala Atlântico, 14:30–15:30 MAINT.DATA: Um pacote de R para a análise paramétrica de dados intervalares A. Pedro Duarte Silva1 e Paula Brito2 1 Faculdade de Economia e Gestão & CEGE, Univ. Católica Portuguesa, Porto, Portugal, [email protected] 2 Faculdade de Economia e LIAAD-INESC Porto LA, Univ. Porto, Portugal, [email protected] Resumo: Neste trabalho é apresentado um pacote R concebido para modelizar dados intervalares por modelos paramétricos e efectuar análises multivariadas dos dados a partir dessas modelizações. Palavras–chave: Análise de Dados Simbólicos, dados intervalares, distribuição skew-normal, modelização paramétrica de dados intervalares, testes estatı́sticos para dados intervalares A Análise de Dados Simbólicos fornece um quadro de representação onde novos tipos de variáveis permitem considerar directamente a variabilidade e/ou incerteza associados a cada elemento individual do conjunto a analisar, podendo ser observados valores múltiplos, possivelmente ponderados, em cada variável [2, 4, 5]. Interessamo-nos em particular pelo caso dos dados intervalares, isto é, quando os elementos em análise são descritos por variáveis cujos valores são intervalos de IR. Em [3] são desenvolvidas metodologias de inferência baseadas em modelos probabilı́sticos para variáveis intervalares, onde cada intervalo é representado pelo seu centro e log-amplitude. Num primeiro modelo, assume-se que a distribuição conjunta dos centros e das log-amplitudes é Normal multivariada. Este modelo tem a vantagem de permitir a aplicação imediata de métodos inferenciais clássicos. Se considerarmos os centros dos intervalos como indicadores de localização dos valores das variáveis, assumir que seguem uma distribuição conjunta Normal corresponde à hipótese Gaussiana usual para dados clássicos. Ao considerar a log-transformação das amplitudes, ultrapassa-se o problema levantado pelo seu domı́nio limitado. Uma implicação óbvia deste modelo é que as distribuições marginais dos centros são Normais e as das amplitudes são Log-Normais. Consideraremos em seguida modelos mais gerais, com recurso à distribuição Skew-Normal [1], que permitem de alguma forma ultrapassar as limitações da distribuição Normal. A natureza intrı́nseca das variáveis intervalares conduz a estruturas particulares da matriz de variânciacovariância, representadas por cinco possı́veis configurações distintas. Numa formulação mais geral, permitem-se correlações não-nulas entre todos os centros e log-amplitudes; outros casos de interesse são: • Os centros (respectivamente, log-amplitudes) de diferentes variáveis podem ser correlacionados, o centro de cada variável pode ser correlacionado com a respectiva log-amplitude, mas não é permitida correlação entre centros e log-amplitudes de variáveis distintas; • As variáveis intervalares são não correlacionadas entre si, mas, para cada variável, o centro pode ser correlacionado com a respectiva log-amplitude; • Os centros (respectivamente log-amplitudes) de diferentes variáveis podem ser correlacionados, mas não é permitida correlação entre centros e log-amplitudes; SPE 2011 Mesa: Paula Brito 185 Sexta, 30/09/2011 Variáveis Intervalares Sala Atlântico, 14:30–15:30 • Todos os centros e log-amplitudes são não correlacionados entre si. Neste trabalho, apresentamos o pacote MAINT.DATA, que implementa as metodologias propostas no ambiente estatı́stico R [6]. É introduzida uma classe de dados especialmente concebida para representar dados intervalares. O pacote proposto inclui funções e métodos para a análise paramétrica desta classe de dados. Em particular, MAINT.DATA efectua a estimação de máxima verosimilhança assim como testes estatı́sticos para as diferentes configurações. (M)ANOVA e Análise Discriminante Linear e Quadrática são também implementadas para todas as configurações consideradas. Bibliografia [1] Azzalini, A. e Dalla Valle, A. (1996). The multivariate skew-normal distribution. Biometrika 83 (4), 715–726. [2] Billard, L. e Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester. [3] Brito, P. e Duarte Silva, A.P. (2011). Modelling interval data with normal and skew-normal distributions. Journal of Applied Statistics, (in press). [4] Diday, E. e Noirhomme-Fraiture, M. (Eds.) (2008). Symbolic Data Analysis and the SODAS Software. Wiley, Chichester. [5] Noirhomme-Fraiture, M. e Brito, P. (2011). Far beyond the classical data models: symbolic data analysis. Statistical Analysis and Data Mining, (in press). [6] R Development Core Team. R: A language and environment for statistical computing. R Fondation for statistical computing. Viena, Austria. ISBN 3-900051-07-0, URL http://www.Rproject.com, 2011. SPE 2011 Mesa: Paula Brito 186 Sexta, 30/09/2011 Sessão Plenária IV Sala Premium, 15:35–16:30 A Força dos menores Fernando Rosado Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL, [email protected] Resumo: Pensemos, em particular, na Estatı́stica. A Estatı́stica, tão simplesmente, é a ciência dos dados; também aplicada porque a pesquisa, muitas vezes, visa também uma aplicação. A Estatı́stica é interessante e útil porque fornece estratégias e instrumentos para trabalhar os dados de modo a melhor “entrar” em problemas reais. Dados são números (ou a falta deles) inseridos num determinado contexto ou experiência. Determinar a média de 50 números é puro cálculo aritmético, não é Estatı́stica. Discernir sobre aquele valor 50 e decidir se temos uma pequena ou grande amostra e, em cada caso, concluir sobre a discrepância de determinado valor (mesmo que usando a média atrás calculada!) já é Estatı́stica. Mas, quais são os temas fundamentais da Estatı́stica para o século XXI? O que agora “é importante” emerge do século passado? No recente congresso do ISI - International Statistical Institute o “tema Água” foi eleito para todo um dia de comunicações cientı́ficas. Porquê? Meditando sobre a investigação, introduza-se “quos fama obscura recondit”. Na dicotomia entre a “razão menor” e uma “razão mais alta” deve o estatı́stico ter como objectivo (apenas) o conhecimento que lhe permite cobrir as suas necessidades cientı́ficas básicas? Em alternativa, esse deve ser um estádio inicial tendo por objecto a sabedoria estatı́stica onde (ainda) admite a (enorme) importância dos “detalhes cientı́ficos” daqueles a quem uma obscura fama esconde - chamemos-lhes outliers; que são estimuladores da investigação e podem ser originados pelos valores discordantes de uma amostra. Uma minoria! São esses “menores” que fazem avançar a ciência?! Neles está a força! Palavras–chave: Estatı́stica, ciência estatı́stica, investigação cientı́fica, outliers SPE 2011 Mesa: Carlos A. Braumann 187 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Amostragem em duas fases adaptativa para estimar a abundância de populações raras Anabela Afonso e Russell Alpizar-Jara Departamento de Matemática e Centro de Investigação em Matemática e Aplicações, Universidade de Évora, {aafonso, alpizar}@uevora.pt Resumo: Algumas populações são raras ou tendem a distribuir-se apenas em certas zonas. A amostragem adaptativa garante que uma maior parte do esforço seja gasto nas zonas com maior densidade de animais, aumentando assim a dimensão da amostra. Recentemente foram propostos desenhos em duas fases adaptativos para estimar a abundância de populações raras [2]. Nestes desenhos, a região de estudo em dividida em secções. Numa primeira fase é estimada a taxa de ocupação nessas secções a partir da observação directa ou indirecta da presença dos indivı́duos nessas secções, ou numa amostra aleatória dessas secções. Na segunda fase, e apenas nas secções que satisfazem pelo menos um certo patamar de detecções, é realizada uma amostragem mais intensiva do tipo captura-recaptura sendo a abundância estimada pelos processos habituais. Neste trabalho, propomos a utilização da amostragem por distâncias [1] na segunda fase de amostragem e estudamos as propriedades deste modelo. Palavras–chave: Abundância, amostragem adaptativa, amostragem em duas fases, amostragem por distâncias Bibliografia [1] Buckland, S.T., Anderson, D.R., Burnham, K. P., Laake, J.L., Borchers, D.L. e Thomas, L. (2001) Introduction to distance sampling. Oxford University Press, New York. [2] Conroy, M.J., Runge, J.P., Barker, R.J., Schofield, M.R. e Fonnesbeck, C.J. (2008). Efficient estimation of abundance for patchily distributed populations via two-phase, adaptive sampling. Ecology, 89, 3362–3370. SPE 2011 189 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Medidas de centralidade, dispersão e simetria em variáveis categóricas ordinais Conceição Amado CEMAT, IST-TUL, [email protected] Resumo: Neste trabalho discute-se o problema da definição de caracterı́sticas sumárias relativas a variáveis categóricas ordinais. Palavras–chave: Variáveis categóricas ordinais, medidas de centralidade, medidas de simetria Introdução Muitos problemas práticos envolvem variáveis categóricas ordinais. Estas variáveis caracterizam-se pela existência de uma ordenação entre os seus possı́veis valores e podem provir da categorização de uma variável contı́nua que é agrupada, ou de uma variável categórica naturalmente agrupada. A noção de distância entre os possı́veis valores deste tipo de variáveis não é fácil de definir complicando o conceito da sua distribuição de probabilidades e, naturalmente, das suas caracterı́sticas sumárias. Neste trabalho discute-se esta questão revendo-se algumas das propostas que têm sido efectuadas na literatura. Por fim apresentam-se propostas de medidas de simetria e achatamento para estas variáveis. Bibliografia [1] Agresti, A. (2010). Analysis of Ordinal Categorical Data. 2nd ed., Wiley. [2] Anderson, J.A. e Philips, P.R. (1981). Regression, Discrimination and Measurement Models for Ordered Categorical Variables. Journal of the Royal Statistical Society. Series C (Applied Statistics), 30, 22–31. [3] Franceschini, F., Galetto, M. e Varetto, M. (2004). Qualitative Ordinal Scales: The Concept of Ordinal Range. Quality Engineering, 16, 515–524. SPE 2011 191 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Normalidade aproximada Dário Ferreira1 , Sandra Ferreira1 , Célia Nunes1 e João Tiago Mexia2 1 2 UBI, {dario, sandraf, celian}@ubi.pt FCT-UNL, [email protected] Resumo: Muitas estatı́sticas relevantes são polinómios de baixo grau em variáveis independentes. Se essas variáveis, para além de serem normais, tiverem um baixo coeficiente de variação, as estatı́sticas seguirão uma distribuição aproximadamente normal. Neste trabalho iremos realizar uma discussão do tema referido. A fim de consolidar os desenvolvimentos teóricos obtidos realizar-se-ão algumas simulações e será apresentada uma aplicação. Na primeira parte mostraremos que polinómios de baixo grau em variáveis normais independentes, com um baixo coeficiente de variação, seguem uma distribuição normal. Esse facto é importante pois muitas estatı́sticas relevantes são polinómios de baixo grau e a assunção da normalidade irá facilitar a inferência. De seguida apresentaremos algumas simulações que confirmam os desenvolvimentos teóricos obtidos. Por último será ainda apresentada uma aplicação utilizando a normalidade aproximada. Palavras–chave: Normalidade aproximada, convergência quase certa, variáveis normais Bibliografia [1] Areias, A., Oliveira, M., M. e Mexia, J.T. (2008). Models for Series of Studies based on Geometrical Representation. Statistical Methodology, 5, 3, 277–288. [2] Ferreira, D., Ferreira, S., Ramos, L. e Mexia, J.T. (2008). Normal Approximation to the Product of a Non Central Chi-Square by an Independent Normal Variable. Journal of Applied Mathematics, 1, 2, 185–192. [3] Imhof, J.P. (1961). Computing the distribution of quadratic forms in normal variables. Biometrics 48, 3-4, 419–426. [4] Mexia, J.T. e Oliveira, M. (2010). Asymptotic linearity and limit distributions, approximations, Journal of Statistical Planning and Inference, 140, 2, 353–357 SPE 2011 193 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Análise de variância robusta Adelaide Maria Sousa Figueiredo1 1 Faculdade de Economia e LIAAD-INESC Porto, Universidade do Porto, [email protected] Resumo: Considere-se a abordagem dual da abordagem clássica de estatı́stica multivariada em que os indivı́duos estão fixos e as variáveis são escolhidas aleatoriamente de uma população de variáveis. Supondo que as variáveis estão centradas e reduzidas e que a amostra de variáveis é formada por vários grupos de variáveis, sendo cada grupo de variáveis proveniente de uma população de Watson, pretende-se averiguar se os grupos de variáveis são distintos, usando a análise de variância dual. Neste trabalho propõe-se uma versão robusta da estatı́stica de teste da análise de variância dual; mostra-se, efectuando simulações, que na presença de outliers, o teste baseado na estatı́stica robusta é mais potente que o teste de análise de variância, e apresenta-se uma aplicação desta metodologia a dados bancários. Palavras–chave: Análise de variância dual, distribuição de Watson Introdução Considere-se o quadro de dados multivariado com n indivı́duos descritos por p variáveis. Na abordagem clássica as p variáveis estão fixas e os n indivı́duos são escolhidos aleatoriamente de uma população de indivı́duos. Neste estudo considera-se a abordagem dual usada por Gomes [7] e Figueiredo [3], onde os n indivı́duos estão fixos e as p variáveis são escolhidas aleatoriamente de uma população de variáveis. Supõe-se que as variáveis estão centradas e reduzidas, de modo que são representadas por pontos da esfera n-dimensional. Admite-se que a amostra de variáveis é formada por vários grupos de variáveis, sendo estes grupos obtidos através da identificação de uma mistura de distribuições de Watson através do algoritmo EM proposto por Dempster, Laird e Rubin [2] e aplicado neste contexto por Figueiredo e Gomes [5]. Na análise de variância multivariada clássica pretende-se comparar várias subpopulações de indivı́duos e associa-se a cada subpopulação uma distribuição multinormal. Neste trabalho considera-se a análise de variância dual para comparar vários grupos de variáveis e associa-se a cada grupo de variáveis uma distribuição de Watson. Esta abordagem foi proposta por Gomes e Figueiredo [8], Figueiredo [3] e Figueiredo e Gomes [4]. Análise de variância dual robusta A estatı́stica do teste de análise de variância dual depende dos parâmetros das distribuições de Watson, os quais são em geral desconhecidos e estimados com base nas amostras das populações de Watson, através das estimativas de máxima verosimilhança. Como Fisher, Lewis e Embleton ([6], p. 176) referem para o caso da distribuição de Watson definida na esfera e também se mostra para o caso da distribuição de Watson definida na hiperesfera, que a estimação do parâmetro de concentração é bastante afectada pela presença de contaminantes na amostra, embora a estimação SPE 2011 195 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 do parâmetro direccional já não seja afectada por contaminantes. Assim propõe-se que na estatı́stica de teste usada na análise de variância dual, a estimação de cada parâmetro de concentração seja efectuada através do estimador robusto proposto por Best e Fisher [1] em vez do estimador de máxima verosimilhança usual. Potência do teste proposto e aplicação a dados bancários Efectua-se um estudo de simulação no caso de dois grupos de variáveis para comparar a potência do teste de análise de variância robusta com o teste de análise de variância dual. Conclui-se que na presença de contaminantes o teste robusto é mais potente que o teste usual e que a potência do teste robusto aumenta com o número de contaminantes nas amostras. Na ausência de contaminantes nas amostras, o teste robusto à presença de um ou dois contaminantes em cada amostra tem potência semelhante à do teste usual. Finalmente, apresenta-se uma aplicação onde se considera os bancos portugueses caracterizados por variáveis tais como a ocupação, antiguidade dos trabalhadores e as suas condições salariais. Com o objectivo de verificar se os grupos homogéneos de variáveis obtidos através da identificação de uma mistura de distribuições de Watson são distintos, aplica-se ambas as abordagens de análise de variância dual, usual e robusta, uma vez que se suspeita da existência de outliers nas amostras. Bibliografia [1] Best, D. e Fisher, N.I. (1986). Goodness-of-fit and discordancy tests for samples from the Watson distribution on the sphere. Australian Journal of Statistics, 28 (1), 13-31. [2] Dempster, A.P., Laird, N.M. e Rubin, D.B. (1977). Maximum likelihood from incomplete data via the EM algorithm (with discussion). Journal of the Royal Statistical Society, series B, vol. 39, 1-38. [3] Figueiredo, A. (2000). Classificação de variáveis no contexto de um modelo probabilı́stico definido na n-esfera. Tese de Doutoramento, Universidade de Lisboa. [4] Figueiredo, A. e Gomes, P. (2002). Comparação dos parâmetros direccionais de k populações de Bingham. Em Novos rumos em Estatı́stica (Carvalho, L., Brilhante, F. & Rosado, F., eds.), 227-234, Edições SPE. [5] Figueiredo, A. e Gomes, P. (2006). Performance of the EM algorithm on the identification of a mixture of Watson distributions defined on the hypersphere. REVSTAT - Statistical Journal, vol. 4, no 2, 19. [6] Fisher, N.I.; Lewis, T. e Embleton, B.J.J. (1987). Statistical analysis of spherical data. Cambridge University Press. [7] Gomes, P. (1987). Distribution de Bingham sur la n-sphere: une nouvelle approche de l’Analyse Factorielle. Thèse de Doctorat D’État, Université de Montpellier. [8] Gomes, P. e Figueiredo, A. (1999). A new probabilistic approach for the classification of normalised variables. Bulletin of the International Statistical Institute,vol. LVIII, no 1, p. 403404. SPE 2011 196 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 O genotipo CC do locus 9p21 apresenta risco acrescido de doença das artérias coronárias perante valores elevados de PCR de alta sensibilidade Sónia Freitas1 , Maria Isabel Mendonça1 , Eva Henriques1 e Roberto Palma dos Reis2 1 Unidade de Investigação - Hospital Central do Funchal, {soniafreitas, dep.card, evinha afonseca}@srs.pt 2 Faculdade de Medicina da Universidade Nova de Lisboa, [email protected] Resumo: Estudos recentes de associação genómica em larga escala identificaram vários loci associados com maior risco de doença coronária (DC). De entre vários, a variante CC do SNP rs 1333049 no locus 9p21 tem demonstrado uma associação consistente com a DC que tem sido replicada com sucesso, em várias populações, nomeadamente na nossa. A Proteı́na C Reactiva de alta sensibilidade (PCR-as) tem sido também associada à actividade inflamatória ligada ao fenómeno aterosclerótico. Desconhece-se a eventual interacção entre estes dois marcadores de doença aterosclerótica. Objectivo: O objectivo deste trabalho é explorar a interacção entre este alelo mutado em homozigotia (CC) e os nı́veis plasmáticos elevados de PCR-as no aparecimento da DC. Métodos: Estudo de casos e controlos, que incluiu 1561 indivı́duos, 695 doentes coronários consecutivos (idade média de anos 53,9 ± 8,9 anos 78,8% do sexo masculino) e 838 controlos sem DC (idade média de 52,0 ± 11,4 anos 71,0% do sexo masculino), seleccionados para não apresentar diferenças significativas em relação ao sexo e idade. As variantes G/C foram estudados de forma cega recorrendo a uma técnica combinada PCR e TaqMan. Analisou-se a distribuição de Hardy-Weiberg. O risco de DC foi investigado por análise univariada (tabelas 4x2), calculando-se os OR e IC de 95%. Os valores de PCR-as foram repartidos por quartis sendo avaliado o superior, considerado o de risco. Foram utilizadas medidas de sinergismo no modelo aditivo (SI) e multiplicativo (SIM) e calculado o excesso de risco relativo (RERI). Limiar de significância valor de p < 0,05. Resultados: A variante CC está associada à DC, de forma significativa, para toda a população (OR=1,32; p=0,011). A presença isolada desta variante com valores normais de PCR-as apresentou, no presente trabalho, risco de DC (Odds Ratio = 1,28). A associação desta variante com valores elevados de PCR-as (quartil superior) mostrou um aumento do risco de DC (OR=1,7; p =0,007; SI = 1,63; SIM = 1,15; RERI=0,27). Conclusão: O presente trabalho revela-nos que o genótipo CC do locus 9p21 pode aumentar, globalmente, o risco de DC. Este pode ser acrescido em algumas circunstâncias, nomeadamente na presença de valores elevados de PCR-as. Na presença destas duas entidades, verificou-se uma interacção aditiva e multiplicativa no risco de DC. Este conceito permite-nos antever uma tentativa de controlo do risco dos factores genéticos pelo controlo das circunstâncias que lhe estão associadas, se susceptı́veis de intervenção. Palavras–chave: Doença coronária, PCR(as), equilı́brio de Hardy-Weiberg, locus 9p21, sinergismo SPE 2011 197 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Regressão-M em estudos de associação genéticos de caracterı́sticas quantitativas Vanda M. Lourenço1 e Ana M. Pires2 1 2 FCT/UNL, Dep. Matemática e IST/UTL, CEMAT, Portugal, [email protected] IST/UTL, Dep. Matemática e CEMAT, Portugal, [email protected] Resumo: O pressuposto da normalidade é uma conveniência matemática. Em geral, a distribuição de caracterı́sticas quantitativas não é normal, apresentando caudas pesadas que por seu turno fazem com que observações regulares sejam erradamente classificadas como outliers, sendo esta uma das razões pela qual a não-normalidade e a presença de outliers estão habitualmente associadas. Entretanto, é também sabido que os métodos clássicos que se baseiam na verosimilhança têm um fraco desempenho aquando da violação deste pressuposto. Tal é igualmente o caso do teste F da ANOVA cuja potência fica comprometida nestas circunstâncias [3]. Os métodos robustos por seu lado, são desenhados por forma a serem fiáveis mediante a violação de alguns dos pressupostos subjacentes aos métodos clássicos, em particular a violação da condição da normalidade dos erros (isto no enquadramento de um modelo de regressão). Neste sentido, pretendemos comparar a abordagem clássica com duas alternativas não paramétricas [6] e a regressão-M [5] no contexto dos estudos de associação genéticos de caracterı́sticas quantitativas em que temos marcadores genéticos como variáveis explicativas e onde se usam os modelos de regressão para aferir possı́veis associações [1, 2]. Os resultados mostrarão a vantagem da metodologia robusta proposta bem como os perigos que podem advir da utilização da abordagem clássica mesmo quando os resı́duos apresentam uma distribuição aproximadamente normal [4]. Palavras–chave: Não-normalidade, estimação-M, estudos de associação, polimorfismo de nucleótido único (SNP) Agradecimentos: V. M. Lourenço e A. M. Pires agradecem o apoio financeiro do CEMAT, Centro de Matemática e Aplicações do Instituto Superior Técnico. Bibliografia [1] Balding, D.J. (2006). A tutorial on statistical methods for population association studies. Nature Reviews Genetics 7: 781-791. [2] Chapman, J. e Whittaker, J. (2008). Analysis of multiple SNPs in candidate gene or region. Genet. Epidemiol. 32(6), 560-566. [3] Copt, S. e Heritier, S. (2007). Robust alternatives to the F-Test in mixed linear models based on MM-estimates. Biometrics, 63, 1045–1052. SPE 2011 199 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 [4] Lourenço, V.M., Pires, A.M. e Kirst, M. (2011). Robust linear regression methods in association studies. Bioinformatics. [5] Maronna, R.A., Martin, D.R. e Yohai, V.J. (2006). Robust Statistics, Theory and Methods. Chichester: Wiley. [6] McKean, J.W. e Terpstra, J.T (2009). Computational rank-based statistics. Wiley Interdisciplinary Reviews: Computational Statistics 1, 132–140. SPE 2011 200 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Leis da genética de Mendel: a enriquecedora controvérsia Francisco Macedo e Ana M. Pires Departamento de Matemática e CEMAT, IST-UTL, [email protected],[email protected] Resumo: Em 1866 Gregor Mendel publicou as leis da genética, após milhares de experiências realizadas sobre a reprodução das ervilheiras. Os resultados dessas experiências foram mais tarde explorados exaustivamente pelo brilhante estatı́stico e geneticista Sir Ronald Fisher que, com o simples objectivo de homenagear um grande homem, acabou por ser surpreendido com a sua própria análise. Terá Mendel realmente efectuado as experiências? Ou será que manipulou de alguma forma os resultados, ciente do que pretendia obter? Neste trabalho discute-se a análise e os argumentos apresentados por Fisher. Em particular, analisa-se a combinação de testes do qui-quadrado recorrendo a simulações de Monte Carlo para reproduzir a forma como as experiências podem ter decorrido. Palavras–chave: Genética, qui-quadrado, valor-p Bibliografia [1] Fisher, R.A. (1936). Has Mendel’s work been rediscovered? Annals of Science 1, 115–137. [2] Franklin, A., Edwards, A.W.F., Fairbanks, D.J., Hartl, D.L. e Seidenfeld, T. (2008). Ending the Mendel-Fisher Controversy. Univ. of Pittsburgh Press, Pittsburgh. [3] Mendel, G. (1866). Experiments in Plant Hybridization. Verhandlungen des naturforschenden Vereines in Brünn, Bd. IV für das Jahr, 1865, 3–47. (uma transcrição da primeira tradução em inglês deste artigo encontra-se em Franklin et al., 2008, pp. 78–114) [4] Pires, A.M. e Branco, J.A. (2010). A statistical model to explain the Mendel-Fisher controversy. Statistical Science 25, 545–565. SPE 2011 201 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Funções distância direccionais: novas medidas de eficiência Pedro Macedo1 , Elvira Silva2 e Manuel Scotto1 1 2 Departamento de Matemática, Universidade de Aveiro, {pmacedo, mscotto}@ua.pt Faculdade de Economia, Universidade do Porto, [email protected] Resumo: As funções distância direccionais têm um papel importante na teoria económica da produção, nomeadamente na medição da eficiência e produtividade. A selecção do vector direccional é fulcral, pois condiciona a análise económica. Nesta apresentação são propostas duas novas medidas de eficiência técnica, uma baseada na mediana de inputs e outputs, e outra baseada nas funções distância de Shephard. Palavras–chave: Mediana, eficiência técnica, funções distância direccionais Introdução As funções distância direccionais são uma representação completa da tecnologia de produção. Tal como referido por Chambers, Chung e Färe [1], uma função distância direccional é definida pela contracção de inputs e, simultaneamente, pela expansão de outputs numa determinada direcção estabelecida. É importante notar que as funções distância direccionais oferecem uma medida natural de eficiência, pelo que são apelativas em análise de eficiência. Nesta apresentação são propostas duas novas medidas de eficiência técnica, uma baseada na mediana de inputs e outputs, e outra baseada em dois vectores direccionais associados às funções distância de Shephard. Função distância direccional e vector direccional Considere-se a tecnologia de produção, T ⊆ RN+ × RM + , definida por T = {(x,y) : x pode produzir y}, (1) onde x = (x1 ,x2 , . . . ,xN ) ∈ RN+ é um vector de inputs e y = (y1 ,y2 , . . . ,yM ) ∈ RM + um vector de outputs. Assumindo que T satisfaz as condições de regularidade tradicionais, uma função distância direccional pode ser definida por ~DT (x,y; gx ,gy ) = sup{β : (x − β gx ,y + β gy ) ∈ T }, (2) onde g = (gx ,gy ) ∈ RN+ × RM + é um vector direccional que define a direcção na qual os inputs devem ser contraı́dos e os outputs expandidos. Assim, a distância medida por (2) pode ser interpretada como uma medida de eficiência técnica, ou seja, uma medida que define em quanto os outputs podem ser aumentados e os inputs reduzidos, enquanto for tecnicamente possı́vel (e.g., Chambers, Chung e Färe [1], Färe e Grosskopf [2]). Uma questão inevitável é: como seleccionar o vector g? Em estudos empı́ricos, o vector direccional é normalmente definido pela média das observações, isto é, gx = x e gy = y. SPE 2011 203 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Novas propostas para medir a eficiência técnica A primeira proposta consiste na distância medida pelo vector direccional g = (med x, med y), onde med representa a mediana. Assim, neste caso, a direcção é determinada pela mediana dos dados observados e a medida de ineficiência técnica é dada por ~DT (x,y; med x,med y). (3) Na presença de outliers, a medida (3) conduz a menores valores de ineficiência técnica quando comparada com a medida baseada no vector direccional g = (x,y), cuja direcção é determinada pela média das observações. A segunda proposta consiste na medida rh i2 i2 h ~DT (x,y; x,0) + ~DT (x,y; 0,y) , (4) que captura informação dos vectores direccionais g = (x,0) e g = (0,y), que estão associados às funções distância de inputs e outputs de Shephard. Esta medida poderá contribuir para uma avaliação mais equilibrada da eficiência técnica, uma vez que diferentes produtores com diferentes nı́veis de ineficiência, segundo diferentes vectores direccionais, podem, afinal, ser considerados semelhantes em termos de ineficiência técnica. Bibliografia [1] Chambers, R.G., Chung, Y. e Färe, R. (1998). Profit, Directional Distance Functions, and Nerlovian Efficiency. Journal of Optimization Theory and Applications, 98, 351–364. [2] Färe, R. e Grosskopf, S. (2004). New Directions: Efficiency and Productivity. Kluwer Academic Publishers, Boston. SPE 2011 204 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Uma versão robusta para o estimador do ı́ndice extremal de Nandagopalan Cristina Miranda1 , Manuela Souto de Miranda2 , Anabela Rocha3 e Ivette Gomes4 1 CEAUL e ISCA-Universidade de Aveiro, [email protected] CIDMA e DMAT-Universidade de Aveiro, [email protected] 3 CIDMA e ISCA-Universidade de Aveiro, [email protected] 4 CEAUL e DEIO-Universidade de Lisboa, [email protected] 2 Resumo: Em muitas aplicações frequentes da Teoria de Valores Extremos somos confrontados com a ocorrência de excedências de nı́veis elevados em grupos. Quando isto sucede, a distribuição de valores extremos é afetada, havendo necessidade de estimar um outro parâmetro, designado por ı́ndice extremal. Existem várias propostas na literatura para estimar este parâmetro, que pode ser interpretado como o inverso da dimensão média dos grupos de excedências, mas os estimadores mais divulgados não são robustos. Neste trabalho revisitamos o estimador de Nandagopalan, considerando um indicador robusto de localização em substituição da média amostral que o integra, de modo a obter estimativa robustas do número de excedências que ocorrem em cada grupo. Palavras–chave: Estimador de Nandagopalan, ı́ndice extremal, robustez Em Teoria de Valores Extremos é conhecido o resultado que permite a identificação da distribuição limite do máximo de uma sucessão, Mn = max{X1 ,X2 ,...,Xn }, devidamente normalizado, no caso de uma amostra com observações independentes e identicamente distribuı́das (i.i.d.): Seja {Xn } uma sucessão de variáveis aleatórias i.i.d. e admitamos que existem sucessões de constantes {an }, {bn }, com an > 0 e bn ∈ R, tais que Mn − bn ≤x P an → G(x). n→∞ Então, se G(x) é não-degenerada, sabemos que assume uma forma paramétrica especı́fica. Se, para além disso, considerarmos uma sucessão estacionária, sob determinadas condições, é ainda possı́vel obter a distribuição limite do máximo, diferindo esta de G(.) por conter um parâmetro θ , conhecido por ı́ndice extremal. O valor do ı́ndice extremal traduz o grau de dependência de uma sucessão: quando é zero, os termos da sucessão são fortemente dependentes e quando é 1, a sucessão é de termos independentes ou assintoticamente independentes. Na prática, é frequente observar sucessões dependentes em que a ocorrência de extremos se caracteriza pela sua multiplicidade, isto é, em que os extremos não ocorrem de forma isolada, mas em grupos de valores elevados (ou baixos). São disso exemplo a forma como ocorrem as marés vivas – há dias consecutivos com marés acima (abaixo) dos valores normais; picos de temperatura, etc.. Um dos estimadores propostos para o ı́ndice extremal é o estimador de Nandagopalan ou de cruzamentos ascendentes. Trata-se do inverso da média amostral da dimensão dos grupos de excedências que se verificam acima de uma dado nı́vel definido, un . Se uma sucessão estacionária {Xn } com ı́ndice extremal θ > 0 verifica determinadas condições, SPE 2011 205 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 então o número médio de excedências e o número médio de cruzamentos ascendentes relacionam-se através da razão constante 1/θ . Nesses casos, o estimador de Nandagopalan para o ı́ndice extremal, é definido em [1] por: 1 ∑n P [Xi > un (τ )] , = n−1 i=1 θ̂nN ∑i=1 P (Xi ≤ un (τ ) < Xi+1 ) (1) onde os termos un (τ ) representam nı́veis não normalizados, tais que nP [X1 > un (τ )] ∼ cn τ , com cn , kn → ∞ e n→∞ cn → 0. kn Consequentemente, θ̂nN = número de cruzamentos ascendentes de un 1 = . número total de excedências de un número médio de excedências em cada grupo Trata-se de um estimador que converge em probabilidade para θ e que tem distribuição assintótica Normal. No entanto, a expressão funcional que o define depende de uma média amostral, implicando que o estimador não seja robusto. Neste trabalho propomos que se utilize um indicador robusto de localização para substituir a média amostral em (1), obtendo assim, uma versão robusta do estimador de Nadagopalan. A proposta consiste em estimar de forma robusta a tendência central do número de observações que constituem os grupos de excedências. Com esse objectivo, estudamos a aplicação de diferentes estimadores-M, os quais podem ser definidos, implicitamente, pela solução de equações do tipo ∑ ψ (xi ,θ ) = 0, para funções ψ adequadas. As propriedades do estimador, nomeadamente, no que respeita à robustez, dependem das caracterı́sticas da função ψ escolhida (ver, p.ex., em [2]). Para avaliar o desempenho da proposta, recorremos a estudos de simulação, comparando os resultados de diferentes versões robustas, com os obtidos pelo estimador de Nadagopalan. Em amostras onde haja grupos de excedências de dimensão atipicamente elevada (ou pequena) é de esperar que o estimador proposto supere o original. Bibliografia [1] Leadbetter, M.R. e Nandagopalan, S. (1989). On exceedance point processes for stationary sequences under mild oscillation restrictions. Em Extreme Value Theory (Hüsler, J. and R.-D. Reiss, eds.), 69–80, Springer-Verlag. [2] Maronna, R. A., Martin, R. D. e Yohai, V. (2006). Robust Statistics, Theory and Methods. John Wiley & Sons. SPE 2011 206 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Estimação simultânea da altura dominante, mortalidade e área basal no modelo GLOBULUS Isabel Pereira1 e Marco Marto2 1 2 Universidade de Aveiro, CIDMA, [email protected] Universidade de Aveiro, [email protected] Resumo: Os modelos de crescimento florestal e produção são muitas vezes caracterizados por um sistema de equações que explicitam a interdependência entre equações. Com o objetivo de se modelar o crescimento da espécie Eucalyptus globulus, Tomé et al [1] sugeriram o modelo, não linear, GLOBULUS. Para se estimarem os parâmetros estruturais deste modelo de crescimento foram usados o método dos mı́nimos quadrados não lineares em três fases e o método NSUR (Nonlinear Seemingly Unrelated Regression). Adicionalmente foi ainda implementada a metodologia bayesiana para estimar os parâmetros, após se ter feito a escolha do modelo com base no critério de informação da deviance, vulgarmente designado por DIC. Foi implementado o algoritmo de Monte Carlo baseado em cadeias de Markov, usando a priori´s não informativas. Palavras–chave: Algoritmo MCMC, critério DIC, mı́nimos quadrados, modelo de equações simultâneas, NSUR Introdução Em Portugal têm sido feitos muitos estudos de modelação do crescimento da espécie Eucalyptus globulus, mais conhecido correntemente por eucalipto desde a instalação das primeiras parcelas permanentes, instaladas pela Celbi, em 1971. O modelo resultante dum projecto de colaboração entre a indústria e a ISA foi o GLOBULUS, apresentado por Tomé et al. [1] e que tem vindo a ser melhorado em sucessivas versões. O presente trabalho assenta versão GLOBULUS 2.1, Tomé et al. [2]. O modelo que vai ser analisado segundo as metodologias clássica e bayesianas é um modelo de povoamento que considera as seguintes variáveis de estado: altura dominante - representando a altura das árvores dominantes na parcela florestal (em metros), mortalidade - indicando o número de árvores vivas por hectare na parcela florestal e a área basal- que apresenta a soma das áreas das árvores da parcela a 1,30m de altura, em m2 /ha. Para os estados mortalidade e área basal terão de ser considerados dois módulos, o módulo de inicialização e o módulo da projecção, sendo este último formulado através de equações ás diferenças. Bibliografia [1] Tomé, M., Ribeiro, F., Soares, P. (1998). Silvipastoral systems in Portugal. Em Modelling the growth of tree plantations and agroforestry systems in south and east Africa (Pukkala,T. e Eerikäinen, K., eds.), Tiedonantoja Research Notes, 80: 23–33. SPE 2011 207 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 [2] Tomé, M., Ribeiro, F., Soares, P. (2001). O modelo Globulus 2.1. Relatórios TecnicoCientı́ficos do GIMREF no 1/2001. Centro de Estudos Florestais, Instituto Superior de Agronomia, Lisboa. SPE 2011 208 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Métodos bayesianos de adequação de modelos estatı́sticos: um estudo de simulação Maria João Polidoro1 , Fernando Magalhães2 e Maria Antónia Turkman3 1 ESTGF - Instituto Politécnico do Porto, CEAUL, [email protected] ISCAP - Instituto Politécnico do Porto, CEAUL, [email protected] 3 DEIO e CEAUL - Faculdade de Ciências da Universidade de Lisboa, [email protected] 2 Resumo: O processo de construção de um modelo estatı́stico pode ser visto como uma etapa da análise estatı́stica que se pode dividir em duas fases: (i) selecção/comparação de modelos e (ii) validação/adequação do modelo seleccionado. Cada uma destas fases dispõe de várias técnicas que visam alcançar o melhor modelo, ou seja, aquele que melhor descreva o fenómeno aleatório em estudo, e que, simultaneamente, seja adequado para produzir inferências úteis à tomada de decisão. Na abordagem clássica, o estudo da adequação de um modelo aos dados passa pela formulação de um teste de ajustamento, em que a hipótese nula consiste no modelo proposto. Na abordagem bayesiana, o modelo inclui, além da distribuição amostral condicional ao vector de parâmetros, a especificação de uma famı́lia de distribuições a priori para o vector de parâmetros. Há várias propostas apresentadas na literatura para o estudo da adequabilidade de um modelo segundo a abordagem bayesiana, nomeadamente: (i) métodos baseados em medidas de diagnóstico; (ii) métodos baseados em medidas de surpresa; (iii) teste do qui-quadrado bayesiano; e (iv) testes de ajustamento bayesianos não paramétricos. Neste trabalho apresenta-se um estudo de simulação em que se comparam os métodos bayesianos de adequação de modelos referidos anteriormente, sugerindo-se ainda, em algumas situações, propostas alternativas. Palavras–chave: Adequação de modelos, medidas de diagnóstico, medidas de surpresa, qui-quadrado bayesiano, testes de ajustamento não paramétricos Agradecimentos: Este trabalho é suportado por uma bolsa da FCT - Bolsa SFRH/BD/36869/2007, pelo CEAUL e pelo PFAD.IPP. SPE 2011 209 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Testes robustos para modelos lineares generalizados com respostas incompletas Isabel M. Rodrigues1 , Ana M. Bianco2 e Graciela Boente2 1 2 Instituto Superior Técnico, UTL (TULisbon) e CEMAT, Portugal, [email protected] Universidad de Buenos Aires e CONICET, Argentina, {abianco, gboente}@dm.uba.ar Resumo: Em muitas situações em que os dados seguem um modelo linear generalizado a média das respostas é bem modelada considerando uma função (de ligação) linear das covariáveis. Com o objectivo de construir testes de hipóteses robustos para os parâmetros de regressão, neste trabalho são estudados novos estimadores robustos desses parâmetros, para conjuntos de dados com respostas completas ou incompletas. O comportamento assimptótico dos estimadores robustos foi estudado sob a hipótese nula e sob alternativas contı́guas, o que permitiu obter uma versão robusta da estatı́stica de Wald. O grau de robustez desta estatı́stica foi estudado através da função de influência do funcional correspondente. O comportamento da nova estatı́stica, para amostra finitas, foi analisado num estudo de simulação de Monte Carlo. Palavras–chave: Dados incompletos, estimação robusta, funções de influência, modelos lineares generalizados, testes robustos Introdução Os modelos lineares generalizados (MLG) são uma técnica popular para a modelação de uma vasta variedade de dados. Assumem que as observações (yi ,xi ), para i = 1, . . . , n, com xi ∈ R p , são independentes com a mesma distribuição de (y,x) ∈ R p+1 , e a distribuição condicional de y|x pertence à famı́lia exponencial canónica exp {[yθ (x) − B (θ (x))] /A(τ ) +C(y,τ )} , onde A, B e C são funções conhecidas. Nesta situação, se denotarmos por B′ a derivada de B, a média µ (x) = E(y|(x)) = B′ (θ (x)) é modelada lineramente com uma função de ligação conhecida, g, i.e., g(µ (x)) = θ (x) = xT β . Procedimentos robustos para modelos lineares generalizados foram considerados, entre outros, por Stephanski, Carroll e Ruppert [7], Künsch, Stefanski e Carroll [6], Bianco e Yohai [3], Cantoni e Ronchetti [4], Croux e Haesbroeck [5] e Bianco, Garcı́a Ben e Yohai [1]. Recentemente, testes robustos para os parâmetros de regressão do modelo logı́stico foram estudados por Bianco e Martı́nez [2]. Na prática, pode ocorrer que algumas variáveis resposta sejam incompletas e os métodos anteriormente referidos, delineados para conjuntos de dados completos, são inadequados. Neste trabalho desenvolvemos procedimentos inferenciais robustos para conjuntos de dados com observações incompletas da variável resposta mas com a covariável x completamente observada. São introduzidos procedimentos robustos para estimar o parâmetro β , sob o MLG, o qual inclui, no caso de dados completos, a famı́lia de estimadores anteriormente referida. Mostrou-se√que o estimador robusto de β é consistente e assimpoticamente normal (com taxa de covergência n). Um teste de hipóteses SPE 2011 211 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 robusto, do tipo Wald, para testar H0 : β = β 0 foi também estudado. Foi deduzida a função de influência para o funcional relacionado com a estatı́stica de teste, o que permitiu avaliar o seu grau de robustez. Um estudo de simulação de Monte Carlo, com diferentes esquemas de contaminação, permitiu comparar o comportamento da nova estatı́stica de teste, para amostras finitas, com o de outras estatı́sticas robustas e o da estatı́stica clássica de Wald. Bibliografia [1] Bianco, A., Garcı́a Ben, M. e Yohai, V. (2005). Robust estimation for linear regression with asymmetric errors. Canad. J. Statist., 33, 511-528. [2] Bianco, A. e Martı́nez, E. (2009). Robust testing in the logistic regression model. Comp. Statist. Data Anal., 53, 4095-4105. [3] Bianco, A. e Yohai, V. (1995). Robust estimation in the logistic regression model. Lecture Notes in Statistics, 109, 17-34. Springer-Verlag, New York. [4] Cantoni, E. e Ronchetti, E. (2001). Robust Inference for Generalized Linear Models. Journal of the American Statistical Association, 96, 1022-1030. [5] Croux, C. e Haesbroeck, G. (2003). Implementing the Bianco and Yohai estimator for logistic regression. Comp. Statist. Data Anal., 44, 273-295. [6] Künsch, H., Stefanski, L. e Carroll, R. (1989). Conditionally unbiased bounded influence estimation in general regression models with applications to generalized linear models. J. Amer. Assoc., 84, 460-466. [7] Stefanski, L., Carroll, R. e Ruppert, D. (1986). Bounded score functions for generalized linear models. Biometrika, 73, 413-424. SPE 2011 212 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 Utilização do algoritmo SAEM na análise genética de bovinos Natascha Almeida Marques da Silva1 , Ângela Maria Quintão Lana2 , Fabyano Fonseca e Silva3 Renato Ribeiro de Lima4 , Martinho de Almeida e Silva2 e José Aurélio Garcia Bergmann2 1 Universidade Federal de Uberlândia, [email protected] Universidade Federal de Minas Gerais, {lana, martinho, bergmann}@vet.ufmg.br 3 Universidade Federal de Viçosa, [email protected] 4 Universidade Federal de Lavras, [email protected] 2 Resumo: O objetivo do trabalho foi comparar duas diferentes metodologias na avaliação genética de curvas de crescimento de animais Nelore: o algoritmo SAEM e o método Two Step. A diferença entre eles é que o algoritmo SAEM estima simultaneamente parâmetros do modelo e efeitos genéticos e ambientais e o método Two Step faz esse processo de estimação em duas etapas distintas, além do algoritmo SAEM utilizar o método de máxima verossilhança (ML) e do Two-step o de máxima verossimilhança restrita (REML) .O algoritmo SAEM se mostrou consistente na estimação dos efeitos fixos e predição dos aleatórios, se apresentando como uma alternativa viável para avaliação genética. Palavras–chave: Componentes de (co)variância, algoritmo SAEM, Nelore Introdução As estimativas dos parâmetros dos modelos de crescimento em programas de seleção, normalmente, são obtidas por meio de uma metodologia frequentista (método Two-Step), que considera duas fases distintas. No entanto, segundo [1] métodos de estimação simultânea de efeitos genéticos e ambientais são mais eficientes na avaliação genética de animais. [2] sugerem como alternativa de estimação simultânea uma extensão do algoritmo EM com o uso de um processo estocástico, denominado algoritmo SAEM (Stochastic Approximation EM algorithm) para se obter estimativas pelo método da Máxima Verossimilhança. Os objetivos da realização deste trabalho foram: Obter a partir da utilização do algoritmo SAEM e do método Two Step, os componentes de variância e os parâmetros genéticos dos parâmetros com interpretação biológica do modelo não linear de crescimento de Brody modificado. Metodologia Foram utilizados dados de 410 bovinos cedidos pela ABCZ. O modelo de crescimento não linear utilizado para avaliar o crescimento, foi o modelo de Brody Modificado conforme [2], para a avaliação genética dos animais utilizou-se o modelo touro . Para a obtenção dos componentes de variância provenientes do ajuste do modelo touro, os dados de bovinos Nelore foram analisados por meio de duas metodologias: SAEM e Two-Step. A forma de aplicação dos métodos SAEM e Two-Step SPE 2011 213 Sexta, 30/09/2011 Sessão de POSTERS III Átrio do Café, 16:30–17:00 se deu de quatro maneiras distintas: 1a ) SAEM 1 (S1) - Os dados dos 410 animais Nelore, foram analisados a partir do algoritmo SAEM. 2a ) Two- Step 1 (TS1)- Dos 410 animais utilizados na primeira etapa de ajuste deste método, apenas 326 que obtiveram convergência para os parâmetros do modelo foram utilizados. 3a ) SAEM2 (S2)- o algoritmo SAEM foi utilizado para analisar apenas os dados dos mesmos 326 animais que convergiram no TS1. 4a ) Two- Step 2 (TS2)- Os parâmetros do modelo estimados pelo SAEM 1, foram utilizados como as variáveis dependentes no modelo touro. Resultados e discussão A partir dos resultados obtidos de componentes de variância, observou-se que o S1 apresentou menores valores em relação ao TS1, principalmente em relação aos componentes residuais. Isso se deve provavelmente pelo fato do TS1 ser executado em duas etapas distintas, assim os erros provenientes do ajuste do modelo de crescimento na primeira etapa não são considerados na estimação dos componentes de variância na segunda etapa. Como no S1 a estimação é simultânea, há uma correção nas estimativas dos componentes de variância, diminuindo a variação residual. O mesmo comportamento é observado quando compara-se TS1 e S2. Quando compara-se o S1 com o TS2, as estimativas dos componentes de variância obtidas se aproximaram. Esse fato elucida que a diferença na estimação dos componentes de variância é realmente proveniente do erro de ajuste da primeira etapa, já que o TS2 utiliza as estimativas de A e K do S1 para estimar os componentes de variância. No entanto é importante também considerar que outro fator que pode estar elevando as diferenças entre os componentes de variância estimados, é o fato do SAEM e TS considerarem metodologias diferentes para estimação desses componentes. O SAEM utiliza o método de ML e o TS o de REML. Por esse motivo as estimativas do SAEM podem estar sendo subestimadas, pois esse já um comportamento esperado quando se utiliza a ML. [3] comprovam esse fato em um estudo de simulação de dados, onde estes autores compararam estimativas de componentes de (co)variância dos parâmetros da curva de crescimento de Gompertz pelos métodos ML e REML. Conclusões Pode-se concluir que o algoritmo SAEM mostrou um indicativo de ser adequado para a avaliação genética de bovinos, pois apresentou estimativas mais estáveis quando comparadas ao TS. Agradecimentos: Apoio da FAPEMIG e CNPq. Bibliografia [1] Blasco A., Piles M. e Varona L. (2003). A Bayesian analysis of the effect of selection for growth rate on growth curves in rabbits, Genetic Selection Evolution v.35, p. 21–41. [2] Jaffrézic, F., Meza, C., Lavielle, M. e Foulley, J.L. (2006). Genetic analysis of growth curve using the SAEM algorithm. Genetic Selection Evolution, v.38, p. 583–600. [3] Meza, C. Jaffrézic, F. e Foulley, J.L. (2007). REML Estimation of Variance Parameters in Nonlinear Mixed Effects Models Using the SAEM Algorithm. Biometrical Journal, v. 49, n.6, p. 876–888. SPE 2011 214 Sexta, 30/09/2011 Análise Multivariada III Sala Premium, 17:00–18:00 Piecewise Loadings - indicadores clássicos adaptados às variantes não-lineares da ACP Nuno Lavado1 e Teresa Calapez2 1 Instituto Superior de Engenharia de Coimbra (ISEC), Unidade de Investigação em Desenvolvimento Empresarial (Unide-IUL), [email protected] 2 Instituto Universitário de Lisboa (ISCTE-IUL), Unidade de Investigação em Desenvolvimento Empresarial (Unide-IUL), [email protected] Resumo: As variantes não-lineares da Análise em Componentes Principais (ACPNL) abordam o problema da não-linearidade relaxando as restrições lineares da ACP clássica [2]. Um novo algoritmo para esse efeito, designado quasi-linear PCA (qlPCA), foi recentemente proposto pelos autores [3]. Este é uma adaptação do algoritmo CATPCA [5] concebido para variáveis categoriais por forma a incorporar directamente variáveis contı́nuas sem necessidade prévia dum processo de discretização. O algoritmo da qlPCA assenta no processo de Alternating Least Squares [4] associado a transformações spline [1, 6] de ordem inferior a três sem limitações quanto ao número de nós. Esta comunicação tem dois objectivos: apresentar a qlPCA e exemplificar uma das suas potencialidades - a tradução da informação associada às componentes principais não-lineares em termos das variáveis originais naquilo que designamos de piecewise loadings. Palavras–chave: Análise em componentes principais não-linear, quasi-linear PCA, piecewise loadings Bibliografia [1] Boor, C. (1978). A Practical Guide to Splines. Springer. [2] Calapez, T. e Lavado, N. (2005). Um enquadramento das variantes não-lineares da ACP via transformações spline. Em Estatı́stica Jubilar. Actas do XII Congresso da Sociedade Portuguesa de Estatı́stica (Carlos A. Braumann, Paulo Infante, Manuela M. Oliveira, Russell Alpı́zar-Jar, Fernando Rosado, eds.), 391–402. Edições SPE. [3] Calapez, T. e Lavado, N. (2011). Quasi-linear PCA: Low order spline’s approach to non-linear principal components. Aceite para publicação pela IAENG. [4] Gifi, A. (1991). Nonlinear Multivariate Analysis. Wiley. [5] Meulman, J., Kooij, A. e Heiser, W. (2004). Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. Em The Sage Handbook of Quantitative Methodology for the Social Sciences, 49–70, Sage. [6] Winsberg, S. e Ramsay, J. (1983). Monotone spline transformations for dimension reduction. Psychometrika, 48, 575–595. SPE 2011 Mesa: Isabel Rodrigues 215 Sexta, 30/09/2011 Análise Multivariada III Sala Premium, 17:00–18:00 Informação estatı́stica e decisão empresarial: avaliação das escalas de medida de um modelo estrutural Armindo Carvalho e Francisco V. Martins Faculdade de Economia do Porto, {amsc,vmartins}@fep.up.pt Resumo: Neste estudo é desenvolvido um modelo de medida do desempenho de sistemas de informação baseado nos conceitos de usabilidade e actuabilidade. Para o efeito, é definido um modelo de equações estruturais, através do qual se pretende determinar os factores que contribuem para explicar a utilidade das estatı́sticas oficiais nos processos de decisão dos operadores turı́sticos portugueses. Tais factores explicativos constituem variáveis latentes (constructos) não observáveis cuja quantificação terá de ser assegurada por meio de medidas apropriadas. O objectivo desta apresentação é de discutir os resultados da análise factorial confirmatória aplicada para testar a validade das variáveis de medida usadas como representações dos constructos teóricos do modelo estrutural. Palavras–chave: Sistemas de informação, estatı́sticas oficiais, tomada de decisão, modelos de equações estruturais, análise factorial confirmatória Problemática A complexidade crescente das organizações modernas é acompanhada de necessidades acrescidas em informação de qualidade, devidamente sistematizada para responder atempadamente às exigências de gestão de processos de decisão. Os progressos alcançados nas tecnologias de informação permitiram ampliar o potencial dos meios de acesso à informação, tornando-os mais flexı́veis e fáceis de utilizar, acrescentando-lhes valor. A competitividade das empresas é por sua vez tributária da capacidade de aproveitar convenientemente as oportunidades abertas por este recurso fundamental para a eficiência dos processos de gestão, determinante para o sucesso empresarial. O investimento neste recurso e a forma como é gerido e aproveitado, são factores que condicionam as possibilidades de diferenciação e de melhoria do seu posicionamento e vantagens de competitividade. A captura de dados pertinentes para a gestão organizacional baseia-se no acesso a um conjunto de fontes de informação, incluindo os sistemas de operações internas e de clientes, de fornecedores, de concorrentes, de mercados de produtos e serviços e de outras entidades externas como as organizações produtoras de sondagens e previsões ou os organismos produtores de estatı́sticas oficiais. A informação e, de um ponto de vista mais amplo, os sistemas de informação, enquanto factores de qualificação de processos de decisão devem assim ser avaliados de uma dupla perspectiva: a da capacidade de acesso e utilização adequada da informação disponı́vel e a da utilidade em processos de decisão. Dimensões que Beynon-Davies (2002) define como efeitos de primeira ordem e de segunda ordem dos sistemas de informação. SPE 2011 Mesa: Isabel Rodrigues 217 Sexta, 30/09/2011 Análise Multivariada III Sala Premium, 17:00–18:00 Os efeitos de primeira ordem referem-se a questões de uso, e portanto à problemática da usabilidade em sistemas de informação. Os efeitos de segunda ordem respeitam ao impacto dos sistemas de informação na actividade das organizações, facto que remete para a problemática do seu potencial acção e a avaliação da sua actuabilidade. A usabilidade é uma caracterı́stica que reflecte o quanto amigável é um sistema de informação. Expressa a facilidade de aprendizagem para novos utilizadores e a facilidade de uso para utilizadores habituais. Sendo a informação cada vez mais um elemento crucial do processo de decisão, a usabilidade da informação e dos sistemas de informação é um factor crı́tico para a efectiva integração entre informação e decisão. Goldkuhl e Ågerfalk (2002) define a actuabilidade de um sistema de informação como a aptidão desse sistema de informação para realizar, promover e facilitar a realização de acções concretas pelos utilizadores, através do sistema e na base de informação do sistema, num dado contexto organizacional. Partindo dos dois conceitos de usabilidade e actuabilidade pretende-se estudar as práticas e os factores condicionantes do uso de sistemas de informação, e em particular dos sistemas de informação estatı́stica oficial no contexto do processo de decisão empresarial no sector do Turismo. Para o efeito foi definido um quadro conceptual alicerçado num modelo de equações estruturais, na base do qual foi estabelecido um instrumento de avaliação empı́rica e aplicado a uma amostra de operadores turı́sticos. O instrumento de avaliação operacionaliza um conjunto de escalas de medida usadas como quantificações empı́ricas representativas dos constructos teóricos envolvidos no sistema de inter-relações definido pelo modelo estrutural adoptado. O objectivo desta apresentação é de discutir os resultados da análise factorial confirmatória aplicada para efeitos de avaliação da validade das medidas de quantificação enquanto representações empı́ricas dos constructos teóricos do modelo. Bibliografia [1] Beynon-Davies, P. (2002). Information Systems. Palgrave, New York. [2] Goldkuhl, G. e Ågerfalk, P.J. (2002). Actability: A Way to Understand Information Systems Pragmatics, In Coordination and Communication Using Signs: Studies in Organisational Semiotics 2, (Eds, K. Liu, et al.) Boston: Kluwer Academic Publishers. SPE 2011 Mesa: Isabel Rodrigues 218 Sexta, 30/09/2011 Análise Multivariada III Sala Premium, 17:00–18:00 Modelos de análise factorial exploratória e confirmatória parameterizados como modelos com grafos Maria de Fátima Salgueiro Instituto Universitário de Lisboa (ISCTE-IUL), UNIDE, Lisboa, Portugal, [email protected] Resumo: Nesta apresentação o modelo clássico de análise factorial e o modelo de análise factorial confirmatória, com mais de um factor, são parameterizados como modelos com grafos com estruturas em cadeia, usando correlações parciais. São apresentadas expressões para as relações entre i) correlações parciais entre variáveis manifestas, ii) correlações parciais entre variáveis manifestas e factores latentes e iii) pesos factoriais. Os resultados propostos são ilustrados recorrendo a um modelo com dois factores de bem-estar, usando dados do British Household Panel Survey. Palavras–chave: Análise factorial exploratória, análise factorial confirmatória, correlação parcial, modelos com grafos com estrutura em cadeia Modelos com grafos e modelos de análise factorial A modelação com grafos (graphical modelling) é uma técnica de análise estatı́stica multivariada, baseada no conceito de independência condicionada, que usa grafos para representar modelos. O grafo é uma representação da estrutura de independências condicionadas das variáveis: vértices representam variáveis; arestas representam associações entre variáveis. A interpretação da estrutura de associações é feita directamente a partir do grafo, com recurso às propriedades de Markov. Para uma introdução a estes modelos ver Whittaker (1990); para uma exposição mais matemática ver Lauritzen (1996). O modelo clássico de análise factorial postula que os factores latentes reproduzem a estrutura de variâncias/covariâncias (ou de correlações) das variáveis manifestas, sendo as variáveis manifestas condicionalmente independentes dado os factores latentes (Bartholomew e Knott, 1999). Num modelo de análise factorial confirmatória a estrutura dos pesos factoriais é definida à priori, dependendo de que variáveis manifestas se supõem medir os factores latentes no modelo em estudo. Os factores latentes assumem-se correlacionados entre si, podendo o modelo de análise factorial confirmatória ser considerado a componente de medida de um modelo de equações estruturais (Bollen, 1989). Parameterização de um modelo de análise factorial com mais de um factor como um modelo com grafos Salgueiro et al., (2008) mostraram como parameterizar um modelo de análise factorial com um factor como um modelo Gaussiano com grafos, usando correlações parciais, tendo enfatizado o SPE 2011 Mesa: Isabel Rodrigues 219 Sexta, 30/09/2011 Análise Multivariada III Sala Premium, 17:00–18:00 contributo da parameterização proposta para uma melhor compreensão deste tipo de modelos, designadamente no que à estrutura de associações entre variáveis manifestas diz respeito. Salgueiro et al. (2010) exploraram as relações entre a parameterização clássica e a parameterização como um modelo Gaussiano com grafos do modelo de análise factorial com um factor, e derivaram expressões matemáticas para as relações entre manifest partial correlations (correlações parciais entre variáveis manifestas), factor partial correlations (correlações parciais entre variáveis manifestas e factores latentes) e factor loadings (pesos factoriais). O presente trabalho ilustra como parameterizar o modelo clássico de análise factorial e o modelo de análise factorial confirmatória como graphical chain models (modelos com grafos com estrutura em cadeia). São usadas correlações parciais para investigar a estrutura de associações entre variáveis manifestas no modelo. São extendidos resultados anteriormente obtidos por Salgueiro et al. (2008) e (2010). São considerados o modelo clássico de análise factorial e o modelo de análise factorial confirmatória, com dois factores latentes, e apresentadas expressões matemáticas para as relações entre i) correlações parciais entre variáveis manifestas, ii) correlações parciais entre variáveis manifestas e factores latentes e iii) pesos factoriais. Os resultados obtidos são ilustrados com dados do British Household Panel Survey, sendo considerados dois factores latentes de bem-estar percepcionado, cada um deles medido por três variáveis manifestas. Agradecimentos: A investigação desenvolvida teve o apoio da Fundação para a Ciência e a Tecnologia, Bolsa SFRH/BSAB/981/2010. Bibliografia [1] Bartholomew, D.J. e Knott, M. (1999). Latent Variable Models and Factor Analysis. 2a ed. London: Arnold Publishers. [2] Bollen, K.A. (1989). Structural Equations with Latent Variables. John Wiley & Sons. [3] Lauritzen, S. L. (1996). Graphical Models. Oxford: Oxford University Press. [4] Salgueiro, M.F., Smith, P.W.F. e McDonald, J.W. (2008). The manifest association structure of the single-factor model: insights from partial correlations. Psychometrika, 73 (4), 665–670. [5] Salgueiro, M.F., Smith, P.W.F. e McDonald, J.W. (2010). Connections between graphical gaussian models and factor analysis. Multivariate Behavioral Research, 45, 135–152. [6] Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics. Chichester: John Wiley & Sons. SPE 2011 Mesa: Isabel Rodrigues 220 Sexta, 30/09/2011 Biostatı́stica III Sala Dinastia, 17:00–18:00 Modelos de simulação para o bloqueio neuro-muscular: uma análise estatı́stica Conceição Rocha, Maria Eduarda Silva e Teresa Mendonça Departamento de Matemática, Faculdade de Ciências, U. Porto e CIDMA, {[email protected], [email protected],tmendo}@fc.up.pt Resumo: O desenvolvimento de sistemas para administração de fármacos por via endovenosa em anestesia requer a integração da informação extraı́da dos dados recolhidos em ambiente clı́nico nos modelos baseados nas leis fı́sicas, quı́micas e biológicas, de forma a representar adequadamente a variabilidade interindividual observada. Neste trabalho propõe-se e valida-se um modelo para o relaxamento muscular induzido pela administração do fármaco atracurium que será usado como modelo de simulação para determinar a dose individualizada de fármaco a administrar em modo contı́nuo. Palavras–chave: Modelo de simulação, dados longitudinais Na anestesia moderna, a utilização de infusões endovenosas de fármacos têm tido uma evolução continuada, no sentido de induzir no paciente um estado estável num nı́vel de anestesia desejado. A relação entre a dose de fármaco administrada e o efeito fisiológico induzido é determinada pelas caracterı́sticas farmacocinéticas e farmacodinâmicas, PK/PD, do fármaco. O modelo farmacocinético-farmocodinâmico, PK/PD, de um fármaco descreve quer a evolução temporal da concentração plasmática do fármaco quer a relação entre a concentração plasmática de fármaco e o efeito fisiológico induzido. Os parâmetros dos modelos PK/PD dependem das caracterı́sticas individuais dos pacientes e a sua determinação requer medições da concentração plasmática do fármaco em instantes diferentes ao longo da sua acção o que é impraticável. No caso particular do fármaco atracurium que provoca relaxamento muscular, Lago [1] propõe um modelo populacional, doravante referido como M , que tem sido usado extensivamente em simulações com vista ao desenho de controladores automáticos. As caracterı́sticas populacionais deste modelo foram estabelecidas com base nos parâmetros farmacocinéticos/farmacodinâmicos (PK/PD) de 12 pacientes submetidos a pequenas cirurgia publicados por Ward [4] e Weatherley [5]. No entanto, trabalho recente, Rocha [2], sugere que o modelo M para o relaxamento muscular induzido pelo atracurium não representa adequadamente o relaxamento muscular observado em bloco operatório de um conjunto de 84 pacientes submetidos a anestesia geral. Mais, a recalibração do modelo M com base nos dados actualmente disponı́veis não é possı́vel uma vez que as concentrações plasmáticas dos pacientes não estão disponı́veis. Em alternativa ao modelo PK/PD, é proposto em [3] um modelo para o relaxamento muscular induzido pelo atracurium, aqui designado por N BR . Este modelo é um modelo reduzido que contém apenas dois parâmetros que dependem das caracterı́sticas individuais do paciente, sendo os outros parâmetros dependentes do modo de administração do fármaco. Neste trabalho considera-se então o problema de estabelecer um modelo populacional para o relaxamento muscular induzido pelo atracurium com base no modelo N BR . O modelo depois de validado, será usado como modelo de simulação para determinar a dose individualizada de fármaco a administrar em modo contı́nuo. SPE 2011 Mesa: Luzia Gonçalves 221 Sexta, 30/09/2011 Biostatı́stica III Sala Dinastia, 17:00–18:00 Agradecimentos: Conceição Rocha agradece a bolsa de doutoramento SFRH/BD/61781/2009 da FCT/ESF. Bibliografia [1] Lago, P., Mendonça, T. e Gonçalves, L. (1989). On-line autocalibration of a PID controller of neuromuscular blockade. Em Proceedings IEEE Int. Conference on Control Applications, 363–367. [2] Rocha, C., Mendonça, T. e Silva, M.E. (2009). Online individualized dose estimation. Em Proceedings of the 6th IEEE International Symposium on Intelligent Signal Processing (WISP2009), 26–28. [3] Silva, M.M., Wigren, T. e Mendonça, T. (2011). Nonlinear identification of a minimal NeuroMuscular Blockade model in anesthesia. IEEE Trans. Contr. Sys. Tech., aceite para publicação. [4] Ward, S., Neil, A., Weatherley, B. e Corall, M.(1983). Pharmacokinetics of Atracurium Besylate in Healthy Patients (after a single i.v. bolus dose). British Journal of Anaesthesia, 55, 113–116. [5] Weatherley, B., Williams, S. e Neill, S. (1983). Pharmacokinetics, Pharmacodynamics and Dose-Response Relationships of Atracurium Administered i.v.. British Journal of Anaesthesia, 55, 39–45. SPE 2011 Mesa: Luzia Gonçalves 222 Sexta, 30/09/2011 Biostatı́stica III Sala Dinastia, 17:00–18:00 Análise de dados longitudinais com as observações dependentes do tempo de medição: uma revisão bibliográfica Lisandra Rocha, Inês Sousa e Raquel Menezes Departamento de Matemática e Aplicações, Universidade do Minho, [email protected], {isousa,rmenezes}@math.uminho.pt Resumo: Os estudos longitudinais caracterizam-se por acompanhar a evolução dos indivı́duos, medindo-os várias vezes ao longo do tempo. Em muitos estudos longitudinais, os indivı́duos não são necessariamente sempre medidos no mesmo intervalo de tempo, nem com a mesma frequência e nem medidos em tempos igualmente espaçados. Considera-se que, neste tipo de estudos existem dois importantes processos a modelar: processos do tempo de medição e o processo de respostas. O processo de tempo de medição pode ser deterministico ou estocástico e o processo de respostas é estocástico. Por exemplo, num estudo clı́nico, não só as medições observadas longitudinalmente podem dar informações sobre um estado de doença, mas também o acompanhamento pode dar informações sobre o estado de saúde dos pacientes. Neste caso, o acompanhamento não pode ser considerado fixo pelo planeamento de estudo, mas o modelo deve considerá-lo dependente das medições longitudinais anteriores. Neste trabalho, é apresentada uma revisão bibliográfica nos estudos que existem sobre dados longitudinais com as observações dependentes do tempo de medição. A pesquisa concentrou-se na análise de três artigos sobre o tema: Lipsitz et al. (2002), Lin et al. (2004) e Fitzmaurice et al. (2006). Nestes artigos são propostos vários modelos para analisar a dependênncia entre o processo de respostas e o processo de tempo de medição. O objectivo deste trabalho é reunir e analisar a informação existente sobre este tema e perceber a abordagem utilizada em estudos anteriores. Palavras–chave: Dados longitudinais, processo de medição, processo de respostas Agradecimentos: Os autores agradecem à FCT pelo projecto PTDC/MAT/104879/2008. A autora Lisandra Rocha possui uma bolsa de doutoramento da FCT SFRH/BD/61368/2009. Bibliografia [1] Crawley M.J. (2007). The R Book. John Wiley and Sons, Ltd. [2] Diggle, P.J., Heagerty, P., Liang K-Y. e Zeger, S.L. (2002). Analysis of Longitudinal Data (second edition). Oxford: Oxford University Press. [3] Fitzmaurice, G.M., Lipsitz, S.R., Ibrahim, J.G., Gelber, R. e Lipshultz, S. (2006). Estimation in regression models for longitudinal binary data with outcome-dependent follow-up. Biostatistics , 7, 3, pp. 469–485. SPE 2011 Mesa: Luzia Gonçalves 223 Sexta, 30/09/2011 Biostatı́stica III Sala Dinastia, 17:00–18:00 [4] Lin, H., Scharfstein, O.D. e Rosenheck, R.A. (2004). Analysis of longitudinal data with irregular, outcome-dependent follow-up. Royal Statistical Society 66, Part 3, pp. 791–813. [5] Lipsitz, S.R., Fitzmaurice, G.M., Ibrahim, J.G., Gelber, R. e Lipshultz, S. (2002). Parameter estimation in longitudinal studies with outcome-dependent follow-up. Biometrics 58, 50–59. [6] Pinheiro J. e Bates, D. (2002). Mixed-Effects Models in S ans S-PLUS. Springer SPE 2011 Mesa: Luzia Gonçalves 224 Sexta, 30/09/2011 Biostatı́stica III Sala Dinastia, 17:00–18:00 Predicting hypotension in intensive care monitoring: an optimal alarm system approach Sónia Gouveia1 e Manuel Scotto2 1 Centro de Matemática da Universidade do Porto e Departamento de Matemática da Universidade de Aveiro, Portugal, [email protected], [email protected] 2 Departamento de Matemática da Universidade de Aveiro (UA) e Centro de I&D em Matemática e Aplicações (CIDMA-UA), Portugal, [email protected] Abstract: The purpose of this talk is to introduce a suitable framework for constructing optimal alarm systems based on excursions of an alarm process in time, to predict whether a temporal process will enter a catastrophic situation in later time. The alarm system is developed bearing in mind the prediction of acute hypotensive episodes using mean arterial pressure time series acquired from patients staying at Intensive Care Units. The methods are illustrated and validated using experimental data from the MIMIC II dataset. Keywords: Optimal alarm system, prediction, hypotension Introduction Improving patients survival in intensive care units (ICU) demands for early identification of imminent risk of abnormally low blood pressure, i.e., acute hypotensive episodes (AHE). An AHE can deprive the brain and other vital organs of oxygen and nutrients, leading to a life-threatening condition and irreversible organ damages [8]. These episodes are defined as a sustained downcrossing of the mean arterial pressure (MAP) time series for a fixed threshold value (see Fig. 1). Typically, 150 MAP (mmHg) 120 90 60 30 140 145 150 155 160 Elapsed time since ICU admission (hours) 165 170 Figura 1: Mean arterial blood pressure (MAP) at one-minute intervals. The dashed lines delimitate the one-hour length forecast window, where an AHE occurs, i.e., a period longer than 30 minutes during which at least 90% of the MAP values are lower than 60 mmHg. SPE 2011 Mesa: Luzia Gonçalves 225 Sexta, 30/09/2011 Biostatı́stica III Sala Dinastia, 17:00–18:00 AHE are predicted based on conventional linear forecasting. One of the major drawbacks of this approach, however, is that it fails to provide the probability of future downcrossings. It is in this context that the implementation of an optimal alarm system reveals to be useful for AHE prediction. Optimal Alarm Systems (hereafter OAS) are developed to predict potential catastrophes based on level crossings for a random process over time. One set of principles for OAS construction OAS in the continuous time-domain has been described, and basic results considering Gaussian processes were obtained ([3, 4, 6]). Results for discrete-time processes have also been reported ([1, 2]). The purpose of this work is to introduce a suitable framework for constructing OAS based on excursions of an alarm process in time, to predict whether a temporal process will enter a catastrophic situation in later time. Once this framework has been developed, general results which incorporate appropriate definitions of an alarm event and a catastrophe event are presented. In particular, the goal of this work is to use MAP information to predict if the patient will have an AHE that begins during a given forecast window (see Fig. 1). It is worth noting that as the alarm framework needs to be cost effective in the sense of not providing too many false alarms, concepts from reliability and risk analysis need to be incorporated into it. In this context, the performance of the methods is evaluated on experimental data from the MIMIC II database [7], a representative sample of physiologic time series from patients in ICU of a major teaching hospital. A set of 60 train and 50 test cases were included into the study, each case being a MAP series at one-minute samples. Also, AHE/nonAHE classifications and timing of the forecast window were available. The spectrum of OAS applications is wide and yet to be explored. One major area of applications is in environmental statistics, e.g., to investigate the occurrence of future rare events which can have catastrophic consequences for human activities, through their impacts on the natural and constructed environments. Another area of OAS application is econometrics, e.g. in risk management, with the implementation of probabilistic models for the assessment of market/credit risks. Bibliography [1] Amaral-Turkman, M.A. e Turkman, K.F. (1990). Optimal alarm systems for autoregressive processes; a Bayesian approach. Computational Statistics and Data Analysis, 10, 307–314. [2] Antunes, M., Amaral-Turkman, M.A. e Turkman, K.F. (2003). A Bayesian approach to event prediction intervals. Journal of Time Series Analysis, 24, 631–646. [3] de Maré, J. (1980). Optimal prediction of catastrophes with application to Gaussian process. Annals of Probability, 8, 841–850. [4] Lindgren, G. (1975). Prediction for a random point time. Annals of Probability, 3, 412–423. [5] Lindgren, G. (1975). Prediction of catastrophes and high level crossings. Bulletin of the International Statistical Institute, 46, 225–240. [6] Moody, G.B. e Lehman L.H. (2009). Predicting Acute Hypotensive Episodes: The 10th Annual PhysioNet/Computers in Cardiology Challenge. Computers in Cardiology, 36, 541–544. [7] Saeed, M., Lieu, C., Raber, G. e Mark, R.G. (2002). MIMIC II: A massive temporal ICU patient database to support research in intelligent patient monitoring. Computers in Cardiology, 29, 641–644. SPE 2011 Mesa: Luzia Gonçalves 226 Sexta, 30/09/2011 Processos Estocásticos III Sala Caminho Real, 17:00–18:00 gSDE Software: tempos de primeira passagem em modelos estocásticos de crescimento individual Nuno Brites1 , Carlos A. Braumann1 , Clara Carlos1,2 e Patrı́cia A. Filipe1 1 Universidade de Évora - Centro de Investigação em Matemática e Aplicações, [email protected], [email protected], [email protected] 2 Instituto Politécnico de Setúbal - Escola Superior de Tecnologia do Barreiro, [email protected] Resumo: Em trabalhos anteriores estudámos vários modelos de crescimento individual em ambiente aleatório. Problemas de ajustamento e previsão foram também estudados tanto para modelos estocásticos como para modelos clássicos de regressão. Para a estimação dos parâmetros destes modelos criámos um conjunto de algoritmos e desenvolvemos um novo software (chamado gSDE Software) que incorpora esses algoritmos. Apresentamos aqui um novo módulo para o software gSDE que permite o cálculo da média e variância de tempos de primeira passagem para os modelos estudados. Palavras–chave: gSDE, equações diferenciais estocásticas, crescimento individual, tempos de primeira passagem Em [1] foram utilizados modelos do tipo dY (t) = b(A −Y (t))dt + σ dW (t), Y (t0 ) = y0 , (1) para modelar o crescimento de animais em ambiente aleatório, onde Y (t) = g(X(t)), com g uma função (conhecida) estritamente crescente e continuamente diferenciável; y(0) = g(x(0)), com x(0) a representar o tamanho à nascença; A = g(a), com a a representar o tamanho na maturidade; b > 0 é o coeficiente de crescimento ou a taxa de aproximação à maturidade; σ mede a intensidade das flutuações aleatórias do ambiente sobre o crescimento e W (t) é o processo de Wiener padrão. A função g pode assumir várias formas, por exemplo g(x) = xc , c > 0 que corresponde ao modelo de Bertalanffy-Richards estocástico ou g(x) = ln(X(t)) que representa o modelo de Gompertz estocástico. A solução de (1) é um processo de difusão ergódico com coeficientes de tendência e difusão dados por µ (y) = b(AR− y) e σ 2 (y) = σ 2 , respectivamente, cuja −bt −bt t ebs dW (s). Sabemos ainda que (ver [2]) forma é dada 0 + σe por: Y (t) = A + e (y0 − A) Y (t) ∼ N A + e−bt (y0 − A), σ2b (1 − e−2bt ) e Y (+∞) ∼ N A, σ2b , com Y (+∞) a representar a variável aleatória cuja distribuição é a distribuição assintótica de Y (t). Estes resultados permitiramnos obter as estimativas de máxima verosimilhança dos parâmetros (A,b,σ ). Considerámos ainda modelos multifásicos, isto é, modelos em que a taxa de aproximação à maturidade tem diferentes valores em diferentes instantes e ainda modelos cujo tamanho na maturidade difere de animal para animal (ver [1] e [2]). Um resumo destes modelos, técnicas de cálculo das estimativas dos parâmetros e o manual do software gSDE podem ser consultados em [2]. 2 2 Pretendemos agora estudar, para este tipo de modelos, os tempos de primeira passagem por limiares superiores ao tamanho inicial. Assim, seja Q∗ um limiar superior para o tamanho do animal X(t). O nosso objectivo é determinar o tempo que um animal demora a alcançar o tamanho Q∗ , pela primeira vez. Considerar o tempo que demora até um animal atingir um determinado tamanho Q∗ é equivalente a considerar o tempo de primeira passagem de Yt por Q = g(Q∗ ). Denotemos esse SPE 2011 Mesa: Maria de Fátima Brilhante 227 Sexta, 30/09/2011 Processos Estocásticos III Sala Caminho Real, 17:00–18:00 tempo por TQ = inf{t > 0 : Y (t) = Q} e assuma-se que y0 < Q < +∞ com Q no interior do espaço de estados de Y . Os resultados explı́citos sobre a média e a variância de tempos de primeira passagem para soluções ergódicas de equações diferenciais estocásticas autónomas com densidade estacionária em condições de regularidade adequadas podem encontrar-se em [1], [3] e [4], tendo-se aı́ obtido, para o caso particular dos modelos do tipo (1), as seguintes expressões explı́citas para a média e variância de TQ : E[TQ |Y (0) = y0 ] = √ 1 b Z η Φ(z) ζ √ φ (z) dz e Var[TQ |Y (0) = y0 ] = 2 b2 Z η ζ 1 φ (z) Z z Φ2 (y) −∞ φ (y) dydz, (2) onde ζ = σ2b (y0 − A), η = σ2b (Q − A), Φ e φ são a função distribuição e a função densidade de probabilidade de uma variável aleatória Gaussiana estandardizada. O novo módulo do software gSDE desenvolvido pretende, possibilitar o cálculo da média e variância do tempo que um animal demora até atingir determinado tamanho pela primeira vez. Permite esse cálculo para vários modelos (várias funções g). O novo módulo utiliza as expressões (2) resolvendo alguns problemas de instabilidade nos métodos numéricos de quadratura utilizados tradicionalmente para calcular os integrais. Para ilustração dos resultados utilizamos dados de bovinos mertolengos. Para os criadores de bovinos pode ser de interesse económico o estudo do tempo que um animal demora a atingir determinado peso, que poderá ser o peso exigido pelo mercado. Para tal, caracterizamos o tempo que o animal leva a atingir esse peso pela primeira vez. Podemos aplicar estes resultados, por exemplo, com o objectivo de optimizar o lucro de venda do animal. Agradecimentos: Os autores são membros do Centro de Investigação em Matemática e Aplicações da Universidade de Évora, unidade apoiada pela Fundação para a Ciência e Tecnologia. Agradecemos ao Professor Dr. Carlos Roquete (ICAAM-Universidade de Évora) a cedência dos dados. Bibliografia [1] Braumann, C.A., Filipe, P.A., Carlos C. e Roquete, C.J. (2009). Growth of individuals in randomly fluctuating environments. Proceedings of the International Conference in Computational and Mathematical Methods in Science e Engineering, Vigo-Aguiar, J., Alonso, P., Oharu, S., Venturino, E. and Wade, B. (Eds.), Gijon, p. 201–212. [2] Brites, N.M. (2010). Modelos estocásticos de crescimento individual e desenvolvimento de software de estimação e previsão. Tese de Mestrado - Mestrado em Matemática e Aplicações, Universidade de Évora. [3] Carlos, C. e Braumann, C.A. (2006). Tempos de extinção para populações em ambiente aleatório e cálculos de Itô e Stratonovich. Ciência Estatı́stica, L. Canto e Castro, E. G. Martins, C. Rocha, M. F. Oliveira, M. M. Leal e F. Rosado (Eds.), Edições SPE, p. 229–238. [4] Carlos, C. e Braumann, C.A. (2005). Tempos de extinção para populações em ambiente aleatório. Estatı́stica Jubilar, Braumann, C.A., Infante, P., Oliveira, M., Alpı́zar-Jara, R. e Rosado, F. (Eds.), Edições SPE, p. 133–142. SPE 2011 Mesa: Maria de Fátima Brilhante 228 Sexta, 30/09/2011 Processos Estocásticos III Sala Caminho Real, 17:00–18:00 Crescimento individual em ambiente aleatório: um problema de optimização Patrı́cia A. Filipe1 , Carlos A. Braumann1 , Clara Carlos2 e Carlos J. Roquete3 1 Centro de Investigação em Matemática e Aplicações, Universidade de Évora, {pasf, braumann}@uevora.pt 2 Centro de Investigação em Matemática e Aplicações, Universidade de Évora; Escola Superior de Tecnologia do Barreiro, Instituto Politécnico de Setúbal, [email protected] 3 Instituto de Ciências Agrárias e Ambientais Mediterrânicas, Universidade de Évora, [email protected] Resumo: Com base numa classe de modelos de crescimento individual em ambiente aleatório aplicada ao crescimento de bovinos mertolengos, calculamos o lucro esperado com a venda do animal para diferentes idades, e em particular, determinamos qual a idade óptima de venda. Por outro lado, podemos estar interessados no tempo que um animal demora a atingir determinado peso, que poderá ser o peso exigido pelo mercado. Para tal, caracterizamos o tempo que o animal leva a atingir determinado peso pela primeira vez. São apresentadas expressões para a média e desvio padrão destes tempos. Aplicamos estes resultados com o objectivo de optimizar o lucro de venda do animal. Palavras–chave: Equações diferenciais estocásticas, crescimento individual de bovinos, optimização do lucro Em trabalhos anteriores (ver, por exemplo, Filipe et al. 2007, 2010) apresentamos uma classe de modelos de crescimento individual em ambiente aleatório e a sua aplicação à evolução do peso de bovinos mertolengos. São casos particulares desta classe de modelos o modelo de Gompertz estocástico e o modelo de Bertalanffy-Richards estocástico. A aplicação deste tipo de modelos pode ser de extrema utilidade no contexto económico. Este trabalho é dedicado à questão de optimização do lucro médio de venda de um animal. Por um lado, com base nos nossos modelos, podemos calcular o lucro esperado para diferentes idades do animal, e em particular, podemos determinar a idade óptima de venda do animal de forma a que esse lucro seja máximo. Podemos também obter a distribuição de probabilidade do lucro de venda e calcular probabilidades envolvendo esse lucro. Por outro lado, sabendo qual o peso do animal exigido pelo mercado, podemos estudar as propriedades do tempo que o animal demora a atingir esse peso pela primeira vez. Apresentamos expressões para a média e variância destes tempos (tempos de primeira passagem Braumann et al., 2009), assim como expressões para a sua função densidade de probabilidade e função distribuição. Com base nestes resultados podemos determinar qual o peso óptimo de venda do animal em termos de maximização do lucro médio de venda. Foi feita a comparação entre as duas metodologias, uma consistindo em vender o animal numa idade fixa (escolhida de forma a optimizar o lucro médio de venda) independentemente do seu peso e a outra consistindo em vender o animal quando atinja pela primeira vez um peso fixo (escolhido de forma a optimizar o lucro médio) independentemente da idade. Verificou-se que a segunda metodologia, para valores tı́picos do mercado, era preferı́vel pois permitirá um lucro óptimo mais elevado do que a primeira até, no caso do modelo de Gompertz estocástico, com um menor desvio- SPE 2011 Mesa: Maria de Fátima Brilhante 229 Sexta, 30/09/2011 Processos Estocásticos III Sala Caminho Real, 17:00–18:00 padrão desse lucro óptimo (para o modelo de Bertalanffy-Richards estocástico o desvio-padrão era maior na segunda metodologia mas só ligeiramente). Agradecimentos: Os três primeiros autores são membros do Centro de Investigação em Matemática e Aplicações (CIMA) e o quarto autor é membro do Instituto de Ciências Agrárias e Ambientais Mediterrânicas (ICAAM), unidades financiadas pela FCT. Bibliografia [1] Braumann, C.A., Carlos, C., Filipe, P.A. e Roquete, C.J. (2009). Growth of individuals in randomly fluctuating environments, Em Proceedings of the 2009 International Conference in Computational and Mathematical Methods in Science e Engineering, (Vigo-Aguiar J., Alonso P., Oharu S., Venturino E. e Wade B., eds), Gijón, 201-212. [2] Filipe, P.A., Braumann C.A. e Roquete, C.J. (2007). Modelos de crescimento de animais em ambiente aleatório, Em Estatı́stica: Ciência Interdisciplinar, Actas do XV Congresso Anual da Sociedade Portuguesa de Estatı́stica, (Ferrão, M.E., Nunes, C. e Braumann, C.A., eds.), Edições SPE, 401-410. [3] Filipe, P.A., Braumann, C.A. e Roquete, C.J. (2010). Multiphasic individual growth models in random environments. Methodology and Computing in Applied Probability, DOI:10.1007/s11009-010-9172-0. SPE 2011 Mesa: Maria de Fátima Brilhante 230 Sexta, 30/09/2011 Processos Estocásticos III Sala Caminho Real, 17:00–18:00 Processos de difusão com saltos correlacionados: Aplicação à polı́tica óptima de investimento em linha de alta velocidade Débora Ricardo1 e Cláudia Nunes2 1 2 Departamento de Matemática, IST, [email protected] Departamento de Matemática, IST e CEMAT, [email protected] Resumo: É usual em problemas de finanças e de fı́sica considerar um movimento geométrico browniano com saltos regidos por um processo de Poisson independente do movimento browniano que modela o ruı́do. Neste trabalho propõe-se a generalização de alguns resultados sobre estes processos mas assumindo agora que o processo de saltos e o próprio movimento browniano podem ter uma estrutura de dependência (fixa ou temporal). Os resultados que são derivados têm em mente a aplicação a polı́ticas óptimas de investimento, nomeadamente em linhas de serviço ferroviário de alta velocidade. Palavras–chave: Movimento geométrico browniano, processo de Poisson, opções reais Introdução No projecto como o investimento na linha ferroviária de alta velocidade (vulgo TGV), o nı́vel de procura do serviço é o principal factor de incerteza no projecto. Adicionalmente, podem ocorrer choques conjecturais que levam a uma alteração mais ou menos drástica no nı́vel da dita procura. Por exemplo, a crise vulcânica registada no ano passado alterou, embora que pontualmente, a procura de serviços ferroviários, tendo o nı́vel subido de forma drástica. Geralmente estes choques conjecturais são externos ao próprio processo de procura, que formalmente se traduz pela independência dos dois processos. Mas o que acontecerá se tal pressuposto não for certo? Isto é, como se pode formalmente derivar os resultados necessários sob hipótese de não-independência? Neste trabalho assume-se que o nı́vel de procura, doravante designado por {Xt ,t ≥ 0}, obedece à seguinte equação diferencial estocástica: dXt = µ Xt dt + σ Xt dWt + Xt dNt (1) onde {Wt ,t ≥ 0} é um movimento browniano padrão e {Nt ,t ≥ 0} é um processo de Poisson de taxa λ , tal que dNt = Ut (2) com probabilidade λ dt, com {Ut ,t ≥ 0} designando o salto que ocorre no instante t. O problema de polı́tica óptima de investimento (seja no TGV quer seja noutro enquadramento) é um problema de paragem óptima, com recurso ao princı́pio de programação dinâmica de Bellman. Como se verá neste trabalho no caso concreto, para deduzir a dita polı́tica óptima de paragem, será SPE 2011 Mesa: Maria de Fátima Brilhante 231 Sexta, 30/09/2011 Processos Estocásticos III Sala Caminho Real, 17:00–18:00 necessário calcular integrais envolvendo a variável de estado Xt , que na verdade são relacionados com a função geradora de momentos. Assumindo uma particular estrutura de dependência, deduziremos o nı́vel de procura do serviço que justifica a decisão de investimento. Ilustraremos os resultados algébricos com situações numéricas particulares, e veremos qual a influência do papel da correlação dos processos na tomada de decisão. SPE 2011 Mesa: Maria de Fátima Brilhante 232 Sexta, 30/09/2011 Extremos III Sala Atlântico, 17:00–18:00 Quantis extremais, value-at-risk e método DPOT Isabel Fraga Alves1 e Paulo Araújo Santos2 1 2 Faculdade de Ciências da Universidade de Lisboa e CEAUL, [email protected] Instituto Politécnico de Santarém e CEAUL, [email protected] Resumo: Neste trabalho utilizamos o método DPOT (Duration based Peaks Over Threshold) na previsão de quantis elevados no contexto de séries financeiras e previsão do VaR (Value-at-Risk). Comparamos este método com outros métodos de previsão de quantis elevados utilizando ı́ndices de acções e testes para a avaliação de modelos que produzem previsões intervalares. Palavras–chave: Teoria de valores extremos, gestão quantitativa do risco Introdução Em teoria de valores extremos (EVT), o método designado por POT (Peaks Over Threshold) considera os excessos acima de um certo nı́vel “threshold”. Após a publicação do teorema limite da distribuição dos excessos (Balkema e de Haan, 1974 e Pikands, 1975), foram deduzidos desenvolvimentos do método POT baseados no ajustamento de uma distribuição generalizada de Pareto (GPD), com função distribuição, GP(x; δ , γ ) = 1 − 1 + γ x −1/γ x , 1 + γ > 0, δ ∈ R+ , γ ∈ R. δ δ Para γ = 0 a expressão é interpretada como o limite quando γ → 0, i.e., como a função distribuição exponencial F(x) = 1 − exp(−x/δ ). Um tema relevante em estatı́stica é a descrição da variação de uma variável resposta em termos de covariáveis. Uma vez que cada excesso está associado a um evento especı́fico, é possivel fazer os parâmetos de forma e escala, da distribuição GPD, dependerem de variáveis explicativas. A consideração na distribuição GPD, dos parâmetros de forma e escala como funções de covariáveis e parâmetros de regressão foi estudada por Davison (1990). Num trabalho recente, Araújo Santos e Fraga Alves (2011) propuseram um método POT com base em durações, designado por DPOT. O desempenho deste método foi comparado com outros métodos na previsão do VaR a um dia e com a probabilidade igual a 0.01, que é a utilizada para cálculo dos requisitos de capital no contexto dos Acordos de Basileia. Com esta probabilidade e utilizando todos os retornos históricos dos ı́ndices S & P 500, DAX 30 e FTSE 100, o modelo DPOT apresentou um desempenho superior aos outros modelos de previsão do VaR e em particular muito superior ao popular modelo RiskMetrics (1996). Neste trabalho, comparamos o desempenho do modelo DPOT com outros modelos, considerando probabilidades inferiores a 0.01 e por isso num contexto de quantis extremais. Este contexto, de probabilidades baixas, como por exemplo 0.001, pode ter interesse na elaboração dos testes de SPE 2011 Mesa: M. Ivette Gomes 233 Sexta, 30/09/2011 Extremos III Sala Atlântico, 17:00–18:00 stress (Tsay, 2010). No estudo comparativo, utilizamos testes clássicos de cobertura condicional e independência, bem como um novo teste de independência para avaliação da previsão intervalar (Araújo Santos e Fraga Alves, 2010). Agradecimentos: Este trabalho é parcialmente financiado pela Fundação para a Ciência e Tecnologia (FCT/PROTEC e FCT/OE). Bibliografia [1] Araújo Santos, P. e Fraga Alves, M.I. (2011). Forecasting Value-at-Risk with a Duration Based POT Method. CEAUL. Technical Report 8/2011. [2] Araújo Santos, P. e Fraga Alves, M.I. (2010). A new class of independence tests for interval forecasts evaluation. Computational Statistics and Data Analysis. In press. doi:10.1016/j.csda2010.10.002. [3] Balkema, A.A. e de Haan, L. (1974). Residual Life Time at Great Age. Ann. Probab., 2,792– 804. [4] Davison, A.C.(1990). Models for Exceedances over High Thresholds. Journal of Royal Statist. Soc. B, 52, 393–442. [5] Pickands III, J. (1975). Statistical Inference using Extreme value Order Statistics, Ann. Statist., 3, 119–131. [6] RiskMetrics (1996), J.P. Morgan Technical Document, 4th Edition, New York, J.P. Morgan. [7] Tsay, R. (2010). Analysis of Financial Time Series. Wiley Series in Probability and Statistics. SPE 2011 Mesa: M. Ivette Gomes 234 Sexta, 30/09/2011 Extremos III Sala Atlântico, 17:00–18:00 Estimação de um parâmetro de forma de segunda ordem Frederico Caeiro1 e M. Ivette Gomes2 1 2 DM–FCT e CMA, Universidade Nova de Lisboa, [email protected] DEIO e CEAUL, Universidade de Lisboa, [email protected] Resumo: Neste artigo procedemos ao estudo de uma classe de estimadores de um parâmetro de forma de segunda ordem, estimadores esses semi-paramétricos, explı́citos e válidos para uma classe vasta de modelos com cauda direita pesada. Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, caudas pesadas, nı́veis óptimos Introdução e objectivos Consideremos uma amostra de dimensão n de variáveis aleatórias (v.a.’s) independentes e identicamente distribuı́das, (X1 , . . . , Xn ), provenientes de um modelo F. Seja (X1:n ≤ · · · ≤ Xn:n ) a amostra das estatı́sticas ordinais ascendentes associada, e admitamos que existem sucessões {an > 0} e {bn ∈ R} tais que o máximo linearmente normalizado, i.e., (Xn:n − bn ) /an , converge em distribuição para uma v.a. não-degenerada, com distribuição necessariamente do tipo da distribuição de valores extremos, com a forma funcional exp(−(1 + γ x)−1/γ ), 1 + γ x > 0 se γ 6= 0 Gγ (x) = exp(− exp(−x)), x ∈ R se γ = 0. Dizemos então que F pertence ao domı́nio de atração para máximos de Gγ , e escrevemos F ∈ DM Gγ . O parâmetro γ é o ı́ndice de valores extremos (EVI, do Inglês extreme value index). Este ı́ndice mede o peso da função de cauda direita, F := 1 − F, sendo essa cauda tanto mais pesada quanto mais elevado for γ . Iremos aqui considerar modelos de cauda direita pesada, i.e., modelos de tipo Pareto, frequentes em telecomunicações, finanças e seguros, com função quantil do tipo U(t) := inf{x : F(x) ≥ 1 − 1/t} = Ct γ (1 + Dt ρ + o p (t ρ )), C > 0, D = γβ /ρ , ρ < 0, β 6= 0. (1) + Para estes modelos, em DM ≡ DM EVγ γ >0 , o estimador clássico do EVI é o estimador de Hill (1975). Este estimador é dados pela média dos excessos das log-observações, Vik := ln Xn−i+1:n − ln Xn−k:n , 1 ≤ i ≤ k < n, (2) ou equivalentemente, dos espaçamentos escalados das log-observações, Ui := i {ln Xn−i+1:n − ln Xn−i:n } , 1 ≤ i ≤ k < n, (3) i.e., H(k) = 1k ∑ki=1 Ui = 1k ∑ki=1 Vik , 1 ≤ k < n. Mas estes estimadores do EVI têm frequentemente um viés elevado para valores de k moderados, incluindo o próprio nı́vel óptimo, no sentido de SPE 2011 Mesa: M. Ivette Gomes 235 Sexta, 30/09/2011 Extremos III Sala Atlântico, 17:00–18:00 erro quadrático médio mı́nimo em k. Consequentemente, a escolha adaptativa do nı́vel óptimo e a estimação adequada do viés do estimador de Hill têm sido tópicos recentes e recorrentes. Estes tópicos requerem a estimação adequada dos parâmetros de forma e “escala” de segunda ordem, ρ e β , respectivamente, introduzidos em (1). Relativamente à estimação do parâmetro ρ , mencionamos os artigos pioneiros de Gomes et al. (2002) e Fraga Alves et al. (2003). Mais recentemente Ciuperca e Mercadier (2010) e Goegebeur et al. (2010) estudaram classes genéricas de estimadores semi-paramétricos de ρ , baseados nas estatı́sticas Vik e Ui , em (2) e (3), respectivamente. Apesar destes resultados recentes, o estimador de Fraga Alves et al. (2003) continua a ser um dos mais simples e um dos melhores em aplicações práticas. Considerando a classe de estimadores estudada de Goegebeur et al. (2010), estudamos neste trabalho o estimador do parâmetro de forma de segunda ordem, ρ , definido por (θ ) ρn (k) := 1 + (θ ) Tn (k) com := 1 (θ ) 1 − Tn (k) , θ ∈ R, θ θ (3/2) − Nn (k) θ , θ (2) (3/2) Nn (k) − Nn (k) (1) (3/2) ln Nn (k) −ln Nn (k) , (3/2) (2) ln Nn (k) −ln Nn (k) (α ) (4) (1) Nn (k) Nn (k) := se θ 6= 0 , se θ = 0 α k i α −1 Ui . ∑ k k i=1 Estudamos as propriedades assintóticas para amostras de dimensão finita. Segue-se o estudo da escolha adequada do parâmetro de controlo, θ ∈ R, de forma a reduzir o termo dominante de viés (θ ) assintótico de ρn (k), em (4), e consequentemente o respectivo erro quadrático médio. Bibliografia [1] Ciuperca, G. e Mercadier, C. (2010). Semi-parametric estimation for heavy tailed distributions. Extremes 13, 55–87. [2] Fraga Alves, M.I., Gomes, M.I. e Haan, L. de (2003). A new class of semi-parametric estimators of the second order parameter, Portugaliae Mathematica, 60(2), 193–213. [3] Goegebeur, Y., Beirlant, J. e de Wet, T. (2010). Kernel estimators for the second order parameter in extreme value statistics. Journal of Statistical Planning and Inference, 140, 2632–2652. [4] Gomes, M.I., de Haan, L. e Peng, L. (2002). Semi-parametric estimation of the second order parameter in statistics of extremes. Extremes 5, 387–414. [5] Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Annals Statistics 3, 1163–1174. SPE 2011 Mesa: M. Ivette Gomes 236 Sexta, 30/09/2011 Extremos III Sala Atlântico, 17:00–18:00 Estimação não-paramétrica em extremos multivariados Miguel de Carvalho e Anthony Davison Ecole Polytechnique Fédérale de Lausanne, {Miguel.Carvalho, Anthony.Davison}@epfl.ch Resumo: O modelo Ramos–Ledford tem recebido grande atenção na modelação de extremos multivariados [1]. O modelo apresenta inúmeras vantagens na modelação de dependência extremal e permite unificar numa só abordagem os casos de dependência e independência assintóticas. Apesar das suas potenciais vantagens na modelação de uma vasta possibilidade de estruturas de associação entre variáveis aleatórias, para efeitos de estimação apenas existem actualmente na literatura modelos paramétricos, o que restringe o domı́nio das suas aplicações. Neste trabalho propomos técnicas nãoparamétricas de estimação e inferência para complementar a análise do modelo Ramos–Ledford. As técnicas propostas são desenvolvidas usando métodos de verosimilhança empı́rica [2] sendo obtidos os teoremas de Wilks correspondentes. Palavras–chave: Coeficiente de dependência das caudas, dependência assintótica, extremos multivariados, independência assintótica, verosimilhança empı́rica Bibliografia [1] A. Owen (2001). Empirical likelihood. Boca Raton: Chapman and Hall. [2] Ramos, A. e Ledford, A. (2009). A new class of models for bivariate joint tails. Journal of the Royal Statistical Society, Ser. B, 71, 219–241. SPE 2011 Mesa: M. Ivette Gomes 237 Sexta, 30/09/2011 SAS Sala Premium, 18:00–18:20 SAS no ensino superior: capacidades analı́ticas sem custos Jos van der Velden SAS Institute, Software Lda. - Portugal, [email protected] Resumo: A compreensão de analı́ticas avançadas, exploração e mineração de dados é cada vez mais importante para a economia, o negócio e o mundo académico, já que permite ganhar vantagens competitivas num mercado de trabalho exigente. Mas para incorporar estas disciplinas com sucesso, professores precisam de ferramentas de ensino económicas e simples. Palavras–chave: Ferramentas estatı́sticas, advanced analytics, data mining, previsão, SAS, Academic Program Introdução ao SAS, uma multinacional que nasceu no mundo académico O SAS é uma das maiores empresas de software a nı́vel mundial. Desde 1976 o SAS apresenta um crescimento contı́nuo de proveitos e uma rentabilidade sustentável. Num ambiente económicofinanceiro global incerto, caracterizado por fusões, mudança de proprietário ou simplesmente desaparecimento do mercado de muitos concorrentes, o SAS permaneceu focado na sua missão principal - entregar software de qualidade superior desenvolvido em colaboração com os clientes, parceiros e o mundo académico. SAS OnDemand for Academics, tecnologia cloud para apoiar o ensino superior A busca por conhecimento é a força que alavanca o ensino. Desde 1976, ano da fundação, um dos objectivos do SAS tem sido dar suporte ao ensino. Através do programa académico o SAS permanece fiel a este objectivo, oferecendo suporte ao mundo académico a uma escala global. Tendo uma posição privilegiada, com raı́zes no mundo académico, o SAS está disposto a colaborar com as organizações de ensino superior para que estes conseguem concretizar os seus objectivos no âmbito do ensino, aprendizagem e investigação. O em SAS OnDemand for Academics implementa um modelo de utilização online para o ensino e aprendizagem de gestão de dados e analı́tica avançada. Através de uma ligação via internet à infraestrutura do SAS os utilizadores recorram à capacidade analı́tica do SAS instalado nos servidores utilizando um interface gráfico simples do tipo “point-and-click”. Neste momento os componentes disponı́veis são: c OnDemand for Academics: Enterprise Guide R • SAS c OnDemand for Academics: Enterprise Miner? • SAS c OnDemand for Academics: Forecast Server (Beta stage) • SAS SPE 2011 Mesa: Isabel Rodrigues 239 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 Intervalos de previsão usando o procedimento Boot.EXPOS Clara Cordeiro1 e M. Manuela Neves2 1 2 FCT/ Universidade do Algarve, [email protected] ISA/ Universidade Técnica Lisboa e CEAUL, [email protected] Resumo: O procedimento automático Boot.EXPOS foi desenvolvido pelas autoras em ambiente e tem como objectivo prever valores futuros de uma série temporal. Este junta duas metodologias: métodos de alisamento exponencial e Bootstrap. Devido aos resultados encorajadores obtidos em competições como “M3 competition” e “NNGC1 competition”, este foi aplicado também no contexto de observações omissas. Agora propomo-nos a aplicar este procedimento na construção de intervalos de previsão. Palavras–chave: bootstrap, intervalos de previsão, métodos de alisamento exponencial, séries temporais Introdução Uma série temporal poderá ser encarada como o resultado da combinação (aditiva ou multiplicativa) de componentes associados a diferentes caracterı́sticas. Estas caracterı́sticas manifestam-se com maior ou menor intensidade em cada série, sendo possı́vel, portanto, identificar as caracterı́sticas mais marcantes em cada caso. Ao construir um modelo, o objectivo é explicar da melhor forma possı́vel cada uma das caracterı́sticas, ou pelo menos as mais marcantes, da série de interesse. Existem modelos que fazem a combinação destas componentes e a sua identificação irá ser importante na escolha de um modelo de previsão. O modelo obtido é então validado por meio de testes apropriados. Se o modelo obtido é considerado válido então podemos entrar na fase da previsão de valores futuros para a série e posteriormente obter intervalos de previsão. Os métodos de alisamento exponencial Os métodos de alisamento exponential designam um conjunto de métodos de previsão que são dos mais eficientes quando aplicados a séries que apresentam tendência e sazonalidade. Esta técnica vai actualizando as previsões atribuı́ndo um “peso” maior às observações mais recentes, isto é, utiliza ponderadores exponentialmente decrescentes com a antiguidade das observações. A sua classificação, atendendo à tendência e sazonalidade, foi inicialmente proposta por Pegels (1969). Desde então vários autores investigaram e desenvolveram estes métodos. Hoje em dia estes podem ser classificados em quinze métodos distintos, se a componente do erro for ignorado [3]. A Tabela 1 mostra a taxonomia para os quinze métodos de alisamento exponencial possı́veis. Se considerarmos o factor erro como aditivo e multiplicativo então estamos a referir-nos a um total de trinta métodos. SPE 2011 Mesa: Jorge Caiado 241 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 Tabela 1: Classificação dos modelos de alisamento exponencial. Componente Tendência N (Nenhuma) A (Aditivo) Ad (Aditivo amortecido) M (Multiplicativo) Md (Multiplicative amortecido) Componente Sazonalidade N A M (Nenhuma) (Aditivo) (Multiplicativo) N,N N,A N,M A,N A,A A,M Ad,N Ad,A Ad,M M,N M,A M,M Md,N Md,A Md,M O procedimento O ponto de partida para o procedimento Boot.EXPOS é o ajustamento inicial através da escolha do melhor modelo de acordo com a Tabela 1 com base no critério de AIC. Desde modo pretendese captar caracterı́sticas tais como a sazonalidade e/ou tendência com o propósito de isolar estas componentes com interpretação directa. O nosso objectivo é estimar e retirar as componentes determinı́sticas (tendência e/ou sazonalidade) e trabalhar a componente estocástica, no caso de ser estacionária, com técnicas lineares, como por exemplo os processos autoregressivos. Devido à natureza i.i.d. dos resı́duos do processo AR, o bootstrap clássico de Efron pode facilmente ser aplicado neste caso. Uma nova série de erros autoregressivos é reconstruı́da usando a amostra bootstrap. Uma réplica da série inicial é obtida usando as componentes do ajustamento inicial e a nova série autoregressiva. Posteriormente e usando de novo os parâmetros do ajustamento inicial, as previsões são obtidas. Este procedimento tem sido estudado, desenvolvido e aperfeiçoado pelas autoras em diversos trabalhos, como por exemplo [1, 2]. Observou-se que o procedimento Boot.EXPOS é uma boa opção na determinação de previsões, traduzido em melhores resultados das medidas de exactidão adoptadas. Neste trabalho, as previsões são apresentadas sob a forma de intervalos de previsão, também caracterizados pela estimação da probilidade de cobertura. Os intervalos gerados são obtidos usando os métodos dos percentis e o “bias-corrected bootstrap”, e também usando intervalos paramétricos no caso de se verificar a hipótese de normalidade na distribuição das previsões. Várias medidas de precisão são utilizadas na comparação dos intervalos de previsão. Os procedimentos implementados foram aplicados a um vasto conjunto de séries observadas. Todo o trabalho computacional foi realizado com o . Bibliografia [1] Cordeiro, C. e Neves, M. (2008). Bootstrap and exponential smoothing working together in forecasting time series. Em Proceedings in Computational Statistics (Paula Brito, editor), 891– 899 in CD-ROM, Physica-Verlag. [2] Cordeiro, C. e Neves, M. (2009). Forecasting time series with Boot.EXPOS procedure. REVSTAT, 7 (2), 135–149. [3] Hyndman, R., Koehler, A., Ord, J. e Snyder, R. (2008). Forecasting with Exponential Smoothing: The State Space Approach, Springer-Verlag. SPE 2011 Mesa: Jorge Caiado 242 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 Redes neuronais na previsão de séries temporais Sara Marques1 , Maria do Carmo Miranda Guedes1 , Maria Eduarda Silva2 e Nuno Carmona3 1 Departamento de Matemática, Faculdade de Ciências, U. Porto, [email protected], [email protected] 2 Departamento de Matemática, Faculdade de Ciências, U. Porto e CIDMA, [email protected] 3 REN – sector Modelos de Previsão, [email protected] Resumo: Avaliação do impacto de variáveis explicativas usando redes neuronais, de modo a obter uma arquitectura de rede adequada à obtenção de previsões de séries temporais. Palavras–chave: Previsão, co-integração, rede neuronal, séries temporais múltiplas Introdução A previsão de séries temporais é, actualmente, um instrumento indispensável na tomada de decisão em muitas áreas de interesse prático. A complexidade crescente dos processos em análise e a influência de múltiplos factores (variáveis explicativas) tem intensificado o uso de redes neuronais na obtenção de previsões. De facto, muitas vezes, os métodos tradicionais não conseguem captar certos comportamentos observados nas séries temporais, enquanto que os modelos baseados em redes neuronais têm tido sucesso nessa tarefa. No entanto, devido à natureza desta metodologia, não é possı́vel aferir a significância das variáveis explicativas usando métodos tradicionais, nem avaliar a qualidade da previsão obtida. Neste trabalho, pretende-se avaliar o impacto das variáveis explicativas na previsão de séries temporais usando redes neuronais, de modo a obter um modelo adequado à obtenção de previsões. Uma rede neuronal consiste num conjunto de nós interligados. A informação proveniente das variáveis explicativas concentra-se nos diversos nós da rede, sendo processada por cada um deles. Isto permite a captação de eventuais interacções entre as variáveis na modelação do comportamento das variáveis dependentes. Pretende-se estudar a sensibilidade das variáveis explicativas no modelo, [2], decidir sobre a escolha dos parâmetros que podem influenciar a performance da rede neuronal e aferir sobre a existência de cointegração entre uma ou mais variáveis explicativas e as variáveis dependentes. Para tal usam-se indicadores como AIC, BIC ou SBC baseados nos erros de previsão dos modelos construı́dos e testes de rácio de verosimilhança, de modo a escolher o modelo mais adequado, [1]. Pretende-se também obter intervalos de confiança para as previsões. Neste estudo, aplicam-se as metodologias seleccionadas a um conjunto de dados reais. Bibliografia [1] Medeiros, M.C. (2006). Building neural network models for time series: A statistical approach. Journal of Forecasting, 25, pp 49-75. SPE 2011 Mesa: Jorge Caiado 243 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 [2] Raudys, T.C. (1996). Variable Selection with Neural Networks. Neurocomputing, 12, pp 223248. [3] Zhang, G., Patuwo, B.E. e Hu, M.Y. (1998). Forecasting with artificial neural networks: The state of the art. International Journal of Forecasting, 14, pp 35-62. SPE 2011 Mesa: Jorge Caiado 244 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 Análise de séries temporais multivariadas: desafios e perspectivas. Aplicações Carla Bessa1 , Francisco Lage Calheiros1 e M. Manuela Neves2 1 2 FEUP e ENEAS, {dma09033,xico}@fe.up.pt ISA/UTL e CEAUL, [email protected] Resumo: A análise de séries temporais tem um papel cada vez mais importante na modelação e previsão nas áreas mais diversas. Muitos fenómenos de interesse dependem de várias variáveis e, nestas condições, uma análise univariada pode conduzir a previsões incorrectas, pelo que é necessário recorrer a procedimentos adequados de análise de séries multivariadas. O objectivo deste trabalho é a recolha e comparação de procedimentos actualmente existentes de análise de séries temporais multivariadas. Será considerada a aplicação na análise de séries climáticas/meteorológicas e a modelação e previsão pretende explorar os desenvolvimentos mais recentes do software R e outros. Não deixamos de abordar séries unidimensionais que continuam a resistir à modelação. Palavras–chave: Séries temporais multivariadas, sistemas dinâmicos, modelação, previsão Introdução A necessidade de modelar dados de natureza temporal surge nas áreas mais variadas, como medicina, meteorologia, climatologia, finanças, sociologia, para citar apenas algumas delas. A caracterı́stica mais importante deste tipo de dados é que as observações vizinhas são dependentes e o objectivo é analisar e modelar utilizando esta dependência. Muitos dos fenómenos em estudo nalguns daqueles domı́nios dependem de várias variáveis. A utilização de procedimentos de análise multivariada será então um caminho a explorar. A análise de séries temporais univariadas tem sido objecto de grande investigação e muitos modelos e métodos existem na literatura. Menos exploradas têm sido as combinações de métodos estatı́sticos com métodos de sistemas dinâmicos. No caso das séries temporais multivariadas os estudos não são tão extensos e os procedimentos constituem investigação recente. Neste trabalho fazemos uma revisão de procedimentos existentes, sua comparação e levantamento das dificuldades. Não deixamos de referir a escolha dos intervalos inter-observações. Serão estudadas as seguintes séries: Southern Oscillation Index, cujos dados são relativos a medições (valores médios mensais) das oscilações da pressão do ar ao nı́vel do mar entre Tahiti e Darwin entre 1876 e 2010; série de dados climatológicos referentes a quatro variáveis medidas através da liquidificação de núcleos de gelo no North Greenland Ice core Project e uma série de dados meteorológicos de medições diárias de várias variáveis em Pedras Rubras-Porto. Abordagens na análise de séries temporais A abordagem estatı́stica no estudo de uma série temporal considera fundamentalmente as seguintes etapas: estudo do cronograma - gráfico da função de autocorrelação (FAC) e de autocorrelação par- SPE 2011 Mesa: Jorge Caiado 245 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 cial (FACP); análise das componentes da série temporal, nomeadamente, tendência, sazonalidade, movimentos cı́clicos e flutuações aleatórias ou ruı́do; selecção e comparação de modelos (ARIMA, GARCH, etc); análise da adequação de modelos. Nos métodos de previsão podemos indicar: alisamento exponencial; método de Holt-Winters e ainda métodos não paramétricos - estimação da densidade pelo método do núcleo, técnicas de regressão, métodos locais polinomiais, modelação por Splines, métodos de séries ortogonais e reamostragem Bootstrap e Jackknife. Mas a abordagem por Sistemas Dinâmicos é uma alternativa na análise de séries temporais que considera o recurso a: espaço de estados; modelação de sistemas dinâmicos não lineares; representação da dinâmica dos sistemas no espaço de fases; reconstrução do espaço de fases (teorema de RuelleTakens, escolha do desfasamento temporal, escolha da dimensão de imersão,...); determinação dos expoentes de Lyapunov; análise das secções de Poincaré e métodos baseados na análise de Fourier (espectro). Na análise de uma série temporal multivariada encontramos basicamente modelos que fazem a análise sem redução da dimensão: VARMA, ARMAX e MGARCH e ainda modelos não paramétricos como a regressão polinomial multivariada local. Dos modelos que têm sido frequentemente utilizados para baixar a dimensionalidade referimos a utilização de Análise em Componentes Principais, “Singular Spectrum Analysis” e o recurso a técnicas de mineração (data mining). Recentemente têm surgido procedimentos de análise de séries temporais multivariadas implementados no software R. Peng (2008) criou um método de visualização de uma série temporal multivariada, útil para análise exploratória, package mvtsplot; Gilbert (2009) implementou no package DSE funções para modelação de séries temporais lineares, multivariadas e estacionárias e Holmes e Ward (2010) apresentam no package MARSS um modelo linear com erros gaussianos. Também Pinto (2009) desenvolveu um software aberto, com recurso ao Matlab, para o tratamento de séries temporais via sistemas dinâmicos e que se tem mostrado muito eficaz. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PPCDT/FEDER. Bibliografia [1] Gilbert, P. (2009). Brief User’s Guide: Dynamic Systems Estimation (DSE). Bank of Canada. [2] Holmes, E.E. e Ward, E.J. (2010). Analysis of Multivariate Time-Series using the MARSS Package. Mathematical Biology Program. [3] Peng, R.D. (2008). A Method for visualizing multivariate time series data. Journal of Statistical Software, 25, in http://www.jstatsoft.org/ . [4] Pinto, R. (2009). Análise de séries temporais através de representações do espaço de fases. Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores, FEUP, com software disponı́vel em http://paginas.fe.up.pt/ ee02208/dissertacao.html. SPE 2011 Mesa: Jorge Caiado 246 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 Previsão em modelos bilineares de valores inteiros Nélia Silva1 e Isabel Pereira1 1 Universidade de Aveiro, CIDMA, {neliasilva,isabel.pereira}@ua.pt Resumo: Os modelos bilineares de valores inteiros não negativos foram introduzidos por Doukhan et al. (2006) e mais tarde desenvolvidos por Drost et al. (2008). Neste trabalho considera-se o modelo bilinear de valores inteiros de primeira ordem, INBL (1,0,1,1) e estuda-se o problema da predição de futuras observações, considerando previsão linear e não linear. Ambas as abordagens são analisadas segundo as metodologias clássica e bayesiana e o seu desempenho é comparado através de um estudo de simulação. Palavras–chave: Análise bayesina, modelo bilinear, processo de valores inteiros Introdução Em muitas ciências encontramos observações constituı́das por valores não negativos que correspondem a processos de contagem em instantes consecutivos no tempo. Nestas duas últimas décadas tem havido um grande desenvolvimento na literatura no estudo de séries de valores temporais de valores inteiros. Muitos destes modelos são baseados em operadores de filtragem, e em particular no operador de filtragem Steutel e van Harn (1979), para definir os processos de filtragem similares aos modelos econométricos clássicos. Os modelos bilineares de valores inteiros não negativos foram introduzidos por Doukhan et al. (2006) e mais tarde desenvolvidos por Drost et al. (2008). Formalmente, um modelo bilinear de valores inteiros, INBL(p,q,m,n), é definido por: p q i=1 j=1 l Xt = ∑ ai ◦ Xt−i + ∑ c j ◦ εt− j ∑ n ∑ blk ◦ (εt−l Xt−k ) + εt , k=1 l=1 onde os operadores de filtragem ai ◦, i = 1, . . . ,p, c j ◦, j = 1, . . . ,q e bkl ◦ , k = 1, . . . ,m, l = 1, . . . ,n, são mutuamente independentes e {εt }t∈Z é uma sucessão de v.a.´s de valores inteiros não negativos i.i.d. com valor médio e variância finitos, e independente dos operadores. Usualmente, estes modelos são utilizados para analisar sistemas que apresentam fenómenos de salto, que ocorrem em instantes aleatórios, apresentando alterações bruscas de grande amplitude - comportamento análogo ao correspondente no modelo bilinear de valores reais introduzido por Granger e Andersen (1978). Considerando o modelo bilinear de primeira ordem, INBL (1,0,1,1), Doukhan et al. (2006) determinaram condições suficientes para que o processo fosse estritamente estacionário as quais foram posteriormente estendidas por Drost et al. [2] para a classe superdiagonal do processo INBL(p,q,m,n). Considerando o modelo mais simples, Drost et al. (2006) provaram também a consistência e a normalidade assintótica dos estimadores obtidos pelo método dos momentos. Tendo em conta que, de uma forma geral, a previsão linear pontual de futuras observaçoes não fornece bons resultados, neste trabalho pretende-se desenvolver métodos de previsão não linear, considerando o modelo bilinear de primeira ordem, BL (1,0,1,1), dado por: Xt = a ◦ Xt−1 + b ◦ (εt−1 Xt−1 ) + εt . SPE 2011 Mesa: Jorge Caiado 247 Sábado, 01/10/2011 Séries Temporais II Sala Premium, 09:00–10:20 Bibliografia [1] Doukhan, P., Latour, A. e Oraichi, D. (2006). A simple integer-valued bilinear time series model. Adv. Appl. Prob., 38, 559-578. [2] Drost, F.C., Akker, R. e Werker, B.J.M. (2008). Note on integer-valued bilinear time series models. Stat. Prob. Letters, 78, 992-996. [3] Granger, C.W.J. e Andersen, A.P. (1978). An introduction to bilinear series model. Vandenhoeck & Ruprecht, Gottingen. [4] Steutel, E. e van Harn, K. (1979). Discrete analogues of self-decomposability and stability. Ann. Prob., 7, 893-899. SPE 2011 Mesa: Jorge Caiado 248 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 Cash-Flow at Risk Bruno Pires Instituto Superior de Ciências do Trabalho e da Empresa e Banco de Portugal, [email protected] Resumo: O presente trabalho pretende avaliar em que medida os capitais próprios das empresas não financeiras portuguesas são suficientes, para fazer face ao aparecimento de cash-flows negativos (CFaR, Cash-Flow at Risk), tema actual sobretudo em momentos de turbulência económicofinanceira como os que temos vivido nos últimos anos. A desagregação da análise por sector de actividade e classe de dimensão permite identificar as PME (que têm um elevado peso no total), bem como as “actividades de informação e de comunicação”, os “outros serviços” e o “comércio” como os agregados com maior fragilidade da estrutura de capitais. Pelo contrário, as grandes empresas e sectores como os “transportes e armazenagem” e a “electricidade e água” são os que têm maior peso de empresas com uma “almofada” de capitais próprios adequada para fazer face ao aparecimento de perdas. Não se confirma a suposição que os sectores com maior volume de perdas correspondam aos de maior autonomia financeira. O recurso ao capital permanente (em vez do capital próprio) e o recurso ao Resultado Lı́quido do Exercı́cio (RLE), em vez do cash-flow, confirmam o posicionamento relativo dos agregados analisados, apesar dos capitais permanentes serem superiores aos próprios e de os RLE serem mais gravosos que os cash-flows. Os sectores com maior investimento em capital fixo são os mais afectados por este agravamento, devido ao elevado nı́vel das amortizações. A segregação dentro de cada sector do efeito das PME e das grandes permite concluir que em todos os sectores, com intensidades distintas e a excepção das empresas transportadoras (que beneficiam do comportamento das PME), as PME mostram geralmente uma maior insuficiência de capitais próprios para fazer face ao CFaR. Uma breve análise das cessações de empresas confirma o posicionamento relativo dos vários agregados atrás referidos, mostrando que os mais frágeis são naturalmente os que originam mais cessações (em termos relativos). Palavras–chave: Cash-Flow at Risk, Net Worth at Risk, autonomia financeira, estrutura financeira SPE 2011 Mesa: Isabel Fraga Alves 249 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 Estatı́sticas da titularização em Portugal – compilação de dados e avaliação de resultados Ana Almeida e Teresa Crespo Departamento de Estatı́stica do Banco de Portugal, {ammalmeida, mtcrespo}@bportugal.pt Resumo: Esta comunicação descreve, de forma sucinta, o processo da titularização em Portugal ao longo da década de 2000 e a sua incidência em termos da compilação de estatı́sticas pelo Banco de Portugal. O enquadramento legal é apresentado, com indicação dos principais diplomas que estabelecem o quadro jurı́dico português para este tipo de operações. Descreve-se, seguidamente, o sector da titularização, sendo identificados os dois tipos de entidades que titularizam créditos em Portugal: as Sociedades de Titularização Crédito (STC) e os Fundos de Titularização de Crédito (FTC), assinalando as principais diferenças existentes nas operações realizadas por cada uma destas entidades. São, igualmente, apresentadas as principais caracterı́sticas das operações de titularização em função do respectivo desreconhecimento, ou não, no balanço da entidade originadora da operação, com as devidas implicações estatı́sticas. O processo que permite a compilação das estatı́sticas de titularização é subsequentemente relatado, com identificação da informação de base proveniente dos dados contabilı́sticos remetidos à Comissão do Mercado de Valores Mobiliários para efeitos de supervisão, os quais são complementados com informação proveniente de diversas fontes de natureza administrativa e dados estatı́sticos disponı́veis no Banco de Portugal. Alguns resultados estatı́sticos para os anos mais recentes são também evidenciados, sendo de assinalar diferentes fases identificadas ao longo dos últimos dez anos no sector da titularização em Portugal, em particular como reflexo de diversos acontecimentos verificados nos mercados financeiros internacionais. É ainda de referir a preponderância crescente da titularização no balanço do sector financeiro português, representando, no final de 2010, 8% do total do mesmo. O documento termina com uma referência aos diversos suportes através dos quais é divulgada a informação estatı́stica das STC e FTC pelo Banco de Portugal, bem como à disponibilização de informação pelo Banco Central Europeu relativa à dimensão deste fenómeno na União Monetária Europeia. Palavras–chave: Titularização, fundos de titularização de créditos, sociedades de titularização de créditos, informação estatı́stica Bibliografia [1] Campos, A. (2005). Titularização de Créditos, algumas notas sobre titularização sintética. Revista da Banca, 60, 77–92. [2] Decreto -Lei n.o 453/1999, de 5 de Novembro - Lei da Titularização. [3] Decreto -Lei n.o 219/2001, de 4 de Agosto - Regime fiscal da Titularização. SPE 2011 Mesa: Isabel Fraga Alves 251 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 [4] Decreto -Lei n.o 303/2003, de 5 de Dezembro - Alargamento do tipo de activos passı́veis de serem titularizados. [5] Moreira, T. e Moura, R. M. (2004). Titularização de Créditos - Algumas reflexões e propostas. Revista de Fiscalidade, Outubro de 2004, 1–11. [6] Orientação (CE) N.o 160/2009 do Banco Central Europeu, de 19 de Dezembro de 2008 (BCE/2008/31). [7] Pinto, J. e Marques, M. (2007). O movimento de Titularização de Activos em Portugal. Cadernos do Mercado de Valores Mobiliários, 26, 8–45. [8] Regulamento (CE) N.o 24/2009 do Banco Central Europeu, de 19 de Dezembro de 2008 (BCE/2008/30), relativo às estatı́sticas dos activos e passivos das sociedades de titularização envolvidas em operações de titularização. [9] Securitisation in the Euro Area. ECB Monthly Bulletin, Fevereiro de 2008, 81–91. SPE 2011 Mesa: Isabel Fraga Alves 252 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 Impacto dos sistemas de pensões ocupacionais na mobilidade do trabalho Ana Cláudia Gouveia1 e Sı́lvia Fonte Santa2 1 2 Universidade Nova de Lisboa, ana [email protected] Banco de Portugal, [email protected] Resumo: No actual contexto de discussão do futuro dos sistemas de pensões, este estudo pretende avaliar o potencial impacto da existência de fundos de pensões ocupacionais nas taxas de mobilidade do mercado de trabalho em Portugal. A não portabilidade destes planos é vista como a principal razão para os portadores de planos ocupacionais apresentarem uma mobilidade 60% inferior à dos trabalhadores não cobertos. No entanto, a literatura existente, focada sobretudo nos Estados Unidos e Reino Unido, avança outros factores explicativos como o prémio salarial dos empregados com pensão ocupacional e a auto-selecção de trabalhadores menos móveis. Os resultados encontrados para Portugal quanto ao efeito dos fundos de pensões demonstram que a portabilidade tem peso na decisão de mobilidade mas é apenas parte da explicação. Palavras–chave: Mobilidade do trabalho, fundos de pensões ocupacionais, portabilidade Na Estratégia de Lisboa e na Estratégia Europeia de Emprego “foi oficialmente reconhecido que uma maior mobilidade geográfica e profissional constituı́a um factor de adaptação essencial no contexto de mercados do trabalho em mutação rápida.” Adicionalmente, foi estabelecido que uma das medidas para promover essa mobilidade passaria por aumentar a transferibilidade dos direitos a pensões ocupacionais. Efectivamente, no contexto das pensões ocupacionais, a mudança de emprego encontra-se, em geral, associada à perda de benefı́cios no momento da reforma, associada à não portabilidade dos planos. Esta portabilidade dos direitos com pensões é definida como a capacidade de um trabalhador mudar de empregador mantendo o valor actuarial das suas pensões futuras. A literatura existente sobre este assunto evidencia a presença de taxas de mobilidade significativamente mais baixas para os trabalhadores abrangidos por esquemas de pensões ocupacionais. Este facto é geralmente associado às perdas de mobilidade e, por isso, a transferibilidade das pensões aparece como prioridade na agenda polı́tica. No entanto, a literatura tem avançado com explicações adicionais que vão para além da portabilidade. O estudo da relação negativa entre mobilidade do trabalho e sistema de pensões tem inı́cio no final de 1970 e inı́cio de 1980, sendo que as primeiras investigações sobre esta matéria centram-se na não portabilidade como factor explicativo. Estudos recentes salientam a importância de outras explicações. Allen, Clark e McDermed [1] apontam os prémios salariais associados às pensões e a auto-selecção dos trabalhadores menos móveis como factores que contribuem para a baixa mobilidade dos trabalhadores dos EUA, mas destacando as perdas de portabilidade como factor principal. Gustman e Steinmeier [3], novamente para os EUA argumentam que o prémio salarial ocupa um papel central na explicação das taxas de mobilidade dos trabalhadores, não encontrando diferenças de comportamento entre os trabalhadores cobertos com planos de pensão de benefı́cio definido e de contribuição definida (nos quais não existe o problema da portabilidade). Andrietti [2], com base na análise de quatro paı́ses europeus (Dinamarca, Irlanda, Holanda e Reino Unido) reforça as conclusões de [3]. Outras análises sugerem que a auto SPE 2011 Mesa: Isabel Fraga Alves 253 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 selecção de trabalhadores menos móveis em empregos cobertos com pensões ocupacionais explica a baixa rotatividade destes trabalhadores. Na presença de explicações alternativas à questão da portabilidade, é necessário ter presente que medidas como as avançadas na Estratégia de Lisboa e na Estratégia Europeia de Emprego no sentido de reforçar a transferabilidade podem não ter o efeito desejado na mobilidade do trabalho e consequentemente na eficiência da economia. Neste sentido, este estudo pretende avaliar o potencial impacto da existência de fundos de pensões ocupacionais nas taxas de mobilidade do mercado de trabalho em Portugal e avaliar o impacto dos diferentes factores explicativos. Esta análise tem especial interesse no actual contexto em que se debate o futuro dos sistemas de pensões e numa altura em que as potenciais reformas dos sistemas de pensões públicos podem vir a conduzir a um aumento da importância dos sistemas de pensões privados. Este trabalho tem como ponto de partida a informação do mercado de trabalho presente nos Quadros de Pessoal, complementada com informação da Central de Balanços do Banco de Portugal. Os Quadros de Pessoal é uma base de dados do Ministério do Emprego e da Segurança Social com informação anual sobre todos os trabalhadores do sector privado residentes em Portugal (idade, educação, tenure, salários, horas trabalhadas, remunerações extra, entidade empregadora, etc.) e respectivas entidades empregadoras (localização, dimensão, sector de actividade, etc.). Relativamente à informação da Central de Balanços do Banco de Portugal, é de destacar a importância da informação disponibilizada pelo novo sistema de reporte simplificado de informação anual de base contabilı́stica, designado por IES- Informação Empresarial Simplificada (ver Suplemento 1/2008 ao Boletim Estatı́stico). Com base na informação disponibilizada pela Central de Balanços do Banco de Portugal, na lista de entidades para fins estatı́sticos publicada pelo Banco de Portugal e na lista de fundos de pensões autónomos fechados disponibilizada pelo Instituto de Seguros de Portugal foi possı́vel classificar as diferentes entidades empregadoras quanto à existência, ou não, de fundos de pensões ocupacionais. Os resultados obtidos confirmam a menor mobilidade dos trabalhadores com fundos de pensões ocupacionais, com taxas cerca de 60% inferiores aos trabalhadores não cobertos. A portabilidade é um factor explicativo, no entanto está longe de ser o único. O simples facto do trabalhador estar coberto, mesmo depois de controlar para as perdas de portabilidade, é um factor relevante para explicar a menor rotatividade destes trabalhadores. Aumentar a portabilidade, por exemplo impondo um vesting period de apenas um ano, não se irá traduzir, de acordo com o nosso estudo, em melhorias significativas em termos de mobilidade dos trabalhadores. Bibliografia [1] Allen, S., Clark, R. e McDermed, A. (1993). Pensions, Bonding, and Lifetime Jobs. The Journal of Human Resources, 28(3), 463–481. [2] Andrietti, V. (2001). Occupational Pensions and Interfirm Job Mobility in the European Union – Evidence from the ECHP Survey. CeRP Working Paper 5/01. [3] Gustmam, A. and Steinmeier, T. (1993). Pension Portability and Labor Mobility – Evidence from the Survey on Income and Program Participation. Journal of Public Economics, 50, 299– 323. SPE 2011 Mesa: Isabel Fraga Alves 254 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 Como podem as bases de dados administrativas ajudar a compreender o comportamento financeiro das sociedades não financeiras? Homero Alexandre Gonçalves Banco de Portugal, [email protected] Resumo: Esta comunicação demonstra que as bases de dados administrativas constituem instrumentos muito úteis para a obtenção de informação, evitando a sobrecarga dos agentes económicos com novas solicitações. De facto, o elevado nı́vel de detalhe da informação constante nestas bases de dados permite efectuar uma análise económica muito diversificada e aprofundar aspectos relevantes à melhor compreensão da situação e evolução do sector das sociedades não financeiras. Neste estudo foram utilizados os dados individuais de quase todas as sociedades não financeiras existentes em Portugal (mais de 350 mil empresas) para avaliar a saúde financeira deste sector institucional. Em concreto, recorreu-se a duas bases de dados geridas pelo Departamento de Estatı́stica do Banco de Portugal, designadamente a Central de Balanços (CB) e a Central de Responsabilidades de Crédito (CRC). A CB contém informação anual das empresas, essencialmente de base contabilı́stica, e a CRC contém informação sobre crédito, efectivo e potencial, obtido pelas empresas junto do sistema financeiro residente. Esta informação sobre crédito tem natureza positiva (quando as obrigações contratuais são cumpridas) e negativa (quando existe incumprimento). A partir daquelas duas bases de dados foi efectuada uma análise muito completa do comportamento financeiro do sector, tendo em conta as caracterı́sticas das empresas, nomeadamente a actividade económica e a dimensão. Neste domı́nio, foi possı́vel identificar padrões de financiamento distintos ao nı́vel da classe das microempresas, por comparação com as empresas de grande dimensão, bem como entre as empresas do sector da Construção face aos restantes sectores de actividade. Adicionalmente, foram analisados os resultados de diversos indicadores económicos e financeiros por sectores de actividade e classes de dimensão, os quais permitiram complementar a caracterização dos comportamentos e justificar as diferenças encontradas. Os resultados deste trabalho podem também ser utilizados para efeitos de apuramento de estatı́sticas macroeconómicas, designadamente as contas nacionais e as estatı́sticas monetárias e financeiras. Palavras–chave: Base de dados administrativa, microdados, sociedades não financeiras, comportamento financeiro, central de balanços, central de responsabilidades de crédito, sectores de actividade económica, classes de dimensão das empresas Agradecimentos: Luı́s Sarmento, Margarida Brites, Mário Lourenço e Vı́tor Silveira. SPE 2011 Mesa: Isabel Fraga Alves 255 Sábado, 01/10/2011 Econometria Sala Dinastia, 09:00–10:20 Bibliografia [1] Banco de España (2010). El endeudamiento de las sociedades no financieras españolas. Evolución temporal y comparación con el área del euro. Boletı́n Económico, Maio 2010. [2] Banco de Portugal (2005). Utilização da Central de Responsabilidades de Crédito no âmbito das Estatı́sticas Monetárias e Financeiras. Suplemento ao Boletim Estatı́stico. [3] Banco de Portugal (2008). Reporte Simplificado: incorporação da Informação Empresarial Simplificada nas Estatı́sticas das Empresas não Financeiras da Central de Balanços. Suplemento ao Boletim Estatı́stico. [4] Banco de Portugal (2010). Relatório de Estabilidade Financeira. [5] Banque de France (2009). The position of firms in France at end 2008 - Recent developments. Quarterly Selection of Articles, 14. [6] Baugnet, Z. (2007). Belgian corporate finance in a European perspective National Bank of Belgium Economic Review. [7] Custodio C. e Gomes A. (2009). Finanças da Empresa. Booknomics. [8] European Central Bank (2007). Corporate Finance in the Euro Area. Structural Issues Report, Maio 2007. [9] European Commission (2005). SME access to finance. Flash Eurobarometer, 174. [10] European Commission (2009). Survey access to finance analytical report. SPE 2011 Mesa: Isabel Fraga Alves 256 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 Modelação de acidentes rodoviários Conceição Ribeiro1 , Antónia Amaral Turkman2 e João Lourenço Cardoso3 1 Instituto Superior de Engenharia da Universidade do Algarve e CEAUL, [email protected] Departamento de Estatı́stica e Investigação Operacional e CEAUL, Faculdade de Ciências da Universidade de Lisboa, [email protected] 3 Laboratório Nacional de Engenharia Civil, [email protected] 2 Resumo: Este trabalho consiste na aplicação de modelos bayesianos hierárquicos espaço-temporais a dados de acidentes rodoviários em Portugal, por concelho, de 2000 a 2007. Palavras–chave: Modelos bayesianos hierárquicos, segurança rodoviária, pequenas áreas Introdução Os dados de acidentes rodoviários em Portugal, por concelho, de 2000 a 2007, revelam valores baixos de contagem de ocorrências e até mesmo zeros. Para além disso, os concelhos não têm a mesma área geográfica, nem o mesmo número de habitantes, nem o mesmo número de veı́culos seguros, nem o mesmo número de quilómetros de estradas, o que acrescenta complexidade à análise dos dados. Neste trabalho iremos analisar estes dados usando modelos bayesianos hierárquicos espaço-temporais. Em particular, iremos usar modelos generalizados de Poisson com efeitos aleatórios espaciais e temporais. A utilização destes modelos permite captar a variabilidade das estimativas em pequenas áreas, revelar tendências e padrões espaciais e temporais e incorporar informação de covariáveis, [1], [4], [7], [8]. Com esta aplicação pretende-se alcançar dois objectivos distintos. Por um lado, a construção de mapas de risco, a fim de se obter estimativas do risco relativo para cada área, e, por outro lado, a análise da associação entre acidentes rodoviários e potenciais factores de risco, [2], [3], [6]. Para além dos objectivos referidos, com a aplicação destes modelos pretende-se também fazer a comparação entre os métodos MCMC, através do GeoBUGS do WinBUGS, e a integração aproximada de Laplace, através do programa INLA do R, [9], [10], [11]. Agradecimentos: Este trabalho é financiado por FCT/OE e por SFRH/PROTEC/49226/2008. Bibliografia [1] Aguero-Valverde, J. e Jovanis, P.P. (2006). Spatial analysis of fatal and injury crashes in Pennsylvania. Accident Analysis & Prevention, 38(3):618 – 625. SPE 2011 Mesa: Kamil Feridun Turkman 257 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 [2] Bernardinelli, L., Clayton, D., Pascutto, C., Montomoli, C., Ghislandi, M. e Songini, M. (1995). Bayesian analysis of space-time variation in disease risk. Statist. Med., 14(2122):2433–2443. [3] Besag, J., York, J., e Mollié, A. (1991). Bayesian image restoration, with two applications in spatial statistics. Annals of the Institute of Statistical Mathematics, 43:1–20. 10.1007/BF00116466. [4] Eksler, V. (2008). Exploring spatial structure behind the road mortality of regions in Europe. Applied Spatial Analysis, 1:133–150. [5] Ghosh, M., Natarajan, K., Waller, L.A. e Kim, D. (1999). Hierarchical Bayes GLMs for the analysis of spatial data: An application to disease mapping. Journal of Statistical Planning and Inference, 75(2):305 – 318. [6] Knorr-Held, L. (2000). Bayesian modelling of inseparable space-time variation in disease risk. Statistics In Medicine, 19(17-18):2555–2567. [7] MacNab, Y.C. (2004). Bayesian spatial and ecological models for small-area accident and injury analysis. Accident Analysis & Prevention, 36(6):1019 – 1028. [8] Miaou, S.-P., Song, J.J. e Mallick, B.K. (2003). Roadway traffic crash mapping: A space-time modeling approach. Journal of Transport Stat., 6:33–57. [9] Rue, H. e Martino, S. (2009). Approximate bayesian inference for latent gaussian models by using integrated nested laplace approximations. Journal of the Royal Statistical Society B, 71 (2):319–392. [10] Spiegelhalter, D.J., Thomas, A., e Best, N.G. (1999). WinBUGS Version 1.2 User Manual. Technical report, MRC Biostatistics Unit. [11] Thomas, A., Best, N., Lunn, D., Arnold, R. e Spiegelhalter, D. (2004). GeoBUGS User Manual Version 1.2. Technical report, Department of Epidemiology and Public Health of Imperial College at St Mary’s Hospital London. SPE 2011 Mesa: Kamil Feridun Turkman 258 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 Inferência bayesiana em modelos auto-regressivos de valores inteiros com limiares auto-induzidos Raquel Nicolette1 , Isabel Pereira1 e Manuel Scotto1 1 Universidade de Aveiro, CIDMA, {nicolette, isabel.pereira, mscotto}@ua.pt Resumo: Neste trabalho considera-se o modelo auto-regressivo de valores inteiros com limiares auto-induzidos, denotado por SETINAR (Self-Excited Threshold Integer-Valued Autoregressive), com inovações de Poisson. Considerando dois regimes, um dos objetivos consiste em estimar os parâmetros no modelo SETINAR (p1 ,p2 ;2) na perspectiva bayesiana, implementando o algoritmo de Monte Carlo baseado em cadeias de Markov. Seguidamente analisa-se o problema da seleção das ordens p1 e p2 dos processos auto-regressivos de cada um dos troços. Consequentemente é desenvolvido um método de Monte Carlo baseado em cadeias de Markov com saltos reversı́veis (RJMCMC) para permitir movimentos entre os processos SETINAR de diferentes ordens. Por fim, faz-se um estudo de simulação para comparar o desempenho das metodologias propostas para estimar os parâmetros e seleccionar as ordens. Palavras–chave: Algoritmo MCMC, modelo limiar, processo de contagem, saltos reversı́veis entre modelos Introdução Considerando modelos auto-regressivos de valores inteiros com médias móveis, INARMA(p,q), Neal e Subba Rao (2007) apresentaram um algoritmo eficiente de Monte Carlo via cadeias de Markov (MCMC) para estimar parâmetros numa abordagem bayesiana quando as ordens p e q são conhecidas e baseando-se numa ampliação de dados. Neste trabalho, considera-se a classe de modelos auto-regressivos de valores inteiros com dois regimes, designado por SETINAR (p1 ,p2 ;2), com inovações independentes e identicamente distribuı́das de uma distribuição de Poisson. Tendo por objetivo estimar as ordens p1 e p2 do modelo SETINAR é necessário que o algoritmo MCMC seja capaz de mover-se entre diferentes espaços de parâmetros. Green (1995) introduziu um algoritmo de Monte Carlo baseado em cadeias de Markov com saltos reversı́veis (do inglês Reversible Jump Monte Carlo Markov Chain), denotado por RJMCMC, que permite ao amostrador efetuar saltos entre os diferentes espaços e ainda manter a equação de equilı́brio por forma a garantir a irreversibilidade da cadeia. Note-se que este algoritmo é uma “variação” do algoritmo de Metropolis-Hastings (MH), através da inclusão do Jacobiano da transformação no cálculo da probabilidade de aceitação do algoritmo MH por forma a considerar a diferença existente na dimensão dos espaços paramétricos envolvidos no movimento. Têm sido apresentados na literatura alguns algoritmos eficientes para determinar ordens de séries temporais com estrutura auto-regressiva. Em particular, Enciso-Mora et al. (2007) sugeriram um algoritmo eficiente RJMCMC para determinar as ordens de um modelo INARMA(p, q), usando a metodologia da ampliação de dados. Neste trabalho, além de se estimarem os parâmetros segundo a perspetiva bayesiana, estende-se a SPE 2011 Mesa: Kamil Feridun Turkman 259 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 metodologia introduzida por Neal e Subba Rao (2007) e extendida por Enciso-Mora et al. (2007) para a determinação das ordens desconhecidas dos diferentes regimes do modelo SETINAR(p1 ,p2 ;2) proposto. Bibliografia [1] Enciso-Mora, V., Neal, P.J. e Subba Rao, T. (2007). Efficient order selection algorithms for integer-valued ARMA processes. Journal of Time Series Analysis, 30, 1–18. [2] Green, P. (1995). Reversible jump Markov chain Monte Carlo computation and Bayesian model determination. Biometrika, 82, 711–732. [3] Neal, P.J. e Subba Rao, T. (2007). MCMC for integer valued ARMA processes. Journal of Time Series Analysis, 28, 92–110. SPE 2011 Mesa: Kamil Feridun Turkman 260 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 Estatı́stica bayesiana no planeamento de recursos humanos Leonel Vicente1 e Kamil F. Turkman2 1 2 ESTG – Instituto Politécnico de Leiria/CEAUL, [email protected] DEIO – Faculdade de Ciências da Universidade de Lisboa/CEAUL, [email protected] Resumo: O planeamento de recursos humanos (PRH) tem sido tradicionalmente utilizado pelas organizações para garantir que dispõem do número certo de pessoas, no lugar e no tempo certo [3]. Do ponto de vista da metodologia estatı́stica, uma estrutura de recursos humanos (RH) pode ser descrita como um sistema dinâmico aleatório de stocks e fluxos. Uma das propriedades dos modelos de PRH que emerge como atraente para os decisores é a possibilidade de simular o comportamento do sistema no futuro, o que permite avaliar as consequências da adopção de certas polı́ticas ou estratégias. Uma grande variedade dos modelos estocásticos propostos podem ser classificados em dois tipos: modelos markovianos e modelos de renovamento [1]. Nestes modelos, em geral, o erro nas previsões não é quantificado sendo apenas estudada a dinâmica temporal dos valores esperados dos stocks e fluxos. Os modelos bayesianos hierárquicos e os métodos de inferência baseados na simulação são muito úteis para modelar e fazer inferência sobre sistemas estocásticos de elevada complexidade que envolvem dinâmicas temporais tal como sucede nos sistemas de recursos humanos. As inferências são efectuadas usualmente usando métodos dinâmicos de simulação, nomeadamente os métodos de Monte Carlo via cadeias de Markov [2, 4]. Nos últimos anos, muitas Instituições de Ensino Superior reduziram drasticamente as contratações de funcionários docentes e não docentes havendo mesmo algumas que praticamente congelaram as contratações. Esta forma de agir levou a uma redução óbvia do número total de funcionários com consequências difı́ceis de prever. A falta de um estudo sobre os cenários possı́veis para o futuro torna o planeamento difı́cil para as Instituições de Ensino Superior, fazendo com que a carreira docente e consequentemente a carreira não docente tenham perspectivas pouco definidas. Em [5] considerou-se os modelos markovianos e modelos de renovamento para obter predições para a evolução, em média, dos stocks e fluxos do sistema de RH da Faculdade de Ciências da Universidade de Lisboa (FCUL). Os sistemas de RH de Instituições de Ensino Superior podem ser caracterizados como processos de contagem multidimensionais. Para fazer inferências sobre a dinâmica temporal da estrutura de probabilidade desta cadeia de Markov multidimensional, esta cadeia é tratada como não homogénea e os fluxos, bem como os stocks, como processos aleatórios, captando a dinâmica temporal através de um modelo bayesiano hierárquico. A flexibilidade destes modelos e a capacidade do WinBUGS em ajustar uma gama considerável de modelos, permite obter predições pontuais e intervalos de credibilidade, a médio e a longo prazo, para os stocks das categorias, as promoções, os recrutamentos e as saı́das, considerando vários cenários. Adicionalmente, permite analisar as polı́ticas a ser implementadas de forma que a evolução dos RH seja a pretendida. A modelação, usando a abordagem bayesiana, foi aplicada à carreira docente da FCUL, podendo os procedimentos adoptados ser extendidos, com as devidas adaptações, à carreira não docente. Palavras–chave: PRH, modelos bayesianos hierárquicos, MCMC, WinBUGS, modelos markovianos Trabalho parcialmente financiado por FCT/PTDC/MAT/64353/2006 e FCT/POCI/2010. SPE 2011 Mesa: Kamil Feridun Turkman 261 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 Bibliografia [1] Bartholomew, D.J. e Forbes, A.F. (1991). Statistical techniques for manpower planning. John Wiley. [2] Gamerman, D. (1997). Markov Chain Monte Carlo: Stochastic Simulation for Bayesian Inference. Chapamn & Hall, London. [3] Jackson, S.E. e Schuler, R.S. (1990). Human resource planning: Challenges for industrial/organizational psychologists. American Psychologist, 45(2), 223-239. [4] Paulino, C.D., Turkman, M.A.A. e Murteira, B. (2003). Estatı́stica Bayesiana. Fundação Calouste Gulbenkian. [5] Vicente, L. e Turkman, K.F. (2008). Recursos Humanos da FCUL: Presente e Futuro. Notas e Comunicações do Centro de Estatı́stica e Aplicações da Universidade de Lisboa, 05/08. SPE 2011 Mesa: Kamil Feridun Turkman 262 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 Novas estruturas muldimensionais da TRI para consideração do efeito da ansiedade na proficiência do aluno em avaliações de larga escala Tufi Machado Soares, Neimar da Silva Fernandes e Sarah Martins Salomão Brodbeck CAED-UFJF, {tufi, neimar, sarah}@caed.ufjf.br Resumo: Este artigo se propõe a mostrar o efeito da ansiedade sobre o desempenho do aluno nos testes cognitivos. É sugerido um modelo multidimensional que simultaneamente considera no cálculo de proficiência, o nı́vel de ansiedade apresentado pelos alunos, tendo a medida de ansiedade extraı́da de um instrumento em separado. Foi constatado que a ansiedade realmente afeta a proficiência, e quando adequadamente modelada o seu efeito tende a diminuir. Palavras–chave: Teoria da Resposta ao Item, modelos multidimensionais, ansiedade Introdução O Brasil, desde 1992, vem utilizando avaliações em larga escala como forma de planejar, gerenciar e avaliar polı́ticas educacionais. Devido à necessidade de equalização, isso é, de comparação dos resultados obtidos a partir de diferentes formas de teste aplicadas ao longo das avaliações, utilizase a Teoria de Resposta ao Item (Lord et al [2]) para a correção dos testes (Klein [3]). Assim como diversos estados do Brasil, o estado de Minas Gerais tem seu programa de avaliação da Rede Pública. Conjuntamente com o teste cognitivo, são aplicados questionários que avaliam fatores associados à proficiência do aluno, como o Índice Sócio Econômico, a escolaridade dos pais, o ambiente em sala de aula, entre outros. No ano de 2009, juntamente com os testes de Lı́ngua Portuguesa e Matemática, foi aplicado um questionário com trinta e quatro assertivas, as quais os alunos deveriam responder através de uma escala de Likert de quatro nı́veis. Dentre essas assertivas, havia uma escala, extraı́da de um teste psicológico (Bandura et al [5]), com a finalidade de medir a ansiedade do aluno. Para mensurar tal constructo latente, foi utilizado o modelo de respostas graduadas da TRI de Samejima (Samejima [4]), muito adequado para a aplicação em itens politômicos. A fim de se realizar comparações, a escala de ansiedade foi dividida em três faixas com base nos quartis, sendo essas: ansiedade baixa, média e alta. Desta avaliação, feita no 5◦ ano de escolaridade, participaram mais de 500.000 alunos respondido à diversos testes que eram constituı́dos, ao todo, 169 itens. Uma série de estudos aponta para uma relação entre o desempenho do aluno no teste e seu nı́vel de ansiedade (Bandura [5]). Pode-se constatar empiricamente que o aluno mais ansioso tende a ter uma proficiência menor. Modelos de Regressão Hierárquica Multinı́vel (Lee [1]) realizados com a base da avaliação revelaram que a um aumento da ansiedade do aluno está associado uma menor proficiência, gerando, portanto, a necessidade de um estudo mais aprofundado acerca da relação entre o desempenho do aluno no teste e seu nı́vel de ansiedade.A seguinte pergunta necessita ser respondida nesta etapa de estudo: a ansiedade afeta o desempenho como um todo ou há um SPE 2011 Mesa: Kamil Feridun Turkman 263 Sábado, 01/10/2011 Estatı́stica Bayesiana Sala Caminho Real, 09:00–10:20 subconjunto de itens mais afetados pela ansiedade do aluno? Sabe-se que alguns itens podem apresentar comportamento diferente para determinados subgrupos dentro de uma população. Este fenômeno é denominado DIF (Differential Item Functioning) (Soares [6]). Uma análise de DIF preliminar, baseada no método de Mantel-Haenszel, diagnosticou que alguns itens da Avaliação se comportaram diferentemente para grupos de alunos com diferentes nı́veis de ansiedade. Essa análise mostrou, também, que esse DIF provavelmente é influenciado pela maior dificuldade da questão e por sua posição no teste. Dessa forma, este trabalho propõe um modelo de Teoria de Resposta ao Item que leva em consideração o impacto do nı́vel de ansiedade do aluno. O modelo proposto consiste em uma estrutura multidimensional não compensatória para acomodar o efeito da ansiedade. Assim, a função de ligação da resposta do item com a proficiência (ICC) sofreu o acréscimo de mais parâmetros, segundo uma estrutura multidimensional, além dos três tradicionais da TRI (o parâmetro de discriminação (a), parâmetro de dificuldade (b) e parâmetro relacionado ao acerto ao acaso (c)). A fim de se estimar esta estrutura, foram utilizadas técnicas de MCMC (Gamerman [7]) utilizandose as priores tradicionais para os parâmetros a, b e c: lognormal para o parâmetro a, normal para o parâmetro b e beta para o parâmetro c. Quanto aos novos parâmetros propostos no modelo, foi feito um estudo da eficácia de diversas priores. Para a realização dessas estimativas, utilizou-se o software livre de estatı́stica bayesiana WinBUGS. Esse programa, a partir do modelo proposto, das priores e dos dados, realiza a estimativa dos parâmetros pelo método do algoritmo de Gibbs. Nesse presente trabalho, foram consideradas 40.000 iterações, utilizando-se das 10.000 últimas com intervalos de amostragem de 5, restando 2000 elementos na amostra para análise e inferência. Bibliografia [1] Lee, V.L. (2001). What are multilevel questions, and how might we explore them with quantitative methods? Estudos em Avaliação Educacional, 24, 31–68. [2] Lord, F. (1980). Applications of item response theory to practical testing problems. Hillsdale: Lawrence Erlbaum. [3] Klein, R. (1997). Indicadores educacionais e disparidades regionais e socioeconômicas no Brasil. Em H. Bomeny (Org.), Avaliação e determinação de padrões na educação latinoamericana, 47–86, Rio de Janeiro: Fundação Getúlio Vargas. [4] Samejima, F.A. Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, n. 17. [5] Bandura, A., Schwarzer, R. e Wicklund,R. (1991). Anxiety and self-focused attention, 89–110. New York: Harwood. [6] Soares, T.M., Gamerman, D. e Gonsalves, F.B. (2007). Análise Bayesiana do Funcionamento Diferencial do Item. Pesquisa Operacional, v 27, n. 2, 271–291. [7] Gamerman, D. (1997). Markhov Chain Monte Carlo: Stochastic Simulation. Chapman & Hall, pp119–189. New York. SPE 2011 Mesa: Kamil Feridun Turkman 264 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 O estimador de Aalen-Johansen pré-suavizado Ana Moreira1 e Luı́s Machado1 1 Universidade do Minho, Dep. Matemática e Aplicações, {id2809,lmachado}@alunos.uminho.pt Resumo: Em estudos longitudinais médicos, os doentes podem experimentar vários eventos num determinado perı́odo de acompanhamento. A análise destes estudos pode ser realizada com sucesso pelos modelos multiestado. A análise de sobrevivência pode ser descrita pelo processo de Markov com dois estados, ’vivo’ e ’morto’ e uma única transição entre eles. Em alguns estudos, o estado representando os pacientes ’vivos’ pode ser subdividido em dois ou mais estados intermédios, cada um correspondendo a um estado particular no desenvolvimento normal da doença. Um desses modelos é o modelo de doença-morte (illness-death) que é totalmente caracterizado por três estados e três transições entre eles. Um dos objectivos principais em aplicações clı́nicas de modelos de multiestados é a estimação de probabilidades de transição. Estas quantidades têm proporcionado um crescente interesse pois elas permitem efectuar previsões a longo prazo do processo. Aalen e Johansen (1978) introduziram um estimador não paramétrico das probabilidades de transição para os modelos Markovianos. Neste trabalho, apresentamos novas contribuições para este tópico e investigamos o desempenho dos vários estimadores através de estudos de simulação, comparando os novos métodos com os concorrentes. As metodologias propostas são ilustradas recorrendo a dados reais. Palavras–chave: Kaplan-Meier, modelos multiestado, pré-suavização, probabilidades de transição Agradecimentos: Os autores agradecem a recepção de apoio financeiro do Ministério Português da Ciência, Tecnologia e Ensino Superior sob a forma de subvenções PTDC/MAT/104879/2008 e SFRH/BD/62284/2009. A investigação também foi parcialmente financiada pela FCT e CMAT sob o programa POCI 2010. Bibliografia [1] Aalen, O. (1978). Nonparametric estimation of partial transition probabilities in multiple decrement models. Annals of Statistics, 6, 534–545. [2] Dikta, G. (1998). On semiparametric random censorship models. Journal of Statistical Planning and Inference, 66, 253–279. [3] Meira Machado, L., de Uña-Álvarez, J. e Cadarso-Suárez, C. (2006). Nonparametric estimation of transition probabilities in a non-Markov illness-death model. Lifetime Data Analysis, 12, 325–344. SPE 2011 Mesa: Isabel Natário 265 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 Estratégia de verificação de cadáveres de aves em testes de remoção nos estudos de monitorização de parques eólicos Regina Bispo1 , Joana Bernardino2 e Tiago A. Marques3 1 Departamento de Estatı́stica, ISPA - IU, Departamento de Estatı́stica e Investigação Operacional, FCUL e Centro de Aplicações e Estatı́stica da Universidade de Lisboa, [email protected] 2 Bio3 - Estudos e Projectos em Biologia e Valorização de Recursos Naturais, [email protected] 3 Center for Research into Ecological and Environmental Modeling, Scotland UK e Centro de Aplicações e Estatı́stica da Universidade de Lisboa, [email protected] Resumo: Uma questão central no âmbito dos estudos de monitorização de parques eólicos prendese com a quantificação da mortalidade de aves e quirópteros causada por colisão com os aerogeradores. Tal quantificação implica a realização de testes de remoção de cadáveres que visam estimar a taxa de permanência das aves mortas em campo para efeitos de “correcção”, da mortalidade observada. Dadas as frequentes limitações financeiras torna-se necessário desenvolver metodologias que minimizem os custos associados à monitorização mas que não comprometam a fiabilidade da estimação da probabilidade de permanência das aves mortas em campo. No contexto da realização dos testes de remoção, os custos associados ao processo dependem da estratégia experimental usada, nomeadamente, no que diz respeito ao número de deslocações ao parque e ao perı́odo de tempo máximo de realização dos testes. Neste estudo apresentam-se os resultados relativos à avaliação do impacto das diferentes estratégias experimentais na estimação dos parâmetros dos modelos de sobrevivência paramétricos ajustados aos tempos de remoção e na estimação da taxa de permanência de cadáveres de aves nos parques eólicos. O estudo conclui com a formulação de recomendações relativas à estratégia de verificação de cadáveres de aves a adoptar em futuros planos de monitorização de parques eólicos. Palavras–chave: Análise de sobrevivência, modelação paramétrica, parques eólicos Introdução No processo de quantificação da mortalidade de aves e quirópteros causada por colisão com os aerogeradores em parques eólicos é amplamente reconhecido que a mortalidade observada pode diferir substancialmente da mortalidade real, nomeadamente, porque os cadáveres podem ser removidos por predadores e/ou por decomposição. No âmbito dos planos de monitorização em parques eólicos está, por isso, contemplada a realização de testes de remoção que visam estimar a taxa de permanência das aves mortas em campo para efeitos de “correção” da mortalidade observada. Dados os custos, frequentemente avultados, associados aos processos de monitorização torna-se necessário adoptar metodologias experimentais eficientes, que permitam minimizar os custos associados à monitorização sem, no entanto, comprometer a fiabilidade dos resultados. Neste estudo foram analisadas diferentes estratégias experimentais de condução dos testes de remoção. A definição das estratégias de verificação da remoção de cadáveres de aves teve por base modelos SPE 2011 Mesa: Isabel Natário 267 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 de sobrevivência paramétricos ajustados aos tempos de remoção observados em parques eólicos nacionais [2]. Foi tido em conta que no processo de remoção de cadáveres de aves, a função hazard é tipicamente uma função monótona decrescente ou unimodal com assimetria positiva marcada, com maiores taxas de remoção na fase inicial (após a chegada do cadáver ao solo) e menores taxas de remoção numa fase avançada (depois de decorrido algum tempo após a chegada do cadáver ao solo). Por outro lado, atendeu-se ao facto da taxa de decaimento da função de sobrevivência (velocidade de remoção) poder variar marcadamente (e.g. diferentes velocidades de remoção para aves de pequeno e grande porte). Em situações onde a velocidade de remoção é elevada, porque a função de sobrevivência rapidamente atinge a respectiva assimptota horizontal, é esperado que o processo de verificação possa ser encurtado mas que os intervalos entre verificações não possam ser aumentados, sem que se comprometa a fiabilidade dos resultados. Pelo contrário, em situações onde o decaimento da função de sobrevivência é lento, pode ser necessário aumentar o tempo máximo de verificação de cadáveres compensando esse aumento com uma diminuição do número de deslocações ao parque, por aumento do espaçamento entre verificações, para controlar os custos financeiros e não comprometer a qualidade dos resultados. Assim, as estratégias de verificação consideradas foram definidas por variação do tempo máximo de verificação da remoção [1, 5, 3] e variação dos intervalos entre verificações (espaçamentos constantes e irregulares) [4]. As estratégias experimentais foram analisadas em função do seu impacto nos parâmetros dos modelos de sobrevivência paramétricos ajustados aos tempos de remoção e na estimação da taxa de permanência de cadáveres de aves. Conclui-se formulando recomendações relativas à estratégia de verificação de cadáveres de aves a adoptar em testes de remoção futuros. Agradecimentos: O presente estudo foi realizado em colaboração com a empresa Bio3 - Estudos e Projectos em Biologia e Valorização de Recursos Naturais, Lda. Bibliografia [1] Bernardino, J., Bispo, R., Torres, P., Mascarenhas, M. Costa, H. M. e Rebelo, R. (2009). Enhancing of carcass removal trials at three wind energy facilities in Portugal. Wildlife Biology in Practice (in press) [2] Bispo, R., Bernardino, J., Marques, T.A. e Pestana, D. (2010). Modeling carcass removal time and estimation of a scavenging correction factor for avian mortality assessment in wind farms using parametric survival analysis, 10/10, Notas e Comunicações do CEAUL. [3] Brown, W.K. e Hamilton, B.L. (2006). Monitoring of bird and bat collisions with wind turbines at the Summerview Wind Power Project, Alberta. Terrestrial & Aquatic Environmental Managers ltd. [4] Erickson, W., Johnson, G., Strickland, M.D. e Kronner, K. (2000). Avian and bat mortality associated with the Vansycle Wind Project. Umatilla County, Oregon. Western EcoSystems Technology, Inc. [5] Higgins, K.F., Osborn, R.G. e Naugle, D.E. (2007). Effects of wind turbines on birds and bats in Southwestern Minnessota, USA. Em Birds and wind farms (Lucas, M., Janss, G.F.E. and Ferrer, M., eds), 153–175, Servicios Informativos Ambientales/Quercus, Madrid, Spain. SPE 2011 Mesa: Isabel Natário 268 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 Análise da duração dos internamentos por VIH/SIDA através de um modelo hierárquico de misturas finitas Sara Simões Dias1 , Valeska Andreozzi2 e Rosário Oliveira Martins3 1 Departamento Universitário de Saúde Pública, Faculdade de Ciências Médicas, Universidade Nova de Lisboa & Instituto Superior de Estatı́stica e Gestão de Informação, Universidade Nova de Lisboa, [email protected] 2 Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] 3 Unidade de Parasitologia e Microbiologia Médicas, Instituto de Higiene e Medicina Tropical, Universidade Nova de Lisboa, [email protected] Resumo: Neste estudo propõe-se identificar factores associados à duração dos internamentos por VIH/SIDA através de um modelo hierárquico de misturas. Palavras–chave: Modelo hierárquico de misturas, duração do internamento Introdução A duração dos internamentos dos doentes é uma medida importante de actividade hospitalar, mas a sua distribuição empı́rica é, com frequência muito assimétrica. Recentemente, vários modelos foram propostos para modelar a duração dos internamentos, já que estes têm implicações importantes nos estudos sobre cuidados de saúde. Leung et al. (1998) para atingirem a normalidade modelaram o logaritmo da duração dos internamentos através de um modelo de regressão linear, contudo não tiveram em conta a heterogeneidade da duração dos internamentos. O presente trabalho tem como objectivo preencher esta lacuna e para além disso tem em conta a natureza hierárquica dos dados. Métodos Dados Os dados foram fornecidos pela Administração Central dos Serviços de Saúde (ACSS) e constitutem a base nacional portuguesa dos grupos de diagnóstico homogéneo (GDH). Neste trabalho analisaram-se os dados de duração dos internamentos de adultos ocorridos em 2008 por VIH/SIDA referente ao GDH 714 (VIH com condição significativa associada), que representa um volume de dias de internamento elevado, tendo um grande impacto no orçamento e financiamento dos hospitais públicos. *Modelo Modelou-se a distribuição da duração dos internamentos em escala logaritmica, tendo por base a mistura de duas distribuições normais. Tendo em conta que os internamentos dentro do mesmo hospital são geralmente correlacionadas, aplicou-se um modelo hierárquico de misturas com efeitos aleatórios. Para o modelo hierárquico de misturas seja Yi j (i = 1,...,m, j = 1,...,ni ) o logaritmo da duração dos internamentos para o j-ésimo indivı́duo no i-ésimo hospital, onde m é o número de SPE 2011 Mesa: Isabel Natário 269 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 hospitais e ni é o número de internamentos que ocorrem no hospital i. Um modelo hierárquico de misturas finitas para a densidade de probabilidade de Y , assume a seguinte forma (McLachlan e Basford, 1988): c f (yi j |x j ,Θk ) = ∑ πk fk (yi j |x j ,βk ,φk ), (1) i=1 onde πk é a proporção de doentes pertencentes à k-ésima componente, c é o número de componentes, e fk descreve a k-ésima distribuição de componentes com um vector de parâmetros Θk . O modelo é estimado pelo método de máxima verosimilhança baseado no algoritmo EM. Para determinar o número adequado de componentes, a mistura é ajustada com diferentes números de componentes e utilizaram-se os critérios de informaçãoo AIC e BIC para seleccionar o modelo mais apropriado. Para estimar os modelos utilizou-se a library flexmix (Grun e Leisch, 2007) do software R. Resultados Foi seleccionado o modelo com mistura de duas componentes. Os pesos estimados das componentes, π̂g , foram 0.44 e 0.56. O modelo ajustado sugere que o efeito de algumas covariáveis varia entre componentes. Dos 23 hospitais analisados, existe um hospital cujos efeitos aleatórios de ambas as componentes são significativamente abaixo de zero, sendo este o hospital mais eficiente; e existem três hospitais que apresentam os efeitos aleatórios das duas componentes significativamente maiores que zero, estes hospitais prolongam a duração do internamento. Conclusões A mistura de duas componentes parece ser uma alternativa adequada para analisar dados de duração de internamento. A vantagem desta abordagem sobre o modelo de regressão linear apoia-se no facto de que diferentes covariáveis influenciam o grupo de doentes de curta e longa duração de forma distinta. Além disso, teve-se em conta a natureza hierárquica dos dados, fornecendo inferências correctas sobre os coeficientes de regressão (β ). Para futuros desenvolvimentos serão testados modelos de mistura de outras distribuições com estrutura hierárquica. Bibliografia [1] Grun, B. e Leisch, F. (2007). Fitting finite mixtures of generalizaed linear regressions in R. Computational Statistics & Data Analysis. 51(11), 5247–5252. [2] Leung, K.M., Elashoff, R.M., Rees, K.S., Hasan, M.M. e Legorreta, A.P. (1998). Hospital- and Patient-Related Characteristics Determining Maternity Length of Stay: A Hierarchical Linear Model Approach. American Journal of Public Health, 88 (3), 377–381. [3] McLachlan, G.J. e Basford, K.E. (1988). Mixture Models. Inference and applications to clustering. Marcel Dekker, New York. SPE 2011 Mesa: Isabel Natário 270 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 Imputação múltipla - Uma aplicação ao tratamento de dados omissos em análise de sobrevivência de doentes oncológicos Luı́s Antunes1 , Maria José Bento1 e Denisa Mendonça2 1 RORENO - Registo Oncológico Regional do Norte, {luis.antunes, mjbento}@ipoporto.minsaude.pt 2 ICBAS/ISPUP - Universidade do Porto, [email protected] Resumo: A existência de informação incompleta é um problema comum em muitos estudos na área da saúde. A forma mais comum de lidar com a ocorrência de dados omissos consiste em não considerar na análise os registos com informação incompleta. Esta restrição na análise pode levar a inferências com diferenças substanciais daquelas que seriam obtidas se não houvesse dados omissos. A imputação múltipla tem sido uma das formas de lidar com dados omissos no pressuposto que os dados em falta dependam apenas de informação observada. Neste trabalho apresenta-se uma aplicação da imputação múltipla a um problema de análise de sobrevivência de doentes com cancro do pulmão. Palavras–chave: Imputação múltipla, análise de sobrevivência, cancro do pulmão Introdução A existência de variáveis com informação incompleta é um problema recorrente em registos oncológicos de base populacional. A extensão da doença à data de diagnóstico, factor de prognóstico de maior importância, é uma variável para a qual a percentagem de casos sem informação tende a ser elevada. Numa análise de sobrevivência, a consideração apenas dos casos para os quais existe informação completa, pode introduzir enviesamentos nas conclusões que se retiram dessa mesma análise, especialmente se o mecanismo de omissão não for completamente aleatório. No pressuposto de que a falta de informação depende apenas de informação observada, a imputação múltipla é uma das formas propostas para lidar com este problema em estudos de sobrevivência com informação incompleta nas covariáveis [2]. Métodos Aplicou-se a imputação múltipla por equações em cadeia [3] para gerar as observações das variáveis em falta, iterativamente, a partir da distribuição de cada uma dessas variáveis condicionada aos dados observados para outras variáveis. Vários conjuntos de dados completados foram gerados. Para cada um destes conjuntos foi ajustado um modelo de sobrevivência relativa. Neste modelo, com estrutura de modelo linear generalizado com erro de Poisson, considera-se que o risco de morte de cada paciente resulta da soma de duas componentes: uma relacionada com o risco esperado (estimado a partir de tábuas de mortalidade para a população em geral) e uma componente de excesso de risco relacionado com a doença [1]. O resultado do modelo são estimativas para razões de excesso de risco para cada covariável, ajustadas para as restantes. Os resultados obtidos para cada conjunto SPE 2011 Mesa: Isabel Natário 271 Sábado, 01/10/2011 Análise de Sobrevivência Sala Atlântico, 09:00–10:20 completado são combinados para produzir as estimativas finais. Na variância final das estimativas dos coeficientes do modelo, é tida em conta a incerteza associada aos valores estimados no processo de imputação [2]. Aplicação Pretendeu-se estudar os factores de prognóstico mais importantes na sobrevivência de doentes de cancro do pulmão. Consideraram-se os pacientes diagnosticados no perı́odo 2000 a 2006, com idade igual ou superior a 15 anos, residentes na região Norte de Portugal à data de diagnóstico e registados no RORENO (Registo Oncológico Regional do Norte). O estadio da doença à data do diagnóstico não era conhecido em cerca de metade dos casos e a morfologia do tumor encontrava-se mal especificada em cerca de 26% dos casos. Neste trabalho, apresentam-se os resultados obtidos na modelação da sobrevivência, tendo sido usada a imputação múltipla para completar a informação nas covariáveis com informação em falta. Variáveis como estado vital, tempo de sobrevivência, idade, sexo, fonte de informação, ano de diagnóstico, base de diagnóstico, entre outras, foram usadas nos modelos de imputação. Foi efectuada uma análise comparativa entre os resultados obtidos e aqueles que se obtiveram usando apenas os casos completos. Bibliografia [1] Dickman, P.W., Sloggett, A., Hills, M. e Hakulinen, T (2004). Regression models for relative survival. Statistics in Medicine, 23, 51-64. [2] Nur, U., Shack, L.G., Rachet, B., Carpenter, J.R. e Coleman, M.P. (2010). Modelling relative survival in the presence of incomplete data: a tutorial. Int. J. Epidemiol, 39(1), 118-28. [3] Van Buuren, S., Boshuizen, H.C. e Knook, D.L. (1999). Multiple Imputation of missing blood pressure covariates in survival analysis. Statist. Med., 18, 681-694. SPE 2011 Mesa: Isabel Natário 272 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Factores de risco para a ocorrência de enfartes múltiplos decorrentes de uma sı́ndrome coronária aguda Adriana Belo1 , Cristina Rocha2 e Pedro Monteiro3 1 Faculdade de Ciências da Universidade de Lisboa - DEIO, [email protected] Faculdade de Ciências da Universidade de Lisboa - CEAUL, [email protected] 3 Hospitais da Universidade de Coimbra, [email protected] 2 Resumo: O enfarte agudo do miocárdio (EAM) constitui actualmente uma das principais causas de morte nos paı́ses desenvolvidos. O enfarte resulta geralmente da lesão do músculo cardı́aco por obstrução de uma artéria coronária e consequente privação de oxigénio e nutrientes. O prognóstico é favorecido por uma menor área de enfarte e uma maior rapidez na obtenção de tratamento adequado. O acompanhamento do doente é fundamental para evitar complicações potencialmente mortais. O tempo médio de internamento de um enfarte não complicado é de 5 a 7 dias. Este perı́odo é importante para proporcionar um tratamento eficaz que apenas pode ser conseguido em ambiente hospitalar. Após a alta, a mudança do estilo de vida e uma medicação adequada são importantes para evitar a ocorrência de morte ou novo enfarte. Neste estudo observacional prospectivo foram incluı́dos 378 doentes admitidos na Unidade de Cuidados Intensivos de Cardiologia dos Hospitais da Universidade de Coimbra, entre janeiro de 2004 e dezembro de 2006, com diagnóstico de sı́ndrome coronária aguda (EAM e Angina Instável). Para cada doente foi recolhida informação referente aos dados demográficos, antecedentes cardiovasculares, factores de risco cardiovascular, medicação anterior ao internamento, parâmetros laboratoriais, tratamento intra-hospitalar, medicação administrada durante o internamento e complicações intra-hospitalares. Após a alta os doentes foram seguidos durante um perı́odo de 5 anos a fim de determinar a ocorrência de complicações tais como, novo enfarte, morte, acidente vascular cerebral e insuficiência cardı́aca. Este trabalho tem como objectivo a modelação do tempo até à ocorrência de múltiplos enfartes como complicações de uma sı́ndrome coronária aguda e a determinação dos seus factores de risco. Podendo existir, neste caso, várias ocorrências do mesmo acontecimento (EAM) para o mesmo indivı́duo, a utilização do modelo de Cox não é adequada. De entre diversos modelos de sobrevivência para acontecimentos múltiplos, optou-se por considerar o modelo de regressão PWP desenvolvido por Prentice, Williams e Peterson (1981) para a avaliação da influência dos diversos factores no tempo de sobrevivência dos indivı́duos. Este modelo revelou-se o mais adequado nesta situação de acontecimentos ordenados com risco condicional, uma vez que o risco de sofrer cada novo enfarte é diferente do risco associado ao enfarte anterior, sendo assumido que o doente apenas está em risco de sofrer o enfarte de ordem k quando já sofreu o enfarte de ordem k-1. Palavras–chave: Análise de sobrevivência, acontecimentos múltiplos, modelo PWP SPE 2011 273 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Bibliografia [1] Prentice, R.L., Williams, J. e Peterson, A.V. (1981). On the regression analysis of multivariate failure time data. Biometrika, 68, 373–379. SPE 2011 274 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Aplicação do algoritmo EM na modelação da sobrevivência relativa de doentes oncológicos Daniela Cunha1 , Luı́s Antunes2 , Maria José Bento2 e Luı́s Machado1 1 Escola de Ciências - Universidade do Minho, fifida [email protected], [email protected] RORENO - Registo Oncológico Regional do Norte, {luis.antunes, mjbento}@ipoporto.min-saude.pt 2 Resumo: Na modelação da sobrevivência relativa é normalmente considerado um modelo de riscos aditivo. Considera-se que o risco de morte de cada indivı́duo é a soma de duas componentes: o risco relacionado com a sua idade e sexo, obtido a partir das tábuas de mortalidade populacionais, e o excesso de risco atribuı́vel à doença em estudo. A estimação do modelo tem sido efectuada no âmbito dos modelos lineares generalizados ou por maximização directa da verosimilhança. Perme et al. [2] propuseram um procedimento alternativo baseado no algoritmo EM. Contrariamente aos métodos usuais, neste procedimento nenhuma forma paramétrica é assumida para a função de excesso de risco de referência. Com este trabalho pretendeu-se comparar os resultados da aplicação das diferentes abordagens na modelação da sobrevivência de doentes com cancro do pulmão e da mama. Palavras–chave: Sobrevivência relativa, algoritmo EM, cancro Introdução O uso da sobrevivência por causa especı́fica em estudos de base populacional de sobrevivência de doentes de cancro é limitado pelo desconhecimento, para a maioria dos casos, da causa de morte. O uso da sobrevivência relativa tem como objectivo resolver esse desconhecimento, comparando a sobrevivência observada na coorte de doentes, com aquela que se esperaria encontrar num grupo de indivı́duos com as mesmas caracterı́sticas, mas livres da doença. Os modelos de regressão usualmente empregues neste contexto, consideram que o risco de morte de cada indivı́duo resulta da soma de duas componentes, nomeadamente, o risco da população em geral e uma componente de excesso de risco causado pela doença. A primeira componente é estimada a partir das tábuas de mortalidade e a segunda é modelada como função de um conjunto de covariáveis de interesse, considerando normalmente, riscos proporcionais com uma função de excesso de risco de referência modelada parametricamente [1]. Recentemente, foi proposta [2] uma forma não paramétrica de estimar esta linha de base, permitindo evitar problemas inerentes à má especificação da forma desta função. Métodos Designando por SO (t) e SP (t) as funções de sobrevivência observada e da população, respectivamente, a sobrevivência relativa é definida como sendo o quociente das duas funções SR (t) = SPE 2011 275 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 SO (t)/SP (t). Considerando a relação entre a função de risco e a função de sobrevivência: Zt S(t) = exp − λ (u)du , (1) 0 o modelo de sobrevivência relativa pressupõe um modelo de riscos aditivo, em que λO = λP + λE . λO representa o risco observado, λP o risco da população e λE , o excesso de risco atribuı́vel à doença. O excesso de risco é modelado como função de um vector de covariáveis de interesse Z: λE (t,Z) = λ0 (t)eβ Z , (2) em que λ0 (t) representa a função excesso de risco de referência. Esta é, usualmente, considerada como sendo constante em intervalos de tempo pré-especificados, ou outras funções paramétricas. No método proposto por Perme et al. [2], nenhum pressuposto é necessário relativamente à forma desta função. O método generaliza o modelo de Cox, tratando a causa de morte como dado omisso. No algoritmo, esta é estimada conjuntamente com os parâmetros do modelo. Todos os cálculos foram efectuados usando o software R. Para a modelação da sobreviência, foi utilizada a package relsurv descrita em [3]. Aplicação Neste trabalho, pretendeu-se comparar as estimativas das razões de excesso de risco num modelo de riscos aditivos, considerando diferentes formas de estimar o modelo: máxima verosimilhança e algoritmo EM, como proposto por Perme et al. [2]. Foram analisados dois conjuntos de dados, ambos disponibilizados pelo RORENO (Registo Oncológico Regional do Norte). Correspondem a doentes diagnosticados com cancro de pulmão e mulheres diagnosticadas com cancro da mama, no perı́odo 2000 a 2006, com idade igual ou superior a 15 anos, residentes na região Norte de Portugal à data de diagnóstico. Escolheram-se dois tumores com padrões de sobrevivência muito distintos. Enquanto no caso dos tumores do pulmão a sobrevivência é muito reduzida (sobrevivência relativa a 5 anos de cerca de 11%), os tumores da mama têm uma sobrevivência bastante elevada (cerca de 85%). Bibliografia [1] Dickman, P.W., Sloggett, A., Hills, M. e Hakulinen, T. (2004). Regression models for relative survival. Statistics in Medicine, 23, 51-64. [2] Perme, M.P., Henderson, R. e Stare, J. (2009). An approach to estimation in relative survival regression. Biostatistics, 10, 136-146. [3] Pohar, M. e Stare, J. (2006). Relative survival in R. Computer Methods and Programs in Biomedicine, 81, 272-278. SPE 2011 276 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Modelo logı́stico de detecção de quedas Filipe Felisberto1 , Miguel Felgueiras2 , António Pereira3 e Alexandra Seco4 1 CIIC do Instituto Politécnico de Leiria, [email protected] CEAUL e CIIC do Instituto Politécnico de Leiria, [email protected] 3 INOV e CIIC do Instituto Politécnico de Leiria, [email protected] 4 ESTG do Instituto Politécnico de Leiria, [email protected] 2 Resumo: Estudo da aplicação de Regressão Logı́stica para minimizar os falsos positivos, inerentes à utilização de acelerómetros, na detecção de quedas em idosos. Palavras–chave: regressão logı́stica, detecção de quedas, redes de sensores sem fios, envelhecimento Introdução As quedas são a principal causa de hospitalização e morte em pessoas com mais de 65 anos. Procurando obviar este problema, o nosso grupo de investigação tem vindo a desenvolver um sistema de detecção de quedas, através da utilização da Rede de Sensores Sem Fios [3]. Algumas Noções sobre Detecção de Quedas Qualquer modelo de detecção de quedas deve atender quer a questões de sensibilidade, quer a questões de especificidade. Naturalmente que um sistema que não detecte correctamente quedas é ineficaz, mas é igualmente importante que este distinga acções do dia-a-dia similares a quedas de verdadeiras quedas. Falsos positivos são altamente nefastos para o sistema já que destroem a credibilidade do mesmo, para além de ocuparem recursos que podem ser necessários para um problema real. Numa primeira análise [2], ficou claro que recorrer apenas a dados não tratados de aceleração, forma tradicional de abordar este problema, não seria suficiente para distinguir correctamente uma queda de outras actividades do dia-a-dia de aceleração similar, como o acto de sentar mais violento. A solução que apresenta melhores resultados [1], baseia-se em utilizar sensores externos para realizar um estudo continuo do movimento do idoso. O problema advém do facto dos sensores externos limitarem o sistema a uma área de utilização muito restrita. Ao utilizarmos sensores internos (acelerómetros) na nossa abordagem, temos a vantagem de não restringir a movimentação do utilizador. Ainda assim, novos problemas emergem, pois por questões de energia e erro não é possı́vel realizar uma análise contı́nua do movimento. Modelo Proposto Para testar a solução por nós proposta, que recorre a um acelerómetro no processo de detecção de quedas, foi realizado um conjunto de simulações. Destas, 150 foram simulações de quedas e 110 simulações do acto de sentar bruscamente. Caso se utilizasse o modelo tradicional de classificação ajustado aos dados, o qual apenas recorre a um limiar da aceleração resultante para destinguir um queda de um acto do dia-a-dia, 92 das simulações de sentar seriam consideradas como quedas, SPE 2011 277 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 originando uma precisão de apenas 16%. Isto pois várias simulações do acto de sentar têm uma aceleração observada superior a simulações de quedas. Recorrendo à análise dos dados através da Regressão Logı́stica [4] e utilizando apenas os valores da aceleração resultante, conseguiu-se obter uma redução do número de falsos positivos, passando estes de 84% para 55%. Mas por outro lado, 27% das quedas passaram a ser detectadas como actos de sentar. Decidiu-se então passar a utilizar também os valores de aceleração de cada eixo. Com as novas covariáveis a precisão passou a ser superior a 90%, tanto na detecção de quedas como na distinção dos actos de sentar. Por outro lado, 5,5% de quedas ficam por detectar, o que continua a ser um valor muito elevado. Decidimos então recorrer ao estudo da diferença em valores beta (DfBeta) e após um processo iterativo, foram detectados um total de 6 valores influentes. Já sem estes valores, a precisão passou a ser de aproximadamente 99% na detecção de quedas e obtivemos apenas 3% de falsos positivos. Resultados finais Assim, para a matriz de valores contendo a aceleração de cada eixo e a aceleração resultante (X,Y,Z,Acel), obtemos a seguinte a função logit, onde π̂ representa o estimador da probabilidade de queda π̂ ln = 5.479 + 11.905X + 12.622Y + 4.081Z + 21.556Ace, (1) 1 − π̂ sendo a probabilidade de ocorrer uma queda estimada por π̂ = e11.905X+12.622Y +4.081Z+21.556Acel . 0.0041735 + e11.905X+12.622Y +4.081Z+21.556Acel (2) Bibliografia [1] Bourke, A.K., O’Donovan, K.J., Nelson, J. e OLaighin, G.M. (2008). Fall-detection through vertical velocity thresholding using a tri-axial accelerometer characterized using an optical motion-capture system, Engineering in Medicine and Biology Society, 2832 -2835. [2] Felisberto, F., Moreira, N., Marcelino, I., Fdez-Riverola, F. e Pereira, A. (2011). Elder Care’s Fall Detection System, Proceedings of the PAAMS11 - 9th International Conference on Practical Applications of Agents and Multi-Agent Systems, España. [3] Marcelino, I., Barroso, J., Bulas Cruz, J. e Pereira, A. (2008). Elder Care Architecture, Proceedings of the 2008 Third International Conference on Systems and Networks Communications, 349-354. [4] Seco, A., Felgueiras, M., Fdez-Riverola, F. e Pereira, A. (2011). Elder Care Alert Management-Decision Support by a Logistic Regression Model, Trends in Practical Applications of Agents and Multiagent Systems, 9–16. SPE 2011 278 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Processo das excedências para sistemas dinâmicos Ana Cristina Moreira Freitas CMUP & FEP, [email protected] Resumo: Neste trabalho reformulamos as condições usuais que nos permitem concluir que o processo das excedências, quando propriamente normalizado, converge em distribuição para um processo de Poisson. Essencialmente, enfraquecemos a condição de mistura de forma a que, no contexto dos sistemas dinâmicos, decorra do decaimento de correlações. Palavras–chave: Teoria de valores extremos, processo de excedências, sistemas dinâmicos Leis de valores extremos para sistemas dinâmicos Consideremos um sistema dinâmico discreto (X, B,µ , f ), em que X é uma variedade Riemanniana de dimensão d, B é a σ -algebra de Borel, f : X → X é uma aplicação mensurável e µ uma medida de probabilidade f -invariante, absolutamente contı́nua com respeito à medida de Lebesgue (acip), com dµ densidade denotada por ρ = dLeb . Consideremos um observável ϕ : X → R ∪ {±∞} que atinge um máximo global em ζ ∈ X e o processo estocástico estacionário X0 , X1 , . . . dado por Xn = ϕ ◦ f n , para cada n ∈ N. (1) Definamos o máximo parcial Mn := max{X0 , . . . ,Xn−1 }. Seja un uma sucessão de nı́veis tal que nµ (X0 > un ) → τ , quando n → ∞, (2) para algum τ ≥ 0. A Teoria Clássica de Valores Extremos estabelece que existem apenas três tipos de distribuições assimptóticas não-degeneradas para o máximo de uma amostra de variáveis aleatórias (v.a.) independentes e identicamente distribuı́das (i.i.d.) sob normalização linear. O mesmo tipo de leis aplicam-se a processos estocásticos estacionários, sob certas condições na estrutura de dependência, o que permite a redução ao caso independente. A um processo estocástico dado X0 ,X1 , . . . associamos uma sucessão de v.a. i.i.d. Y0 ,Y1 , . . ., cuja f.d. é a mesma de X0 , e cujo máximo parcial definimos como M̂n := max{Y0 , . . . ,Yn−1 }. Denotando as condições de dependência usuais por D(un ) e D′ (un ), onde un é uma sucessão de nı́veis que satisfaz (2), num trabalho anterior propusemos uma versão mais fraca de D(un ), que denotamos por D2 (un ), e que é consequência imediata do decaimento de correlações suficientemente rápido para observáveis que são de variação limitada ou Hölder contı́nuos. Estabelecemos que, se D2 (un ) e D′ (un ) se verificam para o processo X0 , X1 , . . . e para uma sucessão de nı́veis que satisfazem (2), então o seguinte limite existe, e lim µ (M̂n ≤ un ) = lim µ (Mn ≤ un ). n→∞ SPE 2011 n→∞ 279 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Processo pontual das excedências Neste trabalho estamos interessados na ocorrência de excedências do nı́vel un para o processo estocástico X0 ,X1 , . . .. Definamos então o Processo Pontual das Excedências (PPE) do nı́vel un , contando o número de excedências durante o intervalo de tempo [0,t). Reescalonemos o tempo usando o factor vn := 1/µ (X > un ) dado pelo Teorema de Kac. Então, para qualquer x ∈ X e todo t ≥ 0, seja Nn (t) = Nn ([0,t),x) := ⌊vn t⌋ ∑ 1X >u . j n (3) j=0 Sabe-se que sob D(un ) e D′ (un ), o PPE Nn , quando convenientemente normalizado, converge em distribuição para um processo de Poisson. O nosso objectivo aqui é estabelecer que ainda obtemos um limite Poisson se relaxarmos a condição D(un ) de forma a que seja suficiente termos decaimento de correlações suficientemente rápido dos sistemas dinâmicos que geram o processo estocástico. Contudo, com esse objectivo, precisamos de uma condição mais forte do que D2 (un ) de modo a lidar com acontecimentos múltiplos. Por isso introduzimos a condição D3 (un ) abaixo, que é também consequência do decaimento de correlações suficientemente rápido, tal como D2 (un ) era. Seja S o semi-anel de subconjuntos de R+ 0 cujos elementos são intervalos do tipo [a,b), para a,b ∈ R+ . Denotemos por R o anel gerado por S . Relembremos que para todo A ∈ R existem 0 k ∈ N e k intervalos I1 , . . . ,Ik ∈ S tais que A = ∪ki=1 I j . De forma a fixar uma notação, sejam a j ,b j ∈ R+ 0 tais que I j = [a j ,b j ) ∈ S .Para I = [a,b) ∈ S e α ∈ R, denotamos α I := [α a,α b) e I + α := [a + α ,b + α ). De forma análoga, para A ∈ R definimos α A := α I1 ∪ · · · ∪ α Ik e A + α := (I1 + α ) ∪ · · · ∪ (Ik + α ). Para todo A ∈ R seja M(A) := max{Xi : i ∈ A ∩ Z}. No caso particular em que A = [0,n) escrevemos simplesmente, como anteriormente, Mn = M[0,n). Propomos então a seguinte condição: Condição D3 (un ). Sejam A ∈ R e t ∈ N. Dizemos que D3 (un ) se verifica para a sucessão X0 ,X1 , . . . se µ ({X0 > un } ∩ {M(A + t) ≤ un }) − µ ({X0 > un })µ ({M(A) ≤ un }) ≤ γ (n,t), onde γ (n,t) é não-crescente em t para cada n e nγ (n,tn ) → 0 quando n → ∞ para alguma sucessão tn = o(n). Antes de estabelecermos o resultado que nos dá estatı́sticas de Poisson como limite para o PPE sob D3 (un ) and D′ (un ), apresentemos a condição D′ (un ) já referida anteriormente. Condição D′ (un ). Dizemos que D′ (un ) se verifica para a sucessão X0 ,X1 , . . . se lim lim sup n k→∞ n→∞ ⌊n/k⌋ ∑ j=1 µ ({X0 > un } ∩ {X j > un }) = 0. Teorema 1. Seja X1 , X2 , . . . um processo estocástico estacionário para o qual as condições D3 (un ) and D′ (un ) se verificam para uma sucessão de nı́veis un que satisfaz (2). Então, o PPE Nn definido d em (3) é tal que Nn → − N, quando n → ∞, onde N denota um processo de Poisson de média 1. SPE 2011 280 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Regressão logı́stica múltipla: previsão do estado de conservação de próteses dentárias removı́veis em idosos institucionalizados Maria Conceição Manso1 , Sandra Gavinha2 e Patrı́cia Manarte Monteiro2 1 Faculdade de Ciências da Saúde, Universidade Fernando Pessoa, Porto REQUIMTE-UP, Portugal, [email protected] 2 Departamento de Medicina Dentária, Faculdade de Ciências da Saúde, Universidade Fernando Pessoa, Porto, Portugal, {sgavinha, patmon}@ufp.edu.pt Resumo: A reabilitação protética removı́vel tem a capacidade de reduzir/eliminar as deficiências atribuı́das a dentes perdidos. Contudo, a sua manutenção/conservação é uma necessidade pois permite prevenir alterações que estas possam provocar nas estruturas remanescentes da cavidade oral. Este trabalho teve como objectivo avaliar o efeito de variáveis associadas ao mau estado conservação de próteses dentárias removı́veis (acrı́licas e esqueléticas), por utilização de uma regressão logı́stica múltipla. O género, o grau de independência, a higiene da prótese, o tipo de prótese removı́vel e a sua idade foram os factores retidos pelo modelo de regressão logı́stica para explicar a má conservação da prótese. Palavras–chave: Regressão logı́stica múltipla, próteses dentárias removı́veis, idosos institucionalisados, dentária Os dados foram recolhidos através de um estudo observacional, transversal e descritivo (Janeiro a Junho de 2008), com 372 indivı́duos com 60 ou mais anos e residentes em 22 dos 158 lares do Distrito do Porto, fazendo uma avaliação da condição oral dos indivı́duos e um inquérito relativo a dados socio-demográficos e de hábitos relacionados com a sua saúde oral. A avaliação da conservação das próteses removı́veis deu origem a uma variável dependente dicotómica (0- bom estado, 1- mau estado). Das 194 próteses avaliadas no maxilar superior e 151 no maxilar inferior, apenas 42 (21,6%) e 34 (22,5%) apresentaram bom estado de conservação. As variáveis candidatas a variáveis explicativas são quantitativas (idade (anos)-I, idade da prótese (anos)-IP e há quanto tempo não vai ao médico dentista (anos)-TDent), qualitativas com três categorias de resposta (grau de escolaridadeGE: sem escolaridade, primeiro ciclo, mais do que o primeiro ciclo), tipo de prótese-TP (Portador de prótese parcial acrı́lica (PPPA), Portador de prótese parcial esquelética (PPPE) e Portador de prótese total acrı́lica (PPTA)), quem fez a prótese e quem consertou a prótese (médico dentista, protésico, não sabe)) e dicotómicas (género (feminino (F), masculino (M)), grau de independência (GI) para tarefas de higiene oral diária (independente (I), dependente (D)) e higiene da prótese (ausência de placa bacteriana (APB), presença de placa (PP))). Realizou-se análise descritiva e inferencial (alfa=0,05) e regressão logı́stica múltipla (método passo a passo regressivo, p=0,05 para inclusão de factores e p=0,10 para exclusão) utilizando SPSS vs17.0 recorrendo ao adicional complex samples. O processo de selecção das covariáveis começou pela análise univariada de cada variável candidata a variável explicativa (regressão logı́stica simples). Todas as variáveis apresentaram valores inferiores a 0,010, com excepção da variável quem consertou a prótese (inf. a 0,250). Na tabela 1 resume-se a informação do modelo de previsão de má SPE 2011 281 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 conservação das próteses, apresentando-se as estimativas para os coeficientes do modelo e do erro padrão dos coeficientes estimados, os valores observados da E.T. dos parâmetros estimados (teste de Wald), os graus de liberdade, os valores p (teste de Wald), as estimativas das razões de chances (OR) e correspondentes intervalos de confiança a 95% de confiança. Tabela 1: Resultados do modelo de regressão logı́stica múltipla ajustado. Variável Género (x1 ) GI (x2 ) HP (x3 ) TP (x4 ) IP (x5 ) Categoria M (x1 = 1) D (x2 = 1) PP (x3 = 1) PPPA (x41 = 1) PPPE (x42 = 1) PPTA (x43 = 1) +1ano Constante B -1,071 0,375 1,668 E.P. 0,092 0,125 0,088 -1,614 -0,599 0,103 1,185 0,130 0,102 0,006 0,097 W 136,271 9,047 358,094 154,731 154,550 34,683 340,153 149,650 g.l. 1 1 1 2 1 1 1 1 valor p < 0,001 0,003 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 Exp(B) ou OR 0,343 (0,286 - 0,410) 1,455 (1,140 - 1,857) 5,299 (4,459 - 6,298) 1 0,199 (0,154 - 0,257) 0,550 (0,450 - 0,671) 1,108 (1,096 - 1,121) 3,271 A área abaixo da curva ROC foi 0,859 (IC95%: 0,845-0,873), correspondendo a uma boa discriminação (Hanley and McNeil, 1982; Hosmer and Lemeshow, 1989), a percentagem de classificação correcta obtida foi de 85,7%, a sensibilidade de 49,3% e a especificidade de 95,3%. O modelo obtido deve ser visto com alguma reserva se se pretender aplicar à conservação de próteses de indivı́duos não institucionalizados ou fora do intervalo de idades considerado, mas é certamente útil para dar algumas indicações sobre a questão em estudo neste trabalho. Bibliografia [1] Hanley, J.A. e McNeil, B.J. (1982). The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 143, 29–36. [2] Hosmer, D.W. e Lemeshow, S. (1989). Applied Logistic Regression. John Wiley & Sons, New York. SPE 2011 282 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Estatı́stica no ensino secundário — um contributo para a clarificação do estudo da regressão linear simples Maria Alice Martins1 , Helena Ribeiro2 e Rui Santos3 1 Agrupamento de Escolas Artur Gonçalves de Torres Novas, [email protected] Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEMAT — Centro de Matemática e Aplicações, [email protected] 3 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] 2 Resumo: A Estatı́stica tem vindo a ocupar, cada vez mais, um lugar de destaque no ensino da Matemática quer ao nı́vel do ensino básico quer ao nı́vel do ensino secundário, consequência da crescente utilidade que esta área da Matemática tem vindo a desempenhar no nosso quotidiano. Contudo, os materiais disponı́veis para o ensino e compreensão dos conceitos mais elementares de Estatı́stica, que são igualmente os mais fundamentais, nem sempre são os mais adequados (apesar de contributos bem sucedidos pela literacia estatı́stica, como ilustra o projecto ALEA – Acção Local Estatı́stica Aplicada – http://www.alea.pt). Pretendemos, neste trabalho, dar o nosso contributo para a melhoria do ensino da Estatı́stica em Portugal apresentando algumas incorrecções, gralhas e/ou erros que frequentemente aparecem nos materiais utilizados neste nı́vel de ensino, bem como apresentando algumas propostas de clarificação (destinada quer a professores quer a estudantes destes nı́veis de ensino). Neste sentido, iremos focar a atenção no erro mais comum que detectamos nos manuais por nós consultados, a de utilização da mesma recta de regressão, obtida pelo método dos mı́nimos quadrados, para estimar um valor de x condicionado a um dado valor de y bem como para estimar um valor de y condicionado a um valor de x quando, correctamente, dever-se-iam utilizar duas rectas distintas (excepto em alguns casos muito particulares onde as duas rectas são análogas). Este erro será exemplificado utilizando um software (que é freeware) frequentemente utilizado no ensino da geometria no ensino básico e secundário, o GeoGebra. Palavras–chave: Ensino de Estatı́stica, regressão linear simples, método dos mı́nimos quadrados Introdução No 10.o ano de escolaridade é transmitida uma ideia intuitiva de recta de regressão, explorando a sua interpretação e as suas limitações. Apesar de não ser objectivo explicar formalmente a recta obtida, é transmitida a ideia pela qual ela é determinada — corresponde à recta que faz com que a soma dos quadrados das distâncias de cada ponto da nuvem à recta seja mı́nima; sendo esta recta unicamente determinada recorrendo a uma calculadora. Contudo, em muitos manuais utilizados no ensino secundário, a mesma recta é utilizada para efectuar uma previsão para a variável y quando conhecemos um valor de x (condicionada a x = x0 ) quer para efectuar previsões para x quando conhecemos um valor especı́fico da variável y (y = y0 ) o que não deveria ocorrer. Notemos que caso utilizemos uma regressão de y em função de x, determinando os parâmetros α0 e α1 da recta ŷt = α0 + α1 xt que minimizam ∑ (yt − yˆt )2 , a recta será (excepto em alguns caso muito especı́ficos) distinta da recta obtida quando efectuamos uma regressão de x em função de y, determinando os parâmetros β0 e β1 da recta x̂t = β0 + β1 yt que minimizam ∑ (xt − xˆt )2 . Esta diferença resulta da SPE 2011 283 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 forma como definimos os erros nas duas regressões, pois enquanto na primeira os erros são medidos paralelamente ao eixo das ordenadas (o erro é definido pela diferença entre o valor observado de y e o seu valor estimado condicionalmente a x, εt = yt − yˆt ), na segunda os erros são medidos paralelamente ao eixo das abcissas (o erro é definido pela diferença entre o valor observado x e o seu valor estimado pela regressão em função de y, εt = xt − xˆt ). Desta forma, será erróneo1 utilizar a regressão de y em função de x para efectuar previsões para x quando conhecemos um determinado valor para y (y = y0 ) e, apesar de em algumas aplicações a diferença das duas rectas poder ser diminuta, existem outras situações em que o erro pode assumir valores elevados. Figura 1: Regressão de y condicionada a x versus de x condicionada a y Conforme claramente ilustram os dois exemplos representados na Figura 1 onde estão representadas as duas rectas obtidas utilizando dois conjuntos distintos de 10 observações (recorrendo ao software GeoGebra), podemos constatar a distinção entre as duas rectas bem como a diferença no valor estimado de y obtido pelas duas rectas quando x assume o valor 5. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Montgomery, D.C., Peck, E.A. e Vining, G.G. (2006). Introduction to Linear Regression Analysis, 4th Ed., Wiley Series in Probability and Statistics, John Wiley & Sons. [2] Murteira, B. (1993). Análise exploratória de dados - Estatı́stica Descritiva, McGraw-Hill, Lisboa. [3] Osborne, C. (1991). Statistical Calibration: A Review, International Statistical Review 59, n.o 3, pp. 309–336. [4] Pestana, D.D. e Velosa, S.F. (2009). Introdução à Probabilidade e à Estatı́stica, Vol. 1, 3.a ed., Fundação Calouste Gulbenkian, Lisboa. 1 Há, contudo, determinadas situações especı́ficas para as quais se justifica a necessidade de utilização de regressão inversa, como ilustram alguns modelos de calibração [3]. SPE 2011 284 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Modelação do impacto da pobreza nas escolhas contraceptivas na Índia: uma análise multinı́vel Isabel Tiago de Oliveira1 , Sabu S. Padmadas2 e José G. Dias3 1 ISCTE – Instituto Universitário de Lisboa, CIES, Lisboa, Portugal, [email protected] Centre for Global Health, Population, Poverty & Policy, University of Southampton, United Kingdom, [email protected] 3 ISCTE – Instituto Universitário de Lisboa, UNIDE, Lisboa, Portugal, [email protected] 2 Resumo: Esta investigação discute o efeito dos nı́veis de pobreza-riqueza sobre as escolhas contraceptivas das mulheres indianas. Os programas de planeamento familiar indianos têm favorecido a esterilização feminina como método contraceptivo dominante. Nesta situação, a opção por outros métodos contraceptivos em alternativa à esterilização está associada às caracterı́sticas sociodemográficas, em particular o nı́vel de riqueza do agregado familiar e a escolaridade do casal. Palavras–chave: Métodos de contracepção, demografia, modelos de escolha discreta, modelos multinı́vel A relação existente entre a pobreza e a escolha de métodos de contracepção é mediada por factores ao nı́vel individual e do agregado familiar. Na Índia, 56.3% das mulheres casadas utilizam actualmente contracepção, principalmente através de esterilização feminina (37.3%), todos os outros métodos (modernos e tradicionais) correspondem a 19.9% (11.1% para os métodos femininos modernos; 7.8% para os métodos tradicionais; e 1% para esterilização masculina) [1]. A importância da esterilização feminina na Índia é muito elevada em resultado de programas de planeamento familiar orientados para este método contraceptivo [3]. A esterilização está associada a uma estratégia de paragem reprodutiva versus uma opção pelo espaçamento entre os nascimentos. Este tipo de escolha contraceptiva tem consequências significativas na saúde materna e infantil e resulta num padrão etário de fecundidade muito jovem, com importantes consequências no crescimento populacional [2]. A escolha entre esterilização feminina e os métodos modernos de espaçamento (e.g., pı́lula) estão claramente associada à condição sócio-económica das mulheres. Quer o ı́ndice de riqueza do agregado familiar quer o nı́vel de escolaridade feminina estão associados com as escolhas de método de contracepção pelas mulheres. Das mulheres indianas que actualmente utilizam métodos de contracepção, cerca de 70% preferem esterilização feminina nos primeiros quatro quintis, mas no mais elevado esta preferência decresce para metade das que usam outro tipo de método de contracepção. Em termos de nı́vel educacional, o gradiente é ainda mais forte do que no caso do ı́ndice de riqueza do agregado familiar. A esterilização feminina é o método mais importante de contracepção para nı́veis educacionais mais reduzidos e a sua importância relativa reduz-se (de 76% para 33%) com o aumento no nı́vel educacional. Por outro lado, a percentagem de mulheres que utiliza métodos modernos de espaçamento (entre todas as mulheres casadas que usam métodos de contracepção) aumenta substancialmente com o nı́vel educacional (de 9% para 46%). As mulheres com nı́vel educacional mais elevado preferem métodos modernos de espaçamento a esterilização, tornando-se uma situação única no contexto da Índia. Tendo por base dados do 2005-06 National Family Health Surveys, este estudo analisa de forma sistemática o impacto da pobreza em termos de escolhas das mulheres indianas. Modelos com classes SPE 2011 285 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 latentes são aplicados para classificar os agregados familiares em termos de ı́ndice de riqueza. A interacção entre a riqueza do agregado e outros factores determinantes da escolha contraceptiva das mulheres é modelada utilizando um modelo multinı́vel multinomial logit, controlando os factores individuais, do agregado familiar e da comunidade relevantes ao modelo de escolha de contracepção. Agradecimentos: Os autores agradecem o apoio financeiro da FCT – Fundação para a Ciência e a Tecnologia (PTDC/CS-DEM/108033/2008). Bibliografia [1] International Institute for Population Sciences (IIPS) e Macro International (2007). National Family Health Survey (NFHS-3), 2005-06: India: Volume I. Mumbai: IIPS. [2] Matthews, Z., Padmadas, S.S., Hutter, I., McEachran, J. e Brown, J.J. (2009). Does early childbearing and a sterilization-focused family planning program in India fuel population growth?, Demographic Research, 20 (28), 693–720. [3] Visaria, L., Jejeebhoy, S. e Merrick, T. (1999). From family planning to reproductive health: Challenges facing India. International Family Planning Perspectives, 25 (Supplement), 44–49. SPE 2011 286 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Métodos de regressão para observações repetidas em Saúde Rosa Oliveira e Armando Teixeira-Pinto Faculdade de Medicina - Universidade do Porto, {rcoliveira,tpinto}@med.up.pt Resumo: Estudam-se os ganhos de eficiência da regressão multivariada comparada a múltiplas regressões univariadas quando o conjunto de covariáveis são especı́ficas das observações individuais. Em particular, analisamos a situação em que as observações partilham algumas das covariáveis, enquanto que outras covariáveis são especı́ficas de sub-conjuntos de observações. Demonstramos que para os coeficientes associados com covariáveis partilhados, existem ganhos de eficiência, enquanto que para as covariáveis especı́ficas de sub-conjuntos de observações, os ganhos de eficiência dependem da correlação entre os resultados associados às observações. Palavras–chave: Estatı́stica, análise multivariada, análise de dados, aplicações à biologia e ciências médicas SPE 2011 287 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Modelo de mistura bayesiano para extremos não-estacionários Boris Oumow, Miguel de Carvalho, Anthony Davison Ecole Polytechnique Fédérale de Lausanne, [email protected] Resumo: Os modelos de estatı́sticas de valores extremos desempenham um papel fundamental na modelação de acontecimentos catastróficos. Para medir o risco desses acontecimentos necessitamos de extrapolar para as caudas da distribuição, sendo necessário desenvolver métodos para a inferência de valores superiores aos observados. Um trabalho importante na modelação de extremos não-estacionários é devido a [2], mas a pesquisa de modelos alternativos continua a ser um tópico de interesse actual [1, 3]. Neste trabalho propomos um modelo de mistura para o centro da distribuição e para as caudas, como alternativa ao modelo introduzido em [5]. A nossa abordagem envolve a modelação do centro da distribuição e dos parâmetros do processo pontual que caracteriza as caudas através de modelos bayesianos aditivos generalizados com B-splines e penalizações [4]. Os efeitos não-lineares dos regressores na intensidade do processo de Poisson limite são utilizados para induzir a não-estacionariedade no processo gerador de extremos. Palavras–chave: Estatı́sticas de valores extremos, extremos não-estacionários, modelos aditivos generalizados, modelos de mistura, P-splines bayesianos Bibliografia [1] Carvalho, M. de, Turkman, K.F. e Rua, A. (2010). Nonstationary extremes and the US business cycle. Working Paper—Banco de Portugal, ISBN 978-989-678-013-5. [2] Chavez-Demoulin, V. e Davison, A.C. (2005). Generalized additive modelling of sample extremes. Journal of the Royal Statistical Society, Ser. C, 54, 207–222. [3] Davison, A.C. e Ramesh, N.I. (2000). Local likelihood smoothing of sample extremes. Journal of the Royal Statistical Society, Ser. B, 62, 191–208. [4] Lang, S. e Brezger, A. (2004). Bayesian P-splines. Journal of Computational and Graphical Statistics, 13, 183–212. [5] Mendes, B.V.M. e Lopes, H.F. (2004). Data driven estimates for mixtures. Computational Statistics and Data Analysis, 47, 583–598. SPE 2011 289 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Simulação – uma aplicação ao problema da ruı́na do jogador Salomé Pedro1 , Rui Santos2 e Luı́s Cotrim3 1 Agrupamento de Escolas de Pataias, [email protected] Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de Estatı́stica e Aplicações da Universidade de Lisboa, [email protected] 3 Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, LSRE — Laboratório de Processos de Separação e Reacção da Faculdade de Engenharia da Universidade do Porto, [email protected] 2 Resumo: Em 1657 é publicado o primeiro livro sobre cálculo de probabilidades, de Huygens. Esta pequena colectânea de problemas relativos a jogos de azar, baseada na correspondência entre Pascal e Fermat em 1654, permitiu despertar a atenção de numerosos matemáticos durante os séculos XVII, XVIII e XIX para esta temática, razão pela qual surgiram variadas generalizações de alguns dos problemas propostos. O último desafio apresentado neste opúsculo de Huygens, e porventura um dos mais célebres problemas em probabilidades, é o problema da ruı́na do jogador. Neste trabalho serão apresentadas algumas soluções exactas para algumas variantes, com recurso à modelação do problema através de equações às diferenças, bem como soluções aproximadas recorrendo à simulação Monte Carlo (via software R) e à Lei dos Grandes Números. Por fim, far-se-á uma análise crı́tica à possibilidade de utilização deste problema (e outros semelhantes) na disciplina de Matemática no ensino secundário, nomeadamente no que se refere à utilização de simulação no ensino das probabilidades. Palavras–chave: Simulação, história da probabilidade, ensino de probabilidades O Problema da ruı́na do jogador Consideremos um jogo entre dois jogadores (A e B) dividido em partidas, onde em cada partida o jogador A ganha com probabilidade p, recebendo um euro do jogador B, e perde com probabilidade q = 1 − p pagando um euro ao jogador B. O jogo acaba quando um dos jogadores for à ruı́na (ficar sem dinheiro). A probabilidade Pa do jogador A ganhar o jogo tendo a e (estando em jogo n = a + b euros, onde b é o montante em posse do jogador B) pode ser modelada pela equação às diferenças Pa = p Pa+1 + (1 − p) Pa−1 , 0 < a < n, (1) com P0 = 0 e Pn = 1 como condições de fronteira (consultar, por exemplo, [1] ou [2]). Assim, conclui-se a a+b se p = 21 . (2) Pa = qa pb −pn se p 6= 1 qn −pn 2 Este resultado permite deduzir diversas probabilidades associadas ao jogo, como por exemplo quando uma das fortunas é ilimitada (b → ∞) ou a probabilidade de um jogo nunca terminar, entre outras. Por outro lado, o número esperado de partidas até o jogo acabar quando o jogador A tem SPE 2011 291 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 a e, representado por Ea , é modelado pela equação p Ea+1 − Ea + (1 − p) Ea−1 = −1, 0 < a < n, com E0 = En = 0 como condições de fronteira. Deste modo obtemos, como solução, ab se p = 21 a . Ea = ( 1−p p ) −1 n a − 1−2p se p 6= 21 1−2p 1−p n ( p ) −1 (3) (4) Simulação Apesar de ser possı́vel deduzir diversas caracterı́sticas do jogo da ruı́na do jogador de forma exacta através das equações às diferenças, conforme as equações (1) e (3) ilustram, podemos igualmente obter resultados aproximados destas caracterı́sticas recorrendo a simulação. Há igualmente especificidades do jogo que dificilmente se consegue obter de forma analı́tica (sendo, em alguns casos, provavelmente impossı́vel) e que a simulação nos permite obter uma caracterização aproximada. Por outro lado, o ensino das probabilidades no ensino secundário, muitas vezes dedicado quase exclusivamente ao cálculo combinatório, pouco intuitivo e de difı́cil compreensão, pode ser bastante enriquecido com a inclusão de problemas para os quais, apesar de existirem soluções exactas analiticamente difı́ceis para alunos deste nı́vel de ensino, podem ser obtidas soluções aproximadas recorrendo a simulações, que permitem igualmente ilustrar, de forma intuitiva e esclarecedora, o comportamento dos fenómenos aleatórios (consultar [3], [4] ou outros exemplos disponı́veis no site do projecto ALEA — http://www.alea.pt). Desta forma, quer no ensino secundário quer no ensino superior a simulação é uma ferramenta extremamente eficaz para ilustrar o comportamento dos fenómenos não determinı́sticos, nomeadamente dos resultados assimtópticos, fundamentais para a compreensão do aleatório, como por exemplo a Lei dos Grandes Números, o Teorema Limite Central ou o Teorema de Glivenko-Cantelli. Agradecimentos: Investigação parcialmente financiada por FCT/OE e PTDC/FEDER. Bibliografia [1] Edwards, A.W.F. (1983). Pascal’s Problem: The ’Gambler’s Ruin’, International Statistical Review 51 n.o 1, 73–79. [2] Feller, W. (1967). Introduction to Probability Theory, vol.1, John Wiley & Sons. [3] Martins, M.E.G. e Ponte, J.P. (2010). Organização e tratamento de dados, Ministério da Educação, Direcção-Geral de Inovação e de Desenvolvimento Curricular (disponı́vel em http://area.dgidc.min-edu.pt/materiais_NPMEB/matematicaOTD_ Final.pdf). [4] Ross, S.M (2006). Simulation, 4th edition, Elsevier Academic Press. SPE 2011 292 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Visualização de dados multivariados: radar plot versus tabela-gráfico Alexandra Pinto1 , Fernando Bação2 e Victor Lobo3 1 Faculdade de Medicina de Lisboa, Laboratório de Biomatemática, apinto.fm.ul.pt ISEGI-UNL, [email protected] 3 Escola Naval, [email protected] 2 Resumo: A visualização de dados resulta do processo de converter dados em imagens. Com a evolução dos computadores, assistiu-se ao aumento, quer da capacidade de armazenamento, quer do processamento, tendo-se criado condições para a recolha e o tratamento de dados de elevada dimensão. Há diversas representações bi-dimensionais usadas para visualizar dados multivariados. Neste trabalho propõe-se a tabela-gráfico, uma representação gráfica adequada e alternativa aos radar plot quando o número de variáveis é elevado. A tabela-gráfico demonstrou ser uma técnica importante na visualização de dados e pode ser utilizada como complemento do radar plot. Neste estudo usaram-se os dados do 4o Inquérito Nacional de Saúde e a tabela-gráfico foi implementada em Matlab. Palavras–chave: Visualização de dados multivariados, tabela-gráfico, radar plot Introdução e Objectivos A visualização de dados é uma tecnologia emergente que está a beneficiar com a crescente capacidade dos computadores e técnicas de data mining, para extrair informação útil dos dados. Esta tecnologia é apropriada para a análise de grandes bases de dados e de dados multivariados. A visualização é um poderoso meio de análise que ajuda a descobrir padrões e tendências escondidos nos dados. No entanto, um gráfico também pode tornar-se visualmente difı́cil de compreender se o número de variáveis e de grupos a representar for elevado, ou ainda se as escalas de medidas são diferentes [3]. Um dos principais problemas da visualização de dados consiste na escolha de uma representação gráfica adequada à informação a tratar [1]. O radar plot é uma representação gráfica bi-dimensional de dados multivariados e é largamente utilizada para três ou mais variáveis quantitativas. O radar plot não é uma ferramenta muito útil quando se pretendem representar muitas variáveis. Por exemplo, se tentarmos construir um radar plot com mais de oito variáveis, o gráfico tornar-se-à confuso, sobretudo se não houver uma relação de ordem simples entre essas variáveis, e for necessário colocar legendas (labeling). Nestas situações deverá implementar-se um novo algoritmo que melhore a colocação dessas legendas. O objectivo deste estudo é encontrar uma representação alternativa à técnica clássica do radarplot, quando o número de variáveis é elevado. Posteriormente, pretende-se também fazer a sua implementação em Matlab. SPE 2011 293 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Tabela-gráfico Neste trabalho sugerimos uma abordagem, a tabela-gráfico, citada por Tufte [4]. Esta é uma representação de dados multivariados que permite visualizar cada elemento do gráfico sem perda de informação. A tabela-gráfico apresenta todos os valores de cada variável ligados por uma linha (horizontal, ascendente ou descendente), tal como num comum gráfico de linhas. Aplicação e Resultados Antes de proceder à aplicação da tabela-gráfico a um caso de estudo, foi necessário implementá-la em Matlab, versão 7. Neste estudo aplicámos ambos os métodos, de um modo complementar, para dados sobre medicação, provenientes do 4o Inquérito Nacional de Saúde - 2005/06 [2]. Os radar plots foram construı́dos para representar apenas os cinco medicamentos mais consumidos em cada uma das sete regiões da NUTS II, enquanto que com a tabela-gráfico representaram-se todos (dezoito) os medicamentos referidos no inquérito. A tabela-gráfico permitiu-nos, na mesma representação, facilmente fazer comparações transversais entre e dentro das regiões. Ambos os gráficos foram utilizados para extrair conclusões acerca da polimedicação e foi possı́vel mostrar que, neste caso, a tabela-gráfico constitui uma mais valia ao apresentar os dados com maior clareza do que com múltiplos radar plots. Bibliografia [1] Carmo, M.B. (2003). Visualização de Informação. Modelo Integrado para o Tratamento de Filtragem e Múltiplas Representações. Universidade de Lisboa. [2] Pinto, A., Rodrigues, T., Bação, F. e Lobo, V. (submetido). Medication and Polymedication in Portugal. [3] Saary, M.J. (2008). Radar plots: a useful way for presenting multivariate health care data. Journal of Clinical Epidemiology, 60, 311–317. [4] Tufte, E. (2006). Beautiful Evidence. Graphics Press. SPE 2011 294 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Factores que influenciam a qualidade de vida dos doentes diabéticos Ana Sousa1 , Zilda Mendes1 e Maria Antónia Turkman2 1 2 CEFAR, ANF, {ana.sousa, zilda.mendes}@anf.pt DEIO (FCUL) e CEAUL, [email protected] Resumo: Em 2007, o Centro de Estudos e Avaliação em Saúde (CEFAR) da Associação Nacional das Farmácias promoveu um estudo sobre a Qualidade de Vida dos Doentes Diabéticos em Portugal, numa amostra de 1.479 doentes diabéticos. Dos doentes inquiridos, 53,7% eram do sexo feminino, tinham idade média de 64 anos e apenas 19% apresentavam ı́ndice de massa corporal inferior a 25 kg/m2 . Relativamente à medicação, 80,2% dos doentes estavam apenas a fazer terapêutica oral, 10,4% insulina e 9,4% ambas as terapêuticas. Alguns doentes já apresentavam complicações como: neuropatia (27,3%), retinopatia (22,4%) e nefropatia (11,9%). Neste questionário foi também avaliada a frequência de utilização dos cuidados de saúde por parte destes doentes. A qualidade de vida foi avaliada através de um questionário especı́fico para esta patologia “Audit of Diabetes Dependent Quality of Life (ADDQoL)” (Portuguese version 6.6.02). O ADDQoL é composto por 2 questões gerais sobre o impacto da doença, pontuados entre -3 (muito mau) e 3 (excelente) e mais 18 itens subdivididos em domı́nios especı́ficos pontuados entre -9 (máximo impacto negativo) e 9 (máximo impacto positivo). A pontuação global (average weight impact AWI) e por item é efectuado através de uma média ponderada. Nesta amostra o AWI encontrado foi negativo (-1,88), com um intervalo de confiança a 95% para a média de [−1,96; −1,79], e uma mediana de -1,56. Neste trabalho pretende-se avaliar a influência de alguns factores, na qualidade de vida dos doentes diabéticos através de duas metodologias: 1) Avaliação dos Odds Ratio obtidos através Regressão Logı́stica Multipla e 2) Utilização adicional de Propensity Scores para minimizar a influência de potenciais variáveis de confundimento no modelo de Regressão Logı́stica. Palavras–chave: Diabetes, Propensity Scores SPE 2011 295 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Riscos competitivos em estudos de diálise peritoneal Laetitia Teixeira1 , Anabela Rodrigues2 e Denisa Mendonça3 1 PDMA/FCUP, [email protected] CHPHSA/ICBAS, [email protected] 3 ICBAS/ISPUP, [email protected] 2 Resumo: Doentes em diálise peritoneal estão sujeitos a múltiplos eventos. Quando o interesse é analisar a sobrevivência do doente para um evento especı́fico, a abordagem adequada é a utilização de métodos que têm em conta riscos competitivos. Neste trabalho pretende-se apresentar uma aplicação de riscos competitivos a um problema de análise de sobrevivência de doentes em diálise peritoneal. Palavras–chave: Riscos competitivos, análise de sobrevivência, diálise peritoneal Introdução A utilização do método de Kaplan-Meier na estimação da função de incidência cumulativa é prática comum na análise de sobrevivência em estudos de Nefrologia, nomeadamente na diálise peritoneal. Doentes em diálise peritoneal estão sujeitos a múltiplos eventos. Quando o interesse é analisar a sobrevivência do doente para um evento especı́fico, a abordagem adequada é a utilização de métodos que têm em conta riscos competitivos [1]. Tendo como objectivo a avaliação da sobrevivência do doente, o evento de interesse é ‘morte em diálise peritoneal’, enquanto que ‘transplante de um doente em diálise peritoneal’ e ‘transferência para hemodiálise’ são outros eventos possı́veis. Estes dois últimos eventos são denominados competitivos, dado que a ocorrência de um anula a ocorrência do evento de interesse [2]. A abordagem correcta nesta análise de sobrevivência na presença de riscos competitivos, é a estimação da função de incidência cumulativa (FIC) para cada evento [1]. Objectivos Estimação da FIC, tendo em conta riscos competitivos, na análise de sobrevivência de doentes em diálise peritoneal (global e por caracterı́sticas do doente) e comparação com os resultados obtidos por métodos que não consideram riscos competitivos. Métodos Os dados deste estudo provêm da Unidade de Diálise Peritoneal do Departamento de Nefrologia do Hospital Geral de Santo António. Todos os pacientes que iniciaram tratamento com diálise peritoneal entre Outubro de 1985 e Junho de 2010 foram considerados no estudo (n=427). Doentes que apresentaram recuperação da função renal (n=11) e pacientes como valores desconhecidos para as variáveis diabetes (n=6) e idade (n=1) foram excluı́dos da análise. Na análise tendo em conta SPE 2011 297 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 os eventos competitivos, o evento ‘morte em diálise peritoneal’ corresponde ao evento de interesse, sendo os eventos ‘transferência para hemodiálise’ e ‘transplante’ os eventos competitivos. Doentes que não apresentem nenhum destes eventos foram censurados à data da última visita ou do fim do perı́odo do estudo. Na análise ignorando os eventos competitivos, usou-se o método de KaplanMeier e o evento de interesse considerado foi ‘morte em diálise peritoneal’, sendo todos os restantes censurados. Variáveis demográficas (sexo e idade) e clı́nicas (diabetes e proveniência) foram consideradas para análise de subgrupos. A variável proveniência refere o método de substituição da função renal utilizado anteriormente à diálise peritoneal, caso exista. Esta variável é classificada segundo três categorias: diálise peritoneal, hemodiálise ou doente transplantado. Foi utilizado a software R e o pacote cmprsk para a estimação da função de incidência cumulativa, utilizando os métodos propostos por J.P. Fine e R.J. Gray (ver [2]). Resultados O valor de FIC obtido aos 5 anos é duas vezes inferior ao calculado caso se tivesse utilizado o método de Kaplan-Meier, ignorando a existência de riscos competitivos. Os resultados da análise por subgrupo utilizando os testes de Gray e log-rank são notoriamente diferentes pois estes transmitem diferentes tipos de informação. O teste de Gray sugere que os três grupos definidos pela sua proveniência são similares relativamente à sobrevivência do doente. Conclusão A estimação da incidência cumulativa ignorando a existência de riscos competitivos pode produzir resultados erróneos. Neste estudo, verificou-se uma elevada sobrestimação da incidência de morte em diálise peritoneal se o método de Kaplan-Meier tivesse sido considerado, revelando a importância dos riscos competitivos na análise de sobrevivência. Bibliografia [1] Pintilie, M. (2006). Competing Risks: A Practical Perspective. John Wiley & Sons: New York. [2] Scrucca, L., Santucci, A. e Aversa, F. (2007). Competing risk analysis using R: an easy guide for clinicians. Bone Marrow Transplant, 40, 381-387. SPE 2011 298 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Preditores da qualidade de vida em pessoas com doenças crónicas Estela Vilhena1 , José Pais-Ribeiro2 , Isabel Silva3 , Luı́sa Pedro4 , Rute Meneses5 , Helena Cardoso6 , Madalena Abreu7 , Vera Melo8 Ana Silva9 , António Martins da Silva10 , Denisa Mendonça11 1 Instituto Politécnico do Cávado e do Ave, Barcelos; ICBAS, Universidade do Porto, [email protected] 2 FPCE, Universidade do Porto; UIPES, [email protected] 3 Universidade Fernando Pessoa, [email protected] 4 UIPES; ESTeSL IP, Lisboa, [email protected] 5 Universidade Fernando Pessoa, [email protected] 6 ICBAS, Universidade do Porto; HGSA Centro Hospitalar do Porto, [email protected] 7 FPCE, Universidade do Porto, [email protected] 8 FPCE, Universidade do Porto, [email protected] 9 HGSA Centro Hospitalar do Porto, [email protected] 10 ICBAS, Universidade do Porto; HGSA Centro Hospitalar do Porto, [email protected] 11 ICBAS, ISPUP , Universidade do Porto, [email protected] Resumo: O presente trabalho teve como objectivo identificar preditores psicossociais da qualidade de vida, em pessoas com doenças crónicas. Aplicando modelos de Análise de Covariância Multivariada, e controlando para um conjunto de factores sócio-demográficos e clı́nicos, verificou-se que, de forma geral, o afecto positivo, a adesão aos tratamentos, o optimismo, a espiritualidade e o suporte social contribuem para uma melhor qualidade de vida. Palavras–chave: Doença crónica, preditores, qualidade de vida, MANCOVA Introdução A qualidade de vida é um conceito que envolve todas as componentes essenciais da condição humana, quer seja fı́sicas, psicológicas, sociais, culturais ou espirituais. Uma doença crónica tem o papel de induzir alterações profundas na vida das pessoas, que são confrontadas com um conjunto de factores que exercem um impacto negativo na sua qualidade de vida. Como tal, após o diagnóstico, muitos dos doentes tentam encontrar novas formas de lidar com a doença e com a vida. O estudo teve como objectivo identificar preditores psicossociais da qualidade de vida em pessoas com doenças crónicas. Métodos Estudo transversal que envolveu uma amostra de 774 indivı́duos com doença crónica (cancro, diabetes, epilepsia, esclerose múltipla, miastenia gravis e obesidade), dos quais 546 mulheres, com idade compreendida entre os 17 e 67 anos e que após o diagnóstico, retomaram a sua vida normal. SPE 2011 299 Sábado, 01/10/2011 Sessão de POSTERS IV Átrio do Café, 10:20–10:50 Foi aplicado um questionário que incluı́a variáveis sócio-económicas e clı́nicas, percepção da saúde e qualidade de vida. O modelo de Análise de Covariância Multivariada (MANCOVA) foi aplicado para identificar factores psicossociais (afecto positivo/negativo, adesão aos tratamentos, optimismo, espiritualidade e suporte social) preditores da qualidade de vida (bem-estar geral, saúde fı́sica, saúde mental e bem-estar subjectivo), ajustando para um conjunto de variáveis sócio-económicas e clı́nicas (sexo, idade, escolaridade, anos de diagnóstico e classificação da doença). De forma a não violar os pressupostos de aplicabilidade da MANCOVA foram aplicadas transformações às variáveis saúde fı́sica e saúde mental. Resultados Os resultados da MANCOVA permitiram identificar as variáveis psicossociais associadas à qualidade de vida, ajustando para as variáveis sócio-demográficas e clı́nicas. O afecto positivo e negativo, adesão aos tratamentos, optimismo e espiritualidade estão associados ao bem-estar geral (todos p<0.01); o afecto positivo e negativo, adesão aos tratamentos e o suporte social associados à saúde fı́sica (todos p<0.01); o afecto positivo e negativo, adesão aos tratamentos, optimismo e o suporte social associados à saúde mental (todos p<0.05); o afecto positivo e negativo, adesão aos tratamentos, optimismo, espiritualidade e o suporte social associados ao bem-estar subjectivo (todos p<0.05). Doentes com mais afecto positivo e uma melhor adesão aos tratamentos, apresentam melhor bem-estar geral, uma melhor saúde fı́sica, uma melhor saúde mental e um melhor bem-estar subjectivo. Já o afecto negativo comporta-se como um preditor negativo destas componentes. O optimismo e a espiritualidade contribuem para um melhor bem-estar geral e um melhor bem-estar subjectivo; verifica-se também que o optimismo exerce um efeito positivo, estatisticamente significativo na saúde mental; um bom suporte social contribui para uma melhor saúde fı́sica, uma melhor saúde mental e um melhor bem-estar subjectivo. Conclusões No presente estudo verificou-se, aplicando Análise de Covariância Multivariada, que o afecto positivo, a adesão aos tratamentos, o optimismo, a espiritualidade e o suporte social são preditores que contribuem para uma melhor qualidade de vida, em pessoas com doenças crónicas. Estas conclusões sugerem que, uma terapia multidisciplinar pode ajudar a uma melhor adaptação dos protocolos de tratamento, para atender às necessidades especiais dos doentes. SPE 2011 300 Sábado, 01/10/2011 Sessão Plenária V Sala Premium, 10:50–11:45 A importância de métodos de re-amostragem em Estatı́stica de Extremos M. Ivette Gomes DEIO and CEAUL, Faculdade de Ciências, Universidade de Lisboa, [email protected] Resumo: Neste artigo, realçamos a importância de métodos de re-amostragem, tais como o jackknife generalizado e o bootstrap, na obtenção de estimativas semi-paramétricas fiáveis de qualquer parâmetro de acontecimentos extremos ou raros. Para ilustrar essas metodologias, consideraremos não só os clássicos estimadores de Hill mas também uma classe de estimadores de viés-corrigido de um ı́ndice de valores extremos positivo, o parâmetro fundamental em estatı́stica de extremos. Procederemos ainda à aplicação destes métodos a dados reais e simulados. Palavras–chave: Estatı́stica de extremos, estimação semi-paramétrica, bootstrap, jackknife Introdução e preliminares Na área de estatı́stica de extremos, as metodologias jackknife e bootstrap têm-se revelado de grande importância na estimação adequada de parâmetros de acontecimentos raros, tais como um quantil elevado, o perı́odo de retorno de um nı́vel elevado ou o parâmetro primordial de acontecimentos extremos, o ı́ndice de valores extremos (EVI, do Inglês extreme value index). + Trabalharemos na área de modelos F, com cauda direita pesada, i.e. admitiremos que F ∈ DM ≡ DM (EVγ )γ >0 , o domı́nio de atração para máximos de EVγ (·), γ > 0, em que EVγ (·) denota a função de distribuição de valores extremos, dada neste caso particular por EVγ (x) = exp −(1 + γ x)−1/γ , x > −1/γ , γ > 0. Para estes modelos de caudas pesadas, e face a uma amostra aleatória Xn e à amostra associada de estatı́sticas ordinais (e.o.’s) ascendentes, (X1:n ≤ · · · ≤ Xn:n ), o estimador clássico do EVI é o estimador de Hill (Hill, 1975), definido como H(k) ≡ H(k; Xn ) := 1 k k ∑ {ln Xn−i+1:n − ln Xn−k:n }, i=1 k = 1, 2, . . . , n − 1. (1) Os estimadores em (1) são consistentes desde que Xn−k:n seja uma e.o. intermédia, i.e., desde que k = kn → ∞ e k/n → 0, quando n → ∞. Devido ao elevado viés assintótico do estimador de Hill, em (1), para valores de k moderados a elevados, vários autores têm abordado o problema de redução de viés na área de extremos. Uma das classes mais simples de estimadores do EVI com viés-corrigido é a introduzida em Caeiro et al. (2005). Essa classe depende da estimação adequada, feita através de (β̂ , ρ̂ ), de um vector de parâmetros de segunda-ordem, (β , ρ ), e com H(k) definido em (1), tem a forma funcional H(k) ≡ H(k; Xn ) ≡ H β̂ ,ρ̂ (k) := H(k) 1 − β̂ (n/k)ρ̂ /(1 − ρ̂ ) . (2) O jackknife generalizado (Gray and Schucany, 1972) e o bootstrap (Efron, 1979) gozam de papel fundamental na redução de viés e na escolha de k, respectivamente, permitem a obtenção de estima- SPE 2011 Mesa: João A. Branco 301 Sábado, 01/10/2011 Sessão Plenária V Sala Premium, 10:50–11:45 tivas semi-paramétricas fiáveis de qualquer parâmetro de acontecimentos raros, e serão abordados em seguida. A metodologia bootstrap na estimação do nı́vel óptimo Quando consideramos a melhor forma de escolher o parâmetro de controlo k, na estimação de γ , quer através de H(k), em (1), ou através de H(k), em (2), queremos usualmente estimar k0H := arg mink MSE(H(k)) ou k0H = arg mink MSE(H(k)), onde MSE (do Inglês mean square error) denota o erro médio quadrático. Podemos então usar um bootstrap duplo aplicado a uma estatı́stica auxiliar, que tende para zero, e que tem um comportamento assintótico semelhante ao de H(k) (vejase Gomes and Oliveira, 2001, entre outros) ou de H(k) (veja-se Gomes et al., 2011), o estimador a ser considerado em paralelo com a estatı́stica auxiliar T (k) := H(k) − H([k/2]), onde [x] denota a parte inteira de x. Redução de viés e a metodologia jackknife Mas nos nı́veis óptimos referidos na Secção 2, ainda temos um viés assintótico não-nulo. Se quisermos remover esse viés, podemos usar o jackknife generalizado (GJ, do Inglês generalized jackknife). É então suficiente considerar um par adequado de estimadores do parâmetro de acontecimentos extremos em estudo, e construir combinações afins de viés-reduzido desses estimadores (veja-se Gomes et al., 2000, também entre outros, para a aplicação desta técnica ao estimador de Hill). Para ilustrar esta metodologia, consideraremos mais uma vez os estimadores H(k), em (2), e o novo estimador GJ H (k) := H(k) − 2−2ρ̂ H([k/2]) /(1 − 2−2ρ̂ ). (3) Agradecimentos: Investigação parcialmente financiada através dos Fundos Nacionais, FCT — Fundação para a Ciência e a Tecnologia, projecto PEst-OE/MAT/UI0006/2011, e PTDC / FEDER. Bibliografia [1] Caeiro, F., Gomes, M.I. e Pestana, D. (2005). Direct reduction of bias of the classical Hill estimator. Revstat, 3, 113–136. [2] Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of Statistics, 7, 1–26. [3] Gomes, M.I., Martins, M.J. e Neves, M.M. (2000). Alternatives to a semi-parametric estimator of parameters of rare events – the jackknife methodology. Extremes, 3, 207–229. [4] Gomes, M.I. e Oliveira, O. (2001). The bootstrap methodology in statistical extremes — the choice of the optimal sample fraction. Extremes, 4, 331–358. [5] Gomes, M.I., Mendonça, S. e Pestana, D. (2011). Adaptive reduced-bias tail index and VaR estimation via the bootstrap methodology. Comm. in Statistics – Theory and Methods, 40, 2946–2968. [6] Gray, H.L. e Schucany, W.R. (1972). The Generalized Jackknife Statistic. Marcel Dekker. [7] Hill, B. (1975). A simple general approach to inference about the tail of a distribution. Ann. Statist., 3, 1163–1174. SPE 2011 Mesa: João A. Branco 302 Índice de Autores Índice de Autores Madalena Abreu, 299 Anabela Afonso, 157, 189 Airlane P. Alencar, 173 Eduardo Almaraz-Luengo, 79 Elena Almaraz-Luengo, 79 Ana Almeida, 251 Russell Alpizar-Jara, 93, 189 Conceição Amado, 191 Maria José Amorim, 87 Valeska Andreozzi, 269 Luı́s Antunes, 271, 275 Nelson Antunes, 143, 145 Isabel Araújo, 85 Paulo Araújo Santos, 135, 233 Emilia Athayde, 111 Fernando Bação, 293 João Barreiros, 57 Adriana Belo, 273 Maria José Bento, 31, 271, 275 José Aurélio Garcia Bergmann, 213 Patrı́cia de Zea Bermudez, 47 Joana Bernardino, 267 Carla Bessa, 245 Ana M. Bianco, 211 Regina Bispo, 267 Graciela Boente, 159, 211 Martin Boer, 65 José Borges, 171 Ana Braga, 13, 85 João A. Branco, 3 Carlos A. Braumann, 41, 97, 99, 227, 229 Maria de Fátima Brilhante, 21 Nuno Brites, 227 Paula Brito, 181, 183, 185 Teodoro Briz, 37 Sarah Martins Salomão Brodbeck, 263 M. Salomé Cabral, 1 Frederico Caeiro, 235 Teresa Calapez, 215 Francisco Lage Calheiros, 245 Helena Cardoso, 299 João Lourenço Cardoso, 257 Margarida Cardoso, 87 SPE 2011 – Programa e Resumos Ana Isabel Carita, 179 Clara Carlos, 99, 227, 229 Manuel do Carmo, 71 Nuno Carmona, 243 Laura Carreto, 63 Armindo Carvalho, 217 Carlos Carvalho, 89 Luı́sa Carvalho, 157 M. Lucı́lia Carvalho, 171 Miguel de Carvalho, 237, 289 Ana Cristina Casimiro, 29 Miguel Casquilho, 73 Philippe Castagliola, 35 Clara Castro, 31 Fernando Ceia, 93 Luı́s Chorão, 151 Carlos A. Coelho, 139 Clara Cordeiro, 241 Ana Maria Correia, 111 Carla Correia-Gomes, 107 Joaquim F.P. da Costa, 117 Manuel João Costa, 7 Patrı́cia Costa, 109 Patrı́cio Costa, 7 Luı́s Cotrim, 291 Teresa Crespo, 251 Daniela Cunha, 275 Anthony Davison, 237, 289 Joana Dias, 89, 111 José Carlos Dias, 41 José G. Dias, 151, 153, 285 Otı́lia Dias, 113 Sónia Dias, 183 Sara Simões Dias, 269 Nancy DiMarzio, 91 Ana Diniz, 57 Isabel Pinto Doria, 113 Fred van Eeuwijk, 65 Sofia Eurico, 115 Inês Faria, 57 Susana Faria, 89 João Farrajota, 167 Miguel Felgueiras, 277 303 Índice de Autores Filipe Felisberto, 277 Neimar da Silva Fernandes, 263 Maria Eugénia Ferrão, 109 Ana Sousa Ferreira, 113 António Paulo Ferreira, 179 Dário Ferreira, 193 Ernesto Ferreira, 155 Fátima Ferreira, 17 Marta Ferreira, 33 Sandra Ferreira, 193 Adelaide Sousa Figueiredo, 195 Fernanda Otı́lia Figueiredo, 35 Patrı́cia A. Filipe, 37, 227, 229 Peter Filzmoser, 141 Sı́lvia Fonte Santa, 253 Isabel Fraga Alves, 135, 233 Adelaide Freitas, 63 Ana Cristina Moreira Freitas, 279 Duarte Freitas, 119 Sónia Freitas, 197 A. Rita Gaio, 117 Hugh G. Gauch, 65 Sandra Gavinha, 281 Atiyo Ghosh, 19 Dulce Gomes, 37 M. Ivette Gomes, 47, 101, 103, 105, 205, 235, 301 Ana Rita Gonçalves, 111 Esmeralda Gonçalves, 43 Homero Alexandre Gonçalves, 255 Luzia Gonçalves, 11 M. Helena Gonçalves, 1 Ana Cláudia Gouveia, 253 Délia Gouveia, 39 Pedro M.D.C.B. Gouveia, 59 Sónia Gouveia, 225 Maria do Carmo Miranda Guedes, 243 Manuela Guerreiro, 123 Patsy Haccou, 19 Carla Henriques, 15 Eva Henriques, 197 Lı́gia Henriques-Rodrigues, 105 Paulo Infante, 29, 71, 127, 157 Gonçalo Jacinto, 127, 143, 145 Susan Jarvis, 91 SPE 2011 – Programa e Resumos Irina Kislaya, 7 Sandra Lagarto, 97 Ângela Maria Quintão Lana, 213 Manuela Larguinho, 41 Nuno Lavado, 215 Jorge Lengler, 83 Renato Ribeiro de Lima, 213 Victor Lobo, 293 Luiz Guerreiro Lopes, 39 Vanda M. Lourenço, 199 Francisco Macedo, 201 Pedro Macedo, 177, 203 Luı́s Machado, 265, 275 Fernando Magalhães, 209 José Maia, 119 Marcos Malosetti, 65 José Ramos Pires Manso, 155 Maria Conceição Manso, 281 Luı́s Margalho, 169 Catarina Marques, 83 Filipe J. Marques, 139 Jorge Marques, 45 Sara Marques, 243 Susete Marques, 171 Tiago A. Marques, 91, 267 Steve W. Martin, 91 Cristina Martins, 43 Francisco V. Martins, 217 João Paulo Martins, 25 José A. Pinto Martins, 163 Maria Alice Martins, 283 Rosário Oliveira Martins, 269 Marco Marto, 207 Ana Cristina Matos, 15 David K. Mellinger, 91 Vera Melo, 299 Júlio Mendes, 123 Jorge Mendes, 71 Nazaré Mendes Lopes, 43 Zilda Mendes, 295 Denisa Mendonça, 89, 107, 271, 297, 299 Maria Isabel Mendonça, 197 Sandra Mendonça, 39 Teresa Mendonça, 149, 221 Rute Meneses, 299 Raquel Menezes, 131, 169, 223 João Tiago Mexia, 147, 175, 193 304 Índice de Autores Cristina Miranda, 205 Danilo Monte-Mor, 27, 77 Patrı́cia Manarte Monteiro, 281 Pedro Monteiro, 273 Manuel Cabral Morais, 23, 69 Ana Moreira, 265 David Moretti, 91 Ronald P. Morrissey, 91 Teresa Mota, 85 Filipa Mourão, 13 Cláudia Pereira, 127 Dulce Gamito Pereira, 147, 175 Isabel Pereira, 207, 247, 259 Dinis Pestana, 21, 103 Alexandra Pinto, 293 Ana M. Pires, 199, 201 Bruno Pires, 249 Maria João Polidoro, 209 Miguel Portela, 7 Ana Prior, 95 Isabel Natário, 121, 171 João Neves, 119 M. Manuela Neves, 241, 245 Manuela Figueira Neves, 9 Alexandre Nicolella, 51, 133 Raquel Nicolette, 259 João Niza-Ribeiro, 107 Mariana Calife Nóbrega, 51, 133 Ana Rita Nunes, 121 Célia Nunes, 193 Carla Nunes, 37 Cláudia Nunes, 231 Rui Nunes, 67 Patrı́cia Ferreira Ramos, 69 Efigénio Rebelo, 67 Elizabeth Reis, 165 Ana Filipa Ribeiro, 89 Conceição Ribeiro, 257 Helena Ribeiro, 17, 283 Tiago Ribeiro, 77 Débora Ricardo, 231 Anabela Rocha, 205 Conceição Rocha, 149, 221 Cristina Rocha, 273 Lisandra Rocha, 223 Maria Luı́sa Rocha, 21 Anabela Rodrigues, 297 Isabel M. Rodrigues, 211 Paulo C. Rodrigues, 65 Sara Roque, 63 Carlos J. Roquete, 229 Álvaro Rosa, 165 Fátima C. Rosa, 73 Fernando Rosado, 9, 129, 187 Irene Oliveira, 61 Isabel Tiago de Oliveira, 285 Jorge Oliveira, 85 José M. Oliveira, 85 M. Rosário de Oliveira, 11, 119, 141 Manuel Oliveira, 149 Manuela M. Oliveira, 171 Paula Milheiro de Oliveira, 95 Pedro Oliveira, 13, 109 Rosa Oliveira, 287 Patrı́cia Oom do Valle, 67, 115, 123 Boris Oumow, 289 António Pacheco, 17, 69, 141, 143 Sabu S. Padmadas, 153, 285 José Pais-Ribeiro, 299 Rui Paiva, 125 Roberto Palma dos Reis, 197 Cláudia Pascoal, 119, 141 Rui Pascoal, 45 Luı́sa Pedro, 299 Salomé Pedro, 291 Andreia Pereira, 31 António Pereira, 277 SPE 2011 – Programa e Resumos Thelma Sáfadi, 173 Maria de Fátima Salgueiro, 75, 219 Tiago Salvador, 23 Marco Aurélio Sanfins, 27, 77 Jorge Santos, 131 Luı́s Ferreira dos Santos, 15 Maribel Luengo y Dos Santos, 79 Paulo Santos, 47 Rui Santos, 25, 283, 291 Wolfgang Schmid, 69, 81 Manuel Scotto, 177, 203, 225, 259 Fernando Sebastião, 61 Alexandra Seco, 277 Fernando Sequeira, 49 Maria Conceição Serra, 7, 19 Sı́lvia Shrubsall, 121 305 Índice de Autores A. Pedro Duarte Silva, 185 Ana Rita Silva, 85 Ana Silva, 299 António Martins da Silva, 299 Camila Silva, 77 Elvira Silva, 177, 203 Fabyano Fonseca e Silva, 213 Isabel Silva, 299 João Albino Silva, 115 Maria Eduarda Silva, 221, 243 Martinho de Almeida e Silva, 213 Nélia Silva, 247 Natascha Almeida Marques da Silva, 213 Neimar Fernandes da Silva, 51, 133 Tufi Machado Soares, 51, 133, 263 Ana Sousa, 295 Inês Sousa, 31, 53, 169, 223 Ricardo Sousa, 25 Manuela Souto de Miranda, 205 Ana Subtil, 11 Victor Ramos Tavares, 147, 175 Carlos Teixeira, 131 Laetitia Teixeira, 297 Armando Teixeira-Pinto, 287 Júlia Teles, 5 Paulo Teles, 181 Carlos Tenreiro, 137 Kamil Feridun Turkman, 55, 261 M. Antónia Amaral Turkman, 209, 257, 295 Eugen Ursu, 55 Rui Valadas, 141 Jos van der Velden, 239 Sı́lvio Velosa, 49 Leonel Vicente, 261 Paula C. R. Vicente, 75 Paula Vicente, 165 Madalena Vieira-Pinto, 107 Estela Vilhena, 299 SPE 2011 – Programa e Resumos 306