Probabilidades - M. Barros Consultoria
Transcrição
Probabilidades - M. Barros Consultoria
Quem sou eu? Métodos Estatísticos de Apoio à Decisão Mônica Barros Doutora em Séries Temporais – PUC-Rio Mestre em Estatística – University of Texas at Austin, EUA Bacharel em Matemática – University of Washington, Seattle, EUA Professora da PUC-Rio (Depto. De Eng. Elétrica) E-mails: [email protected], [email protected] Home page: http://www.mbarros.com Aulas 1 e 2 Mônica Barros, D.Sc. Julho de 2007 monica@ [email protected] ele.puc--rio. rio.br 1 Descrição 1 T Probabilidade: Definições básicas 2 T Probabilidade: Definições básicas Definições básicas: probabilidade, espaço amostral, eventos, propriedades das probabilidades, Probabilidade Condicional, Independência;Teorema de Bayes Variáveis Aleatórias Contínuas e Discretas , Função de Probabilidade, Função Densidade, Função de Distribuição, Momentos de uma v.a., Média, Variância e Desvio Padrão 3 4 5 T T T Probabilidade: Definições básicas Probabilidade: v.a. Contínuas Probabilidade: v.a. Contínuas Variáveis Discretas: Bernoulli, Binomial, Geométrica, Binomial Negativa, Poisson; Variáveis Contínuas: Uniforme, Exponencial, Gama, Qui-quadrado, LogNormal, Weibull, t, F Variável aleatória Normal 6 7 P T Pratica 1 Probabilidade: v.a. Contínuas Aula de exercícios - As funções do Excel para cálculo de probabilidades para v.a. Contínuas e discretas O teorema central do limite e a importância da distribuição Normal 8 C 9 T/P 10 T/P 11 T/P CASE 1: Simulação - soma de v.a. e o teorema central do limite CASE 2: Otimização de um portfolio simulado - propriedades da média e variância e o uso do Solver Estatística - estimação pontual e Prática 2 Estatística - estimação por intervalos e Prática 3 Estatística - testes de hipóteses e Prática 4 O teorema central do limite na prática - soma de variáveis aleatórias e a convergência para a Normal. Distribuição da soma de v.a. e da média amostral. Propriedades da média e variância de combinações lineares de v.a. - o efeito da correlação. O uso do Solver do Excel. Estimação por máxima verossimilhança e métodos de momentos - Exercícios Intervalos de confiança para amostras Normais e proporção Binomial - Exercícios - intervalos de confiança empregando o Excel Teste de hipótese para amostrais normais e Exercícios Alterações: inclusão de estatística descritiva na aula 1 monica@ [email protected] ele.puc--rio. rio.br 2 Nota – Instalação das Ferramentas de Análise do Excel Programa do Curso Aula Tipo (T-P-C) Tema monica@ [email protected] ele.puc--rio. rio.br 3 Muitas das técnicas descritas aqui requerem a prévia instalação do suplemento (“add-in”) “Ferramentas de Análise” do Excel. O procedimento de instalação é descrito a seguir: No menu Ferramentas, selecione “Suplementos” e na caixa de diálogo que será aberta marque a opção “Ferramentas de análise”. Se esta opção não estiver presente, clique “procurar” para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o “set-up” do MS-Office. monica@ [email protected] ele.puc--rio. rio.br 4 Aula 1 Estatística Descritiva Definições básicas – Introdução à Probabilidade Estatística Descritiva Probabilidade Espaço amostral Eventos Propriedades das probabilidades Probabilidade Condicional Independência Teorema de Bayes monica@ [email protected] ele.puc--rio. rio.br 5 Prá que serve estatística? 6 Estatística Porque nos permite entender e lidar com a idéia de variabilidade. Um exemplo típico é: Produção de parafusos. Uma fábrica produz parafusos, que devem diâmetro dentro de certas especificações. Ao medirmos os diâmetros de 100 parafusos produzidos ao acaso existirão variações individuais. Estas variações são importantes? Até que ponto as variações observadas são aceitáveis? monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br 7 Em geral um número em Estatística não é apenas um número! A ele associamos uma medida de incerteza ou variabilidade. População e Amostra População = coleção de todos os elementos cujas características desejamos conhecer. Os elementos (ou "indivíduos") na população não são necessariamente pessoas! Amostra = subconjunto da população cujas características serão medidas. A amostra será usada para descobrir características da população. monica@ [email protected] ele.puc--rio. rio.br 8 Exemplos Exemplos 1) População = eleitores na cidade do Rio de Janeiro Amostra = 650 eleitores escolhidos aleatoriamente (ao acaso) Característica de interesse: percentual de eleitores que planejam votar num candidato X nas próximas eleições. 3) População = todos os domicílios com TV na 2) População = automóveis produzidos no Brasil entre 1997 e 2002 Amostra = 10000 carros escolhidos aleatoriamente dentre os sujeitos a “recall” das montadoras Característica de interesse: verificar se o proprietário do carro respondeu ao chamado de “recall” da fábrica monica@ [email protected] ele.puc--rio. rio.br Em resumo: A partir de uma amostra coletamos informaç informações que nos permitem permitem aprender alguma coisa interessante sobre a populaç população. 9 Por que fazer isso? monica@ [email protected] ele.puc--rio. rio.br 10 E agora? É economicamente eficiente! Os custos são infinitamente mais baixos que os de amostrar a população inteira (“censo”). Pode-se provar que, para populações muito grandes, uma amostra de cerca de 600 ou 1000 "indivíduos" fornece resultados bastante confiáveis sobre as características da população. monica@ [email protected] ele.puc--rio. rio.br cidade do Rio de Janeiro Amostra = 1000 domicílios com TV escolhidos ao acaso Característica de interesse = percentual de audiência de cada emissora de TV num certo dia da semana no horário de 18 às 22 horas. 11 Você coletou uma amostra e, dentro desta amostra você coletou dados numéricos (por exemplo, o consumo médio mensal em kWh dos domicílios numa certa área da cidade). O que fazer com isso? Existem 2 possibilidades: Você pode simplesmente descrever estes dados numéricos através de gráficos e tabelas. Isto é chamado de estatí estatística descritiva. descritiva A maioria das pesquisas de mercado faz só isso, que é sem dúvida, muito importante. monica@ [email protected] ele.puc--rio. rio.br 12 E agora? E agora? Você pode tentar tirar conclusões sobre as características da população a partir dos dados observados na amostra. Isso se chama estatística inferencial (ou simplesmente estatística!). Para que a gente consiga fazer isso, é necessário ter uma noção bastante abrangente de Probabilidades. monica@ [email protected] ele.puc--rio. rio.br 13 Na verdade, a estatística descritiva surgiu muito antes da estatística inferencial. Esta última depende da especificação de modelos matemáticos baseados numa noção fundamental, que é a de "probabilidade". monica@ [email protected] ele.puc--rio. rio.br 14 Estatística descritiva Gráficos ("A picture is worth one thousand words") Histograma Diagramas de Pareto Gráficos de dispersão, gráficos da variável ao longo do tempo, gráficos de barras, etc... Medidas Numéricas Média amostral Mediana amostral Desvio padrão amostral Variância amostral Assimetria e Curtose amostrais Percentis Covariância, Correlação amostrais monica@ [email protected] ele.puc--rio. rio.br 15 Alguns gráficos da evolução de variáveis ao longo do tempo monica@ [email protected] ele.puc--rio. rio.br 16 EXEMPLO: Preços de Petróleo Brent e WTI – dados diários – 02/01/1991 a 03/11/2006 Consumo Total Energia Elétrica Jan/1979 a Ago/2006 Consumo de Energia Elétrica - Total Brasil (GWh) - Fonte: Eletrobrás Preços de Petróleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006 32,000 84 80 76 72 27,000 68 64 60 22,000 56 52 48 17,000 44 40 36 12,000 32 28 24 20 7,000 monica@ [email protected] ele.puc--rio. rio.br 4/ 1/ 4/ 200 3/ 0 3/ 200 5 0 2/ /20 7 0 31 /20 0 30 /8/2 00 /1 00 29 0/2 0 /1 00 27 2/20 0 / 0 28 2/20 0 /4 0 27 /20 1 /6 0 26 /20 1 / 25 8/2 01 / 0 24 10/2 01 /1 00 22 2/20 1 /2 0 23 /20 1 / 0 22 4/20 2 / 0 21 6/20 2 20 /8/ 02 /1 20 19 0/2 02 /1 00 17 2/20 2 /2 0 18 /20 2 /4 0 17 /20 3 / 0 16 6/2 3 0 15 /8/2 03 /1 0 14 0/2 03 /1 00 2 12 /20 3 /2 0 12 /20 3 / 0 11 4/20 4 /6 0 10 /20 4 /8 0 9/ /20 4 10 0 8/ /20 4 12 0 4 6/ /20 2/ 04 7/ 200 4/ 5 2 6/ 00 6 5 5/ /200 8 4/ /20 5 10 0 3/ /2 5 12 00 5 1/ /200 2/ 5 2/ 200 4/ 6 1/ 200 6 31 /20 6 / 0 29 7/20 6 /9 06 /2 00 6 ja n/ 7 ja 9 n/ 8 ja 0 n/ 8 ja 1 n/ 82 ja n/ 8 ja 3 n/ 8 ja 4 n/ 85 ja n/ 8 ja 6 n/ 8 ja 7 n/ 8 ja 8 n/ 89 ja n/ 9 ja 0 n/ 9 ja 1 n/ 9 ja 2 n/ 9 ja 3 n/ 9 ja 4 n/ 95 ja n/ 9 ja 6 n/ 9 ja 7 n/ 98 ja n/ 9 ja 9 n/ 0 ja 0 n/ 0 ja 1 n/ 02 ja n/ 0 ja 3 n/ 0 ja 4 n/ 0 ja 5 n/ 06 16 17 EXEMPLO: IPC-FIPE monica@ Petróleo WTI [email protected] ele.puc--rio. rio.br Petróleo Brent 18 EXEMPLO: IPC-FIPE Inflação FIPE (% a.m) e quadrissemanas - 01/1995 a 10/2006 5 No gráfico anterior exibimos o IPC-FIPE (o Índice de Preços ao Consumidor da FIPE, um dos mais importantes índices de inflação com suas estimativas quadrissemanais) no período entre 01/1995 e 10/2006. As prévias quadrissemanais servem como indicadores da inflação do próximo mês medida pelo IPC-FIPE. No próximo gráfico exibimos os valores mais recentes (desde 2002) do IPC-FIPE. 4 3 2 1 ja n/ 95 0 -1 -2 Inflação - IPC - FIPE Inflação - IPC - FIPE - 1a. quadrissemana monica@ [email protected] ele.puc--rio. rio.br Inflação - IPC - FIPE - 2a. quadrissemana Inflação - IPC - FIPE - 3a. quadrissemana 19 monica@ [email protected] ele.puc--rio. rio.br 20 IBOVESPA Diário – Julho de 1994 a a 06/08/2004 IPC-FIPE desde 2002 Inflação FIPE (% a.m)- 01/2002 a 10/2006 Índice de ações - Ibovespa - fechamento (07/1994 a 08/2004) 3.0 25,000 2.5 20,000 2.0 1.5 15,000 1.0 0.5 10,000 ju l/0 6 ou t/0 6 ja n/ 06 ab r/0 6 ju l/0 5 ou t/0 5 ja n/ 05 ab r/0 5 ju l/0 4 ou t/0 4 ja n/ 04 ab r/0 4 ju l/0 3 ou t/0 3 ja n/ 03 ab r/0 3 -0.5 ju l/0 2 ou t/0 2 ja n/ 02 ab r/0 2 0.0 5,000 INFLAÇÃO - IPC - FIPE (% a.m.) 0 04 20 6/ 4 /0 0 0 29 1/2 3 /0 0 0 29 8/2 3 /0 0 0 30 3/2 2 /0 0 0 31 0/2 2 /1 0 0 30 5/2 1 /0 0 0 31 2/2 1 /1 0 0 30 7/2 1 /0 0 0 31 3/2 0 /0 0 0 01 9/2 0 /0 0 0 30 5/2 9 /0 9 9 01 2/1 9 /1 9 9 01 7/1 9 /0 9 9 02 1/1 8 /0 9 9 31 9/1 8 /0 9 9 01 4/1 7 /0 9 9 02 1/1 7 /1 9 9 01 6/1 7 /0 9 9 02 1/1 6 /0 9 9 01 8/1 6 /0 9 9 02 3/1 5 /0 9 9 03 0/1 5 /1 9 9 03 5/1 4 /0 9 9 04 2/1 4 /1 9 9 03 7/1 /0 04 monica@ [email protected] ele.puc--rio. rio.br 21 IBOVESPA Diário – Julho de 1994 a a 06/08/2004 monica@ [email protected] ele.puc--rio. rio.br 22 IBOVESPA Diário – Julho de 1994 a a 06/08/2004 Parece que a bolsa subiu muito durante quase todo o Plano Real. IBOVESPA em Pontos em Reais e Dólares 26000.00 23000.00 20000.00 Será que isso é mesmo verdade? 17000.00 14000.00 11000.00 Veja o próximo gráfico, em que comparamos o IBOVESPA em R$ e US$. 8000.00 5000.00 IBOVESPA em Dólares monica@ [email protected] ele.puc--rio. rio.br 23 monica@ [email protected] ele.puc--rio. rio.br 05/05/2004 26/12/2003 25/08/2003 17/04/2003 10/12/2002 08/08/2002 04/04/2002 22/11/2001 18/07/2001 13/03/2001 31/10/2000 28/06/2000 21/02/2000 14/10/1999 10/06/1999 01/02/1999 22/09/1998 19/05/1998 08/01/1998 03/09/1997 30/04/1997 17/12/1996 14/08/1996 11/04/1996 29/11/1995 25/07/1995 17/03/1995 08/11/1994 2000.00 04/07/1994 IBOVESPA em R$ 24 Exemplo - IBOVESPA e Dólar Ibovespa versus Dólar PTAX -10/12/2002 a 12/06/2003 14,500 14,000 Gráfico de Dispersão (uma variável versus outra) Neste período parece fazer sentido ajustar uma reta e poderíamos estipular um modelo que pudesse prever o IBOVESPA em função da taxa de câmbio 13,500 13,000 12,500 12,000 11,500 11,000 10,500 10,000 y = -3830.7x + 24366 R2 = 0.8954 9,500 9,000 2.80 monica@ [email protected] ele.puc--rio. rio.br 25 Exemplo - IBOVESPA e Dólar – incorporação de novos dados 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90 monica@ [email protected] ele.puc--rio. rio.br 26 Exemplo - IBOVESPA e Dólar – incorporação de novos dados Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004 Por que o modelo anterior não funciona? No período entre junho de 2003 e março de 2004 o dólar permaneceu praticamente estável, enquanto o índice Bovespa subiu consideravelmente, como podemos verificar no próximo gráfico. 26,000 24,000 Claramente, um modelo linear não é mais apropriado quando levamos em consideração os novos dados (entre junho de 2003 e março de 2004) - OU SEJA: O MODELO MUDOU! 22,000 20,000 18,000 16,000 y = -10612x + 48010 2 R = 0.4532 14,000 12,000 10,000 8,000 2.80 2.90 3.00 3.10 3.20 3.30 3.40 monica@ [email protected] ele.puc--rio. rio.br 3.50 3.60 3.70 3.80 3.90 27 monica@ [email protected] ele.puc--rio. rio.br 28 Exemplo - IBOVESPA e Dólar – incorporação de novos dados Exemplo - temperaturas Dados:Temperatura máxima (média das máximas) na estação de Santa Cruz (Rio de Janeiro) entre Jan/1982 e Dez/1991. O que fazer com todos estes 120 números? A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno! IBOVESPA - 10/12/2002 a 02/03/2004 25,000 Junho de 2003 23,000 21,000 19,000 17,000 15,000 13,000 11,000 10 / 25 12/ / 0 09 12/ 2 / 0 24 01/ 2 / 0 08 01/ 3 / 0 23 02/ 3 / 0 10 02/ 3 / 0 25 03/ 3 / 0 09 03/ 3 / 0 24 04/ 3 / 0 09 04/ 3 / 0 24 05/ 3 / 0 08 05/ 3 / 0 23 06/ 3 / 0 08 06/ 3 / 0 23 07/ 3 / 0 07 07/ 3 / 0 22 08/ 3 / 0 06 08/ 3 / 0 21 09/ 3 / 0 06 09/ 3 / 0 21 10/ 3 / 0 05 10/ 3 / 0 20 11/ 3 / 0 05 11/ 3 / 0 20 12/ 3 / 0 04 12/ 3 / 0 19 01/ 3 / 0 03 01/ 4 / 0 18 02/ 4 / 0 04 2/ 04 9,000 29 Temperaturas Máximas - 1982 a 1991 31 37 35 33 31 29 27 25 monica@ [email protected] ele.puc--rio. rio.br set/91 jan/91 mai/91 set/90 jan/90 mai/90 set/89 jan/89 mai/89 set/88 jan/88 mai/88 set/87 jan/87 mai/87 set/86 jan/86 mai/86 set/85 jan/85 mai/85 set/83 jan/83 mai/83 set/82 jan/82 mai/82 23 set/84 Além disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico também nos dá uma idéia do quanto a temperatura está variando em todo o período. Por exemplo, pode-se verificar que a temperatura máxima nestes 10 anos está sempre acima de 22 graus. monica@ [email protected] ele.puc--rio. rio.br 30 Exemplo - temperaturas jan/84 Exemplo - temperaturas monica@ [email protected] ele.puc--rio. rio.br mai/84 monica@ [email protected] ele.puc--rio. rio.br 32 Exemplo - temperaturas Exemplo - temperaturas O grá gráfico é muito útil, mas certamente não conta a estó estória toda .... Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25 graus? Tomando-se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm temperaturas entre estes dois valores? monica@ [email protected] ele.puc--rio. rio.br O primeiro passo é fazer a distribuição de freqüência dos seus dados. Isto é simplesmente uma medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos (chamados intervalos de classe) classe e conta quantas observações caem em cada intervalo. monica@ [email protected] ele.puc--rio. rio.br 34 Exemplo - temperaturas A escolha do nú número de intervalos é meio arbitrá arbitrária. O importante é garantir que o número de classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno, fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito grande, existirão muito poucas observações em cada classe. O primeiro passo é ordenar os dados pois facilita a colocação dos dados em cada classe. monica@ [email protected] ele.puc--rio. rio.br Podemos pensar nestas, e numa infinidade de outras questões. O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas. 33 Exemplo - temperaturas 35 Escolha do número de classes num diagrama de frequência Seja n o número de intervalos num diagrama de frequência. Recomenda-se escolher n entre 5 e 20. Quanto maior o número de observações, maior o número de intervalos. Geralmente usausa-se n igual à raiz quadrada do nú número total de observaç observações, ões que neste caso seria aproximadamente 11. Para facilitar a visualização em geral usamos intervalos com o mesmo comprimento. Também muitas vezes o primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um certo valor". monica@ [email protected] ele.puc--rio. rio.br 36 Exemplo - temperaturas Exemplo - temperaturas Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número nos permite encontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par. Neste caso eu decidi considerar 7 classes para as temperaturas. A primeira vai de 24 a 26 graus, a segunda vai de 26.1 a 28 graus e assim sucessivamente. O diagrama de freqüências encontrado está a seguir. monica@ [email protected] ele.puc--rio. rio.br 37 Exemplo – temperaturas Classe Frequência Relativa Frequência Relativa Acumulada 5.83% 24-26 graus 7 7/120 = 5.83 % 26.1- 28 graus 31 31/120 = 25.83 % 31.66% 28.1-30 graus 26 26/120 = 21.67 % 53.33% 30.1-32 graus 26 26/120 = 21.67 % 75.00% 32.1-34 graus 25 25/120 = 20.83 % 95.83% 34.1-36 graus 3 3/120 = 2.50 % 98.33% 36.1-38 graus 2 2/120 = 1.67 % 100% Totais 120 100% monica@ [email protected] ele.puc--rio. rio.br 38 Exemplo - temperaturas O diagrama de frequências já nos permite responder a diversas outras questões. Por exemplo, a grande maioria (69.17%) das temperaturas máximas está entre 26.1 e 32 graus. Também percebemos que temperaturas máximas acima de 34.1 graus são incomuns (apenas 5 dentre as 120). Veja que outras conclusões você consegue obter a partir deste diagrama. monica@ [email protected] ele.puc--rio. rio.br Frequência 39 A partir de um diagrama de frequências podemos facilmente construir um histograma. Histograma Gráfico de barras, onde o eixo vertical contém as frequências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes faz-se a área de cada barra igual à freqüência relativa de cada classe, de tal forma que a área total sob o histograma é 1 (100%). monica@ [email protected] ele.puc--rio. rio.br 40 Histograma – produção no Excel Histograma – produção no Excel É automática, mas você precisa ter instalado antes o suplemento (“add-in”) de ferramentas de análise de dados. Aliás, este suplemento será muito útil para nós, portanto instale-o. monica@ [email protected] ele.puc--rio. rio.br 41 Histograma – produção no Excel 42 Histograma – implementação no Excel em Português Células contendo os dados Células contendo os limites dos intervalos (não precisam ser especificados) – mas geralmente quando não os especificamos o Excel gera uns limites meio “feios” monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br 43 monica@ [email protected] ele.puc--rio. rio.br 44 Histograma – Retorno diário do preço do petróleo WTI – 01/1991 a 08/2006 Histograma – produção no Excel Note que este histograma usa intervalos diferentes dos especificados na tabela de freqüência mostrada anteriormente Histograma Histograma - Log Retornos Petróleo WTI - 1991 a 2006 800 35 A grande maioria dos retornos diários (variações diárias) nesta faixa, mas também variações extremas 700 30 600 25 Frequency Freqüência 500 20 400 15 300 10 200 100 5 0 24 26 28 30 32 34 36 38 -1 3. 1 -1 % 2. 2 -1 % 1. 3% -1 0. 4% -9 .5 % -8 .6 % -7 .7 % -6 .8 % -6 .0 % -5 .1 % -4 .2 % -3 .3 % -2 .4 % -1 .5 % -0 .6 % 0. 3% 1. 2% 2. 0% 2. 9% 3. 8% 4. 7% 5. 6% 6. 5% 7. 4% 8. 3% 9. 2 10 % .0 % 10 .9 % 11 .8 12 % .7 % 13 .6 14 % .5 % M or e 0 acima de 38 Intervalo monica@ [email protected] ele.puc--rio. rio.br Bin 45 Diagrama de Pareto 46 Exemplo – Consumo Residencial Como fazer um diagrama de Pareto? 1) Faça um gráfico de barras colocando a freqüência de cada tipo de evento no eixo vertical, e arranjando os eventos em ordem decrescente de ocorrência. Assim, a primeira barra corresponde ao evento que ocorre com mais freqüência, a segunda barra diz respeito ao segundo evento mais freqüente, e assim por diante. 2) Crie um eixo vertical no lado direito do seu gráfico contendo as freqüências relativas acumuladas. Faça uma linha juntando as frequências relativas acumuladas e a superponha ao gráfico de barras. monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br 47 Os dados a seguir representam a distribuição de domicílios residenciais por classe de consumo de energia elétrica na área de concessão de uma certa distribuidora de energia. Os dados referemse a uma pesquisa realizada em dezembro de 1995 com uma amostra de 1122 domicílios. Faixas de consumo número de domicílios freqüência relativa 0-50 KWh 127 127/1122 = 11.3 % 51-100 KWh 199 199/1122 = 17.7 % 101-150 KWh 225 20.10% 151-300 KWh 384 34.20% acima de 300 KWh 187 16.70% Total: 1122 monica@ [email protected] ele.puc--rio. rio.br 48 Exemplo – Consumo Residencial Medidas Numéricas O diagrama de Pareto para estes dados é: Diagrama de Pareto 400 350 300 250 200 150 100 A partir de agora suponha que os dados observados na amostra são x1, x2, ..., xn . n é o tamanho da amostra. A partir dos x's vamos encontrar números que resumem as características da amostra. Vamos estar interessados em dois tipos principais de medidas numéricas: as que caracterizam a localização do centro da amostra e as que caracterizam a dispersão dos dados. 50 0 151-300 KWh 101-150 KWh 51-100 KWh acima de 300 KWh 0-50 KWh monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br Medidas Numéricas Medidas de Tendência Central Medidas de Localização ou de tendência central 49 Medidas de Dispersão Média Amostral X= dizem onde está o "meio" dos seus dados exemplo: média e mediana amostrais 50 1 n ∑ Xi n i =1 No Excel: função Média (....) Considere agora a amostra x1, x2, ..., xn e suponha que você a ordene, de tal forma que x(1) seja o menor elemento da dizem o quanto os seus dados estão “espalhados” exemplo: desvio padrão e variância amostrais, amplitude amostral amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o maior elemento da amostra. Os valores x(1), x(2), ..., x(n) são chamados de estatí estatísticas de ordem da amostra. Outras medidas de tendência central e de dispersão serão definidas a partir das estatísticas de ordem. monica@ [email protected] ele.puc--rio. rio.br 51 monica@ [email protected] ele.puc--rio. rio.br 52 Medidas de Tendência Central Mediana É definida a partir das estatísticas de ordem. Medidas de Tendência Central ⎧ X⎛ n⎞ + X⎛ n ⎞ ⎜ +1⎟ ⎪ ⎜⎝ 2 ⎟⎠ ⎝2 ⎠ se n, o tamanho da amostra, é par ⎪ 2 ⎪ m=⎨ ou ⎪X + n 1 ⎛ ⎞ ⎪ ⎜ ⎟ se n, o tamanho da amostra, é ímpar ⎪ ⎝ 2⎠ ⎪⎩ Por exemplo, se existem 10 observações na amostra, a mediana equivale à média entre x(5) e x(6) . Se a amostra contém 11 elementos, a mediana é x(5) . A mediana amostral é menos influenciada que a média por observações aberrantes (“outliers”). No Excel é a função med(...) monica@ [email protected] ele.puc--rio. rio.br 53 Medidas de Dispersão Por exemplo, se os seus dados são 1,2,3,4,5, a média amostral é: (1+2+3+4+5)/5 = 3 e a mediana amostral tem o mesmo valor. Se agora os dados são: 1,2,3,4,45, a média amostral é: (1+2+3+4+45)/5 = 11, mas a mediana amostral continua sendo 3. Logo, a média amostral foi profundamente influenciada por um único valor, e o mesmo não aconteceu com a mediana amostral. monica@ [email protected] ele.puc--rio. rio.br Medidas de Dispersão As medidas de tendência central não são as únicas medidas necessárias para caracterizar uma amostra (ou população). 0.30 0.25 0.20 54 Precisamos também saber o quanto as observações na amostra estão " espalhadas". Tem maior dispersão – é mais“espalhada” 0.15 0.10 Por exemplo, no gráfico a seguir as populações têm a mesma média, mas certamente a segunda distribuição tem maior dispersão. 0.05 0.00 2 monica@ [email protected] ele.puc--rio. rio.br 55 7 12 17 monica@ [email protected] ele.puc--rio. rio.br 56 Medidas de Dispersão Medidas de Dispersão Variância Amostral Desvio Padrão Amostral É a medida mais comum de dispersão . A variância amostral, denotada por s2 é definida como: 1 n 2 s2 = ∑ (X n − 1 i =1 i −X) Onde X é a média amostral. Note que, por definição, a variância amostral é sempre não negativa!!! A unidade de medida da variância é o quadrado da unidade de medida das observações, o que dificulta a sua interpretação. monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br 58 Opção 1 s X É uma medida adimensional, e serve principalmente para comparar duas amostras que foram coletadas em unidades de medida diferentes, por exemplo, uma em cm e outra em polegadas. Amplitude Amostral A = X ( n ) − X (1) = máx − mín monica@ [email protected] ele.puc--rio. rio.br 1 n 2 ∑(Xi − X) n −1 i =1 Como obter estatísticas descritivas no Excel? Coeficiente de variação amostral CV = s = s2 = 57 Medidas de Dispersão O desvio padrão amostral, denotado por s, é definido como a raiz quadrada positiva da variância amostral. Pelos comentários anteriores, notamos que s é expresso nas mesmas unidades de medida que as observaç observações na amostra. amostra 59 Use as funções apropriadas, por exemplo, média(..), med(...), máximo(...), mínimo(...), desvpad(...), ... Opção 2 Use a ferramenta “estatística descritiva” dentro das opções de “análise de dados”, como indicado na tela a seguir. Várias outras estatísticas, como a curtose (que mede o “peso” das “caudas”(extremos) e a assimetria, são também fornecidas). monica@ [email protected] ele.puc--rio. rio.br 60 Como obter estatísticas descritivas no Excel? Como obter estatísticas descritivas no Excel? Células contendo os dados Indicador de nome da variável na 1a. posição da coluna ou linha Produzir estatísticas descritivas monica@ [email protected] ele.puc--rio. rio.br 61 Percentis monica@ [email protected] ele.puc--rio. rio.br 62 Quartis O percentil x% é o ponto tal que, a probabilidade de estar abaixo dele é x%. O percentil 50% é a MEDIANA de um conjunto de dados, e qualquer percentil entre 0 e 100% pode ser encontrado através da função PERCENTIL do Excel. monica@ [email protected] ele.puc--rio. rio.br 63 Primeiro Quartil: Q1 – é o percentil 25%, ou seja, 25% das observações estão abaixo de Q1 Segundo Quartil: Q2 - é a mediana Terceiro Quartil: Q3 – é o percentil 75% monica@ [email protected] ele.puc--rio. rio.br 64 Estatísticas Descritivas – Retorno do Petróleo WTI – 01/1991 a 08/2006 Percentis – Retorno do Petróleo WTI – 01/1991 a 08/2006 Percentis Estatísticas Descritivas - Retorno WTI - 1991 a agosto 2006 Média Mediana Moda Desvio Padrão Variância Curtose Assimetria Amplitude Mínimo Máximo Número de Obs. 0.017% 0.071% 0.000% 2.38% 0.001 26.338 -1.57 0.56 -40.64% 15.38% 3,836 monica@ [email protected] ele.puc--rio. rio.br 5% dos retornos abaixo de -3.53% 90% dos retornos abaixo de +2.51% 65 Análise dos Retornos do IBOVESPA 5% 10% 25% 50% 75% 90% 95% -3.53% -2.53% -1.17% 0.07% 1.28% 2.51% 3.45% monica@ [email protected] ele.puc--rio. rio.br 66 Histograma dos Retornos IBOVESPA Histograma dos retornos diários do IBOVESPA Considere agora os retornos diários do IBOVESPA no período entre 04 de julho de 1994 e 06/08/2004. 500 450 400 250 200 150 Onde log denota o logaritmo natural (base e) e Pt e Pt+1 são, respectivamente, os preços nos dias t e t + 1. O retorno definido acima é chamado de retorno geomé geométrico. monica@ [email protected] ele.puc--rio. rio.br 300 67 100 50 0 s ai M % 00 7. % 50 6. % 00 6. % 50 5. % 00 5. % 50 4. % 00 4. % 50 3. % 00 3. % 50 2. % 00 2. % 50 1. % 00 1. % 50 0. % 00 0. 0% .5 -0 0% .0 -1 0% .5 -1 0% .0 -2 0% .5 -2 0% .0 -3 0% .5 -3 0% .0 -4 0% .5 -4 0% .0 -5 0% .5 -5 0% .0 -6 0% .5 -6 0% .0 -7 350 Defina o retorno diário entre os dias t e t + 1 como: ⎛P ⎞ Rt +1 = log⎜⎜ t +1 ⎟⎟ ⎝ Pt ⎠ Freqüência Bloco monica@ [email protected] ele.puc--rio. rio.br 68 Análise dos Retornos do IBOVESPA Percentis dos Retornos Percentil Retorno Correspondente 1.0% -6.75% 5.0% -3.90% 10.0% -2.74% 25.0% -1.24% 50.0% 0.13% 75.0% 1.48% 90.0% 2.69% 95.0% 3.66% 99.0% 6.63% monica@ [email protected] ele.puc--rio. rio.br Uso da função “freqüência” Produz a freqüência (número de ocorrências num determinado intervalo). Por exemplo, dentre 2501 retornos diários do IBOVESPA, a referência: FREQÜÊNCIA(E$3:E$2503;G7) significa: Olhe para todos os dados em E$3 a E$2503 (são os retornos diários) e conte QUANTOS estão ABAIXO do valor em G7. O gráfico destas frequências é mostrado na próxima página. 69 Análise dos Retornos do IBOVESPA monica@ [email protected] ele.puc--rio. rio.br 70 Análise dos Retornos do IBOVESPA Frequüências Acumuladas - Retornos Diários 3,000 Se dividirmos cada uma destas freqüências por 2501 obtemos as freqüências relativas acumuladas – veremos mais tarde que isso é uma aproximação para a função de distribuição acumulada. Veja o próximo gráfico. 2,500 2,000 1,500 1,000 500 -1 5. 00 -7 % .0 0 -6 % .5 0 -6 % .0 0 -5 % .5 0 -5 % .0 0 -4 % .5 0 -4 % .0 0 -3 % .5 0 -3 % .0 0 -2 % .5 0 -2 % .0 0 -1 % .5 0 -1 % .0 0 -0 % .5 0% 0. 00 % 0. 50 % 1. 00 % 1. 50 % 2. 00 % 2. 50 % 3. 00 % 3. 50 % 4. 00 % 4. 50 % 5. 00 % 5. 50 % 6. 00 % 6. 50 % 7. 00 % 20 % 30 % - monica@ [email protected] ele.puc--rio. rio.br 71 monica@ [email protected] ele.puc--rio. rio.br 72 Análise dos Retornos do IBOVESPA Assimetria Frequüências Relativas Acumuladas - Retornos Diários 100% 95% 90% O coeficiente de assimetria amostral é definido como: ⎧1 n 3⎫ ⎨ ∑ (X i − X ) ⎬ ⎩ n i =1 ⎭ 85% 80% 75% γ3 = 70% 65% 60% 55% 50% 45% 40% ⎧1 n 2⎫ ⎨ ∑ (X i − X ) ⎬ ⎩ n i =1 ⎭ 3/ 2 ⎧n 3⎫ n ⎨∑ ( X i − X ) ⎬ ⎩ i =1 ⎭ = 3/ 2 n ⎧ 2⎫ ⎨∑ (X i − X ) ⎬ ⎩ i =1 ⎭ 35% 30% Se o coeficiente é zero, seus dados são simé simétricos em torno da média. 25% 20% 15% 10% 5% Se o coeficiente é positivo (assimetria positiva), existem valores “grandes” grandes” maiores que a mé média => existe uma cauda comprida para a direita. -1 5. 00 -7 % .0 0 -6 % .5 0 -6 % .0 0 -5 % .5 0 -5 % .0 0 -4 % .5 0 -4 % .0 0 -3 % .5 0 -3 % .0 0 -2 % .5 0 -2 % .0 0 -1 % .5 0 -1 % .0 0% -0 .5 0% 0. 00 % 0. 50 % 1. 00 % 1. 50 % 2. 00 % 2. 50 % 3. 00 % 3. 50 % 4. 00 % 4. 50 % 5. 00 % 5. 50 % 6. 00 % 6. 50 % 7. 00 % 20 % 30 % 0% monica@ [email protected] ele.puc--rio. rio.br 73 Assimetria monica@ [email protected] ele.puc--rio. rio.br Assimetria Distribution for PLD/B10 Distribution for DEM REAL/B7 0.080 Mean=28.82446 0.070 Values in 10^ -6 0.060 0.050 Na curva A acima a assimetria é positiva, a curva B é simétrica e a curva C tem assimetria negativa. 0.040 0.030 O oposto ocorre se a assimetria é negativa (em geral média MENOR que a mediana). monica@ [email protected] ele.puc--rio. rio.br Dados simé simétricos Dados com assimetria positiva Em geral, se a assimetria é positiva, a média é MAIOR que a mediana. 74 75 0.020 0.010 0.000 0 35 5% 18.8795 70 90% 105 140 9 8 7 6 5 4 3 2 1 0 0.75 Mean=919999.9 0.8375 5% 0.925 1.0125 1.1 Values in Millions 49.7419 5% 90% .8459 monica@ [email protected] ele.puc--rio. rio.br 5% .994 76 Curtose Curtose É uma medida do “achatamento” de uma distribuição de probabilidade. Como a distribuição Normal tem curtose igual a 3, usualmente define-se o “excesso de curtose”, ou seja, o quanto uma distribuição de probabilidade tem mais curtose que a Normal. monica@ [email protected] ele.puc--rio. rio.br Distribuições de retornos de ativos financeiros geralmente tem a “cara” de uma Normal, mas com excesso de curtose! Ao lado, a curva B é a Normal padrão e a curva A tem excesso de curtose. 77 monica@ [email protected] ele.puc--rio. rio.br 78 Curtose A fórmula do excesso de curtose é: n κ4 = n∑ ( X i − X ) 4 i =1 2⎞ ⎛ n ⎜ ∑( Xi − X ) ⎟ ⎝ i =1 ⎠ 2 Definições básicas – Introdução à Probabilidade −3 Note que, se os seus dados são Normais, esta medida é próxima de zero. monica@ [email protected] ele.puc--rio. rio.br 79 monica@ [email protected] ele.puc--rio. rio.br 80 Probabilidades – Introdução Probabilidades – Introdução Probabilidade faz parte do nosso dia a dia, por exemplo: “A previsão da meteorologia é de (grande chance de) chuvas ao final do dia” “O Flamengo possui (MUITAS!!!) chances matemáticas de chegar à final” A probabilidade do candidato XYZ chegar ao 2o. Turno das eleições presidenciais é pequena... A probabilidade da taxa SELIC cair na próxima reunião do COPOM é alta... Em resumo: estamos SEMPRE falando sobre probabilidades no nosso dia a dia, resta saber como quantificá-las, e quais os MODELOS mais comuns na prática. Na terminologia usual, a probabilidade reflete a chance de um determinado evento ocorrer. Quanto maior a probabilidade, maior a chance de ocorrência de um acontecimento. monica@ [email protected] ele.puc--rio. rio.br Aquela cujo resultado não pode ser conhecido antes da realizaç realização da mesma, mesma por exemplo: O resultado da jogada de um dado; O número de carros que passam num posto de pedágio num intervalo de meia hora; A cotação do dólar em 02/03/2005; Os números que vão “sair” no concurso da Mega-Sena da próxima semana; A carga no Sudeste às 18 horas de amanhã. monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br Sempre que lidamos com experiências aleatórias, ou seja, toda vez em que o “mundo” não é determinístico (quase sempre...) Experiência aleató aleatória IMPORTANTE: probabilidade é um número entre 0 e 1 sempre! 82 Experiência Aleatória E por que é necessário estudar probabilidades? 81 Experiência Aleatória 83 Mas... note que, embora você não saiba exatamente qual o resultado da experiência aleató aleatória, també também não existe ignorância completa sobre o assunto!!! No exemplo da jogada do dado, é claro que os resultados possíveis são {1, 2, 3, 4, 5, 6}, as faces do dado; No caso da Mega-Sena, o conjunto de valores possíveis são os 6 números sorteados no conjunto {0, ..., 50} e nos outros exemplos podemos estabelecer um intervalo de valores máximos e mínimos! monica@ [email protected] ele.puc--rio. rio.br 84 Espaço Amostral Evento É o conjunto de todos os possí possíveis resultados de uma experiência aleató aleatória. Total de nomes da lista telefônica do Rio de Janeiro (???) Valores entre R$ 1.50 e R$ 150 (cotação do dólar em 02/03/2007) Uma moeda é jogada 3 vezes, e observamos a seqüência de caras (H) e coroas (T). O espaço amostral é S = { HHH, THH, HTH, HHT, TTH, THT, HTT, TTT} Uma lâmpada é fabricada e testada até queimar, e registra-se o tempo de ocorrência deste evento. O espaço amostral é S = { x : x > 0 } O espaço amostral será denotado aqui por S. monica@ [email protected] ele.puc--rio. rio.br É um conjunto de possíveis resultados de uma experiência, isto é, um subconjunto do espaço amostral. Nomes na lista telefônica que comecem com P e tenham 5 letras Cotação do dólar entre R$ 3.50 e R$ 8.50 em 02/03/2007. O evento “sair 1 cara em 3 jogadas” é dado pelo conjunto: { HTT, THT, TTH} O evento “lâmpada durar menos de 1000 horas” pode ser expresso como: { x : 0 < x < 1000} 85 monica@ [email protected] ele.puc--rio. rio.br Evento Propriedades de Eventos Da definição segue diretamente que ambos ∅ e S são eventos. Se o espaço amostral é finito e possui n elementos, então existem 2n subconjuntos deste espaço amostral, isto é, existem 2n eventos. É claro que não podemos dizer quantos eventos existem associados a um espaço amostral infinito. monica@ [email protected] ele.puc--rio. rio.br 87 86 Se A e B são eventos – sua interseção também é um evento! Isso vale também para a interseção entre n eventos. Interseç Interseção entre os eventos A e B Espaç Espaço Amostral Evento A Evento B monica@ [email protected] ele.puc--rio. rio.br 88 Propriedades de Eventos Propriedades de Eventos Se A e B são eventos – sua união também é um evento! Esta propriedade é válidade também para a união de n eventos. Se A é um evento, o complemento de A, denotado por AC ou A , também é um evento. união entre os eventos A e B Espaç Espaço Amostral Espaç Espaço Amostral Evento A Ac Evento B A monica@ [email protected] ele.puc--rio. rio.br 89 monica@ [email protected] ele.puc--rio. rio.br 90 Eventos mutuamente exclusivos Definição axiomática de probabilidade Eventos mutuamente exclusivos – os elementos de A não pertencem a B e vice-versa, isto é, A ∩ B = ∅. A definição axiomática de probabilidade encara probabilidade como uma função cujo domínio é o espaço amostral. Logo, probabilidade é uma função que “sai” de S e “chega” no intervalo [0,1] e por isso precisamos saber “lidar” com conjuntos, pois o espaço amostral não é necessariamente numérico, como já vimos. Note que dois eventos complementares são mutuamente exclusivos Espaço Amostral A B monica@ [email protected] ele.puc--rio. rio.br 91 monica@ [email protected] ele.puc--rio. rio.br 92 Definição axiomática de probabilidade qualquer Definição axiomática de probabilidade Seja A um subconjunto amostral S. do espaço Podemos definir uma função P(.) tal que, se A ⊆ S, então P(A) é a probabilidade de que o resultado da experiência aleatória seja um elemento de A. [0,1] A probabilidade S Esta função P(.) "pega" elementos do espaço amostral e os leva num subconjunto dos reais, o intervalo [0,1]. monica@ [email protected] ele.puc--rio. rio.br 93 Definição axiomática de probabilidade monica@ [email protected] ele.puc--rio. rio.br 94 Definição axiomática de probabilidade Seja S o espaço amostral e A um subconjunto qualquer deste espaço. Uma função de probabilidade que atua sobre este espaço amostral satisfaz: i) 0 ≤ P(A) ≤ 1 para todo A ⊆ S ii) P(S) = 1 iii) P(A1 ∪ A2 ∪ A3 ∪.....) = P(A1) + P(A2) + P(A3) + ... onde os Ai são mutuamente exclusivos. Esta última propriedade é válida, em particular, quando existe um número finito de termos na união. monica@ [email protected] ele.puc--rio. rio.br No entanto, nem toda função que sai de S e chega em [0,1] pode ser chamada de probabilidade, ela tem que satisfazer certas condições. 95 A versão mais simples da expressão iii) será usada muitas vezes neste curso, e por isso a colocamos em destaque: P(A1 ∪ A2) = P(A1) + P(A2) se A1 e A2 forem mutuamente exclusivos. Estas três propriedades definem o tipo de função que pode ser chamada de "probabilidade". A princípio, existem infinitas funções que mapeiam S em [0,1], mas para ser chamada de “probabilidade”, uma função deve satisfazer os três requisitos anteriores. monica@ [email protected] ele.puc--rio. rio.br 96 Propriedades das Probabilidades Propriedades das Probabilidades A partir da definição podemos derivar diversas propriedades importantes. Seja A um subconjunto qualquer de S e Ac o seu complemento. Seja P(.) uma probabilidade definida em S. As seguintes propriedades decorrem da definição de probabilidade: P(Ø) = 0 Para todo A ⊆ S, P(Ac) = 1 - P(A) onde Ac é o complemento de A Para todo A ⊆ S, 0 ≤ P(A) ≤ 1 = P(S) Para quaisquer A1 e A2 em S tais que A1 ⊆ A2 então P(A1) ≤ P(A2) monica@ [email protected] ele.puc--rio. rio.br Esta última propriedade resulta numa certa “ordenação" dentro do espaço amostral, e diz simplesmente que, se um evento A1 está contido noutro, a probabilidade de A1 é menor ou igual à probabilidade do evento que o contém. A propriedade a seguir é uma das mais importantes na prática, e nos permite calcular a probabilidade da união de eventos que não são disjuntos. 97 Propriedades das Probabilidades monica@ [email protected] ele.puc--rio. rio.br Partição do Espaço Amostral Para quaisquer A1 e A2 em S: Pr(A1 ∪ A2) = Pr(A1) + Pr(A2) - Pr(A1 ∩ A2) Em particular, se A1 e A2 são mutuamente exclusivos: Pr(A1 ∪ A2) = Pr(A1) + Pr(A2) Esta propriedade é às vezes chamada de “lei da adição”. É formada por eventos cuja interseção é nula e cuja união é o próprio espaço amostral. Por exemplo, pessoas numa pesquisa de mercado classificadas em classes de consumo (A, B, C, D) – as classes formam uma partição do espaço amostral. Espaç Espaço Amostral A B C monica@ [email protected] ele.puc--rio. rio.br 98 99 D monica@ [email protected] ele.puc--rio. rio.br 100 Em resumo: casos particulares da lei da adição Exemplo – propriedades das probabilidades Eventos mutuamente exclusivos P(A ∪ B) = P(A) + P(B), pois P(A ∩ B) = 0 Eventos complementares P(A ∪ Ac) = P(A) + P(Ac) = 1, já que P(A ∩ Ac) = 0 Partição do espaço amostral (com 3 eventos) P(A ∪ B ∪ C) = P(A) + P(B) + P(C) = 1 monica@ [email protected] ele.puc--rio. rio.br 101 Probabilidade Condicional monica@ [email protected] ele.puc--rio. rio.br 102 Probabilidade Condicional Como será será que a probabilidade de um evento muda apó após sabermos que um outro evento ocorreu? Isso nos leva à idéia de probabilidade condicional. A idéia de probabilidade condicional é uma das mais importantes deste curso e está intimamente relacionada ao fato da ocorrência de um evento afetar ou não a probabilidade de ocorrência de outro evento. Uma probabilidade condicional nada mais é do que uma probabilidade calculada não mais a partir do espaço amostral inteiro S, e sim a partir de um subconjunto de S. monica@ [email protected] ele.puc--rio. rio.br Um banco possui 10 fundos de investimento. Desses, 6 são de renda fixa, 4 são corporativos e 2 são de renda fixa e corporativos. Se escolhermos um fundo ao acaso, qual é a probabilidade dele ser de renda fixa ou corporativo? Solução (evento A: renda fixa, evento B: corporativo) Universo = 10 elementos P(A ∪ B) = P(A) + P(B) – P(A ∩ B) P(A) = 6/10 = 0.6 P(B) = 4/10 = 0.4 P(A ∩ B) = 2/10 = 0.2 P(A ∪ B) = 0.6 + 0.4 – 0.2 = 0.8 ou 80% Motivaç Motivação Um grupo de pessoas inclui 40 com diploma de curso superior, 20 microempresários e 10 que são, ao mesmo tempo, portadores de diploma do curso superior e microempresários. Calcule a probabilidade de alguém ser microempresário sabendo que ele tem diploma de curso superior. Sejam os eventos: A = { pessoa tem diploma de curso superior } B = { pessoa é um microempresário } Seleciona-se uma das 50 pessoas aleatoriamente. Então: 103 monica@ [email protected] ele.puc--rio. rio.br 104 Probabilidade Condicional Probabilidade Condicional Pr( A ) = 40/50 , Pr( B ) = 20/50 e Pr( A ∩ B ) = 10/50 Considere o seguinte evento: a pessoa é microempresária e sabe-se que ela tem diploma de curso superior. A probabilidade deste evento deve ser diferente da probabilidade da pessoa ser microempresária, por que agora o espaço amostral não consiste mais nas 50 pessoas originais, mas apenas naquelas que possuem diploma de curso superior. A probabilidade condicional de que uma pessoa seja microempresária sabendo-se que ela tem diploma de curso superior é dada por: monica@ [email protected] ele.puc--rio. rio.br P(A ∩ B) / Pr(A) = 10 /40 = 0.25 Ou, em outras palavras, devemos olhar para as 10 pessoas na interseção dentre as 40 pessoas com diploma de curso superior. O nosso “mundo”, ao calcular a probabilidade condicional, restringe-se às 40 pessoas que têm curso superior, e não mais às 50 pessoas do grupo original. 105 Probabilidade Condicional monica@ [email protected] ele.puc--rio. rio.br 106 Probabilidade Condicional Exemplo Em uma amostra de 100 funcionários de uma empresa: Fumantes 35 são homens e fumantes, 28 são homens e não fumantes, 17 são mulheres fumantes 20 são mulheres e não fumantes. Qual a probabilidade de um funcionário escolhido ao acaso ser fumante, dado que ele é homem? monica@ [email protected] ele.puc--rio. rio.br 107 Mulheres Fumantes Não fumantes Homens 35 28 63 Mulheres 17 20 37 Total 52 48 100 Homens Total Não fumantes monica@ [email protected] ele.puc--rio. rio.br 108 Probabilidade Condicional Probabilidade Condicional Note que, quando definimos que o evento B ocorreu (o funcionário é homem), restringimos o espaço amostral à ocorrência do evento A (o funcionário é fumante) O novo universo passa a ser o próprio evento B Fumantes Mulheres Homens Não fumantes Utilizando o número de elementos de cada conjunto, temos: Fumantes Não fumantes Total Homens 35 28 63 Mulheres 17 20 37 Total 52 48 100 P(A | B) = 35/63 = 0.556 Ou empregando as probabilidades: P(B) = 63/100 = 0.63 P(A ∩ B) = 35/100 = 0.35 P(A ∩ B)/P(B) = 0.35/0.63 = 0.556 Novo universo P(A ∩ B) monica@ [email protected] ele.puc--rio. rio.br 109 Probabilidade Condicional Em geral, a probabilidade do evento B dado o evento A (ou dado que o evento A ocorreu) é: P (B | A) = P(A ∩ B)/P(A) Analogamente: P (A | B) = P(A ∩B)/P(B) Estas definições só são válidas quando os denominadores forem diferentes de zero. monica@ [email protected] ele.puc--rio. rio.br 110 Probabilidade Condicional Estes exemplos nos fizeram derivar naturamente a probabilidade condicional do evento B dado o evento A. monica@ [email protected] ele.puc--rio. rio.br Ao reordenarmos as expressões anteriores encontramos: P(A ∩B) = P (B | A) . P(A) = P(A | B). P(B) Este resultado é também conhecido como Teorema da Multiplicação. Este teorema nos permite escrever uma probabilidade condicional em termos da probabilidade condicional “inversa”, o que é útil quando uma delas for difícil de calcular. Em particular: P (B | A) = 111 P( A | B )P(B ) P ( A) monica@ [email protected] ele.puc--rio. rio.br 112 Eventos Independentes Probabilidade Condicional Dois eventos A e B são chamados de independentes se: Pr ( A ∩ B ) = Pr ( A ) . Pr ( B ) P(A | B) = (P(A). P(B))/P(B) = P(A) Do contrário, A e B são eventos dependentes. Independência é uma propriedade muito forte e tem um impacto direto sobre as probabilidades condicionais, como veremos a seguir. monica@ [email protected] ele.puc--rio. rio.br Ou seja, se A e B são independentes, a ocorrência de B não traz qualquer informação adicional sobre A. Analogamente, se A e B são independentes: P(B | A) = P(B) Em termos bastante informais, se A e B são independentes, um evento não tem “nada a ver” com o outro! 113 monica@ [email protected] ele.puc--rio. rio.br Independência e Dependência Renda Familiar Núm. Cartões Exemplo Tomou-se uma amostra com 1000 pessoas num shopping-center com o objetivo de investigar a relação entre renda familiar e posse de cartões de crédito. A partir dos dados da próxima tabela pergunta-se: existe independência entre “renda” e “posse de cartões de crédito”? monica@ [email protected] ele.puc--rio. rio.br 114 Independência e Dependência Para eventos independentes, 115 0 1 2 ou mais < R$ 500 R$ 501 a R$1000 R$ 1001 a R$ 2000 > R$ 2001 260 50 20 170 100 25 80 110 45 20 60 60 530 320 150 330 295 235 140 1000 Se existe independência entre as duas variáveis, então Pr(Ai ∩Bj) = Pr(Ai).Pr(Bj) para todos i e j, onde Ai indica o nível de renda e Bj o número de cartões de crédito. Logo, basta provar que a igualdade acima não é válida para ALGUMA célula na tabela para concluir que as duas variáveis são dependentes. Se olharmos para a célula superior esquerda vemos que: monica@ [email protected] ele.puc--rio. rio.br 116 Independência e Dependência Exemplo Pr(renda abaixo de R$ 500 E nenhum cartão) = 0.26 Mas: Pr(renda abaixo de R$ 500) = 330/1000 = 0.33 Pr( 0 cartões de crédito) = 530/1000 = 0.53 E como 0.26 ≠(0.33)(0.53), segue que as variáveis “renda familiar” e “número de cartões de crédito” são dependentes. monica@ [email protected] ele.puc--rio. rio.br Uma caixa contém R bolas vermelhas e B bolas azuis. Vamos tirar 2 bolas da caixa sem repô-las. Qual a probabilidade p da primeira bola ser vermelha e da segunda ser azul? Solução Sejam A e B os seguintes eventos: A = {1a. bola é vermelha} B = {2a. bola é azul} Se o evento A ocorreu, uma bola vermelha foi tirada da caixa. Como não há reposição, a probabilidade de obter uma bola azul na 2a. retirada é: 117 Exemplo Pr (B | A) = monica@ [email protected] ele.puc--rio. rio.br 118 Probabilidade Condicional B R + B −1 O evento ( A ∩ B ) é o evento {1a. bola é vermelha e a 2a. bola é azul}, e sua probabilidade é: P( A ∩ B ) = p = P( A).P(B | A) = Como será será que a probabilidade de um evento muda apó após sabermos que um outro evento ocorreu? Isso nos leva à idéia de probabilidade condicional. Uma probabilidade condicional nada mais é do que uma probabilidade calculada não mais a partir do espaço amostral inteiro S, e sim a partir de um subconjunto de S. Já vimos que a definição de prob. condicional é: R B . R + B R + B −1 P (B | A) = P(A ∩ B)/P(A) e, analogamente, P (A | B) = P(A ∩ B)/P(B) monica@ [email protected] ele.puc--rio. rio.br 119 monica@ [email protected] ele.puc--rio. rio.br 120 Probabilidade Condicional Exemplo Estas duas últimas expressões em conjunto nos levam ao resultado conhecido como Teorema da Multiplicaç Multiplicação: ão P(A ∩B) = P (B | A) . P(A) = P(A | B). P(B) Pr ( H ) = 0.4 = probabilidade de selecionar um homem Pr ( M ) = 0.6 = probabilidade de selecionar uma mulher Seja S o evento: "uma pessoa é fumante". Então: Pr (S | H ) = 0.5 e Pr ( S | M ) = 0.3. Desejamos encontrar Pr ( H |S ). A partir desta última expressão: P (B | A) = P( A | B )P(B ) P ( A) monica@ [email protected] ele.puc--rio. rio.br 121 Exemplo monica@ [email protected] ele.puc--rio. rio.br 122 Exemplo Pela definição de probabilidade condicional: Pr (H | S ) = Numa certa cidade 40% das pessoas são homens e 60% mulheres. Também, 50% dos homens e 30% das mulheres fumam. Ache a probabilidade de que uma pessoa seja homem, dado que esta pessoa é fumante. Solução Finalmente: Pr (H ∩ S ) Pr (S | H ) Pr (H ) = Pr (S ) Pr (S ) Pr (H | S ) = Mas Pr (H) e Pr (S | H) são conhecidas, e então só é preciso calcular Pr (S) (a probabilidade de um fumante na população). Mas, note que: S = (S ∩ M) ∪ (S ∩ H) e os conjuntos (S ∩ M) e (S ∩ H) são disjuntos Pr ( S ) = Pr ( S ∩ M ) + Pr ( S ∩ H ) = = Pr ( S | H ).Pr ( H ) + Pr ( S | M ).Pr ( M ) = = ( 0.5 ) ( 0.4 ) + ( 0.3 ) ( 0.6 ) = 0.38 monica@ [email protected] ele.puc--rio. rio.br 123 Pr (H ∩ S ) Pr (S | H ) Pr (H ) (0.5)(0.4) 20 10 = = = = = 0.5263 (0.38) 38 19 Pr (S ) Pr (S ) monica@ [email protected] ele.puc--rio. rio.br 124 Independência para mais de dois eventos Independência Dois eventos A e B são independentes se: Pr ( A ∩ B ) = Pr ( A ) . Pr ( B ) Se A e B são independentes, então as probabilidades condicionais são iguais às incondicionais, isto é: P(A | B) = (P(A). P(B))/P(B) = P(A) P(B | A) = P(B) Considere uma coleção de n eventos A1, A2, ..., An. Estes eventos são independentes se, e somente se: i) Pr ( A1 ∩ A2 ∩... ∩ An ) = = Pr(A1) . Pr(A2) ... Pr(An) e, ii) Toda sub-coleção de eventos contendo mais de dois e menos de n eventos é independente. Em outras palavras, se A e B são independentes, A “não traz qualquer informação sobre B” (e vice-versa). monica@ [email protected] ele.puc--rio. rio.br 125 Independência para mais de dois eventos monica@ [email protected] ele.puc--rio. rio.br Partição do Espaço Amostral No caso de 3 eventos A, B e C, a independência ocorre se TODAS as condições abaixo são satisfeitas: 1) Pr( A ∩ B) = Pr(A).Pr(B) 2) Pr( A ∩ C) = Pr(A).Pr(C) 3) Pr( B ∩ C) = Pr(B).Pr(C) 4) Pr( A ∩ B ∩ C) = Pr(A).Pr(B).Pr(C) Uma partição do espaço amostral é uma coleção de eventos mutuamente exclusivos cuja união é o próprio S (espaço amostral), como nas figuras a seguir. B1 B2 B3 A B6 B7 B B4 C B8 monica@ [email protected] ele.puc--rio. rio.br 126 127 D B5 monica@ [email protected] ele.puc--rio. rio.br 128 Partição do Espaço Amostral Partição do Espaço Amostral Em termos formais, os eventos B1, B2 , ...., Bk formam uma partição do espaço amostral S se: 1) Bi ∩ Bj = ∅ para todo i ≠ j 2) ∪ Bi = S 3) Pr( Bi ) > 0 para todo i Suponha que A é um evento qualquer em S e B1, B2 , ...., B8 formam uma partição de S, como na figura a seguir. B1 B2 B3 Para que serve uma partiç partição? Podemos escrever qualquer evento no espaç espaço amostral em termos das suas interseç interseções com os conjuntos que formam uma partiç partição do espaç espaço amostral. amostral. monica@ [email protected] ele.puc--rio. rio.br B6 B7 A B8 129 Então podemos escrever o evento A em termos das suas interseções com cada elemento da partição (neste exemplo, B1 a B8). monica@ [email protected] ele.puc--rio. rio.br É um resultado que decorre diretamente das propriedades de uma partição, como mostrado nas transparências anteriores. Note que: Pr(A) = Pr (A ∩ B1) + Pr (A ∩ B2) + Pr (A ∩ B3) + .....+ Pr (A ∩ Bk) Mas: Pr (A ∩Bi ) = Pr( Bi ). Pr(A⏐Bi) para i =1, 2, ...., k. Combinando estes dois resultados fornece o teorema da probabilidade total. A = (A ∩ B1) ∪ (A ∩ B2) ∪ (A ∩ B3) ∪ ..... (A ∩ Bk) Mas, os (A ∩ Bi) são mutuamente exclusivos, e assim é muito fácil calcular a probabilidade da sua união (basta somar as probabilidades). Logo: Pr(A) = Pr (A ∩ B1) + Pr (A ∩ B2) + Pr (A ∩ B3) + .....+ Pr (A ∩ Bk) Mas, cada uma destas probabilidades pode ser escrita em termos de probabilidades condicionais. monica@ [email protected] ele.puc--rio. rio.br B5 130 Teorema da Probabilidade Total Partição do Espaço Amostral B4 131 monica@ [email protected] ele.puc--rio. rio.br 132 Teorema da Probabilidade Total Teorema de Bayes Sejam B1, B2 , ...., Bk uma partição de S e A um evento qualquer em S. Então: Pr(A) = Pr(B1).Pr(A⏐B1) + Pr(B2).Pr(A⏐B2) + ..... + Pr(Bk).Pr(A⏐Bk) É um resultado muito útil em Probabilidade, que “mistura” os teoremas da multiplicação e da probabilidade total. Sejam B1, B2 , ...., Bk uma partição de S e A um evento qualquer em S. Então: O caso mais simples ocorre quando a partição é composta por apenas 2 eventos, B e seu complemento, Bc. Neste caso: Pr(A) = Pr(B).Pr(A⏐B) + Pr(Bc).Pr(A⏐Bc) monica@ [email protected] ele.puc--rio. rio.br Pr (Bi ∩ A) = Pr ( A) Pr (Bi ∩ A) = Pr ( A | Bi ) Pr (Bi ) ∑ Pr (A | B )Pr (B ) ∑ Pr (A | B )Pr (B ) k j =1 133 j j k j =1 j j Para qualquer evento Bi na partição e qualquer A. monica@ [email protected] ele.puc--rio. rio.br 134 Teorema de Bayes Para que serve? Muitas vezes conseguimos encontrar partições de S que são “óbvias” ou “naturais”; O teorema de Bayes nos permite “inverter” probabilidades condicionais, escrevendo uma probabilidade condicional que (esperamos!) é difícil de calcular diretamente em termos de probabilidades “fáceis” de calcular. monica@ [email protected] ele.puc--rio. rio.br Pr (Bi | A) = Teorema de Bayes 135 Cuidados ao usar o Teorema de Bayes ESCREVA OS EVENTOS DE INTERESSE. NÃO TENTE RESOLVER OS PROBLEMAS “DE CABEÇ CABEÇA” PARA MINIMIZAR SUAS CHANCES DE ERRO! monica@ [email protected] ele.puc--rio. rio.br 136 Exemplo - Bayes Exemplo - Bayes Os funcionários de uma empresa se dividem em 3 grupos: economistas, engenheiros e analistas de sistemas. Estes funcionários podem ocupar cargos técnicos ou gerenciais. Sabemos que: 40% dos funcionários são economistas, 30% dos funcionários são engenheiros e 30% dos funcionários são analistas de sistemas. a) Seleciona-se um funcionário aleatoriamente. Qual a probabilidade dele ocupar um cargo gerencial? b) Seleciona-se uma pessoa ao acaso na empresa e sabe-se que ela ocupa um cargo de gerência. Qual a probabilidade dela ter vindo de cada um dos três grupos, ou seja, dado que a pessoa é um gerente, qual a probabilidade dela ser economista, engenheiro ou analista de sistemas? O percentual de cada grupo ocupando cargos gerenciais é: 30% dos economistas, 40% dos engenheiros, 10% dos analistas de sistemas. monica@ [email protected] ele.puc--rio. rio.br 137 monica@ [email protected] ele.puc--rio. rio.br Exemplo - Bayes Exemplo - Bayes Solução a) Considere os eventos: A1 = {economistas}, A2 = {engenheiros}, A3 = {analistas de sistemas}, G = {cargo de gerência} Sabemos que: Pr(A1) = 0.40, Pr(A2) = 0.30, Pr (A3) = 0.30. Também: Pr(G⏐A1) = 0.30, Pr(G⏐A2) = 0.40 e Pr(G⏐A3) = 0.10. monica@ [email protected] ele.puc--rio. rio.br 139 138 Queremos encontrar Pr(G). Mas: Pr(G) = Pr(G ∩ A1) + Pr(G ∩ A2) + Pr(G ∩ A3) = = Pr(A1). Pr(G⏐A1) + Pr(A2). Pr(G⏐A2) + Pr(A3). Pr(G⏐A3) A substituição dos valores resulta em: Pr(G) = (0.40)(0.30) + (0.30)(0.40) + (0.30)(0.10) = (0.30)(0.90) = 27 % monica@ [email protected] ele.puc--rio. rio.br 140 Exemplo - Bayes Exemplo - Bayes Queremos descobrir Pr(Ai⏐G) para i = 1, 2, 3. Isto é uma aplicação direta do teorema de Bayes, já facilitada por que conhecemos o denominador (Pr(G)). Pr(G) = 0.27 (já calculado) Pr(A1⏐G) = Pr(G⏐A1). Pr(A1)/0.27 = (0.30)(0.40)/0.27 = 44.4% Pr(A2⏐G) = Pr(G⏐A2). Pr(A2)/0.27 = (0.40)(0.30)/0.27 = 44.4% Pr(A3⏐G) = Pr(G⏐A3). Pr(A3)/0.27 = (0.30)(0.10)/0.27 = 11.2% monica@ [email protected] ele.puc--rio. rio.br Dentre os clientes da classe A, 20% usam telefone pré-pago. Dentre os clientes da classe B, 40% usam telefone pré-pago. monica@ [email protected] ele.puc--rio. rio.br 142 Exemplo - Bayes Dentre os clientes da classe C, 90% usam telefone pré-pago. Dentre os clientes da classe D, 98% usam telefone pré-pago. Um cliente é escolhido aleatoriamente e tem o serviço pré-pago. Qual a probabilidade dele pertencer a cada uma das classes? Solução Aqui a partição “natural” da população já existe - os clientes estão divididos em classes de consumo. Se soubermos que alguém usa um telefone pré-pago, como isso afeta a probabilidade da pessoa estar em cada uma das classes de consumo? monica@ [email protected] ele.puc--rio. rio.br Uma empresa de telefonia celular quer saber como funciona a relação entre o uso do telefone e a renda de seus clientes. Uma pesquisa anterior revelou que: 10% dos clientes pertencem à classe A. 21% dos clientes pertencem à classe B. 35% dos clientes pertencem à classe C. 34% dos clientes pertencem à classe D. 141 Exemplo - Bayes 143 Suponha que A, B, C, D indicam, respectivamente, os eventos “pertencer à classe A”, “pertencer à classe B”, etc... Seja G o evento “usar celular pré-pago”. Então, do enunciado do problema: P(A) = 0.10, P(B) =0.21, P(C) = 0.35, P(D) = 0.34. P(G|A) = 0.20, P(G|B) =0.40, P(G|C) =0.90, P(G|D) = 0.98. monica@ [email protected] ele.puc--rio. rio.br 144 Exemplo - Bayes Exemplo - Bayes A probabilidade de um cliente escolhido ao acaso usar celular pré-pago é (pelo Teorema da Probabilidade Total): P (G ) = P(G | A)P( A) + P(G | B )P(B ) + P(G | C )P(C ) + P(G | D )P (D ) = = (0.20 )(0.10 ) + (0.40 )(0.21) + (0.90 )(0.35) + (0.98)(0.34 ) = 0.7522 P(G | A)P( A) (0.10 )(0.20 ) = = 2.66% 0.7522 P(G ) P(G | B )P(B ) (0.21)(0.40 ) = = 11.17% P (B | G ) = P(G ) 0.7522 P(G | C )P(C ) (0.35)(0.90 ) P(C | G ) = = = 41.88% P(G ) 0.7522 P(G | D )P(D ) (0.34 )(0.98) P (D | G ) = = = 44.30% P(G ) 0.7522 P( A | G ) = Escolhe-se um cliente ao acaso, e observa-se que ele usa celular pré-pago. Qual a probabilidade dele pertencer a cada uma das classes de consumo? monica@ [email protected] ele.puc--rio. rio.br 145 Exemplo - Bayes monica@ [email protected] ele.puc--rio. rio.br 146 Exemplo - Bayes Note que as probabilidades condicionais (dado que o cliente é pré-pago) são diferentes das incondicionais, e então existe DEPENDÊNCIA entre o uso do celular pré-pago e a classe de consumo! Por exemplo, a probabilidade de um cliente qualquer ser da classe A é 10%, mas se soubermos que o cliente é um usuário de pré-pago, a probabilidade dele ser de classe A cai para 2.66%. monica@ [email protected] ele.puc--rio. rio.br Agora o Teorema de Bayes entra em ação, mas, como já calculamos o denominador (a probabilidade de alguém ser cliente prépago), o cálculo se resume ao Teorema da Multiplicação. 147 No outro extremo, a probabilidade de um cliente qualquer ser da classe D é 34%. Dada a informação de que o cliente é “prépago”, a probabilidade dele ser “classe D” sobe para 44.3%. monica@ [email protected] ele.puc--rio. rio.br 148 Teorema de Bayes – para casa Teorema de Bayes – para casa Uma revenda de carros usados oferece garantia total por 4 meses para todos os carros que vende, e este é o seu grande diferencial de marketing. Uma pesquisa anterior revelou que: 12% dos carros vendidos são Peugeot. 13% dos carros vendidos são Ford. 18% dos carros vendidos são Fiat. 16% dos carros vendidos são GM. 20% dos carros vendidos são Volkswagen. 21% dos carros vendidos são de outros fabricantes. monica@ [email protected] ele.puc--rio. rio.br Dentre os compradores de Peugeot, 7% retornam à loja com alguma reclamação sobre o carro adquirido. Dentre os compradores de Ford, 8% retornam à loja com alguma reclamação sobre o carro adquirido. Dentre os compradores de Fiat, 15% retornam à loja com alguma reclamação sobre o carro adquirido. Dentre os compradores de GM, 10% retornam à loja com alguma reclamação sobre o carro adquirido. monica@ [email protected] ele.puc--rio. rio.br 150 Teorema de Bayes – para casa Dentre os compradores de Volkswagen, 16% retornam à loja com alguma reclamação sobre o carro adquirido. Dentre os compradores de outras marcas, 18% retornam à loja com alguma reclamação sobre o carro adquirido. Um comprador entra na loja com uma reclamação durante o período de vigência da garantia. Qual a probabilidade dele ter comprado um carro de cada uma das marcas (incluindo “outras”)? monica@ [email protected] ele.puc--rio. rio.br 149 Teorema de Bayes – para casa 151 Uma empresa de telefonia quer saber se vale a pena disponibilizar internet de banda larga para seus clientes, e encomendou uma pesquisa de mercado, cujos resultados estão a seguir: 15% dos clientes usam a internet mais de 30 horas por semana. 23% dos clientes usam a internet entre 20 e 30 horas por semana. 28% dos clientes usam a internet entre 10 e 20 horas por semana. 34% dos clientes usam a internet menos de 10 horas por semana. monica@ [email protected] ele.puc--rio. rio.br 152 Teorema de Bayes – para casa Teorema de Bayes – para casa Dentre os clientes que usam internet mais de 30 horas por semana, 90% estão interessados no acesso rápido (banda larga). Dentre os clientes que usam internet entre 20 e 30 horas por semana, 70% estão interessados no acesso rápido (banda larga). Dentre os clientes que usam internet menos de 10 horas por semana, 25% estão interessados no acesso rápido (banda larga). Um cliente é escolhido aleatoriamente e está interessado na internet de banda larga. Qual a probabilidade dele pertencer a cada uma das classes de usuário (mais de 30 horas, 20 a 30 horas, etc ...)? Dentre os clientes que usam internet entre 10 e 20 horas por semana, 45% estão interessados no acesso rápido (banda larga). monica@ [email protected] ele.puc--rio. rio.br 153 Teorema de Bayes – para casa 154 Teorema de Bayes – para casa Uma certa forma de câncer ocorre à razão de 3 em 1000 pessoas. Desenvolveu-se um teste para detectar a doença. Se um paciente é sadio, existe 5% de chance de um alarme falso. Se um paciente tem a doença, existe 2% de chance de que o teste não consiga detectá-la. Qual a probabilidade da pessoa ter a doença sabendo que o resultado do teste foi positivo (acusou a existência da doença)? monica@ [email protected] ele.puc--rio. rio.br monica@ [email protected] ele.puc--rio. rio.br 155 Uma empresa de telefonia celular quer saber como funciona a relação entre o uso do telefone e a renda de seus clientes. Uma pesquisa anterior revelou que: 10% dos clientes pertencem à classe A. 25% dos clientes pertencem à classe B. 35% dos clientes pertencem à classe C. 30% dos clientes pertencem à classe D. monica@ [email protected] ele.puc--rio. rio.br 156 Teorema de Bayes – para casa Dentre os clientes telefone pré-pago. Dentre os clientes telefone pré-pago. Dentre os clientes telefone pré-pago. Dentre os clientes telefone pré-pago. da classe A, 25% usam da classe B, 45% usam da classe C, 90% usam da classe D, 95% usam Um cliente é escolhido aleatoriamente e tem o serviço pré-pago. Qual a probabilidade dele pertencer a cada uma das classes? monica@ [email protected] ele.puc--rio. rio.br 157