amostras 1 2009 amostras Teoria e exercicios passo-a
Transcrição
amostras 1 2009 amostras Teoria e exercicios passo-a
amostras 2009 amostras Teoria e exercicios passo-a-passo Amostra e tipos de amostragens Margarida Pocinho 28-10-2009 1 amostras 2009 Índice Geral ÍNDICE DE TABELAS .................................................................................................................................................. 3 ÍNDICE DE FIGURAS ................................................................................................................................................... 3 ÍNDICE DE FÓRMULAS ............................................................................................................................................... 3 INTRODUÇÃO ............................................................................................................................................................ 4 1. NOÇÕES GERAIS .................................................................................................................................................... 4 Noções de estatistica ...........................................................................................................................................4 1.2 Noções de bioestatistica ................................................................................................................................6 1.2.1 - Definição ..............................................................................................................................................6 2. POPULAÇÃO E AMOSTRA ....................................................................................................................................... 9 2.1 Noções gerais ................................................................................................................................................9 2.1.1 Cálculo do tamanho mínimo da amostra ..............................................................................................11 3. TIPOS E MÉTODOS DE AMOSTRAGEM ................................................................................................................... 14 3.1 Amostragens Probabilísticas e Não-Probabilísticas ...................................................................................14 3.1.1 As Amostragens Probabilísticas ...........................................................................................................15 3.1.2 As Amostragens Não Probabilísticas: ..................................................................................................25 3.2 Propriedades da distribuição normal ..........................................................................................................26 4. DETERMINAÇÃO DO TAMANHO DA AMOSTRA ...................................................................................................... 31 4.1 Cálculo do Tamanho da Amostra para Populações Infinitas .....................................................................31 4.1.1.Proporção..............................................................................................................................................31 4.1.2. Determinação da Margem de Erro da Amostra ...................................................................................35 4.2. Cálculo do Tamanho da Amostra para Populações finitas ........................................................................36 4.2.1. Proporção.............................................................................................................................................36 4.2.2. Média ...................................................................................................................................................37 2 amostras 2009 Índice de Tabelas TABELA 1 EXEMPLO 1 DE NÚMEROS ALEATÓRIOS .................................................................................................... 16 TABELA 2: DISTRIBUIÇÃO NORMAL E RESPECTIVOS DESVIOS ................................................................................... 27 TABELA 3: CURVA NORMAL - TABELA Z (REDUZIDA) .............................................................................................. 29 TABELA 4:DISTRIBUIÇÃO NORMAL PADRÃO ........................................................................................................... 32 Índice de Figuras FIGURA 1:FLUXO DA IMPORTANCIA E CONTRIBUTO DA ESTATISTICA. ........................................................................ 6 FIGURA 2:POPULAÇÃO E AMOSTRA ............................................................................................................................ 9 FIGURA 3:POPULAÇÃO E AMOSTRA .......................................................................................................................... 15 FIGURA 4: AMOSTRA ESTRATIFICADA ...................................................................................................................... 20 FIGURA 5: AMOSTRA ESTRATIFICADA PROPORCIONAL ............................................................................................. 21 FIGURA 6: AMOSTRA ESTRATIFICADA NÃO PROPORCIONAL ...................................................................................... 21 Índice de Fórmulas FÓRMULA PARA POPULAÇÕES INFINITAS E VARIÁVEL INTERVALAR ........................................................................... 13 FÓRMULA PARA POPULAÇÕES FINITAS E VARIÁVEL INTERVALAR .............................................................................. 13 FÓRMULA PARA POPULAÇÕES INFINITAS E VARIÁVEL FÓRMULA PARA POPULAÇÕES FINITAS E VARIÁVEL QUALITATIVA ........................................................................ 13 QUALITATIVA ............................................................................ 14 FIGURA 3:POPULAÇÃO E AMOSTRA .......................................................................................................................... 15 FÓRMULA PARA PADRONIZAR TABELAS COM DISTRIBUIÇÃO GAUSSIANA................................................................... 27 FÓRMULA PARA POPULAÇÕES INFINITAS E VARIÁVEL DICOTÓMICA .......................................................................... 32 FÓRMULA PARA POPULAÇÕES INFINITAS QUANDO NÃO TEMOS NENHUMA ESTIMATIVA DE P’ ..................................... 34 FÓRMULA PARACONHECER A MARGEM DE ERRO PADRÃO ......................................................................................... 35 FÓRMULA PARA POPULAÇÕES FINITAS ..................................................................................................................... 36 3 amostras 2009 Introdução Desde séculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, não com o único fim de acumular números, mas com a esperança de utilizar os dados do passado para a resolução de problemas do presente assim como para a previsão de acontecimentos futuros. No entanto, o sucesso quanto a este objectivo só foi possível em data muito recente: só no final do século XIX e, sobretudo, no princípio do século XX é que, com a aplicação de probabilidades aos problemas sobre a interpretação dos dados recolhidos, foi possível resolver alguns deles. A Estatística conquistou, hoje, o seu lugar entre as ciências. O poder do seu método é, sobretudo, afirmado nas últimas décadas e aplica-se, agora, nos domínios mais variados. Até aqui, só um pequeno número de pessoas se preocupou com estudos estatísticos, quer pela natureza das suas investigações, quer por causa da sua utilidade para as diferentes profissões. O valor e a importância do método estatístico residem no esforço para melhor compreender o nosso mundo, tão maravilhosamente complexo, tanto no ponto de vista físico como social, levam-nos a sonhar que ele se torne objecto de um conhecimento como as outras ciências. A vida corrente levanos a decisões para passar do conhecido ao desconhecido, da experiência à previsão. Este manual tem por fim fornecer conhecimentos estatísticos (sem ter muitos conhecimentos matemáticos) e ajudar a interpretar os resultados que podem ser obtidos quer através do calculo manual, quer através de programas de computador. 1. Noções Gerais Noções de estatistica Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos longas de números que dizem respeito à população, à indústria ou ao comércio, como se vê frequentemente em revistas; para outras, ela dá gráficos mostrando a variação no tempo de um facto económico ou social, a produção ou os números relativos aos negócios de uma empresa, assim como se encontra nos escritórios de empresas privadas. Tão diferenciados se apresentam os métodos estatísticos que não é possível estabelecer uma definição que os contenha a todos. Apesar disso, apresentamos a seguir uma definição que, embora necessariamente incompleta como qualquer outra, tem a vantagem de introduzir o aluno na matéria. A Estatística tem como finalidade elaborar de uma síntese numérica que evidencie o que de mais generalizado e significativo exista num conjunto numeroso de observações. O grande número de observações de que se parte reflecte uma diversidade tal que se torna ininteligível a sua interpretação. Para que, a partir dessa diversidade se possa começar a entender logo, torna-se necessário reduzir sucessivamente as observações, ganhando-se em generalidade o que se vai perdendo em individualidade. A síntese implica, assim, que nos desprendamos do que é particular e individual para nos atermos ao que existe de mais geral no conjunto das observações; à medida que a síntese progride, vai-se perdendo o contacto com as particularidades imediatas. Deste modo, a Estatística não se ocupa do que é excepcional, mas apenas do que é geral: não se interessa pelo indivíduo, mas por grupos de indivíduos; não se ocupa, em suma, de uma só medição, mas de um conjunto de 4 amostras 2009 medições. Acrescente-se, ainda, que a síntese é numérica. Quer isto dizer que se prescinde inteiramente das palavras e dos recursos literários de mais ou menos efeito que elas possibilitam. Alcança-se a síntese pelo recurso exclusivo dos números. Daí o afã com que frequentemente se escolhem os números de acordo com os argumentos. A Estatística é intrinsecamente uma disciplina não literária, manipula exclusivamente números e alcança a síntese ordenandoos e cooperando com eles. “Estatística”, deriva de “status” que em latim significa Estado, e que só por si demonstra a ligação que sempre existiu entre ambos. O primeiro levantamento estatístico remonta a 3050 a.C., no Egipto, tendo como objectivo informar o estado sobre recursos humanos e económicos. No séc. XVII d.C., a disciplina de Estatística era já leccionada nas universidades alemãs, continuando com a finalidade de descrever as populações e as riquezas do Estado. Ainda no séc. XVII, dá-se a expansão dos seus campos de investigação a áreas como a Saúde pública; a Indústria; o Comércio e os Estudos Demográficos. Os métodos de inferência estatística surgem com Jonh Graunt (1620-1674), um modesto comerciante, que tira conclusões válidas sobre uma população desconhecida por ele. Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma expressão matemática, introduzindo o Cálculo das Probabilidades. Esta expressão matemática e o aparecimento do método dos mínimos quadrados, vêm credibilizar a Estatística conferindo-lhe a fundamentação matemática em que ela, hoje, assenta. No séc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatística nas análises Antropometria; das Ciências Sociais; da Economia e da Biologia. da Meteorologia; da Aos contributos anteriores Francis Galton (1822-1911), acrescenta as noções de regressão e correlação; Karl Pearson (1857-1936) apresenta a mais bela e acabada teoria de Estatística, ficando também conhecido pelos seus coeficientes (r; c); Fisher com os seus trabalhos sobre inferência Estatística também deu um grande contributo ao desenvolvimento da Estatística. Em 1943, dá-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser feito manualmente e passa, numa primeira fase, a ser apoiado por calculadoras potentes para mais tarde ser computadorizado. O Método Estatístico, segundo a teoria de Cramer, pressupõe as seguintes fases: Recolha de dados estatísticos: obtenção da amostra a partir da população, devendo depurar e rectificar os dados estatísticos, que no seu conjunto são denominados série estatística. Descrição: conjunto de operações, numéricas ou gráficas, efectuadas sobre os dados estatísticos determinando a sua distribuição; procede-se à sua ordenação, codificação e representação por meio de quadros e tabelas. Análise: consiste em tirar conclusões sobre a distribuição da população, determinar o seu grau de confiança e ainda formular hipóteses, tentando verificá-las, quanto ao fenómeno em estudo. Predição: é uma previsão do comportamento do fenómeno em estudo, tendo em conta a definição da distribuição estatística. Em termos gerais, parece-nos que uma boa definição do que é a estatística, já que resume os conceitos dos vários autores, é: Ciência que trata do planeamento, colheita, organização, sintetização, apresentação e análise de dados, bem como, a obtenção de conclusões válidas e tomada de decisões em diversos campos do saber (engenharias, saúde, biologia, farmácia, biofísica, ciencias sociais, geografia, etc.). Com efeito, o papel da Estatística na pesquisa científica é apoiar o investigador na formulação das hipóteses estatísticas e fixação das regras de decisão, no fornecimento de técnicas para um eficiente plano de 5 amostras 2009 investigação, na colheita, tabulação e análise dos dados (estatística descritiva) e em fornecer testes de hipóteses a serem realizados de tal modo que a incerteza da inferência possa ser expressa em um nível probabilístico pré-fixado (inferência estatística) cujo valor máximo de erro mais consensual é de 5%. (fig 1) FIGURA 1:FLUXO DA IMPORTANCIA E CONTRIBUTO DA ESTATISTICA. 1.2 Noções de bioestatistica 1.2.1 - Definição Historicamente foram muitas as definições estabelecidas para Estatística. Da mesma forma, são muitas as definições para Bioestatística. Preferimos adotar a seguinte: Conjunto de técnicas que permite recolher, apurar e apresentar dados para que sejam analisados, proporcionando inferências indutivas sobre as ciências da vida. A má utilização de dados médicos ou de outras ciências, com interpretações erróneas ou mal intencionadas, tem produzido um grande ceticismo em relação à estatística. Podemos encontrar muitos professores, clínicos ou mesmo profissionais de ciências básicas, que acham que “bom senso" é suficiente para tratar desses dados, que qualquer coisa que exija prova estatística não pode ter valor prático ou que procurarão um matemático se tiverem algum problema estatístico em seu trabalho. É importante compreender, no entanto, que cada vêz que se toma a média de duas leituras de exame, por exemplo, ou o número médio de dias de internamento no hospital de pacientes com determinada doença, se está a usar um método estatístico. Do mesmo modo, usamos métodos estatísticos para concluir que a pressão arterial do paciente está normal ou que um tratamento cirúrgico é melhor que outro. Deste modo, a Estatística nas ciências da saúde constitui-se realmente nos princípios da Medicina Quantitativa. Muito das ciências da saúde depende, directa ou indirectamente, de contagem ou mensuração. Isto é óbvio em pesquisa e verdadeiro também no diagnóstico. Quando um profissional superior de saúde, leva em consideração na avaliação de um tumor a sua idade e história familiar, está a utilizar dados quantitativos, ou seja, a incidência de tumores por idade e por família. Convencionou-ser chamar de Bioestatística o conjunto de conceitos e métodos científicos usados no tratamento da variabilidade nas ciências da saúde em especial as ciências médicas e biológicas. A Bioestatística fornece métodos para se tomar decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e verificando a influência de factores de risco no aparecimento de doenças. Dentro da área biológica, compreende-se por Biometria a ciência que estuda as medidas de seres vivos. A ênfase crescente do papel dos métodos quantitativos na prática da medicina torna imperativo que o estudante de medicina assim como o profissional de saúde tenham algum conhecimento de estatística. O estudante aprende na escola o melhor método de diagnostico e terapêutica; depois de formado dependerá necessariamente de trabalhos apresentados em reuniões, jornais e revistas cientificas, para aprender novos métodos de terapia, assim como os progressos em diagnostico e técnicas. Portanto, deverá : 6 amostras 2009 estar apto a avaliar por si próprio os resultados de outros pesquisadores, deverá decidir quando uma nova técnica ou método pode substituir os antigos. estar apto a dar à família do paciente, ou ao próprio, bem como aos seus colegas de trabalho, segurança quanto ao diagnóstico, o que pode depender de sua capacidade de avaliar adequadamente os resultados de exames laboratoriais e outros, como também de seu conhecimento sobre a relação entre a idade, sexo e outras condições do paciente e uma determinada doença. Os novos conhecimentos virão através do trabalho de pesquisa realizado por ele próprio ou por outros. ser capaz de seleccionar, da massa de informações, aquelas que forem válidas e que resistirem a testes científicos rígidos. desenvolver um ceticismo sadio em relação a tudo que lê. Uma noção básica é o reconhecimento de que os indivíduos diferem não apenas uns dos outros, mas também em relação a si próprios, de dia para dia ou mesmo de hora para hora. Uma certa quantidade de variação é normal, mas a questão que desafia o profissional de saúde é determinar quando uma variação específica se torna patológica (referente à doença). Para isso, o estudante deve aprender como medir a variação em indivíduos normais e definir qual é o limite de variação normal. Deve aprender que há algum erro aleatório presente em cada medida ou contagem feita. é altamente improvável que duas contagens sucessivas de glóbulos, feitas na mesma amostra de sangue, sejam idênticas. Quando, porém, uma diferença se torna maior que o erro de mensuração? Para exercer as suas funções do melhor modo possível, o profissional de saúde deve saber responder a questões como essa. Para cada medida ou determinação fornecida pelo laboratório, o profissional de saúde deve conhecer a variação que é parte do próprio método, para saber quando uma dada variação representa uma mudança real no paciente. Sempre que novos métodos de terapia são introduzidos, é necessário saber se são realmente superiores, isto é, mais eficientes que os velhos métodos. Será nacessário fazer-se a avaliação crítica do estudo experimental, verificando principalmente se as medidas foram realizadas de modo a produzir resultados fidedignos, se o factor em prova foi o único factor de diferença entre o grupo experimental e o grupo controle, se a diferença entre os resultados obtidos nos dois grupos foi maior que aquela que poderia ser atribuída ao acaso. Apenas depois da avaliação, através de técnicas estatísticas adequadas, da fidedignidade dos resultados, comparabilidade dos grupos experiência e controle e, significância da diferença encontrada é que podemos tirar as conclusões relativas ao novo método. O número de falhas encontradas em publicações médicas enfatiza a necessidade de uma avaliação crítica da literatura. Para ajudar o estudante a desenvolver tal atitude são necessários certos conceitos estatísticos básicos e uma certa familiaridade com a terminologia mais usada. Os Métodos estatísticos são essenciais no estudo de situações em que as variáveis de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Este é o caso da área da saúde principalmente na Medicina. Mesmo tomando-se um grupo de pacientes homogéneos, observa-se grande variabilidade, por exemplo, no tempo de sobrevida após um tratamento adequado. Dosagens de características hematológicas flutuam não só entre indivíduos, como também no mesmo indivíduo em ocasiões diferentes. Na realidade, há variações entre diferentes pacientes para qualquer variável de interesse clínico. Portanto, para se estudar problemas clínicos, é necessária uma metodologia capaz de tratar a variabilidade de forma adequada. Deve-se notar, entretanto, que ao tratar um paciente, o profissional de saúde se vale da experiência de eventos anteriores, vivenciada pessoalmente ou transmitida por outros através de livros e artigos. Assim, a Estatística pode ser vista como ferramenta de organização e validação do conhecimento na área da saúde. É inegável, hoje, que a ciência busca a verdade descrevendo o universo e estabelecendo princípios gerais para explicar os fenómenos do universo. Para tanto deve valer-se do pensamento científico, que se estabelece ao nível de uma linguagem teórica de conceitos e hipóteses. As hipóteses precisam ser comprovadas, quando se faz necessária a utilização de instrumentos operacionais que explicitarão os procedimentos usados para observação e mensuração do fenómeno. São as hipóteses estatísticas. 7 amostras 2009 A passagem da hipótese teórica para a hipótese estatística poderia ser assim exemplificada: Determinado investigador estudará a veracidade da hipótese: "Os indivíduos gordos comem mais que os indivíduos magros". Esta hipótese encerra alguns conceitos, como: gordo, magro e comer mais. Qualquer que seja o entendimento destes conceitos teóricos, para se operacionalizar a comprovação desta hipótese o investigador deverá estabelecer a maneira de medir gordo, magro e comer mais. Ou seja, como observar e medir gordo, magro e comer mais? Uma tradução operacional destes conceitos pode ser de que gordo é o indivíduo que apresente peso acima da faixa de normalidade no índice de massa corporal (IMC), e magro é o indivíduo que apresente peso abaixo dessa faixa. Comer mais seria traduzido como consumir mais calorias do que o definido como necessário pela tabela de ingestão diária de calorias de acordo com o perfil de atividades do indivíduo. Desta forma, a hipótese científica poderia ser enunciada como uma hipótese estatística da seguinte forma: "Os indivíduos que apresentam peso acima da faixa de normalidade do IMC, ingerem mais calorias (medidas pela tabela de ingestão diária), do que os indivíduos que apresentam peso abaixo da faixa de normalidade do IMC". Se esta hipótese referir-se a poucos indivíduos basta verificar se é verdade para estes indivíduos e a questão estará resolvida. No entanto, para a ciência não terá muita utilidade tal observação. Em ciência buscam-se hipóteses mais gerais, referentes a parâmetros populacionais. Para tanto, serão elaborados planos de coleta e análise de dados que testarão a hipótese. Os dados serão colhidos e analisados através de técnicas estatísticas adequadas e, através de uma inferência indutiva, aceita-se a veracidade ou falsidade da hipótese estatística e, conseqüentemente, de sua hipótese científica correspondente. Esquematicamente: Observa-se determinado fenómeno e elabora-se uma hipótese científica que procura estabelecer a relação entre seres e atributos; A partir da hipótese científica se deduz (inferência dedutiva) uma hipótese estatística que permita explicar o fenómeno observado dentro de uma estrutura universal e coerente, incorporada ao conjunto de conhecimentos actuais; Com a hipótese estatística se deduzem (inferência dedutiva) as conseqüências lógicas quanto ao que deve ser esperado empiricamente com relação à população; São estabelecidas as regras de decisão para aceitação ou não aceitação da hipótese; A hipótese será verificada quanto a sua veracidade ou falsidade através do estudo do comportamento do fenómeno, com colheita de dados e análise dos resultados através de técnicas estatísticas adequadas definidas previamente; De acordo com o definido como regra de decisão, induz-se (inferência indutiva), a partir dos resultados e com base na teoria das probabilidades, a veracidade ou falsidade da hipótese estatística e a veracidade científica correspondente. A inferência indutiva terá tanto mais significado quanto mais rigoroso for o delineamento da colheita de dados e quanto mais apropriada for a análise estatística destes dados. As falhas nestas fases podem implicar em que os valores encontrados não reflitam adequadamente os parâmetros correspondentes. A inferência da hipótese estatística para a científica será tanto melhor quanto mais adequada tenha sido a formulação dos conceitos teóricos. Uma conclusão indutiva bem confirmada é provisoriamente aceita como verdade, tornando-se um princípio. Será ajustada com a aquisição de novos conhecimentos, somando experiências que a regulem, e permitindo o contínuo ajuste do modelo à realidade do universo. Ao verificar a provável verdade de uma hipótese, a Estatística fornece, em bases probabilísticas, o risco de errar ao aceitar ou rejeitar uma hipótese. Constitui-se em um instrumento dos mais poderosos para o pesquisador na busca da verdade, e o principal instrumento para generalizar conclusões a partir de experimentos particulares. 8 amostras 2009 2. População e Amostra 2.1 Noções gerais População: somatório dos indivíduos ou elementos, com qualquer característica comum e que estão sujeitos a uma análise estatística, por terem interesse para o estudo. Quanto à sua origem pode ser: um conjunto de pessoas; um conjunto de objectos ou um conjunto de acontecimentos. Quanto à sua natureza pode ser: Existente ou real; Hipotética ou parcialmente existente. Pode ainda ser: um conjunto finito ou um conjunto infinito. Amostra: é um subconjunto retirado da população, que se supõe ser representativo de todas as características da mesma, sobre o qual será feito o estudo, com o objectivo de serem tiradas conclusões válidas sobre a população. Amostragem: é o procedimento pelo qual um grupo de pessoas ou um subconjunto de uma população é escolhido com vista a obter informações relacionadas com um fenómeno, e de tal forma que a população inteira nos interessa esteja representada (fig. 2) FIGURA 2:POPULAÇÃO E AMOSTRA Parâmetro: uma característica numérica da população, como uma média da população, μ um desvio padrão da população, σ uma proporção da população e assim por diante. O Plano de Amostragem serve para descrever a estratégia a utilizar para seleccionar a amostra. Este plano fornece os detalhes sobre a forma de proceder relativamente à utilização de um método de amostragem para determinado estudo. Logo que o investigador delimite a população potencial para o estudo, ele deve precisar os critérios de selecção dos seus elementos, que podem ser de inclusão ou de exclusão dos sujeitos que farão parte do estudo: Uma amostra é dita representativa se as suas características se assemelham o mais possível às da populaçãoalvo. É particularmente importante que a amostra represente não só as variáveis em estudo, mas também outros factores susceptíveis de exercer alguma influência sobre as variáveis estudadas, como a idade, o sexo, a escolaridade, o rendimento, etc. A Representatividade avalia-se comparando as médias da amostra com as da população-alvo. Sendo a População o conjunto de elementos (pessoas, coisas, objetos) que têm em comum uma característica em estudo, esta pode ser Finita - quando apresenta um número limitado de indivíduos (Exemplo: a população constituída por todos os pace makers colocados num hospital, num determinado periodo ou o numero de rastreios auditivos feitos num determinado dia numa unidade de rastreio). 9 amostras 2009 A população pode ainda ser Infinita: quando o número de observações for a partida indetermináve, como por exemplo a população constituída de todos os resultados (cara e coroa) em sucessivos lances de uma moeda). Sendo a Amostra o conjunto de elementos retirados da população, suficientemente representativos dessa mesma população, estaremos aptos para analisar os resultados como se estudássemos toda a população. A amostra é sempre finita, pelo que quanto maior for, mais significativo é o estudo. Contudo, como existe sempre a incerteza de que todas as características da população estão presentes numa amostra, já que estas são muitas vezes desconhecidas, admite-se que existe sempre um grau de erro. Como preliminar para uma discussão do papel que a teoria desempenha em uma pesquisa por amostragem, é interessante descrever sucintamente os estágios envolvidos no planeamento e execução de uma pesquisa. As pesquisas variam grandemente na sua complexidade. Extrair uma amostra de um conjunto de 5000 processos numerados e ordenados num arquivo de uma instituição de ensino superior é uma tarefa simples. Muito diferente é a extracção de uma amostra de seropositivos, face quer às várias disposições éticas como o direito à confidencialidade do seu estado de saúde, quer ao medo do preconceito e respectivas consequências sociais e profissionais, o que faz com que este tipo de grupos olhe com desconfiança qualquer estranho que comece a fazer perguntas. Podemos agrupar as principais fases de uma pesquisa, de forma um tanto arbitrária, nos seguintes 11 tópicos. Objectivos da pesquisa: devem estar claramente definidos para que todas as decisões estejam de acordo com os mesmos População: a população a ser submetida a amostragem deve coincidir com a população sobre quem desejamos informação (população alvo). Dados a serem recolhidos: convém verificar se todos os dados que se pretendem são relevantes para a finalidade da pesquisa e que nenhum dado essencial seja omisso. Há uma tendência frequente, sobretudo com populações humanas, de formular um número demasiadamente grande de questões, algumas das quais não chegam sequer a ser analisadas subsequentemente. Um questionário muito extenso reduz a qualidade das respostas, tanto a questões importantes como a questões secundárias. Grau de precisão desejado: os resultados de pesquisas por amostragem estão sempre sujeitos a certo grau de incerteza, não só porque se estudou apenas uma parte da população, mas também em decorrência de erros de mensuração. Esta incerteza pode ser reduzida aumentando-se o tamanho da amostra e utilizando-se instrumentos mais precisos de mensuração. O estatístico pode prestar bom auxílio nesta fase. Método de mensuração: parte importante do trabalho preliminar é a construção de formulários onde se registarão as perguntas e as respostas. No caso de questionários simples, as respostas podem às vezes ser pré-codificadas - isto é, registadas de maneira que possam ser transferidas sem dificuldade para uma base de dados. De facto, para construir bases de dados adequadas, é necessário pré-visualizar a estrutura das tabelas finais que serão usadas para tirar as conclusões pretendidas. Sistemas de referência: a construção de uma lista de unidades de amostragem, chamada Sistema de Referência, é, em geral, um dos principais problemas práticos. Com efeito, antes de seleccionar a amostra, a população deve ser dividida em partes, chamadas unidades de amostragem, sendo que estas devem abranger toda a população, sem qualquer sobreposição. Isto é: cada elemento da população deve pertencer a uma, e somente uma, unidade. Escolha da amostra: há uma variedade de planos para a escolha da amostra. Para cada plano considerado, podem-se fazer estimativas do tamanho da amostra com base no conhecimento do grau de precisão desejado. Devem-se comparar os custos relativos e o tempo envolvidos em cada plano antes de se tomar uma decisão. O pré-teste: deve-se testar sempre o questionário enquanto o método de recolha de dados, numa amostra semelhante à que vamos utilizar mas em tamanho reduzido. Isto quase sempre resulta em melhoria do instrumento e pode revelar outros problemas que seriam sérios de ultrapassar de outra forma. Organização do trabalho de campo: todas as tarefas devem estra previamente definidas em cronograma e em fases, antecipando desde logo os problemas, muitas vezes de carácter administrativo. É de grande 10 amostras 2009 valia um processo para verificação preliminar da qualidade dos resultados, que devem, desde logo prever, a ausência de resposta, isto é, a falha do entrevistador em obter informações de determinadas unidades da amostra. Resumo e análise dos dados: o primeiro passo é a depuração dos dados (ver se existe omissão de respostas, eliminar dados erróneos, má inserção de respostas, inconsistências, etc.). Só após a depuração se precedem aos cálculos que conduzem às estimativas. Informação e aprendizagem para futuras pesquisas: quanto mais informações tivermos inicialmente sobre uma população, mais fácil se torna planear uma amostra que dê estimativas precisas. Qualquer amostragem completada é, em potência, um guia para futuras amostragens, melhoradas nos vários dados que ela fornece (médias, desvios padrão, natureza da variabilidade das mensurações principais, o custo da obtenção dos dados, etc.). A prática da amostragem avança mais rapidamente quando se reúnem e registam informações deste tipo. Relativamente à aprendizagem, é um facto que um pesquisador arguto aprende a reconhecer erros de execução e fazer com que eles não ocorram em pesquisas futuras. Erro de Amostragem: é a diferença que existe entre os resultados obtidos numa amostra e os que teriam sido obtidos na população-alvo. Para reduzir ao mínimo o erro amostral deve-se recorrer a duas estratégias: 1. Retirar de forma aleatória e um número suficiente de sujeitos que farão parte da amostra. 2. Procurar reproduzir o mais fielmente possível a população pela tomada em conta das características conhecidas desta. 2.1.1 Cálculo do tamanho mínimo da amostra Apesar da existência de várias fórmulas, a amostra varia muito de pesquisa para pesquisa. Porém, deve se levar em conta o tamanho da população. Todavia, algumas observações podem ser levadas em considerações, a saber: Tamanho da diferença considerada importante Quanto menor a diferença maior a amostra Quanto maior o número de elementos numa amostra, menor os desvios dos parâmetros em relação ao valor esperado da população. Quanto maior a homogeneidade da população, menor a amostra a ser pesquisada. Poder desejado para o teste Probabilidade de que a amostra identifique uma diferença real Tempo, verbas e pessoal disponíveis, dificuldade na obtenção dos dados e complexidade do experimento Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer sector da actividade humana, utilizam as técnicas de amostragem no planeamento de seus trabalhos, não só pela impraticabilidade de poderem observar, numericamente, na sua totalidade determinada população em estudo, como devido ao aspecto económico dessas investigações, conduzidos com um menor custo operacional, dentro de um menor tempo, além de possibilitar maior precisão nos respectivos resultados, ao contrário, do que ocorre com os trabalhos realizados pelo processo censitário (COCHRAN, 1965; CRUZ, 1978). A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática mais adequada aos pesquisadores principiantes. Na teoria da amostragem, são consideradas duas dimensões: 1ª) Dimensionamento da Amostra; 2ª) Composição da Amostra. 11 amostras 2009 2.1.1.1 Procedimentos para determinar o tamanho da amostra São vários os procedimentos para determinar o tamnho de uma amostra, contudo deve ter-se em atenção a seguinte sequencia: Analisar o questionário, ou roteiro da entrevista e escolher uma variável que julgue mais importante para o estudo. Se possível mais do que uma; Verificar o nível de mensuração da variável: nominal, ordinal ou intervalar; Considerar o tamanho da população: infinita ou finita O tamanho da amostra determina-se em função do nível de mensuração da variável escolhida. São várias as formulas que permitem calcular o tamanho de uma amostra. A escolha depende do fenómeno em estudo ou dos paramentros disponíveis: Para os cálculos que se seguem escolhemos apenas alguns tipos de formulas com base na simplicidade da sua notação. 12 amostras 2009 2.1.1.1.1 - Variável intervalar e população infinita Sempre que a variável mais importante do seu estudo for de nível intervalar (variável quantitativa) use a fórmula: Fórmula para populações infinitas e variável intervalar onde: Z = abscissa da curva normal padrão, fixado um nível de confiança (1-) Z = 1,65 (1 - ) = 90% Z = 1,96 (1 - ) = 95% Z = 2,0 (1 - ) = 95.5% Z = 2,57 (1 - ) = 99% = desvio padrão da população, expresso na unidade variável, onde poderá ser determinado por: especificações técnicas com base em valores de estudos semelhantes conjecturas sobre possíveis valores d = erro amostral, expresso na unidade da variável. O erro amostral é a máxima diferença que o investigador admite suportar entre e x , isto é: x d . 2.1.1.1.2 - Variável intervalar e população finita Quando a variável é de nível intervalar e a população é considerada finita, determina-se o tamanho da amostra pela fórmula: Fórmula para populações finitas e variável intervalar onde: Z = abscissa da normal padrão 2 = variância populacional N = tamanho da população d = erro amostral 2.1.1.1.3 - Variável qualitativa (nominal ou ordinal) e população infinita No caso da variável de referencia ser nominal ou ordinal, e a população for considerada infinita, a fórmula pode ser: Fórmula para populações infinitas e variável qualitativa onde: Z = abscissa da normal padrão 𝑝= estimativa da verdadeira proporção de um dos níveis da variável escolhida. 13 amostras 2009 Por exemplo, se a variável escolhida for uma patologia tratada num serviço de um hospital, 𝑝 poderá ser a estimativa da verdadeira proporção dessa mesma patologia tratadas em todos os hospitais, nesse mesmo serviço (ficando excluídos os hospitais que não têm esse serviço). 𝑝 será expresso em decimais (𝑝 = 30% 𝑝 = 0.30). 𝑞 1𝑝 d = erro amostral, expresso em decimais. O erro amostral neste caso será a máxima diferença que o investigador admite suportar entre e 𝑝, isto é: 𝜋 − 𝑝 < 𝑑, em que é a verdadeira proporção (frequência relativa do evento a ser calculado a partir da amostra. 2.1.1.1.4 - Variável qualitativa (nominal ou ordinal) e população finita Se a variável for nominal ou ordinal, mas a população for considerada finita, determina-se o tamanho da amostra pela fórmula: Fórmula para populações finitas e variável qualitativa onde: Z = abscissa da normal padrão N = tamanho da população 𝑝= estimativa da proporção. 𝑞 1𝑝 d = erro amostral Estas fórmulas são básicas para qualquer tipo de composição da amostra; todavia, existem fórmulas específicas segundo o critério de composição da amostra. - Se o investigador escolher mais de uma variável, poderá acontecer de ter que aplicar mais de uma fórmula, assim deverá optar pelo maior valor de "n". Obs.: Quando não tivermos condições de prever o possível valor para 𝑝, admita 𝑝 = 0,50 pois, dessa forma, você terá o maior tamanho da amostra, admitindo-se constantes os demais elementos. 3. tipos e Métodos de Amostragem 3.1 Amostragens Probabilísticas e Não-Probabilísticas A amostragem é probabilística quando cada elemento na população tem a mesma probabilidade conhecida e diferente de zero de pertencer à amostra. É usada alguma forma de sorteio. Permite generalizações para a totalidade da população. 14 amostras 2009 O tipo de amostragem não probabilística, pode prejudicar a possibilidade de generalizações (validade externa) de um estudo, fazendo com que não seja representativo em relação à população. Os seus resultados são válidos para aquele estudo determinado, não permitindo generalizações para outras situações semelhantes. Exemplos: por voluntários: os elementos amostrais são voluntários para a pesquisa. Bastante empregada em experimentos com medicamentos e técnicas médicas. intencional: o pesquisador escolhe os elementos amostrais. Entrevistar os ex-secretários de saúde para pesquisa de políticas de saúde. por acesso mais fácil: os elementos são escolhidos por estarem mais próximos ou em melhores condições de acesso. Ex: Aplicar questionário na população da zona rural mais próxima do centro. 3.1.1 As Amostragens Probabilísticas Como já referimos os métodos de amostragem probabilística servem para assegurar uma certa precisão na estimação dos parâmetros da população, reduzindo o erro amostral. O objectivo desta abordagem é obter a melhor representatividade possível. Figura 3:população e amostra 3.1.1.1 Técnicas de Amostragens Probabilísticas As técnicas de amostragem probababilisticas mais comuns entre nós são: A Amostragem Aleatória Simples; A Amostragem Sistemática. A Amostragem Aleatória Estratificada; A Amostragem em Cachos; 3.1.1.1.1 - Amostragem Aleatória Simples A Amostragem aleatória simples é uma técnica segundo a qual cada um dos elementos (sujeitos) que compõe a população alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. É um procedimento que pode se tornar trabalhoso quando a população é muito grande. É aplicado quando a população é 15 amostras 2009 considerada homogénea. Para manter essa propriedade deve-se numerar todos os elementos da população e, através de um sorteio ou do auxílio de uma tabela de números aleatórios, obter os elementos que comporão a amostra desejada. Por exemplo: Obter uma amostra representativa, de 10%, de uma população de 200 alunos de uma escola. 1º) Numerar os alunos de 1 a 200; 2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna; 3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da população. Nesta técnica de amostragem, todos os elementos da população têm a mesma probabilidade de serem selecionados: 1/N, onde N é o número de elementos da população. Um outro exemplo é recorrer a uma lista com números aleatórios (LNA). Tabela 1 exemplo 1 de números aleatórios Os números aleatórios podem ser seleccionados de qualquer lugar da tabela, o importante é seleccionar e manter uma sequência lógica (ex: coluna de cima para baixo, linha esquerda para a direita, etc). Existem várias tabelas de números aleatórios com sequência de três, quatro ou cinco números. Essas tabelas também podem ser obtidas em programas como Excel. Apesar de se pretender representatividade quando recorremos a uma técnica de amostragem aleatória, pode ocorrer que a amostra não seja representativa da população. Por exemplo, uma população formada por 50% de mulheres e 50% de homens, a amostragem probabilística simples pode resultar numa amostra de 65% de mulheres e 35% de homens. Nesse caso a amostra continua a ser aleatória, mas não é representativa. Uma amostra aleatória simples poder ser constituida segundo duas técnicas: amostra com reposição amostra sem reposição 16 amostras 2009 Na amostragem com reposição, a unidade selecionada retorna para a população. Portanto, em cada nova selecção, a população mantém a mesma quantidade de unidades elementares. Na amostragem realizada sem reposição, a unidade seleccionada não retorna para a população. Portanto, em cada seleção a população é reduzida de uma unidade elementar. É importante observar que, em geral, as amostragens são realizadas sem reposição e os cálculos estatísticos nos dois tipos de amostragens são os mesmos. Por exemplo, numa pesquisa de intenção de voto para escolha do presidente da republica, espera se que cada pessoa seja entrevistada apenas uma vez. Se o tamanho da população for suficientemente maior que o tamanho da amostra, (pelo menos vinte vezes), os resultados estatísticos das amostras com e sem reposição não serão muito diferentes, pois a probabilidade de escolher o mesmo elemento é muito pequena. Contudo, deve-se ter cuidado redobrado quando a população é pequena quando comparadas com o tamanho da amostra a ser extraída. 3.1.1.1.1 - E1: Imagine que queria identificar uma amostra aleatória simples de 12 centros de saúde de um total de 372 de uma determinada sub-região, para passar um inquérito ou consultar um conjunto de processos clinicos. Os nomes dos centros estavam disponíveis na administração regional dessa mesma região. Como regra de aleatorização usou a oitava coluna de números aleatórios de cinco dígitos da tabela 1, ignorou os dois primeiros dígitos aleatórios em cada um dos grupos de números aleatórios de cinco dígito., começou com o número aleatório 108 (resultado de um sorteio) e continuou de cima para baixo na coluna de números aleatórios. Qual foi o resultado da selecção1? No caso da técnica de amostragem em referencia, sendo “N” o número total de elementos da população e “n” o número total de elementos da amostra, a probabilidade de cada elemento pertencer à amostra será de n/N. É a mais simples de ser obtida mas, como já referimos, contudo, a sua aplicação restringe-se à investigação de características distribuídas homogeneamente na população. 3.1.1.1.2 - Amostragem Sistemática Tal como a técnica de amostragem aleatória simples, só se pode utilizar quando existe uma lista ordenada de elementos da população, seja por ordem alfabética, seja em arquivo, processo clinico ou numa lista telefónica. Esta técnica consiste em retirar K elementos dessa lista sendo o primeiro elemento da amostra retirado ao acaso. O que a faz diferir da técnica anterior é o tamanho do intervalo, que aqui corresponde à razão entre o tamanho da população e da amostra. É aplicada em populações finitas; os elementos são escolhidos por um sistema, utilizando a sua ordenação natural (listagens, registos, alunos, etc.). Define-se a quantidade “k” que é a sigla que representa o intervalo de amostragem (k=N/n); a seguir deve ser sorteado o início do sistema, a partir do qual serão definidos os elementos amostrais para cada “k”. 1 Resolução: 108 290 201 292 322 009 244 249 226 125 147 113 17 amostras 2009 Face ao exposto podemos referir que uma amostra sistemática de tamanho n é constituída dos elementos de ordem K, K + r, K + 2r, ..., onde K é um inteiro escolhido aleatoriamente entre 1 e n r é o inteiro mais próximo da fração N/n. já que esta técnica de amostragem em populações que possuem os elementos ordenados, em que não há a necessidade de construir um sistema de referência, a selecção dos elementos que comporão a amostra pode ser feita por um sistema criado pelo pesquisador. K Exemplo 1 N n Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica de amostragem, podemos realizar o seguinte procedimento: 1º) Como 2000 dividido por 80 é igual a 25, escolhemos, por um método aleatório (por exemplo sorteio) qualquer, um número entre 1 e 25, que indica o primeiro elemento seleccionado para a amostra. 2º) Consideramos os demais elementos, periodicamente, de 25 em 25. Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas casas: 8ª, 33ª, 58ª, 83ª, 108ª, etc. Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de variação, que tornariam a amostra não-representativa da população. Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6 e r = 100/6 = 16,6 = 17. Se K = 3, a amostra será composta pelos seguintes elementos: 3, 20, 37, 54, 71, 88. Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor de r. Escolheremos intuitivamente um valor razoável para r. Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar, estando portanto sujeita a erros, e proporciona mais informações com menor custo. Exemplo: técnica adequada para extrair uma amostra de 50 internautas de um cibercafé Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode determinar quais os utilizadores a serem incluídos na amostra, uma vez que não se conhece o tamanho N da população, até que todos os internautas tenham ido ao respectivo cibercafé. A amostragem sistemática é a mais apropriadas pois podemos defenir um intervalo (digamos 1 em cada 20 internautas que aparecam para utilizar a internet) até obter a amostra do tamanho desejado. 18 amostras 2009 3.1.1.1.2 – E1: Em 1500 alunos de uma escola foram sorteados 150 para compor a amostra de um estudo. Estando esses alunos ordenados em listagens, ficou definido o seguinte intervalo de sorteio: 1500 ÷ 150 = 10 Sorteou-se um número entre para dar início à composição da amostra cujo resultado foi 3 Quais foram as unidades amostrais2? 3.1.1.1.2 – E2: Defina k para uma amostra de 100 indivíduos com a população de 10003 3.1.1.1.3 - Amostragem Aleatória Estratificada A amostragem estratificada utiliza-se quando a população possui características que permitem a criação de subconjuntos, já que nestes casos as amostras extraídas por amostragem simples são menos representativa. Com efeito, a amostragem aleatória estratificada é mais uma variante da amostra aleatória simples, uma vez que após divisão da população alvo em subgrupos homogéneos chamados «estratos», a seguir se tira de forma aleatória uma amostra de cada estrato. A Amostragem aleatória estratificada é utilizada, ao contrário das anteriores, quando a população inteira é reconhecida por certas características precisas, tais como a idade, o sexo, a incidência de uma condição de saúde, tudo isto para assegurar a melhor representatividade possível. Com efeito, quando os elementos da população estão divididos em grupos não sobrepostos, é mais fácil e mais eficiente escolher, independentemente, uma amostra aleatória simples dentro de cada um destes grupos, os quais são chamados estratos. Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações têm estratos bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os operários pertencentes aos indices salariais 190, 195, etc. O mais comum é utilizar-se a amostragem estratificada proporcional, que consiste em seleccionar os elementos da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos. Como a população se divide em subconjuntos, convém que o sorteio dos elementos leve em consideração tais divisões, para que os elementos da amostra representem o número de elementos desses subconjuntos. Como exemplo observe a figura abaixo: 2 3 + 13 + 23 + 33 + ... + 1493. 3 10 19 amostras 2009 FIGURA 4: AMOSTRA ESTRATIFICADA Em outras palavras, sejam: N - o número de elementos da população L - o número de estratos Ni - o número de elementos do estrato i n - o tamanho da amostra a ser seleccionada. Note-se que: N = N1 + N2 + ... + NL Número de elementos a serem sorteados em cada estrato será: N1f, N2f, ..., Nkf Exemplo 1: Numa população de 200 estudantes, há 120 rapazes e 80 raparigas. Pretende-se extrair uma amostra representativa, de 10%, dessa população. Neste exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo. Considerando essa divisão, vamos considerar a população e extrair a amostra da população. SEXO Masculino Feminino Total POPULAÇÃO 120 80 200 AMOSTRA (10%) 12 8 20 Portanto, a amostra deve conter 12 alunos do sexo masculino e 8 do sexo feminino, totalizando 20 alunos, que correspondem a 10% da população. Para seleccionar os elementos da população para formar a amostra, podemos executar os seguintes passos: 1º) Numerar os estudantes de 1 a 200, sendo os alunos numerados de 1 a 120 e as alunas, de 121 a 200; 2º) Escrever os números de 1 a 120 em pedaços de papel e colocá-los em uma urna A; 20 amostras 2009 3º) Escrever os números de 121 a 200 em pedaços de papel e colocá-los em uma urna B; 4º) Retirar 12 pedaços de papel, um a um, da urna A, e 8 da urna B, formando a amostra da população. O próximo exemplo, também, representa populações com características heterogéneas cujas conclusões podem ficar comprometidas se estas não forem consideradas na composição da amostra. Assim a população é subdividida em grupos homogéneos (estratos) e a amostra será sorteada intragrupos. O tamanho de cada estrato será definido pela variância da característica a ser estudada ou seja proporcional (exemplo 1 e 2) ou através da definição de uma percentagem dos estratos ou seja não proporcional (exemplo 3). Exemplo 2: População-Alvo 2000 estudantes em Ciências Sociais Classificação População-Alvo Estratificação Proporcional Estrato 1 2000 estudantes Ciências Estratoem 2 Sociais Mestrado Doutoramento 400 = 20% 600 = 30% Classificação Estrato 3 Licenciatura 1000 = 50% FIGURA 5: AMOSTRA ESTRATIFICADA PROPORCIONAL Estratificação Proporcional Escolha Aleatória Estrato 1 Doutoramento Exemplo 3: 400 = 20% Estrato 2 Estrato 3 Mestrado Licenciatura 600 = 30% 1000 = 50% Estratificação Não-Proporcional Amostra = 200 Escolha Aleatória de 10% em cada Estrato Escolha Aleatória 40 Estudantes 60 Estudantes 100 Estudantes Doutoramento Mestrado Licenciatura Estratificação Não-Proporcional Amostra = 200 Escolha Aleatória de 10% em cada Estrato 40 Estudantes 60 Estudantes 100 Estudantes Doutoramento Mestrado Licenciatura FIGURA 6: AMOSTRA ESTRATIFICADA NÃO PROPORCIONAL Perguntas frequentes: 1. 2. Como calcular o valor/ percentagem apropriada para escolher dentro dos estratos? a. A resposta é simples. Utiliza-se uma formula adequada ao tamanho da população, mas sobre esse assunto dissertaremos mais adiante. Como seleccionar os sujeitos dentro dos estratos? a. Como estamos perante uma amostra aleatória, embora estratificada, recorre-se ao sorteio ou a uma LNA 21 amostras 2009 3.1.1.1.3 – E1: De um conjunto de 30 utentes de um serviço portadores de uma determinada patologia, pretendia-se seleccionar 8 deles para um seguimento especifico (n) em função do seu sub-grupo (estrato de gravidade da patologia). Em termos de severidade, 6 utentes (N1) a forma moderada da patologia e 24 utentes (N2) tinha a forma mais grave. Calcule-se uma amostra aleatória proporcional. Sabendo que de cada estrato é constituído por N1 e N2 serão sorteadas n1 e n2 unidades, respectivamente. 01. Aristóteles 02. Cardoso 03. Ernesto 04. Guilherme 05. Joana 01. Anastácio 05. Carlos 09. Elisabete 13. David 17. Jorge 21. Luisa 02. Arnaldo 06. Cláudio 10. Francisco 14. Raul 18. Joaquina 22. Maria José 03. Bartolomeu 07. Gabriel 11. Fernando 15. Sergio 19. José da Silva 23. Ma Cristina 04. Joaquim 08. Marco 12. André 16. Nelo 20. Mauro 24. Bernardino 06. Andreia Assim em primeiro calcula-se o tamanho da amostra (neste caso 8 utentes) e depois a fracção (f) da amostragem, multiplicando f por N e por fim calculamos o numero de sujeitos que devem ser escolhidos dentro de cada estrato multiplicando f pelo tamanho de cada estrato (N1f, N2f, ..., Nkf) que neste exemplo é 6 e 24 FÓRMULA PARA DETERMINAR A FRAÇÃO (f) PARA CADA ESTRATO Assim o resultado seria f= 8/30 = 0,27 Feitos os calculos recorremos a um sorteio ou a uma LNA. No caso em explanação escolhemos uma tabela de números aleatórios e seleccionámos os 2 do estrato que apresentam grau moderado e os 6 utentes do que apresentam grau severo da patologia em causa, seguindo a regra : Os primeiros 2 numeros não superiores a 6 (já que 6 é o numero máximo possível) e os primeiros 6 numeros não superiores a 24 (já que este é o numero máximo neste estrato). De acordo com a regra para a selecção escolhida (comecar no 6.º numero da 2.ª linha em ambos os casos e quando chegar ao fim da tabela subir pelo lado esquerdo virando à direita) quais os utentes seleccionados? 59 58 48 36 47 92 85 05 38 65 47 49 10 41 05 10 75 59 75 99 17 28 97 99 75 53 26 21 50 21 37 93 85 52 86 86 22 75 34 37 69 85 25 03 78 50 26 18 25 10 Os resultados foram: 22 amostras 2009 01. Aristóteles 02. Cardoso 03. Ernesto 04. Guilherme 05. Joana 01. Anastácio 05. Carlos 09. Elisabete 13. David 17. Jorge 21. Luisa 02. Arnaldo 06. Cláudio 10. Francisco 14. Raul 18. Joaquina 22. Maria José 03. Bartolomeu 07. Gabriel 11. Fernando 15. Sergio 19. José da Silva 23. Ma Cristina 04. Joaquim 08. Marco 12. André 16. Nelo 20. Mauro 24. Bernardino 06. Andreia Confira. Veja a diferença entre quem era selecionado por este método ou se tivéssemos escolhido uma amostra aleatória simples. A tabela que se segue tem os utentes numerados de 1 a 30 01. Aristóteles 06. Cardoso 11. Ernesto 16. Guilherme 21. Joana 26. Andreia 31. Paula 02. Anastácio 07. Carlos 12. Elisabete 17. David 22. Jorge 27. Luisa 32. Paulo César 59 58 48 36 47 92 85 05 38 65 47 49 10 41 05 10 75 59 75 99 17 28 97 99 75 53 26 21 50 21 37 93 85 52 86 86 22 75 34 37 69 85 25 03 78 50 26 18 25 10 01. Aristóteles 06. Cardoso 11. Ernesto 16. Guilherme 21. Joana 26. Andreia 02. Anastácio 07. Carlos 12. Elisabete 17. David 22. Jorge 27. Luisa 03. Arnaldo 08. Cláudio 13. Francisco 18. Raul 23. Joaquina 28. Maria José 03. Arnaldo 08. Cláudio 13. Francisco 18. Raul 23. Joaquina 28. Maria José 04. Bartolomeu 09. Gabriel 14. Fernando 19. Sergio 24. José da Silva 29. Ma Cristina 04. Bartolomeu 09. Gabriel 14. Fernando 19. Sergio 24. José da Silva 29. Ma Cristina 05. Joaquim 10. Marco 15. André 20. Nelo 25. Mauro 30. Bernardino 05. Joaquim 10. Marco 15. André 20. Nelo 25. Mauro 30. Bernardino (confira os seus resultados com as soluções que apresentámos). As diferenças são evidentes, apenas 1 com patologia moderada era seleccionado e dos restantes apenas a Mª José coincidia. As regras são importantes e a técnica de selecção faz toda a diferença. Com efeito, entre as vantagens da amostragem estratificada destacam-se: Os dados são geralmente mais homogéneos dentro de cada estrato do que na população como um todo; O custo da recolha e análise dos dados é frequentemente menor do que na aleatória simples, devido a conveniências administrativas; Podem-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem seleccionar outra amostra e, portanto, sem custo adicional. 23 amostras 2009 3.1.1.1.4 - Amostragem em Cachos ou conglomerados Consiste em retirar de forma aleatória os elementos por cachos em vez de unidades. É útil quando os elementos da população estão naturalmente por cachos e por isso devem ser tratados como grupos ou quando não é possível obter uma listagem de todos os elementos da população-alvo. Como exemplo de amostragem por cachos podemos referir a escolha de um grupo de escolas C+S para avaliar o conhecimento que os alunos do 5º e 6º anos têm acerca da recolha e separação de resíduos. Como seria muito difícil obter uma lista de todos os alunos que frequentam aqueles anos e escolher aleatoriamente quais constituíram a amostra recorre-se a cachos (escolas) e dentro destas far-se-á a selecção. É importante reter que em qualquer tipo de agrupamento (cachos ou estratos), a amostra só é considerada probabilística se os grupos foram escolhidos ao acaso antes da repartição aleatória dos sujeitos nos grupos. Uma amostra por cachos ou conglomerado é uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, um cacho ou um conglomerado de elementos. O primeiro passo para se usar este processo é especificar os cachos apropriados, já que todos os elementos devem ter características similares. Como regra geral, o número de elementos em cada cacho deve ser pequeno em relação ao tamanho da população, mas o número de cachos deve ser, razoavelmente, grande. Tanto no caso da amostragem estratificada como no da amostragem por cachos, a população deve estar dividida em grupos. Na amostragem estratificada, entretanto, selecciona-se uma amostra aleatória simples dentro de cada grupo (estrato), enquanto que na amostragem por cachos seleccionam-se amostras aleatórias simples de grupos, e todos os itens dentro dos grupos (conglomerados) seleccionados farão parte da amostra. A amostragem por cachos é recomendada quando: Ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; O custo da obtenção de informações cresce com o aumento da distância entre os elementos. 3.1.1.1.4 – E1: Suponha que se deseja estimar a despesa média mensal que uma familia tem com a saúde numa cidade grande, como deve ser escolhida a amostra? 24 amostras 2009 Solução: A amostragem aleatória simples é inviável, pois pressupõe uma listagem de todas as famílias da cidade, o que é praticamente impossível de se obter. A alternativa da amostragem estratificada é também inviável, já que aqui também é necessária uma listagem dos elementos por estrato. A melhor escolha é amostragem por cachos. O sistema de referência pode ser constituído por todas as freguesias da cidade. Cada freguesia é um cacho. Extrai-se uma amostra aleatória simples das freguesias e nelas pesquisa-se a despesa familiar em todas as casas. 3.1.2 As Amostragens Não Probabilísticas: É um procedimento de selecção segundo o qual cada elemento da população não tem a mesma probabilidade de ser escolhido para formar a amostra. Este tipo de amostragem tem o risco de ser menos representativa que a probabilística no entanto é muitas vezes o único meio de construir amostras em certas disciplinas profissionais nomeadamente na área da saúde. Este tipo de amostragens requerem critérios de inclusão e exclusão rígidos para evitar o maior numero possível de viezes. O tamanho da amostra neste tipo de amostragens é muito importante pois quanto maior for menor é a probabilidade de que casos idiosincráticos possam afectar o todo de uma forma significativa. Daí que as amostras provindas deste tipo de amostragens devam ter sempre um n suferior aquele que seria representativo do todo se utilizasse uma amostragem do tipo probabilistica 3.1.2.1. Técnicas de Amostragens Não-Probabilísticas: A Amostragem Acidental ou de Conveniência (por substituição da aleatória simples); A Amostragem por Cotas (por substituição da amostragem estratificada ou por cachos); A Amostragem de Selecção Racional ou Tipicidade (por substituição da estratificada); A Amostragem por Redes ou Bola de Neve (por substituição da sistemática). 3.1.2.1.1 - Amostragem Acidental ou de Conveniência É formada por sujeitos facilmente acessíveis, que estão presentes num determinado local e momento preciso. Neste tipo de amostra tem a vantagem de ser simples de organizar e pouco onerosa, todavia este tipo de amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40 pessoas sejam representativas da população-alvo. São utilizadas em estudos que não têm como finalidade a generalização dos resultados. Esse tipo de amostragem, embora não aleatória, é bastante utilizada na área da saúde, geralmente são amostras obtidas em consultórios, hospitais, etc. Neste caso, é importante o senso crítico do pesquisador para evitar vieses, por exemplo, não seleccionar sempre pessoas de mesmo sexo, de mesma faixa etária, etc. utilizando critérios específicos de inclusão/ exclusão. Uma técnica possível de aproximar este tipo de amostragens o mais possível às probabilísticas é ir verificando, à medida que os dados vão sendo colhidos, se os seus subgrupos estão, proporcionalmente à população alvo, representados na amostra. 25 amostras 2009 3.1.2.1.2 - Amostragem por Cotas Idêntica à amostragem aleatória estratificada, já que é constituída por um número pré-determinado de pessoas em cada uma das várias categorias da população. A amostragem por cotas difere da estratificada apenas pelo facto dos sujeitos não serem escolhidos aleatoriamente no interior de cada cota ou de cada grupo. 3.1.2.1.3 - Amostragem por Selecção Racional, Julgamento ou por Tipicidade Tem por base o julgamento do investigador ou especialista para constituir uma amostra de sujeitos em função do seu carácter típico ou atípico cujos membros tenham boas perspectivas de fornecerem as informações necessárias ao estudo. Por exemplo: o estudo de casos extremos ou desviantes como uma patologia rara ou uma instituição. 3.1.2.1.5 - Amostragem por Redes ou Bola de Neve Consiste em escolher sujeitos que seriam difíceis de encontrar de outra forma. Toma-se por base, redes sociais amizades e conhecimentos. Por exemplo: quando o investigador encontra sujeitos que satisfazem os critérios escolhidos pede-lhes que indiquem outras pessoas de características similares. 3.2 Propriedades da distribuição normal A distribuição Normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes em estatística. Esta distribuição tem uma forma de sino. 1ª - A variável aleatória X pode assumir todo e qualquer valor real. 2ª - A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média, que recebe o nome de curva normal ou de Gauss. 3ª - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à probabilidade de a variável aleatória X assumir qualquer valor real. 4ª - A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcançá-lo. 26 amostras 2009 5ª - Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5 ou 50%. Cada metade da curva representa 50% de probabilidade. Mas a curva é afectada pelos valores numéricos de µ e σ. Ver diagrama ao lado. A notação para a distribuição gaussiana é: Х ~N (µ, σ) A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores específicos podemos determinar a proporção de área sob a curva entre esses dois valores. Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios padrão da média são: TABELA 2: DISTRIBUIÇÃO NORMAL E RESPECTIVOS DESVIOS Amplitude µ ± 1σ µ ± 2σ µ ± 3σ Proporção 68.3% 95.5% 99.7% Ou seja, a média mais ou menos um desvio, tem área de 0,683 sob a curva, ou, uma probabilidade de 68,3%. A média mais ou menos dois desvios tem probabilidade de 95,4% e a média mais três desvios e menos três desvios, tem 99,7% de probabilidade Quando a distribuição possui média zero e desvio-padrão igual a um, ela é chamada de distribuição gaussiana padrão. Uma variável que tem a curva de Gauss padrão como distribuição é denotada pela letra Z e é representada por Z ~ N(0,1). O cálculo de probabilidade é a área sob a curva, e as tabelas trazem o valor da probabilidade calculada de forma numérica. As tabelas com a distribuição gaussiana são padronizadas, então, se a variável não tem média zero e desvio-padrão igual a 1, é necessário padronizá-la: Fórmula para padronizar tabelas com distribuição gaussiana 27 amostras 2009 Para a distribuição normal, graficamente, têm-se A distribuição normal calculada no intervalo P(a < Z < b) é a área dada : então pode-se escrever P(a < Z < b) = P(Z < b) - P(Z<a). Exemplo: Seja X a variável aleatória que representa a amplitude da onda R em V1 o padrão electrocardiográfico normal em crianças. Vamos supor que essa variável tenha distribuição normal com média = 0,15 e desvio padrão = 0,04. Qual a probabilidade de uma criança ter uma amplitude entre 0,15 e 0,2? P ( 0,15 < X < 0,2) = ? 28 amostras 2009 Com o auxílio de uma distribuiçào normal reduzida, isto é, uma distribuição normal de média = 0 e desvio padrão = 1. Resolveremos o problema através da variável z , onde z = (X - µ) / S. Utilizaremos também uma tabela normal reduzida, que nos dá a probabilidade de z tomar qualquer valor entre a média 0 e um dado valor z, isto é: P ( 0 < Z < z). Temos, então, que se X é uma variável aleatória com distribuição normal de média e desvio padrão S, podemos escrever: P( < X < x ) = P (0 < Z < z) No nosso problema queremos calcular P(0,15< X < 0,154). para obter essa probabilidade, precisamos, em primeiro lugar, calcular o valor de z que correponde a x = 0,2 z = (0,2 – 0,15) / 0,04 = 1,25 Utilização da tabela Z reduzida TABELA 3: CURVA NORMAL - TABELA Z (REDUZIDA) Procuremos, agora, na tabela Z o valor de z = 1,25 Na primeira coluna encontramos o valor até uma casa decimal = 1,2. Em seguida, encontramos, na primeira linha, o valor 0,05, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes encontramos o valor 0,3944, o que nos permite escrever: P (0 < Z < 1,25 ) = 0,3944 ou 39,44 %, assim a probabilidade de uma certa criança apresentar uma amplitude da onda R em V1 entre 0,15 e 0,2 é de 39,44 %. Exercícios resolvidos do uso de z lendo uma tabela normal reduzida 29 amostras 2009 Qual é a área sob a curva normal contida entre z = 0 e z = 2 (ou z = -2)? Procura-se o valor 2,0 nas linhas da tabela de z e o valor 0,00 na coluna. O valor da intersecção é de 0,4772, ou seja, 47,72%. Entretanto, lembrando que a curva normal é simétrica, sabe-se que a área sob a curva contida entre z = 0 e z = -2 também é 47,72%, somam-se ambas e a área referente a -2 < z < 2 vale 95,44%. Qual é a área sob a curva normal contida entre z = 0 e z = 3 (ou z = -3) ? Procura-se o valor 3,0 nas linhas da tabela de z e o valor 0,00 na coluna. O valor da intersecção é de 0,4987, ou seja, 49,87%. Sabe-se que a área sob a curva contida entre z = 0 e z = -3 também é 49,87% já que a curva normal é simétrica. Uma vez mais, somam-se ambas e a área referente a -3 < z < 3 vale 99,74%. Numa população de indivíduos adultos de sexo masculino, cuja frequência cardiaca (FC) é em média 84,98 e desvio padrão é 14,45, qual é o intervalo de frequências cardiacas em que 95% da população está compreendido? 0,95/2=0,475 Procuremos na tabela o valor 0,475=1,96 95% = 84,98± 1,96 x 14,45 (sendo que 1,96 * 14,45 = 28,322) A maior FC será: 84,98 + 28,322 = 113,302 e a menor FC será: 84,98 - 28,322 = 56,658 Assim sendo, 95% da população tem FC entre 57 e 113 batimentos por minuto (bpm). Será pouco provável encontrar alguém com FC superior a 113 bpm (P = 2,5%) ou abaixo de 57 bpm (P = 2,5%). Na mesma população, qual a probabilidade de um indivíduo apresentar FC entre 80 e 100 bpm? Calcula-se dois valores de z: zmin = (80 – 84,98) / 14,45 = -0,35 zmax = (100 – 84,98) / 14,45 = -1,0 Consultando a Tabela de z, verifica-se que a área entre z = 0 e z = -0,35 é de 13,68 e a área entre z = 0 e z = 1 é de 34,13%. Portanto, a probabilidade de se encontrar alguém com estatura entre 1,60 e 1,82 m é de: 0,1368 + 0, 3413 = 0,4781 = 47,81% Qual a probabilidade de se encontrar 1 indivíduo com FC menor que 58 bpm? z = (58 – 84,98) / 14,45 = -1,9 Consultando a Tabela de z, verifica-se que a área entre z = 0 e z = -1,9 é 47,13 (0,4713). Portanto, a área além de z determina a probabilidade = 50 - 47,13 = 2,87% Sabendo-se que o índíce de massa corporal numa população de pacientes com diabetes mellitus obedece uma distribuição normal e tem média = 27 kg/cm2 e desvio-padrão = 3 kg/cm2, qual a probabilidade de um indivíduo sorteado nessa população apresentar um índíce de massa corporal entre 26 kg/cm2 e a µ? 30 amostras 2009 Como z = ( x - µ) /𝜎, z = ( 26 - 27 ) / 3, z = - 0,333 Consultando a Tabela de z, verifica-se que a área entre 26 e 27 é igual a 0,1293. Portanto, a probabilidade de um indivíduo sorteado nessa população ter indice de massa corporal entre esses valores é 12,93%. Quando uma amostra tem n > 30 uma curva binomial tende a assemelhar-se a uma curva normal. No caso de n = 31 a distribuição (p + q) terá os seguintes valores: Se p = 0,5 q = 0,5 Se p = 0,75 e q = 0,25 µ = 15,5 e s = 2,78 95% da distribuição está entre 10,05 e 20,95 (Confira este resultado). µ = 7,75 e s = 2,41 95% da distribuição está entre 3,02 e 12,47 (Confira este resultado). 4. Determinação do Tamanho da Amostra Os tamanhos das amostras são relativos, isto é, depende do tamanho da população. Para determinar as amostras existem várias fórmulas, consoante o parâmetro em critério. As mais utilizadas na saúde são as que se baseiam na percentagem (proporção) do fenómeno. A amostra depende da extensão do universo; do Nível de Confiança; do Erro Máximo permitido; da percentagem com que o fenómeno se verifica. Os universos de pesquisa podem ser finitos ou infinitos. Convencionou-se que os finitos são aqueles cujo número de elementos não excede a 100.000 e os infinitos, por sua vez, são aqueles que apresentam elementos em número superior a esse. Este tópico apresenta alguma dificuldade técnica e só um conhecedor dos detalhes da situação, poderá calcular o tamanho da amostra necessária numa pesquisa específica. 4.1 Cálculo do Tamanho da Amostra para Populações Infinitas Relativamente aos cálculos a efectuar neste ponto, limitar-nos-emos a apresentar algumas fórmulas para cálculo do tamanho da amostra em duas situações simples, admitindo que será usada a amostragem aleatória simples. 4.1.1.Proporção Se o problema de partida é do tipo dicotómico (presença ou ausência do acontecimento ou fenómeno em estudo) e queremos, com nível de confiança, 1 − 𝛼 que a proporção estimada esteja, no máximo, a uma distância d da proporção verdadeira (erro amostral, também denotado com a letra ε), ou seja, se queremos que O valor de n é dado por onde P é uma estimativa preliminar de p; Q = 1 – P e d (ou ε) é o maior desvio aceitável ou erro amostral. 31 amostras 2009 As notações mais comuns para esta fórmula são Fórmula para populações infinitas e variável dicotómica n ou [ z / 2 ] 2 p ' q ' n 2 [ z / 2 ] 2 p ' q ' d2 Como obtemos o Z para a formula do cálculo amostral? Os estudos estatísticos aprofundados deram origem a uma tabela – a que chamamos tabela de distribuição normal padrão – e é a essa tabela que vamos buscar o valor de Z para o nível de confiança que pretendemos, que é o método estatístico para expressar a nossa aproximação estimada ao valor da população. Esta tabela ao contrário da tabela reduzida apresenta os valores padrão TABELA 4:DISTRIBUIÇÃO NORMAL PADRÃO Começamos por aplicar a formula em função do nível de confiança escolhido 1 − 𝛼 . Se escolhemos um α de 5% para um o valor de Z / 2 a consulta na tabela 32 amostras 2009 resultará do cálculo de 1-0,025=0,975. Procuramos este valor na tabela e Z será igual à contigencia da primeira parte inteira e primeira decimal de Z com a segunda decimal de Z. Mas se escolhemos um α de 10% para um o valor de Z 0,05=0,95. Procuramos este valor na tabela e Z será igual à contigencia da primeira parte inteira e primeira decimal de Z com a segunda decimal de Z. /2 a consulta na tabela resultará do cálculo de 1- z é tal que A(z)=0,95 Pela tabela z = 1,64 ou 1,65 Z Exemplo: queremos realizar uma pesquisa de opinião pública para determinar a proporção de pessoas que sofreram lesões respiratórias devido a contágio em meio hospitalar (visitas a familiares doentes, marcações de consulta, etc.). Quantas pessoas deverão ser ouvidas para que sejam satisfeitas as seguintes condições: ε = 0,02, p = 10%, α = 5% Solução: n [ z / 2 ]2 p' q' 2 [1,96]2 (0,1)(0,9) 0,022 865 4.1.1– E1: Suponha que quer conhecer o valor de Z /2 para um α de 1% ? Qual o resultado4? 4.1.1– E2: Para um fenómeno que tenha uma prevalência de 25%, quantas pessoas deverão constituir a amostra para que sejam satisfeitas as seguintes condições: ε = 0,05, p = 25%, α = 5%5? Resolva: 4 z / 2 n 5 =2,58 [ z / 2 ]2 p' q' 2 [1,96]2 (0,25)(0,75) 0,052 238 33 amostras 2009 4.1.1– E3: Desejamos estimar, com uma margem de erro de 3%, a percentagem de motoristas profissionais que referem sonolencia durante a condução, considerando =0,05. em que a proporção estimada de 18% esteja, no máximo, a uma distância [ε] da proporção verdadeira de 3%. Quantos motoristas constituiriam a amostra?6 Calcule. Supondo que não tinhamos nenhuma estimativa de p’a fórmula de cálculo deveria ser: Fórmula para populações infinitas quando não temos nenhuma estimativa de p’ n [ z / 2 ]2 0,25 2 2 Com efeito, observando a tabelas da distribuição normal padrão, f(x) já cobre 0,975 ( [ z / 2 ] =1,96), pelo que basta acrestentar o 0,25 na formula para que se cubra toda a area da distribuição (1). 4.1.1– E4: E se não tivessemos nenhuma estimativa, quantos motoristas constituiriam a amostra se mantivessemos o mesmo ε?7 n [ z / 2 ]2 p' q' n [ z / 2 ]2 0,25 6 7 2 2 [1,96]2 (0,18)(0,82) 0,032 [1,96]2 0,25 0,032 630,0224 631 1067,1111 1068 34 amostras 2009 4.1.2. Determinação da Margem de Erro da Amostra A Margem de erro de uma amostra que, por sua vez, representa aproximadamente (e nunca exactamente) uma população é lida assim: se uma pesquisa tem uma margem de erro de 2% e a Doença Cardíaca teve 25% de prevalência na amostra recolhida, podemos dizer que, naquele instante, na população, ela terá uma prevalência entre 23% e 27% (25% menos 2% e 25% mais 2%). Nível de confiança – As pesquisas são feitas com um parâmetro chamado nível de confiança, geralmente de 95%. Estes 95% querem dizer o seguinte: se realizarmos uma outra pesquisa, com uma amostra do mesmo tamanho, nas mesmas datas e locais e com o mesmo instrumento de recolha de dados, há uma probabilidade de 95% de que os resultados sejam os mesmos (e uma probabilidade de 5%, é claro, de que tudo difira). Quando já se efectivou uma pesquisa e se deseja conhecer a margem de erro utilizada (não esquecer que uma amostra é sempre finita) aplica-se: Fórmula paraconhecer a margem de erro padrão p = (p.q) n Onde: n = Tamanho da amostra p = Erro padrão ou desvio da percentagem com que se verifica determinado fenómeno p = percentagem do fenómeno q = percentagem complementar Exemplo: Numa pesquisa efectuada com 1000 adultos, verificou-se que 30% bebem café pelo menos uma vez por dia. Qual a probabilidade de que tal resultado seja verdadeiro para todo o universo. p = (30.70) 1000 p = 1,45 Como o valor encontrado (margem de erro) corresponde a um desvio, então para dois desvios (95,5%), temos 1,45 *2=2,90. Para 3 desvios é o triplo (4,35). Isto significa que, por exemplo, para um nível de confiança de 95% (2 desvios) o resultado da pesquisa apresentará como margem de erro 2,90 para mais ou menos. É provável, portanto, que o n.º de consumidores de café esteja entre 27,10% (30%-2,90) e 32,90% (30%+2,90). 35 amostras 2009 4.2. Cálculo do Tamanho da Amostra para Populações finitas 4.2.1. Proporção Uma das formulas comummente aplicada no cálculo das amostras finitas éconstituida por dois tipo de cálculos: A Primeira parte da amostra dá-nos uma primeira aproximação do tamanho da amostra (n 0), isto é, um grupo alvo para servir de apoio estatistico de cálculo, pois sabemos que existem menos de 100.000 elementos e embora não saibamos quantos existem sabemos que são demasiadas para partir do numero exacto (por exemplo aproximadamente 20.000 elementos). 1 n0 E02 A segunda parte da amostra é calculada a partir da primeira aproximação, que corresponde ao grupo alvo. n N .n0 N n0 Fórmula para populações finitas n0 1 E02 e n N .n0 N n0 Onde: N = tamanho da população E0 = erro amostral tolerável n0= primeira aproximação do tamanho da amostra n = tamanho da amostra Exemplo N=200 famílias, E0=4%(0,04) n0=1/(0,04)2 n0=625 famílias n = 200x625/200+625 n = 152 famílias 36 amostras 2009 4.2.1 – E1: Para N=20.000 famílias qual o tamanho da amostra8 4.2.1 – E2: Numa pesquisa para uma eleição presidencial, qual deve ser o tamanho de uma amostra aleatória simples, se se deseja garantir um erro amostral não superior a 2% 9? Resolva Numa escola com 1000 alunos, deseja-se estimar a percentagem dos que estão satisfeitos com a direcção. Qual deve ser o tamanho da amostra aleatória simples que garanta um erro amostral não superior a 5% 10? Resolva 4.2.2. Média Quando utilizamos dados amostrais calcula-se um valor da estimativa do parâmetro populacional e com isso tem-se uma estimativa por ponto do parâmetro analisado, contudo podemos não ter acesso a um ponto médio mas um intervalo médio 8 n = 20.000x625/20.000+625 n = 623 famílias 9 n = n0 = 1/(0,02)2 = 1/0,0004 = 2500 eleitores 10 N = 1000 empregados E0 = erro amostral tolerável = 5% (E0 = 0,05) n0 = 1/(0,05)2 = 400 alunos n = 1000x400/(1000+400) = 286 alunos 37 amostras 2009 Assim, o valor da média amostral ( x ) é uma estimativa por ponto da média populacional ( ). De maneira análoga, o valor do desvio padrão amostral (s) constitui uma estimativa do parâmetro ( ) Por exemplo, uma amostra aleatória de 200 alunos de uma universidade de 20.000 estudantes revelou uma média amostral de 5,2. Logo x = 5,2 é uma estimativa pontual da verdadeira nota média dos 20.000 alunos. Neste caso é necessário: Controlar o erro relativo da estimativa da média de uma característica da população, com nível 1 - de confiança: ou seja, queremos: Onde = média amostral, = média populacional. Neste caso o valor de n é dado por onde s=desvio padrão preliminar r=erro relativo =média preliminar Exercicio resolvido:Quantos doentes devem ser examinados num serviço de ressonância magnética para se determinar ao nível = 5% e com r = 10%, e duração média por atendimento, =40 minutos e s = 10 minutos? Solução: Se Então: 𝑧𝑠 𝑛= 𝑟𝑦 2 = 1,96 10 0,1 40 2 = 24 𝑑𝑜𝑒𝑛𝑡𝑒𝑠 38 amostras 2009 Já uma estimativa por intervalo para um parâmetro populacional é um intervalo determinado por dois números, obtidos a partir de elementos amostrais, que se espera que contenham o valor do parâmetro com dado nível de confiança ou probabilidade de (1 - )%. Geralmente (1 - )% = 90%, 95%, 99% são os mais usados. Por exemplo, o intervalo (1,60 m; 1,64m) contém a altura média dos moradores do município X, com nível de confiança de 95%.. Note-se a necessidade de estimativas preliminares dos parâmetros, o que constitui mais uma razão para se fazer um estudo piloto. 1. Controlar o erro absoluto da média, ou seja, se quisermos que O valor de n é dado por onde, = desvio padrão populacional, d = distância da média estimada à média verdadeira. 4.2.2– E1: Quantos doentes devem ser examinados num serviço de ressonância magnética para se determinar a um Z /2 de 95% com uma distância da média estimada à média verdadeira de 5% e desvio padrão populacional de 12 minutos 11? Resolva: 11 𝑛= 𝑧𝜎 2 𝑑 = 1,96 5 12 2 = 23 𝑑𝑜𝑒𝑛𝑡𝑒𝑠 39