CE 2 Introdução ao SPSS
Transcrição
CE 2 Introdução ao SPSS
ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11 EXERCÍCIOS PRÁTICOS - CADERNO 2 Introdução ao SPSS 22-02-11 2.1 2.1. (Introdução de dados) Um colega seu está interessado em estudar as semelhanças e diferenças entre os automóveis ligeiros de passageiros comercializados no mercado Português para o que consultou a lista das vendas em 1996. No Quadro 1 apresentam-se alguns dados recolhidos (o total das observações constitui XXII tabelas). Marca Modelo Cilind. cm3 Alfa-Romeo 155 1.8 TS 16V 1747 Alfa-Romeo Spider 2.0 TS 2p 1970 Audi A4 1.8 4p 1781 Audi A4 1.9 TDI Avant Sport 1896 BMW 750 IL 5379 Citroën Saxo 1.1 VSX 3p 1124 Fiat Cinquecento 1.1 Sport 1105 Fiat Punto 55 SX 5p 1108 Ford Escort 1.6 Cabrio Z Luxury 1597 Ford Mondeo 1.6 Ghia Wagon 1597 Honda Civic I LS 4p 1493 Lancia Delta 1.9 TDS LE 5p 1929 Opel Corsa 1.5 TD Eco 1488 Peugeot 106 1.1 XR 5p 1124 Renault Megane 1.4 Scenic RN 1390 Pot. Comb. P Seg. Unid. cv vend. 140 G 5 D 34 150 G 2 F 19 125 G 4 D 171 110 D 5 D 1056 326 G 4 F 1 60 G 3 B 1708 52 G 3 A 470 54 G 5 B 6118 90 G 2 C 33 90 G 5 D 33 114 G 4 C 1422 90 D 5 C 5 67 D 3 B 2471 60 G 5 B 1608 69 G 4 C 596 Comb. = Combustível (G = Gasolina / D = Diesel) P = Nº. de portas Seg. = Segmento (A = Económico / B = Inferior / C = Médio Inf. / D = Médio Sup. / E = Superior / F = Luxo ) Fonte: O Comércio e a Indústria Automóvel em Portugal, ACAP, 1997 a) Classifique cada uma das variáveis consideradas no estudo. b) Introduza as observações num novo ficheiro e guarde-o na sua área de trabalho. 2.2. (Importação de ficheiros do Excel e tratamento de informação univariável) O Ficheiro SALARIOS.XLS tem os salários mensais (em euros) de uma amostra de 100 licenciados em Gestão em 2003 por duas universidades diferentes (A e B), também indicadas no ficheiro, inquiridos um ano após a conclusão da licenciatura. a) Importe este ficheiro para o SPSS fazendo as necessárias rectificações na definição das variáveis. b) Obtenha as estatísticas que achar convenientes para a variável salário (sem distinguir o local de obtenção do diploma). c) Construa o respectivo histograma primeiro com a frequência absoluta de cada classe, depois com a frequência relativa. Ajuste ainda uma distribuição normal neste histograma. Parece-lhe que se pode dizer que a distribuição segue uma lei normal? d) Construa um gráfico de "caixa de bigodes" para o salário destes 100 gestores. Seguidamente construa um gráfico do mesmo tipo comparando a distribuição dos licenciados das duas universidades. e) Que pode dizer sobre o salário médio dos licenciados em Gestão desse ano. (Discuta os valores possíveis em termos de um intervalo de confiança para a média). Haverá diferença entre o salário médio dos gestores formados pelas duas escolas? f) Utilize a janela de "Output" do SPSS para produzir um relatório que sintetize a análise que fez na sequência das alíneas anteriores. 22-02-11 2.2 2.3. (análise e representação de dados multivariados) O Ficheiro CEREALS.XLSX tem os já seus conhecidos dados para a caracterização dos cereais de pequeno almoço disponíveis no mercado americano. (Para o teor de fibra: 1=High; 2=Medium; 3= Low). Vai explorar esta informação com o objectivo de tentar perceber quais os cereais que mais engordam. Ou seja, vai tentar descobrir a relação (se é que existe) entre as calorias, o açúcar e as outras variáveis. Depois de importar este ficheiro para o SPSS: a) Estude a distribuição das variáveis isoladamente e depois explore a relação entre elas utilizando os comandos que já conhece nos menus Analyze e Graphs. a.1) Para a variável "fiber" obtenha um quadro de frequências e o respectivo diagrama circular ( Analyze Descriptive Statistics Frequencies, seleccionando no botão Graphs a inclusão de uma "Pie Chart"); Reformate o output: - dando o título "FIBER" ao conjunto dos resultados obtidos; - eliminando a informação sobre a disponibilidade dos dados (que se repete no quadro de frequências); - eliminando a repetição do nome da variável estudada no título do quadro e no do gráfico; - aumentando o tamanho das letras que indicam o tipo de fibra correspondente a cada fatia e apresentando a respectiva frequência (com um duplo clique entre no menu de características, seleccione “text style” e em “size” escolha o tamanho desejado; Para apresentar as frequências, clique com o botão direito do rato no fundo do gráfico e seleccione “show data labels”; Pode ainda trocar as cores das fatias seleccionando-as na legenda do gráfico e fazendo duplo clique). a.2) Para as variáveis métricas construa uma tabela em que apresenta para cada uma delas a média, desvio padrão, mínimo, máximo, mediana e quartis e os respectivos histogramas (Obtém todo o tratamento simultâneo para as quatro variáveis (Cost, Sugar, Calories, Weight) na caixa Analyze Descriptive Statistics Frequencies, seleccionando as variáveis relevantes. Como não interessam as tabelas de frequências (porque as variáveis são contínuas) apague a opção "Display frequency tables"; Pressione o botão Statistics para seleccionar as estatísticas pretendidas e com o botão Charts peça a construção dos histogramas); Vai agora reformatar o output: - troque o título para "QUANTITATIVE VARIABLES"; - Na tabela (e entre no respectivo menu de edição com um duplo clique) a mediana aparece repetida pois também pedimos os quartis (e vem o 1º, 2º, e 3º). Apague a linha da mediana (coloque-se sobre a célula "median", no menu do botão direito do rato seleccione Select Data cells and label e faça delete; se apagar os valores um por um a linha desaparece quando ficar vazia). Insira agora uma nota no quadro explicando que o percentil 50 é a mediana (clique a respectiva célula e no menu do botão direito do rato escolha "Insert footnote"). Formate ainda os valores da tabela como lhe parecer mais conveniente, dando especial atenção ao número de casa decimais (Clique com o botão direito na tabela e selecione Edit Content In Viewer. De seguida coloque-se sobre as células a formatar e no menu do botão direito do rato seleccione a opção Cell Properties); - Nos histogramas utilize uma cor diferente para cada variável, apague as estatísticas (que já tem no quadro) e sobreponha à barra de cada classe a respectiva frequência (utilize as opções do editor de gráficos à semelhança do que fez na alínea anterior) 22-02-11 2.3 b) Vamos agora explorar as relações entre as variáveis quantitativas com o intuito de tentar ver entre que pares de variáveis há uma associação mais significativa. b.1) Peça uma matriz de gráficos de pontos ("scatterplot matrix", usando Graphs Legacy dialogs Scatter/dot Matrix). Acrescente ao gráfico a recta da regressão linear simples entre cada par de variáveis (com duplo clique sobre o gráfico entre na janela de edição do gráfico; carregando com o botão direito no fundo, seleccione “Add Fit Line at Total”). (Por curiosidade acrescente nesse gráfico a variável "fiber". Veja como os gráficos acrescentados, embora não tendo sentido enquanto gráficos de pontos, nos dão uma ideia dos diferentes intervalos de variação para cada uma das variáveis quando condicionadas ao conteúdo em fibras). b.2) Peça uma matriz de correlações entre as variáveis. (Analyze Correlate Bivariate, seleccionando o coeficiente de correlação de Pearson, fazendo o teste à hipótese de ser diferente de zero a uma aba e pedindo para assinalar os coeficientes estatisticamente diferentes de zero. Note que o botão Options lhe permite modificar o aspecto da matriz, nomeadamente incluir a soma dos produtos dos desvios conjuntos e a covariância); Que conclusões pode tirar? Que variáveis estão mais associadas e como propõe prosseguir o estudo? c) Como concluiu na alínea anterior, e um pouco surpreendentemente, o conteúdo de açúcar está pouco menos associado com as calorias por dose do que poderíamos pressupor. De facto é a variável menos associada com as outras todas, ou, de outro modo, o conteúdo de fibras tem pouco a ver com o açúcar (há cereais com pouca fibra com muito açúcar e também com pouco açúcar, o mesmo para os cereais com muita fibra; há cereais caros com muito ou com pouco açúcar, mas também os baratos, etc.). Vamos por isso por de parte na nossa análise o açúcar por dose e vamos explorar a relação entre as calorias e o conteúdo em fibras, o peso e o custo. c.1) Comece por categorizar a variável peso. (Nota: fazemos esta operação, não tanto porque seja essencial à análise mas para explorarmos o SPSS na presença de duas variáveis categóricas. De qualquer forma esta operação não é completamente descabida, uma vez que a variável é bimodal, sugerindo assim a distribuição em torno de mais de um ponto quanto ao peso). Para confirmar a viabilidade de categorizar a variável e para determinar os intervalos correspondentes a cada categoria, refaça o histograma da variável assumindo o dobro das classes (24 em vez de 12). Que conclui? Que categorias propõe e que valores lhes correspondem? Construa a variável categórica a que vai chamar weight_C. Par o efeito use Transform Recode Into Different Variables… Na caixa respectiva introduza o nome e defina a correspondência usando o botão Old and New Values. Não deixe os extremos da variável por considerar e não esqueça de pedir para o sistema assinalar valores não considerados como erros. Defina agora os Labels para cada uma das categorias (Light, Medium e Heavy) e faça um tratamento para a variável semelhante ao que já fez para "fiber". c.2) Vamos agora comparar as calorias dos cereais com diferentes tipos de fibra. Para isso peça a média de cada um dos grupos (Analyze Compare Means Means, seleccionando a variável "calories" como dependente e a variável "fiber" como independente). Represente depois as médias destes grupos num gráfico de barras (Graphs Legacy Dialogs Bar Simple e Summaries for groups of cases, seleccionando com o botão define o que representam as barras Other… MEAN(calories) - e qual a categoria em abcissas). Que conclui? Haverá razão para assumir que as médias são estatisticamente diferentes? Realize os testes respectivos (Analyze Compare Means Independent-Samples T Test, seleccionando "calories" para variável a testar e Fiber como variável para agrupar os casos. Defina os grupos com o respectivo botão - note que deverá fazer três testes agrupando H vs. M, H vs. L e M vs. L). Que conclui? Ilustre ainda com um boxplot das calorias a partir dos casos agrupados por teor de fibra. 22-02-11 2.4 c.3) Uma vez que não parece haver uma diferença muito significativa entre as calorias contidas em cereais de alto e médio teor de fibras vamos passar a distinguir os cereais de pequeno almoço apenas em dois grupos: os alto e médio teor de fibras (H/M) que agrupa os que agora estão na categoria alto (H) e médio (M) e os de baixo teor (L), categoria que se mantém inalterada. Para fazermos análises dividindo os cereais apenas em dois grupos, a primeira coisa a fazer será agrupar os casos que agora estão nas duas categorias a fundir, criando a categoria 4 (H/M). A ideia será a de constituir estes dois grupos criando uma nova variável, “fiber_C”. Para isso usamos o comando Transform Recode Into Different Variables ... Na janela correspondente seleccionamos “fiber” e introduzimos como New Variable “fiber_C”. Se “fiber” for uma variável texto e a quisermos manter como texto temos de marcar a caixa correspondente a “Output variables are strings”. Depois é só introduzir a regra de coversão, seja “H”“H/M”; “M””H/M”; “L” “L” ou 14; 24; 33. No primeiro caso ficamos com dois grupos definidos pelos stings “H/M” e “L”. No segundo pelos valores 3 e 4 a que podemos fazer corresponder as etiquetas “L” e “H/M”. Agora vamos repetir o teste da diferença de médias considerando estes dois grupos. c.4) Vamos agora cruzar com o teor de fibra o peso do cereal e ver qual a respectiva importância nas calorias. Comece por produzir um quadro com as calorias médias por dose constituindo os grupos em função da fibra e também do peso categorizado. Para isso seleccione Analyze Tables Custom Tables. Em seguida, arraste Fiber para as linhas e Weight_C para as colunas e depois arraste Calories para “dentro” das linhas. Clicando em Summary Statistics escolha as funções Count (para saber quantas observações tem em cada caso) e Mean (para ter a média de cada grupo). Agora represente as médias num gráfico de barras para os mesmos grupos. Para isso faça Graphs Legacy Dialogs Bar e escolha um gráfico Clustered para Summaries of groups of cases. Pressionando no botão Define entra numa caixa de diálogo em que vai dizer que a variável para o Category Axis é a variável “fiber” e para Define Clusters by: escolha a variável “weight_c”. Falta agora dizer que as barras são as médias de cada grupo. Para isso na zona Bars Represent seleccione Other summary funcion, para onde arrasta a variável “calories”. Nesse momento pressione o botão Change Statistic para poder seguidamente seleccionar Mean of values. O arranjo estético do gráfico que obtem deixo ao seu gosto. d) Introduza agora a variável custo na sua análise. Analise a sua relação com as variáveis dependentes (calorias) e independentes (fibras e peso). 22-02-11 2.5 2.4. (Análise Gráfica, Cross-Tabs, ANOVA One Way, Paired Sample T Test) Cansado do ambiente monótono que se vive na banca em Portugal, decidiu propor ao seu banco a abertura de uma linha de crédito para pequenas empresas no Gana. Desta feita, através de um questionário dirigido a 215 pequenos empresários, obteve as variáveis presentes na base de dados SSIGHANA.Sav. a) Análise da Estrutura do Mercado a.1) Faça um Pie Chart com a variável Type of Firm colocando os respectivos labels indicando a percentagem de cada categoria; a.2) Construa um gráfico de barras para a variável Avg. Revenue discriminando por Type of Firm; a.3) Para garantir que as diferenças identificadas graficamente são estatisticamente significantes e portanto extrapoláveis ao universo de pequenas empresas no Gana, teste a diferença de médias de Avg. Revenue para os dois tipos de indústria em análise através de uma ANOVA One Way; a.4) Qual seria o resultado se ao invés de utilizar ANOVA tivesse optado por um Independent Sample T Test? Diga quais as diferenças explicitando as hipóteses nulas. a.5) Sumarie as conclusões b) Estabilidade b.1) Um dos critérios mais importantes na concessão de crédito microcrédito em particular é o nível de estabilidade dos cash flows. Desta feita, o banco considera mais seguro conceder crédito a empresas cujas vendas tenham menor flutuação. Para identificar qual das duas indústrias tem as vendas mais estáveis faça uma tabela cruzada de duas entradas (Cross-Tab) com as variáveis Type of Firm e Sales Fluctuate; b.2) Como garante que os resultados são realmente significantes e não se devem ao acaso? b.3) Como avalia a intensidade da correlação? c) Drivers de Crescimento das Indústrias c.1) Para conhecer melhor os principais factores de crescimento, faça um Pie Chart com a variável Form of Expansion; c.2) Suspeitando que dependendo da indústria os drivers de crescimento podem variar, decidiu fazer um Drop-line Graph definindo a variável Form of Expansion no Category Axis e marcando os pontos com a variável Type of Firm; c.3) Analisando agora os factores que mais limitam o crescimento de cada indústria, pretende cruzar a variável Type of Firm com a variável Factors Restricting Expansion. Para tal utilize uma tabela cruzada de duas entradas (Cross-Tab). (Utilize uma variável filtro – select cases – para evitar que sejam tidos em conta indivíduos que tenham respondido “none” na variável Factors Restricting Expansion); c.4) À medida que as empresas crescem começam a vender cada vez mais para fora da sua zona geográfica. É importante perceber como varia a sensibilidade desses novos mercados ao preço. Para tal, veja se existe correlação entre a variável Where products are sold e Contrib. to sales from increasing Output. (Utilize Cross-Tabs retirando estatísticas ordinais) 22-02-11 2.6 d) Profitability Pretende agora aferir-se o potencial de criação de valor das duas indústrias. Para tal, pretende comparar-se a diferença entre a variável Start-up Capital com um proxy do valor actual das empresas Asset Value em cada uma das indústrias. d.1) Comece por criar a variável Asset Value através da soma entre as variáveis Total Stock Value e Book Value of Mach./Equip; d.2) Faça um Paired Sample T Test para cada indústria e avalie, numa óptica de risco/retorno, qual a indústria que considera melhor posicionada à abertura da linha de crédito. (utilize uma variável filtro para considerar os indivíduos de uma indústria de cada vez). d.3) Sumarie as suas conclusões e) Perfil do Empresário e.1) As mulheres são muitas vezes vistas como mais seguras do que os homens pelos actuais bancos de microcrédito. A distribuição da variável Gender está em linha com a sua resposta à alínea d. 2? e.2) Por uma questão histórica de discriminação, é muito provável que as mulheres tenham uma dificuldade acrescida no acesso a capital porque não lhes são tão facilmente concedidos fundos familiares – o que as tornaria um target ainda mais interessante para o banco. Utilize uma tabela cruzada (Cross-Tab) para testar esta hipótese de discriminação utilizando as variáveis Family Capital e Gender. e.3) Sumarie as suas conclusões f) Concorrência f.1) Faça um gráfico tridimensional com as variáveis Competing Banks e Type of Firms nos eixos horizontais e a frequência absoluta no eixo vertical. g) Conclusões finais 22-02-11 2.7 2.5. (Importação de ficheiros do Excel, utilização dos comandos "transform" e análise do impacto da dimensão das amostras na estimação de médias) O gestor da carteira de um fundo mobiliário pretende dispor de um estimador eficaz para a variação média diária do preço das acções de cimenteiras cotadas numa bolsa europeia. Para lhe explicar a importância do número de casos a incluir na análise um seu colega recolheu, a partir das cotações das várias empresas nas últimas duas semanas um ficheiro com 80 amostras de 5 variações diárias (AMOST_5.SAV). a) Os seus 80 casos são as 80 amostras. Crie agora uma nova variável a que vai chamar m5 e que é a média de cada uma das amostras. (Faça-o usando no menu Transform o comando Compute. Primeiro crie a variável m5 introduzindo a expressão (a1 + a2 + a3 + a4 + a5)/5. Quando tiver construída a variável grave o ficheiro com o mesmo nome (mas ficheiro de dados SPSS, ou seja AMOST_5.SAV). b) Construa o histograma da média das amostras (no menu Graphs Legacy Dialogs, opção Histogram). Não deixe de pedir para ajustar uma normal à distribuição de frequências. O SPSS abre de novo a janela com o relatório que está a construir e mostra-lhe o histograma construído. 1) Agora vai explorar as possibilidades de formatação do gráfico construído. Com um duplo clique sobre o gráfico abre-se uma janela de edição do gráfico que fica sombreado na janela de output. 2) No gráficoo pode seleccionar vários objectos com um clique: as barras, a curva normal que lhes foi ajustada, o fundo do gráfico, a caixa com as estatísticas para a variável, o eixo das ordenadas (frequências) e o eixo das abcissas (variável). Com um clique seleccione a série (nas barras). Mude-lhes o aspecto (clique direito do rato no gráfico properties window fill & border). 3) Use de seguida o comando Show data Labels (também com um clique direito do rato) para acrescentar às barras o valor das frequências de cada classe. 4) Vai agora explorar as possibilidades de formatação dos eixos: com um duplo clique no eixo m5 surge-lhe a janela de diálogo do Interval Axis. Esta janela permite não só definir o número / dimensão das classes que pretendemos considerar [Scale] bem como as marcações de valores sobre o eixo das variáveis [Labels & Ticks]. Experimente várias possibilidades. Fixe os valores em: Scale (Custom; com uma amplitude de 0.5 e num intervalo entre -5 e 6; Repare que automaticamente vem que estamos a considerar 22 classes); Labels (apresente apenas o ponto médio de 4 em 4 classes). c) O seu colega recolheu um outro ficheiro com 80 amostras de 15 variações diárias (AMOST_15.XLS), e outro com 80 amostras de 100 variações diárias (AMOST_100.XLS). O objectivo é mostrar ao gestor que a dispersão da média amostral diminui muito com o aumento da dimensão da amostra. Para isso vamos construir as médias de 15 observações e as de 100 observações e comparar as suas distribuições com as que já obtivemos. 1) Como já constatou, a tarefa de construir a média de cada amostra (nova variável para 80 casos) no SPSS é difícil uma vez que nas transformações possíveis não existe o conceito de área (espaço que medeia entre duas posições), tendo o utilizador de discriminar cada uma das variáveis a somar, o que, especialmente no caso da construção das médias das amostras de 100 observações se torna muito penoso. Em EXCEL abra os dois ficheiros e construa as médias das amostras (use a função AVERAGE) dando às novas variáveis os nomes de m15 e m100. Copie as respectivas colunas para um ficheiro a que vai chamar M15_100.XLS. 2) No SPSS tem agora no Data Editor o ficheiro AMOST_5.SAV. Abra o M5_100.XLS. Grave-o como M15_100.SAV (SPSS). Vamos de seguida fazer um merge, ou seja criar um novo ficheiro que contém variáveis dos dois anteriores. No menu Data seleccione o comando Merge Files e neste a opção Add_variables. Para ter um ficheiro com as médias dos três tipos de amostras falta-lhe a variável m5 que está no ficheiro AMOST_5.SAV. Seleccione este ficheiro. Tem uma janela de diálogo que às variáveis antes presentes adicionou as do ficheiro. Escolha as que vai por no novo ficheiro, ou seja, m5, m15 e m100, por esta ordem. feche a janela e grave o ficheiro com o nome MEDIAS.SAV. 22-02-11 2.8 d) Agora vamos construir os histogramas para as variáveis m15 e m100. Faça-o à semelhança do que fez para m5 em b.5) e usando os mesmos parâmetros para o eixo das abcissas (só assim os histogramas podem ser comparados). Embora as classes sejam as mesmas, as distribuições de m15 e m100 são muito menos dispersas pelo que têm valores mais altos para as frequências. Para que visualmente os gráficos sejam comparáveis, há que usar também a mesma escala de frequências em todos. Abra então cada um dos três gráficos e formate as ordenadas com um intervalo entre 0 e 50 e com marcas para cada 5 unidades. Reveja agora o seu output, escondendo ou modificando os títulos e insira uma caixa de texto com os seus comentários a estes três gráficos. 22-02-11 2.9
Documentos relacionados
análise de dados para ciências sociais
6.1. Quadro de distribuição de frequências, moda e quantis
Leia mais