CE 2 Introdução ao SPSS

Transcrição

CE 2 Introdução ao SPSS
ESTATÍSTICA MULTIVARIADA
2º SEMESTRE 2010 / 11
EXERCÍCIOS PRÁTICOS - CADERNO 2
Introdução ao SPSS
22-02-11
2.1
2.1. (Introdução de dados)
Um colega seu está interessado em estudar as semelhanças e diferenças entre os automóveis ligeiros de
passageiros comercializados no mercado Português para o que consultou a lista das vendas em 1996. No
Quadro 1 apresentam-se alguns dados recolhidos (o total das observações constitui XXII tabelas).
Marca
Modelo
Cilind.
cm3
Alfa-Romeo 155 1.8 TS 16V
1747
Alfa-Romeo Spider 2.0 TS 2p
1970
Audi
A4 1.8 4p
1781
Audi
A4 1.9 TDI Avant Sport
1896
BMW
750 IL
5379
Citroën
Saxo 1.1 VSX 3p
1124
Fiat
Cinquecento 1.1 Sport
1105
Fiat
Punto 55 SX 5p
1108
Ford
Escort 1.6 Cabrio Z Luxury
1597
Ford
Mondeo 1.6 Ghia Wagon
1597
Honda
Civic I LS 4p
1493
Lancia
Delta 1.9 TDS LE 5p
1929
Opel
Corsa 1.5 TD Eco
1488
Peugeot
106 1.1 XR 5p
1124
Renault
Megane 1.4 Scenic RN
1390
Pot. Comb. P Seg. Unid.
cv
vend.
140
G
5 D
34
150
G
2 F
19
125
G
4 D
171
110
D
5 D
1056
326
G
4 F
1
60
G
3 B
1708
52
G
3 A
470
54
G
5 B
6118
90
G
2 C
33
90
G
5 D
33
114
G
4 C
1422
90
D
5 C
5
67
D
3 B
2471
60
G
5 B
1608
69
G
4 C
596
Comb. = Combustível (G = Gasolina / D = Diesel)
P = Nº. de portas
Seg. = Segmento (A = Económico / B = Inferior / C = Médio Inf. / D = Médio Sup. /
E = Superior / F = Luxo )
Fonte: O Comércio e a Indústria Automóvel em Portugal, ACAP, 1997
a) Classifique cada uma das variáveis consideradas no estudo.
b) Introduza as observações num novo ficheiro e guarde-o na sua área de trabalho.
2.2. (Importação de ficheiros do Excel e tratamento de informação univariável)
O Ficheiro SALARIOS.XLS tem os salários mensais (em euros) de uma amostra de 100 licenciados em
Gestão em 2003 por duas universidades diferentes (A e B), também indicadas no ficheiro, inquiridos um ano
após a conclusão da licenciatura.
a) Importe este ficheiro para o SPSS fazendo as necessárias rectificações na definição das variáveis.
b) Obtenha as estatísticas que achar convenientes para a variável salário (sem distinguir o local de
obtenção do diploma).
c) Construa o respectivo histograma primeiro com a frequência absoluta de cada classe, depois com a
frequência relativa. Ajuste ainda uma distribuição normal neste histograma. Parece-lhe que se pode
dizer que a distribuição segue uma lei normal?
d) Construa um gráfico de "caixa de bigodes" para o salário destes 100 gestores. Seguidamente construa
um gráfico do mesmo tipo comparando a distribuição dos licenciados das duas universidades.
e) Que pode dizer sobre o salário médio dos licenciados em Gestão desse ano. (Discuta os valores
possíveis em termos de um intervalo de confiança para a média).
Haverá diferença entre o salário médio dos gestores formados pelas duas escolas?
f)
Utilize a janela de "Output" do SPSS para produzir um relatório que sintetize a análise que fez na
sequência das alíneas anteriores.
22-02-11
2.2
2.3. (análise e representação de dados multivariados)
O Ficheiro CEREALS.XLSX tem os já seus conhecidos dados para a caracterização dos cereais de
pequeno almoço disponíveis no mercado americano. (Para o teor de fibra: 1=High; 2=Medium; 3= Low).
Vai explorar esta informação com o objectivo de tentar perceber quais os cereais que mais engordam. Ou
seja, vai tentar descobrir a relação (se é que existe) entre as calorias, o açúcar e as outras variáveis.
Depois de importar este ficheiro para o SPSS:
a) Estude a distribuição das variáveis isoladamente e depois explore a relação entre elas utilizando os
comandos que já conhece nos menus Analyze e Graphs.
a.1) Para a variável "fiber" obtenha um quadro de frequências e o respectivo diagrama circular
( Analyze  Descriptive Statistics Frequencies, seleccionando no botão Graphs a inclusão de
uma "Pie Chart");
Reformate o output:
- dando o título "FIBER" ao conjunto dos resultados obtidos;
- eliminando a informação sobre a disponibilidade dos dados (que se repete no quadro de
frequências);
- eliminando a repetição do nome da variável estudada no título do quadro e no do gráfico;
- aumentando o tamanho das letras que indicam o tipo de fibra correspondente a cada fatia e
apresentando a respectiva frequência (com um duplo clique entre no menu de características,
seleccione “text style” e em “size” escolha o tamanho desejado; Para apresentar as frequências,
clique com o botão direito do rato no fundo do gráfico e seleccione “show data labels”; Pode
ainda trocar as cores das fatias seleccionando-as na legenda do gráfico e fazendo duplo clique).
a.2) Para as variáveis métricas construa uma tabela em que apresenta para cada uma delas a média,
desvio padrão, mínimo, máximo, mediana e quartis e os respectivos histogramas (Obtém todo o
tratamento simultâneo para as quatro variáveis (Cost, Sugar, Calories, Weight) na caixa Analyze 
Descriptive Statistics Frequencies, seleccionando as variáveis relevantes. Como não interessam
as tabelas de frequências (porque as variáveis são contínuas) apague a opção "Display frequency
tables"; Pressione o botão Statistics para seleccionar as estatísticas pretendidas e com o botão
Charts peça a construção dos histogramas);
Vai agora reformatar o output:
- troque o título para "QUANTITATIVE VARIABLES";
- Na tabela (e entre no respectivo menu de edição com um duplo clique) a mediana aparece
repetida pois também pedimos os quartis (e vem o 1º, 2º, e 3º). Apague a linha da mediana
(coloque-se sobre a célula "median", no menu do botão direito do rato seleccione Select  Data
cells and label e faça delete; se apagar os valores um por um a linha desaparece quando ficar
vazia). Insira agora uma nota no quadro explicando que o percentil 50 é a mediana (clique a
respectiva célula e no menu do botão direito do rato escolha "Insert footnote"). Formate ainda os
valores da tabela como lhe parecer mais conveniente, dando especial atenção ao número de
casa decimais (Clique com o botão direito na tabela e selecione Edit Content  In Viewer. De
seguida coloque-se sobre as células a formatar e no menu do botão direito do rato seleccione a
opção Cell Properties);
- Nos histogramas utilize uma cor diferente para cada variável, apague as estatísticas (que já tem
no quadro) e sobreponha à barra de cada classe a respectiva frequência (utilize as opções do
editor de gráficos à semelhança do que fez na alínea anterior)
22-02-11
2.3
b) Vamos agora explorar as relações entre as variáveis quantitativas com o intuito de tentar ver entre que
pares de variáveis há uma associação mais significativa.
b.1) Peça uma matriz de gráficos de pontos ("scatterplot matrix", usando Graphs  Legacy dialogs 
Scatter/dot  Matrix).
Acrescente ao gráfico a recta da regressão linear simples entre cada par de variáveis (com duplo
clique sobre o gráfico entre na janela de edição do gráfico; carregando com o botão direito no fundo,
seleccione “Add Fit Line at Total”).
(Por curiosidade acrescente nesse gráfico a variável "fiber". Veja como os gráficos acrescentados,
embora não tendo sentido enquanto gráficos de pontos, nos dão uma ideia dos diferentes intervalos
de variação para cada uma das variáveis quando condicionadas ao conteúdo em fibras).
b.2) Peça uma matriz de correlações entre as variáveis. (Analyze  Correlate  Bivariate,
seleccionando o coeficiente de correlação de Pearson, fazendo o teste à hipótese de ser diferente
de zero a uma aba e pedindo para assinalar os coeficientes estatisticamente diferentes de zero.
Note que o botão Options lhe permite modificar o aspecto da matriz, nomeadamente incluir a soma
dos produtos dos desvios conjuntos e a covariância);
Que conclusões pode tirar? Que variáveis estão mais associadas e como propõe prosseguir o estudo?
c) Como concluiu na alínea anterior, e um pouco surpreendentemente, o conteúdo de açúcar está pouco
menos associado com as calorias por dose do que poderíamos pressupor. De facto é a variável menos
associada com as outras todas, ou, de outro modo, o conteúdo de fibras tem pouco a ver com o açúcar
(há cereais com pouca fibra com muito açúcar e também com pouco açúcar, o mesmo para os cereais
com muita fibra; há cereais caros com muito ou com pouco açúcar, mas também os baratos, etc.).
Vamos por isso por de parte na nossa análise o açúcar por dose e vamos explorar a relação entre as
calorias e o conteúdo em fibras, o peso e o custo.
c.1) Comece por categorizar a variável peso. (Nota: fazemos esta operação, não tanto porque seja
essencial à análise mas para explorarmos o SPSS na presença de duas variáveis categóricas. De
qualquer forma esta operação não é completamente descabida, uma vez que a variável é bimodal, sugerindo assim a distribuição em torno de mais de um ponto quanto ao peso).
Para confirmar a viabilidade de categorizar a variável e para determinar os intervalos
correspondentes a cada categoria, refaça o histograma da variável assumindo o dobro das classes
(24 em vez de 12). Que conclui? Que categorias propõe e que valores lhes correspondem?
Construa a variável categórica a que vai chamar weight_C. Par o efeito use Transform  Recode
Into Different Variables… Na caixa respectiva introduza o nome e defina a correspondência
usando o botão Old and New Values. Não deixe os extremos da variável por considerar e não
esqueça de pedir para o sistema assinalar valores não considerados como erros. Defina agora os
Labels para cada uma das categorias (Light, Medium e Heavy) e faça um tratamento para a
variável semelhante ao que já fez para "fiber".
c.2) Vamos agora comparar as calorias dos cereais com diferentes tipos de fibra. Para isso peça a
média de cada um dos grupos (Analyze  Compare Means  Means, seleccionando a variável
"calories" como dependente e a variável "fiber" como independente). Represente depois as
médias destes grupos num gráfico de barras (Graphs  Legacy Dialogs  Bar Simple e
Summaries for groups of cases, seleccionando com o botão define o que representam as barras Other… MEAN(calories) - e qual a categoria em abcissas).
Que conclui? Haverá razão para assumir que as médias são estatisticamente diferentes? Realize
os testes respectivos (Analyze  Compare Means  Independent-Samples T Test, seleccionando
"calories" para variável a testar e Fiber como variável para agrupar os casos. Defina os grupos
com o respectivo botão - note que deverá fazer três testes agrupando H vs. M, H vs. L e M vs. L).
Que conclui? Ilustre ainda com um boxplot das calorias a partir dos casos agrupados por teor de
fibra.
22-02-11
2.4
c.3) Uma vez que não parece haver uma diferença muito significativa entre as calorias contidas em
cereais de alto e médio teor de fibras vamos passar a distinguir os cereais de pequeno almoço
apenas em dois grupos: os alto e médio teor de fibras (H/M) que agrupa os que agora estão na
categoria alto (H) e médio (M) e os de baixo teor (L), categoria que se mantém inalterada. Para
fazermos análises dividindo os cereais apenas em dois grupos, a primeira coisa a fazer será
agrupar os casos que agora estão nas duas categorias a fundir, criando a categoria 4 (H/M). A
ideia será a de constituir estes dois grupos criando uma nova variável, “fiber_C”. Para isso usamos
o comando Transform  Recode Into Different Variables ...
Na janela correspondente seleccionamos “fiber” e introduzimos como New Variable “fiber_C”. Se
“fiber” for uma variável texto e a quisermos manter como texto temos de marcar a caixa
correspondente a “Output variables are strings”. Depois é só introduzir a regra de coversão, seja
“H”“H/M”; “M””H/M”; “L” “L” ou 14; 24; 33. No primeiro caso ficamos com dois grupos
definidos pelos stings “H/M” e “L”. No segundo pelos valores 3 e 4 a que podemos fazer
corresponder as etiquetas “L” e “H/M”.
Agora vamos repetir o teste da diferença de médias considerando estes dois grupos.
c.4) Vamos agora cruzar com o teor de fibra o peso do cereal e ver qual a respectiva importância nas
calorias. Comece por produzir um quadro com as calorias médias por dose constituindo os grupos
em função da fibra e também do peso categorizado.
Para isso seleccione Analyze  Tables  Custom Tables. Em seguida, arraste Fiber para as
linhas e Weight_C para as colunas e depois arraste Calories para “dentro” das linhas. Clicando em
Summary Statistics escolha as funções Count (para saber quantas observações tem em cada
caso) e Mean (para ter a média de cada grupo).
Agora represente as médias num gráfico de barras para os mesmos grupos. Para isso faça
Graphs  Legacy Dialogs  Bar e escolha um gráfico Clustered para Summaries of groups of
cases. Pressionando no botão Define entra numa caixa de diálogo em que vai dizer que a variável
para o Category Axis é a variável “fiber” e para Define Clusters by: escolha a variável “weight_c”.
Falta agora dizer que as barras são as médias de cada grupo. Para isso na zona Bars Represent
seleccione Other summary funcion, para onde arrasta a variável “calories”. Nesse momento
pressione o botão Change Statistic para poder seguidamente seleccionar Mean of values. O
arranjo estético do gráfico que obtem deixo ao seu gosto.
d) Introduza agora a variável custo na sua análise. Analise a sua relação com as variáveis dependentes
(calorias) e independentes (fibras e peso).
22-02-11
2.5
2.4. (Análise Gráfica, Cross-Tabs, ANOVA One Way, Paired Sample T Test)
Cansado do ambiente monótono que se vive na banca em Portugal, decidiu propor ao seu banco a abertura
de uma linha de crédito para pequenas empresas no Gana. Desta feita, através de um questionário dirigido
a 215 pequenos empresários, obteve as variáveis presentes na base de dados SSIGHANA.Sav.
a) Análise da Estrutura do Mercado
a.1) Faça um Pie Chart com a variável Type of Firm colocando os respectivos labels indicando a
percentagem de cada categoria;
a.2) Construa um gráfico de barras para a variável Avg. Revenue discriminando por Type of Firm;
a.3) Para garantir que as diferenças identificadas graficamente são estatisticamente significantes e
portanto extrapoláveis ao universo de pequenas empresas no Gana, teste a diferença de médias de
Avg. Revenue para os dois tipos de indústria em análise através de uma ANOVA One Way;
a.4) Qual seria o resultado se ao invés de utilizar ANOVA tivesse optado por um Independent Sample T
Test? Diga quais as diferenças explicitando as hipóteses nulas.
a.5) Sumarie as conclusões
b) Estabilidade
b.1) Um dos critérios mais importantes na concessão de crédito microcrédito em particular é o nível de
estabilidade dos cash flows. Desta feita, o banco considera mais seguro conceder crédito a
empresas cujas vendas tenham menor flutuação. Para identificar qual das duas indústrias tem as
vendas mais estáveis faça uma tabela cruzada de duas entradas (Cross-Tab) com as variáveis
Type of Firm e Sales Fluctuate;
b.2) Como garante que os resultados são realmente significantes e não se devem ao acaso?
b.3) Como avalia a intensidade da correlação?
c) Drivers de Crescimento das Indústrias
c.1) Para conhecer melhor os principais factores de crescimento, faça um Pie Chart com a variável
Form of Expansion;
c.2) Suspeitando que dependendo da indústria os drivers de crescimento podem variar, decidiu fazer um
Drop-line Graph definindo a variável Form of Expansion no Category Axis e marcando os pontos
com a variável Type of Firm;
c.3) Analisando agora os factores que mais limitam o crescimento de cada indústria, pretende cruzar a
variável Type of Firm com a variável Factors Restricting Expansion. Para tal utilize uma tabela
cruzada de duas entradas (Cross-Tab). (Utilize uma variável filtro – select cases – para evitar que
sejam tidos em conta indivíduos que tenham respondido “none” na variável Factors Restricting
Expansion);
c.4) À medida que as empresas crescem começam a vender cada vez mais para fora da sua zona
geográfica. É importante perceber como varia a sensibilidade desses novos mercados ao preço.
Para tal, veja se existe correlação entre a variável Where products are sold e Contrib. to sales
from increasing Output. (Utilize Cross-Tabs retirando estatísticas ordinais)
22-02-11
2.6
d) Profitability
Pretende agora aferir-se o potencial de criação de valor das duas indústrias. Para tal, pretende comparar-se
a diferença entre a variável Start-up Capital com um proxy do valor actual das empresas Asset Value em
cada uma das indústrias.
d.1) Comece por criar a variável Asset Value através da soma entre as variáveis Total Stock Value e
Book Value of Mach./Equip;
d.2) Faça um Paired Sample T Test para cada indústria e avalie, numa óptica de risco/retorno, qual a
indústria que considera melhor posicionada à abertura da linha de crédito. (utilize uma variável filtro
para considerar os indivíduos de uma indústria de cada vez).
d.3) Sumarie as suas conclusões
e) Perfil do Empresário
e.1) As mulheres são muitas vezes vistas como mais seguras do que os homens pelos actuais bancos
de microcrédito. A distribuição da variável Gender está em linha com a sua resposta à alínea d. 2?
e.2) Por uma questão histórica de discriminação, é muito provável que as mulheres tenham uma
dificuldade acrescida no acesso a capital porque não lhes são tão facilmente concedidos fundos
familiares – o que as tornaria um target ainda mais interessante para o banco. Utilize uma tabela
cruzada (Cross-Tab) para testar esta hipótese de discriminação utilizando as variáveis Family
Capital e Gender.
e.3) Sumarie as suas conclusões
f)
Concorrência
f.1) Faça um gráfico tridimensional com as variáveis Competing Banks e Type of Firms nos eixos
horizontais e a frequência absoluta no eixo vertical.
g) Conclusões finais
22-02-11
2.7
2.5. (Importação de ficheiros do Excel, utilização dos comandos "transform" e análise do impacto da
dimensão das amostras na estimação de médias)
O gestor da carteira de um fundo mobiliário pretende dispor de um estimador eficaz para a variação média
diária do preço das acções de cimenteiras cotadas numa bolsa europeia.
Para lhe explicar a importância do número de casos a incluir na análise um seu colega recolheu, a partir das
cotações das várias empresas nas últimas duas semanas um ficheiro com 80 amostras de 5 variações
diárias (AMOST_5.SAV).
a) Os seus 80 casos são as 80 amostras. Crie agora uma nova variável a que vai chamar m5 e que é a
média de cada uma das amostras. (Faça-o usando no menu Transform o comando Compute. Primeiro
crie a variável m5 introduzindo a expressão (a1 + a2 + a3 + a4 + a5)/5. Quando tiver construída a
variável grave o ficheiro com o mesmo nome (mas ficheiro de dados SPSS, ou seja AMOST_5.SAV).
b) Construa o histograma da média das amostras (no menu Graphs Legacy Dialogs, opção Histogram).
Não deixe de pedir para ajustar uma normal à distribuição de frequências. O SPSS abre de novo a
janela com o relatório que está a construir e mostra-lhe o histograma construído.
1) Agora vai explorar as possibilidades de formatação do gráfico construído. Com um duplo clique
sobre o gráfico abre-se uma janela de edição do gráfico que fica sombreado na janela de output.
2) No gráficoo pode seleccionar vários objectos com um clique: as barras, a curva normal que lhes foi
ajustada, o fundo do gráfico, a caixa com as estatísticas para a variável, o eixo das ordenadas
(frequências) e o eixo das abcissas (variável). Com um clique seleccione a série (nas barras).
Mude-lhes o aspecto (clique direito do rato no gráfico  properties window  fill & border).
3) Use de seguida o comando Show data Labels (também com um clique direito do rato) para
acrescentar às barras o valor das frequências de cada classe.
4) Vai agora explorar as possibilidades de formatação dos eixos: com um duplo clique no eixo m5
surge-lhe a janela de diálogo do Interval Axis. Esta janela permite não só definir o número /
dimensão das classes que pretendemos considerar [Scale] bem como as marcações de valores
sobre o eixo das variáveis [Labels & Ticks]. Experimente várias possibilidades.
Fixe os valores em: Scale (Custom; com uma amplitude de 0.5 e num intervalo entre -5 e 6; Repare
que automaticamente vem que estamos a considerar 22 classes); Labels (apresente apenas o
ponto médio de 4 em 4 classes).
c) O seu colega recolheu um outro ficheiro com 80 amostras de 15 variações diárias (AMOST_15.XLS), e
outro com 80 amostras de 100 variações diárias (AMOST_100.XLS). O objectivo é mostrar ao gestor
que a dispersão da média amostral diminui muito com o aumento da dimensão da amostra. Para isso
vamos construir as médias de 15 observações e as de 100 observações e comparar as suas
distribuições com as que já obtivemos.
1) Como já constatou, a tarefa de construir a média de cada amostra (nova variável para 80 casos) no
SPSS é difícil uma vez que nas transformações possíveis não existe o conceito de área (espaço
que medeia entre duas posições), tendo o utilizador de discriminar cada uma das variáveis a somar,
o que, especialmente no caso da construção das médias das amostras de 100 observações se
torna muito penoso.
Em EXCEL abra os dois ficheiros e construa as médias das amostras (use a função AVERAGE)
dando às novas variáveis os nomes de m15 e m100. Copie as respectivas colunas para um ficheiro
a que vai chamar M15_100.XLS.
2) No SPSS tem agora no Data Editor o ficheiro AMOST_5.SAV. Abra o M5_100.XLS. Grave-o como
M15_100.SAV (SPSS).
Vamos de seguida fazer um merge, ou seja criar um novo ficheiro que contém variáveis dos dois
anteriores. No menu Data seleccione o comando Merge Files e neste a opção Add_variables. Para
ter um ficheiro com as médias dos três tipos de amostras falta-lhe a variável m5 que está no ficheiro
AMOST_5.SAV. Seleccione este ficheiro. Tem uma janela de diálogo que às variáveis antes
presentes adicionou as do ficheiro. Escolha as que vai por no novo ficheiro, ou seja, m5, m15 e
m100, por esta ordem. feche a janela e grave o ficheiro com o nome MEDIAS.SAV.
22-02-11
2.8
d) Agora vamos construir os histogramas para as variáveis m15 e m100. Faça-o à semelhança do que fez
para m5 em b.5) e usando os mesmos parâmetros para o eixo das abcissas (só assim os histogramas
podem ser comparados).
Embora as classes sejam as mesmas, as distribuições de m15 e m100 são muito menos dispersas pelo
que têm valores mais altos para as frequências. Para que visualmente os gráficos sejam comparáveis,
há que usar também a mesma escala de frequências em todos. Abra então cada um dos três gráficos e
formate as ordenadas com um intervalo entre 0 e 50 e com marcas para cada 5 unidades.
Reveja agora o seu output, escondendo ou modificando os títulos e insira uma caixa de texto com os
seus comentários a estes três gráficos.
22-02-11
2.9