Comparação entre os métodos de agrupamentos K

Transcrição

Comparação entre os métodos de agrupamentos K
Comparação entre os métodos de agrupamentos
K-means e Mapa de Kohonen (SOM) em análise de
pesquisa de mercado.
Márcio Candeias Marques
Departamento de Engenharia Elétrica -PUC-Rio
Resumo
Uma das necessidades para as empresas em seu negócio é a segmentação do
mercado-alvo, portanto em pesquisas de mercado a formação de “clusters” é
importante para identificar o perfil deste mercado com o objetivo de gerar
vantagens competitivas sustentáveis para as empresas. Portanto, o objetivo
deste trabalho é comparar dois importantes métodos de agrupamentos, a
saber: K-means e Mapa de Kohonen (SOM), em um contexto de marketing,
na mensuração de hábitos e atitudes dos consumidores de biscoito em São
Paulo. O SOM é uma técnica de redes neurais artificiais enquanto a
metodologia do K-means é uma técnica estatística. Diferentemente do mapa
de Kohonen o método de K-means necessita “a priori” do conhecimento da
quantidade de agrupamentos enquanto o SOM não necessita deste
conhecimento “a priori”. Nosso trabalho identifica que as metodologias
foram semelhantes e que podem ser usadas em conjunto.
1. Introdução
Os modelos de redes neurais têm sido utilizados como alternativas aos modelos
tradicionais de predição, classificação ou aglomeração por ser caracterizarem como
aproximadores universais de funções segundo Hayken (1999) e devido às suas características
de desempenho frente a dados incompletos e/ou sua capacidade de estabelecer relações entre
os mesmos, tais modelos podem ser uma das alternativas em relação à análise de
aglomerados, para maiores detalhes das técnicas multivariadas para aglomeração ou
classificação não-espaciais citamos Lucas (1982), Ketchen & Snook (1996) e Johnson &
Wichern (2002).
Este trabalho examina o potencial do mapa de Kohonen (Kohonen self-organising map
ou “SOM”), Hayken (1999), na área de marketing em uma segmentação de mercado em
atitudes e hábitos de consumo de consumidores levantados por uma pesquisa de mercado na
cidade de São Paulo. Maiores detalhes em Mazzon et al. (1983), Milne et al. (1996) em
mensuração dos hábitos e atitudes de consumidores e em Curry et al. (2001, 2003) em
segmentação de mercado utilizando-se o mapa de Kohonen.
Os resultados mostram que o SOM é uma técnica concorrente com os métodos
tradicionais de estatística em segmentação segundo Everitt, 1993, pois além de diferirem no
algoritmo também oferecem uma perspectiva diferente ou não-usual de interpretação dos
resultados quando comparados às técnicas usuais de estatística uma vez que os grupos
formados podem ser ligeiramente semelhantes, mas diferirem em um atributo.
Uma das necessidades em marketing é a segmentação das informações em grupos ou
“clusters” que consigam reter informações similares segundo as características avaliadas. Os
métodos de classificação e/ou agrupamentos dividem-se em dois grupos principais: os nãosupervisionados e os supervisionados. Os não-supervisionados dividem as classes
automaticamente sem necessitar de informações a priori enquanto que os supervisionados
consideram um conhecimento prévio, Hayken (1999).
O mapa de Kohonen ou SOM pertence a uma classe de redes neurais cujo aprendizado
é não-supervisionado e desenvolvido para reconhecimento de padrões e uma das
características desta metodologia é a utilização de neurônios que competem entre si para
descobrir qual gera ou atribua a maior saída. O resultado do mapa de Kohonen, em geral, é
uma malha bidimensional a qual podemos visualizar os neurônios mais ativados, e, portanto
nos trás outro benefício como, por exemplo, ser um facilitador de visualização espacial das
relações entre variáveis, segundo Hayken (1999), sendo assim indicado também para a
formação de “clusters”. Conseqüentemente o método SOM difere então dos métodos
estatísticos convencionais para classificação ou aglomeração não-espaciais, que não geram
uma saída bidimensional, como por exemplo: K-vizinhos mais Próximos, “K-means” ou
regressão logística, onde este último método é supervisionado. Observa-se, no entanto que o
mapa de Kohonen também podem arranjar-se de forma unidimensional como no caso de uma
estrutura linear para estruturas em grade (Pao, 1989). Observamos que os modelos utilizados
são para agrupamento e não para classificação, e, portanto não houve a necessidade de separálos em grupos para validação e teste.
O objetivo deste trabalho é prover uma comparação entre os métodos de agrupamento
conhecidos com K-means e SOM em uma aplicação em marketing. A seção 1 faz uma breve
introdução do trabalho. A seção 2 descreve o banco de dados e a análise dos resultados é
mostrada na seção 3. A seção 4 finaliza o trabalho com uma conclusão.
2. O banco de dados
Os dados coletados referem-se a uma pesquisa de mercado realizada no Estado de São
Paulo sobre hábitos e atitudes de consumo de biscoitos no período de 01/2004 a 06/2004. A
amostra selecionou 750 consumidores de biscoitos, de ambos os sexos, com idades de 13 a 60
anos com o objetivo de avaliar por meio de atributos comportamentais o hábito e atitudes dos
consumidores de biscoitos. As variáveis pesquisadas, em um total de dezessete, foram:
Tabela 1: Nome das variáveis e código
Código
v01
v02
v03
v04
v05
v06
v07
v08
v09
v10
v11
v12
v13
v14
v15
v16
v17
Variáveis
Sempre compro produtos em promoção, mesmo que nunca tenha experimentado.
Faço qualquer sacrifício para manter um bom visual
Sempre consumo produtos diet;/ light
Não compro produtos light e/ou diet porque são muito caros
Não me importo em pagar mais por produtos de qualidade.
Busco sempre fazer refeições saudáveis
Sou viciado em snacks: não passo um dia sem comer biscoitinhos, salgadinhos etc
Como somente alimentos naturais
Sempre procuro alimentos enriquecidos com vitaminas
Sempre leio artigos sobre a saúde
Não me importo em gastar a maior parte da minha renda com alimentação.
Prefiro fazer ginástica a comer menos
Para mim, saúde e alimentação estão intimamente ligadas
Idade
Classe
Perfil
Consumo
A tabela 2 mostra a descrição das variáveis categóricas: Idade, Classe, Perfil e Consumo.
Tabela 2: Descrição das variáveis
Variável
Idade
(v14)
Classe Social
(v15)
Consumo
(freqüência)
(v16)
Perfil
(v17)
Categorias
(jovens)
1 - 13 a 17
(jovens/adultos)
2 - 18 a 25
(adultos)
3 - 26 a 37
(senhores(a))
4 - 38 a 48
(senhores(a))
5 - 49 a 60
1 - AB
2-C
3-D
1 - MUITO (De 3 a 7 vezes por semana)
2 - MÉDIO (De 1 a 2 vezes por semana)
3 - POUCO (No máximo 3 vezes por mês)
1 - Mãe com filhos de 3 a 12 anos
2 - Mulheres sem filhos de 3 a 12 anos
3 - Homens.
As frases (variáveis) v01 a v13 foram classificadas segundo a escala unidimensional
de Likert, (Likert, 1932), usualmente aplicada em mensuração do nível de concordância ou
discordância a uma lista de atributos. Em geral, usam-se cinco (5) intervalos ou pontos de
escala, onde a pontuação é função da opinião quanto ao grau da concordância ou discordância
das mesmas, mas usam-se também sete (7) ou nove (9) pontos em sua escala.
1
D
is
co
rd
a
to
ta
lm
e
n
2
te
p
D
is
co
rd
a
e
a
rt
3
e
d
m
co
N
e
n
co
rd
a
n
e
is
co
rd
5
4
a
p
m
C
o
n
co
rd
a
e
a
rt
e
m
C
o
n
co
rd
a
to
ta
lm
e
n
te
m
3. Análise dos Resultados
Mapa de Kohonen
O mapa de Kohonen foi desenhado e testado com diversas topologias de
malhas bidimensionais para a aglomeração ou “clusters”. As malhas consideradas no teste
foram: 3 por 3, 4 por 4, 5 por 5, 6 por 6, 7 por 7, 8 por 8, 9 por 9, 10 por 10, 11 por 11 e 12
por 12. As entradas para as variáveis não-discretas seguiu o padrão de uma para uma e para
cada variável categórica de 1 para Ni, onde o índice i está associado ao tamanho de cada
variável categórica. Para a fase de ordenação, utilizou-se 1.000 iterações e com taxa de
aprendizado α = 0,1 para todas as configurações das redes. Na fase de ajuste fino do mapa
foram utilizadas 35.000 iterações e uma taxa de aprendizado α = 0, 01 . Após comparação
entre as topologias (neurônios ativados), a que apresentou melhor separação entre os
“clusters” foi a 10 por 10 com cinco grupos, como ilustrado na figura 1 abaixo.
Figura 1: Malha dos Neurônios ativados para a
0
1
2
3
4
5
6
7
8
9
0
27
9
12
7
2
9
8
16
7
23
1
7
15
7
2
2
2
6
14
18
2
13
1
7
3
2
11
9
4
18
3
4
4
2
3
10
10
2
1
7
9
2
7
12
7
4
6
9
6
6
5
13
5
16
8
5
7
9
11
5
1
6
7
3
1
3
8
6
3
2
6
9
9
5
8
8
2
8
3
7
3
2
8
8
6
15
8
2
3
9
6
4
5
11
9
17
11
20
3
16
4
10
7
15
20
Imediatamente, procedeu-se à formação dos centróides para cada cluster com as
coordenadas dos neurônios mais ativados. A figura 2 abaixo nos mostra um resultado
satisfatório, pois nenhum centróide dos agrupamentos está relativamente perto um do outro.
Figura 2: Centróides dos Clusters (Neurônios mais ativados)
10
Cluster 4
9
Cluster 5
8
7
6
Cluster 3
5
4
3
2
1
Cluster 2
Cluster 1
0
-1
0
1
2
3
4
5
6
7
8
9
10
-1
Quadro 1: Clusters do mapa de kohonen
Idade
Classe
Perfil
Consumo
Nome do
Cluster
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Jovens
C
Homens
Muito
Consomem de
tudo
Adulto
AB
Homens
Médio
Consomem
produtos “diets”
Senhores
AB
Homens
Muito
Hábitos
saudáveis
Adultos
C
Mães
Muito
Preocupação
com a qualidade
Adultos
C
Homens
Muito
Experimentam
produtos e
pagam por
produtos de
qualidade
Quadro 2: “Score” das variáveis por cluster do mapa de Kohonen
Cluster/Var
1
2
3
4
5
v01
4.92
3.96
4.31
3.94
3.92
v02
4.93
4.36
4.89
-
v03
4.92
-
v04
4.39
3.96
-
Score do método mapa de Kohonen
v05
v06
v07
v08
v09
4.94
4.93
4.93
4.92
4.92
4.41
4.37
3.42
4.38
4.91
4.38
4.36
4.39
4.41
4.41
4.36
4.35
3.96
-
v10
4.92
4.35
-
v11
4.92
4.37
4.64
4.37
4.34
v12
4.91
3.41
-
v13
4.95
4.92
4.94
4.93
4.93
O quadro 1 mostra a segmentação do mercado identificada por características
socioeconômicas para os consumidores de biscoito determinadas pelos atributos
(variáveis/frases sobre o comportamento do habito e atitudes) com o mapa de Kohonen. O
quadro 2 apresenta os “scores” ou pontuações das variáveis que obtiveram maior influência na
formação do perfil dos “clusters” apresentados no quadro 1. Os “scores” foram calculados a
partir das estatísticas descritivas média, mediana e moda.
Método K-means
O número de “clusters” do K-means foi determinado por meio de varreduras de dois
(2) a sete (7) “clusters”. O resultado mais homogêneo apareceu com cinco (5) “clusters” e
idêntico em número ao mapa de Kohonen.
Figura 4: Centróides dos Clusters do método kmeans
2.5
Cluster 1
2
Cluster 2
1.5
Cluster 5
Cluster 4
1
0.5
Cluster 3
0
0
0.5
1
1.5
2
2.5
3
3.5
4
Quadro 3: Clusters do método de k-means
Idade
Classe
Perfil
Consumo
Nome do
Cluster
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Senhores
AB
Homens
Médio
Preocupados
com a saúde.
Adultos
C
Mães
Muito
Mães
preocupadas
com a
alimentação.
Jovens
AB
Homens
Muito
Preocupado
com o visual.
Jovens
C
Homens
Muito
Experimentam
produtos e
pagam por
produtos de
qualidade.
Jovens
C
Homens
Muito
Consomem de
tudo.
Quadro 4: Score das variáveis por cluster do método K-means
C lus ter/Var
1
2
3
4
5
v01
3.41
3.65
4.33
3.97
4.92
v02
3.81
4.33
4.90
4.94
v03
4.92
v04
4.38
4.38
v05
4.94
4.39
4.91
3.93
4.95
score do m étodo K-means
v06
v07
v08
v09
4.93
3.42
4.41
4.04
4.41
3.99
4.39
3.98
4.94
4.92
4.91
4.93
v10
4.37
4.94
v11
4.92
3.97
4.38
3.92
4.93
v12
4.33
4.92
v13
4.96
4.94
4.94
4.37
4.95
O quadro 3 mostra a segmentação do mercado identificada por características
socioeconômicas para os consumidores de biscoito determinadas pelos atributos
(variáveis/frases sobre o comportamento do habito e atitudes) com o método de K-means. Os
“scores” apresentados no quadro 4 acima foram calculados a partir das estatísticas descritivas
média, mediana e moda, identicamente ao mapa de Kohonen, para que houvesse uma
comparação entre os métodos.
Assim temos que o “clusters” 2 e 5 do “K-means” são semelhantes ao “clusters” 1 e 4
do mapa de Kohonen, enquanto que os “clusters” 1 e 3, respectivamente do “K-means” e
mapa de Kohonen, apesar de ligeiramente parecidos se diferenciam no consumo e atitudes. Os
demais “clusters” podem ser considerados como alternativos.
Comparando as técnicas temos que o método de Kohonen apresentou uma vantagem
em relação ao “K-means”, que foi não necessitar a priori da quantidade de “clusters” e
também apresentarem centróides relativamente mais distantes que os calculados pelo Kmeans (figura 2 mapa de Kohonen e figura 4 “K-means”). Entretanto o “K-means” apresenta
uma distribuição mais uniforme na quantidade de indivíduos em seus “clusters”.
Nos quadros 2 e 4 observamos que as variáveis que sempre apareceram em todos os
“cluster” e com pontuação alta são:
v01 - Sempre compro produtos em promoção, mesmo que nunca tenha experimentado.
v05 - Não me importo em pagar mais por produtos de qualidade.
v06 - Busco sempre fazer refeições saudáveis
v09 - Sempre procuro alimentos enriquecidos com vitaminas
v11 - Não me importo em gastar a maior parte da minha renda com alimentação.
v13 - Para mim, saúde e alimentação estão intimamente ligadas
Estas variáveis ou atributos são as características que o produto biscoito deve sempre
apresentar independente dos agrupamentos.
Portanto, para se atingir um segmento específico de consumidores deve-se analisar as
variáveis determinantes na formação de cada “cluster”. Por exemplo, o cluster 3 do mapa de
kohonen apresenta os seguintes atributos que o produto deve exibir para atingi-los:
v02 - Faço qualquer sacrifício para manter um bom visual
v10 - Sempre leio artigos sobre a saúde
v12 - Prefiro fazer ginástica a comer menos
Observando o método de “K-means” vemos um resultado semelhante ao mapa de
Kohonen, ou seja, os mesmos atributos que o produto biscoito deve sempre apresentar
independente dos agrupamentos, porém temos uma variável determinante a mais: v02 - Faço
qualquer sacrifício para manter um bom visual.
Desta forma a estratégia de marketing pode levar em consideração diversas formas de
abordagens no consumidor de biscoitos, mas sempre considerando os atributos essências paar
este consumidor.
4. Conclusão.
Uma das necessidades em marketing é a segmentação do mercado-alvo,
portanto em pesquisas de mercado a formação de “clusters” é importante para identificar o
perfil deste mercado com o objetivo de gerar vantagens competitivas sustentáveis para as
empresas. Este trabalho comparou dois importantes métodos de agrupamentos K-means e
Mapa de Kohonen na mensuração de hábitos e atitudes dos consumidores de biscoito em São
Paulo. Os resultados mostram que o Mapa de Kohonen é uma técnica concorrente com os
métodos tradicionais de estatística em segmentação uma vez que os grupos formados podem
ser ligeiramente semelhantes, mas diferirem em atributos e desta forma expressar uma
estratégia diferente se somente as técnicas estatísticas tivessem sido usadas.
5. Referências
1. Johnson, R. A., Wichern, D. W., (2002), “Applied Multivariate Statistical Analysis”,
Prentice Hall.
2. Curry, B., Davies, R, Evans, M., Moutinho, L. and Phillips, P., (2001), “The Kohonen
self-organising map: an application to the study of strategic groups in the UK Hotel
industry”. Expert Systems, 18(1), pp. 19-31.
3. Curry, B., Davies, F., Evans, M., Moutinho, L. and Phillips, P., (2003), “The Kohonen
self-organising map as na alternative to cluster analysis: an application to direct
marketing”. International Journal of Market Research Vol. 45 Quarter 2.
4. Pao, Y. H., (1989), “Adaptative pattern recognition and neural networks”. AddisonWesley.
5. Likert, R., (1932), "A Technique for the Measurement of Attitudes" Archives of
Psychology 140, 55.
6. Everitt, B.S., (1993), “Cluster Analysis”. London: Edward Arnold.
7. Ketchen, D. J., Snook, C.L., (1996), “The application of cluster analysis in strategic
management research”. Strategic Management Journal, 17, pp. 441-452.
8. Milne, G. R., Beckman, J. and Taubman, M. L., (1996), “Consumer attitudes toward
privacy and direct marketing in Argentina”. Joumai of Direct Marketing, 10(1), pp. 2233.
9. Haykin, S. H., (1999), “Neural Networks- A Comprehensive Foundation”. Prentice
Hall.
10. Mazzon, J. A. Guagliardi, J. A, Fonseca, J. s, (1983), “Marketing – Aplicações de
Métodos Quantitativos”. Atlas.
11. Lucas, L. C. de Sá, (1982), “Análise de agrupamento”, IBGE.