Comparação entre os métodos de agrupamentos K
Transcrição
Comparação entre os métodos de agrupamentos K
Comparação entre os métodos de agrupamentos K-means e Mapa de Kohonen (SOM) em análise de pesquisa de mercado. Márcio Candeias Marques Departamento de Engenharia Elétrica -PUC-Rio Resumo Uma das necessidades para as empresas em seu negócio é a segmentação do mercado-alvo, portanto em pesquisas de mercado a formação de “clusters” é importante para identificar o perfil deste mercado com o objetivo de gerar vantagens competitivas sustentáveis para as empresas. Portanto, o objetivo deste trabalho é comparar dois importantes métodos de agrupamentos, a saber: K-means e Mapa de Kohonen (SOM), em um contexto de marketing, na mensuração de hábitos e atitudes dos consumidores de biscoito em São Paulo. O SOM é uma técnica de redes neurais artificiais enquanto a metodologia do K-means é uma técnica estatística. Diferentemente do mapa de Kohonen o método de K-means necessita “a priori” do conhecimento da quantidade de agrupamentos enquanto o SOM não necessita deste conhecimento “a priori”. Nosso trabalho identifica que as metodologias foram semelhantes e que podem ser usadas em conjunto. 1. Introdução Os modelos de redes neurais têm sido utilizados como alternativas aos modelos tradicionais de predição, classificação ou aglomeração por ser caracterizarem como aproximadores universais de funções segundo Hayken (1999) e devido às suas características de desempenho frente a dados incompletos e/ou sua capacidade de estabelecer relações entre os mesmos, tais modelos podem ser uma das alternativas em relação à análise de aglomerados, para maiores detalhes das técnicas multivariadas para aglomeração ou classificação não-espaciais citamos Lucas (1982), Ketchen & Snook (1996) e Johnson & Wichern (2002). Este trabalho examina o potencial do mapa de Kohonen (Kohonen self-organising map ou “SOM”), Hayken (1999), na área de marketing em uma segmentação de mercado em atitudes e hábitos de consumo de consumidores levantados por uma pesquisa de mercado na cidade de São Paulo. Maiores detalhes em Mazzon et al. (1983), Milne et al. (1996) em mensuração dos hábitos e atitudes de consumidores e em Curry et al. (2001, 2003) em segmentação de mercado utilizando-se o mapa de Kohonen. Os resultados mostram que o SOM é uma técnica concorrente com os métodos tradicionais de estatística em segmentação segundo Everitt, 1993, pois além de diferirem no algoritmo também oferecem uma perspectiva diferente ou não-usual de interpretação dos resultados quando comparados às técnicas usuais de estatística uma vez que os grupos formados podem ser ligeiramente semelhantes, mas diferirem em um atributo. Uma das necessidades em marketing é a segmentação das informações em grupos ou “clusters” que consigam reter informações similares segundo as características avaliadas. Os métodos de classificação e/ou agrupamentos dividem-se em dois grupos principais: os nãosupervisionados e os supervisionados. Os não-supervisionados dividem as classes automaticamente sem necessitar de informações a priori enquanto que os supervisionados consideram um conhecimento prévio, Hayken (1999). O mapa de Kohonen ou SOM pertence a uma classe de redes neurais cujo aprendizado é não-supervisionado e desenvolvido para reconhecimento de padrões e uma das características desta metodologia é a utilização de neurônios que competem entre si para descobrir qual gera ou atribua a maior saída. O resultado do mapa de Kohonen, em geral, é uma malha bidimensional a qual podemos visualizar os neurônios mais ativados, e, portanto nos trás outro benefício como, por exemplo, ser um facilitador de visualização espacial das relações entre variáveis, segundo Hayken (1999), sendo assim indicado também para a formação de “clusters”. Conseqüentemente o método SOM difere então dos métodos estatísticos convencionais para classificação ou aglomeração não-espaciais, que não geram uma saída bidimensional, como por exemplo: K-vizinhos mais Próximos, “K-means” ou regressão logística, onde este último método é supervisionado. Observa-se, no entanto que o mapa de Kohonen também podem arranjar-se de forma unidimensional como no caso de uma estrutura linear para estruturas em grade (Pao, 1989). Observamos que os modelos utilizados são para agrupamento e não para classificação, e, portanto não houve a necessidade de separálos em grupos para validação e teste. O objetivo deste trabalho é prover uma comparação entre os métodos de agrupamento conhecidos com K-means e SOM em uma aplicação em marketing. A seção 1 faz uma breve introdução do trabalho. A seção 2 descreve o banco de dados e a análise dos resultados é mostrada na seção 3. A seção 4 finaliza o trabalho com uma conclusão. 2. O banco de dados Os dados coletados referem-se a uma pesquisa de mercado realizada no Estado de São Paulo sobre hábitos e atitudes de consumo de biscoitos no período de 01/2004 a 06/2004. A amostra selecionou 750 consumidores de biscoitos, de ambos os sexos, com idades de 13 a 60 anos com o objetivo de avaliar por meio de atributos comportamentais o hábito e atitudes dos consumidores de biscoitos. As variáveis pesquisadas, em um total de dezessete, foram: Tabela 1: Nome das variáveis e código Código v01 v02 v03 v04 v05 v06 v07 v08 v09 v10 v11 v12 v13 v14 v15 v16 v17 Variáveis Sempre compro produtos em promoção, mesmo que nunca tenha experimentado. Faço qualquer sacrifício para manter um bom visual Sempre consumo produtos diet;/ light Não compro produtos light e/ou diet porque são muito caros Não me importo em pagar mais por produtos de qualidade. Busco sempre fazer refeições saudáveis Sou viciado em snacks: não passo um dia sem comer biscoitinhos, salgadinhos etc Como somente alimentos naturais Sempre procuro alimentos enriquecidos com vitaminas Sempre leio artigos sobre a saúde Não me importo em gastar a maior parte da minha renda com alimentação. Prefiro fazer ginástica a comer menos Para mim, saúde e alimentação estão intimamente ligadas Idade Classe Perfil Consumo A tabela 2 mostra a descrição das variáveis categóricas: Idade, Classe, Perfil e Consumo. Tabela 2: Descrição das variáveis Variável Idade (v14) Classe Social (v15) Consumo (freqüência) (v16) Perfil (v17) Categorias (jovens) 1 - 13 a 17 (jovens/adultos) 2 - 18 a 25 (adultos) 3 - 26 a 37 (senhores(a)) 4 - 38 a 48 (senhores(a)) 5 - 49 a 60 1 - AB 2-C 3-D 1 - MUITO (De 3 a 7 vezes por semana) 2 - MÉDIO (De 1 a 2 vezes por semana) 3 - POUCO (No máximo 3 vezes por mês) 1 - Mãe com filhos de 3 a 12 anos 2 - Mulheres sem filhos de 3 a 12 anos 3 - Homens. As frases (variáveis) v01 a v13 foram classificadas segundo a escala unidimensional de Likert, (Likert, 1932), usualmente aplicada em mensuração do nível de concordância ou discordância a uma lista de atributos. Em geral, usam-se cinco (5) intervalos ou pontos de escala, onde a pontuação é função da opinião quanto ao grau da concordância ou discordância das mesmas, mas usam-se também sete (7) ou nove (9) pontos em sua escala. 1 D is co rd a to ta lm e n 2 te p D is co rd a e a rt 3 e d m co N e n co rd a n e is co rd 5 4 a p m C o n co rd a e a rt e m C o n co rd a to ta lm e n te m 3. Análise dos Resultados Mapa de Kohonen O mapa de Kohonen foi desenhado e testado com diversas topologias de malhas bidimensionais para a aglomeração ou “clusters”. As malhas consideradas no teste foram: 3 por 3, 4 por 4, 5 por 5, 6 por 6, 7 por 7, 8 por 8, 9 por 9, 10 por 10, 11 por 11 e 12 por 12. As entradas para as variáveis não-discretas seguiu o padrão de uma para uma e para cada variável categórica de 1 para Ni, onde o índice i está associado ao tamanho de cada variável categórica. Para a fase de ordenação, utilizou-se 1.000 iterações e com taxa de aprendizado α = 0,1 para todas as configurações das redes. Na fase de ajuste fino do mapa foram utilizadas 35.000 iterações e uma taxa de aprendizado α = 0, 01 . Após comparação entre as topologias (neurônios ativados), a que apresentou melhor separação entre os “clusters” foi a 10 por 10 com cinco grupos, como ilustrado na figura 1 abaixo. Figura 1: Malha dos Neurônios ativados para a 0 1 2 3 4 5 6 7 8 9 0 27 9 12 7 2 9 8 16 7 23 1 7 15 7 2 2 2 6 14 18 2 13 1 7 3 2 11 9 4 18 3 4 4 2 3 10 10 2 1 7 9 2 7 12 7 4 6 9 6 6 5 13 5 16 8 5 7 9 11 5 1 6 7 3 1 3 8 6 3 2 6 9 9 5 8 8 2 8 3 7 3 2 8 8 6 15 8 2 3 9 6 4 5 11 9 17 11 20 3 16 4 10 7 15 20 Imediatamente, procedeu-se à formação dos centróides para cada cluster com as coordenadas dos neurônios mais ativados. A figura 2 abaixo nos mostra um resultado satisfatório, pois nenhum centróide dos agrupamentos está relativamente perto um do outro. Figura 2: Centróides dos Clusters (Neurônios mais ativados) 10 Cluster 4 9 Cluster 5 8 7 6 Cluster 3 5 4 3 2 1 Cluster 2 Cluster 1 0 -1 0 1 2 3 4 5 6 7 8 9 10 -1 Quadro 1: Clusters do mapa de kohonen Idade Classe Perfil Consumo Nome do Cluster Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Jovens C Homens Muito Consomem de tudo Adulto AB Homens Médio Consomem produtos “diets” Senhores AB Homens Muito Hábitos saudáveis Adultos C Mães Muito Preocupação com a qualidade Adultos C Homens Muito Experimentam produtos e pagam por produtos de qualidade Quadro 2: “Score” das variáveis por cluster do mapa de Kohonen Cluster/Var 1 2 3 4 5 v01 4.92 3.96 4.31 3.94 3.92 v02 4.93 4.36 4.89 - v03 4.92 - v04 4.39 3.96 - Score do método mapa de Kohonen v05 v06 v07 v08 v09 4.94 4.93 4.93 4.92 4.92 4.41 4.37 3.42 4.38 4.91 4.38 4.36 4.39 4.41 4.41 4.36 4.35 3.96 - v10 4.92 4.35 - v11 4.92 4.37 4.64 4.37 4.34 v12 4.91 3.41 - v13 4.95 4.92 4.94 4.93 4.93 O quadro 1 mostra a segmentação do mercado identificada por características socioeconômicas para os consumidores de biscoito determinadas pelos atributos (variáveis/frases sobre o comportamento do habito e atitudes) com o mapa de Kohonen. O quadro 2 apresenta os “scores” ou pontuações das variáveis que obtiveram maior influência na formação do perfil dos “clusters” apresentados no quadro 1. Os “scores” foram calculados a partir das estatísticas descritivas média, mediana e moda. Método K-means O número de “clusters” do K-means foi determinado por meio de varreduras de dois (2) a sete (7) “clusters”. O resultado mais homogêneo apareceu com cinco (5) “clusters” e idêntico em número ao mapa de Kohonen. Figura 4: Centróides dos Clusters do método kmeans 2.5 Cluster 1 2 Cluster 2 1.5 Cluster 5 Cluster 4 1 0.5 Cluster 3 0 0 0.5 1 1.5 2 2.5 3 3.5 4 Quadro 3: Clusters do método de k-means Idade Classe Perfil Consumo Nome do Cluster Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Senhores AB Homens Médio Preocupados com a saúde. Adultos C Mães Muito Mães preocupadas com a alimentação. Jovens AB Homens Muito Preocupado com o visual. Jovens C Homens Muito Experimentam produtos e pagam por produtos de qualidade. Jovens C Homens Muito Consomem de tudo. Quadro 4: Score das variáveis por cluster do método K-means C lus ter/Var 1 2 3 4 5 v01 3.41 3.65 4.33 3.97 4.92 v02 3.81 4.33 4.90 4.94 v03 4.92 v04 4.38 4.38 v05 4.94 4.39 4.91 3.93 4.95 score do m étodo K-means v06 v07 v08 v09 4.93 3.42 4.41 4.04 4.41 3.99 4.39 3.98 4.94 4.92 4.91 4.93 v10 4.37 4.94 v11 4.92 3.97 4.38 3.92 4.93 v12 4.33 4.92 v13 4.96 4.94 4.94 4.37 4.95 O quadro 3 mostra a segmentação do mercado identificada por características socioeconômicas para os consumidores de biscoito determinadas pelos atributos (variáveis/frases sobre o comportamento do habito e atitudes) com o método de K-means. Os “scores” apresentados no quadro 4 acima foram calculados a partir das estatísticas descritivas média, mediana e moda, identicamente ao mapa de Kohonen, para que houvesse uma comparação entre os métodos. Assim temos que o “clusters” 2 e 5 do “K-means” são semelhantes ao “clusters” 1 e 4 do mapa de Kohonen, enquanto que os “clusters” 1 e 3, respectivamente do “K-means” e mapa de Kohonen, apesar de ligeiramente parecidos se diferenciam no consumo e atitudes. Os demais “clusters” podem ser considerados como alternativos. Comparando as técnicas temos que o método de Kohonen apresentou uma vantagem em relação ao “K-means”, que foi não necessitar a priori da quantidade de “clusters” e também apresentarem centróides relativamente mais distantes que os calculados pelo Kmeans (figura 2 mapa de Kohonen e figura 4 “K-means”). Entretanto o “K-means” apresenta uma distribuição mais uniforme na quantidade de indivíduos em seus “clusters”. Nos quadros 2 e 4 observamos que as variáveis que sempre apareceram em todos os “cluster” e com pontuação alta são: v01 - Sempre compro produtos em promoção, mesmo que nunca tenha experimentado. v05 - Não me importo em pagar mais por produtos de qualidade. v06 - Busco sempre fazer refeições saudáveis v09 - Sempre procuro alimentos enriquecidos com vitaminas v11 - Não me importo em gastar a maior parte da minha renda com alimentação. v13 - Para mim, saúde e alimentação estão intimamente ligadas Estas variáveis ou atributos são as características que o produto biscoito deve sempre apresentar independente dos agrupamentos. Portanto, para se atingir um segmento específico de consumidores deve-se analisar as variáveis determinantes na formação de cada “cluster”. Por exemplo, o cluster 3 do mapa de kohonen apresenta os seguintes atributos que o produto deve exibir para atingi-los: v02 - Faço qualquer sacrifício para manter um bom visual v10 - Sempre leio artigos sobre a saúde v12 - Prefiro fazer ginástica a comer menos Observando o método de “K-means” vemos um resultado semelhante ao mapa de Kohonen, ou seja, os mesmos atributos que o produto biscoito deve sempre apresentar independente dos agrupamentos, porém temos uma variável determinante a mais: v02 - Faço qualquer sacrifício para manter um bom visual. Desta forma a estratégia de marketing pode levar em consideração diversas formas de abordagens no consumidor de biscoitos, mas sempre considerando os atributos essências paar este consumidor. 4. Conclusão. Uma das necessidades em marketing é a segmentação do mercado-alvo, portanto em pesquisas de mercado a formação de “clusters” é importante para identificar o perfil deste mercado com o objetivo de gerar vantagens competitivas sustentáveis para as empresas. Este trabalho comparou dois importantes métodos de agrupamentos K-means e Mapa de Kohonen na mensuração de hábitos e atitudes dos consumidores de biscoito em São Paulo. Os resultados mostram que o Mapa de Kohonen é uma técnica concorrente com os métodos tradicionais de estatística em segmentação uma vez que os grupos formados podem ser ligeiramente semelhantes, mas diferirem em atributos e desta forma expressar uma estratégia diferente se somente as técnicas estatísticas tivessem sido usadas. 5. Referências 1. Johnson, R. A., Wichern, D. W., (2002), “Applied Multivariate Statistical Analysis”, Prentice Hall. 2. Curry, B., Davies, R, Evans, M., Moutinho, L. and Phillips, P., (2001), “The Kohonen self-organising map: an application to the study of strategic groups in the UK Hotel industry”. Expert Systems, 18(1), pp. 19-31. 3. Curry, B., Davies, F., Evans, M., Moutinho, L. and Phillips, P., (2003), “The Kohonen self-organising map as na alternative to cluster analysis: an application to direct marketing”. International Journal of Market Research Vol. 45 Quarter 2. 4. Pao, Y. H., (1989), “Adaptative pattern recognition and neural networks”. AddisonWesley. 5. Likert, R., (1932), "A Technique for the Measurement of Attitudes" Archives of Psychology 140, 55. 6. Everitt, B.S., (1993), “Cluster Analysis”. London: Edward Arnold. 7. Ketchen, D. J., Snook, C.L., (1996), “The application of cluster analysis in strategic management research”. Strategic Management Journal, 17, pp. 441-452. 8. Milne, G. R., Beckman, J. and Taubman, M. L., (1996), “Consumer attitudes toward privacy and direct marketing in Argentina”. Joumai of Direct Marketing, 10(1), pp. 2233. 9. Haykin, S. H., (1999), “Neural Networks- A Comprehensive Foundation”. Prentice Hall. 10. Mazzon, J. A. Guagliardi, J. A, Fonseca, J. s, (1983), “Marketing – Aplicações de Métodos Quantitativos”. Atlas. 11. Lucas, L. C. de Sá, (1982), “Análise de agrupamento”, IBGE.