Identificação Biométrica de Indivíduos baseada em Parâmetros
Transcrição
Identificação Biométrica de Indivíduos baseada em Parâmetros
Identificação Biométrica de Indivíduos baseada em Parâmetros Dinâmicos Extraídos da Marcha Humana Romeu Yukio Takeda , Sarah Negreiros de Carvalho , Matheus Wanderley Romão , Aline Rocha de Assis , Glauco Ferreira Gazel Yared Departamento de Engenharia Elétrica, Instituto de Ciências Exatas e Aplicadas Universidade Federal de Ouro Preto (UFOP) [email protected], [email protected], [email protected], [email protected], [email protected] Resumo – Human gait have been exploited in the last decades in order to extract useful information for medicine applications such as deseases diagnostics, for video surveillance to improve the performance of security systems and for forensic purposes as well. In t his way model based and model free techniques have been developed for human gait reconigtion. This work is supposed to present two feature extracion approachs to gather information from human gait so that individual identification can be performed. Therefore a model based approach is used to parameterize human body and to track 20 joints trajectories through gait cycles by means of Kinect sensor. Then the 3D joints motion was processed to obtain the power spectral density (PSD) along each spatial coordinate and also to determine the average magnitude of each vector (AMV) defined by a pair of joints for a gait realilzation.The results have shown around 70% of correct recongition rate for PSD information while have given approximately 96% for using AMV parameters. . Palavras-chave: Gait recognition, kinect, power spectral density, Average Magnitude of each Vector, AMV. 1. Introdução O aumento na integração dos sistemas de informação e de telecomunicações tem permitido o surgimento de novas tecnologias que facilitam a execução de diversas ações comuns no cotiano de empresas privadas e de órgãos governamentais dentre as quais se podem citar o controle de acesso e o monitoramento de locais públicos, respectivamente. Neste sentido, devem-se desenvolver mecanismos de identificação de indivíduos de forma natural e não intrusiva, de modo que as informações características de cada indivíduo sejam extraídas, processadas e utilizadas pelos sistemas de segurança. As medidas biométricas têm sido amplamente utilizadas com o intuito de permitir a autenticação ou a identificação de indivíduos, por meio de características fisiológicas ou comportamentais tais como a íris e a impressão digital, como exemplos do primeiro caso, além da assinatura e a marcha humana, como ilustração do último caso. Em particular, a marcha humana tem sido explorada nas últimas décadas como fonte de informação para a extração de características capazes de auxiliar desde o diagnóstico de patologias na área médica [7] até o reconhecimento de indivíduos para suporte aos sistemas de segurança [2, 6]. No que tange ao reconhecimento da marcha humana, diversas metodologias tem sido propostas, podendo ser agrupadas em abordagens independentes de modelos (livres de modelos) ou baseadas em modelos. Assim, podem- se destacar aquelas que se baseam na extração do esqueleto, na obtenção dos contornos dos indivíduos, além de outras que envolvem a extração de informações de modelos tridimensionais. A primeira categoria de abordagens, a qual é livre de modelos e cujo desempenho depende do ângulo de visualização da câmera, envolve tipicamente a utilização da informação de silhuetas do indivíduo obtidas ao longo de imagens sucessivas associadas a marcha. Pode-se citar como exemplo desta abordagem a GEI (Gait Energy Image) [5], que consiste na representação, em apenas uma imagem, das características de múltiplas silhuetas de um indivíduo em um ciclo da marcha, o que pode ser obtido por meio da normalização e cálculo da média temporal das silhuetas, resultando em uma medida compacta da ocupação espacial observada. A segunda categoria compreende as abordagens que tipicamente utilizam diversas câmeras para o rastreamento da marcha e para o ajuste de um modelo tridimensional ao contorno de cada indivíduo [9, 11, 1], a partir do qual se pode representar o indivíduo por meio de um esqueleto e, consequentemente, determinar medidas estáticas de pontos específicos do corpo, além de ângulos formados pelos diversos membros ao longo da marcha. Nos últimos anos, alguns trabalhos têm sido desenvolvidos a partir da utilização do sensor Kinect [10, 8, 3], que consiste de uma câmera RGB, juntamente com uma fonte e um sensor de luz infravermelha capazes de fornecer dados de profundidade de imagens. Tal sensor fornece a posição espacial de 20 pontos do corpo humano, os quais constituem um modelo tridimensional em forma de esqueleto [4]. Este trabalho possui como principal objetivo e contribuição o emprego de características extraídas da marcha humana para o reconhecimento de indivíduos, quais sejam, a Média do Módulo de cada Vetor (Average Magnitude of each Vector - AMV) definido por dois pontos quaisquer do corpo ao longo da marcha, e o módulo do espectro de frequências dos sinais de trajetória ao longo de cada coordenada espacial. Adicionalmente, neste último caso, propõese uma mudança no sistema de coordenadas de referência a fim de se tornar o sistema independente das condições iniciais e de movimentos indesejados tal como o ângulo de visualização da câmera em relação a trajetória descrita pelo indivíduo durante a marcha. Por fim, as próximas seções apresentarão a metodologia utilizada nos experimentos e os resultados obtidos com a presente abordagem, seguidas de uma discussão sobre os aspectos positivos e limitações que contribuiram para o desempenho obtido para o sistema desenvolvido e finalizando com as principais conclusões. 2. Metodologia A primeira etapa para a solução de qualquer problema envolvendo o reconhecimento de padrões consiste na criação de uma base de dados contendo informações suficientes para a caracterização estocástica do objeto em estudo. Especificamente, neste trabalho deve-se implementar um sistema de reconhecimento de indivíduos baseado na marcha e, neste sentido, é fundamental a utilização ou criação de uma base de dados. Assim, foram registradas marchas de 30 indivíduos, sendo 15 de cada sexo. Nesta base, foram coletadas 40 realizações de marcha por indivíduo, sendo que as marchas foram iniciadas a partir de cada lado do corpo (esquerdo e direito) em igual proporção e tem duração de 2 à 3 ciclos. Adicionalmente, a base de dados foi separada em conjunto de treinamento, compreendendo 70% das marchas, e conjunto de teste contendo os demais 30%. O sensor Kinect realiza a coleta de dados espaciais tridimensionais de 20 pontos conforme indicado na Figura 1, com uma taxa de amostragem de 30 quadros por segundo. Figura 1. Pontos rastreados pelo dispositivo Kinect A plataforma do Matlab é utilizada para a comunicação com o dispositivo Kinect e de modo que as trajetórias espaciais ao longo das tês coordenadas possa ser coletadas. Uma vez coletada a base de dados, realizouse a parametrização dos sinais de trajetórias espaciais por meio do determinação da média do módulo de cada Vetor (AMV) definido por dois pontos quaisquer do corpo ao longo da marcha. Assim, considerando-se dois pontos quaisquer “P” e “Q” dentre os vinte rastreados pelo Kinect, pode-se calcular a média do módulo de acordo com a Equação (1). ~ (n) =(Q(n) −P (n) )x̂+ Q(n) −P (n) ŷ+ Q(n) −Pz(n) ẑ V PQ y y x x z r 2 2 2 V~ (n) = (n) (n) (n) (n) (n) (n) Qx −Px + Qy −Py + Qz −Pz PQ Q M odPmed = N 1 X ~ (n) VP Q N n=1 (1) ~ (n) indica o valor do módulo do vetor em que V PQ definido pelos pontos “P” e “Q” no instante “n”, e Q a média do módulo do Vetor (AMV) defiM odPmed nido pelos pontos “P” e “Q” ao longo dos “N” quadros obtidos pelo rastreamento de uma realização da marcha. Por fim, definiu-se um novo sistema de coordenadas localizado no centro do quadril do indivíduo a partir dos pontos P1 , P2 , P13 e P17 , o qual permanece fixado no ponto P1 , o que permite a compensação de movimentos indesejados e não relacionados com informações relevantes para a caracterização da marcha. Assim, as trajetórias espaciais obtidas no novo sistema de coordenadas podem ser utilizadas no cálculo da magnitude do espectro de freqências obtido pela Transformada de Fouier de Tempo Discreto (TFTD) a partir da Equação (2) H ejω = ∞ X o melhor desempenho na classificação. Este processo se repete iterativamente até que o desempenho do classificador não se modifique com qualquer aumento do número de entradas. A Figura 2 ilustra o cenário em que foram escolhidas 38 entradas para a RNA com 30 neurônios na camada escondida, correspondendo a 38 AMVs, em que se obteve uma taxa de acerto no reconhecimento de aproximadamente 96%. Deve-se destacar que foram avaliadas RNAs com 5, 10, 20, 30 e 40 neurônios na camada escondida. x [n] e−jωn n=−∞ 2 H ejω = H ejω · H ∗ ejω (2) Em termos práticos, a TFTD pode ser calculada por meio da Transformada Rápida de Fourier e no presente trabalho utilizaram-se 128 pontos, o que fornece uma resolução espectral em torno de 0,2Hz. Em última instância, os dados parametrizados são utilizados como entradas para classificadores implementados com Redes Neurais Artificiais (RNAs) do tipo multilayer perceptron, as quais possuem 5 saídas binárias utilizadas para a identificação de cada indivíduo que deve ser reconhecido. 3. Resultados e Discussões Inicialmente, considerando que existem 20 pontos rastreados, podem-se obter até 190 vetores a partir de todas as combinações possíveis (C220 ). Entretanto, a princípio deve-se investigar quais destes vetores são relevantes do ponto de vista do reconhecimento dos indivíduos. Assim, realizou-se aumento gradativo do número de entradas da RNA, começando apenas com uma entrada, até que o desempenho do classificador não se altere com a introdução de novas entradas. Neste sentido, na condição inicial contendo apenas uma entrada, avaliou-se o desempenho obtido a partir de cada uma das 190 possibilidades separadamente e aquela que forneceu o melhor desempenho foi fixada como entrada da RNA. Na iteração seguinte, considerando que uma entrada já foi escolhida, avaliou-se a inserção separada de cada uma das 189 possibilidades remanescentes de modo a se determinar qual deve ser a segunda entrada fixada para a RNA de acordo com Figura 2. Determinação das AMVs que devem compor as entradas da RNA. Em contrapartida, a utilização das trajetórias espaciais representadas no novo sistema de coordenadas criado no centro do quadril do indivíduo para o cálculo da magnitude do espectro de frequências foi capaz de produzir como melhor resultado uma taxa de acerto no reconhecimento de 70%. Nesta abordagem existem informações disponíveis de 16 pontos do corpo, visto que outros 4 foram utilizadas para a criação do novo sistema de coordenadas. Assim, considerando que existem trajetórias de 16 pontos, cada qual com 3 coordenadas espaciais, e que a TFTD permite o cálculo da magnitude do espectro associada as 64 componentes de frequência espaçadas de aproximadamente 0,2Hz, então a utilização de toda informação disponível implica em inserir 3072 parâmetros nas entradas da RNA. Devese notar que apesar do espectro de frequências conter informações até 15Hz, não existem componentes de frequência com magnitude significativa além de 8Hz, conforme ilustrado na Figura 3. Deste modo, o resultado do reconhecimento de indivíduos por meio da magnitude do espectro pode ser melhorado por meio da seleção de uma faixa de frequências mais restrita. [3] [4] Figura 3. Densidade de Potência Espectral obtidas a partir de 16 trajetórias. 4. Conclusões Os resultados deste trabalho mostraram que as duas abordagens utilizadas para a parametrização das trajetórias espaciais de 20 pontos rastreados pelo sensor kinect permitem o reconhecimento de indivíduos por meio da marcha humana, com destaque para o novo método proposto baseado na média do módulo do Vetor (AMV) definido por dois pontos rastreados quaisquer que forneceu como resultado em torno de 96% de taxa de acerto no reconhecimento, enquanto a abordagem baseada no conteúdo espectral dos sinais de trajetórias espaciais tridimensionais apresentou um desempenho de 70%. Neste último caso, observou-se a necessidade de uma seleção de uma faixa de frequências mais restrita, visto que não se obsevou amplitudes significativas no espectro além de 8Hz. Por fim, como propostas de continuidade do trabalho devem-se avaliar a extração de informações dinâmicas a partir dos vetores definidos por quaisquer pares de pontos rastreados, considerando a primeira abordagem, e também analisar o emprego de filtros para a seleção de faixas de frequência mais baixas visando a obtenção da informação espectral, no caso da segunda abordagem. [5] [6] [7] [8] [9] [10] Referências [1] Adrian Ball, David Rye, Fabio Ramos, and Mari Velonaki. Unsupervised clustering of people from’skeleton’data. In Proceedings of the seventh annual ACM/IEEE international conference on Human-Robot Interaction, pages 225–226. ACM, 2012. [2] Rita Cucchiara, Costantino Grana, Andrea Prati, and Roberto Vezzani. Computer vision [11] system for in-house video surveillance. IEE Proceedings-Vision, Image and Signal Processing, 152(2):242–249, 2005. Moshe Gabel, Ran Gilad-Bachrach, Erin Renshaw, and Assaf Schuster. Full body gait analysis with kinect. In Engineering in Medicine and Biology Society (EMBC), 2012 Annual International Conference of the IEEE, pages 1964–1967. IEEE, 2012. Elena Gianaria, Nello Balossino, Marco Grangetto, and Maurizio Lucenteforte. Gait characterization using dynamic skeleton acquisition. In Multimedia Signal Processing (MMSP), 2013 IEEE 15th International Workshop on, pages 440–445. IEEE, 2013. Ju Han and Bir Bhanu. Individual recognition using gait energy image. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 28(2):316–322, 2006. Peter K Larsen, Erik B Simonsen, and Niels Lynnerup. Gait analysis in forensic medicine*. Journal of forensic sciences, 53(5):1149–1153, 2008. Paramjeet Mandeep Singh, Mooninder Singh. Neuro-degenerative disease diagnosis using human gait: A review. In IJITKMI, volume 7, pages 16–20, 2013. M Milovanovic, M Minovic, and D Starcevic. New gait recognition method using kinect stick figure and cbir. In Telecommun. Forum (TELFOR), volume 1, pages 1323–1326, 2012. Sabesan Sivapalan, Daniel Chen, Simon Denman, Sridha Sridharan, and Clinton Fookes. Gait energy volumes and frontal gait recognition using depth images. In Biometrics (IJCB), 2011 International Joint Conference on, pages 1–6. IEEE, 2011. Zheng Xiao, Fu Mengyin, Yang Yi, and Lv Ningyi. 3d human postures recognition using kinect. In Intelligent Human-Machine Systems and Cybernetics (IHMSC), 2012 4th International Conference on, volume 1, pages 344–347. IEEE, 2012. Koichiro Yamauchi, Bir Bhanu, and Hideo Saito. Recognition of walking humans in 3d: Initial results. In Computer Vision and Pattern Recognition Workshops, 2009. CVPR Workshops 2009. IEEE Computer Society Conference on, pages 45–52. IEEE, 2009.