Desenvolvimento de Um Modelo de Atenção Visual Para - Piim-Lab
Transcrição
Desenvolvimento de Um Modelo de Atenção Visual Para - Piim-Lab
Hugo Drumond Jacob Desenvolvimento de Um Modelo de Atenção Visual para Sumarização Automática de Vídeos de Programas Televisivos Dissertação apresentada ao Programa de Pós-Graduação em Modelagem Matemática e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, atendendo ao requisito parcial para obtenção do título de Mestre em Modelagem Matemática e Computacional Orientador: Prof. Dr. Flávio Luis Cardeal Pádua Centro Federal de Educação Tecnológica de Minas Gerais Co-orientadora: Profa. Dra. Giani David Silva Centro Federal de Educação Tecnológica de Minas Gerais Programa de Pós-Graduação em Modelagem Matemática e Computacional Centro Federal de Educação Tecnológica de Minas Gerais Diretoria de Pesquisa e Pós-Graduação Belo Horizonte MG Agosto de 2013 Resumo Este trabalho aborda o desenvolvimento de um modelo computacional de atenção visual aplicado à sumarização automática de vídeos de programas televisivos. Muito embora o sistema de televisão represente um dos mais fascinantes fenômenos de mídia já criados pelo homem, observa-se ainda uma grande carência por sistemas de informação multimídia que viabilizem a recuperação efetiva de informações televisivas relevantes para pesquisas em diversas áreas da ciência. Em sistemas deste tipo, tem-se que a sumarização automática de vídeos surge como uma etapa determinante para a efetiva implementação de métodos de indexação, navegação e recuperação de vídeos por conteúdo. Sendo assim, o presente trabalho propõe a criação e implementação de um modelo de atenção visual, inspirado no sistema de visão humano e baseado em técnicas de visão computacional, que permita a identicação de trechos de vídeo mais relevantes em termos de conteúdo. O desenvolvimento deste trabalho ocorre no âmbito do Centro de Apoio à Pesquisas sobre Televisão (CAPTE) do CEFET-MG, em parceria com o canal de televisão aberta Rede Minas. A metodologia desenvolvida neste trabalho foi validada com sucesso e atingiu valores médios de 0.86, 0.84 e 0.85 para a precisão, revocação e a medida F1, respectivamente, demonstrando assim ser potencialmente aplicável no sistema de informação multimídia para apoio à análise discursiva de vídeos televisivos do CAPTE. PALAVRAS-CHAVE: Modelo Computacional de Aatenção Visual, Sumarização Automática de Vídeos, Vídeos Televisivos, Sistema de Informação Multimídia. Abstract This works addresses the development of a computational visual attention model applied to automatic video summarization of TV video programs. Although the TV represents one of the most famous media phenomenon created by human, there is still a great need for multimedia information systems that support the eective TV relevant information retrieval for the most of science areas. In this kind of system, the automatic video summarization appears like a fundamental phase for the eective implementation of indexing methods, browsing and content based video retrieval. Thus, this work propose the modeling and the implementation of a computational visual attention model, inspired on human visual system and based on computer vision techniques, which allows the identication of the most relevant video segments in terms of content. The development of this work occurs on scope of Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) of CEFET-MG, in partnership with open TV channel Rede Minas. The proposed method at this work was successful validated and reached mean values of 0.86, 0.84 and 0.85 for precision, recall and F1 measure, respectively, showing be potentially applicable to CAPTE's multimedia system information for television videos discurse analysis. KEYWORDS: Computational Visual Attention Model, Automatic Video Summarization, Multimedia Information System. Lista de Figuras 1 Estrutura de um CEDOC privado. . . . . . . . . . . . . . . . . . . . . p. 11 2 Visão geral da metodologia proposta. . . . . . . . . . . . . . . . . . . . p. 15 3 Aspecto geral do trabalho proposto . . . . . . . . . . . . . . . . . . . . p. 18 4 Estrutura do sistema visual humano . . . . . . . . . . . . . . . . . . . . p. 25 5 Fluxo de sinais do sistema visual humano. . . . . . . . . . . . . . . . . p. 26 6 Estrutura genérica de um modelo de atenção visual. . . . . . . . . . . . p. 27 7 Análise gráca da equação de restrição do uxo ótico . . . . . . . . . . p. 29 8 Representação gráca do problema da abertura . . . . . . . . . . . . . p. 30 9 Características Haar utilizadas originalmente por Viola e Jones. 10 Representação gráca para o cálculo da imagem integral. . . . . p. 33 . . . . . . . . p. 34 11 Características Haar para uma face qualquer. . . . . . . . . . . . . . . . p. 35 12 Cascata de classicação do algoritmo de Viola e Jones. . . . . . . . . . p. 35 13 Conjunto de características Haar expandido. . . . . . . . . . . . . . . . p. 37 14 Distribuição em camadas das diversas células constituintes da retina hu- BENOIT et al., 2010)) mana. (Adaptado de ( . . . . . . . . . . . . . . . . BENOIT et al., 2010). 15 Visão geral para o modelo proposto por ( 16 Diagrama esquemático para o ltro da Equação 3.15. 17 Resumo do método CUS. Fonte: ( p. 39 . . . . . p. 40 . . . . . . . . . . p. 42 . . . . . . . . . . . p. 44 18 Relação conitante entre revocação e precisão. . . . . . . . . . . . . . . p. 47 19 Demonstração do uxo ótico nas bordas de objetos em movimento . . . p. 51 20 Percepção de cor, textura e forma através do contraste . . . . . . . . . p. 53 21 Saída do modelo de atenção estática . . . . . . . . . . . . . . . . . . . p. 54 AVILA et al., 2011) 22 Saída do modelo de atenção estática para cenas naturais 23 Representação em perspectiva e sobre o plano XY para a Equação 4.5 com A = 1, σx = σy = 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Interconexão das cascatas de classicação de faces . . . . . . . . . . . 25 Demonstração da saída do modelo de detecção de faces e a validação por redundância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 p. 57 p. 57 p. 58 Exemplos de curvas de saída para os Modelos de Atenção Dinâmica, Estática e Baseada em Faces, respectivamente 27 p. 55 . . . . . . . . . . . . . . p. 60 Curva de atenção criada a partir das curvas das Figuras 26(a) à 26(c) com wd = 0.50, ws = 0.25 e wf = 0.25. . . . . . . . . . . . . . . . . . . p. 62 28 Envelope e detalhe do envelope da Curva de Atenção Visual da Figura 27. p. 62 29 Quadros-chave detectados pelo método proposto. 30 Exemplos de quadros-chave selecionados para a Curva de Atenção Visual da Figura 27. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zoom-In ). p. 63 p. 63 31 Operação de Ampliação ( . . . . . . . . . . . . . . . . . . . . p. 66 32 Mudança de Cenário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 66 33 Movimentação da Câmera. . . . . . . . . . . . . . . . . . . . . . . . . . p. 67 34 Variação do parâmetro CU SA . . . . . . . . . . . . . . . . . . . . . . . . p. 71 35 Variação do parâmetro CU SE . . . . . . . . . . . . . . . . . . . . . . . . p. 72 36 Variação da razão dos parâmetros CU SA e CU SE . . . . . . . . . . . . . p. 72 Lista de Tabelas 1 Principais parâmetros da abordagem proposta para a execução dos experimentos. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Métricas de desempenho para o conjunto de vídeos de teste dos dias 23/01/2012, 24/01/2012 e 26/01/2012. 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69 p. 70 Comparação dos valores médios das métricas de desempenho obtidas pelo método de Souza e pelo método proposto. 6 p. 68 Métricas de desempenho para o conjunto de vídeos de teste dos dias 01/02/2012, 02/02/2012 e 03/02/2012. 5 . . . . . . . . . . . . . . . . . . Métricas de desempenho para o conjunto de vídeos de teste dos dias 30/01/2012 e 31/01/2012. 4 p. 66 Comparação das médias das métricas . . . . . . . . . . . . . . . . CU SA e CU SE p. 70 para os diversos métodos de sumarização. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71 Lista de Abreviaturas e Siglas AD Análise do Discurso CEDOC TV Centro de Documentação Televisão SC Superior Colliculus LGN Lateral Geniculate Nucleus V1 Primary Visual Cortex IT Infero Temporal Cortex MT Middle Temporal Area PP Posterior Parietal Cortex VOCUS Visual Object detection with a CompUtational attention System MVF Motion Vector Field UP Unidade de Percepção MEC Modelo de Extração de Características CBVR Content Based Video Retrieval Sumário 1 Introdução p. 10 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12 1.2 Denição do Problema de Pesquisa . . . . . . . . . . . . . . . . . . . . p. 13 1.3 Objetivos: Geral e Especícos . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.4 Organização do Documento p. 16 . . . . . . . . . . . . . . . . . . . . . . . . 2 Trabalhos Relacionados p. 17 2.1 Modelos de Atenção Visual . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 2.2 Sumarização Automática de Vídeos . . . . . . . . . . . . . . . . . . . . p. 19 3 Fundamentação Teórica 3.1 p. 22 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual . p. 22 3.1.1 O Sistema Visual Humano . . . . . . . . . . . . . . . . . . . . . p. 24 3.1.2 Atenção visual p. 25 3.1.3 Modelos de Atenção Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27 3.2 Fluxo Ótico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28 3.3 Detecção de Faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31 3.4 Extração de Características . . . . . . . . . . . . . . . . . . . . . . . . p. 36 3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano . . . . . . . . . . p. 39 3.6 Metodologias de Avaliação dos Quadros Chaves . . . . . . . . . . . . . p. 42 3.7 Biblioteca OpenCV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 3.8 Qt Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 3.9 Métricas de Avaliação de Desempenho . . . . . . . . . . . . . . . . . . p. 46 3.9.1 Revocação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47 3.9.2 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47 3.9.3 Métrica F1 p. 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Metodologia p. 49 4.1 Modelo de Atenção Dinâmica . . . . . . . . . . . . . . . . . . . . . . . p. 50 4.2 Modelo de Atenção Estática . . . . . . . . . . . . . . . . . . . . . . . . p. 52 4.3 Modelo de Atenção Baseado em Faces . . . . . . . . . . . . . . . . . . . p. 56 4.4 Construção da Curva de Atenção Visual . . . . . . . . . . . . . . . . . p. 59 4.5 Extração dos Quadros-Chave . . . . . . . . . . . . . . . . . . . . . . . . p. 61 5 Resultados Experimentais 5.1 5.2 Conjunto de Vídeos do CAPTE p. 64 . . . . . . . . . . . . . . . . . . . . . . p. 64 5.1.1 Preparação do Conjunto de Testes do CAPTE . . . . . . . . . . p. 65 5.1.2 Processamento do Conjunto de Testes . . . . . . . . . . . . . . . p. 66 5.1.3 Avaliação dos Resultados dos Vídeos do CAPTE . . . . . . . . . p. 67 Conjunto de Vídeos do 5.2.1 Open Video Project . . . . . . . . . . . . . . . . Efeito da Variação da Quantidade de Quadros Chave . . . . . . 6 Conclusões e Trabalhos Futuros p. 69 p. 71 p. 73 6.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 73 6.2 Resultados da Base de Vídeos do CAPTE p. 74 6.3 Resultados da Base de Vídeos do . . . . . . . . . . p. 74 6.4 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 74 Referências . . . . . . . . . . . . . . . . Open Video Project p. 76 10 1 Introdução O aumento na capacidade de processamento, armazenamento e transmissão de dados, bem como a diminuição dos custos de equipamentos para estas aplicações têm contribuído para atender à crescente demanda por conteúdo multimídia em diversos segmentos da sociedade. Entretanto, o aumento desta demanda traz consigo a necessidade de sistemas de informações (multimídia) capazes de armazenar, gerenciar, recuperar e exibir tal conteúdo de forma eciente. Esta demanda é particularmente elevada em se tratando de emissoras PEREIRA, 2012; LI et al., 2011; SABINO, 2011; FURINI et al., 2010; PETRELLI; de televisão ( AULD, 2008). No caso das emissoras de televisão, este conteúdo é de grande relevância, visto que constitui a base de novas tecnologias como a TV interativa e serviços como portais da WEB para acesso a programações. Este interesse é comprovadamente real, a exemplo British Broadcasting Corporation ), da rede britânica BBC ( conferências sobre o assunto ( que tem apoiado diversas SANTOS, 2004). Para alguns países, este acervo de conteúdo multimídia é considerado de grande valor econômico e cultural - pois além de fatos históricos do próprio país que são documentados sob diversos pontos de vista, o dia a dia da nação também é documentado. Porém, apesar de possuir um imenso valor, o acesso a este conteúdo é rudimentar e limitado, pois na maioria das vezes as descrições sobre seus conteúdos se limitam a títulos e sinopses curtas ( SABINO, 2011; BARRETO, 2007; SILVA, 2005). Considerando este contexto, encontra- se na literatura, grandes esforços para o desenvolvimento de ferramentas computacionais (sistemas de informação multimídia) ecientes, no sentido de serem capazes de armazenar, HANNON et indexar, recuperar e exibir tais informações multimídia, em especial vídeos ( al., 2011; DIMITROVA et al., 2002). No Brasil, o depósito legal se restringe apenas à produção escrita, sendo que as emissoras de TV nacionais mantêm Centros de Documentação (CEDOC) privados (conforme Figura 1), os quais gerenciam e distribuem os conteúdos produzidos pelas emissoras de 1 Introdução 11 Figura 1: Estrutura de um CEDOC privado. forma a satisfazer apenas os interesses destas últimas. Conforme a legislação brasileira o de direitos autorais (Lei Federal n 9610/98), a transmissão audiovisual televisiva é de domínio público apenas no momento da transmissão ( SABINO, 2011; SILVA, 2005). Neste sentido, para dar suporte aos trabalhos de pesquisadores do sistema televisivo do Brasil, bem como propor meios e contribuir para a preservação do patrimônio audiovisual brasileiro, o Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) do CEFET-MG tem desenvolvido um sistema de informação multimídia que funciona como ferramenta de PEREIRA, apoio à análise discursiva e recuperação de vídeos televisivos ( 2012; SABINO, 2011). 2012; SOUZA, No sistema mantido pelo CAPTE, recursos de arquivamento, clas- sicação e descrição do material audiovisual coletado - conforme Termo de Cooperação Técnica entre o CEFET-MG e o canal aberto Rede Minas - são disponibilizados para pes- LIMA et al., 2010; PEREIRA et al., 2010; SABINO; SILVA; PÁDUA, 2010b; SABINO; SILVA; PÁDUA, 2010a). quisadores ( Em sistemas do tipo mantido pelo CAPTE, a sumarização automática de vídeos se apresenta como uma etapa preliminar de fundamental importância para recuperação de vídeos por conteúdo (do inglês content-based video retrieval, CBVR ). A etapa de suma- rização é determinante para a recuperação de vídeos, visto que esta se dá por meio de mecanismos de indexação que só são ecientes se a etapa de sumarização também for eciente ( BERTINI; BIMBO; PALA, 2001). Uma sumarização concisa e informativa permite ao usuário conhecer rapidamente o conteúdo global do vídeo e então decidir se o conteúdo é de seu interesse ou não. Entretanto, sumarizar um vídeo de forma eciente pode requerer um profundo conhecimento de seu conteúdo semântico, o que diculta ainda mais a implementação de algoritmos que realizam esta tarefa automaticamente, necessitando assim de técnicas avançadas de visão 1.1 Motivação 12 computacional, processamento de imagens, reconhecimento de padrões e algoritmos de aprendizado de máquinas ( MA et al., 2002b). É comum na literatura classicar os resumos gerados por métodos automáticos em TRUONG; VENKATESH, 2007): duas classes principais, a saber ( • key- Resumos estáticos: aqueles cujo produto nal é um conjunto de quadros-chave ( frames ) do vídeo original. • Resumos dinâmicos: aqueles cujo produto nal é um conjunto de segmentos do vídeo original, unidos por transições abruptas ou graduais, compondo um clip com duração signicativamente inferior ao vídeo original. As técnicas para sumarização automática de vídeos são em geral classicadas de acordo TRUONG; VENKATESH, 2007): o gênero dos vídeos, a dura- com cinco aspectos principais ( ção do resumo, as etapas do processo, os mecanismos e as características escolhidas. Em geral, independentemente dos aspectos considerados, essas técnicas são fortemente dependentes de características semânticas, necessitando frequentemente de sosticadas heurísticas computacionais para a determinação destas características. Outras abordagens utilizando características de baixo nível como histograma de cores e transições abruptas MA et também têm sido propostas, entretanto, sem correlação com a percepção humana ( al., 2005; MA et al., 2002b). 1.1 Motivação Nos últimos tempos, tem-se observado na literatura a frequente proposição de novos métodos e técnicas para a obtenção de informações que se baseiam em imagens e áudio. Observa-se o desenvolvimento de técnicas cada vez mais sosticadas para este processamento, bem como a indexação e recuperação destas informações multimídia. Estas técnicas são importantes para assegurar o sucesso de diversos serviços, principalmente aqueles que dizem respeito à produção de conteúdo original. Uma das chaves para o armazenamento e recuperação ecientes de informações multimídia é a indexação de seu conteúdo, isto é, como recuperar de forma efetiva informações importantes dos vídeos. Num primeiro momento, aparecem as técnicas baseadas em histograma de cores e características visuais simples, as quais se mostraram inecientes do ponto de vista da percepção humana. Num segundo momento, destacam-se as técnicas baseadas em análise semântica, entretanto, o completo entendimento semântico das cenas 1.2 Denição do Problema de Pesquisa 13 é virtualmente impossível para os sistemas computacionais atuais, principalmente devido a sua complexidade, a quantidade de informações geradas e até mesmo pela diversidade de gêneros de vídeos existentes. Entretanto, observa-se no dia a dia do homem a facilidade com que seu sistema visual processa e seleciona as informações mais relevantes, fazendo com que tarefas como a identicação de rostos, objetos, dentre outras, sejam efetuadas de forma efetiva e rápida, e por m, permitindo que o homem interaja com o ambiente que o cerca. Estas observações levantam questões: como o cérebro humano consegue processar as imagens captadas pelos olhos tão ecientemente? A resposta à estas questões remetem ao sistema de atenção visual humano, o qual é capaz de selecionar e direcionar o foco da visão para as regiões mais importantes da cena, diminuindo assim a quantidade de informações a serem processadas. Uma vez tendo compreendido, ainda que supercialmente, o funcionamento deste sistema de atenção visual, é possível imitá-lo e então utilizá-lo, por meio de um sistema computacional, para distinguir trechos mais importantes dentro de uma mesma cena e, dessa forma, sumarizar automaticamente vídeos? Utilizar esta abordagem bio-inspirada é computacionalmente viável? Visando responder estas questões e dar suporte aos trabalhos de pesquisa sobre a televisão brasileira (e outros que utilizem vídeos), além de preservar a memória audiovisual brasileira, este trabalho propõe um método para a sumarização de vídeos de programas televisivos por meio do desenvolvimento de um modelo de atenção visual, estando diretamente relacionado aos trabalhos realizados pelo Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) do CEFET-MG, o qual vem desenvolvendo um sistema de informações multimídia para tais propósitos. 1.2 Denição do Problema de Pesquisa Este trabalho aborda o desenvolvimento de um modelo computacional de atenção visual para a sumarização automática de vídeos televisivos a ser aplicado em um sistema de informação multimídia do Centro de Apoio à Pesquisas Sobre Televisão do CEFET-MG. Devido ao amplo espectro de gêneros televisivos tratados, como lmes de ação, musicais, lmes de terror, comédias de situação, shows, programas informativos, telenovelas, TONDATO, 2009), dentre outros ( o método proposto pode ser considerado genérico sob este aspecto, visto que não há nenhuma diferenciação ou heurística especíca para cada gênero. 1.3 Objetivos: Geral e Especícos 14 Dada a expressiva carga semântica embutida neste tipo de conteúdo e o fato de que a fronteira entre diversos gêneros é tênue, a especialização de heurísticas para os diversos gêneros tem se mostrado ineciente do ponto de vista da sumarização automática de vídeos televisivos ( SOUZA, 2012; MA et al., 2005). Além disso, muitas técnicas convencionais propostas (como assinaturas visuais e histograma de cores) esbarram no problema da percepção humana, fazendo com que a qualidade do resumo gerado que comprometida. Por outro lado, a utilização de resumos estáticos (quadros-chave) com pouco comprometimento com a carga semântica do vídeo original como entrada para algoritmos de indexação pode prejudicar o acesso a objetivos informacionais por parte dos usuários, uma vez que a informação semântica relevante poderá não estar presente nos resultados das buscas realizadas. Neste sentido, o uso de modelos computacionais de atenção visual torna-se um meio atrativo para a geração de quadros-chave, pois são mecanismos auto-contidos no sentido de que não dependem necessariamente de características semânticas, as quais são difíceis de extrair, ao mesmo tempo em que podem indiretamente destacá-las. A Figura 2 fornece uma visão geral sobre a metodologia proposta: um vídeo de interesse é submetido ao modelo de atenção visual, o qual irá analisá-lo quadro a quadro, extraindo características visuais e quanticando-as. As características individuais são fundidas em um processo apropriado e uma curva de atenção visual é gerada. Os quadros-chave são então extraídos a partir da detecção dos picos da curva de atenção visual e então enviados ao banco de dados multimídia que irá indexá-los e disponibilizá-los para a web a partir do portal do CAPTE. Assim, visando dar suporte aos trabalhos de pesquisa sobre a televisão brasileira e outros que utilizem vídeos (ou conjuntos de imagens), além de contribuir para a preservação e recuperação da memória audiovisual nacional, este trabalho aborda a sumarização automática de vídeos por meio de modelos computacionais de atenção visual. O escopo deste trabalho vai de encontro às atividades desenvolvidas pelo CAPTE do CEFET-MG. 1.3 Objetivos: Geral e Especícos O objetivo geral deste trabalho consiste em propor e desenvolver um método ecaz para a resolução do problema de sumarização automática de vídeos de programas de televisão no contexto do sistema de informação multimídia do CAPTE. O método proposto será independente de informações semânticas, dada a natureza variável de vídeos tele- 1.3 Objetivos: Geral e Especícos 15 Figura 2: Visão geral da metodologia proposta. visivos. Para dar suporte a este método, um modelo computacional de atenção visual será proposto e desenvolvido. Os resumos gerados automaticamente deverão ter conteúdo semântico relevante, representativo e conciso. Por meio deste trabalho, objetiva-se gerar os seguintes produtos nais: (i) resultados de pesquisa que contribuam de forma signicativa para o avanço da área em questão, com a consequente geração de publicações e patentes; e (ii) disseminação de conhecimentos para a sociedade. Para tanto, serão perseguidos os seguintes objetivos especícos: • Pesquisar e entender os mecanismos do cérebro humano para o direcionamento da atenção visual; • Pesquisar e implementar modelos matemáticos e computacionais que buscam imitar o processo de decisão do cérebro no que diz respeito ao direcionamento visual e quanticar o grau de atenção; • Pesquisar e aplicar algoritmos para detecção de objetos e regiões de alto interesse em imagens; 1.4 Organização do Documento • 16 Pesquisar e aplicar algoritmos de agrupamento para a remoção de redundância entre os quadros-chave ou segmentos do vídeo; • Selecionar e aplicar um modelo de avaliação que permita quanticar a qualidade do resumo de vídeo gerado e comparar o resultado com os encontrados na literatura; • Analisar a qualidade dos resumos formados a partir do uso de características espaciais e espaço-temporais. 1.4 Organização do Documento Este trabalho está organizado em sete capítulos, incluindo o presente capítulo 1 de introdução. No Capítulo 2 são apresentados os trabalhos que se relacionam ao tema abordado por este, apresentando o estado da arte, além das críticas aos resultados, contribuições e abordagens. São tecidas ainda relações com o presente trabalho. No Capítulo 3, apresenta-se a fundamentação teórica da metodologia utilizada para o desenvolvimento do modelo de atenção visual aqui proposto. O Capítulo 4 apresenta a metodologia utilizada para o desenvolvimento do trabalho, bem como para a elaboração e realização dos experimentos de validação do modelo proposto. Os resultados experimentais obtidos são apresentados no Capítulo 5. Por m, no Capítulo 6 são apresentadas conclusões gerais sobre o trabalho desenvolvimento, bem como disserta-se sobre outras aplicações para o modelo de atenção proposto e trabalhos futuros. 17 2 Trabalhos Relacionados Este capítulo apresenta alguns dos principais trabalhos encontrados na literatura, os quais contribuíram de forma signicativa para o avanço das pesquisas na área e para o desenvolvimento deste trabalho. Os trabalhos aqui referidos podem ser divididos em dois grupos distintos: (i) trabalhos relacionados à modelos de atenção visual e (ii) trabalhos relacionados à sumarização automática de vídeos, seja ela dinâmica ou estática. Este trabalho combina trabalhos de ambos os grupos, conforme ilustrado na Figura 3. Para todos os trabalhos apresentados, foram tecidos comentários a respeito dos métodos utilizados e dos resultados, visando apresentar e contextualizar o estado da arte. O primeiro grupo, abordado na Seção 2.1, apresenta os trabalhos que utilizaram, de alguma forma, modelos de atenção visual para aplicações diversas, como pré-processamento de imagens, compressão, dentre outras. O segundo grupo, descrito na Seção 2.2, trata de trabalhos que abordam a temática da sumarização automática de vídeos, utilizando técnicas convencionais ou heurísticas especializadas para algum gênero de vídeo especíco. É importante ressaltar que há na literatura uma gama muito grande de trabalhos que de alguma maneira se relacionam com as áreas abordadas neste trabalho. Logo, os trabalhos citados neste capítulo constituem na verdade um subconjunto dos mesmos, escolhidos por razões de semelhança entre os métodos utilizados e objetivos traçados pelos autores. 2.1 Modelos de Atenção Visual Nesta seção são apresentados os trabalhos que utilizam modelos de atenção visual em aplicações diversas. Estes trabalhos possuem os mais variados intuitos, desde a avaliação destes modelos, até aplicações especícas como o rastreamento do olhar de um usuário. Heinen e Engel ( HEINEN; ENGEL, 2009) avaliam o desempenho e robustez de dois mo- delos de atenção visual publicamente disponíveis: NVT e SAFE, propondo um terceiro 2.1 Modelos de Atenção Visual 18 Figura 3: O presente trabalho propõe o desenvolvimento de uma metodologia para sumarização automática de vídeos televisivos baseada em um modelo de atenção visual. chamado NLOOK. Os autores avaliam estes modelos quanto a sensibilidade à transformações de similaridade em 2D (reexão vertical e horizontal, rotação, translação e redimensionamento) e conclui que o modelo NVT é mais susceptível a estas transformações que o modelo NLOOK, justamente pelo fato do último conter mecanismos de redundância para a detecção das regiões de mais alto grau de atenção. Este trabalho se limitou apenas à avaliação dos modelos, não dando a eles nenhuma aplicação em especíco. Uma aplicação para estimação do ponto de vista do espectador, baseada em modelo HILLAIRE et al., 2010). Neste trabalho, de atenção visual é proposta por Hillaire et al. em ( os autores propõem um modelo de atenção visual para a estimar a posição do olhar do jogador em um ambiente de exploração 3D em primeira pessoa. O objetivo do trabalho é estimar o ponto em que o usuário está olhando sem a ajuda de um sistema de rastreamento de olhos. Este modelo foi desenvolvido para ser executado em tempo real, simulando ainda reexos visuais e processos cognitivos do cérebro humano. Os resultados, segundo os autores, são signicativamente melhores que as abordagens convencionais. A aplicação de um modelo de atenção visual para a sumarização de vídeos é feita LI et al., por Li et al ( 2010). Neste trabalho, os autores recorrem a tecnologias sosti- cadas como recursos de imagem por ressonância magnética para quanticar e modelar a dinâmica e interação entre conteúdos multimídia e as respostas cerebrais, para em última instância, ajustar um modelo de atenção visual mais eciente para a sumarização de conteúdo multimídia (áudio e vídeo). Os resultados apontados pelos autores são de experimentos iniciais e não são conclusivos. MA et al., 2005), realizou-se uma fusão e extensão de trabalhos previamente publicados, a saber (MA et al., 2003), (MA et al., 2002a), (MA et Por m, no trabalho de Ma et al ( 2.2 Sumarização Automática de Vídeos 19 al., 2002b), onde os autores também implementam uma série de melhorias. No framework proposto, o modelo de atenção é multimídia, pois leva-se em consideração tanto a percepção auditiva quanto a visual. Além disso, algum entendimento semântico também é levado em consideração, como a detecção de faces e a movimentação intencional da câmera de vídeo. Neste modelo, cada quadro do vídeo recebe um valor de atenção a partir de um mecanismo de fusão dos diversos canais de atenção, construindo-se uma curva de atenção. Em seguida, os picos desta curva de atenção são detectados, os quais representam os quadros de maior relevância do ponto de vista da atenção do usuário. Estes quadros são então selecionados como quadros-chave e a partir da análise do canal auditivo e de heurísticas complexas, o resumo dinâmico é criado. A avaliação do método proposto é feita de forma subjetiva pelos autores a partir de formulários de pesquisa aplicados em 20 usuários que assistem ao vídeo original, os resumos dinâmicos e também são expostos aos quadros-chave. As respostas dos usuários são compiladas e apresentadas. O trabalho de ( MA et al., 2005) é o que mais se assemelha à proposta apresentada neste trabalho. Entretanto, as principais diferenças são: • O modelo de atenção por faces proposto utiliza um detector de faces em cascata, não estocástico e redundante; • O cálculo da medida de atenção devido às faces utiliza uma gaussiana bi-dimensional no lugar de pesos xos; • O modelo de atenção estática utiliza um modelo da retina humana para gerar o mapa de saliências; • O modelo de atenção dinâmica proposto estima a movimentação em cena baseandose em uma quantidade variável de pontos de interesse invariantes à escala em cada quadro; • Utiliza-se o envelope da curva de atenção visual para a extração dos quadros-chave; • O algoritmo para detecção dos picos da curva de atenção possui um parâmetro de sensibilidade, fazendo com que quadros muito próximos sejam ignorados. 2.2 Sumarização Automática de Vídeos Neste grupo, são citados os trabalhos que lidam com a extração de quadros-chave, referida anteriormente neste trabalho como sumarização estática. Alguns autores classi- 2.2 Sumarização Automática de Vídeos cam os métodos atuais de extração de quadros-chaves em seis classes ( DIMITROVA et al., 2002): 20 SHAO; JI, 2009; métodos que utilizam análise de conteúdo visual; métodos que utilizam análise de movimentação; classicadores não supervisionados; métodos baseados em limiares de movimentação; métodos baseados em transição e por m, métodos baseados em macro-blocos. Todos estes métodos são baseados em características pouco relevantes do ponto de vista de análise de atenção visual ou são bastante dependentes de complexas heurísticas para análise de conteúdo visual. O trabalho de Mendi e Bayrak ( MENDI; BAYRAK, 2010) consiste num algoritmo para a extração de quadros-chave baseado na comparação de similaridade entre mapas de saliências gerados a partir de cor e luminância. Os autores propõem um índice chamado de Similaridade Estrutural, o qual leva em consideração a luminância, contraste e estrutura dos quadros. O mapa de saliência então é utilizado para compor a componente de estrutura. As observações apontadas pelos autores indicam que os quadros onde ocorrem transições rápidas e cortes de cenas são evidenciados como picos na curva do índice de similaridade estrutural. Os resultados dos autores se mostraram superiores que as abordagens tradicionais para vídeos de cirurgia médica, entretanto, não apresentaram resultados para outros gêneros de vídeo. Dunlop ( DUNLOP, 2010) dene categorias de interesse para a extração dos quadros- chave. O método se baseia na determinação de tomadas, a partir do histograma de cores, onde então, dene-se um espaçamento xo dentro de cada tomada e seleciona-se os quadros que se encaixam neste espaçamento. Compara-se então o conjunto de quadros selecionados com uma categoria, determinando assim a maior quantidade de quadros semelhantes à categoria selecionada. Este método é em sua essência um classicador. Da forma como foi proposto, o autor tratou apenas uma categoria e não há nenhuma garantia de total cobertura do vídeo. Shao e Ji ( SHAO; JI, 2009) propõem um método para extração de quadros-chave que retratam movimentação de objetos, entretanto esta movimentação deve ser de grande amplitude e rápida. O autor utilizou uma análise através de uxo ótico para quanticar a movimentação na cena e então, numa etapa posterior, selecionar picos numa curva de entropia, a qual é calculada com base num histograma de vetores do campo vetorial resultante do uxo ótico. Em seguida, o autor aplica um método de comparação, chamado de inter-frame, para comparar os picos selecionados na curva de entropia e então eliminar redundâncias. Os resultados apresentados pelos autores foram satisfatórios em vídeos com certa movimentação, de forma a polarizar o método, privilegiando quadros que apresentam 2.2 Sumarização Automática de Vídeos 21 maior movimentação, em detrimento de quadros mais estáticos. DOULAMIS et al., 1999), os autores propuseram um No trabalho de Doulamis et al. ( método estocástico para a extração de quadros-chave, baseado numa heurística de minimização da correlação-cruzada entre quadros, entretanto, diretamente no domínio MPEG, onde os quadros são comprimidos. Primeiramente, o autor converte cada quadro em um descritor de características do quadro (o descritor é gerado por meio de uma abordagem fuzzy para análise de conteúdo) e então, utilizando-se uma heurística para a minimização da correlação cruzada, são selecionados os quadros-chave. Os autores relatam que obtiveram um bom desempenho, entretanto, por utilizar abordagens de análise de conteúdo e heurísticas de otimização, o método se apresenta com características não determinísticas. 22 3 Fundamentação Teórica Neste capítulo são apresentados alguns dos principais conceitos, métodos e ferramentas tecnológicas que dão suporte ao desenvolvimento do modelo de atenção visual proposto neste trabalho, bem como sua implementação computacional. 3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual A visão é sem dúvida o mais importante dos cinco sentidos humano, uma vez que mais de 90% das informações que o cérebro recebe do mundo exterior vem dela. Seu objetivo principal é interpretar e interagir com o ambiente no qual se vive. No dia a dia, um ser humano é capaz de perceber centenas de objetos, reconhecer dezenas de rostos, identicar placas de trânsito e ler diversas coisas ( OUERHANI, 2003). A facilidade com que executa-se estas tarefas não é devido a simplicidade das mesmas, mas sim, devido ao alto grau de desenvolvimento do sistema de visão humano. Sistemas de visão computacional inspirados no sistema visual humano têm se apresentado como uma alternativa atraente e promissora para os diversos problemas da área. Neste cenário, frequentemente, pesquisadores se deparam com a seguinte questão: Quais os mecanismos da visão tornam as coisas tão simples para humanos e tão difíceis para máquinas?. Pesquisas indicam que o mecanismo de atenção é, sem dúvida, uma das FRINTROP; ROME; CHRISTENSEN, 2010; OUERHANI, 2003). peças chave neste processo ( A atenção visual se refere a habilidade dos sistemas de visão em rapidamente selecionar as partes mais salientes e as mais importantes em uma dada cena. Em última instância, o objetivo principal da atenção visual é reduzir a quantidade de informações que precisam ser processadas por níveis mais sosticados como o reconhecimento de faces, símbolos e objetos. Um modelo de atenção visual captura o comportamento do sistema visual primário 3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual 23 de um ser, seja ele humano ou não. Estes modelos, em geral, descrevem e tentam imitar, explicar ou estimar alguns ou todos os mecanismos de atenção visual utilizados pelo cérebro. Podem ser implementados utilizando-se linguagem natural, diagramas de blocos, equações matemáticas ou mesmo algoritmos computacionais ( TSOTSOS; ROTHENSTEIN, 2011). Baseado em conceitos do sistema visual humano, um modelo computacional de atenção visual busca detectar regiões de interesse em imagens. Psicólogos, neurocientistas e cientistas da computação têm feito um grande esforço para investigar, modelar, simular e avaliar os mecanismos do cérebro humano para a atenção visual durante as últimas décadas. Dada a interdisciplinaridade do assunto, torna-se complexo modelar e denir todo o mecanismo em apenas um modelo ( FRINTROP; ROME; CHRISTENSEN, 2010). A motivação para estes estudos é clara e se deve basicamente a dois fatores. Pri- meiramente, existe um grande interesse em compreender a capacidade perceptiva dos seres humanos, ou seja, a capacidade de selecionar, processar e agir de forma distinta a experiências sensoriais visuais. Em segundo, a necessidade de reduzir a quantidade de informações sensoriais que chegam a qualquer sistema, seja ele biológico ou computacional, pela seleção de partes do impulso sensorial. Apesar das motivações parecerem distintas, as conclusões são sempre as mesmas: reduzir a quantidade de informação recebida para executar alguma tarefa ( TSOTSOS; ROTHENSTEIN, 2011; OUERHANI, 2003). Na ótica da ciência da computação, estes modelos têm sido amplamente utilizados por sua capacidade de diminuir drasticamente a quantidade de informação necessária ao processamento de imagens ( TSOTSOS; ROTHENSTEIN, 2011; FRINTROP; ROME; CHRISTEN- SEN, 2010). É sabido que sistemas de visão computacional utilizam boa parte dos recursos computacionais apenas para detectar e segmentar as regiões que efetivamente contribuem para o objetivo nal da aplicação. Isto se deve principalmente a alta carga semântica FRINTROP; ROME; CHRISTENSEN, intrínseca as imagens processadas por tais sistemas ( 2010). Assim, um modelo computacional de atenção visual por si só é capaz de reduzir a carga semântica pela seleção de regiões de interesse e consequentemente a quantidade de informação a ser processada por tais sistemas de visão computacional. De fato, o mais importante desses modelos são as suposições e princípios assumidos para fornecer a explicação e extensão dos fatos ou fenômenos de interesse ( ROTHENSTEIN, 2011; OUERHANI, 2003). TSOTSOS; Estes princípios, em geral de natureza bioló- gica, não serão detalhados neste trabalho. Para uma leitura mais abrangente a respeito destes princípios, recomenda-se a leitura dos seguintes trabalhos: ( BROADBENT, 1958), 3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual 24 DEUTSCH; DEUTSCH, 1963), (TREISMAN, 1964), (TREISMAN; GELADE, 1980), (WOLFE; CAVE; FRANZEL, 1989), (BALLARD, 1991), (DESIMONE; DUNCAN, 1995), (CAVE, 1999), (TREUE; MARTINEZ-TRUJILLO, 1999), (KNUDSEN, 2007), (GROSSBERG, 1982) e (TSOTSOS, 1990). ( Vale ressaltar que esta seção não tem a intenção de realizar uma revisão detalhada sobre o sistema visual humano, mas sim de propiciar apenas uma visão geral sobre os mecanismos do sistema visual e assim entender porque seres humanos precisam de um sistema de atenção visual. Aspectos sobre a siologia e neurologia do funcionamento desses sistemas são mais bem detalhados em ( BLAKE, 1990). 3.1.1 BOUCART; HENA; BELIN, 1998) e (SEKULER; O Sistema Visual Humano A atenção visual é basicamente um mecanismo biológico usado essencialmente por primatas, numa tentativa de compensar a falta de recursos do cérebro em processar grandes quantidades de informação visual capturada pelos olhos. A luz que incide nos olhos é projetada numa região chamada retina, de onde a informação visual é transmitida através do nervo ótico para o quiasma ótico (do inglês optic chiasm ) e deste para duas regiões diferentes do cérebro: para os núcleos geniculados laterais (LGN, do inglês Lateral Geni- culate Nucleus ), que correspondem a uma parte do tálamo; e para o colículo superior (SC, do inglês Superior Colliculus ) (PALMER, 1999; KANDEL; SCHWARTZ; JESSELL, 1996). Cada um destes dois caminhos principais do uxo de informações visuais recebem nomes especícos: a via retino-genicular e a via retino-colicular. O primeiro é responsável por cerca de 90% do uxo de informações visuais e o segundo pelos 10% restantes, os quais são por suas vez associados ao sistema de atenção visual e a movimentação do olho ( OUERHANI, 2003; DESIMONE et al., 1990). A Figura 4 ilustra a estrutura citada. A partir do LGN, a informação é então transferida para o córtex visual primário (V1, do inglês primary visual cortex ). Neste caminho, algumas informações primárias são processadas e a partir de V1 as informações visuais são transmitidas para as regiões ditas altas: V2V4, córtex infero-temporal (IT, do inglês área middle temporal area ) e o córtex parietal-posterior posterior parietal cortex ) (BOUCART; HENA; BELIN, 1998). Este uxo de temporal-medial (MT ou V5, do inglês (PP, do inglês infero temporal cortex ), processamento é esquematizado na Figura 5. 3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual Figura 4: Estrutura do sistema visual humano. Adaptado de ( 3.1.2 25 OUERHANI, 2003). Atenção visual Segundo Aristóteles é impossível perceber dois objetos simultaneamente num mesmo estímulo sensorial , porém, no dia a dia, tem-se a impressão de uma representação do mundo visual rica e que mudanças signicativas no ambiente irão atrair atenção humana. Entretanto, vários estudos revelam que esta habilidade de detectar mudanças é normal- FRINTROP; ROME; CHRISTENSEN, 2010). mente superestimada ( Na prática, somente pequenas regiões de uma cena são analisadas em cada instante de tempo. A região em análise em um dado momento é a região em que presta-se atenção naquele momento. Isto signica que regiões que não estão sendo analisadas são ignoradas, SIMONS; LEVIN, 1997). como demonstrado nos experimentos relatados em ( Nestes expe- rimentos, Simons e Levin alteram signicativamente uma cena, entretanto, o observador não percebe as alterações. Neste sentido, a razão pela qual o seres humanos são ecientes em seu dia a dia, é que conseguem detectar regiões de interesse em seu meio e avaliar a cena como um todo rapidamente alterando o foco de sua atenção. O conceito do mecanismo descrito anteriormente é chamado de atenção seletiva e se refere à habilidade mental de selecionar estímulos, memórias e pensamentos que são comportamentalmente relevantes, em detrimento de outros irrelevantes ( CHRISTENSEN, 2010). FRINTROP; ROME; Este conceito pode ser dividido em dois tipos de atenção, a saber: • Explícita, do inglês covert attention, a qual diz respeito ao ato de focar explicita- 3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual 26 Figura 5: Fluxo de sinais do sistema visual humano. mente uma região de interesse; • Implícita, do inglês overt attention, que se refere ao ato de prestar atenção em regiões periféricas, sem movimentar os olhos. DEUBEL; SCHNEIDER, 1996) mostram que a atenção implícita e a Deubel e Schneider ( atenção explicita são indissociáveis, de forma que não é possível prestar atenção em uma região e movimentar os olhos para outra. Existem duas categorias principais para classicar os fatores que direcionam a atenção: bottom-up factors e top-down factors (FRINTROP; ROME; CHRISTENSEN, 2010; DESIMONE; DUNCAN, 1995). Os bottom-up factors são também chamados de exógenos ou reexivos pois estes são salientes, no sentido de que são sucientemente distindos do ambiente que os rodeiam. Já os top-down factors levam em consideração fatores cognitivos como o conhecimento, expectativas e metas instantâneas. Se você estiver procurando uma caneta azul dentro de um estojo, regiões azuis irão atrair mais a sua atenção do que as demais. visual search ), Por m, deve-se citar a ferramenta da busca visual ( portante ferramenta em pesquisas sobre atenção visual ( TSOTSOS, 1990). que é uma imA busca visual se resume em responder a seguinte pergunta: dado um objeto e uma imagem de teste, o objeto está presente na imagem de teste? O cérebro humano executa esta operação o TSOTSOS, 1990) provou que, se a tempo inteiro, em todos os dias de sua vida. Tsotsos ( 3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual 27 Figura 6: Estrutura genérica de um modelo de atenção visual. região de busca não for limitada, este é um problema que não possui solução em tempo aceitável (é um problema NP-completo), ao passo que, se a região de busca for limitada, então, o mesmo pode ser resolvido em tempo linear, novamente justicando o mecanismo de atenção visual. 3.1.3 Modelos de Atenção Visual Os objetivos de um modelo de atenção visual são explicar e entender melhor a percepção visual humana. Diversas teorias e modelos foram propostos para este feito. Bundesen BUNDESEN; HABEKOST, e Habekost ( 2005) apresentam uma revisão sobre o estado da BUNDESEN; arte destes métodos. Dentro da revisão proposta por Bundesen e Habekost ( HABEKOST, 2005), as teorias que mais inuenciam as implementações computacionais Feature Integration Theory proposta por Gelade (TREISMAN; GELADE, 1980) e Guided Search Model (WOLFE, 1994). de sistemas de atenção visual são Treisman e Em termos computacionais, modelos de atenção visual têm uma estrutura muito similar (Figura 6): a ideia central é calcular um conjunto de características em paralelo, para então fundi-las em uma representação chamada mapa de saliências. Em geral, as características são cor, intensidade, orientação, movimento, profundidade (em caso de cenas 3D), faces, gestos, dentre outras ( FRINTROP; ROME; CHRISTENSEN, 2010; ITTI; KOCH, 2001). Dentre os principais modelos computacionais de atenção visual, pode-se citar o modelo KOCH; ULLMAN, 1985), o modelo de Clark e Ferrier (CLARK; FERRIER, 1988), o modelo de Milanese (MILANESE et al., 1994; MILANESE, 1993), o modelo de Tsotsos (TSOTSOS, 1990), o modelo NVT de Itti (ITTI; KOCH, 2001), o sistema de atenção de Hamker (HAMKER, 2005; HAMKER, 2006) e o sistema VOCUS de Frintrop (FRINTROP; KLODT; ROME, 2007). A maioria destes modelos computacionais de atenção visual se baseiam nos trabalhos de Treisman (TREISMAN; GORMICAN, 1998; TREISMAN; GELADE, de Koch e Ullman ( 3.2 Fluxo Ótico 28 1980) e seus colegas. O modelo de atenção visual proposto neste trabalho é inspirado nos trabalhos pro- MA et al., 2003; MA et al., 2002a; MA et al., 2002b) e seus colegas, os quais postos por Ma ( são descritos na seção 2.1. 3.2 Fluxo Ótico Um clássico problema do processamento de sequências de imagens por computador é o cálculo do uxo ótico (do inglês optical ow ou optic ow ), como uma estimação da movimentação em uma cena. o qual pode ser entendido O uxo ótico é na realidade a projeção das velocidades de pontos em uma superfície 3D em um plano 2D: o plano de BRADSKI; KAEHLER, 2008; BEAUCHEMIN; BARRON, 1996). imagem de uma câmera ( O conceito de uxo ótico começou a ser estudado em meados da década de 1940 pelo GIBSON, 1950). psicólogo norte-americano James J. Gibson ( Atualmente, as aplicações da estimação da quantidade de movimentação em uma cena são as mais variadas possíveis: estimação de propriedades geométricas em cenas 3D; segmentação de movimento; compensação de disparidades em sistemas de visão estéreo; medição de uxo sanguíneo em imagens médicas ( BEAUCHEMIN; BARRON, 1996). A hipótese inicial para o cálculo do uxo ótico é que a luminância em uma pequena região (x+δx, y +δy) em torno de um ponto (x, y) de uma cena em movimento permanece constante, pelo menos por um pequeno instante de tempo δt. Formalmente, isto pode ser BEAUCHEMIN; BARRON, 1996; HORN; SCHUNCK, 1981): descrito pela Equação 3.1 ( I(x, y, t) ≈ I(x + δx, y + δy, t + δt). Assumindo-se uma pequena movimentação restrita na imagem (3.1) I(x, y, t), a Equação 3.1 pode ser expandida utilizando-se a série de Taylor, descartando-se os termos que contém derivadas de ordem elevada, obtendo-se a Equação 3.2: I(x, y, t) ≈ I(x + δx, y + δy, t + δt) ≈ ∂I ∂I ∂I δx + δy + δt + ... ∂x ∂y ∂t De onde vem: ∂I δx ∂I δy ∂I δt + + = 0, ∂x δt ∂y δt ∂t δt (3.2) 3.2 Fluxo Ótico 29 Figura 7: A equação de restrição do uxo ótico dene uma linha no espaço da velocidade. A velocidade normal V⊥ é denida como um vetor perpendicular à linha de restrição, que é a velocidade de menor magnitude. ∂I ∂I ∂I Vx + Vy + = 0. ∂x ∂y ∂t Vx e Vy Ix = ∂I , ∂x Onde lado, são as componentes do uxo ótico em Iy = ∂I e ∂y It = x e y, respectivamente. Por outro ∂I são as derivadas da imagem em ∂t (x, y, t) nas respectivas direções. Assim, obtém-se a Equação 3.3, que pode ser reescrita em sua forma vetorial conforme a Equação 3.4. Vale ressaltar que a Equação 3.4 também é chamada de equação de restrição do uxo ótico, do inglês Onde u e ∇I optical ow constraint equation : Ix Vx + Iy Vy = −It , (3.3) ∇I T · V~ = −It , (3.4) é o gradiente de intensidade espacial e V~ é a velocidade da imagem nas direções v. Na Equação 3.4, o uxo ótico é descrito em função das incógnitas u e v, de forma que a Equação 3.4 é mal condicionada, ou seja, somente a componente de movimentação na direção do gradiente local de intensidade, notada por 7). ( V⊥ , pode ser estimada (Figura Este efeito é conhecido como problema da abertura, do inglês aperture problem BEAUCHEMIN; BARRON, 1996; HORN; SCHUNCK, 1981; ULLMAN, 1979), e é ilustrado na Figura 8. 3.2 Fluxo Ótico 30 Figura 8: Problema da abertura: nas janelas de abertura da linha superior pode-se ver uma borda movimentando-se da esquerda para a direita. Entretanto, nas janelas de abertura da linha inferior, não é possível detectar a movimentação da esquerda para a direita combinada com a movimentação de cima para baixo. A partir do problema da abertura, diversos métodos para o cálculo do uxo ótico foram propostos, os quais podem ser divididos nas seguintes categorias: (i) métodos diferenciais; (ii) métodos baseados em frequência; (iii) métodos baseados em correlação e (iv) métodos baseados em otimização ( BEAUCHEMIN; BARRON, 1996). Vale ressaltar que a fronteira entre cada uma das categorias de solução nem sempre são claramente denidas. Cada um destes métodos possuem aplicações especícas além de vantagens e desvantagens próprias. Dar-se-á ênfase ao método proposto por Lucas e Kanade ( LUCAS; KANADE, 1981), que é um método classicado como diferencial. Os métodos diferencias calculam as velocidades nos diversos pontos da imagem a partir de derivadas espaço-temporais da luminosidade, assumindo-se assim que o domínio das imagens é contínuo (ou diferenciável) no espaço e no tempo. Estes métodos ainda podem ser divididos em (i) globais, os quais calculam o chamado uxo ótico denso em grandes regiões da imagem; ou (ii) locais, os quais utilizam informações da velocidade normal V⊥ na vizinhança local de um ponto de interesse para ajustar uma minimização de erro por mínimos-quadrados e estimar o valor de v. Basicamente, o tamanho da vizinhança para BRADSKI; KAEHLER, obter a velocidade estimada determina se a técnica é local ou global ( 2008; BEAUCHEMIN; BARRON, 1996). O método proposto por Lucas e Kanade ( LUCAS; KANADE, 1981) é um método local, portanto, parte do pré-suposto de que há padrões de movimentação simples e não há oclusão, ou seja, o uxo ótico é contínuo. Por ser local, o método de Lucas e Kanade precisa de uma janela de abertura e então resolver a Equação 3.4 para o pixel central. Se a janela for muito grande, viola-se a condição de problemas relacionados à oclusão, e se a janela for muito pequena, retorna-se ao problema da abertura. Supondo uma janela de 3.3 Detecção de Faces abertura de nxn 31 pixels, chega-se a n2 equações, ou seja, um sistema sobredimensionado: Ix (p1 ) Iy (p1 ) Ix (p2 ) Iy (p2 ) . . . . . . Ix (pn ) Iy (pn ) | {z An×2 It (p1 ) " # u It (p2 ) = − . . v . | {z } It (pn ) d2×1 | {z } bn×1 A solução proposta por Lucas e Kanade ( do método de mínimos quadrados para (AT A)d = AT b, u e " P Ix Ix P Ix Iy P Ix Iy P Iy Iy {z LUCAS; KANADE, 1981) é realizada a partir minkAd − bk2 , o qual é resolvido da forma padrão obtendo-se então | v mais detalhadamente na Equação 3.5: #" u # " P =− # . Iy It {z } | O sistema na Equação 3.5 só possui solução quando singular. Na prática, Ix It P v } AT A } (3.5) AT b AT A é inversível, ou seja, é não AT A é não singular quando a mesma possui dois auto-valores gran- LUCAS; KANADE, 1981): des. Esta é a maior limitação do método de Lucas e Kanade ( o mesmo só pode ser utilizado em imagens onde o uxo ótico possui intensidade pequena LAGANIÈRE, o suciente para caber na janela de abertura ( 2008; LUCAS; KANADE, 1981). 2011; BRADSKI; KAEHLER, Diversas melhorias foram feitas a partir da proposta inicial de Lucas e Kanade, as quais apresentam resultados bastante satisfatórios. As melhorias mais bem sucedidas incluem conceitos de multiresolução, onde grandes movimentações são estimadas em grandes escalas e movimentações pequenas em pequenas escalas ( KAEHLER, 2008). LAGANIÈRE, 2011; BRADSKI; 3.3 Detecção de Faces A detecção de faces também é uma das aplicações mais comuns na área da visão computacional e baseia-se na premissa de que as informações sobre a identicação de uma pessoa, seu estado e intenções podem ser extraídas de forma tal que computadores e máquinas reajam de acordo com elas. Dentre os principais desaos em se detectar uma face numa imagem, pode-se citar ( HJELMAS; LOW, 2001): 3.3 Detecção de Faces • 32 Posição: a posição da câmera em relação a uma visão frontal, podendo estar rotao cionado em 180 , escondendo-se assim elementos da face humana; • Presença/Ausência de Componentes: a presença ou ausência de características faciais típicas de humanos: barba, bigode, óculos, etc; • Expressão: expressões faciais podem alterar a sua aparência; • Oclusão: presença de objetos ou regiões de somba que escondem partes da face; • Orientação: a rotação da imagem pode afetar diretamente a possibilidade de localização das faces; • Condições da Imagem: parâmetros como luminosidade e qualidade do sensor de captura inuenciam a interpretação de imagens. Recorrendo-se às abordagens baseadas no sistema visual humano, pesquisadores têm buscado características invariantes nas faces humanas. Diversos métodos buscam detectar estas características invariantes e então inferir a existência de uma face naquela região da HJELMAS; LOW, 2001). imagem ( Yang et al. ( YANG; KRIEGMAN; AHUJA, 2002) agrupa- ram os vários métodos de detecção de face em quatro categorias: (i) métodos baseados knowledge-based methods ); (ii) métodos baseados em características invariantes (feature invariant approaches ); (iii) métodos baseados em modelos (template matching methods ) e (iv) métodos baseados em aparência (appearance-based methos ). em aprendizagem ( Os métodos baseados em aprendizagem usam regras pré-denidas formuladas a partir do conhecimento humano para detectar uma face. Já os métodos baseados em carac- terísticas invariantes buscam por estruturas e características que são invariantes à pose (rotação e translação) e à luminosidade. Os métodos que se baseiam em modelos são aqueles que utilizam um conjunto inicial de modelos de faces para decidir se uma dada região da imagem é ou não uma face. Por m, os métodos baseados em aparência (os quais, em geral apresentam melhor desempenho) são aqueles que aprendem os modelos ZHANG; de faces a partir de um conjunto inicial de imagens e então fazem a classicação ( ZHANG, 2010; YANG; KRIEGMAN; AHUJA, 2002). Dentre os diversos métodos usados para detecção de faces, pode-se destacar o classicador proposto por Viola e Jones ( VIOLA; JONES, 2001a) que é uma abordagem baseada em técnicas de aprendizagem de máquinas para a detecção de objetos em imagens de forma extremamente rápida e com altas taxas de acerto. Vale lembrar que a primeira 3.3 Detecção de Faces (a) Uma divisão vertical 33 (b) Uma divisão horizontal (c) Duas divisões verticais (d) Divisões vertical e horizontal Figura 9: Características Haar utilizadas originalmente por Viola e Jones. implementação para o classicador em questão foi exatamente para detecção de faces, nalidade para a qual o algoritmo apresenta bom desempenho. O classicador de Viola e Jones ( a saber: ( (i) Imagem integral, (ii) VIOLA; JONES, 2001a) se baseia em três conceitos, um algoritmo de aprendizado baseado no AdaBoost FREUND; SCHAPIRE, 1995) e (iii) um método para combinar classicadores mais com- plexos em cascata. O conceito de Imagem Integral é a base para o bom desempenho do classicador VIOLA; JONES, 2001a), o qual é motivado principalmente pelo trabalho (PAPAGEORGIOU; OREN; POGGIO, 1998) que também utiliza características que lembram as funções de Haar (HAAR, 1910), além de outros ltros mais complexos. proposto por Viola e Jones ( A Imagem Integral pode ser calculada utilizando-se poucas operações por pixel e uma vez calculada permite ao classicador ser capaz de detectar as características Haar em qualquer escala e em tempo constante. As características Haar inicialmente utilizadas por Viola e Jones são mostradas nas Figura 9(a) a 9(d). As características de qualquer retângulo podem ser rapidamente calculadas por meio da Imagem Integral. abaixo e à esquerda de A Imagem Integral no ponto (x, y), (x, y) contém a soma dos pixels conforme a Equação 3.6. Observe que a Imagem Integral pode ser calculada por apenas uma passada pela imagem original inteira e que a Imagem Integral possui dimensões menores que a imagem original: 0 I(x, y) = x Onde: I(x, y) é a imagem integral no ponto senta as colunas e y 0 y x X X i(x0 , y 0 ). (3.6) y (x, y); i(x0 , y 0 ) é a imagem original; x repre- representa as linhas. Usando este conceito, a soma de qualquer retângulo (veja Figura 10) pode ser calculada utilizando-se quatro pontos de referência para o retângulo e a diferença entre dois retângulos utilizando-se oito pontos de referência. Mais ainda, se estes retângulos forem 3.3 Detecção de Faces 34 Figura 10: Representação gráca para o cálculo da imagem integral. adjacentes, somente seis pontos de referência são necessários; se forem três retângulos necessita-se de oito pontos; e se forem quatro retângulos, nove pontos. Veja as Figuras 9(a), 9(b), 9(c) e 9(d) para melhor entendimento da disposição dos retângulos citados. Utiliza-se uma variação do AdaBoost (FREUND; SCHAPIRE, 1995) tanto para selecionar um pequeno conjunto de características Haar, quanto para treinar o classicador. Viola VIOLA; JONES, e Jones ( 2001a) perceberam que, apesar da quantidade signicativa de características Haar extraídas, poucas serviam efetivamente para treinar o classicador, alterando assim o problema para determinar quais são as melhores características. Um classicador fraco foi então denido para determinar um único retângulo que melhor separa os exemplos negativos dos positivos. Para cada uma das quatro características utilizadas, o classicador fraco descrito pela Equação 3.7 determina um limiar ótimo para a função de classicação: ( hj (x) = Onde: hj (x) 1 Se pj fj (x) < pj θj 0 Caso contrário. . (3.7) é uma medida que representa o resultado da classicação; característica; θj é o limiar para a j−ésima característica; pj fj é a j−ésima indica o sinal da inequação 3.3 Detecção de Faces 35 Figura 11: Características Haar para uma face qualquer. e x é uma sub-janela da imagem (originalmente de 24x24 pixels). Na prática, uma ca- racterística apenas não pode exercer a função de classicação com boa taxa de acerto. O resultado da etapa inicial (classicador fraco) pode ser melhor visualizado na Figura 11. VIOLA; JONES, 2001a) é signicamen- O desempenho do classicador de Viola e Jones ( tivamente melhorado através do uso de uma cascata de classicadores, que possui ainda custo computacional baixo. Assim, classicadores simples são utilizados para rejeitar a maioria das sub-janelas e em seguida, classicadores mais sosticados são utilizados para permitir uma baixa taxa de falsos positivos. Esta cascata tem a forma geral de uma árvore de decisões (Figura 12). O funcionamento da cascata de classicadores é simples: um resultado positivo do primeiro classicador dispara o segundo classicador, que por sua vez dispara o terceiro e assim sucessivamente. Dentro do uxo de classicação, qualquer resultado negativo descarta a sub-janela em análise. Os classicadores intermediários da cascata podem ser treinados utilizando-se uma estratégia baseada no AdaBoost, juntamente com algum outro método de otimização para ajuste dos limiares. Vale ressaltar que o limiar padrão do AdaBoost é ajustado para VIOLA; JONES, 2001a) sugerem como primeiro estágio baixas taxas de erro. Viola e Jones ( um classicador forte de duas características, com limiar ajustado para detectar 100% das Figura 12: Cascata de classicação do algoritmo de Viola e Jones. 3.4 Extração de Características 36 faces, entretanto, com uma taxa de falsos positivos de 40%. O treinamento da cascata como um todo é um processo que depende de diretivas de projetos (taxa de detecção e desempenho). Entretanto, a taxa de falsos positivos ser calculada pela Equação 3.8 e a taxa de detecção D F pode da cascata pode ser calculada pela VIOLA; JONES, 2001b): Equação 3.9 ( F = K Y fi , (3.8) di . (3.9) i=1 D= K Y i=1 Onde: fi é a taxa de falso positivo do cadores na cascata; di i−ésimo é a taxa de detecção do classicador; i−ésimo K é a quantidade de classi- classicador. Para exemplicar, uma cascata com 10 classicadores com taxa de detecção de 99% atinge uma taxa de detecção de 90% (0.9 ≈ 0.9910 ). Se cada um destes classicadores obter uma taxa de falsos positivos em torno de 30%, a taxa de falsos positivos da cascata 10 inteira será de apenas 0.0006% (0.3 ≈ 6−6 ). VIOLA; JO(LIENHART; MAYDT, Diversas modicações foram propostas ao classicador de Viola e Jones ( NES, 2001a), sendo as mais importantes contribuições dadas por 2002), onde novas características Haar são propostas (sintetizado na Figura 13), com o intuito de melhorar os resultados de detecções e diminuir as taxas de erro. dicações incluem: (i) Estas mo- extensão do conceito de Imagem Integral que permite o cálculo o para retângulos rotacionados em 45 e (ii) normalização da Imagem Integral a partir da Imagem Integral Quadrada que consiste na multiplicação dos valores de intensidade de cada pixel da imagem por eles mesmos. 3.4 Extração de Características SHI; TOMASI, 1994), nenhum sistema de visão computacional Segundo Shi e Tomasi, ( pode funcionar sem que haja características que possam ser identicadas e rastreadas entre um quadro e outro. Neste sentido, Shi e Tomasi deniram um método para extração de características baseado na forma como o método de rastreamento proposto por Lucas e Kanade ( LUCAS; KANADE, 1981) funciona. 3.4 Extração de Características 37 Figura 13: Conjunto de características Haar expandido. Uma dada região de um quadro pode ser rastreada em um segundo quadro, com pequenos deslocamentos, utilizando-se um uma heurística de otimização para algum critério de pertinência, assim, regiões de características interessantes podem ser selecionadas utilizando-se alguma medida de texturas e bordas, como por exemplo elevado desvio padrão no perl de intensidade espacial, a presença de cruzamentos por zeros no Laplaciano das intensidades dos pixels da imagem ou mesmo a presença de bordas. SHI; TOMASI, 1994) mostraram que um modelo de movimentação ba- Shi e Tomasi ( seado apenas na translação de imagens não é suciente para determinar dissimilaridades entre dois quadros consecutivos. Nestes casos, deve-se utilizar um modelo baseado em transformações ans, ou seja, onde há translação e transformações lineares. Além disso, demonstraram um método numérico e eciente para a convergência deste modelo utilizando-se o método de minimização de erro de Newton-Raphson, conforme em ( KANADE, 1981). LUCAS; SHI; TOMASI, 1994) é O modelo de transformações am proposto por Shi e Tomasi ( baseado na Equação 3.10: I(x, y, t + τ ) = I(x − ξ(x, y, t, τ ), y − η(x, y, t, τ )). Assim, qualquer imagem no tempo todos os pixels da imagem no tempo mento no ponto χ = (x, y). t t+τ (3.10) pode ser obtida a partir da movimentação de por uma quantidade Na Equação 3.10, ξ e η δ(ξ, η), chamada de desloca- são as componentes do deslocamento 3.4 Extração de Características δ x nas direções e y 38 respectivamente. O vetor de deslocamento δ é uma função da posição χ e variações em δ podem ser percebidas mesmo em pequenas janelas de rastreamento, de forma que é mais sensato falar em um campo de deslocamento am, conforme a Equação 3.11: " δ= dxx dxy #" dyx dyy | {z } x # + d. (3.11) y D " Onde D é a matriz de transformação e d o deslocamento. Além disso, o vetor x # é o y centro da janela de deslocamento. Assim, um ponto segunda imagem J, χ na primeira imagem onde A = 1+D I movimenta-se para o ponto (1 é uma matriz identidade 2 × 2), Aχ + d na conforme a Equação 3.12: J(Aχ + d) = I(χ). (3.12) Por m, rastrear uma janela em uma imagem I, signica determinar seis parâmetros: quatro na matriz de transformação D e o vetor de deslocamento d. A qualidade do rastreamento é essencialmente função do tamanho da janela, da quantidade de movimento da câmera entre os dois quadros e a qualidade da textura na janela. janelas, a matriz D Para pequenas é difícil de se determinar, entretanto, janelas pequenas são em geral utilizadas por ser mais difícil de ocorrerem descontinuidades. Nos parágrafos anteriores, apresentou-se o modelo de movimentação proposto em ( SHI; TOMASI, 1994), entretanto, independentemente do método utilizado para o rastreamento, nem todas as partes da imagem contém informações da movimentação devido ao problema da abertura (veja Seção 3.2). O método de determinação dos parâmetros do sistema 3.11 SHI; TOMASI, 1994) indica regiões (ou pontos) para serem rastreadas que proposto em ( levam tal sistema a ser bem condicionado e portanto, de fácil resolução numérica. 3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano 39 3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano Atualmente, a retina humana e o córtex V1 são as duas partes do sistema visual FRIN- humano (HVS) mais bem conhecidas em termos de seu funcionamento biológico ( TROP; ROME; CHRISTENSEN, 2010; BENOIT et al., 2010). A retina pode ser considerada uma etapa de pré-processamento dos sinais visuais, ao passo que o cortex V1 é um estágio onde descritores de características de baixo nível são formados, conforme mencionado na Seção 3.1. Fisiologicamente, a retina pode ser dividida em duas camadas, a saber: • OPL: Outer Plexiform Layer, ou camada de rede exterior, onde ocorrem as primeiras sinapses na retina e se localizam os foto-receptores (cones e bastonetes). • IPL: Inner Plexiform Layer, ou camada de rede interior, onde ocorrem as interações sinápticas entre as demais células constituintes da retina. A Figura 14, apresenta a distribuição em camadas das diversas células que formam a retina. Pode-se notar ainda as conexões entre os foto-receptores, as células horizontais, as células ganglionares e as células amácrinas. JOBSON; RAHMAN; WOODELL, 1997) como o Da literatura, pode-se citar o Retinex ( modelo inspirado no HVS mais difundido, entretanto, o mesmo possui aplicações limitadas Figura 14: Distribuição em camadas das diversas células constituintes da retina humana. (Adaptado de ( BENOIT et al., 2010)) 3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano 40 ao melhoramento de imagens digitais em termos de alcance dinâmico, como feito na MEAD; MAHOWALD, 1988) foram os precursores retina e no córtex V1. Os trabalhos de ( em termos de modelagem das propriedades neurosiológicas da retina de vertebrados, entretanto, os mesmos se baseavam em analogias com circuitos eletrônicos, dando ênfase à ltros espaciais, em detrimento das propriedades temporais. BENOIT et al., O trabalho de ( 2010) é mais preciso em termos de analogias entre o processamento de sinais visuais na retina biológica e o processamento de sinais em circuitos eletrônicos. Uma visão geral do modelo proposto pode ser encontrada na Figura 15. Nesta gura, pode-se visualizar a entrada da retina com os fotoreceptores conectada Outer Plexiform1 Layer ), (IPL, do inglês Inner Plexiform Layer ). à rede externa (OPL, do inglês seguida pela camada interna A saída do modelo da retina é constituída de dois canais, o canal Parvocelular, Magnocelular que está ligado o qual está relacionado ao realce de detalhes e o canal à análise de movimento. No córtex V1 há o processamento no domínio da frequência espacial e de orientação. Na retina biológica, a camada externa (OPL) é responsável pela aquisição do sinal visual e é formada principalmente pelos cones e bastonetes (veja Seção 3.1). Esta camada é conectada à camada interna (IPL). Por m, a camada IPL, a qual constituí a saída da retina irá fornecer dois canais de informação: o canal parvocelular, dedicado à extração de detalhes e o canal magnocelular, dedicado à análise de movimento. Deve-se observar que BENOIT et al., 2010) considera os dois canais em toda a imagem, o modelo proposto por ( porém, na retina biológica, o canal parvoceluar é mais importante para a região da fóvea (visão central) e o canal magnocelular é mais importante para a visão periférica. Os fotoreceptores da camada OPL têm a habilidade de ajustar sua sensibilidade em função da luminância de sua vizinhança, conforme modelado por ( a luminância normalizada entre 1 [0, Vmax ] BEAUDOT, 1994) para nas Equações 3.13 e 3.14: Tradução livre para plexiforme, que diz respeito à uma formação em rede. Figura 15: Visão geral para o modelo proposto por ( BENOIT et al., 2010). 3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano C(p) = 41 R(p) (Vmax + R0 (p)), R(p) + R0 (p) (3.13) R0 (p) = V0 (p)L(p) + Vmax (1 − V0 ). (3.14) Nota-se que nas Equações 3.13 e 3.14, a luminância ajustada depende da luminância do fotoreceptor p R(p) e de um parâmetro de compressão R0 (p) o qual é acoplado - linearmente - à luminância local p C(p) L(p) da vizinhança do fotoreceptor p. A luminância local é calculada aplicando-se o ltro passa-baixa da Equação 3.15, o qual é o resultado da modelagem da estrutura em rede de conexão da camada OPL com a camada IPL. ( BENOIT et al., 2010) adicionou ainda um valor V0 ∈ [0, 1] que permite o efeito de adaptação local ser V0 = 0.9. facilmente ajustado e experimentalmente determinou Valores menores causará a redução do efeito adaptativo local e ainda recomenda-se valores entre Vmax imagens com 8 bits por pixel. Além disso, pixel, sendo tipicamente 255. Pequenos valores de 0.60 0.99 e para representa o valor máximo para cada V0 permite que grandes valores de luminância sejam saturados: FOP L (fs , ft ) = Fph (fs , ft ) · [1 − Fh (fs , ft )] , 1 , 1+βph +2αph ·[1−cos(2πfs )]+j2πτph ft 1 = 1+βh +2αh ·[1−cos(2πf . s )]+j2πτp ft Fph (fs , ft ) = Fh (fs , ft ) Onde: fs zontal h e contém somente imagens cujo conteúdo do espectro espacial é muito baixo; Fph é a frequência espacial; é a saída do fotoreceptor tor ph, e é a frequência temporal; βph τph e τh ph e da célula horizontal h, respectivamente; αph dos ltros do receptor ph ph e da célula Fh é a saída da célula hori- são os ganhos da célula horizontal respectivamente (normalmente são nulos); receptor índice ph; βh ft (3.15) h, e h e do fotorecep- são as contantes de tempo do αh são as constantes espaciais respectivamente. Na prática, os parâmetros com ajustam a frequência de corte superior e os parâmetros com índice h ajustam a frequência de corte inferior do ltro da Equação 3.15. O ltro da Equação 3.15 pode ser considerado como uma diferença entre dois ltros ph ) espaço-temporais passa-baixa que modelam o comportamento dos foto-receptores ( h e as células horizontais ( ), que por sua vez efetivamente calculam a subtração. Na Figura 16 está representado um diagrama esquemático do ltro da Equação 3.15. Nesta gura, a diferença entre Fph e Fh é representada por dois operadores BipON e BipOFF, que fornecem, respectivamente, a parte positiva e a parte negativa da diferença entre 3.6 Metodologias de Avaliação dos Quadros Chaves as imagens dos foto-receptores Ph 42 e as imagens das células horizontais h. Por m, o comportamento das células bipolares está representado na subtração nal. Na prática, o ltro da Equação 3.15 é capaz de remover ruídos espaço-temporais e melhorar contornos. Estas propriedades são complementares pois o efeito visual de ruído em imagens é manifestado por contornos distorcidos. Por sua vez, operações de melhoria de contornos irá aumentar também o ruído na imagem. O canal parvocelular é obtido após o processamento das células ganglionares, que irá receber os sinais BipON e BipOFF da camada OPL e atuar como um potencializador local, reforçando os contornos obtidos. A lei de adaptação é a mesma utilizada nos fotoreceptores (Equações 3.13 e 3.14), porém, a informação a ser processada é constituída apenas pelos contornos e ainda com a luminância reduzida (se luminância (se βh = 0), βh > 0) ou mesmo nenhuma fazendo com que o melhoramento dos contornos seja menos dependente da luminância local e mais dependente dos contornos em si. Neste trabalho, o canal parvocelular é utilizado para a análise de constraste local, BENOIT et al., conforme a metodologia proposta na seção 4.2. O modelo apresentado por ( 2010) é composto ainda por mais duas partes, o canal magnocelular e um processamento de baixo nível como feito no córtex V1, porém, estes itens não são utilizados neste trabalho. Recomenda-se a leitura do trabalho de ( BENOIT et al., 2010) para melhores detalhes sobre o modelo de retina. 3.6 Metodologias de Avaliação dos Quadros Chaves O avanço da ciência em qualquer área do conhecimento é, em geral, medido pela efetividade e/ou eciência das novas soluções dos problemas propostos. Para tanto, métodos de Figura 16: Diagrama esquemático para o ltro da Equação 3.15. 3.6 Metodologias de Avaliação dos Quadros Chaves 43 comparação objetivos são necessários e que estes, preferencialmente, sejam pré-existentes, entretanto, atualmente, cada trabalho ligado à sumarização automática de vídeos utiliza seu próprio método de comparação, sem efetivamente comparar a nova metodologia à AVILA et al., 2011). técnicas pré-existentes ( Ao contrário de outras áreas do conhecimento, como reconhecimento de padrões e rastreamento de objetos, denir o que é considerado como um sumário correto é um trabalho complicado, principalmente devido a falta de um critério objetivo, como um ground truth objetivo e conciso ( AVILA et al., 2011). Na literatura, os métodos de avaliação de resultados de trabalhos ligados à sumarização automática de vídeos são divididos em três grupos: descrição de resultados, métricas objetivas e avaliação de usuários humanos ( TRUONG; VENKATESH, 2007). A descrição dos resultados é a forma mais simples e popular, entretanto, não envolve a comparação direta com outros métodos. Geralmente é utilizada para discutir a inuência dos parâmetros do método sobre os resultados obtidos e muitas vezes tentam descrever, ZHANG et al., 2003). textualmente e ilustrando, as vantagens da utilização do método ( As métricas objetivas, por sua vez, são funções que revelam a delidade do método em relação à um outro método ou ao próprio método com diferentes parâmetros, entretanto, AVILA et al., 2011). sem nenhuma correção com o julgamento humano ( Por m, a avaliação de usuários humanos envolve o julgamento de pessoas que julgam a qualidade do sumário gerado, sendo possivelmente, a forma mais realista de avaliação. O trabalho de ( AVILA et al., 2011) propõe uma metodologia de comparação de resu- mos estáticos chamada Comparison of User Summaries (CUS), na qual um sumário é construído manualmente por alguns usuários humanos e é tomado como referência a ser comparada com o resultado obtido por diferentes métodos. O sumário construído pelos usuários humanos é tomado como ótimo e para comparar os quadros chaves obtidos por diferentes métodos, um histograma de cores, com 16 categorias, no espaço HSV, é construído tomando-se a componente H. A distância entre dois quadros chaves é calculada utilizando-se a distância Manhattan e dois quadros chaves são similares de a distância entre eles é menor que um limiar δ. AVILA et al., 2011) é ilustrado: Na Figura 17, o método proposto por ( no passo 1, os usuários humanos constroem o resumo estático ótimo, partindo-se do princípio de que devem selecionar os quadros que melhor sumarizam o conteúdo original do vídeo. Já o passo 2 engloba a comparação do resumo gerado pelos usuários humanos com o resumo 3.6 Metodologias de Avaliação dos Quadros Chaves 44 gerado automaticamente. A qualidade do resumo gerado (passo 3) é avaliada tomando-se duas métricas, conforme 3.16 e 3.17: Onde: CU SA é a precisão, ηmAS CU SA = ηmAS ηU S (3.16) CU SE = ηm̄AS . ηU S (3.17) é o número quadros chaves simultaneamente presentes no sumário automático e no sumário do usuário (ou seja, quadros positivos verdadeiros), ηm̄AS é o número de quadros chaves presentes no sumário automático, mas que não estão presentes no sumário do usuário (ou seja, falsos positivos), presentes no sumário do usuário, CU SE é o erro e ηm̄AS ηU S é o número de quadros é o número de quadros chaves presentes no sumário automático mas que não estão presentes no sumário do usuário. Vale observar que CU SA melhor caso. Além disso, é um número no intervalo [0, 1], sendo 0 o pior caso e 1 o CU SA = 1 não signica que todos os quadros chaves selecionados pelo método automático estão presentes no sumário ótimo, ou seja, se ηAS < ηU S , então, alguns quadros do sumário automático não estão presentes no sumário ótimo. Por m, CU SE é um número no intervalo [0, ηAS /ηU S ], sendo 0 o melhor caso (todos os quadros do sumário automático estão contidos no sumário do usuário) e ηAS /ηU S o pior caso, na situação em que nenhum dos quadros do sumário automático estão presentes no sumário do usuário. Figura 17: Resumo do método CUS. Fonte: ( AVILA et al., 2011) 3.7 Biblioteca OpenCV 45 3.7 Biblioteca OpenCV OpenCV (acrônimo para Open Source Computer Vision ou Visão Computacional de open source 2 escrita nas linguagens C e C++, multiplataforma (Windows, Linux e Mac), com alguns bindings Código Livre, numa tradução livre para o português) é uma biblioteca para Python, Ruby, Matlab e outras linguagens ( BRADSKI; KAEHLER, 2008). O núcleo do OpenCV é escrito em linguagem C, otimizado para fazer uso de múltiplos processadores, e assim focado em aplicações de tempo real. A biblioteca foi originalmente BRADSKI; KAEHLER, R desenvolvida pela Intel , em uma equipe liderada por Gary Bradski ( 2008), com o objetivo de promover o desenvolvimento de aplicações sosticadas baseadas em visão computacional. A primeira versão da biblioteca foi liberada em 2006 e a segunda LAGANIÈRE, em 2009, sendo as principais mudanças a nova interface em linguagem C++ ( 2011; BRADSKI; KAEHLER, 2008). O OpenCV contém mais de 500 algoritmos em diversas áreas da visão computacional: inspeção industrial, medicina, segurança, calibração de câmeras, visão estéreo, dentre outros. Além disso, inclui também uma biblioteca para aprendizagem de máquinas, reconhecimento de padrões, clustering, persistência de dados e estimadores como Filtro de Kalman. Alguns, classicadores como redes Machine e k Nearest Neighbor Multilayer Perceptron (MLP), Support Vector também estão implementados e disponíveis. O modelo de atenção visual proposto neste trabalho foi implementado em linguagem C++ e faz uso intensivo dos recursos do OpenCV e do framework Qt (Seção 3.8). Dentre os principais recursos do OpenCV que estão sendo utilizados pode-se citar: • Cálculo do uxo ótico; • Classicador de Haar para detecção de faces; • Interface para manipulação de diversos formatos de armazenamento de vídeo digital. 3.8 Qt Framework O Qt é um framework multiplataforma (Linux, Mac e Windows) utilizado princi- palmente para o desenvolvimento de aplicações que contém interface de usuário gráca (chamadas de 2 widgets http://opensource.org no dialeto do framework ). Apesar desta ser a aplicação principal, 3.9 Métricas de Avaliação de Desempenho 46 o Qt suporta também aplicações até mesmo sem interface com o usuário. É notadamente um dos frameworks mais populares para o desenvolvimento de aplicações multiplataforma em linguagem C++. Atualmente é mantido como um projeto open source, entretanto, foi originalmente 3 desenvolvido e distribuído comercialmente pela Trolltech , sendo adquirido mais tarde pela 4 Nokia, que por sua vez repassou à Digia a divisão de serviços pagos envolvendo Qt, porém, a Nokia ainda continua como principal desenvolvedora do 2010; THELIN, 2007). Dentre os principais recursos do • Ser multiplataforma; • Implementar um conjunto de • Disponibilizar diversos framework SUMMERFIELD, ( framework, pode-se destacar: containers design patterns otimizados; em C++: signal/slot, iterators, yweight, serializer, etc; • Interface de alto nível para ambientes multi-core : threads, mutex, sincronismo ( se- máforos, etc); • Interface de usuário gráca. 3.9 Métricas de Avaliação de Desempenho Esta seção apresenta, brevemente, as três métricas de avaliação de desempenho utilizadas para medir a ecácia da metodologia proposta: precisão, revocação e pontuação F1. Estas medidas são amplamente utilizadas para a avaliação e validação de sistemas PEREIRA, 2012; CALUMBY, 2010; KALE; MEHROTA; MANZA, de recuperação de imagens ( 2007). A Figura 3.9 ilustra o relacionamento conitante entre a revocação e a precisão: se o número de itens recuperados aumenta, o valor da revocação também aumenta, entretanto, simultaneamente, o valor da precisão diminui. medida que melhor avalia o sistema de buscas. 3 4 http://www.trolltech.com http://www.digia.com Neste sentido, a pontuação F1 é uma 3.9 Métricas de Avaliação de Desempenho Figura 18: 47 Relação conitante entre revocação e precisão: os itens relevantes estão à esquerda e os recuperados dentro do círculo. As regiões em vermelho representam erros, sendo a da esquerda itens relevantes não recuperados e a da direita itens não relevantes recuperados. 3.9.1 Revocação No contexto da recuperação de itens em um conjunto de busca, a revocação é denida como a razão entre itens relevantes recuperados pelo sistema de buscas pela quantidade total de itens relevantes contida no conjunto consultado, conforme a Equação 3.18: R= k{ItensRelevantes} ∩ {ItensRecuperados}k . k{ItensRelevantes}k (3.18) Na prática, a revocação pode ser estimada através da Equação 3.19: R= Onde R é um número no intervalo de itens relevantes recuperados e 3.9.2 [0, 1] Tr Nr . Tr e representa o valor da revocação, (3.19) Nr é o número é o número total de itens relevantes. Precisão A precisão é denida como a fração de itens relevantes dentre os itens recuperados pelo sistema de buscas, conforme denido pela Equação 3.20: 3.9 Métricas de Avaliação de Desempenho R= 48 k{ItensRelevantes} ∩ {ItensRecuperados}k . k{ItensRecuperados}k (3.20) Na prática, pode-se calcular a precisão através da Equação 3.21: P = Onde P é um número no intervalo de itens relevantes recuperados, T Nr Nr = . T Nr + Ni [0, 1] (3.21) e representa o valor da precisão, é o total de itens recuperados e Ni Nr é o número é o número de itens não relevantes recuperados. 3.9.3 Métrica F1 Como a recovação e a precisão são medidas de natureza contraditórias, a ecácia de um sistema de recuperação será mais bem avaliada se ambas forem consideradas simultaneamente. A métrica F1 (do inglês F1 measure ) é uma média harmônica entre a revocação e a precisão e pode ser calculada conforme a Equação 3.22: F1 = 2 · Onde F1 é o valor da medida de F1, P P ×R . P +R é a precisão e (3.22) R é a revocação. 49 4 Metodologia Este capítulo descreve a metodologia utilizada para o desenvolvimento e implementação computacional do modelo de atenção visual proposto, bem como sua adaptação para a aplicação especíca de extração de quadros-chave em vídeos de programas televisivos. Estas implementações foram feitas em linguagem C++ com a utilização da biblioteca OpenCV e do framework Qt e posteriormente serão incorporadas ao sistema de informa- ção multimídia do Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) do CEFET-MG ( SOUZA, 2012; PEREIRA, 2012). A descrição da metodologia utilizada para o desenvolvimento do trabalho proposto será feita apresentando-se as etapas intermediárias do modelo de atenção visual, que são baseadas em técnicas de extração de características, bem como em um método de quantização. Em seguida, será descrito o método de fusão das etapas intermediárias e por m, descreve-se o método para análise da curva nal de atenção visual para a extração dos quadros-chaves. Conforme ilustrado na Figura 2 (ver Seção 1.3), o método proposto se baseia num modelo de atenção visual que tem como entrada um vídeo que será analisado quadro a quadro, extraindo assim: (i) características relevantes do ponto de vista da atenção visual: quantidade, coerência espacial e duração da movimentação na cena; (ii) um mapa de saliências que indiretamente leva em consideração informações de cor, textura e forma; e (iii) um modelo baseado na detecção de posição e tamanho de faces. são quantizadas e fundidas numa curva chamada de Estas características curva de atenção visual, a partir da qual é possível inferir os potenciais quadros-chaves que irão compor o índice da base de dados do sistema de informação multimídia do CAPTE. A seguir, as diversas etapas da metodologia acima referidas serão descritas. 4.1 Modelo de Atenção Dinâmica 50 4.1 Modelo de Atenção Dinâmica Neste trabalho, o conceito de atenção dinâmica está relacionado à quantidade de movimento presente em cada quadro. Entretanto, esta variável não é suciente para estabelecer um critério de ponderação a respeito da relevância de um quadro em relação aos demais. Além disso, recursos como zoom e panning, bem como a movimentação da própria câmera, fazem com que a atenção do espectador seja guiada pelo diretor de cena ( MA et al., 2005) e irão inuenciar o método para cálculo da quantidade de movimento. Tipicamente, a quantidade de movimento numa cena é calculada utilizando-se técni- BEAUCHEMIN; BARRON, 1996), porém, como mencionado ante- cas como o uxo ótico ( riormente, o uxo ótico será inuenciado pela movimentação da câmera e deseja-se aqui uma estimativa da quantidade de movimento de objetos em cena, ou seja, movimentação do primeiro plano. O uso do uxo ótico é amplamente difundido na literatura para métodos de rastreamento de objetos e tem-se critérios bem denidos para se determinar as regiões de interesse PAPAGEORGIOU; OREN; POGGIO, 1998), portanto, pode-se denir o da cena em análise ( comportamento do uxo ótico para estes casos: objetos que se movimentam; de câmera e ( (iii) (ii) operações de (i) o uxo ótico é difuso nas bordas de o uxo ótico é polarizado em função de movimentação zoom e panning não afetam as características anteriores MA et al., 2005; PAPAGEORGIOU; OREN; POGGIO, 1998; BEAUCHEMIN; BARRON, 1996). O cálculo do uxo ótico neste trabalho é realizado utilizando-se o método proposto por Lucas e Kanade ( LUCAS; KANADE, 1981). Como mencionado na Seção 3.2, este método é dito local e os pontos a serem mapeados de um quadro para o outro serão denidos SHI; TOMASI, 1994), obtendo assim, por denição, um conjunto Como o método de Lucas e Kanade (LUCAS; KANADE, 1981) só pode conforme proposto por ( ótimo de pontos. ser utilizado para pequenas regiões com pequenos movimentos, será utilizado uma técnica de multi-escalas (ou de pirâmide) para melhorar o desempenho do método. A partir do cálculo do uxo ótico, obtém-se um campo vetorial de movimentação (ou motion vector eld, MVF), onde cada vetor deste campo irá fornecer duas variáveis para se determinar a atenção dinâmica. A primeira variável é a quantidade de movimento presente na cena, obtida através da amplitude média do MVF, conforme a Equação 4.1: n 1X µ= k vi k, vi ∈ V . n i=0 (4.1) 4.1 Modelo de Atenção Dinâmica 51 Figura 19: Demonstração do uxo ótico nas bordas de objetos em movimento: as linha em vermelho representando cada um dos vetores do campo vetorial. Onde: V é o campo vetorial de movimentação obtido através do uxo ótico, dade de vetores no campo vetorial de movimentação, V e k vi k vi n é a quanti- é o i-ésimo vetor do campo vetor é a função que estima a magnitude de do vetor vi . Como esta informação é fortemente acoplada à desvios como movimentação de câmera, a fase de cada vetor do MVF será levada em consideração. Como dito anteriormente, o MVF é difuso nas bordas de objetos em movimento e bastante polarizado nas demais regiões, conforme ilustrado pela Figura 19. Utilizando-se um histograma da distribuição de fase de um MVF, é possível então obter uma medida da quantidade de movimento devido à objetos na cena. A medida da quantidade de movimento devido à objetos na cena é feita através da entropia do histograma de fases do MVF (chamada de coerência espacial) através da Equação 4.2. Como ε ε, calculada é uma medida da entropia do histrograma de fases do MVF, esta irá reetir a polarização do MVF, ou seja, um MVF difuso, irá gerar maiores valores de ε, enquanto um MVF mais polarizado (por exemplo, aquele decorrente da movimentação da câmera) irá gerar menores valores de ε=− Pm p(j) = Onde: ε MVF, p(j) é a coerência espacial, m j=0 p(j) Pmf (j) k=0 f (k) ε. · log2 (p(j)) , . (4.2) é a quantidade de classes no histograma de fases do é a função de probabilidade da classe j-ésima classe do histograma de fases. h e f (j) é a quantidade de itens na 4.2 Modelo de Atenção Estática As duas medidas, µ e ε 52 isoladas representam diferentes aspectos do MVF, porém, as duas medidas combinadas fornecem o valor de atenção dinâmica. Uma cena com grandes quantidades de movimento (ou seja, um MVF com vetores de grandes amplitudes) µ, fornecerá grandes valores de porém, esta medida é fortemente inuenciada por mo- vimentações de câmera e movimentos como zoom câmera produz MVF com baixos valores de ε e panning. Como a movimentação da (ou seja, um MVF polarizado), o valor da atenção dinâmica ser deve diminuído proporcionalmente. Assim, o valor da atenção dinâmica será calculado através do produto entre µ e ε, conforme a Equação 4.3: αd (k) = µ(k) · ε(k). Onde: αd (k) é o valor de atenção dinâmica do k-ésimo quadro, MVF do k-ésimo quadro e ε(k) (4.3) µ é magnitude média do é a medida de coerência espacial do MVF do k-ésimo quadro. 4.2 Modelo de Atenção Estática Cenas estáticas também contêm características importantes para a atenção visual, as quais não podem ser estimadas pelo modelo de atenção dinâmica proposto. Assim, propõe-se um modelo de atenção estática que se baseia num mapa de saliências levandose em consideração características como cor, textura e formas. Estas características são indiretamente mapeadas pelo contraste. O contraste é um importante parâmetro para a visão. Clinicamente, a acuidade visual é medida utilizando-se altas taxas de contraste, isto é, letras de cor preta sobre um fundo branco. Na realidade, em uma cena, é a variação de contraste que permite distinguir MA et al., objetos do plano de fundo ( 2003). Tradicionalmente, o contraste é denido como a diferença entre o ponto com maior intensidade luminosa e o ponto com menor intensidade luminosa, entretanto, esta denição não leva em consideração variações locais ( PELI, 1990). Características como cor, textura e forma, apesar de amplamente utilizadas para imi- tar a percepção humana, não fornecem informações em alto nível da imagem em análise, basicamente porque seres humanos não consideram tais características isoladamente. Isto signica dizer que, a percepção de um objeto em uma cena está relacionada com a dis- MA et al., 2005). tinção entre o objeto em si e o ambiente no qual ele está inserido ( 4.2 Modelo de Atenção Estática 53 (a) (b) (c) (d) (e) (f) MA et Figura 20: Percepção de cor, textura e forma através do contraste. Adaptado de ( al., 2003). Neste sentido, o modelo de atenção estática proposto é na realidade um mapa de saliências que fornece informações simultâneas de cor, textura e forma, porém, de forma indireta através do contraste. Na Figura 20(a), o objeto vermelho é claramente tido como a região de foco de atenção, visto que, usualmente, diz-se que a cor vermelha possui mais brilho que a cor preta e facilmente atrai a atenção humana. Entretanto, na Figura 20(b) o objeto preto é quem se sobressai, ao passo que a cor vermelha do fundo ocupa a maior parte da imagem. Esta análise permite concluir que cor e tamanho não são as características principais que inuenciam a percepção. As Figuras 20(c) e 20(d) mostram dois padrões de textura, um rugoso sobre um liso, e um liso sobre um rugoso, respectivamente. Neste caso, não se pode dizer qual região chama mais a atenção, demonstrando novamente que o contraste exerce maior inuência do que diz respeito a chamar a atenção. Já as Figuras 20(e) e 20(f ) simplesmente denotam que não é a complexidade da forma que exerce maior inuência sobre a atenção do espectador. Considerando-se as observações das Figuras 20(a) a 20(f ), o mapa de saliências baseado no contraste é capaz de fornecer informações relevantes sobre as regiões de mais 4.2 Modelo de Atenção Estática 54 (a) (b) (c) (d) (e) (f) Figura 21: Mapa de saliências para as Figuras 20(a) à 20(f ). alta relevância no que diz respeito à atenção visual. Fazendo-se analogia à modelagem da atenção visual na seção 3.1.2, a construção deste mapa de saliência é um processo dito bottom-up. Alguns métodos já foram propostos para o cálculo do contraste: métodos baseados em cor; em luminância; métodos no domínio da frequência, dentre outros ( PELI, 1990), entretanto, o método descrito a seguir é similar ao processo executado pela retina no olho humano. o canal O método proposto utiliza o modelo de retina da Seção 3.5, porém, somente parvocelular é levado em consideração uma vez que este está relacionado à avaliação de detalhes. Como no modelo da retina de ( BENOIT et al., 2010), cada pixel do quadro em análise é considerado um fotoreceptor e as propriedades intrínsecas à ele devem ser aplicadas. BEAUDOT, 1994), ajustará sua sen- Dado que cada fotoreceptor, conforme proposto por ( sibilidade em função da luminância de sua vizinhança (Equações 3.13 e 3.14) e levando-se em consideração às propriedades do modelo da Seção 3.5, a saída do canal parvocelular será o próprio mapa de saliências proposto anteriormente. Tomar cada um dos pixels do quadro em análise como um fotoreceptor faz com que suas propriedades sejam válidas neste contexto. Isto vem de encontro à análise por con- BEAUDOT, 1994) traste local proposta, visto que o modelo de fotoreceptor utilizado por ( 4.2 Modelo de Atenção Estática 55 (a) (b) (c) Figura 22: Mapa de saliências para cenas naturais. ajustará automaticamente sua sensibilidade em função de sua vizinhança. Este efeito pode ser visto nas Figuras 21(a) à 21(f ), onde são mostrados os mapas de saliências obtidos através do método proposto utilizando-se as Figuras 20(a) à 20(f ) como entrada. Nota-se que as regiões realçadas são as áreas em que há maior nível de contraste local. As Figuras 21(a) à 21(f ) serviram apenas para demonstrar o conceito, sendo compostas por objetos sintéticos. Nas Figuras 22(a) à 22(c) são mostrados exemplos de mapas de saliências para cenas reais. Na Figura 22(a) pode-se observar que a marca d'água causa pouca variação de contraste local (item marcado com 1), consequentemente é pouco realçada pelo modelo. O contrário ocorre com a legenda, que provoca grande variação local de contraste (item marcado com 2). O mesmo efeito da marca d'água ocorre na Figura 22(b) (item marcado com 1), entretanto, o reexo na lente dos óculos da personagem (item 2) é destacado pelo modelo de atenção estática. Já a Figura 22(c) apenas ilustra o realce nas variações locais de contraste. 4.3 Modelo de Atenção Baseado em Faces 56 Uma vez obtido o mapa de saliências de cada quadro, calcula-se então o valor de MA et al., atenção estática. Como cada pixel do quadro é considerado um fotoreceptor ( 2005), dene-se o valor da atenção estática como a soma da luminância ajustada de cada fotoreceptor, conforme a Equação 4.4: w X h X 1 αs (k) = · I(i, j; k). w · h · ρ i=0 j=0 Onde: (4.4) αs (k) é o valor de atenção estática do k-ésimo quadro, ρ é um fator de ponderação e está relacionado à profundidade (em bits) de cada pixel, quadro nas direções X e Y respectivamente e I(i, j; k) w e h são as dimensões do é o mapa de saliências do k-ésimo quadro. 4.3 Modelo de Atenção Baseado em Faces Faces representam uma das características que mais descrevem visualmente um ser MA et al., 2005) e frequentemente dominam o foco da atenção dispensada por um espectador humano (BINDEMANN et al., 2007). Neste sentido, e ainda incluindo um humano ( processo top-down (seção 3.1.2) ao modelo de atenção visual, calcula-se também um valor de atenção devido à presença de faces nos quadros do vídeo. Este modelo consiste em localizar faces em cada um dos quadros do vídeo e em função das dimensões e posição, atribuir um valor de atenção. Este cálculo é feito utilizando-se uma Gaussiana bidimensional, dada pela Equação 4.5: − 21 · g(x, y) = A · e Onde: A é a amplitude da gaussiana, 0 ( x−x σx ) (x0 , y0 ) 2 2 y−y + σ 0 y . é a origem da gaussiana, (4.5) σx e σy são os desvios padrões na direções X e Y respectivamente. Em geral, a gaussiana tem origem no centro do quadro em análise e suas dimensões são as mesmas do quadro em análise. Uma visualização gráca da Equação 4.5 é apresentada nas Figuras 23(a) e 23(b). MA et al., 2002b), Este método é uma evolução da forma proposta por ( que propôs uma grade discreta para ponderação da posição, entretanto, utilizando-se a Gaussiana bidimensional da Equação 4.5 obtém-se uma curva de atenção mais suave, sem saltos discretos. 4.3 Modelo de Atenção Baseado em Faces (a) Vista em perspectiva. 57 (b) Vista sobre o plano XY. Figura 23: Representação em perspectiva e sobre o plano XY para a Equação 4.5 com A = 1, σx = σy = 1. Figura 24: Interconexão das cascatas de classicação de faces A detecção das faces é feita utilizando-se o classicador de Viola e Jones (Seção 3.3), entretanto, com quatro instâncias. Cada instância é especializada na detecção de um tipo de característica, sendo a primeira - ou classicador primário - a que efetivamente detecta faces e as outras três instâncias - chamadas de classicadores de segundo nível funcionam como redundância para a primeira e são especializadas na detecção de olhos, nariz e boca. O classicador primário atua no quadro como um todo, sendo portanto, computacionalmente mais complexo. Quando o classicador primário retornar uma ou mais regiões no quadro original que foram classicadas como faces, cada uma dessas regiões de interesse são novamente submetidas aos classicadores de segundo nível, visando eliminar falsos positivos do classicador primário. Quando algum classicador de segundo nível retorna positivo, os demais são dispensados. Ressalta-se que os classicadores secundários inspecionam apenas as regiões de interesse retornadas pelo classicador primário, logo, estes são mais ecientes em termos 4.3 Modelo de Atenção Baseado em Faces 58 computacionais. A Figura 24 ilustra este comportamento. Cada uma das regiões de interesse denida na saída da etapa de detecção de faces é submetida à ponderação da Equação 4.5, calculando-se então o valor de atenção de cada quadro a partir da Equação 4.6: wR X hR r 1 XX αf (k) = · g(x, y). r i=1 R R (4.6) x=x0 y=y0 Onde: αf (k) é o valor de atenção devido à faces do k-ésimo quadro, r é a quantidade R R total de regiões de interesse onde há faces detectadas, (x0 , y0 ) é a origem da região de interesse g(x, y) R , wR e hR são, respectivamente, a largura e altura da região de interesse R e é a função de ponderação denida na Equação 4.5. Se nenhuma face for detectada pelo classicador primário e vericada pelos classicadores de segundo nível, então αf (k) = 0. Note que as regiões de interesse detectadas pelo classicador primário e não vericadas pelos classicadores de segundo nível são descartadas. A saída deste modelo é apresentada nas Figuras 25(a), 25(b) e 25(c). Nas Figuras 25(a) e 25(b) é possível visualizar um retângulo verde delimitando a região de detecção de uma face (saída do classicador primário) e um retângulo azul que demarca a região que um classicador de segundo nível utilizou para validar a face detectada. A Figura 25(c) apresenta um retângulo em vermelho, o qual foi considerado um falso positivo - e consequentemente descartado - pelo modelo, uma vez que nenhum classicador de segundo nível conseguiu validar a região de interesse demarcada pelo classicador primário. É importante observar que a curva de saída deste modelo pode apresentar variações (a) Face validada pela detecção de boca. Figura 25: (b) Face validada pela detecção de olho. (c) Falso positivo. Demonstração da saída do modelo de detecção de faces e a validação por redundância: as regiões demarcadas pelo retângulo verde representam faces detectadas e validadas pelos classicadores de segundo nível. O retângulo vermelho indica falso positivo não validado pelos classicadores de segundo nível. 4.4 Construção da Curva de Atenção Visual 59 bruscas entre um valor de atenção não nulo e zero, como apresentado na Figura 26(c). Este comportamento acontece pois os classicadores primário e de segundo nível podem detectar regiões de interesse em uma sequência de quadros e em um quadro isolado intermediário falhar. Para evitar resultados inesperados, comprometendo a ecácia do método, estas variações serão compensadas em etapas futuras, através do processamento da Curva de Atenção Visual construída conforme descrito nas Seções 4.4 e 4.5. 4.4 Construção da Curva de Atenção Visual A construção da Curva de Atenção Visual é feita por meio da combinação linear dos valores de atenção visual intermediários calculados nas seções 4.1, 4.2 e 4.3. Para tanto, os valores calculadas pelas Equações 4.3, 4.4 e 4.6 devem ser normalizados. Especicamente, utilizando-se a Equação 4.7, os parâmetros normalizados são fundidos e formam a curva de atenção visual nal, a qual será posteriormente analisada para a extração dos quadros-chave: A(k) = wd · α ed (k) + ws · α es (k) + wf · α ef (k). Onde: A(k) é o valor de atenção visual para o quadro atenção dinâmica; é o peso para o modelo de α ed (k) é o valor normalizado de atenção dinâmica para o quadro k ; ws o peso para o modelo de atenção estática; para o quadro k ; wd (4.7) k ; wf é α es (k) é o valor normalizado de atenção estática é o peso para o modelo de atenção devido às faces e normalizado de atenção visual devido à faces para o quadro α ef (k) é o valor k. Para evitar desbalanceamentos e polarizações do método, a restrição wd +ws +wf = 1, deve ser observada. Pode-se utilizar valores nulos nos pesos caso haja necessidade de se MA et al., 2005). desativar algum parâmetro ( Nas Figuras 26(a) à 26(c) são mostradas curvas de exemplo para o Modelo de Atenção Dinâmica (Seção 4.1), o Modelo de Atenção Estática (Seção 4.2) e para o Modelo de Atenção Baseado em Faces (Seção 4.3), respectivamente. Estas curvas são então fundidas a partir da Equação 4.7 com da Figura 27. wd = 0.50, ws = 0.25 e wf = 0.25, formando então a curva 4.4 Construção da Curva de Atenção Visual 60 (a) Curva de saída para o Modelo de Atenção Dinâmica. (b) Curva de saída para o Modelo de Atenção Estática. (c) Curva de saída para o Modelo de Atenção Baseada em Faces. Figura 26: Exemplos de curvas de saída para os Modelos de Atenção Dinâmica, Estática e Baseada em Faces, respectivamente. 4.5 Extração dos Quadros-Chave 61 4.5 Extração dos Quadros-Chave A aplicação proposta para o modelo de atenção visual desenvolvido neste trabalho é a extração de quadros-chave que irão compor o índice da base de dados do sistema de informação multimídia desenvolvido pelo CAPTE. Pela denição do modelo de atenção visual proposto, os quadros-chaves serão aqueles com maiores valores de atenção visual e portanto, são extraídos tomando-se os picos da curva de atenção visual, construída conforme a seção 4.4. Como pode ser observado na curva de atenção da Figura 27, características indesejáveis, como as variações bruscas do Modelo Baseado em Faces (Seção 4.3), ao interagirem com os demais modelos, podem gerar falseamentos, comprometendo a ecácia do método. A aplicação de ltros digitais sobre a Curva de Atenção Visual e denições estáticas desse tipo de ltro podem polarizar o método. Além disso, ltros digitais introduzem atrasos em função de sua ordem, fazendo com que sejam necessários deslocamentos no eixo horizontal da Curva de Atenção Visual, comprometendo ainda mais a ecácia do método. Para compensar tais variações bruscas e outras características indesejáveis, a extração dos quadros-chave se dá sobre o envelope da Curva de Atenção Visual. Além de não introduzir atrasos, o envelope da Curva de Atenção Visual tem o efeito de ltro passabaixa, ignorando variações bruscas na Curva de Atenção Visual. A Figura 28(a) mostra o envelope (em vermelho) e Curva de Atenção Visual da Figura 27 sobrepostos. A Figura 28(b) apresenta detalhes do envelope da Curva de Atenção Visual, enfatizando a remoção das variações bruscas no intervalo entre o quadro 1000 e o quadro 1500. A denição de quais serão os quadros-chave é feita utilizando-se o envelope da Curva de Atenção Visual, conforme mostrado na Figura 29. Como quadros muito próximos são, em geral, semelhantes em termos de conteúdo, pode-se denir um espaçamento mínimo entre os quadros-chave selecionados. As Figuras 30(a) à 30(i) mostram quadros-chave selecionados para a Curva de Atenção Visual da Figura 27. As legendas mostram os valores de atenção para cada quadro. 4.5 Extração dos Quadros-Chave 62 Figura 27: Curva de atenção criada a partir das curvas das Figuras 26(a) à 26(c) com wd = 0.50, ws = 0.25 e wf = 0.25. (a) Envelope da Curva de Atenção Visual da Figura 27. (b) Detalhe do envelope da Curva de Atenção Visual da Figura 27. Figura 28: Envelope e detalhe do envelope da Curva de Atenção Visual da Figura 27. 4.5 Extração dos Quadros-Chave 63 Figura 29: Quadros-chave detectados pelo método proposto. (a) Quadro 0.4917 #17: (b) Quadro #153: 0.1537 (c) Quadro 0.2675 #420: (d) Quadro #829: 0.4300 (e) Quadro #1449: 0.6684 (f) Quadro #1533: 0.3317 (g) Quadro #1652: 0.4320 (h) Quadro #2062: 0.4424 (i) Quadro #2380: 0.5383 Figura 30: Exemplos de quadros-chave selecionados para a Curva de Atenção Visual da Figura 27. 64 5 Resultados Experimentais Este capítulo apresenta e discute os resultados experimentais obtidos por meio da utilização do modelo de atenção visual proposto neste trabalho para sumarização automática de vídeos de programas televisivos. Os experimentos realizados neste trabalho visam avaliar o desempenho e demonstrar a aplicabilidade da abordagem proposta, sobretudo em cenários desaadores para métodos encontrados na literatura. Os experimentos realizados neste trabalho são divididos em duas partes: o primeiro conjunto de vídeos avaliados é composto por vídeos da base de dados do CAPTE. O segundo conjunto de vídeos de teste foi extraído do Open Video Project (OV) e coincide AVILA et al., 2011), (FURINI et al., 2010) e (MUNDUR; RAO; YESHA, com os trabalhos de ( 2006), permitindo assim a comparação entre os métodos. Para a realização dos experimentos, utilizou-se uma estação de trabalho HP com processador Intel Core i5 @2.27GHz, 4GB de memória RAM e sistema operacional Linux Ubuntu 12.04 de 32 bits. 5.1 Conjunto de Vídeos do CAPTE Especicamente, o conjunto de vídeos do CAPTE é composto por 88 vídeos, referentes a 10 programas do canal de televisão aberta Rede Minas, bem como os quadros chaves (gabarito de análise) correspondentes aos vídeos deste conjunto, estimados manualmente SOUZA, por três documentalistas, conforme critérios propostos em trabalhos anteriores ( 2012; BENMOKHTAR et al., 2007; GAUCH; SHIVADAS, 2005). Comparações são realizadas entre o desempenho da abordagem proposta neste trabalho e aquela desenvolvida por ( SOUZA, 2012), utilizando-se como métricas a precisão, a revocação e a medida F1 (ver Seção 3.9). 5.1 Conjunto de Vídeos do CAPTE 5.1.1 65 Preparação do Conjunto de Testes do CAPTE O conjunto de testes considerado é composto por 88 vídeos de programas televisivos, exibidos na grade de programação do canal Rede Minas entre os dias 23/01/2012 e 03/02/2012 e integrantes do repositório gerenciado pelo sistema de informação multimídia do CAPTE. Para cada vídeo de teste utilizado, por sua vez, há um conjunto correspondente de ground-truth ) quadros-chaves, os quais exercem a função de gabarito ( no processo de análise de desempenho da abordagem proposta neste trabalho. Especicamente, para a denição dos quadros-chaves do gabarito mencionado, três pistas visuais principais foram SOUZA, buscadas ao longo de cada vídeo, conforme proposto em trabalhos anteriores ( 2012; • BENMOKHTAR et al., 2007; GAUCH; SHIVADAS, 2005), a saber: Ampliação ( zoom-in ): com o objetivo de direcionar a atenção do telespectador para um objeto ou uma região especíca da cena, esta pista visual consiste em ampliar tal objeto ou região de interesse. Utilizou-se como quadro chave uma imagem amostrada imediatamente após cessar a operação de zoom. Esta operação é ilustrada na Figura 31. • Mudança de cenário: diz respeito à alteração entre cenários, como no caso de um telejornal, quando alterna-se entre o cenário interno ao estúdio e uma reportagem externa ao estúdio. O quadro-chave selecionado é a primeira imagem do novo cenário. A Figura 32 ilustra esta operação. • Movimentação de câmera: está relacionada ao deslocamento físico da câmera e tem a intenção de guiar a atenção do espectador. O quadro-chave é selecionado imediatamente após a nalização da sequência de movimentação, conforme ilustrado na Figura 33. Finalmente, deve-se ressaltar que o conjunto de vídeos de teste considerado neste trabalho, bem como o gabarito correspondente, foram originalmente propostos e amplamente analisados por ( SOUZA, 2012). Este fato motivou a adoção desta base de dados durante as análises de desempenho realizadas, permitindo o estabelecimento de comparações entre as abordagens desenvolvidas e a validação da metodologia proposta. 5.1 Conjunto de Vídeos do CAPTE 66 Zoom-In ). Figura 31: Operação de Ampliação ( Figura 32: Mudança de Cenário. 5.1.2 Processamento do Conjunto de Testes A Tabela 1 apresenta os principais parâmetros de conguração da abordagem proposta, bem como os valores correspondentes considerados durante os experimentos realizados. Note que os resultados experimentais obtidos baseiam-se na restrição wd +ws +wf = 1 (ver Seção 4.4). Desta forma, busca-se evitar desbalanceamentos e polarizações do método, garantindo-se igual a 1 a soma dos pesos presentes no modelo de atenção visual proposto (ver Equação 4.7), associados aos modelos de atenção dinâmica (wd ), atenção estática (ws ) e devido à faces (wf ). Adicionalmente, considerou-se que estes pesos possuem o mesmo valor, assim, wd = ws = wf = 0.333, de forma a estudar o comportamento da abordagem em um cenário onde não há predomínio de um modelo sobre os demais (pelo menos na situação onde os pesos são considerados iguais). Parâmetro Signicado m Quantidade de classes do histograma do MVF ρ Profundidade, em bits, das imagens A Amplitude da gaussiana do modelo de faces σx σy wd ws wf Valor 180 8 1.000 Desvio padrão na direção X da gaussiana do modelo de faces 120.000 Desvio padrão na direção Y da gaussiana do modelo de faces 180.000 Peso do modelo de atenção dinâmica 0.333 Peso do modelo de atenção estática 0.333 Peso do modelo de atenção devido à faces 0.333 Tabela 1: Principais parâmetros da abordagem proposta para a execução dos experimentos. 5.1 Conjunto de Vídeos do CAPTE 67 Figura 33: Movimentação da Câmera. As Tabelas 2, 3 e 4 sintetizam os resultados obtidos para cada um dos vídeos do conjunto de dados de teste, exibindo a precisão, a revocação e medida F1 para cada um dos vídeos sumarizados. A abordagem proposta obteve uma precisão média de revocação média de 84% e um valor médio para a medida F1 de 75%, 86%, uma demonstrando sua aplicabilidade e bom desempenho. A seguir, são analisados os resultados experimentais sintetizados nas Tabelas 2, 3 e 4, apontando-se as vantagens e limitações da abordagem proposta, além de compará-la com o trabalho de ( SOUZA, 2012), quando possível, no que se refere à sua ecácia no processo de sumarização automática de vídeos televisivos. 5.1.3 Avaliação dos Resultados dos Vídeos do CAPTE SOUZA, 2012) obteve os seguintes valores médios para as mé- O trabalho de Souza ( tricas de desempenho adotadas: precisão 0.92, revocação 0.62 e F1 0.74, ao passo que a metodologia proposta neste trabalho obteve os seguintes valores médios: precisão revocação 0.84 e F1 0.85. 0.86, Estas informações são sumarizadas através da Tabela 5. Apesar do método proposto apresentar um valor médio para a precisão aproximada- SOUZA, 2012), os valores médio da revocação e mente 7% menor que o proposto por Souza ( da medida F1 são signicativamente melhores. O menor valor da precisão está relacionado ao modo como os quadros-chaves manuais foram selecionados, visto que a metodologia proposta leva em consideração outros parâmetros além das pistas visuais citadas na Seção 5.1.1. Além disso, o envelope aplicado sobre a curva de atenção visual pode deslocar, ligeiramente, o rótulo dos quadros selecionados como quadros-chave. Por outro lado, observa-se um aumento de 35% no valor da revocação média do método proposto em relação àquele desenvolvido por ( SOUZA, 2012).. A maior quantidade de 5.1 Conjunto de Vídeos do CAPTE # Data 68 Descrição do Programa Bloco Precisão Revocação F1 1 23/01/2012 Repórter Brasil 1 0.80 0.81 0.80 2 23/01/2012 Repórter Brasil 2 0.83 0.84 0.83 3 23/01/2012 Repórter Brasil 3 0.85 0.72 0.78 4 23/01/2012 Repórter Brasil 4 0.81 0.72 0.76 5 23/01/2012 Jornal Minas 1a ed. 1 0.91 0.79 0.85 6 23/01/2012 Jornal Minas 1a ed. 2 0.88 0.80 0.84 7 23/01/2012 Jornal Minas 1a ed. 3 0.85 0.78 0.81 8 23/01/2012 Repórter Eco 1a ed. 1 0.88 0.75 0.81 9 23/01/2012 Repórter Eco 1a ed. 2 0.82 0.76 0.79 10 23/01/2012 Repórter Eco 1a ed. 3 0.80 0.79 0.79 11 23/01/2012 Jornal Minas 2a ed. 1 0.88 0.73 0.80 12 23/01/2012 Jornal Minas 2a ed. 2 0.82 0.72 0.77 13 23/01/2012 Jornal Minas 2a ed. 3 0.49 0.74 0.59 14 23/01/2012 Brasil das Gerais - 0.85 0.75 0.79 15 24/01/2012 Repórter Brasil 1 0.86 0.92 0.89 16 24/01/2012 Repórter Brasil 2 0.87 0.91 0.89 17 24/01/2012 Repórter Brasil 3 0.88 0.79 0.83 18 24/01/2012 Repórter Brasil 4 0.93 0.89 0.91 19 24/01/2012 Jornal Minas 1a ed. 1 0.83 0.73 0.76 20 24/01/2012 Jornal Minas 1a ed. 2 0.83 0.84 0.83 21 24/01/2012 Jornal Minas 1a ed. 3 0.92 0.83 0.87 22 24/01/2012 Jornal Minas 2a ed. 1 0.86 0.88 0.87 23 24/01/2012 Jornal Minas 2a ed. 2 0.86 0.89 0.88 24 24/01/2012 Jornal Minas 2a ed. 3 0.89 0.87 0.88 25 24/01/2012 Catalendas - 0.63 0.83 0.72 26 24/01/2012 Meu Amigãozão - 0.94 0.93 0.94 27 24/01/2012 Cocoricó na Cidade - 0.98 0.81 0.89 28 26/01/2012 Jornal Minas 1a ed. 1 0.81 0.80 0.80 29 26/01/2012 Jornal Minas 1a ed. 2 0.83 0.84 0.83 30 26/01/2012 Jornal Minas 1a ed. 3 0.81 0.83 0.82 31 26/01/2012 Jornal Minas 2a ed. 1 0.87 0.84 0.85 32 26/01/2012 Jornal Minas 2a ed. 2 0.74 0.77 0.75 33 26/01/2012 Jornal Minas 2a ed. 3 0.80 0.85 0.83 Tabela 2: Métricas de desempenho para o conjunto de vídeos de teste dos dias 23/01/2012, 24/01/2012 e 26/01/2012. quadros chave selecionados pelo método proposto é intrínseca a metodologia em si, pois há mais parâmetros levados em consideração do que aqueles utilizados para a montagem do gabarito. A medida F1, que é uma média harmônica ponderada entre os valores de revocação e precisão, é, neste trabalho, considerada a métrica de desempenho mais relevante, pois reete o comportamento mais geral do método ao balancear as métricas precisão e revocação. O valor da medida F1 média é cerca de 15% maior que o método proposto por ( SOUZA, 2012). Por m, para efeitos de avaliação de desempenho computacional, o tempo total de processamento dos vídeos do gabarito totaliza cerca de os vídeos do gabarito totalizam cerca de 16h. 15h de processamento, enquanto A maior parte do tempo de processa- mento é devido principalmente ao modelo de atenção devido à faces e sua vericação por redundância. 5.2 Conjunto de Vídeos do Open Video Project # Data 69 Descrição do Programa Bloco Precisão Revocação F1 34 30/01/2012 Repórter Brasil 1 0.92 0.92 0.92 35 30/01/2012 Repórter Brasil 2 0.92 0.90 0.91 36 30/01/2012 Repórter Brasil 3 0.87 0.82 0.84 37 30/01/2012 Repórter Brasil 4 0.98 0.76 0.86 38 30/01/2012 Opnião Minas 1 0.81 0.83 0.82 39 30/01/2012 Opnião Minas 2 0.82 0.84 0.83 40 30/01/2012 Jornal Minas 1a ed. 1 0.98 0.88 0.93 41 30/01/2012 Jornal Minas 1a ed. 2 0.94 0.86 0.90 42 30/01/2012 Jornal Minas 1a ed. 3 0.98 0.80 0.88 43 30/01/2012 Jornal Minas 2a ed. 1 0.86 0.93 0.90 44 30/01/2012 Jornal Minas 2a ed. 2 0.86 0.85 0.86 45 30/01/2012 Jornal Minas 2a ed. 3 0.95 0.86 0.90 46 30/01/2012 Catalendas - 0.76 0.97 0.85 47 30/01/2012 Cocoricó na Cidade - 0.90 0.86 0.88 48 31/01/2012 Catalendas - 0.88 0.83 0.85 49 31/01/2012 Repórter Brasil 1 0.92 0.86 0.89 50 31/01/2012 Repórter Brasil 2 0.88 0.88 0.88 51 31/01/2012 Repórter Brasil 3 0.84 0.89 0.87 52 31/01/2012 Repórter Brasil 4 0.90 0.88 0.89 53 31/01/2012 Jornal Minas 2a ed. 1 0.90 0.86 0.88 54 31/01/2012 Jornal Minas 2a ed. 2 0.90 0.86 0.88 55 31/01/2012 Jornal Minas 2a ed. 3 0.76 0.99 0.86 Tabela 3: Métricas de desempenho para o conjunto de vídeos de teste dos dias 30/01/2012 e 31/01/2012. 5.2 Conjunto de Vídeos do Open Video Project O segundo conjunto de testes é composto por 50 vídeos do Open Video Project (OV), os AVILA et al., 2011), (FURINI et al., 2010) e (MUNDUR; quais coincidem com os trabalhos de ( RAO; YESHA, 2006), permitindo assim a comparação entre os métodos. Utilizou-se ainda a metodologia de comparação descrita na Seção 3.6 e 250 sumários criados manualmente e disponibilizados por ( AVILA et al., 2011). Estes sumários foram gerados por 50 usuários, sendo que cada um trabalhou com 5 vídeos distintos. O método proposto neste trabalho foi parametrizado da mesma forma que no conjunto de vídeos anterior (vide Tabela 1). O método é comparado com as abordagens VSUMM1 AVILA et al., 2011), STIMO proposta por (FURINI et al., 2010) e DT de (MUNDUR; RAO; YESHA, 2006). Além disso, os sumários disponibilizados pelo e VSUMM2 proposta por ( Open Video Project (OV) também foi incluído na comparação. Os sumários de cada um dos métodos, bem como os 250 sumários criados manualmente, estão disponíveis em https://sites.google.com/site/vsummsite/home. Para efeitos de comparação, utilizou-se a média dos parâmetro CU SA e CU SE (des- critos na Seção 3.6), tomando-se cada um dos 5 sumários criados para cada um dos vídeos. Estes valores são mostrados na Tabela 6. Foram denidos também duas variações da metodologia proposta, a saber: a primeira proposta é a metodologia aplicada sem nenhum limite de quadros chaves, identicada na 5.2 Conjunto de Vídeos do Open Video Project # Data 70 Descrição do Programa Bloco Precisão Revocação F1 56 01/02/2012 Repórter Brasil 1 0.78 0.85 0.81 57 01/02/2012 Repórter Brasil 2 0.86 0.86 0.86 58 01/02/2012 Repórter Brasil 3 0.87 0.82 0.84 59 01/02/2012 Repórter Brasil 4 0.87 0.88 0.88 60 01/02/2012 Um Menino Maluquinho 1 0.88 0.90 0.89 61 01/02/2012 Um Menino Maluquinho 2 0.88 0.87 0.87 62 01/02/2012 Catalendas - 0.91 0.79 0.85 63 01/02/2012 Jornal Minas 1a ed. 1 0.91 0.78 0.84 64 01/02/2012 Jornal Minas 1a ed. 2 0.86 0.90 0.88 65 01/02/2012 Jornal Minas 1a ed. 3 0.83 0.92 0.87 66 01/02/2012 Jornal Minas 2a ed. 1 0.86 0.86 0.86 67 01/02/2012 Jornal Minas 2a ed. 2 0.91 0.87 0.89 68 01/02/2012 Jornal Minas 2a ed. 3 0.91 0.86 0.88 69 01/02/2012 Brasil das Gerais 1 0.83 0.91 0.87 70 01/02/2012 Brasil das Gerais 2 0.80 0.82 0.81 71 01/02/2012 Brasil das Gerais 3 0.91 0.85 0.88 72 02/02/2012 Repórter Brasil 1 0.89 0.85 0.87 73 02/02/2012 Repórter Brasil 2 0.96 0.77 0.85 74 02/02/2012 Repórter Brasil 3 0.91 0.84 0.87 75 02/02/2012 Repórter Brasil 4 0.88 0.81 0.84 76 03/02/2012 Catalendas - 0.85 0.87 0.86 77 03/02/2012 Clube do Esporte. - 0.80 0.85 0.82 78 03/02/2012 Jornal Minas 1a ed. 1 0.93 0.75 0.83 79 03/02/2012 Jornal Minas 1a ed. 2 0.84 0.91 0.87 80 03/02/2012 Jornal Minas 1a ed. 3 0.90 0.85 0.88 81 03/02/2012 Jornal Minas 2a ed. 1 0.94 0.79 0.86 82 03/02/2012 Jornal Minas 2a ed. 2 0.83 0.93 0.88 83 03/02/2012 Brasil das Gerais 1 0.85 0.89 0.87 84 03/02/2012 Brasil das Gerais 2 0.88 0.90 0.89 85 03/02/2012 Brasil das Gerais 3 0.74 0.76 0.75 86 03/02/2012 Repórter Brasil 1 0.80 0.86 0.83 87 03/02/2012 Repórter Brasil 2 0.82 0.87 0.84 88 03/02/2012 Repórter Brasil 3 0.74 0.85 0.80 Tabela 4: Métricas de desempenho para o conjunto de vídeos de teste dos dias 01/02/2012, 02/02/2012 e 03/02/2012. Tabela 6 como Proposta1. Já a segunda proposta limita a quantidade de quadros chaves em 25 por vídeo, de forma que os quadros chaves selecionados são os 25 com maior valor de atenção visual A(k) e é identicada na Tabela 6 como Proposta2. A Tabela 6 apresenta também a razão CU SE /CU SA . Esta razão é um indicador da efetividade do método pois quanto mais quadros chaves o método seleciona, maior tende a ser o parâmetro (CU SE ). A razão 0 CU SA , porém, em contra partida, maior também será o seu erro CU SE /CU SA é portanto, um parâmetro que quanto mais próximo de (zero), mais efetivo é o método, em outras palavras, mais próximo do sumário gerado pelo usuário está o sumário gerado automaticamente. Métrica Método de Souza Método Proposto Diferença Diferença % Precisão 0.92 Revocação 0.62 Medida F1 0.74 Tabela 5: 0.86 -0.06 -6.52% 0.84 0.22 35.48% 0.85 0.11 14.86% Comparação dos valores médios das métricas de desempenho obtidas pelo método de Souza e pelo método proposto. 5.2 Conjunto de Vídeos do Open Video Project 71 0.9 CUSA CUS*A 0.8 0.7 0.6 0.5 0.4 10 15 20 25 30 # de quadros chave 35 Figura 34: Variação do parâmetro 5.2.1 40 CU SA . Efeito da Variação da Quantidade de Quadros Chave A variação da quantidade de quadros chaves selecionados por vídeo afeta os parâmetros CU SA e CU SE , conforme descrito na Seção 3.6, logo, a razão CU SE /CU SA se modicará. Com o intuito de averiguar a variação da efetividade do método proposto e identicar um número ótimo de quadros chaves por vídeo, limitou-se ete parâmetro em 10, 20, 25, 30 e 40 quadros por vídeo. O efeito desta variação pode ser visto nas Figuras 34 e 35. A Figura 34 apresenta o efeito da variação da quantidade de quadros chave selecionados no parâmetro CU SA . Conforme a Equação 3.16, quanto mais quadros selecionados pelo método, maior a propabilidade do mesmo estar contido no sumário criado manualmente, logo, o parâmetro CU SA tende a aumentar. O efeito negativo deste aumento de quadros selecionados é averiguado pela equação 3.17, quanto mais quadros chaves selecionado pelo método, a probabilidade do método errar também aumenta. Este é o comportamento visto na Figura 35. Tanto a Figura 34 e a Figura 35 apresentam os valores médios dos respectivos parâmetros sinalizados com um *. Por m, na Figura 36 é apresentada a variação da razão Parâmetro CU SA CU SE CU SE /CU SA em função da OV DT STIMO VSUMM1 VSUMM2 Proposta1 Proposta2 0.70 0.53 0.72 0.85 0.70 0.89 0.73 0.57 0.29 0.58 0.38 0.27 0.44 0.24 0.81 0.55 0.81 0.45 0.39 0.49 0.33 Tabela 6: Comparação das médias das métricas de sumarização. CU SE /CU SA CU SA e CU SE para os diversos métodos 5.2 Conjunto de Vídeos do Open Video Project 72 0.5 CUSE 0.45 CUS*E 0.4 0.35 0.3 0.25 0.2 10 15 20 25 30 # de quadros chave Figura 35: Variação do parâmetro 35 40 CU SE . 0.5 CUSE/CUSA CUS*E/CUS*A 0.45 0.4 0.35 10 15 20 25 30 # de quadros chave Figura 36: Variação da razão dos parâmetros 35 CU SA 40 e CU SE . quantidade de quados chaves selecionados. Como dito anteriormente, esta razão é um parâmetro que mede a efetividade do método e observa-se que a menor razão ocorreu em torno de 25 quadros por vídeo. CU SE /CU SA 73 6 Conclusões e Trabalhos Futuros Neste capítulo, são apresentadas conclusões acerca do trabalho proposto, deixando claro seus pontos positivos e negativos. Além disso, apontam-se perspectivas de trabalhos futuros que possam melhorar os resultados experimentais obtidos neste trabalho. 6.1 Conclusões Juntamente com o aumento da demanda por conteúdo multimídia nos mais diversos segmentos da sociedade, há também a necessidade de sistemas de informações que possam armazenar, recuperar e gerenciar este conteúdo de forma eciente. Como o acervo de conteúdo multimídia é, em diversos países, um bem de grande valor econômico e cultural, é possível encontrar na literatura grandes esforços para o desenvolvimento de ferramentas computacionais que auxiliem este processo. Este trabalho apresentou uma abordagem, baseada num modelo de atenção visual, para a sumarização automática de vídeos televisivos que vai de encontro a este aumento de conteúdo multimídia. A metodologia proposta se baseia no conceito de atenção visual (ver Seção 3.1) para quanticar e calcular um índice de relevância (chamado atenção visual) para todos os quadros do vídeo em análise. Os três modelos utilizados, atenção dinâmica (Seção 4.1), atenção estática (Seção 4.2) e a atenção devido à faces (Seção 4.3), compõem a curva de atenção visual, que, numa segunda etapa é processada e nalmente se extraem os quadros-chaves para a sumarização do vídeo. O modelo de atenção dinâmica (Seção 4.1) é fortemente dependente do cálculo do uxo LUCAS; KANADE, 1981) para ótico. Neste trabalho, utilizou-se o método proposto por ( tal cálculo. O modelo de atenção estática (Seção 4.2) é baseado na análise de contraste, de forma local. Para tanto, este trabalho utiliza a saída do modelo de retina proposto no trabalho de ( BENOIT et al., 2010) . Por m, o modelo atenção devido à faces (Seção 4.3) se baseia no classicador descrito por ( VIOLA; JONES, 2001a) para a detecção das faces. 6.2 Resultados da Base de Vídeos do CAPTE 74 6.2 Resultados da Base de Vídeos do CAPTE A avaliação de desempenho do método proposto foi feita através do cálculo da precisão, revocação e medida F1 dos quadros-chaves obtidos em comparação com um gabarito previamente preparado por documentalistas. Para efeitos de avaliação de desempenho, SOUZA, 2012). estas métricas foram comparadas, sempre que possível, com o trabalho de ( Nota-se que os resultados experimentais são promissores e que contribuem signicativamente para a melhoria do sistema de informações multimídia mantido pelo CAPTE, sobretudo ao se considerar o aumento - em torno de 15% - da medida F1 média, principal métrica de desempenho considerada neste trabalho. Houve também um aumento bastante expressivo da revocação média - em torno de 35% - apesar da diminuição de cerca de 7.5% da precisão. 6.3 Resultados da Base de Vídeos do Open Video Project A comparação do método proposto com outros trabalhos se deu em duas formas: uma utilizando-se todos os quadros chaves selecionados pelo método e outra limitando-se o número de quadros chaves selecionados. A primeira abordagem (Proposta1) apresentou maior precisão que os demais métodos utilizados na comparação, entretanto, o erro também foi superior. O resultado combinado destes dois parâmetros pode ser mensurado pela razão CU SE /CU SA - aqui chamada de efetividade - e apesar de ter apresentado resultados melhores que os métodos OV e STIMO, o método proposto não superou os resultados do VSUMM1. Já a segunda abordagem (Proposta2), onde há a limitação da quantidade de quadros chaves selecionados em 25 quadros chave por vídeo, apresentou resultados mais satifatórios que todos os métodos comparados. obtida comparando-se a razão A quantidade de 25 quadros chave por vídeo foi CU SE /CU SA para diversas quantidades de quadros chaves selecionados. 6.4 Trabalhos Futuros Como perspectiva para futuros trabalhos, modicações podem ser propostas para a aprimoramento e até mesmo especialização por gênero televisivo da metodologia proposta. 6.4 Trabalhos Futuros 75 A audição também é uma importante fonte de direcionamento da atenção humana ( MA et al., 2005). Por exemplo, é possível provocar sensações e sentimentos especícos no espectador de um vídeo utilizando-se trilhas sonoras adequadas, além de entonações de vozes compatíveis com sentimento que se deseja provocar. Assim, é plausível a inserção de um quarto modelo de atenção, entretanto, baseado no canal auditivo. Outro ponto a ser explorado, é a avaliação do método proposto em cenários em que há predomínio de um modelo sobre outros, modicando-se assim os pesos de ponderação. Estas modicações podem ser inclusive utilizadas para a especialização do método em função do gênero a ser analisado. Além disso, a implementação de um mecanismo para eliminação de redundância, com base no conteúdo visual dos quadros-chaves selecionados, pode reetir de forma positiva nos resultados obtidos pelo método proposto, visto que, reduziria a quantidade de quadros selecionados. Por m, especicamente para o modelo de atenção baseado em faces, pode-se aumentar, signicativamente, o desempenho computacional utilizando-se métodos de detecção de faces mais robustos e de melhor desempenho computacional, eliminando-se assim a etapa de validação por redundância utilizada. 76 Referências ARISTOTLE. On Sense and the Sensible. eBooks@Adelaide, The University of Adelaide, 2012. Disponível em: <http://ebooks.adelaide.edu.au/a/aristotle/sense>. AVILA, S. E. F. et al. Vsumm: A mechanism designed to produce static video summaries Pattern Recognition Letters, v. 32, n. 1, p. 56 68, 2011. and a novel evaluation method. ISSN 0167-8655. Image Processing, Computer Vision and Pattern Recognition in Latin America. Articial Intelligence, v. 48, p. 5786, 1991. BALLARD, D. Animate vision. BARRETO, J. S. Desaos e avanços na recuperação automática da informação audiovisual. Ciência da Informação - SCIELO Brasil, v. 36, n. 3, p. 1728, SetDez 2007. BEAUCHEMIN, S.; BARRON, J. The computation of optical ow. Surveys, v. 27, p. 433467, 1996. ACM Computing The Neural Information Processing in the Vertebrate Retina: A Melting Pot of Ideas for Articial Vision. Tese (PhD Thesis in Computer Science) INPG, BEAUDOT, W. France, 1994. BENMOKHTAR, R. et al. Video shots key-frames indexing and retrieval through pattern analysis and fusion techniques. International Conference on Information Fusion, p. 16, 2007. BENOIT, A. et al. Using human visual system modeling for bio-inspired low level image processing. Comput. Vis. Image Underst., Elsevier Science Inc., New York, NY, USA, v. 114, n. 7, p. 758773, jul. 2010. ISSN 1077-3142. Disponível em: <http://dx.doi.org- /10.1016/j.cviu.2010.01.01>. BERTINI, M.; BIMBO, A. D.; PALA, P. Content-based indexing and retrieval of tv news. Pattern Recognition Letters, v. 22, n. 5, p. 503516, 2001. BINDEMANN, M. et al. The control of attention to faces. Journal of Vision, v. 7, n. 10, 2007. BOUCART, M.; HENA, A.; BELIN, C. Vision: aspects perceptifs et cognitifs. [S.l.]: Edi- tion Solal, 1998. BRADSKI, G.; KAEHLER, A. Learning OpenCV. 1a. ed. [S.l.]: O Reilly Media, Inc, 2008. 543 p. BROADBENT, D. Perception and communication. NY: Pergamon Press, 1958. BUNDESEN, C.; HABEKOST, T. Handbook of cognition. In: SAGE PUBLICATIONS. Attention. [S.l.]: Lamberts, K. and Goldstone, R., 2005. Referências 77 Recuperação multimodal de imagens com realimentação de relevância baseada em programação genética. Dissertação (Mestrado) Instituto de Computação, CALUMBY, R. T. Universidade Estadual de Campinas, 2010. CAVE, K. The featuregate model of visual selection. Psychological Res, v. 62, p. 184194, 1999. CLARK, J. J.; FERRIER, N. J. Modal control of an attentive vision system. In: International Conference on Computer Vision. Tampa, Florida, US: [s.n.], 1988. DESIMONE, R.; DUNCAN, J. Neural mechanisms of selective visual attention. Rev. of Neuroscience, v. 18, p. 193222, 1995. 2nd Ann. DESIMONE, R. et al. Attentional control of visual perception: cortical and subcortical mechanisms. In: Cold Spring Harbor on Quantitative Biology. [S.l.]: Cold Spring Harbor Laboratory Press, 1990. LV: The Brain, p. 963971. DEUBEL, H.; SCHNEIDER, W. X. Saccade target selection and object recognition: Evidence for a common attentional mechanism. Vision Research, v. 36, p. 1827?1837, 1996. DEUTSCH, J.; DEUTSCH, D. Attention: Some theoretical considerations. Psych, v. 70, p. 8090, 1963. DIMITROVA, N. et al. Applications of video-content analysis and retrieval. media, p. 4255, 2002. IEEE Multi- DOULAMIS, N. et al. A stochastic framework for optimal key frame extraction from mpeg video databases. In: Multimedia Signal Processing, 1999 IEEE 3rd Workshop on. [S.l.: s.n.], 1999. p. 141 146. DUNLOP, H. Scene classication of images and video via semantic segmentation. In: Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on. [S.l.: s.n.], 2010. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. FREUND, Y.; SCHAPIRE, R. E. FRINTROP, S.; KLODT, M.; ROME, E. A real-time visual attention system using integral images. In: 5th Int. Conf. on Computer Vision Systems (ICVS). Bielefeld, Germany: [s.n.], 2007. FRINTROP, S.; ROME, E.; CHRISTENSEN, H. I. Computational visual attention systems and their cognitive foundations: A survey. ACM Transactions on Applied Perception, v. 7, 2010. FURINI, M. et al. Stimo: Still and moving video storyboard for the web scenario. media Tools Applications, p. 46:4769, 2010. Multi- GAUCH, J.; SHIVADAS, A. Identication of new commercials using repeated video sequence detection. GIBSON, J. IEEE International Conference on Image Processing, v. 3, 2005. The Perception of the Visual World. [S.l.]: Houghton Miin, 1950. Referências 78 GROSSBERG, S. A psychophysiological theory of reinforcement, drive, motivation, and attention. Journal of Theoretical Neurobiology, v. 1, p. 286369, 1982. HAAR, A. Zur theorie der orthogonalen funktionensysteme erste mitteilung. tische Annalen, v. 69, n. 3, p. 331371, 1910. Mathema- HAMKER, F. H. The emergence of attention by population-based inference and its role Journal of Computer Vision and Image Understanding (CVIU), Special Issue on Attention and Performance. [S.l.: in distributed processing and cognitive control of vision. In: s.n.], 2005. v. 100, p. 64106. HAMKER, F. H. Modeling feature-based attention as an active top-down inference process. BioSystems, v. 86, 2006. HANNON, J. et al. Personalized and automatic social summarization of events in video. International Conference on Intelligent User Interfaces, p. 335338, 2011. HEINEN, M. R.; ENGEL, P. M. Evaluation of visual attention models under 2d similarity transformations. In: Proceedings of the 2009 ACM symposium on Applied Computing. New York, NY, USA: ACM, 2009. (SAC '09), p. 11561160. ISBN 978-1-60558-166-8. HILLAIRE, S. et al. A real-time visual attention model for predicting gaze point during rst-person exploration of virtual environments. In: posium on Virtual Reality Software and Technology. Proceedings of the 17th ACM Sym- New York, NY, USA: ACM, 2010. (VRST '10), p. 191198. ISBN 978-1-4503-0441-2. HJELMAS, E.; LOW, B. Face detection: A survey. tanding, v. 83, p. 236274, 2001. Computer Vision and Image Unders- HORN, B. K. P.; SCHUNCK, B. G. Determining optical fow. Articial Intelligence, v. 17, p. 185204, 1981. ITTI, L.; KOCH, C. Computacional modelling of visual attention. roscience, v. 2, p. 194203, 2001. Nature Reviews: Neu- JOBSON, D.; RAHMAN, Z.-u.; WOODELL, G. A multiscale retinex for bridging the gap between color images and the human observation of scenes. Transactions on, v. 6, n. 7, p. 965976, 1997. ISSN 1057-7149. KALE, K. V.; MEHROTA, S. C.; MANZA, R. R. Information Technology. [S.l.]: Advances in Computer Vision and I. K. International, 2007. KANDEL, E. R.; SCHWARTZ, J. H.; JESSELL, T. M. Behavior. [S.l.]: Image Processing, IEEE Essentials of Neural Science and McGraw-Hill/Appleton & Lange, 1996. KNUDSEN, E. Fundamental components of attention. Annu. Rev. Neurosci, v. 30, p. 5778, 2007. KOCH, C.; ULLMAN, S. Shifts in selective visual attention: neural circuitry. Human Neurobiology, v. 4, p. 219227, 1985. LAGANIÈRE, R. towards the underlying OpenCV 2 Computer Vision Application Programming Cookbook. [S.l.]: Packt Publishing, 2011. 304 p. Referências 79 International Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction. New York, NY, USA: ACM, 2010. (ICMI-MLMI '10), p. 27:127:8. LI, K. et al. Human-centered attention models for video summarization. In: ISBN 978-1-4503-0414-6. LI, L. et al. Video summarization via transferrable structured learning. World Wide Web, p. 287296, 2011. Conference on LIENHART, R.; MAYDT, J. An extended set of haar-like features for rapid object detection. In: IEEE ICIP. [S.l.: s.n.], 2002. v. 1, p. 900903. LIMA, F. B. et al. Reconhecimento automático de fala aplicado à indexação e recuperação de vídeos televisivos com sinais de Áudio em português brasileiro. In: - Encontro de Modelagem Computacional. Nova Friburgo: Anais do XIII EMC [s.n.], 2010. LUCAS, B. D.; KANADE, T. An iterative image registration technique with an application to stereo vision. In: DARPA Imaging Understanding Workshop. [S.l.: s.n.], 1981. p. 121130. MA, Y.-F. et al. A model of motion attention for video skimming. In: IEEE International Conference on Image Processing. Rochester, New York, USA: [s.n.], 2002a. p. 2225. MA, Y.-F. et al. Contrast-based image attention analysis by using fuzzy growing. In: 11th ACM International Conference on Multimedia. Berkeley, CA, USA: [s.n.], 2003. p. 28. MA, Y.-F. et al. A generic framework of user attention model and its application in video summarization1. IEEE Transactions on Multimedia Journal, 2005. MA, Y.-F. et al. A user attention model for video summarization. ACM Multimedia, 2002b. MEAD, C. A.; MAHOWALD, M. A silicon model of early visual processing. Networks, v. 1, n. 1, p. 91 97, 1988. ISSN 0893-6080. Disponível em: Neural <http://www- .sciencedirect.com/science/article/pii/089360808890024>. MENDI, E.; BAYRAK, C. Shot boundary detection and key frame extraction using salient region detection and structural similarity. In: Regional Conference. Proceedings of the 48th Annual Southeast New York, NY, USA: ACM, 2010. (ACM SE '10), p. 66:166:4. ISBN 978-1-4503-0064-3. Detecting salient regions in an image: From biological evidence to computer implementation. Tese (Doutorado) University of Geneva, Switzerland, 1993. MILANESE, R. MILANESE, R. et al. Integration of bottom-up and top-down cues for visual attention using non-linear relaxation. In: cognition (CVPR94). [S.l.: IEEE Conference on Computer Vision and Pattern Re- s.n.], 1994. p. 781785. MUNDUR, P.; RAO, Y.; YESHA, Y. Keyframe-based video summarization using delaunay clustering. Internat. J. Dig. Libr, v. 2, n. 6, p. 219232, 2006. OUERHANI, N. Visual Attention: From Bio-Inspired Modeling to Real-Time Implemen- tation. Tese (Doutorado) Institut de Microtechnique Universite de Neuchâtel, 2003. Referências 80 PALMER, S. E. Vision Science, Photons to Phenomenology. Cambridge, MA: The MIT Press, 1999. PAPAGEORGIOU, C. P.; OREN, M.; POGGIO, T. A general framework for object detection. In: ICCV98: Proceedings of the Sixth International Conference on Computer Vision. Washington, DC, USA: IEEE Computer Society, 1998. p. 555. PELI, E. Contrast in complex images. Journal of the Optical Society of America, v. 7, p. 20322040, 1990. Desenvolvimento de um Sistema de Informação Multimídia para Apoio à Análise Discursiva de Vídeos Televisivos. Dissertação (Mestrado) PEREIRA, M. H. R. PPGMMC/CEFET-MG, Belo Horizonte/MG, 2012. PEREIRA, M. H. R. et al. Modelagem de um sistema de informação para recuperação de Anais do XIII EMC - Encontro de Modelagem Computacional. Nova Friburgo/RJ: [s.n.], 2010. vídeos por meio de metadados textuais. In: PETRELLI, D.; AULD, D. An examination of automatic video retrieval technology on access to the contents of an historical video archive. Systems, v. 42, p. 115136, 2008. Electronic Library and Information A Análise Discursiva de Entrevistas e Debates Televisivos como Parâmetro para Indexação e Recuperação de Informações em um Banco de Dados Audiovisuais. SABINO, J. L. F. Dissertação (Mestrado) POSLING/CEFET-MG, Belo Horizonte/MG, 2011. SABINO, J. L. F.; SILVA, G. D.; PÁDUA, F. L. C. Contribuições da análise do discurso para indexação do programa rede mídia em um banco de dados audiovisuais. In: Internacional de Análise do Discurso. [S.l.: II Fórum s.n.], 2010. p. 12831291. SABINO, J. L. F.; SILVA, G. D.; PÁDUA, F. L. C. Parâmetros discursivos para indexação da programação televisiva em um banco de dados audiovisuais: Análise do programa rede mídia. In: IX Encontro do Círculo de Estudos Linguísticos do Sul. [S.l.: SANTOS, T. T. Segmentação automática de tomadas em vídeo. s.n.], 2010. Dissertação (Mestrado) Universidade de São Paulo (USP), São Paulo/SP, 2004. SEKULER, R.; BLAKE, R. Perception. 2. ed. [S.l.]: McGraw-Hill, 1990. SHAO, L.; JI, L. Motion histogram analysis based key frame extraction for human action/activity representation. In: Conference on. [S.l.: Computer and Robot Vision, 2009. CRV '09. Canadian s.n.], 2009. p. 88 92. SHI, J.; TOMASI, C. Good features to track. Pattern Recognition, 1994. IEEE Conference on Computer Vision and A Informação Televisiva: Uma Encenação da Realidade (Comparação entre Telejornais Brasileiros e Franceses). Tese (Doutorado) FALE/UFMG, Belo HoriSILVA, G. D. zonte/MG, 2005. SIMONS, D. J.; LEVIN, D. T. Change blindness. 261267, 1997. Trends in Cognitive Sciences, v. 1, p. Referências 81 Recuperação de Vídeos Baseada em Conteúdo em Um Sistema de Informação para Apoio à Análise do Discurso Televisivo. Dissertação (Mestrado) SOUZA, C. L. PPGMMC/CEFET-MG, Belo Horizonte/MG, 2012. SUMMERFIELD, M. Qt 4. [S.l.]: Advanced Qt Programming: Creating Great Software with C++ and Prentice Hall, 2010. 550 p. THELIN, J. Foundations of Qt Development. [S.l.]: Apress, 2007. 528 p. TONDATO, M. P. Os gêneros televisivos no cotidiano da recepção de televisão. II COLÓQUIO BINACIONAL BRASIL-MÉXICO DE CIÊNCIAS DA COMUNICAÇÃO, 2009. TREISMAN, A. The eect of irrelevant material on the eciency of selective listening. American J. Psychology, v. 77, p. 533546, 1964. TREISMAN, A.; GELADE, G. A feature integration theory of attention. chology, v. 12, p. 97136, 1980. Cognitive Psy- TREISMAN, A.; GORMICAN, S. Feature analysis in early vision: Evidence from search asymmetries. Psychological Review, v. 95, p. 1548, 1998. TREUE, S.; MARTINEZ-TRUJILLO, J. Feature-based attention inuences motion processing gain in macaque visual cortex. Nature, v. 399, p. 575579, 1999. TRUONG, B. T.; VENKATESH, S. Video abstraction: A systematic review and classication. ACM Transactions on Multimedia Computing, Communications, and Applications, v. 3, 2007. TSOTSOS, J. A complexity level analysis of vision. Behavioral and Brain Sciences, v. 13, p. 423445, 1990. TSOTSOS, sual J. attention. K.; 2011. ROTHENSTEIN, Disponível A. Computational em: models of vi- <www.scholarpedia.org/article- /Computational models of visual attentio>. ULLMAN, S. The interpretation of visual motion. [S.l.]: MIT Press, 1979. VIOLA, P.; JONES, M. Rapid object detection using a boosted cascade of simple features. In: IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2001. v. 1. Second International Workshop on Statistical and Computational Theories of Vision - Modeling, learning, computing and sampling. Vancouver, Canadá: [s.n.], 2001. VIOLA, P.; JONES, M. Robust real-time object detection. In: WOLFE, J.; CAVE, K.; FRANZEL, S. Guided search: An alternative to the feature integration model for visual search. Exp. Psychology: Human Perception and Performance, v. 15, p. 419433, 1989. WOLFE, J. M. Guided search 2.0: A revised model of visual search. and Review, v. 2, p. 202238, 1994. Psychonomic Bulletin YANG, M.-H.; KRIEGMAN, D. J.; AHUJA, N. Detecting faces in images: A survey. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. [S.l.: p. 3458. s.n.], 2002. v. 24, Referências 82 ZHANG, C.; ZHANG, Z. A Survey of Recent Advances in Face Detection. [S.l.], 2010. ZHANG, X.-D. et al. Dynamic selection and eective compression of key frames for video abstraction. Pattern Recognition Lett, 2003.