Desenvolvimento de Um Modelo de Atenção Visual Para - Piim-Lab

Transcrição

Desenvolvimento de Um Modelo de Atenção Visual Para - Piim-Lab
Hugo Drumond Jacob
Desenvolvimento de Um Modelo de Atenção
Visual para Sumarização Automática de
Vídeos de Programas Televisivos
Dissertação
apresentada
ao
Programa
de
Pós-Graduação em Modelagem Matemática
e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, atendendo ao requisito parcial para obtenção do
título de Mestre em Modelagem Matemática
e Computacional
Orientador:
Prof. Dr. Flávio Luis Cardeal Pádua
Centro Federal de Educação Tecnológica de Minas Gerais
Co-orientadora:
Profa. Dra. Giani David Silva
Centro Federal de Educação Tecnológica de Minas Gerais
Programa de Pós-Graduação em Modelagem
Matemática e Computacional
Centro Federal de Educação Tecnológica de Minas Gerais
Diretoria de Pesquisa e Pós-Graduação
Belo Horizonte MG
Agosto de 2013
Resumo
Este trabalho aborda o desenvolvimento de um modelo computacional de atenção visual
aplicado à sumarização automática de vídeos de programas televisivos. Muito embora o
sistema de televisão represente um dos mais fascinantes fenômenos de mídia já criados pelo
homem, observa-se ainda uma grande carência por sistemas de informação multimídia que
viabilizem a recuperação efetiva de informações televisivas relevantes para pesquisas em
diversas áreas da ciência. Em sistemas deste tipo, tem-se que a sumarização automática
de vídeos surge como uma etapa determinante para a efetiva implementação de métodos
de indexação, navegação e recuperação de vídeos por conteúdo. Sendo assim, o presente
trabalho propõe a criação e implementação de um modelo de atenção visual, inspirado no
sistema de visão humano e baseado em técnicas de visão computacional, que permita a
identicação de trechos de vídeo mais relevantes em termos de conteúdo. O desenvolvimento deste trabalho ocorre no âmbito do Centro de Apoio à Pesquisas sobre Televisão
(CAPTE) do CEFET-MG, em parceria com o canal de televisão aberta Rede Minas. A
metodologia desenvolvida neste trabalho foi validada com sucesso e atingiu valores médios
de 0.86, 0.84 e 0.85 para a precisão, revocação e a medida F1, respectivamente, demonstrando assim ser potencialmente aplicável no sistema de informação multimídia para apoio
à análise discursiva de vídeos televisivos do CAPTE.
PALAVRAS-CHAVE: Modelo Computacional de Aatenção Visual, Sumarização Automática de Vídeos, Vídeos Televisivos, Sistema de Informação Multimídia.
Abstract
This works addresses the development of a computational visual attention model applied
to automatic video summarization of TV video programs. Although the TV represents
one of the most famous media phenomenon created by human, there is still a great need
for multimedia information systems that support the eective TV relevant information
retrieval for the most of science areas. In this kind of system, the automatic video summarization appears like a fundamental phase for the eective implementation of indexing
methods, browsing and content based video retrieval. Thus, this work propose the modeling and the implementation of a computational visual attention model, inspired on
human visual system and based on computer vision techniques, which allows the identication of the most relevant video segments in terms of content. The development of
this work occurs on scope of Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) of
CEFET-MG, in partnership with open TV channel Rede Minas. The proposed method
at this work was successful validated and reached mean values of 0.86, 0.84 and 0.85
for precision, recall and F1 measure, respectively, showing be potentially applicable to
CAPTE's multimedia system information for television videos discurse analysis.
KEYWORDS: Computational Visual Attention Model, Automatic Video Summarization, Multimedia Information System.
Lista de Figuras
1
Estrutura de um CEDOC privado.
. . . . . . . . . . . . . . . . . . . .
p. 11
2
Visão geral da metodologia proposta. . . . . . . . . . . . . . . . . . . .
p. 15
3
Aspecto geral do trabalho proposto
. . . . . . . . . . . . . . . . . . . .
p. 18
4
Estrutura do sistema visual humano . . . . . . . . . . . . . . . . . . . .
p. 25
5
Fluxo de sinais do sistema visual humano.
. . . . . . . . . . . . . . . .
p. 26
6
Estrutura genérica de um modelo de atenção visual. . . . . . . . . . . .
p. 27
7
Análise gráca da equação de restrição do uxo ótico
. . . . . . . . . .
p. 29
8
Representação gráca do problema da abertura
. . . . . . . . . . . . .
p. 30
9
Características Haar utilizadas originalmente por Viola e Jones.
10
Representação gráca para o cálculo da imagem integral.
. . . .
p. 33
. . . . . . . .
p. 34
11
Características Haar para uma face qualquer. . . . . . . . . . . . . . . .
p. 35
12
Cascata de classicação do algoritmo de Viola e Jones.
. . . . . . . . .
p. 35
13
Conjunto de características Haar expandido. . . . . . . . . . . . . . . .
p. 37
14
Distribuição em camadas das diversas células constituintes da retina hu-
BENOIT et al., 2010))
mana. (Adaptado de (
. . . . . . . . . . . . . . . .
BENOIT et al., 2010).
15
Visão geral para o modelo proposto por (
16
Diagrama esquemático para o ltro da Equação 3.15.
17
Resumo do método CUS. Fonte: (
p. 39
. . . . .
p. 40
. . . . . . . . . .
p. 42
. . . . . . . . . . .
p. 44
18
Relação conitante entre revocação e precisão. . . . . . . . . . . . . . .
p. 47
19
Demonstração do uxo ótico nas bordas de objetos em movimento . . .
p. 51
20
Percepção de cor, textura e forma através do contraste
. . . . . . . . .
p. 53
21
Saída do modelo de atenção estática
. . . . . . . . . . . . . . . . . . .
p. 54
AVILA et al., 2011)
22
Saída do modelo de atenção estática para cenas naturais
23
Representação em perspectiva e sobre o plano XY para a Equação 4.5
com
A = 1, σx = σy = 1.
. . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
24
Interconexão das cascatas de classicação de faces
. . . . . . . . . . .
25
Demonstração da saída do modelo de detecção de faces e a validação por
redundância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
p. 57
p. 57
p. 58
Exemplos de curvas de saída para os Modelos de Atenção Dinâmica,
Estática e Baseada em Faces, respectivamente
27
p. 55
. . . . . . . . . . . . . .
p. 60
Curva de atenção criada a partir das curvas das Figuras 26(a) à 26(c)
com
wd = 0.50, ws = 0.25
e
wf = 0.25.
. . . . . . . . . . . . . . . . . .
p. 62
28
Envelope e detalhe do envelope da Curva de Atenção Visual da Figura 27. p. 62
29
Quadros-chave detectados pelo método proposto.
30
Exemplos de quadros-chave selecionados para a Curva de Atenção Visual
da Figura 27.
. . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zoom-In ).
p. 63
p. 63
31
Operação de Ampliação (
. . . . . . . . . . . . . . . . . . . .
p. 66
32
Mudança de Cenário. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 66
33
Movimentação da Câmera. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 67
34
Variação do parâmetro
CU SA .
. . . . . . . . . . . . . . . . . . . . . . .
p. 71
35
Variação do parâmetro
CU SE .
. . . . . . . . . . . . . . . . . . . . . . .
p. 72
36
Variação da razão dos parâmetros
CU SA
e
CU SE .
. . . . . . . . . . . .
p. 72
Lista de Tabelas
1
Principais parâmetros da abordagem proposta para a execução dos experimentos.
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Métricas de desempenho para o conjunto de vídeos de teste dos dias
23/01/2012, 24/01/2012 e 26/01/2012.
3
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
p. 69
p. 70
Comparação dos valores médios das métricas de desempenho obtidas pelo
método de Souza e pelo método proposto.
6
p. 68
Métricas de desempenho para o conjunto de vídeos de teste dos dias
01/02/2012, 02/02/2012 e 03/02/2012.
5
. . . . . . . . . . . . . . . . . .
Métricas de desempenho para o conjunto de vídeos de teste dos dias
30/01/2012 e 31/01/2012.
4
p. 66
Comparação das médias das métricas
. . . . . . . . . . . . . . . .
CU SA
e
CU SE
p. 70
para os diversos
métodos de sumarização. . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 71
Lista de Abreviaturas e Siglas
AD
Análise do Discurso
CEDOC
TV
Centro de Documentação
Televisão
SC Superior Colliculus
LGN Lateral Geniculate Nucleus
V1 Primary Visual Cortex
IT Infero Temporal Cortex
MT Middle Temporal Area
PP Posterior Parietal Cortex
VOCUS Visual Object detection with a CompUtational attention System
MVF Motion Vector Field
UP
Unidade de Percepção
MEC
Modelo de Extração de Características
CBVR Content Based Video Retrieval
Sumário
1 Introdução
p. 10
1.1
Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 12
1.2
Denição do Problema de Pesquisa
. . . . . . . . . . . . . . . . . . . .
p. 13
1.3
Objetivos: Geral e Especícos . . . . . . . . . . . . . . . . . . . . . . .
p. 14
1.4
Organização do Documento
p. 16
. . . . . . . . . . . . . . . . . . . . . . . .
2 Trabalhos Relacionados
p. 17
2.1
Modelos de Atenção Visual . . . . . . . . . . . . . . . . . . . . . . . . .
p. 17
2.2
Sumarização Automática de Vídeos . . . . . . . . . . . . . . . . . . . .
p. 19
3 Fundamentação Teórica
3.1
p. 22
Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual .
p. 22
3.1.1
O Sistema Visual Humano . . . . . . . . . . . . . . . . . . . . .
p. 24
3.1.2
Atenção visual
p. 25
3.1.3
Modelos de Atenção Visual
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
p. 27
3.2
Fluxo Ótico
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 28
3.3
Detecção de Faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 31
3.4
Extração de Características
. . . . . . . . . . . . . . . . . . . . . . . .
p. 36
3.5
Um Modelo Bio-Inspirado no Sistema Visual Humano . . . . . . . . . .
p. 39
3.6
Metodologias de Avaliação dos Quadros Chaves
. . . . . . . . . . . . .
p. 42
3.7
Biblioteca OpenCV . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 45
3.8
Qt Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 45
3.9
Métricas de Avaliação de Desempenho
. . . . . . . . . . . . . . . . . .
p. 46
3.9.1
Revocação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 47
3.9.2
Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 47
3.9.3
Métrica F1
p. 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Metodologia
p. 49
4.1
Modelo de Atenção Dinâmica
. . . . . . . . . . . . . . . . . . . . . . .
p. 50
4.2
Modelo de Atenção Estática . . . . . . . . . . . . . . . . . . . . . . . .
p. 52
4.3
Modelo de Atenção Baseado em Faces . . . . . . . . . . . . . . . . . . .
p. 56
4.4
Construção da Curva de Atenção Visual
. . . . . . . . . . . . . . . . .
p. 59
4.5
Extração dos Quadros-Chave . . . . . . . . . . . . . . . . . . . . . . . .
p. 61
5 Resultados Experimentais
5.1
5.2
Conjunto de Vídeos do CAPTE
p. 64
. . . . . . . . . . . . . . . . . . . . . .
p. 64
5.1.1
Preparação do Conjunto de Testes do CAPTE . . . . . . . . . .
p. 65
5.1.2
Processamento do Conjunto de Testes . . . . . . . . . . . . . . .
p. 66
5.1.3
Avaliação dos Resultados dos Vídeos do CAPTE . . . . . . . . .
p. 67
Conjunto de Vídeos do
5.2.1
Open Video Project
. . . . . . . . . . . . . . . .
Efeito da Variação da Quantidade de Quadros Chave
. . . . . .
6 Conclusões e Trabalhos Futuros
p. 69
p. 71
p. 73
6.1
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 73
6.2
Resultados da Base de Vídeos do CAPTE
p. 74
6.3
Resultados da Base de Vídeos do
. . . . . . . . . .
p. 74
6.4
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 74
Referências
. . . . . . . . . . . . . . . .
Open Video Project
p. 76
10
1
Introdução
O aumento na capacidade de processamento, armazenamento e transmissão de dados,
bem como a diminuição dos custos de equipamentos para estas aplicações têm contribuído
para atender à crescente demanda por conteúdo multimídia em diversos segmentos da sociedade. Entretanto, o aumento desta demanda traz consigo a necessidade de sistemas de
informações (multimídia) capazes de armazenar, gerenciar, recuperar e exibir tal conteúdo
de forma eciente. Esta demanda é particularmente elevada em se tratando de emissoras
PEREIRA, 2012; LI et al., 2011; SABINO, 2011; FURINI et al., 2010; PETRELLI;
de televisão (
AULD, 2008).
No caso das emissoras de televisão, este conteúdo é de grande relevância, visto que
constitui a base de novas tecnologias como a TV interativa e serviços como portais da
WEB para acesso a programações.
Este interesse é comprovadamente real, a exemplo
British Broadcasting Corporation ),
da rede britânica BBC (
conferências sobre o assunto (
que tem apoiado diversas
SANTOS, 2004).
Para alguns países, este acervo de conteúdo multimídia é considerado de grande valor econômico e cultural - pois além de fatos históricos do próprio país que são documentados
sob diversos pontos de vista, o dia a dia da nação também é documentado. Porém, apesar
de possuir um imenso valor, o acesso a este conteúdo é rudimentar e limitado, pois na
maioria das vezes as descrições sobre seus conteúdos se limitam a títulos e sinopses curtas
(
SABINO,
2011;
BARRETO,
2007;
SILVA,
2005).
Considerando este contexto, encontra-
se na literatura, grandes esforços para o desenvolvimento de ferramentas computacionais
(sistemas de informação multimídia) ecientes, no sentido de serem capazes de armazenar,
HANNON et
indexar, recuperar e exibir tais informações multimídia, em especial vídeos (
al., 2011; DIMITROVA et al., 2002).
No Brasil, o depósito legal se restringe apenas à produção escrita, sendo que as emissoras de TV nacionais mantêm Centros de Documentação (CEDOC) privados (conforme
Figura 1), os quais gerenciam e distribuem os conteúdos produzidos pelas emissoras de
1 Introdução
11
Figura 1: Estrutura de um CEDOC privado.
forma a satisfazer apenas os interesses destas últimas. Conforme a legislação brasileira
o
de direitos autorais (Lei Federal n
9610/98), a transmissão audiovisual televisiva é de
domínio público apenas no momento da transmissão (
SABINO, 2011; SILVA, 2005).
Neste
sentido, para dar suporte aos trabalhos de pesquisadores do sistema televisivo do Brasil,
bem como propor meios e contribuir para a preservação do patrimônio audiovisual brasileiro, o Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) do CEFET-MG tem
desenvolvido um sistema de informação multimídia que funciona como ferramenta de
PEREIRA,
apoio à análise discursiva e recuperação de vídeos televisivos (
2012;
SABINO, 2011).
2012;
SOUZA,
No sistema mantido pelo CAPTE, recursos de arquivamento, clas-
sicação e descrição do material audiovisual coletado - conforme Termo de Cooperação
Técnica entre o CEFET-MG e o canal aberto Rede Minas - são disponibilizados para pes-
LIMA et al., 2010; PEREIRA et al., 2010; SABINO; SILVA; PÁDUA, 2010b; SABINO;
SILVA; PÁDUA, 2010a).
quisadores (
Em sistemas do tipo mantido pelo CAPTE, a sumarização automática de vídeos se
apresenta como uma etapa preliminar de fundamental importância para recuperação de
vídeos por conteúdo (do inglês
content-based video retrieval, CBVR ).
A etapa de suma-
rização é determinante para a recuperação de vídeos, visto que esta se dá por meio de
mecanismos de indexação que só são ecientes se a etapa de sumarização também for
eciente (
BERTINI; BIMBO; PALA, 2001).
Uma sumarização concisa e informativa permite ao usuário conhecer rapidamente o
conteúdo global do vídeo e então decidir se o conteúdo é de seu interesse ou não. Entretanto, sumarizar um vídeo de forma eciente pode requerer um profundo conhecimento
de seu conteúdo semântico, o que diculta ainda mais a implementação de algoritmos que
realizam esta tarefa automaticamente, necessitando assim de técnicas avançadas de visão
1.1 Motivação
12
computacional, processamento de imagens, reconhecimento de padrões e algoritmos de
aprendizado de máquinas (
MA et al., 2002b).
É comum na literatura classicar os resumos gerados por métodos automáticos em
TRUONG; VENKATESH, 2007):
duas classes principais, a saber (
•
key-
Resumos estáticos: aqueles cujo produto nal é um conjunto de quadros-chave (
frames ) do vídeo original.
•
Resumos dinâmicos:
aqueles cujo produto nal é um conjunto de segmentos do
vídeo original, unidos por transições abruptas ou graduais, compondo um
clip
com
duração signicativamente inferior ao vídeo original.
As técnicas para sumarização automática de vídeos são em geral classicadas de acordo
TRUONG; VENKATESH, 2007): o gênero dos vídeos, a dura-
com cinco aspectos principais (
ção do resumo, as etapas do processo, os mecanismos e as características escolhidas. Em
geral, independentemente dos aspectos considerados, essas técnicas são fortemente dependentes de características semânticas, necessitando frequentemente de sosticadas heurísticas computacionais para a determinação destas características.
Outras abordagens
utilizando características de baixo nível como histograma de cores e transições abruptas
MA et
também têm sido propostas, entretanto, sem correlação com a percepção humana (
al., 2005; MA et al., 2002b).
1.1 Motivação
Nos últimos tempos, tem-se observado na literatura a frequente proposição de novos
métodos e técnicas para a obtenção de informações que se baseiam em imagens e áudio.
Observa-se o desenvolvimento de técnicas cada vez mais sosticadas para este processamento, bem como a indexação e recuperação destas informações multimídia.
Estas
técnicas são importantes para assegurar o sucesso de diversos serviços, principalmente
aqueles que dizem respeito à produção de conteúdo original.
Uma das chaves para o armazenamento e recuperação ecientes de informações multimídia é a indexação de seu conteúdo, isto é, como recuperar de forma efetiva informações
importantes dos vídeos. Num primeiro momento, aparecem as técnicas baseadas em histograma de cores e características visuais simples, as quais se mostraram inecientes do
ponto de vista da percepção humana. Num segundo momento, destacam-se as técnicas
baseadas em análise semântica, entretanto, o completo entendimento semântico das cenas
1.2 Denição do Problema de Pesquisa
13
é virtualmente impossível para os sistemas computacionais atuais, principalmente devido
a sua complexidade, a quantidade de informações geradas e até mesmo pela diversidade
de gêneros de vídeos existentes.
Entretanto, observa-se no dia a dia do homem a facilidade com que seu sistema visual
processa e seleciona as informações mais relevantes, fazendo com que tarefas como a
identicação de rostos, objetos, dentre outras, sejam efetuadas de forma efetiva e rápida,
e por m, permitindo que o homem interaja com o ambiente que o cerca.
Estas observações levantam questões: como o cérebro humano consegue processar as
imagens captadas pelos olhos tão ecientemente? A resposta à estas questões remetem
ao sistema de atenção visual humano, o qual é capaz de selecionar e direcionar o foco da
visão para as regiões mais importantes da cena, diminuindo assim a quantidade de informações a serem processadas. Uma vez tendo compreendido, ainda que supercialmente,
o funcionamento deste sistema de atenção visual, é possível imitá-lo e então utilizá-lo,
por meio de um sistema computacional, para distinguir trechos mais importantes dentro
de uma mesma cena e, dessa forma, sumarizar automaticamente vídeos?
Utilizar esta
abordagem bio-inspirada é computacionalmente viável?
Visando responder estas questões e dar suporte aos trabalhos de pesquisa sobre a televisão brasileira (e outros que utilizem vídeos), além de preservar a memória audiovisual
brasileira, este trabalho propõe um método para a sumarização de vídeos de programas
televisivos por meio do desenvolvimento de um modelo de atenção visual, estando diretamente relacionado aos trabalhos realizados pelo Centro de Apoio à Pesquisas Sobre
Televisão (CAPTE) do CEFET-MG, o qual vem desenvolvendo um sistema de informações multimídia para tais propósitos.
1.2 Denição do Problema de Pesquisa
Este trabalho aborda o desenvolvimento de um modelo computacional de atenção visual para a sumarização automática de vídeos televisivos a ser aplicado em um sistema de
informação multimídia do Centro de Apoio à Pesquisas Sobre Televisão do CEFET-MG.
Devido ao amplo espectro de gêneros televisivos tratados, como lmes de ação, musicais, lmes de terror, comédias de situação, shows, programas informativos, telenovelas,
TONDATO, 2009),
dentre outros (
o método proposto pode ser considerado genérico sob
este aspecto, visto que não há nenhuma diferenciação ou heurística especíca para cada
gênero.
1.3 Objetivos: Geral e Especícos
14
Dada a expressiva carga semântica embutida neste tipo de conteúdo e o fato de que
a fronteira entre diversos gêneros é tênue, a especialização de heurísticas para os diversos
gêneros tem se mostrado ineciente do ponto de vista da sumarização automática de vídeos
televisivos (
SOUZA,
2012;
MA et al.,
2005).
Além disso, muitas técnicas convencionais
propostas (como assinaturas visuais e histograma de cores) esbarram no problema da
percepção humana, fazendo com que a qualidade do resumo gerado que comprometida.
Por outro lado, a utilização de resumos estáticos (quadros-chave) com pouco comprometimento com a carga semântica do vídeo original como entrada para algoritmos de
indexação pode prejudicar o acesso a objetivos informacionais por parte dos usuários,
uma vez que a informação semântica relevante poderá não estar presente nos resultados
das buscas realizadas.
Neste sentido, o uso de modelos computacionais de atenção visual torna-se um meio
atrativo para a geração de quadros-chave, pois são mecanismos auto-contidos no sentido
de que não dependem necessariamente de características semânticas, as quais são difíceis
de extrair, ao mesmo tempo em que podem indiretamente destacá-las. A Figura 2 fornece
uma visão geral sobre a metodologia proposta:
um vídeo de interesse é submetido ao
modelo de atenção visual, o qual irá analisá-lo quadro a quadro, extraindo características
visuais e quanticando-as.
As características individuais são fundidas em um processo
apropriado e uma curva de atenção visual é gerada. Os quadros-chave são então extraídos
a partir da detecção dos picos da curva de atenção visual e então enviados ao banco de
dados multimídia que irá indexá-los e disponibilizá-los para a web a partir do portal do
CAPTE.
Assim, visando dar suporte aos trabalhos de pesquisa sobre a televisão brasileira e
outros que utilizem vídeos (ou conjuntos de imagens), além de contribuir para a preservação e recuperação da memória audiovisual nacional, este trabalho aborda a sumarização
automática de vídeos por meio de modelos computacionais de atenção visual. O escopo
deste trabalho vai de encontro às atividades desenvolvidas pelo CAPTE do CEFET-MG.
1.3 Objetivos: Geral e Especícos
O objetivo geral deste trabalho consiste em propor e desenvolver um método ecaz
para a resolução do problema de sumarização automática de vídeos de programas de televisão no contexto do sistema de informação multimídia do CAPTE. O método proposto
será independente de informações semânticas, dada a natureza variável de vídeos tele-
1.3 Objetivos: Geral e Especícos
15
Figura 2: Visão geral da metodologia proposta.
visivos.
Para dar suporte a este método, um modelo computacional de atenção visual
será proposto e desenvolvido. Os resumos gerados automaticamente deverão ter conteúdo
semântico relevante, representativo e conciso.
Por meio deste trabalho, objetiva-se gerar os seguintes produtos nais:
(i)
resultados
de pesquisa que contribuam de forma signicativa para o avanço da área em questão, com
a consequente geração de publicações e patentes; e
(ii)
disseminação de conhecimentos
para a sociedade.
Para tanto, serão perseguidos os seguintes objetivos especícos:
•
Pesquisar e entender os mecanismos do cérebro humano para o direcionamento da
atenção visual;
•
Pesquisar e implementar modelos matemáticos e computacionais que buscam imitar
o processo de decisão do cérebro no que diz respeito ao direcionamento visual e
quanticar o grau de atenção;
•
Pesquisar e aplicar algoritmos para detecção de objetos e regiões de alto interesse
em imagens;
1.4 Organização do Documento
•
16
Pesquisar e aplicar algoritmos de agrupamento para a remoção de redundância entre
os quadros-chave ou segmentos do vídeo;
•
Selecionar e aplicar um modelo de avaliação que permita quanticar a qualidade do
resumo de vídeo gerado e comparar o resultado com os encontrados na literatura;
•
Analisar a qualidade dos resumos formados a partir do uso de características espaciais e espaço-temporais.
1.4 Organização do Documento
Este trabalho está organizado em sete capítulos, incluindo o presente capítulo 1 de
introdução.
No Capítulo 2 são apresentados os trabalhos que se relacionam ao tema
abordado por este, apresentando o estado da arte, além das críticas aos resultados, contribuições e abordagens. São tecidas ainda relações com o presente trabalho.
No Capítulo 3, apresenta-se a fundamentação teórica da metodologia utilizada para
o desenvolvimento do modelo de atenção visual aqui proposto. O Capítulo 4 apresenta a
metodologia utilizada para o desenvolvimento do trabalho, bem como para a elaboração
e realização dos experimentos de validação do modelo proposto.
Os resultados experimentais obtidos são apresentados no Capítulo 5.
Por m, no
Capítulo 6 são apresentadas conclusões gerais sobre o trabalho desenvolvimento, bem
como disserta-se sobre outras aplicações para o modelo de atenção proposto e trabalhos
futuros.
17
2
Trabalhos Relacionados
Este capítulo apresenta alguns dos principais trabalhos encontrados na literatura, os
quais contribuíram de forma signicativa para o avanço das pesquisas na área e para o
desenvolvimento deste trabalho. Os trabalhos aqui referidos podem ser divididos em dois
grupos distintos:
(i)
trabalhos relacionados à modelos de atenção visual e
(ii)
trabalhos
relacionados à sumarização automática de vídeos, seja ela dinâmica ou estática. Este trabalho combina trabalhos de ambos os grupos, conforme ilustrado na Figura 3. Para todos
os trabalhos apresentados, foram tecidos comentários a respeito dos métodos utilizados e
dos resultados, visando apresentar e contextualizar o estado da arte.
O primeiro grupo, abordado na Seção 2.1, apresenta os trabalhos que utilizaram, de alguma forma, modelos de atenção visual para aplicações diversas, como pré-processamento
de imagens, compressão, dentre outras.
O segundo grupo, descrito na Seção 2.2, trata
de trabalhos que abordam a temática da sumarização automática de vídeos, utilizando
técnicas convencionais ou heurísticas especializadas para algum gênero de vídeo especíco.
É importante ressaltar que há na literatura uma gama muito grande de trabalhos
que de alguma maneira se relacionam com as áreas abordadas neste trabalho.
Logo,
os trabalhos citados neste capítulo constituem na verdade um subconjunto dos mesmos,
escolhidos por razões de semelhança entre os métodos utilizados e objetivos traçados pelos
autores.
2.1 Modelos de Atenção Visual
Nesta seção são apresentados os trabalhos que utilizam modelos de atenção visual em
aplicações diversas. Estes trabalhos possuem os mais variados intuitos, desde a avaliação
destes modelos, até aplicações especícas como o rastreamento do olhar de um usuário.
Heinen e Engel (
HEINEN; ENGEL, 2009) avaliam o desempenho e robustez de dois mo-
delos de atenção visual publicamente disponíveis: NVT e SAFE, propondo um terceiro
2.1 Modelos de Atenção Visual
18
Figura 3: O presente trabalho propõe o desenvolvimento de uma metodologia para sumarização automática de vídeos televisivos baseada em um modelo de atenção visual.
chamado NLOOK. Os autores avaliam estes modelos quanto a sensibilidade à transformações de similaridade em 2D (reexão vertical e horizontal, rotação, translação e redimensionamento) e conclui que o modelo NVT é mais susceptível a estas transformações que o
modelo NLOOK, justamente pelo fato do último conter mecanismos de redundância para
a detecção das regiões de mais alto grau de atenção. Este trabalho se limitou apenas à
avaliação dos modelos, não dando a eles nenhuma aplicação em especíco.
Uma aplicação para estimação do ponto de vista do espectador, baseada em modelo
HILLAIRE et al., 2010). Neste trabalho,
de atenção visual é proposta por Hillaire et al. em (
os autores propõem um modelo de atenção visual para a estimar a posição do olhar do
jogador em um ambiente de exploração 3D em primeira pessoa. O objetivo do trabalho é
estimar o ponto em que o usuário está olhando sem a ajuda de um sistema de rastreamento
de olhos.
Este modelo foi desenvolvido para ser executado em tempo real, simulando
ainda reexos visuais e processos cognitivos do cérebro humano. Os resultados, segundo
os autores, são signicativamente melhores que as abordagens convencionais.
A aplicação de um modelo de atenção visual para a sumarização de vídeos é feita
LI et al.,
por Li et al (
2010).
Neste trabalho, os autores recorrem a tecnologias sosti-
cadas como recursos de imagem por ressonância magnética para quanticar e modelar
a dinâmica e interação entre conteúdos multimídia e as respostas cerebrais, para em última instância, ajustar um modelo de atenção visual mais eciente para a sumarização
de conteúdo multimídia (áudio e vídeo). Os resultados apontados pelos autores são de
experimentos iniciais e não são conclusivos.
MA et al., 2005), realizou-se uma fusão e extensão
de trabalhos previamente publicados, a saber (MA et al., 2003), (MA et al., 2002a), (MA et
Por m, no trabalho de Ma et al (
2.2 Sumarização Automática de Vídeos
19
al., 2002b), onde os autores também implementam uma série de melhorias.
No
framework
proposto, o modelo de atenção é multimídia, pois leva-se em consideração tanto a percepção auditiva quanto a visual. Além disso, algum entendimento semântico também é
levado em consideração, como a detecção de faces e a movimentação intencional da câmera
de vídeo. Neste modelo, cada quadro do vídeo recebe um valor de atenção a partir de um
mecanismo de fusão dos diversos canais de atenção, construindo-se uma curva de atenção. Em seguida, os picos desta curva de atenção são detectados, os quais representam
os quadros de maior relevância do ponto de vista da atenção do usuário. Estes quadros
são então selecionados como quadros-chave e a partir da análise do canal auditivo e de
heurísticas complexas, o resumo dinâmico é criado.
A avaliação do método proposto é
feita de forma subjetiva pelos autores a partir de formulários de pesquisa aplicados em
20 usuários que assistem ao vídeo original, os resumos dinâmicos e também são expostos
aos quadros-chave. As respostas dos usuários são compiladas e apresentadas.
O trabalho de (
MA et al.,
2005) é o que mais se assemelha à proposta apresentada
neste trabalho. Entretanto, as principais diferenças são:
•
O modelo de atenção por faces proposto utiliza um detector de faces em cascata,
não estocástico e redundante;
•
O cálculo da medida de atenção devido às faces utiliza uma gaussiana bi-dimensional
no lugar de pesos xos;
•
O modelo de atenção estática utiliza um modelo da retina humana para gerar o
mapa de saliências;
•
O modelo de atenção dinâmica proposto estima a movimentação em cena baseandose em uma quantidade variável de pontos de interesse invariantes à escala em cada
quadro;
•
Utiliza-se o envelope da curva de atenção visual para a extração dos quadros-chave;
•
O algoritmo para detecção dos picos da curva de atenção possui um parâmetro de
sensibilidade, fazendo com que quadros muito próximos sejam ignorados.
2.2 Sumarização Automática de Vídeos
Neste grupo, são citados os trabalhos que lidam com a extração de quadros-chave,
referida anteriormente neste trabalho como sumarização estática. Alguns autores classi-
2.2 Sumarização Automática de Vídeos
cam os métodos atuais de extração de quadros-chaves em seis classes (
DIMITROVA et al., 2002):
20
SHAO; JI, 2009;
métodos que utilizam análise de conteúdo visual; métodos que
utilizam análise de movimentação; classicadores não supervisionados; métodos baseados em limiares de movimentação; métodos baseados em transição e por m, métodos
baseados em macro-blocos. Todos estes métodos são baseados em características pouco
relevantes do ponto de vista de análise de atenção visual ou são bastante dependentes de
complexas heurísticas para análise de conteúdo visual.
O trabalho de Mendi e Bayrak (
MENDI; BAYRAK, 2010) consiste num algoritmo para
a extração de quadros-chave baseado na comparação de similaridade entre mapas de saliências gerados a partir de cor e luminância. Os autores propõem um índice chamado
de Similaridade Estrutural, o qual leva em consideração a luminância, contraste e estrutura dos quadros. O mapa de saliência então é utilizado para compor a componente de
estrutura. As observações apontadas pelos autores indicam que os quadros onde ocorrem
transições rápidas e cortes de cenas são evidenciados como picos na curva do índice de
similaridade estrutural. Os resultados dos autores se mostraram superiores que as abordagens tradicionais para vídeos de cirurgia médica, entretanto, não apresentaram resultados
para outros gêneros de vídeo.
Dunlop (
DUNLOP, 2010) dene categorias de interesse para a extração dos quadros-
chave. O método se baseia na determinação de tomadas, a partir do histograma de cores,
onde então, dene-se um espaçamento xo dentro de cada tomada e seleciona-se os quadros
que se encaixam neste espaçamento. Compara-se então o conjunto de quadros selecionados
com uma categoria, determinando assim a maior quantidade de quadros semelhantes à
categoria selecionada. Este método é em sua essência um classicador. Da forma como
foi proposto, o autor tratou apenas uma categoria e não há nenhuma garantia de total
cobertura do vídeo.
Shao e Ji (
SHAO; JI, 2009) propõem um método para extração de quadros-chave que
retratam movimentação de objetos, entretanto esta movimentação deve ser de grande
amplitude e rápida. O autor utilizou uma análise através de uxo ótico para quanticar
a movimentação na cena e então, numa etapa posterior, selecionar picos numa curva
de entropia, a qual é calculada com base num histograma de vetores do campo vetorial
resultante do uxo ótico. Em seguida, o autor aplica um método de comparação, chamado
de
inter-frame, para comparar os picos selecionados na curva de entropia e então eliminar
redundâncias. Os resultados apresentados pelos autores foram satisfatórios em vídeos com
certa movimentação, de forma a polarizar o método, privilegiando quadros que apresentam
2.2 Sumarização Automática de Vídeos
21
maior movimentação, em detrimento de quadros mais estáticos.
DOULAMIS et al., 1999), os autores propuseram um
No trabalho de Doulamis et al. (
método estocástico para a extração de quadros-chave, baseado numa heurística de minimização da correlação-cruzada entre quadros, entretanto, diretamente no domínio MPEG,
onde os quadros são comprimidos. Primeiramente, o autor converte cada quadro em um
descritor de características do quadro (o descritor é gerado por meio de uma abordagem
fuzzy
para análise de conteúdo) e então, utilizando-se uma heurística para a minimização
da correlação cruzada, são selecionados os quadros-chave. Os autores relatam que obtiveram um bom desempenho, entretanto, por utilizar abordagens de análise de conteúdo e
heurísticas de otimização, o método se apresenta com características não determinísticas.
22
3
Fundamentação Teórica
Neste capítulo são apresentados alguns dos principais conceitos, métodos e ferramentas
tecnológicas que dão suporte ao desenvolvimento do modelo de atenção visual proposto
neste trabalho, bem como sua implementação computacional.
3.1 Sistema Visual Humano, Atenção Visual e Modelos
de Atenção Visual
A visão é sem dúvida o mais importante dos cinco sentidos humano, uma vez que
mais de 90% das informações que o cérebro recebe do mundo exterior vem dela.
Seu
objetivo principal é interpretar e interagir com o ambiente no qual se vive. No dia a dia,
um ser humano é capaz de perceber centenas de objetos, reconhecer dezenas de rostos,
identicar placas de trânsito e ler diversas coisas (
OUERHANI, 2003).
A facilidade com
que executa-se estas tarefas não é devido a simplicidade das mesmas, mas sim, devido ao
alto grau de desenvolvimento do sistema de visão humano.
Sistemas de visão computacional inspirados no sistema visual humano têm se apresentado como uma alternativa atraente e promissora para os diversos problemas da área.
Neste cenário, frequentemente, pesquisadores se deparam com a seguinte questão: Quais
os mecanismos da visão tornam as coisas tão simples para humanos e tão difíceis para
máquinas?.
Pesquisas indicam que o mecanismo de atenção é, sem dúvida, uma das
FRINTROP; ROME; CHRISTENSEN, 2010; OUERHANI, 2003).
peças chave neste processo (
A
atenção visual se refere a habilidade dos sistemas de visão em rapidamente selecionar as
partes mais salientes e as mais importantes em uma dada cena. Em última instância, o
objetivo principal da atenção visual é reduzir a quantidade de informações que precisam
ser processadas por níveis mais sosticados como o reconhecimento de faces, símbolos e
objetos.
Um modelo de atenção visual captura o comportamento do sistema visual primário
3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual
23
de um ser, seja ele humano ou não. Estes modelos, em geral, descrevem e tentam imitar,
explicar ou estimar alguns ou todos os mecanismos de atenção visual utilizados pelo
cérebro. Podem ser implementados utilizando-se linguagem natural, diagramas de blocos,
equações matemáticas ou mesmo algoritmos computacionais (
TSOTSOS; ROTHENSTEIN,
2011).
Baseado em conceitos do sistema visual humano, um modelo computacional de atenção visual busca detectar regiões de interesse em imagens. Psicólogos, neurocientistas e
cientistas da computação têm feito um grande esforço para investigar, modelar, simular
e avaliar os mecanismos do cérebro humano para a atenção visual durante as últimas
décadas.
Dada a interdisciplinaridade do assunto, torna-se complexo modelar e denir
todo o mecanismo em apenas um modelo (
FRINTROP; ROME; CHRISTENSEN, 2010).
A motivação para estes estudos é clara e se deve basicamente a dois fatores.
Pri-
meiramente, existe um grande interesse em compreender a capacidade perceptiva dos
seres humanos, ou seja, a capacidade de selecionar, processar e agir de forma distinta a
experiências sensoriais visuais. Em segundo, a necessidade de reduzir a quantidade de informações sensoriais que chegam a qualquer sistema, seja ele biológico ou computacional,
pela seleção de partes do impulso sensorial. Apesar das motivações parecerem distintas,
as conclusões são sempre as mesmas: reduzir a quantidade de informação recebida para
executar alguma tarefa (
TSOTSOS; ROTHENSTEIN, 2011; OUERHANI, 2003).
Na ótica da ciência da computação, estes modelos têm sido amplamente utilizados
por sua capacidade de diminuir drasticamente a quantidade de informação necessária ao
processamento de imagens (
TSOTSOS; ROTHENSTEIN, 2011; FRINTROP; ROME; CHRISTEN-
SEN, 2010). É sabido que sistemas de visão computacional utilizam boa parte dos recursos
computacionais apenas para detectar e segmentar as regiões que efetivamente contribuem
para o objetivo nal da aplicação.
Isto se deve principalmente a alta carga semântica
FRINTROP; ROME; CHRISTENSEN,
intrínseca as imagens processadas por tais sistemas (
2010). Assim, um modelo computacional de atenção visual por si só é capaz de reduzir a
carga semântica pela seleção de regiões de interesse e consequentemente a quantidade de
informação a ser processada por tais sistemas de visão computacional.
De fato, o mais importante desses modelos são as suposições e princípios assumidos
para fornecer a explicação e extensão dos fatos ou fenômenos de interesse (
ROTHENSTEIN,
2011;
OUERHANI,
2003).
TSOTSOS;
Estes princípios, em geral de natureza bioló-
gica, não serão detalhados neste trabalho. Para uma leitura mais abrangente a respeito
destes princípios, recomenda-se a leitura dos seguintes trabalhos: (
BROADBENT, 1958),
3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual
24
DEUTSCH; DEUTSCH, 1963), (TREISMAN, 1964), (TREISMAN; GELADE, 1980), (WOLFE;
CAVE; FRANZEL, 1989), (BALLARD, 1991), (DESIMONE; DUNCAN, 1995), (CAVE, 1999),
(TREUE; MARTINEZ-TRUJILLO, 1999), (KNUDSEN, 2007), (GROSSBERG, 1982) e (TSOTSOS, 1990).
(
Vale ressaltar que esta seção não tem a intenção de realizar uma revisão detalhada
sobre o sistema visual humano, mas sim de propiciar apenas uma visão geral sobre os
mecanismos do sistema visual e assim entender porque seres humanos precisam de um
sistema de atenção visual.
Aspectos sobre a siologia e neurologia do funcionamento
desses sistemas são mais bem detalhados em (
BLAKE, 1990).
3.1.1
BOUCART; HENA; BELIN, 1998) e (SEKULER;
O Sistema Visual Humano
A atenção visual é basicamente um mecanismo biológico usado essencialmente por
primatas, numa tentativa de compensar a falta de recursos do cérebro em processar grandes quantidades de informação visual capturada pelos olhos. A luz que incide nos olhos é
projetada numa região chamada retina, de onde a informação visual é transmitida através
do nervo ótico para o quiasma ótico (do inglês
optic chiasm )
e deste para duas regiões
diferentes do cérebro: para os núcleos geniculados laterais (LGN, do inglês
Lateral Geni-
culate Nucleus ), que correspondem a uma parte do tálamo; e para o colículo superior (SC,
do inglês Superior Colliculus ) (PALMER, 1999; KANDEL; SCHWARTZ; JESSELL, 1996).
Cada um destes dois caminhos principais do uxo de informações visuais recebem
nomes especícos: a via retino-genicular e a via retino-colicular. O primeiro é responsável
por cerca de 90% do uxo de informações visuais e o segundo pelos 10% restantes, os
quais são por suas vez associados ao sistema de atenção visual e a movimentação do olho
(
OUERHANI, 2003; DESIMONE et al., 1990).
A Figura 4 ilustra a estrutura citada.
A partir do LGN, a informação é então transferida para o córtex visual primário
(V1, do inglês
primary visual cortex ).
Neste caminho, algumas informações primárias
são processadas e a partir de V1 as informações visuais são transmitidas para as regiões
ditas altas: V2V4, córtex infero-temporal (IT, do inglês
área
middle temporal area ) e o córtex parietal-posterior
posterior parietal cortex ) (BOUCART; HENA; BELIN, 1998). Este uxo de
temporal-medial (MT ou V5, do inglês
(PP, do inglês
infero temporal cortex ),
processamento é esquematizado na Figura 5.
3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual
Figura 4: Estrutura do sistema visual humano. Adaptado de (
3.1.2
25
OUERHANI, 2003).
Atenção visual
Segundo Aristóteles é impossível perceber dois objetos simultaneamente num mesmo
estímulo sensorial , porém, no dia a dia, tem-se a impressão de uma representação do
mundo visual rica e que mudanças signicativas no ambiente irão atrair atenção humana.
Entretanto, vários estudos revelam que esta habilidade de detectar mudanças é normal-
FRINTROP; ROME; CHRISTENSEN, 2010).
mente superestimada (
Na prática, somente pequenas regiões de uma cena são analisadas em cada instante
de tempo. A região em análise em um dado momento é a região em que presta-se atenção
naquele momento. Isto signica que regiões que não estão sendo analisadas são ignoradas,
SIMONS; LEVIN, 1997).
como demonstrado nos experimentos relatados em (
Nestes expe-
rimentos, Simons e Levin alteram signicativamente uma cena, entretanto, o observador
não percebe as alterações. Neste sentido, a razão pela qual o seres humanos são ecientes
em seu dia a dia, é que conseguem detectar regiões de interesse em seu meio e avaliar a
cena como um todo rapidamente alterando o foco de sua atenção.
O conceito do mecanismo descrito anteriormente é chamado de atenção seletiva e se
refere à habilidade mental de selecionar estímulos, memórias e pensamentos que são comportamentalmente relevantes, em detrimento de outros irrelevantes (
CHRISTENSEN, 2010).
FRINTROP; ROME;
Este conceito pode ser dividido em dois tipos de atenção, a saber:
•
Explícita, do inglês covert attention, a qual diz respeito ao ato de focar explicita-
3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual
26
Figura 5: Fluxo de sinais do sistema visual humano.
mente uma região de interesse;
•
Implícita,
do inglês
overt attention,
que se refere ao ato de prestar atenção em
regiões periféricas, sem movimentar os olhos.
DEUBEL; SCHNEIDER, 1996) mostram que a atenção implícita e a
Deubel e Schneider (
atenção explicita são indissociáveis, de forma que não é possível prestar atenção em uma
região e movimentar os olhos para outra.
Existem duas categorias principais para classicar os fatores que direcionam a atenção:
bottom-up factors e top-down factors (FRINTROP; ROME; CHRISTENSEN, 2010; DESIMONE;
DUNCAN, 1995). Os bottom-up factors são também chamados de exógenos ou reexivos
pois estes são salientes, no sentido de que são sucientemente distindos do ambiente que
os rodeiam.
Já os
top-down factors
levam em consideração fatores cognitivos como o
conhecimento, expectativas e metas instantâneas. Se você estiver procurando uma caneta
azul dentro de um estojo, regiões azuis irão atrair mais a sua atenção do que as demais.
visual search ),
Por m, deve-se citar a ferramenta da busca visual (
portante ferramenta em pesquisas sobre atenção visual (
TSOTSOS, 1990).
que é uma imA busca visual
se resume em responder a seguinte pergunta: dado um objeto e uma imagem de teste,
o objeto está presente na imagem de teste? O cérebro humano executa esta operação o
TSOTSOS, 1990) provou que, se a
tempo inteiro, em todos os dias de sua vida. Tsotsos (
3.1 Sistema Visual Humano, Atenção Visual e Modelos de Atenção Visual
27
Figura 6: Estrutura genérica de um modelo de atenção visual.
região de busca não for limitada, este é um problema que não possui solução em tempo
aceitável (é um problema NP-completo), ao passo que, se a região de busca for limitada,
então, o mesmo pode ser resolvido em tempo linear, novamente justicando o mecanismo
de atenção visual.
3.1.3
Modelos de Atenção Visual
Os objetivos de um modelo de atenção visual são explicar e entender melhor a percepção visual humana. Diversas teorias e modelos foram propostos para este feito. Bundesen
BUNDESEN; HABEKOST,
e Habekost (
2005) apresentam uma revisão sobre o estado da
BUNDESEN;
arte destes métodos. Dentro da revisão proposta por Bundesen e Habekost (
HABEKOST,
2005), as teorias que mais inuenciam as implementações computacionais
Feature Integration Theory proposta por
Gelade (TREISMAN; GELADE, 1980) e Guided Search Model (WOLFE, 1994).
de sistemas de atenção visual são
Treisman e
Em termos computacionais, modelos de atenção visual têm uma estrutura muito similar (Figura 6): a ideia central é calcular um conjunto de características em paralelo, para
então fundi-las em uma representação chamada mapa de saliências. Em geral, as características são cor, intensidade, orientação, movimento, profundidade (em caso de cenas 3D),
faces, gestos, dentre outras (
FRINTROP; ROME; CHRISTENSEN, 2010; ITTI; KOCH, 2001).
Dentre os principais modelos computacionais de atenção visual, pode-se citar o modelo
KOCH; ULLMAN, 1985), o modelo de Clark e Ferrier (CLARK; FERRIER,
1988), o modelo de Milanese (MILANESE et al., 1994; MILANESE, 1993), o modelo de Tsotsos
(TSOTSOS, 1990), o modelo NVT de Itti (ITTI; KOCH, 2001), o sistema de atenção de
Hamker (HAMKER, 2005; HAMKER, 2006) e o sistema VOCUS de Frintrop (FRINTROP;
KLODT; ROME, 2007). A maioria destes modelos computacionais de atenção visual se
baseiam nos trabalhos de Treisman (TREISMAN; GORMICAN, 1998; TREISMAN; GELADE,
de Koch e Ullman (
3.2 Fluxo Ótico
28
1980) e seus colegas.
O modelo de atenção visual proposto neste trabalho é inspirado nos trabalhos pro-
MA et al., 2003; MA et al., 2002a; MA et al., 2002b) e seus colegas, os quais
postos por Ma (
são descritos na seção 2.1.
3.2 Fluxo Ótico
Um clássico problema do processamento de sequências de imagens por computador é
o cálculo do uxo ótico (do inglês
optical ow
ou
optic ow ),
como uma estimação da movimentação em uma cena.
o qual pode ser entendido
O uxo ótico é na realidade a
projeção das velocidades de pontos em uma superfície 3D em um plano 2D: o plano de
BRADSKI; KAEHLER, 2008; BEAUCHEMIN; BARRON, 1996).
imagem de uma câmera (
O conceito de uxo ótico começou a ser estudado em meados da década de 1940 pelo
GIBSON, 1950).
psicólogo norte-americano James J. Gibson (
Atualmente, as aplicações
da estimação da quantidade de movimentação em uma cena são as mais variadas possíveis: estimação de propriedades geométricas em cenas 3D; segmentação de movimento;
compensação de disparidades em sistemas de visão estéreo; medição de uxo sanguíneo
em imagens médicas (
BEAUCHEMIN; BARRON, 1996).
A hipótese inicial para o cálculo do uxo ótico é que a luminância em uma pequena
região
(x+δx, y +δy) em torno de um ponto (x, y) de uma cena em movimento permanece
constante, pelo menos por um pequeno instante de tempo
δt.
Formalmente, isto pode ser
BEAUCHEMIN; BARRON, 1996; HORN; SCHUNCK, 1981):
descrito pela Equação 3.1 (
I(x, y, t) ≈ I(x + δx, y + δy, t + δt).
Assumindo-se uma pequena movimentação restrita na imagem
(3.1)
I(x, y, t),
a Equação
3.1 pode ser expandida utilizando-se a série de Taylor, descartando-se os termos que
contém derivadas de ordem elevada, obtendo-se a Equação 3.2:
I(x, y, t) ≈ I(x + δx, y + δy, t + δt) ≈
∂I
∂I
∂I
δx +
δy +
δt + ...
∂x
∂y
∂t
De onde vem:
∂I δx ∂I δy ∂I δt
+
+
= 0,
∂x δt
∂y δt
∂t δt
(3.2)
3.2 Fluxo Ótico
29
Figura 7: A equação de restrição do uxo ótico dene uma linha no espaço da velocidade.
A velocidade normal
V⊥
é denida como um vetor perpendicular à linha de restrição, que
é a velocidade de menor magnitude.
∂I
∂I
∂I
Vx +
Vy +
= 0.
∂x
∂y
∂t
Vx
e
Vy
Ix =
∂I
,
∂x
Onde
lado,
são as componentes do uxo ótico em
Iy =
∂I
e
∂y
It =
x
e
y,
respectivamente. Por outro
∂I
são as derivadas da imagem em
∂t
(x, y, t)
nas respectivas
direções.
Assim, obtém-se a Equação 3.3, que pode ser reescrita em sua forma vetorial conforme
a Equação 3.4.
Vale ressaltar que a Equação 3.4 também é chamada de equação de
restrição do uxo ótico, do inglês
Onde
u
e
∇I
optical ow constraint equation :
Ix Vx + Iy Vy = −It ,
(3.3)
∇I T · V~ = −It ,
(3.4)
é o gradiente de intensidade espacial e
V~
é a velocidade da imagem nas direções
v.
Na Equação 3.4, o uxo ótico é descrito em função das incógnitas
u
e
v,
de forma
que a Equação 3.4 é mal condicionada, ou seja, somente a componente de movimentação
na direção do gradiente local de intensidade, notada por
7).
(
V⊥ ,
pode ser estimada (Figura
Este efeito é conhecido como problema da abertura, do inglês
aperture problem
BEAUCHEMIN; BARRON, 1996; HORN; SCHUNCK, 1981; ULLMAN, 1979), e é ilustrado na
Figura 8.
3.2 Fluxo Ótico
30
Figura 8: Problema da abertura: nas janelas de abertura da linha superior pode-se ver
uma borda movimentando-se da esquerda para a direita.
Entretanto, nas janelas de
abertura da linha inferior, não é possível detectar a movimentação da esquerda para a
direita combinada com a movimentação de cima para baixo.
A partir do problema da abertura, diversos métodos para o cálculo do uxo ótico foram
propostos, os quais podem ser divididos nas seguintes categorias:
(i) métodos diferenciais;
(ii) métodos baseados em frequência; (iii) métodos baseados em correlação e (iv) métodos
baseados em otimização (
BEAUCHEMIN; BARRON, 1996).
Vale ressaltar que a fronteira
entre cada uma das categorias de solução nem sempre são claramente denidas. Cada um
destes métodos possuem aplicações especícas além de vantagens e desvantagens próprias.
Dar-se-á ênfase ao método proposto por Lucas e Kanade (
LUCAS; KANADE, 1981), que é
um método classicado como diferencial.
Os métodos diferencias calculam as velocidades nos diversos pontos da imagem a partir
de derivadas espaço-temporais da luminosidade, assumindo-se assim que o domínio das
imagens é contínuo (ou diferenciável) no espaço e no tempo. Estes métodos ainda podem
ser divididos em
(i)
globais, os quais calculam o chamado uxo ótico denso em grandes
regiões da imagem; ou
(ii)
locais, os quais utilizam informações da velocidade normal
V⊥
na vizinhança local de um ponto de interesse para ajustar uma minimização de erro por
mínimos-quadrados e estimar o valor de
v.
Basicamente, o tamanho da vizinhança para
BRADSKI; KAEHLER,
obter a velocidade estimada determina se a técnica é local ou global (
2008;
BEAUCHEMIN; BARRON, 1996).
O método proposto por Lucas e Kanade (
LUCAS; KANADE, 1981) é um método local,
portanto, parte do pré-suposto de que há padrões de movimentação simples e não há
oclusão, ou seja, o uxo ótico é contínuo.
Por ser local, o método de Lucas e Kanade
precisa de uma janela de abertura e então resolver a Equação 3.4 para o pixel central. Se
a janela for muito grande, viola-se a condição de problemas relacionados à oclusão, e se
a janela for muito pequena, retorna-se ao problema da abertura. Supondo uma janela de
3.3 Detecção de Faces
abertura de
nxn
31
pixels, chega-se a

n2
equações, ou seja, um sistema sobredimensionado:
Ix (p1 ) Iy (p1 )

 Ix (p2 ) Iy (p2 )


.
.
.
.

.
.

Ix (pn ) Iy (pn )
|
{z
An×2

It (p1 )

" #

 u
 It (p2 )


=
−


.
.
 v

.
 | {z }

It (pn )
d2×1
| {z
}







bn×1
A solução proposta por Lucas e Kanade (
do método de mínimos quadrados para
(AT A)d = AT b,
u
e
" P
Ix Ix
P
Ix Iy
P
Ix Iy
P
Iy Iy
{z
LUCAS; KANADE, 1981) é realizada a partir
minkAd − bk2 , o qual é resolvido da forma padrão
obtendo-se então
|
v
mais detalhadamente na Equação 3.5:
#"
u
#
" P
=−
#
.
Iy It
{z
}
|
O sistema na Equação 3.5 só possui solução quando
singular. Na prática,
Ix It
P
v
}
AT A
}
(3.5)
AT b
AT A
é inversível, ou seja, é não
AT A é não singular quando a mesma possui dois auto-valores gran-
LUCAS; KANADE, 1981):
des. Esta é a maior limitação do método de Lucas e Kanade (
o
mesmo só pode ser utilizado em imagens onde o uxo ótico possui intensidade pequena
LAGANIÈRE,
o suciente para caber na janela de abertura (
2008;
LUCAS; KANADE, 1981).
2011;
BRADSKI; KAEHLER,
Diversas melhorias foram feitas a partir da proposta inicial de Lucas e Kanade, as
quais apresentam resultados bastante satisfatórios. As melhorias mais bem sucedidas incluem conceitos de multiresolução, onde grandes movimentações são estimadas em grandes escalas e movimentações pequenas em pequenas escalas (
KAEHLER, 2008).
LAGANIÈRE, 2011; BRADSKI;
3.3 Detecção de Faces
A detecção de faces também é uma das aplicações mais comuns na área da visão
computacional e baseia-se na premissa de que as informações sobre a identicação de
uma pessoa, seu estado e intenções podem ser extraídas de forma tal que computadores
e máquinas reajam de acordo com elas. Dentre os principais desaos em se detectar uma
face numa imagem, pode-se citar (
HJELMAS; LOW, 2001):
3.3 Detecção de Faces
•
32
Posição: a posição da câmera em relação a uma visão frontal, podendo estar rotao
cionado em 180 , escondendo-se assim elementos da face humana;
•
Presença/Ausência de Componentes: a presença ou ausência de características faciais típicas de humanos: barba, bigode, óculos, etc;
•
Expressão: expressões faciais podem alterar a sua aparência;
•
Oclusão: presença de objetos ou regiões de somba que escondem partes da face;
•
Orientação: a rotação da imagem pode afetar diretamente a possibilidade de localização das faces;
•
Condições da Imagem:
parâmetros como luminosidade e qualidade do sensor de
captura inuenciam a interpretação de imagens.
Recorrendo-se às abordagens baseadas no sistema visual humano, pesquisadores têm
buscado características invariantes nas faces humanas. Diversos métodos buscam detectar
estas características invariantes e então inferir a existência de uma face naquela região da
HJELMAS; LOW, 2001).
imagem (
Yang et al. (
YANG; KRIEGMAN; AHUJA, 2002) agrupa-
ram os vários métodos de detecção de face em quatro categorias:
(i)
métodos baseados
knowledge-based methods ); (ii) métodos baseados em características
invariantes (feature invariant approaches ); (iii) métodos baseados em modelos (template
matching methods ) e (iv) métodos baseados em aparência (appearance-based methos ).
em aprendizagem (
Os métodos baseados em aprendizagem usam regras pré-denidas formuladas a partir
do conhecimento humano para detectar uma face.
Já os métodos baseados em carac-
terísticas invariantes buscam por estruturas e características que são invariantes à pose
(rotação e translação) e à luminosidade.
Os métodos que se baseiam em modelos são
aqueles que utilizam um conjunto inicial de modelos de faces para decidir se uma dada
região da imagem é ou não uma face.
Por m, os métodos baseados em aparência (os
quais, em geral apresentam melhor desempenho) são aqueles que aprendem os modelos
ZHANG;
de faces a partir de um conjunto inicial de imagens e então fazem a classicação (
ZHANG, 2010; YANG; KRIEGMAN; AHUJA, 2002).
Dentre os diversos métodos usados para detecção de faces, pode-se destacar o classicador proposto por Viola e Jones (
VIOLA; JONES, 2001a) que é uma abordagem baseada
em técnicas de aprendizagem de máquinas para a detecção de objetos em imagens de
forma extremamente rápida e com altas taxas de acerto.
Vale lembrar que a primeira
3.3 Detecção de Faces
(a) Uma divisão
vertical
33
(b) Uma divisão
horizontal
(c) Duas divisões
verticais
(d) Divisões vertical e horizontal
Figura 9: Características Haar utilizadas originalmente por Viola e Jones.
implementação para o classicador em questão foi exatamente para detecção de faces,
nalidade para a qual o algoritmo apresenta bom desempenho.
O classicador de Viola e Jones (
a saber:
(
(i)
Imagem integral,
(ii)
VIOLA; JONES, 2001a) se baseia em três conceitos,
um algoritmo de aprendizado baseado no
AdaBoost
FREUND; SCHAPIRE, 1995) e (iii) um método para combinar classicadores mais com-
plexos em cascata.
O conceito de Imagem Integral é a base para o bom desempenho do classicador
VIOLA; JONES, 2001a), o qual é motivado principalmente
pelo trabalho (PAPAGEORGIOU; OREN; POGGIO, 1998) que também utiliza características
que lembram as funções de Haar (HAAR, 1910), além de outros ltros mais complexos.
proposto por Viola e Jones (
A Imagem Integral pode ser calculada utilizando-se poucas operações por pixel e uma
vez calculada permite ao classicador ser capaz de detectar as características Haar em
qualquer escala e em tempo constante. As características Haar inicialmente utilizadas por
Viola e Jones são mostradas nas Figura 9(a) a 9(d).
As características de qualquer retângulo podem ser rapidamente calculadas por meio
da Imagem Integral.
abaixo e à esquerda de
A Imagem Integral no ponto
(x, y),
(x, y)
contém a soma dos
pixels
conforme a Equação 3.6. Observe que a Imagem Integral
pode ser calculada por apenas uma passada pela imagem original inteira e que a Imagem
Integral possui dimensões menores que a imagem original:
0
I(x, y) =
x
Onde:
I(x, y)
é a imagem integral no ponto
senta as colunas e
y
0
y
x X
X
i(x0 , y 0 ).
(3.6)
y
(x, y); i(x0 , y 0 )
é a imagem original;
x
repre-
representa as linhas.
Usando este conceito, a soma de qualquer retângulo (veja Figura 10) pode ser calculada utilizando-se quatro pontos de referência para o retângulo e a diferença entre dois
retângulos utilizando-se oito pontos de referência. Mais ainda, se estes retângulos forem
3.3 Detecção de Faces
34
Figura 10: Representação gráca para o cálculo da imagem integral.
adjacentes, somente seis pontos de referência são necessários; se forem três retângulos
necessita-se de oito pontos; e se forem quatro retângulos, nove pontos. Veja as Figuras
9(a), 9(b), 9(c) e 9(d) para melhor entendimento da disposição dos retângulos citados.
Utiliza-se uma variação do
AdaBoost (FREUND; SCHAPIRE, 1995) tanto para selecionar
um pequeno conjunto de características Haar, quanto para treinar o classicador. Viola
VIOLA; JONES,
e Jones (
2001a) perceberam que, apesar da quantidade signicativa de
características Haar extraídas, poucas serviam efetivamente para treinar o classicador,
alterando assim o problema para determinar quais são as melhores características. Um
classicador fraco foi então denido para determinar um único retângulo que melhor
separa os exemplos negativos dos positivos.
Para cada uma das quatro características
utilizadas, o classicador fraco descrito pela Equação 3.7 determina um limiar ótimo para
a função de classicação:
(
hj (x) =
Onde:
hj (x)
1
Se
pj fj (x) < pj θj
0
Caso contrário.
.
(3.7)
é uma medida que representa o resultado da classicação;
característica;
θj
é o limiar para a
j−ésima
característica;
pj
fj
é a
j−ésima
indica o sinal da inequação
3.3 Detecção de Faces
35
Figura 11: Características Haar para uma face qualquer.
e
x
é uma sub-janela da imagem (originalmente de 24x24 pixels). Na prática, uma ca-
racterística apenas não pode exercer a função de classicação com boa taxa de acerto. O
resultado da etapa inicial (classicador fraco) pode ser melhor visualizado na Figura 11.
VIOLA; JONES, 2001a) é signicamen-
O desempenho do classicador de Viola e Jones (
tivamente melhorado através do uso de uma cascata de classicadores, que possui ainda
custo computacional baixo. Assim, classicadores simples são utilizados para rejeitar a
maioria das sub-janelas e em seguida, classicadores mais sosticados são utilizados para
permitir uma baixa taxa de falsos positivos. Esta cascata tem a forma geral de uma árvore
de decisões (Figura 12).
O funcionamento da cascata de classicadores é simples: um resultado positivo do
primeiro classicador dispara o segundo classicador, que por sua vez dispara o terceiro
e assim sucessivamente.
Dentro do uxo de classicação, qualquer resultado negativo
descarta a sub-janela em análise.
Os classicadores intermediários da cascata podem ser treinados utilizando-se uma
estratégia baseada no
AdaBoost,
juntamente com algum outro método de otimização
para ajuste dos limiares. Vale ressaltar que o limiar padrão do
AdaBoost
é ajustado para
VIOLA; JONES, 2001a) sugerem como primeiro estágio
baixas taxas de erro. Viola e Jones (
um classicador forte de duas características, com limiar ajustado para detectar 100% das
Figura 12: Cascata de classicação do algoritmo de Viola e Jones.
3.4 Extração de Características
36
faces, entretanto, com uma taxa de falsos positivos de 40%.
O treinamento da cascata como um todo é um processo que depende de diretivas de
projetos (taxa de detecção e desempenho). Entretanto, a taxa de falsos positivos
ser calculada pela Equação 3.8 e a taxa de detecção
D
F
pode
da cascata pode ser calculada pela
VIOLA; JONES, 2001b):
Equação 3.9 (
F =
K
Y
fi ,
(3.8)
di .
(3.9)
i=1
D=
K
Y
i=1
Onde:
fi
é a taxa de falso positivo do
cadores na cascata;
di
i−ésimo
é a taxa de detecção do
classicador;
i−ésimo
K
é a quantidade de classi-
classicador.
Para exemplicar, uma cascata com 10 classicadores com taxa de detecção de 99%
atinge uma taxa de detecção de 90% (0.9
≈ 0.9910 ).
Se cada um destes classicadores
obter uma taxa de falsos positivos em torno de 30%, a taxa de falsos positivos da cascata
10
inteira será de apenas 0.0006% (0.3
≈ 6−6 ).
VIOLA; JO(LIENHART; MAYDT,
Diversas modicações foram propostas ao classicador de Viola e Jones (
NES,
2001a), sendo as mais importantes contribuições dadas por
2002), onde novas características Haar são propostas (sintetizado na Figura 13), com o
intuito de melhorar os resultados de detecções e diminuir as taxas de erro.
dicações incluem:
(i)
Estas mo-
extensão do conceito de Imagem Integral que permite o cálculo
o
para retângulos rotacionados em 45
e
(ii) normalização da Imagem Integral
a partir da
Imagem Integral Quadrada que consiste na multiplicação dos valores de intensidade de
cada pixel da imagem por eles mesmos.
3.4 Extração de Características
SHI; TOMASI, 1994), nenhum sistema de visão computacional
Segundo Shi e Tomasi, (
pode funcionar sem que haja características que possam ser identicadas e rastreadas entre
um quadro e outro. Neste sentido, Shi e Tomasi deniram um método para extração de
características baseado na forma como o método de rastreamento proposto por Lucas e
Kanade (
LUCAS; KANADE, 1981) funciona.
3.4 Extração de Características
37
Figura 13: Conjunto de características Haar expandido.
Uma dada região de um quadro pode ser rastreada em um segundo quadro, com pequenos deslocamentos, utilizando-se um uma heurística de otimização para algum critério
de pertinência, assim, regiões de características interessantes podem ser selecionadas
utilizando-se alguma medida de texturas e bordas, como por exemplo elevado desvio padrão no perl de intensidade espacial, a presença de cruzamentos por zeros no Laplaciano
das intensidades dos
pixels
da imagem ou mesmo a presença de bordas.
SHI; TOMASI, 1994) mostraram que um modelo de movimentação ba-
Shi e Tomasi (
seado apenas na translação de imagens não é suciente para determinar dissimilaridades entre dois quadros consecutivos.
Nestes casos, deve-se utilizar um modelo baseado
em transformações ans, ou seja, onde há translação e transformações lineares.
Além
disso, demonstraram um método numérico e eciente para a convergência deste modelo
utilizando-se o método de minimização de erro de Newton-Raphson, conforme em (
KANADE, 1981).
LUCAS;
SHI; TOMASI, 1994) é
O modelo de transformações am proposto por Shi e Tomasi (
baseado na Equação 3.10:
I(x, y, t + τ ) = I(x − ξ(x, y, t, τ ), y − η(x, y, t, τ )).
Assim, qualquer imagem no tempo
todos os pixels da imagem no tempo
mento no ponto
χ = (x, y).
t
t+τ
(3.10)
pode ser obtida a partir da movimentação de
por uma quantidade
Na Equação 3.10,
ξ
e
η
δ(ξ, η),
chamada de desloca-
são as componentes do deslocamento
3.4 Extração de Características
δ
x
nas direções
e
y
38
respectivamente.
O vetor de deslocamento
δ
é uma função da posição
χ
e variações em
δ
podem ser
percebidas mesmo em pequenas janelas de rastreamento, de forma que é mais sensato
falar em um
campo de deslocamento am, conforme a Equação 3.11:
"
δ=
dxx dxy
#"
dyx dyy
|
{z
}
x
#
+ d.
(3.11)
y
D
"
Onde
D
é a matriz de transformação e
d
o deslocamento. Além disso, o vetor
x
#
é o
y
centro da janela de deslocamento.
Assim, um ponto
segunda imagem
J,
χ
na primeira imagem
onde
A = 1+D
I
movimenta-se para o ponto
(1 é uma matriz identidade
2 × 2),
Aχ + d
na
conforme a
Equação 3.12:
J(Aχ + d) = I(χ).
(3.12)
Por m, rastrear uma janela em uma imagem I, signica determinar seis parâmetros:
quatro na matriz de transformação
D
e o vetor de deslocamento
d.
A qualidade do
rastreamento é essencialmente função do tamanho da janela, da quantidade de movimento
da câmera entre os dois quadros e a qualidade da textura na janela.
janelas, a matriz
D
Para pequenas
é difícil de se determinar, entretanto, janelas pequenas são em geral
utilizadas por ser mais difícil de ocorrerem descontinuidades.
Nos parágrafos anteriores, apresentou-se o modelo de movimentação proposto em (
SHI;
TOMASI, 1994), entretanto, independentemente do método utilizado para o rastreamento,
nem todas as partes da imagem contém informações da movimentação devido ao problema
da abertura (veja Seção 3.2). O método de determinação dos parâmetros do sistema 3.11
SHI; TOMASI, 1994) indica regiões (ou pontos) para serem rastreadas que
proposto em (
levam tal sistema a ser bem condicionado e portanto, de fácil resolução numérica.
3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano
39
3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano
Atualmente, a retina humana e o córtex V1 são as duas partes do sistema visual
FRIN-
humano (HVS) mais bem conhecidas em termos de seu funcionamento biológico (
TROP; ROME; CHRISTENSEN, 2010; BENOIT et al., 2010).
A retina pode ser considerada
uma etapa de pré-processamento dos sinais visuais, ao passo que o cortex V1 é um estágio
onde descritores de características de baixo nível são formados, conforme mencionado na
Seção 3.1.
Fisiologicamente, a retina pode ser dividida em duas camadas, a saber:
•
OPL:
Outer Plexiform Layer, ou camada de rede exterior, onde ocorrem as primeiras
sinapses na retina e se localizam os foto-receptores (cones e bastonetes).
•
IPL:
Inner Plexiform Layer, ou camada de rede interior, onde ocorrem as interações
sinápticas entre as demais células constituintes da retina.
A Figura 14, apresenta a distribuição em camadas das diversas células que formam a
retina. Pode-se notar ainda as conexões entre os foto-receptores, as células horizontais,
as células ganglionares e as células amácrinas.
JOBSON; RAHMAN; WOODELL, 1997) como o
Da literatura, pode-se citar o Retinex (
modelo inspirado no HVS mais difundido, entretanto, o mesmo possui aplicações limitadas
Figura 14: Distribuição em camadas das diversas células constituintes da retina humana.
(Adaptado de (
BENOIT et al., 2010))
3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano
40
ao melhoramento de imagens digitais em termos de alcance dinâmico, como feito na
MEAD; MAHOWALD, 1988) foram os precursores
retina e no córtex V1. Os trabalhos de (
em termos de modelagem das propriedades neurosiológicas da retina de vertebrados,
entretanto, os mesmos se baseavam em analogias com circuitos eletrônicos, dando ênfase
à ltros espaciais, em detrimento das propriedades temporais.
BENOIT et al.,
O trabalho de (
2010) é mais preciso em termos de analogias entre
o processamento de sinais visuais na retina biológica e o processamento de sinais em
circuitos eletrônicos. Uma visão geral do modelo proposto pode ser encontrada na Figura
15. Nesta gura, pode-se visualizar a entrada da retina com os fotoreceptores conectada
Outer Plexiform1 Layer ),
(IPL, do inglês Inner Plexiform Layer ).
à rede externa (OPL, do inglês
seguida pela camada interna
A saída do modelo da retina é constituída de dois canais, o canal
Parvocelular,
Magnocelular
que está ligado
o qual está relacionado ao realce de detalhes e o canal
à análise de movimento.
No córtex V1 há o processamento no domínio da frequência
espacial e de orientação.
Na retina biológica, a camada externa (OPL) é responsável pela aquisição do sinal
visual e é formada principalmente pelos cones e bastonetes (veja Seção 3.1). Esta camada
é conectada à camada interna (IPL). Por m, a camada IPL, a qual constituí a saída da
retina irá fornecer dois canais de informação: o canal parvocelular, dedicado à extração de
detalhes e o canal magnocelular, dedicado à análise de movimento. Deve-se observar que
BENOIT et al., 2010) considera os dois canais em toda a imagem,
o modelo proposto por (
porém, na retina biológica, o canal parvoceluar é mais importante para a região da fóvea
(visão central) e o canal magnocelular é mais importante para a visão periférica.
Os fotoreceptores da camada OPL têm a habilidade de ajustar sua sensibilidade em
função da luminância de sua vizinhança, conforme modelado por (
a luminância normalizada entre
1
[0, Vmax ]
BEAUDOT, 1994) para
nas Equações 3.13 e 3.14:
Tradução livre para plexiforme, que diz respeito à uma formação em rede.
Figura 15: Visão geral para o modelo proposto por (
BENOIT et al., 2010).
3.5 Um Modelo Bio-Inspirado no Sistema Visual Humano
C(p) =
41
R(p)
(Vmax + R0 (p)),
R(p) + R0 (p)
(3.13)
R0 (p) = V0 (p)L(p) + Vmax (1 − V0 ).
(3.14)
Nota-se que nas Equações 3.13 e 3.14, a luminância ajustada
depende da luminância
do fotoreceptor
p
R(p) e de um parâmetro de compressão R0 (p) o qual é acoplado -
linearmente - à luminância local
p
C(p)
L(p) da vizinhança do fotoreceptor p.
A luminância local
é calculada aplicando-se o ltro passa-baixa da Equação 3.15, o qual é o resultado da
modelagem da estrutura em rede de conexão da camada OPL com a camada IPL. (
BENOIT
et al., 2010) adicionou ainda um valor V0 ∈ [0, 1] que permite o efeito de adaptação local ser
V0 = 0.9.
facilmente ajustado e experimentalmente determinou
Valores menores causará
a redução do efeito adaptativo local e ainda recomenda-se valores entre
Vmax
imagens com 8 bits por pixel.
Além disso,
pixel, sendo tipicamente 255.
Pequenos valores de
0.60
0.99
e
para
representa o valor máximo para cada
V0
permite que grandes valores de
luminância sejam saturados:
FOP L (fs , ft ) = Fph (fs , ft ) · [1 − Fh (fs , ft )] ,
1
,
1+βph +2αph ·[1−cos(2πfs )]+j2πτph ft
1
= 1+βh +2αh ·[1−cos(2πf
.
s )]+j2πτp ft
Fph (fs , ft ) =
Fh (fs , ft )
Onde:
fs
zontal
h e contém somente imagens cujo conteúdo do espectro espacial é muito baixo; Fph
é a frequência espacial;
é a saída do fotoreceptor
tor
ph,
e
é a frequência temporal;
βph
τph
e
τh
ph e da célula horizontal h, respectivamente; αph
dos ltros do receptor
ph
ph
e da célula
Fh
é a saída da célula hori-
são os ganhos da célula horizontal
respectivamente (normalmente são nulos);
receptor
índice
ph; βh
ft
(3.15)
h,
e
h e do fotorecep-
são as contantes de tempo do
αh
são as constantes espaciais
respectivamente. Na prática, os parâmetros com
ajustam a frequência de corte superior e os parâmetros com índice
h
ajustam a
frequência de corte inferior do ltro da Equação 3.15.
O ltro da Equação 3.15 pode ser considerado como uma diferença entre dois ltros
ph )
espaço-temporais passa-baixa que modelam o comportamento dos foto-receptores (
h
e as células horizontais ( ), que por sua vez efetivamente calculam a subtração.
Na
Figura 16 está representado um diagrama esquemático do ltro da Equação 3.15. Nesta
gura, a diferença entre
Fph
e
Fh
é representada por dois operadores
BipON
e
BipOFF,
que fornecem, respectivamente, a parte positiva e a parte negativa da diferença entre
3.6 Metodologias de Avaliação dos Quadros Chaves
as imagens dos foto-receptores
Ph
42
e as imagens das células horizontais
h.
Por m, o
comportamento das células bipolares está representado na subtração nal.
Na prática, o ltro da Equação 3.15 é capaz de remover ruídos espaço-temporais e
melhorar contornos. Estas propriedades são complementares pois o efeito visual de ruído
em imagens é manifestado por contornos distorcidos. Por sua vez, operações de melhoria
de contornos irá aumentar também o ruído na imagem.
O canal parvocelular é obtido após o processamento das células ganglionares, que irá
receber os sinais
BipON
e
BipOFF
da camada OPL e atuar como um potencializador
local, reforçando os contornos obtidos. A lei de adaptação é a mesma utilizada nos fotoreceptores (Equações 3.13 e 3.14), porém, a informação a ser processada é constituída
apenas pelos contornos e ainda com a luminância reduzida (se
luminância (se
βh = 0),
βh > 0) ou mesmo nenhuma
fazendo com que o melhoramento dos contornos seja menos
dependente da luminância local e mais dependente dos contornos em si.
Neste trabalho, o canal parvocelular é utilizado para a análise de constraste local,
BENOIT et al.,
conforme a metodologia proposta na seção 4.2. O modelo apresentado por (
2010) é composto ainda por mais duas partes, o canal magnocelular e um processamento de
baixo nível como feito no córtex V1, porém, estes itens não são utilizados neste trabalho.
Recomenda-se a leitura do trabalho de (
BENOIT et al., 2010) para melhores detalhes sobre
o modelo de retina.
3.6 Metodologias de Avaliação dos Quadros Chaves
O avanço da ciência em qualquer área do conhecimento é, em geral, medido pela efetividade e/ou eciência das novas soluções dos problemas propostos. Para tanto, métodos de
Figura 16: Diagrama esquemático para o ltro da Equação 3.15.
3.6 Metodologias de Avaliação dos Quadros Chaves
43
comparação objetivos são necessários e que estes, preferencialmente, sejam pré-existentes,
entretanto, atualmente, cada trabalho ligado à sumarização automática de vídeos utiliza
seu próprio método de comparação, sem efetivamente comparar a nova metodologia à
AVILA et al., 2011).
técnicas pré-existentes (
Ao contrário de outras áreas do conhecimento, como reconhecimento de padrões e
rastreamento de objetos, denir o que é considerado como um sumário correto é um
trabalho complicado, principalmente devido a falta de um critério objetivo, como um
ground truth
objetivo e conciso (
AVILA et al., 2011).
Na literatura, os métodos de avaliação de resultados de trabalhos ligados à sumarização automática de vídeos são divididos em três grupos: descrição de resultados, métricas
objetivas e avaliação de usuários humanos (
TRUONG; VENKATESH, 2007).
A descrição dos resultados é a forma mais simples e popular, entretanto, não envolve a
comparação direta com outros métodos. Geralmente é utilizada para discutir a inuência
dos parâmetros do método sobre os resultados obtidos e muitas vezes tentam descrever,
ZHANG et al., 2003).
textualmente e ilustrando, as vantagens da utilização do método (
As métricas objetivas, por sua vez, são funções que revelam a delidade do método em
relação à um outro método ou ao próprio método com diferentes parâmetros, entretanto,
AVILA et al., 2011).
sem nenhuma correção com o julgamento humano (
Por m, a avaliação de usuários humanos envolve o julgamento de pessoas que julgam
a qualidade do sumário gerado, sendo possivelmente, a forma mais realista de avaliação.
O trabalho de (
AVILA et al., 2011) propõe uma metodologia de comparação de resu-
mos estáticos chamada
Comparison of User Summaries (CUS),
na qual um sumário é
construído manualmente por alguns usuários humanos e é tomado como referência a ser
comparada com o resultado obtido por diferentes métodos. O sumário construído pelos
usuários humanos é tomado como ótimo e para comparar os quadros chaves obtidos por
diferentes métodos, um histograma de cores, com 16 categorias, no espaço HSV, é construído tomando-se a componente H. A distância entre dois quadros chaves é calculada
utilizando-se a distância Manhattan e dois quadros chaves são similares de a distância
entre eles é menor que um limiar
δ.
AVILA et al., 2011) é ilustrado:
Na Figura 17, o método proposto por (
no passo 1, os
usuários humanos constroem o resumo estático ótimo, partindo-se do princípio de que
devem selecionar os quadros que melhor sumarizam o conteúdo original do vídeo. Já o
passo 2 engloba a comparação do resumo gerado pelos usuários humanos com o resumo
3.6 Metodologias de Avaliação dos Quadros Chaves
44
gerado automaticamente. A qualidade do resumo gerado (passo 3) é avaliada tomando-se
duas métricas, conforme 3.16 e 3.17:
Onde:
CU SA
é a precisão,
ηmAS
CU SA =
ηmAS
ηU S
(3.16)
CU SE =
ηm̄AS
.
ηU S
(3.17)
é o número quadros chaves simultaneamente presentes
no sumário automático e no sumário do usuário (ou seja, quadros positivos verdadeiros),
ηm̄AS
é o número de quadros chaves presentes no sumário automático, mas que não estão
presentes no sumário do usuário (ou seja, falsos positivos),
presentes no sumário do usuário,
CU SE
é o erro e
ηm̄AS
ηU S
é o número de quadros
é o número de quadros chaves
presentes no sumário automático mas que não estão presentes no sumário do usuário.
Vale observar que
CU SA
melhor caso. Além disso,
é um número no intervalo
[0, 1],
sendo
0
o pior caso e
1
o
CU SA = 1 não signica que todos os quadros chaves selecionados
pelo método automático estão presentes no sumário ótimo, ou seja, se
ηAS < ηU S ,
então,
alguns quadros do sumário automático não estão presentes no sumário ótimo.
Por m,
CU SE
é um número no intervalo
[0, ηAS /ηU S ],
sendo
0
o melhor caso (todos
os quadros do sumário automático estão contidos no sumário do usuário) e
ηAS /ηU S
o pior
caso, na situação em que nenhum dos quadros do sumário automático estão presentes no
sumário do usuário.
Figura 17: Resumo do método CUS. Fonte: (
AVILA et al., 2011)
3.7 Biblioteca OpenCV
45
3.7 Biblioteca OpenCV
OpenCV (acrônimo para
Open Source Computer Vision
ou Visão Computacional de
open source 2 escrita
nas linguagens C e C++, multiplataforma (Windows, Linux e Mac), com alguns bindings
Código Livre, numa tradução livre para o português) é uma biblioteca
para Python, Ruby, Matlab e outras linguagens (
BRADSKI; KAEHLER, 2008).
O núcleo do OpenCV é escrito em linguagem C, otimizado para fazer uso de múltiplos
processadores, e assim focado em aplicações de tempo real. A biblioteca foi originalmente
BRADSKI; KAEHLER,
R
desenvolvida pela Intel , em uma equipe liderada por Gary Bradski (
2008), com o objetivo de promover o desenvolvimento de aplicações sosticadas baseadas
em visão computacional. A primeira versão da biblioteca foi liberada em 2006 e a segunda
LAGANIÈRE,
em 2009, sendo as principais mudanças a nova interface em linguagem C++ (
2011;
BRADSKI; KAEHLER, 2008).
O OpenCV contém mais de 500 algoritmos em diversas áreas da visão computacional: inspeção industrial, medicina, segurança, calibração de câmeras, visão estéreo, dentre
outros. Além disso, inclui também uma biblioteca para aprendizagem de máquinas, reconhecimento de padrões,
clustering,
persistência de dados e estimadores como Filtro de
Kalman. Alguns, classicadores como redes
Machine
e
k Nearest Neighbor
Multilayer Perceptron (MLP), Support Vector
também estão implementados e disponíveis.
O modelo de atenção visual proposto neste trabalho foi implementado em linguagem
C++ e faz uso intensivo dos recursos do OpenCV e do
framework
Qt (Seção 3.8). Dentre
os principais recursos do OpenCV que estão sendo utilizados pode-se citar:
•
Cálculo do uxo ótico;
•
Classicador de Haar para detecção de faces;
•
Interface para manipulação de diversos formatos de armazenamento de vídeo digital.
3.8 Qt Framework
O Qt é um
framework
multiplataforma (Linux, Mac e Windows) utilizado princi-
palmente para o desenvolvimento de aplicações que contém interface de usuário gráca
(chamadas de
2
widgets
http://opensource.org
no dialeto do
framework ).
Apesar desta ser a aplicação principal,
3.9 Métricas de Avaliação de Desempenho
46
o Qt suporta também aplicações até mesmo sem interface com o usuário. É notadamente
um dos
frameworks
mais populares para o desenvolvimento de aplicações multiplataforma
em linguagem C++.
Atualmente é mantido como um projeto
open source,
entretanto, foi originalmente
3
desenvolvido e distribuído comercialmente pela Trolltech , sendo adquirido mais tarde pela
4
Nokia, que por sua vez repassou à Digia a divisão de serviços pagos envolvendo Qt, porém,
a Nokia ainda continua como principal desenvolvedora do
2010;
THELIN, 2007).
Dentre os principais recursos do
•
Ser multiplataforma;
•
Implementar um conjunto de
•
Disponibilizar diversos
framework
SUMMERFIELD,
(
framework, pode-se destacar:
containers
design patterns
otimizados;
em C++:
signal/slot, iterators, yweight,
serializer, etc;
•
Interface de alto nível para ambientes
multi-core : threads,
mutex,
sincronismo (
se-
máforos, etc);
•
Interface de usuário gráca.
3.9 Métricas de Avaliação de Desempenho
Esta seção apresenta, brevemente, as três métricas de avaliação de desempenho utilizadas para medir a ecácia da metodologia proposta: precisão, revocação e pontuação
F1. Estas medidas são amplamente utilizadas para a avaliação e validação de sistemas
PEREIRA, 2012; CALUMBY, 2010; KALE; MEHROTA; MANZA,
de recuperação de imagens (
2007).
A Figura 3.9 ilustra o relacionamento conitante entre a revocação e a precisão: se o
número de itens recuperados aumenta, o valor da revocação também aumenta, entretanto,
simultaneamente, o valor da precisão diminui.
medida que melhor avalia o sistema de buscas.
3
4
http://www.trolltech.com
http://www.digia.com
Neste sentido, a pontuação F1 é uma
3.9 Métricas de Avaliação de Desempenho
Figura 18:
47
Relação conitante entre revocação e precisão:
os itens relevantes estão à
esquerda e os recuperados dentro do círculo. As regiões em vermelho representam erros,
sendo a da esquerda itens relevantes não recuperados e a da direita itens não relevantes
recuperados.
3.9.1
Revocação
No contexto da recuperação de itens em um conjunto de busca, a revocação é denida
como a razão entre itens relevantes recuperados pelo sistema de buscas pela quantidade
total de itens relevantes contida no conjunto consultado, conforme a Equação 3.18:
R=
k{ItensRelevantes} ∩ {ItensRecuperados}k
.
k{ItensRelevantes}k
(3.18)
Na prática, a revocação pode ser estimada através da Equação 3.19:
R=
Onde R é um número no intervalo
de itens relevantes recuperados e
3.9.2
[0, 1]
Tr
Nr
.
Tr
e representa o valor da revocação,
(3.19)
Nr
é o número
é o número total de itens relevantes.
Precisão
A precisão é denida como a fração de itens relevantes dentre os itens recuperados
pelo sistema de buscas, conforme denido pela Equação 3.20:
3.9 Métricas de Avaliação de Desempenho
R=
48
k{ItensRelevantes} ∩ {ItensRecuperados}k
.
k{ItensRecuperados}k
(3.20)
Na prática, pode-se calcular a precisão através da Equação 3.21:
P =
Onde P é um número no intervalo
de itens relevantes recuperados,
T
Nr
Nr
=
.
T
Nr + Ni
[0, 1]
(3.21)
e representa o valor da precisão,
é o total de itens recuperados e
Ni
Nr
é o número
é o número de itens
não relevantes recuperados.
3.9.3
Métrica F1
Como a recovação e a precisão são medidas de natureza contraditórias, a ecácia de
um sistema de recuperação será mais bem avaliada se ambas forem consideradas simultaneamente. A métrica F1 (do inglês
F1 measure ) é uma média harmônica entre a revocação
e a precisão e pode ser calculada conforme a Equação 3.22:
F1 = 2 ·
Onde
F1
é o valor da medida de F1,
P
P ×R
.
P +R
é a precisão e
(3.22)
R
é a revocação.
49
4
Metodologia
Este capítulo descreve a metodologia utilizada para o desenvolvimento e implementação computacional do modelo de atenção visual proposto, bem como sua adaptação para
a aplicação especíca de extração de quadros-chave em vídeos de programas televisivos.
Estas implementações foram feitas em linguagem C++ com a utilização da biblioteca
OpenCV e do
framework
Qt e posteriormente serão incorporadas ao sistema de informa-
ção multimídia do Centro de Apoio à Pesquisas Sobre Televisão (CAPTE) do CEFET-MG
(
SOUZA, 2012; PEREIRA, 2012).
A descrição da metodologia utilizada para o desenvolvimento do trabalho proposto
será feita apresentando-se as etapas intermediárias do modelo de atenção visual, que
são baseadas em técnicas de extração de características, bem como em um método de
quantização. Em seguida, será descrito o método de fusão das etapas intermediárias e por
m, descreve-se o método para análise da curva nal de atenção visual para a extração
dos quadros-chaves.
Conforme ilustrado na Figura 2 (ver Seção 1.3), o método proposto se baseia num
modelo de atenção visual que tem como entrada um vídeo que será analisado quadro
a quadro, extraindo assim:
(i)
características relevantes do ponto de vista da atenção
visual: quantidade, coerência espacial e duração da movimentação na cena;
(ii) um mapa
de saliências que indiretamente leva em consideração informações de cor, textura e forma;
e
(iii) um modelo baseado na detecção de posição e tamanho de faces.
são quantizadas e fundidas numa curva chamada de
Estas características
curva de atenção visual, a partir
da qual é possível inferir os potenciais quadros-chaves que irão compor o índice da base
de dados do sistema de informação multimídia do CAPTE. A seguir, as diversas etapas
da metodologia acima referidas serão descritas.
4.1 Modelo de Atenção Dinâmica
50
4.1 Modelo de Atenção Dinâmica
Neste trabalho, o conceito de atenção dinâmica está relacionado à quantidade de
movimento presente em cada quadro.
Entretanto, esta variável não é suciente para
estabelecer um critério de ponderação a respeito da relevância de um quadro em relação
aos demais. Além disso, recursos como
zoom
e
panning,
bem como a movimentação da
própria câmera, fazem com que a atenção do espectador seja guiada pelo diretor de cena
(
MA et al., 2005) e irão inuenciar o método para cálculo da quantidade de movimento.
Tipicamente, a quantidade de movimento numa cena é calculada utilizando-se técni-
BEAUCHEMIN; BARRON, 1996), porém, como mencionado ante-
cas como o uxo ótico (
riormente, o uxo ótico será inuenciado pela movimentação da câmera e deseja-se aqui
uma estimativa da quantidade de movimento de objetos em cena, ou seja, movimentação
do primeiro plano.
O uso do uxo ótico é amplamente difundido na literatura para métodos de rastreamento de objetos e tem-se critérios bem denidos para se determinar as regiões de interesse
PAPAGEORGIOU; OREN; POGGIO, 1998), portanto, pode-se denir o
da cena em análise (
comportamento do uxo ótico para estes casos:
objetos que se movimentam;
de câmera e
(
(iii)
(ii)
operações de
(i)
o uxo ótico é difuso nas bordas de
o uxo ótico é polarizado em função de movimentação
zoom
e
panning
não afetam as características anteriores
MA et al., 2005; PAPAGEORGIOU; OREN; POGGIO, 1998; BEAUCHEMIN; BARRON, 1996).
O cálculo do uxo ótico neste trabalho é realizado utilizando-se o método proposto por
Lucas e Kanade (
LUCAS; KANADE, 1981).
Como mencionado na Seção 3.2, este método
é dito local e os pontos a serem mapeados de um quadro para o outro serão denidos
SHI; TOMASI, 1994), obtendo assim, por denição, um conjunto
Como o método de Lucas e Kanade (LUCAS; KANADE, 1981) só pode
conforme proposto por (
ótimo de pontos.
ser utilizado para pequenas regiões com pequenos movimentos, será utilizado uma técnica
de multi-escalas (ou de pirâmide) para melhorar o desempenho do método.
A partir do cálculo do uxo ótico, obtém-se um campo vetorial de movimentação (ou
motion vector eld, MVF), onde cada vetor deste campo irá fornecer duas variáveis para
se determinar a atenção dinâmica.
A primeira variável é a quantidade de movimento
presente na cena, obtida através da amplitude média do MVF, conforme a Equação 4.1:
n
1X
µ=
k vi k, vi ∈ V .
n i=0
(4.1)
4.1 Modelo de Atenção Dinâmica
51
Figura 19: Demonstração do uxo ótico nas bordas de objetos em movimento: as linha
em vermelho representando cada um dos vetores do campo vetorial.
Onde:
V
é o campo vetorial de movimentação obtido através do uxo ótico,
dade de vetores no campo vetorial de movimentação,
V
e
k vi k
vi
n é a quanti-
é o i-ésimo vetor do campo vetor
é a função que estima a magnitude de do vetor
vi .
Como esta informação é fortemente acoplada à desvios como movimentação de câmera,
a fase de cada vetor do MVF será levada em consideração.
Como dito anteriormente, o MVF é difuso nas bordas de objetos em movimento e
bastante polarizado nas demais regiões, conforme ilustrado pela Figura 19. Utilizando-se
um histograma da distribuição de fase de um MVF, é possível então obter uma medida
da quantidade de movimento devido à objetos na cena.
A medida da quantidade de movimento devido à objetos na cena é feita através da
entropia do histograma de fases do MVF (chamada de coerência espacial)
através da Equação 4.2. Como
ε
ε,
calculada
é uma medida da entropia do histrograma de fases do
MVF, esta irá reetir a polarização do MVF, ou seja, um MVF difuso, irá gerar maiores
valores de
ε,
enquanto um MVF mais polarizado (por exemplo, aquele decorrente da
movimentação da câmera) irá gerar menores valores de
ε=−
Pm
p(j) =
Onde:
ε
MVF,
p(j)
é a coerência espacial,
m
j=0 p(j)
Pmf (j)
k=0 f (k)
ε.
· log2 (p(j)) ,
.
(4.2)
é a quantidade de classes no histograma de fases do
é a função de probabilidade da classe
j-ésima classe do histograma de fases.
h
e
f (j)
é a quantidade de itens na
4.2 Modelo de Atenção Estática
As duas medidas,
µ
e
ε
52
isoladas representam diferentes aspectos do MVF, porém, as
duas medidas combinadas fornecem o valor de atenção dinâmica. Uma cena com grandes quantidades de movimento (ou seja, um MVF com vetores de grandes amplitudes)
µ,
fornecerá grandes valores de
porém, esta medida é fortemente inuenciada por mo-
vimentações de câmera e movimentos como
zoom
câmera produz MVF com baixos valores de
ε
e
panning.
Como a movimentação da
(ou seja, um MVF polarizado), o valor
da atenção dinâmica ser deve diminuído proporcionalmente. Assim, o valor da atenção
dinâmica será calculado através do produto entre
µ
e
ε,
conforme a Equação 4.3:
αd (k) = µ(k) · ε(k).
Onde:
αd (k)
é o valor de atenção dinâmica do k-ésimo quadro,
MVF do k-ésimo quadro e
ε(k)
(4.3)
µ
é magnitude média do
é a medida de coerência espacial do MVF do k-ésimo
quadro.
4.2 Modelo de Atenção Estática
Cenas estáticas também contêm características importantes para a atenção visual,
as quais não podem ser estimadas pelo modelo de atenção dinâmica proposto.
Assim,
propõe-se um modelo de atenção estática que se baseia num mapa de saliências levandose em consideração características como cor, textura e formas. Estas características são
indiretamente mapeadas pelo contraste.
O contraste é um importante parâmetro para a visão. Clinicamente, a acuidade visual
é medida utilizando-se altas taxas de contraste, isto é, letras de cor preta sobre um fundo
branco.
Na realidade, em uma cena, é a variação de contraste que permite distinguir
MA et al.,
objetos do plano de fundo (
2003).
Tradicionalmente, o contraste é denido
como a diferença entre o ponto com maior intensidade luminosa e o ponto com menor
intensidade luminosa, entretanto, esta denição não leva em consideração variações locais
(
PELI, 1990).
Características como cor, textura e forma, apesar de amplamente utilizadas para imi-
tar a percepção humana, não fornecem informações em alto nível da imagem em análise,
basicamente porque seres humanos não consideram tais características isoladamente. Isto
signica dizer que, a percepção de um objeto em uma cena está relacionada com a dis-
MA et al., 2005).
tinção entre o objeto em si e o ambiente no qual ele está inserido (
4.2 Modelo de Atenção Estática
53
(a)
(b)
(c)
(d)
(e)
(f)
MA et
Figura 20: Percepção de cor, textura e forma através do contraste. Adaptado de (
al., 2003).
Neste sentido, o modelo de atenção estática proposto é na realidade um mapa de
saliências que fornece informações simultâneas de cor, textura e forma, porém, de forma
indireta através do contraste.
Na Figura 20(a), o objeto vermelho é claramente tido como a região de foco de atenção,
visto que, usualmente, diz-se que a cor vermelha possui mais brilho que a cor preta e
facilmente atrai a atenção humana. Entretanto, na Figura 20(b) o objeto preto é quem
se sobressai, ao passo que a cor vermelha do fundo ocupa a maior parte da imagem.
Esta análise permite concluir que cor e tamanho não são as características principais que
inuenciam a percepção.
As Figuras 20(c) e 20(d) mostram dois padrões de textura, um rugoso sobre um liso,
e um liso sobre um rugoso, respectivamente. Neste caso, não se pode dizer qual região
chama mais a atenção, demonstrando novamente que o contraste exerce maior inuência
do que diz respeito a chamar a atenção.
Já as Figuras 20(e) e 20(f ) simplesmente denotam que não é a complexidade da forma
que exerce maior inuência sobre a atenção do espectador.
Considerando-se as observações das Figuras 20(a) a 20(f ), o mapa de saliências baseado no contraste é capaz de fornecer informações relevantes sobre as regiões de mais
4.2 Modelo de Atenção Estática
54
(a)
(b)
(c)
(d)
(e)
(f)
Figura 21: Mapa de saliências para as Figuras 20(a) à 20(f ).
alta relevância no que diz respeito à atenção visual. Fazendo-se analogia à modelagem da
atenção visual na seção 3.1.2, a construção deste mapa de saliência é um processo dito
bottom-up.
Alguns métodos já foram propostos para o cálculo do contraste: métodos baseados
em cor; em luminância; métodos no domínio da frequência, dentre outros (
PELI, 1990),
entretanto, o método descrito a seguir é similar ao processo executado pela retina no olho
humano.
o canal
O método proposto utiliza o modelo de retina da Seção 3.5, porém, somente
parvocelular
é levado em consideração uma vez que este está relacionado à
avaliação de detalhes.
Como no modelo da retina de (
BENOIT et al., 2010), cada pixel do quadro em análise
é considerado um fotoreceptor e as propriedades intrínsecas à ele devem ser aplicadas.
BEAUDOT, 1994), ajustará sua sen-
Dado que cada fotoreceptor, conforme proposto por (
sibilidade em função da luminância de sua vizinhança (Equações 3.13 e 3.14) e levando-se
em consideração às propriedades do modelo da Seção 3.5, a saída do canal
parvocelular
será o próprio mapa de saliências proposto anteriormente.
Tomar cada um dos pixels do quadro em análise como um fotoreceptor faz com que
suas propriedades sejam válidas neste contexto. Isto vem de encontro à análise por con-
BEAUDOT, 1994)
traste local proposta, visto que o modelo de fotoreceptor utilizado por (
4.2 Modelo de Atenção Estática
55
(a)
(b)
(c)
Figura 22: Mapa de saliências para cenas naturais.
ajustará automaticamente sua sensibilidade em função de sua vizinhança.
Este efeito
pode ser visto nas Figuras 21(a) à 21(f ), onde são mostrados os mapas de saliências obtidos através do método proposto utilizando-se as Figuras 20(a) à 20(f ) como entrada.
Nota-se que as regiões realçadas são as áreas em que há maior nível de contraste local.
As Figuras 21(a) à 21(f ) serviram apenas para demonstrar o conceito, sendo compostas
por objetos sintéticos.
Nas Figuras 22(a) à 22(c) são mostrados exemplos de mapas
de saliências para cenas reais.
Na Figura 22(a) pode-se observar que a marca d'água
causa pouca variação de contraste local (item marcado com 1), consequentemente é pouco
realçada pelo modelo. O contrário ocorre com a legenda, que provoca grande variação local
de contraste (item marcado com 2). O mesmo efeito da marca d'água ocorre na Figura
22(b) (item marcado com 1), entretanto, o reexo na lente dos óculos da personagem
(item 2) é destacado pelo modelo de atenção estática. Já a Figura 22(c) apenas ilustra o
realce nas variações locais de contraste.
4.3 Modelo de Atenção Baseado em Faces
56
Uma vez obtido o mapa de saliências de cada quadro, calcula-se então o valor de
MA et al.,
atenção estática. Como cada pixel do quadro é considerado um fotoreceptor (
2005), dene-se o valor da atenção estática como a soma da luminância ajustada de cada
fotoreceptor, conforme a Equação 4.4:
w X
h
X
1
αs (k) =
·
I(i, j; k).
w · h · ρ i=0 j=0
Onde:
(4.4)
αs (k) é o valor de atenção estática do k-ésimo quadro, ρ é um fator de ponderação
e está relacionado à profundidade (em bits) de cada pixel,
quadro nas direções
X
e
Y
respectivamente e
I(i, j; k)
w
e
h
são as dimensões do
é o mapa de saliências do k-ésimo
quadro.
4.3 Modelo de Atenção Baseado em Faces
Faces representam uma das características que mais descrevem visualmente um ser
MA et al., 2005) e frequentemente dominam o foco da atenção dispensada por
um espectador humano (BINDEMANN et al., 2007). Neste sentido, e ainda incluindo um
humano (
processo
top-down
(seção 3.1.2) ao modelo de atenção visual, calcula-se também um valor
de atenção devido à presença de faces nos quadros do vídeo.
Este modelo consiste em localizar faces em cada um dos quadros do vídeo e em função
das dimensões e posição, atribuir um valor de atenção. Este cálculo é feito utilizando-se
uma Gaussiana bidimensional, dada pela Equação 4.5:
− 21 ·
g(x, y) = A · e
Onde: A é a amplitude da gaussiana,
0
( x−x
σx )
(x0 , y0 )
2
2 y−y
+ σ 0
y
.
é a origem da gaussiana,
(4.5)
σx
e
σy
são os
desvios padrões na direções X e Y respectivamente. Em geral, a gaussiana tem origem no
centro do quadro em análise e suas dimensões são as mesmas do quadro em análise.
Uma visualização gráca da Equação 4.5 é apresentada nas Figuras 23(a) e 23(b).
MA et al., 2002b),
Este método é uma evolução da forma proposta por (
que propôs
uma grade discreta para ponderação da posição, entretanto, utilizando-se a Gaussiana
bidimensional da Equação 4.5 obtém-se uma curva de atenção mais suave, sem saltos
discretos.
4.3 Modelo de Atenção Baseado em Faces
(a) Vista em perspectiva.
57
(b) Vista sobre o plano
XY.
Figura 23: Representação em perspectiva e sobre o plano XY para a Equação 4.5 com
A = 1, σx = σy = 1.
Figura 24: Interconexão das cascatas de classicação de faces
A detecção das faces é feita utilizando-se o classicador de Viola e Jones (Seção 3.3),
entretanto, com quatro instâncias.
Cada instância é especializada na detecção de um
tipo de característica, sendo a primeira - ou classicador primário - a que efetivamente
detecta faces e as outras três instâncias - chamadas de classicadores de segundo nível funcionam como redundância para a primeira e são especializadas na detecção de olhos,
nariz e boca.
O classicador primário atua no quadro como um todo, sendo portanto,
computacionalmente mais complexo.
Quando o classicador primário retornar uma ou mais regiões no quadro original que
foram classicadas como faces, cada uma dessas regiões de interesse são novamente submetidas aos classicadores de segundo nível, visando eliminar falsos positivos do classicador
primário. Quando algum classicador de segundo nível retorna positivo, os demais são dispensados. Ressalta-se que os classicadores secundários inspecionam apenas as regiões de
interesse retornadas pelo classicador primário, logo, estes são mais ecientes em termos
4.3 Modelo de Atenção Baseado em Faces
58
computacionais. A Figura 24 ilustra este comportamento.
Cada uma das regiões de interesse denida na saída da etapa de detecção de faces é
submetida à ponderação da Equação 4.5, calculando-se então o valor de atenção de cada
quadro a partir da Equação 4.6:
wR X
hR
r
1 XX
αf (k) = ·
g(x, y).
r i=1
R
R
(4.6)
x=x0 y=y0
Onde:
αf (k)
é o valor de atenção devido à faces do k-ésimo quadro,
r
é a quantidade
R R
total de regiões de interesse onde há faces detectadas, (x0 , y0 ) é a origem da região de
interesse
g(x, y)
R , wR
e
hR
são, respectivamente, a largura e altura da região de interesse
R
e
é a função de ponderação denida na Equação 4.5.
Se nenhuma face for detectada pelo classicador primário e vericada pelos classicadores de segundo nível, então
αf (k) = 0.
Note que as regiões de interesse detectadas
pelo classicador primário e não vericadas pelos classicadores de segundo nível são
descartadas.
A saída deste modelo é apresentada nas Figuras 25(a), 25(b) e 25(c).
Nas Figuras
25(a) e 25(b) é possível visualizar um retângulo verde delimitando a região de detecção
de uma face (saída do classicador primário) e um retângulo azul que demarca a região
que um classicador de segundo nível utilizou para validar a face detectada. A Figura
25(c) apresenta um retângulo em vermelho, o qual foi considerado um falso positivo - e
consequentemente descartado - pelo modelo, uma vez que nenhum classicador de segundo
nível conseguiu validar a região de interesse demarcada pelo classicador primário.
É importante observar que a curva de saída deste modelo pode apresentar variações
(a) Face validada pela detecção
de boca.
Figura 25:
(b) Face validada pela detecção
de olho.
(c) Falso positivo.
Demonstração da saída do modelo de detecção de faces e a validação por
redundância: as regiões demarcadas pelo retângulo verde representam faces detectadas e
validadas pelos classicadores de segundo nível. O retângulo vermelho indica falso positivo
não validado pelos classicadores de segundo nível.
4.4 Construção da Curva de Atenção Visual
59
bruscas entre um valor de atenção não nulo e zero, como apresentado na Figura 26(c).
Este comportamento acontece pois os classicadores primário e de segundo nível podem
detectar regiões de interesse em uma sequência de quadros e em um quadro isolado intermediário falhar. Para evitar resultados inesperados, comprometendo a ecácia do método,
estas variações serão compensadas em etapas futuras, através do processamento da Curva
de Atenção Visual construída conforme descrito nas Seções 4.4 e 4.5.
4.4 Construção da Curva de Atenção Visual
A construção da Curva de Atenção Visual é feita por meio da combinação linear dos
valores de atenção visual intermediários calculados nas seções 4.1, 4.2 e 4.3. Para tanto,
os valores calculadas pelas Equações 4.3, 4.4 e 4.6 devem ser normalizados.
Especicamente, utilizando-se a Equação 4.7, os parâmetros normalizados são fundidos e formam a curva de atenção visual nal, a qual será posteriormente analisada para
a extração dos quadros-chave:
A(k) = wd · α
ed (k) + ws · α
es (k) + wf · α
ef (k).
Onde:
A(k)
é o valor de atenção visual para o quadro
atenção dinâmica;
é o peso para o modelo de
α
ed (k) é o valor normalizado de atenção dinâmica para o quadro k ; ws
o peso para o modelo de atenção estática;
para o quadro
k ; wd
(4.7)
k ; wf
é
α
es (k) é o valor normalizado de atenção estática
é o peso para o modelo de atenção devido às faces e
normalizado de atenção visual devido à faces para o quadro
α
ef (k)
é o valor
k.
Para evitar desbalanceamentos e polarizações do método, a restrição
wd +ws +wf = 1,
deve ser observada. Pode-se utilizar valores nulos nos pesos caso haja necessidade de se
MA et al., 2005).
desativar algum parâmetro (
Nas Figuras 26(a) à 26(c) são mostradas curvas de exemplo para o Modelo de Atenção
Dinâmica (Seção 4.1), o Modelo de Atenção Estática (Seção 4.2) e para o Modelo de
Atenção Baseado em Faces (Seção 4.3), respectivamente. Estas curvas são então fundidas
a partir da Equação 4.7 com
da Figura 27.
wd = 0.50, ws = 0.25
e
wf = 0.25,
formando então a curva
4.4 Construção da Curva de Atenção Visual
60
(a) Curva de saída para o Modelo de Atenção Dinâmica.
(b) Curva de saída para o Modelo de Atenção Estática.
(c) Curva de saída para o Modelo de Atenção Baseada em Faces.
Figura 26: Exemplos de curvas de saída para os Modelos de Atenção Dinâmica, Estática
e Baseada em Faces, respectivamente.
4.5 Extração dos Quadros-Chave
61
4.5 Extração dos Quadros-Chave
A aplicação proposta para o modelo de atenção visual desenvolvido neste trabalho é
a extração de quadros-chave que irão compor o índice da base de dados do sistema de
informação multimídia desenvolvido pelo CAPTE. Pela denição do modelo de atenção
visual proposto, os quadros-chaves serão aqueles com maiores valores de atenção visual
e portanto, são extraídos tomando-se os picos da curva de atenção visual, construída
conforme a seção 4.4.
Como pode ser observado na curva de atenção da Figura 27, características indesejáveis, como as variações bruscas do Modelo Baseado em Faces (Seção 4.3), ao interagirem
com os demais modelos, podem gerar falseamentos, comprometendo a ecácia do método.
A aplicação de ltros digitais sobre a Curva de Atenção Visual e denições estáticas
desse tipo de ltro podem polarizar o método.
Além disso, ltros digitais introduzem
atrasos em função de sua ordem, fazendo com que sejam necessários deslocamentos no
eixo horizontal da Curva de Atenção Visual, comprometendo ainda mais a ecácia do
método.
Para compensar tais variações bruscas e outras características indesejáveis, a extração
dos quadros-chave se dá sobre o envelope da Curva de Atenção Visual.
Além de não
introduzir atrasos, o envelope da Curva de Atenção Visual tem o efeito de ltro passabaixa, ignorando variações bruscas na Curva de Atenção Visual. A Figura 28(a) mostra
o envelope (em vermelho) e Curva de Atenção Visual da Figura 27 sobrepostos. A Figura
28(b) apresenta detalhes do envelope da Curva de Atenção Visual, enfatizando a remoção
das variações bruscas no intervalo entre o quadro 1000 e o quadro 1500.
A denição de quais serão os quadros-chave é feita utilizando-se o envelope da Curva
de Atenção Visual, conforme mostrado na Figura 29. Como quadros muito próximos são,
em geral, semelhantes em termos de conteúdo, pode-se denir um espaçamento mínimo
entre os quadros-chave selecionados.
As Figuras 30(a) à 30(i) mostram quadros-chave selecionados para a Curva de Atenção
Visual da Figura 27. As legendas mostram os valores de atenção para cada quadro.
4.5 Extração dos Quadros-Chave
62
Figura 27: Curva de atenção criada a partir das curvas das Figuras 26(a) à 26(c) com
wd = 0.50, ws = 0.25
e
wf = 0.25.
(a) Envelope da Curva de Atenção Visual da Figura 27.
(b) Detalhe do envelope da Curva de Atenção Visual da Figura 27.
Figura 28: Envelope e detalhe do envelope da Curva de Atenção Visual da Figura 27.
4.5 Extração dos Quadros-Chave
63
Figura 29: Quadros-chave detectados pelo método proposto.
(a) Quadro
0.4917
#17:
(b) Quadro #153:
0.1537
(c) Quadro
0.2675
#420:
(d) Quadro #829:
0.4300
(e) Quadro #1449:
0.6684
(f) Quadro #1533:
0.3317
(g) Quadro #1652:
0.4320
(h) Quadro #2062:
0.4424
(i) Quadro #2380:
0.5383
Figura 30: Exemplos de quadros-chave selecionados para a Curva de Atenção Visual da
Figura 27.
64
5
Resultados Experimentais
Este capítulo apresenta e discute os resultados experimentais obtidos por meio da utilização do modelo de atenção visual proposto neste trabalho para sumarização automática
de vídeos de programas televisivos.
Os experimentos realizados neste trabalho visam avaliar o desempenho e demonstrar a
aplicabilidade da abordagem proposta, sobretudo em cenários desaadores para métodos
encontrados na literatura.
Os experimentos realizados neste trabalho são divididos em duas partes: o primeiro
conjunto de vídeos avaliados é composto por vídeos da base de dados do CAPTE. O
segundo conjunto de vídeos de teste foi extraído do
Open Video Project (OV)
e coincide
AVILA et al., 2011), (FURINI et al., 2010) e (MUNDUR; RAO; YESHA,
com os trabalhos de (
2006), permitindo assim a comparação entre os métodos.
Para a realização dos experimentos, utilizou-se uma estação de trabalho HP com
processador Intel Core i5 @2.27GHz, 4GB de memória RAM e sistema operacional Linux
Ubuntu 12.04 de 32 bits.
5.1 Conjunto de Vídeos do CAPTE
Especicamente, o conjunto de vídeos do CAPTE é composto por 88 vídeos, referentes
a 10 programas do canal de televisão aberta Rede Minas, bem como os quadros chaves
(gabarito de análise) correspondentes aos vídeos deste conjunto, estimados manualmente
SOUZA,
por três documentalistas, conforme critérios propostos em trabalhos anteriores (
2012;
BENMOKHTAR et al., 2007; GAUCH; SHIVADAS, 2005).
Comparações são realizadas
entre o desempenho da abordagem proposta neste trabalho e aquela desenvolvida por
(
SOUZA, 2012), utilizando-se como métricas a precisão, a revocação e a medida F1 (ver
Seção 3.9).
5.1 Conjunto de Vídeos do CAPTE
5.1.1
65
Preparação do Conjunto de Testes do CAPTE
O conjunto de testes considerado é composto por 88 vídeos de programas televisivos, exibidos na grade de programação do canal Rede Minas entre os dias 23/01/2012 e
03/02/2012 e integrantes do repositório gerenciado pelo sistema de informação multimídia
do CAPTE.
Para cada vídeo de teste utilizado, por sua vez, há um conjunto correspondente de
ground-truth )
quadros-chaves, os quais exercem a função de gabarito (
no processo de
análise de desempenho da abordagem proposta neste trabalho. Especicamente, para a
denição dos quadros-chaves do gabarito mencionado, três pistas visuais principais foram
SOUZA,
buscadas ao longo de cada vídeo, conforme proposto em trabalhos anteriores (
2012;
•
BENMOKHTAR et al., 2007; GAUCH; SHIVADAS, 2005), a saber:
Ampliação (
zoom-in ):
com o objetivo de direcionar a atenção do telespectador para
um objeto ou uma região especíca da cena, esta pista visual consiste em ampliar tal
objeto ou região de interesse. Utilizou-se como quadro chave uma imagem amostrada
imediatamente após cessar a operação de zoom. Esta operação é ilustrada na Figura
31.
•
Mudança de cenário: diz respeito à alteração entre cenários, como no caso de um
telejornal, quando alterna-se entre o cenário interno ao estúdio e uma reportagem
externa ao estúdio. O quadro-chave selecionado é a primeira imagem do novo cenário. A Figura 32 ilustra esta operação.
•
Movimentação de câmera:
está relacionada ao deslocamento físico da câmera e
tem a intenção de guiar a atenção do espectador.
O quadro-chave é selecionado
imediatamente após a nalização da sequência de movimentação, conforme ilustrado
na Figura 33.
Finalmente, deve-se ressaltar que o conjunto de vídeos de teste considerado neste trabalho, bem como o gabarito correspondente, foram originalmente propostos e amplamente
analisados por (
SOUZA, 2012).
Este fato motivou a adoção desta base de dados durante
as análises de desempenho realizadas, permitindo o estabelecimento de comparações entre
as abordagens desenvolvidas e a validação da metodologia proposta.
5.1 Conjunto de Vídeos do CAPTE
66
Zoom-In ).
Figura 31: Operação de Ampliação (
Figura 32: Mudança de Cenário.
5.1.2
Processamento do Conjunto de Testes
A Tabela 1 apresenta os principais parâmetros de conguração da abordagem proposta, bem como os valores correspondentes considerados durante os experimentos realizados. Note que os resultados experimentais obtidos baseiam-se na restrição
wd +ws +wf = 1
(ver Seção 4.4). Desta forma, busca-se evitar desbalanceamentos e polarizações do método, garantindo-se igual a 1 a soma dos pesos presentes no modelo de atenção visual
proposto (ver Equação 4.7), associados aos modelos de atenção dinâmica (wd ), atenção
estática (ws ) e devido à faces (wf ). Adicionalmente, considerou-se que estes pesos possuem o mesmo valor, assim,
wd = ws = wf = 0.333,
de forma a estudar o comportamento
da abordagem em um cenário onde não há predomínio de um modelo sobre os demais
(pelo menos na situação onde os pesos são considerados iguais).
Parâmetro Signicado
m
Quantidade de classes do histograma do MVF
ρ
Profundidade, em bits, das imagens
A
Amplitude da gaussiana do modelo de faces
σx
σy
wd
ws
wf
Valor
180
8
1.000
Desvio padrão na direção X da gaussiana do modelo de faces
120.000
Desvio padrão na direção Y da gaussiana do modelo de faces
180.000
Peso do modelo de atenção dinâmica
0.333
Peso do modelo de atenção estática
0.333
Peso do modelo de atenção devido à faces
0.333
Tabela 1: Principais parâmetros da abordagem proposta para a execução dos experimentos.
5.1 Conjunto de Vídeos do CAPTE
67
Figura 33: Movimentação da Câmera.
As Tabelas 2, 3 e 4 sintetizam os resultados obtidos para cada um dos vídeos do
conjunto de dados de teste, exibindo a precisão, a revocação e medida F1 para cada um
dos vídeos sumarizados. A abordagem proposta obteve uma precisão média de
revocação média de
84%
e um valor médio para a medida F1 de
75%,
86%,
uma
demonstrando sua
aplicabilidade e bom desempenho.
A seguir, são analisados os resultados experimentais sintetizados nas Tabelas 2, 3 e 4,
apontando-se as vantagens e limitações da abordagem proposta, além de compará-la com
o trabalho de (
SOUZA, 2012), quando possível, no que se refere à sua ecácia no processo
de sumarização automática de vídeos televisivos.
5.1.3
Avaliação dos Resultados dos Vídeos do CAPTE
SOUZA, 2012) obteve os seguintes valores médios para as mé-
O trabalho de Souza (
tricas de desempenho adotadas: precisão
0.92,
revocação
0.62
e F1
0.74,
ao passo que a
metodologia proposta neste trabalho obteve os seguintes valores médios: precisão
revocação
0.84
e F1
0.85.
0.86,
Estas informações são sumarizadas através da Tabela 5.
Apesar do método proposto apresentar um valor médio para a precisão aproximada-
SOUZA, 2012), os valores médio da revocação e
mente 7% menor que o proposto por Souza (
da medida F1 são signicativamente melhores. O menor valor da precisão está relacionado
ao modo como os quadros-chaves manuais foram selecionados, visto que a metodologia
proposta leva em consideração outros parâmetros além das pistas visuais citadas na Seção
5.1.1.
Além disso, o envelope aplicado sobre a curva de atenção visual pode deslocar,
ligeiramente, o rótulo dos quadros selecionados como quadros-chave.
Por outro lado, observa-se um aumento de
35% no valor da revocação média do método
proposto em relação àquele desenvolvido por (
SOUZA,
2012)..
A maior quantidade de
5.1 Conjunto de Vídeos do CAPTE
#
Data
68
Descrição do Programa Bloco Precisão Revocação F1
1
23/01/2012
Repórter Brasil
1
0.80
0.81
0.80
2
23/01/2012
Repórter Brasil
2
0.83
0.84
0.83
3
23/01/2012
Repórter Brasil
3
0.85
0.72
0.78
4
23/01/2012
Repórter Brasil
4
0.81
0.72
0.76
5
23/01/2012
Jornal Minas 1a ed.
1
0.91
0.79
0.85
6
23/01/2012
Jornal Minas 1a ed.
2
0.88
0.80
0.84
7
23/01/2012
Jornal Minas 1a ed.
3
0.85
0.78
0.81
8
23/01/2012
Repórter Eco 1a ed.
1
0.88
0.75
0.81
9
23/01/2012
Repórter Eco 1a ed.
2
0.82
0.76
0.79
10
23/01/2012
Repórter Eco 1a ed.
3
0.80
0.79
0.79
11
23/01/2012
Jornal Minas 2a ed.
1
0.88
0.73
0.80
12
23/01/2012
Jornal Minas 2a ed.
2
0.82
0.72
0.77
13
23/01/2012
Jornal Minas 2a ed.
3
0.49
0.74
0.59
14
23/01/2012
Brasil das Gerais
-
0.85
0.75
0.79
15
24/01/2012
Repórter Brasil
1
0.86
0.92
0.89
16
24/01/2012
Repórter Brasil
2
0.87
0.91
0.89
17
24/01/2012
Repórter Brasil
3
0.88
0.79
0.83
18
24/01/2012
Repórter Brasil
4
0.93
0.89
0.91
19
24/01/2012
Jornal Minas 1a ed.
1
0.83
0.73
0.76
20
24/01/2012
Jornal Minas 1a ed.
2
0.83
0.84
0.83
21
24/01/2012
Jornal Minas 1a ed.
3
0.92
0.83
0.87
22
24/01/2012
Jornal Minas 2a ed.
1
0.86
0.88
0.87
23
24/01/2012
Jornal Minas 2a ed.
2
0.86
0.89
0.88
24
24/01/2012
Jornal Minas 2a ed.
3
0.89
0.87
0.88
25
24/01/2012
Catalendas
-
0.63
0.83
0.72
26
24/01/2012
Meu Amigãozão
-
0.94
0.93
0.94
27
24/01/2012
Cocoricó na Cidade
-
0.98
0.81
0.89
28
26/01/2012
Jornal Minas 1a ed.
1
0.81
0.80
0.80
29
26/01/2012
Jornal Minas 1a ed.
2
0.83
0.84
0.83
30
26/01/2012
Jornal Minas 1a ed.
3
0.81
0.83
0.82
31
26/01/2012
Jornal Minas 2a ed.
1
0.87
0.84
0.85
32
26/01/2012
Jornal Minas 2a ed.
2
0.74
0.77
0.75
33
26/01/2012
Jornal Minas 2a ed.
3
0.80
0.85
0.83
Tabela 2: Métricas de desempenho para o conjunto de vídeos de teste dos dias 23/01/2012,
24/01/2012 e 26/01/2012.
quadros chave selecionados pelo método proposto é intrínseca a metodologia em si, pois
há mais parâmetros levados em consideração do que aqueles utilizados para a montagem
do gabarito.
A medida F1, que é uma média harmônica ponderada entre os valores de revocação
e precisão, é, neste trabalho, considerada a métrica de desempenho mais relevante, pois
reete o comportamento mais geral do método ao balancear as métricas precisão e revocação. O valor da medida F1 média é cerca de 15% maior que o método proposto por
(
SOUZA, 2012).
Por m, para efeitos de avaliação de desempenho computacional, o tempo total de
processamento dos vídeos do gabarito totaliza cerca de
os vídeos do gabarito totalizam cerca de
16h.
15h
de processamento, enquanto
A maior parte do tempo de processa-
mento é devido principalmente ao modelo de atenção devido à faces e sua vericação por
redundância.
5.2 Conjunto de Vídeos do Open Video Project
#
Data
69
Descrição do Programa Bloco Precisão Revocação F1
34
30/01/2012
Repórter Brasil
1
0.92
0.92
0.92
35
30/01/2012
Repórter Brasil
2
0.92
0.90
0.91
36
30/01/2012
Repórter Brasil
3
0.87
0.82
0.84
37
30/01/2012
Repórter Brasil
4
0.98
0.76
0.86
38
30/01/2012
Opnião Minas
1
0.81
0.83
0.82
39
30/01/2012
Opnião Minas
2
0.82
0.84
0.83
40
30/01/2012
Jornal Minas 1a ed.
1
0.98
0.88
0.93
41
30/01/2012
Jornal Minas 1a ed.
2
0.94
0.86
0.90
42
30/01/2012
Jornal Minas 1a ed.
3
0.98
0.80
0.88
43
30/01/2012
Jornal Minas 2a ed.
1
0.86
0.93
0.90
44
30/01/2012
Jornal Minas 2a ed.
2
0.86
0.85
0.86
45
30/01/2012
Jornal Minas 2a ed.
3
0.95
0.86
0.90
46
30/01/2012
Catalendas
-
0.76
0.97
0.85
47
30/01/2012
Cocoricó na Cidade
-
0.90
0.86
0.88
48
31/01/2012
Catalendas
-
0.88
0.83
0.85
49
31/01/2012
Repórter Brasil
1
0.92
0.86
0.89
50
31/01/2012
Repórter Brasil
2
0.88
0.88
0.88
51
31/01/2012
Repórter Brasil
3
0.84
0.89
0.87
52
31/01/2012
Repórter Brasil
4
0.90
0.88
0.89
53
31/01/2012
Jornal Minas 2a ed.
1
0.90
0.86
0.88
54
31/01/2012
Jornal Minas 2a ed.
2
0.90
0.86
0.88
55
31/01/2012
Jornal Minas 2a ed.
3
0.76
0.99
0.86
Tabela 3: Métricas de desempenho para o conjunto de vídeos de teste dos dias 30/01/2012
e 31/01/2012.
5.2 Conjunto de Vídeos do
Open Video Project
O segundo conjunto de testes é composto por 50 vídeos do
Open Video Project (OV), os
AVILA et al., 2011), (FURINI et al., 2010) e (MUNDUR;
quais coincidem com os trabalhos de (
RAO; YESHA, 2006), permitindo assim a comparação entre os métodos.
Utilizou-se ainda
a metodologia de comparação descrita na Seção 3.6 e 250 sumários criados manualmente
e disponibilizados por (
AVILA et al., 2011).
Estes sumários foram gerados por 50 usuários,
sendo que cada um trabalhou com 5 vídeos distintos.
O método proposto neste trabalho foi parametrizado da mesma forma que no conjunto
de vídeos anterior (vide Tabela 1). O método é comparado com as abordagens VSUMM1
AVILA et al., 2011), STIMO proposta por (FURINI et al., 2010)
e DT de (MUNDUR; RAO; YESHA, 2006). Além disso, os sumários disponibilizados pelo
e VSUMM2 proposta por (
Open Video Project (OV)
também foi incluído na comparação.
Os sumários de cada
um dos métodos, bem como os 250 sumários criados manualmente, estão disponíveis em
https://sites.google.com/site/vsummsite/home.
Para efeitos de comparação, utilizou-se a média dos parâmetro
CU SA
e
CU SE
(des-
critos na Seção 3.6), tomando-se cada um dos 5 sumários criados para cada um dos vídeos.
Estes valores são mostrados na Tabela 6.
Foram denidos também duas variações da metodologia proposta, a saber: a primeira
proposta é a metodologia aplicada sem nenhum limite de quadros chaves, identicada na
5.2 Conjunto de Vídeos do Open Video Project
#
Data
70
Descrição do Programa Bloco Precisão Revocação F1
56
01/02/2012
Repórter Brasil
1
0.78
0.85
0.81
57
01/02/2012
Repórter Brasil
2
0.86
0.86
0.86
58
01/02/2012
Repórter Brasil
3
0.87
0.82
0.84
59
01/02/2012
Repórter Brasil
4
0.87
0.88
0.88
60
01/02/2012
Um Menino Maluquinho
1
0.88
0.90
0.89
61
01/02/2012
Um Menino Maluquinho
2
0.88
0.87
0.87
62
01/02/2012
Catalendas
-
0.91
0.79
0.85
63
01/02/2012
Jornal Minas 1a ed.
1
0.91
0.78
0.84
64
01/02/2012
Jornal Minas 1a ed.
2
0.86
0.90
0.88
65
01/02/2012
Jornal Minas 1a ed.
3
0.83
0.92
0.87
66
01/02/2012
Jornal Minas 2a ed.
1
0.86
0.86
0.86
67
01/02/2012
Jornal Minas 2a ed.
2
0.91
0.87
0.89
68
01/02/2012
Jornal Minas 2a ed.
3
0.91
0.86
0.88
69
01/02/2012
Brasil das Gerais
1
0.83
0.91
0.87
70
01/02/2012
Brasil das Gerais
2
0.80
0.82
0.81
71
01/02/2012
Brasil das Gerais
3
0.91
0.85
0.88
72
02/02/2012
Repórter Brasil
1
0.89
0.85
0.87
73
02/02/2012
Repórter Brasil
2
0.96
0.77
0.85
74
02/02/2012
Repórter Brasil
3
0.91
0.84
0.87
75
02/02/2012
Repórter Brasil
4
0.88
0.81
0.84
76
03/02/2012
Catalendas
-
0.85
0.87
0.86
77
03/02/2012
Clube do Esporte.
-
0.80
0.85
0.82
78
03/02/2012
Jornal Minas 1a ed.
1
0.93
0.75
0.83
79
03/02/2012
Jornal Minas 1a ed.
2
0.84
0.91
0.87
80
03/02/2012
Jornal Minas 1a ed.
3
0.90
0.85
0.88
81
03/02/2012
Jornal Minas 2a ed.
1
0.94
0.79
0.86
82
03/02/2012
Jornal Minas 2a ed.
2
0.83
0.93
0.88
83
03/02/2012
Brasil das Gerais
1
0.85
0.89
0.87
84
03/02/2012
Brasil das Gerais
2
0.88
0.90
0.89
85
03/02/2012
Brasil das Gerais
3
0.74
0.76
0.75
86
03/02/2012
Repórter Brasil
1
0.80
0.86
0.83
87
03/02/2012
Repórter Brasil
2
0.82
0.87
0.84
88
03/02/2012
Repórter Brasil
3
0.74
0.85
0.80
Tabela 4: Métricas de desempenho para o conjunto de vídeos de teste dos dias 01/02/2012,
02/02/2012 e 03/02/2012.
Tabela 6 como Proposta1. Já a segunda proposta limita a quantidade de quadros chaves
em 25 por vídeo, de forma que os quadros chaves selecionados são os 25 com maior valor
de atenção visual
A(k)
e é identicada na Tabela 6 como Proposta2.
A Tabela 6 apresenta também a razão
CU SE /CU SA .
Esta razão é um indicador
da efetividade do método pois quanto mais quadros chaves o método seleciona, maior
tende a ser o parâmetro
(CU SE ). A razão
0
CU SA ,
porém, em contra partida, maior também será o seu erro
CU SE /CU SA
é portanto, um parâmetro que quanto mais próximo de
(zero), mais efetivo é o método, em outras palavras, mais próximo do sumário gerado
pelo usuário está o sumário gerado automaticamente.
Métrica
Método de Souza Método Proposto Diferença Diferença %
Precisão
0.92
Revocação
0.62
Medida F1
0.74
Tabela 5:
0.86
-0.06
-6.52%
0.84
0.22
35.48%
0.85
0.11
14.86%
Comparação dos valores médios das métricas de desempenho obtidas pelo
método de Souza e pelo método proposto.
5.2 Conjunto de Vídeos do Open Video Project
71
0.9
CUSA
CUS*A
0.8
0.7
0.6
0.5
0.4
10
15
20
25
30
# de quadros chave
35
Figura 34: Variação do parâmetro
5.2.1
40
CU SA .
Efeito da Variação da Quantidade de Quadros Chave
A variação da quantidade de quadros chaves selecionados por vídeo afeta os parâmetros
CU SA
e
CU SE ,
conforme descrito na Seção 3.6, logo, a razão
CU SE /CU SA
se
modicará. Com o intuito de averiguar a variação da efetividade do método proposto e
identicar um número ótimo de quadros chaves por vídeo, limitou-se ete parâmetro em
10, 20, 25, 30 e 40 quadros por vídeo. O efeito desta variação pode ser visto nas Figuras
34 e 35.
A Figura 34 apresenta o efeito da variação da quantidade de quadros chave selecionados no parâmetro
CU SA .
Conforme a Equação 3.16, quanto mais quadros selecionados
pelo método, maior a propabilidade do mesmo estar contido no sumário criado manualmente, logo, o parâmetro
CU SA
tende a aumentar. O efeito negativo deste aumento
de quadros selecionados é averiguado pela equação 3.17, quanto mais quadros chaves
selecionado pelo método, a probabilidade do método errar também aumenta.
Este é o
comportamento visto na Figura 35. Tanto a Figura 34 e a Figura 35 apresentam os valores
médios dos respectivos parâmetros sinalizados com um *.
Por m, na Figura 36 é apresentada a variação da razão
Parâmetro
CU SA
CU SE
CU SE /CU SA
em função da
OV DT STIMO VSUMM1 VSUMM2 Proposta1 Proposta2
0.70
0.53
0.72
0.85
0.70
0.89
0.73
0.57
0.29
0.58
0.38
0.27
0.44
0.24
0.81
0.55
0.81
0.45
0.39
0.49
0.33
Tabela 6: Comparação das médias das métricas
de sumarização.
CU SE /CU SA
CU SA
e
CU SE
para os diversos métodos
5.2 Conjunto de Vídeos do Open Video Project
72
0.5
CUSE
0.45
CUS*E
0.4
0.35
0.3
0.25
0.2
10
15
20
25
30
# de quadros chave
Figura 35: Variação do parâmetro
35
40
CU SE .
0.5
CUSE/CUSA
CUS*E/CUS*A
0.45
0.4
0.35
10
15
20
25
30
# de quadros chave
Figura 36: Variação da razão dos parâmetros
35
CU SA
40
e
CU SE .
quantidade de quados chaves selecionados. Como dito anteriormente, esta razão é um parâmetro que mede a efetividade do método e observa-se que a menor razão
ocorreu em torno de 25 quadros por vídeo.
CU SE /CU SA
73
6
Conclusões e Trabalhos Futuros
Neste capítulo, são apresentadas conclusões acerca do trabalho proposto, deixando
claro seus pontos positivos e negativos. Além disso, apontam-se perspectivas de trabalhos
futuros que possam melhorar os resultados experimentais obtidos neste trabalho.
6.1 Conclusões
Juntamente com o aumento da demanda por conteúdo multimídia nos mais diversos
segmentos da sociedade, há também a necessidade de sistemas de informações que possam armazenar, recuperar e gerenciar este conteúdo de forma eciente. Como o acervo de
conteúdo multimídia é, em diversos países, um bem de grande valor econômico e cultural,
é possível encontrar na literatura grandes esforços para o desenvolvimento de ferramentas
computacionais que auxiliem este processo.
Este trabalho apresentou uma abordagem,
baseada num modelo de atenção visual, para a sumarização automática de vídeos televisivos que vai de encontro a este aumento de conteúdo multimídia.
A metodologia proposta se baseia no conceito de atenção visual (ver Seção 3.1) para
quanticar e calcular um índice de relevância (chamado atenção visual) para todos os
quadros do vídeo em análise. Os três modelos utilizados, atenção dinâmica (Seção 4.1),
atenção estática (Seção 4.2) e a atenção devido à faces (Seção 4.3), compõem a curva
de atenção visual, que, numa segunda etapa é processada e nalmente se extraem os
quadros-chaves para a sumarização do vídeo.
O modelo de atenção dinâmica (Seção 4.1) é fortemente dependente do cálculo do uxo
LUCAS; KANADE, 1981) para
ótico. Neste trabalho, utilizou-se o método proposto por (
tal cálculo. O modelo de atenção estática (Seção 4.2) é baseado na análise de contraste,
de forma local. Para tanto, este trabalho utiliza a saída do modelo de retina proposto no
trabalho de (
BENOIT et al., 2010) .
Por m, o modelo atenção devido à faces (Seção 4.3)
se baseia no classicador descrito por (
VIOLA; JONES, 2001a) para a detecção das faces.
6.2 Resultados da Base de Vídeos do CAPTE
74
6.2 Resultados da Base de Vídeos do CAPTE
A avaliação de desempenho do método proposto foi feita através do cálculo da precisão, revocação e medida F1 dos quadros-chaves obtidos em comparação com um gabarito
previamente preparado por documentalistas.
Para efeitos de avaliação de desempenho,
SOUZA, 2012).
estas métricas foram comparadas, sempre que possível, com o trabalho de (
Nota-se que os resultados experimentais são promissores e que contribuem signicativamente para a melhoria do sistema de informações multimídia mantido pelo CAPTE,
sobretudo ao se considerar o aumento - em torno de
15% - da medida F1 média, principal
métrica de desempenho considerada neste trabalho. Houve também um aumento bastante
expressivo da revocação média - em torno de
35% - apesar da diminuição de cerca de 7.5%
da precisão.
6.3 Resultados da Base de Vídeos do Open Video Project
A comparação do método proposto com outros trabalhos se deu em duas formas:
uma utilizando-se todos os quadros chaves selecionados pelo método e outra limitando-se
o número de quadros chaves selecionados.
A primeira abordagem (Proposta1) apresentou maior precisão que os demais métodos
utilizados na comparação, entretanto, o erro também foi superior. O resultado combinado
destes dois parâmetros pode ser mensurado pela razão
CU SE /CU SA
- aqui chamada de
efetividade - e apesar de ter apresentado resultados melhores que os métodos OV e STIMO,
o método proposto não superou os resultados do VSUMM1.
Já a segunda abordagem (Proposta2), onde há a limitação da quantidade de quadros
chaves selecionados em 25 quadros chave por vídeo, apresentou resultados mais satifatórios
que todos os métodos comparados.
obtida comparando-se a razão
A quantidade de 25 quadros chave por vídeo foi
CU SE /CU SA
para diversas quantidades de quadros chaves
selecionados.
6.4 Trabalhos Futuros
Como perspectiva para futuros trabalhos, modicações podem ser propostas para a
aprimoramento e até mesmo especialização por gênero televisivo da metodologia proposta.
6.4 Trabalhos Futuros
75
A audição também é uma importante fonte de direcionamento da atenção humana
(
MA et al., 2005).
Por exemplo, é possível provocar sensações e sentimentos especícos no
espectador de um vídeo utilizando-se trilhas sonoras adequadas, além de entonações de
vozes compatíveis com sentimento que se deseja provocar. Assim, é plausível a inserção
de um quarto modelo de atenção, entretanto, baseado no canal auditivo.
Outro ponto a ser explorado, é a avaliação do método proposto em cenários em que
há predomínio de um modelo sobre outros, modicando-se assim os pesos de ponderação.
Estas modicações podem ser inclusive utilizadas para a especialização do método em
função do gênero a ser analisado.
Além disso, a implementação de um mecanismo para eliminação de redundância, com
base no conteúdo visual dos quadros-chaves selecionados, pode reetir de forma positiva
nos resultados obtidos pelo método proposto, visto que, reduziria a quantidade de quadros
selecionados.
Por m, especicamente para o modelo de atenção baseado em faces, pode-se aumentar, signicativamente, o desempenho computacional utilizando-se métodos de detecção
de faces mais robustos e de melhor desempenho computacional, eliminando-se assim a
etapa de validação por redundância utilizada.
76
Referências
ARISTOTLE.
On Sense and the Sensible. eBooks@Adelaide, The University of Adelaide,
2012. Disponível em:
<http://ebooks.adelaide.edu.au/a/aristotle/sense>.
AVILA, S. E. F. et al. Vsumm: A mechanism designed to produce static video summaries
Pattern Recognition Letters, v. 32, n. 1, p. 56 68, 2011.
and a novel evaluation method.
ISSN 0167-8655. Image Processing, Computer Vision and Pattern Recognition in Latin
America.
Articial Intelligence, v. 48, p. 5786, 1991.
BALLARD, D. Animate vision.
BARRETO, J. S. Desaos e avanços na recuperação automática da informação audiovisual.
Ciência da Informação - SCIELO Brasil, v. 36, n. 3, p. 1728, SetDez 2007.
BEAUCHEMIN, S.; BARRON, J. The computation of optical ow.
Surveys, v. 27, p. 433467, 1996.
ACM Computing
The Neural Information Processing in the Vertebrate Retina: A Melting
Pot of Ideas for Articial Vision. Tese (PhD Thesis in Computer Science) INPG,
BEAUDOT, W.
France, 1994.
BENMOKHTAR, R. et al. Video shots key-frames indexing and retrieval through pattern
analysis and fusion techniques.
International Conference on Information Fusion,
p. 16,
2007.
BENOIT, A. et al. Using human visual system modeling for bio-inspired low level image
processing.
Comput. Vis. Image Underst.,
Elsevier Science Inc., New York, NY, USA,
v. 114, n. 7, p. 758773, jul. 2010. ISSN 1077-3142. Disponível em:
<http://dx.doi.org-
/10.1016/j.cviu.2010.01.01>.
BERTINI, M.; BIMBO, A. D.; PALA, P. Content-based indexing and retrieval of tv news.
Pattern Recognition Letters, v. 22, n. 5, p. 503516, 2001.
BINDEMANN, M. et al. The control of attention to faces.
Journal of Vision, v. 7, n. 10,
2007.
BOUCART, M.; HENA, A.; BELIN, C.
Vision: aspects perceptifs et cognitifs. [S.l.]:
Edi-
tion Solal, 1998.
BRADSKI, G.; KAEHLER, A.
Learning OpenCV.
1a. ed. [S.l.]:
O Reilly Media, Inc,
2008. 543 p.
BROADBENT, D.
Perception and communication. NY: Pergamon Press, 1958.
BUNDESEN, C.; HABEKOST, T. Handbook of cognition. In: SAGE PUBLICATIONS.
Attention. [S.l.]:
Lamberts, K. and Goldstone, R., 2005.
Referências
77
Recuperação multimodal de imagens com realimentação de relevância
baseada em programação genética. Dissertação (Mestrado) Instituto de Computação,
CALUMBY, R. T.
Universidade Estadual de Campinas, 2010.
CAVE, K. The featuregate model of visual selection.
Psychological Res, v. 62, p. 184194,
1999.
CLARK, J. J.; FERRIER, N. J. Modal control of an attentive vision system. In:
International Conference on Computer Vision. Tampa, Florida, US: [s.n.], 1988.
DESIMONE, R.; DUNCAN, J. Neural mechanisms of selective visual attention.
Rev. of Neuroscience, v. 18, p. 193222, 1995.
2nd
Ann.
DESIMONE, R. et al. Attentional control of visual perception: cortical and subcortical
mechanisms. In:
Cold Spring Harbor on Quantitative Biology.
[S.l.]: Cold Spring Harbor
Laboratory Press, 1990. LV: The Brain, p. 963971.
DEUBEL, H.; SCHNEIDER, W. X. Saccade target selection and object recognition: Evidence for a common attentional mechanism.
Vision Research, v. 36, p. 1827?1837, 1996.
DEUTSCH, J.; DEUTSCH, D. Attention: Some theoretical considerations.
Psych, v. 70,
p. 8090, 1963.
DIMITROVA, N. et al. Applications of video-content analysis and retrieval.
media, p. 4255, 2002.
IEEE Multi-
DOULAMIS, N. et al. A stochastic framework for optimal key frame extraction from
mpeg video databases. In:
Multimedia Signal Processing, 1999 IEEE 3rd Workshop on.
[S.l.: s.n.], 1999. p. 141 146.
DUNLOP, H. Scene classication of images and video via semantic segmentation. In:
Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer
Society Conference on. [S.l.: s.n.], 2010.
A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995.
FREUND, Y.; SCHAPIRE, R. E.
FRINTROP, S.; KLODT, M.; ROME, E. A real-time visual attention system using integral images. In:
5th Int. Conf. on Computer Vision Systems (ICVS). Bielefeld, Germany:
[s.n.], 2007.
FRINTROP, S.; ROME, E.; CHRISTENSEN, H. I. Computational visual attention systems and their cognitive foundations: A survey.
ACM Transactions on Applied Perception,
v. 7, 2010.
FURINI, M. et al. Stimo: Still and moving video storyboard for the web scenario.
media Tools Applications, p. 46:4769, 2010.
Multi-
GAUCH, J.; SHIVADAS, A. Identication of new commercials using repeated video sequence detection.
GIBSON, J.
IEEE International Conference on Image Processing, v. 3, 2005.
The Perception of the Visual World. [S.l.]:
Houghton Miin, 1950.
Referências
78
GROSSBERG, S. A psychophysiological theory of reinforcement, drive, motivation, and
attention.
Journal of Theoretical Neurobiology, v. 1, p. 286369, 1982.
HAAR, A. Zur theorie der orthogonalen funktionensysteme erste mitteilung.
tische Annalen, v. 69, n. 3, p. 331371, 1910.
Mathema-
HAMKER, F. H. The emergence of attention by population-based inference and its role
Journal of Computer Vision
and Image Understanding (CVIU), Special Issue on Attention and Performance. [S.l.:
in distributed processing and cognitive control of vision. In:
s.n.], 2005. v. 100, p. 64106.
HAMKER, F. H. Modeling feature-based attention as an active top-down inference process.
BioSystems, v. 86, 2006.
HANNON, J. et al. Personalized and automatic social summarization of events in video.
International Conference on Intelligent User Interfaces, p. 335338, 2011.
HEINEN, M. R.; ENGEL, P. M. Evaluation of visual attention models under 2d similarity
transformations. In:
Proceedings of the 2009 ACM symposium on Applied Computing. New
York, NY, USA: ACM, 2009. (SAC '09), p. 11561160. ISBN 978-1-60558-166-8.
HILLAIRE, S. et al. A real-time visual attention model for predicting gaze point during
rst-person exploration of virtual environments. In:
posium on Virtual Reality Software and Technology.
Proceedings of the 17th ACM Sym-
New York, NY, USA: ACM, 2010.
(VRST '10), p. 191198. ISBN 978-1-4503-0441-2.
HJELMAS, E.; LOW, B. Face detection: A survey.
tanding, v. 83, p. 236274, 2001.
Computer Vision and Image Unders-
HORN, B. K. P.; SCHUNCK, B. G. Determining optical fow.
Articial Intelligence, v. 17,
p. 185204, 1981.
ITTI, L.; KOCH, C. Computacional modelling of visual attention.
roscience, v. 2, p. 194203, 2001.
Nature Reviews: Neu-
JOBSON, D.; RAHMAN, Z.-u.; WOODELL, G. A multiscale retinex for bridging the
gap between color images and the human observation of scenes.
Transactions on, v. 6, n. 7, p. 965976, 1997. ISSN 1057-7149.
KALE, K. V.; MEHROTA, S. C.; MANZA, R. R.
Information Technology. [S.l.]:
Advances in Computer Vision and
I. K. International, 2007.
KANDEL, E. R.; SCHWARTZ, J. H.; JESSELL, T. M.
Behavior. [S.l.]:
Image Processing, IEEE
Essentials of Neural Science and
McGraw-Hill/Appleton & Lange, 1996.
KNUDSEN, E. Fundamental components of attention.
Annu. Rev. Neurosci,
v. 30, p.
5778, 2007.
KOCH, C.; ULLMAN, S. Shifts in selective visual attention:
neural circuitry.
Human Neurobiology, v. 4, p. 219227, 1985.
LAGANIÈRE, R.
towards the underlying
OpenCV 2 Computer Vision Application Programming Cookbook. [S.l.]:
Packt Publishing, 2011. 304 p.
Referências
79
International
Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction. New York, NY, USA: ACM, 2010. (ICMI-MLMI '10), p. 27:127:8.
LI, K. et al. Human-centered attention models for video summarization. In:
ISBN 978-1-4503-0414-6.
LI, L. et al. Video summarization via transferrable structured learning.
World Wide Web, p. 287296, 2011.
Conference on
LIENHART, R.; MAYDT, J. An extended set of haar-like features for rapid object detection. In:
IEEE ICIP. [S.l.:
s.n.], 2002. v. 1, p. 900903.
LIMA, F. B. et al. Reconhecimento automático de fala aplicado à indexação e recuperação
de vídeos televisivos com sinais de Áudio em português brasileiro. In:
- Encontro de Modelagem Computacional. Nova Friburgo:
Anais do XIII EMC
[s.n.], 2010.
LUCAS, B. D.; KANADE, T. An iterative image registration technique with an application to stereo vision. In:
DARPA Imaging Understanding Workshop.
[S.l.: s.n.], 1981. p.
121130.
MA, Y.-F. et al. A model of motion attention for video skimming. In:
IEEE International
Conference on Image Processing. Rochester, New York, USA: [s.n.], 2002a. p. 2225.
MA, Y.-F. et al. Contrast-based image attention analysis by using fuzzy growing. In:
11th
ACM International Conference on Multimedia. Berkeley, CA, USA: [s.n.], 2003. p. 28.
MA, Y.-F. et al. A generic framework of user attention model and its application in video
summarization1.
IEEE Transactions on Multimedia Journal, 2005.
MA, Y.-F. et al. A user attention model for video summarization.
ACM Multimedia,
2002b.
MEAD, C. A.; MAHOWALD, M. A silicon model of early visual processing.
Networks,
v. 1, n. 1, p. 91 97, 1988. ISSN 0893-6080. Disponível em:
Neural
<http://www-
.sciencedirect.com/science/article/pii/089360808890024>.
MENDI, E.; BAYRAK, C. Shot boundary detection and key frame extraction using salient
region detection and structural similarity. In:
Regional Conference.
Proceedings of the 48th Annual Southeast
New York, NY, USA: ACM, 2010. (ACM SE '10), p. 66:166:4.
ISBN 978-1-4503-0064-3.
Detecting salient regions in an image: From biological evidence to computer implementation. Tese (Doutorado) University of Geneva, Switzerland, 1993.
MILANESE, R.
MILANESE, R. et al. Integration of bottom-up and top-down cues for visual attention
using non-linear relaxation. In:
cognition (CVPR94). [S.l.:
IEEE Conference on Computer Vision and Pattern Re-
s.n.], 1994. p. 781785.
MUNDUR, P.; RAO, Y.; YESHA, Y. Keyframe-based video summarization using delaunay clustering.
Internat. J. Dig. Libr, v. 2, n. 6, p. 219232, 2006.
OUERHANI, N.
Visual Attention: From Bio-Inspired Modeling to Real-Time Implemen-
tation. Tese (Doutorado) Institut de Microtechnique Universite de Neuchâtel, 2003.
Referências
80
PALMER, S. E.
Vision Science, Photons to Phenomenology.
Cambridge, MA: The MIT
Press, 1999.
PAPAGEORGIOU, C. P.; OREN, M.; POGGIO, T. A general framework for object
detection. In:
ICCV98: Proceedings of the Sixth International Conference on Computer
Vision. Washington, DC, USA: IEEE Computer Society, 1998. p. 555.
PELI, E. Contrast in complex images.
Journal of the Optical Society of America, v. 7, p.
20322040, 1990.
Desenvolvimento de um Sistema de Informação Multimídia
para Apoio à Análise Discursiva de Vídeos Televisivos. Dissertação (Mestrado) PEREIRA,
M.
H.
R.
PPGMMC/CEFET-MG, Belo Horizonte/MG, 2012.
PEREIRA, M. H. R. et al. Modelagem de um sistema de informação para recuperação de
Anais do XIII EMC - Encontro de Modelagem
Computacional. Nova Friburgo/RJ: [s.n.], 2010.
vídeos por meio de metadados textuais. In:
PETRELLI, D.; AULD, D. An examination of automatic video retrieval technology on
access to the contents of an historical video archive.
Systems, v. 42, p. 115136, 2008.
Electronic Library and Information
A Análise Discursiva de Entrevistas e Debates Televisivos como Parâmetro para Indexação e Recuperação de Informações em um Banco de Dados Audiovisuais.
SABINO, J. L. F.
Dissertação (Mestrado) POSLING/CEFET-MG, Belo Horizonte/MG, 2011.
SABINO, J. L. F.; SILVA, G. D.; PÁDUA, F. L. C. Contribuições da análise do discurso
para indexação do programa rede mídia em um banco de dados audiovisuais. In:
Internacional de Análise do Discurso. [S.l.:
II Fórum
s.n.], 2010. p. 12831291.
SABINO, J. L. F.; SILVA, G. D.; PÁDUA, F. L. C. Parâmetros discursivos para indexação
da programação televisiva em um banco de dados audiovisuais: Análise do programa rede
mídia. In:
IX Encontro do Círculo de Estudos Linguísticos do Sul. [S.l.:
SANTOS, T. T.
Segmentação automática de tomadas em vídeo.
s.n.], 2010.
Dissertação (Mestrado)
Universidade de São Paulo (USP), São Paulo/SP, 2004.
SEKULER, R.; BLAKE, R.
Perception. 2. ed. [S.l.]:
McGraw-Hill, 1990.
SHAO, L.; JI, L. Motion histogram analysis based key frame extraction for human action/activity representation. In:
Conference on. [S.l.:
Computer and Robot Vision, 2009. CRV '09. Canadian
s.n.], 2009. p. 88 92.
SHI, J.; TOMASI, C. Good features to track.
Pattern Recognition, 1994.
IEEE Conference on Computer Vision and
A Informação Televisiva: Uma Encenação da Realidade (Comparação entre Telejornais Brasileiros e Franceses). Tese (Doutorado) FALE/UFMG, Belo HoriSILVA, G. D.
zonte/MG, 2005.
SIMONS, D. J.; LEVIN, D. T. Change blindness.
261267, 1997.
Trends in Cognitive Sciences,
v. 1, p.
Referências
81
Recuperação de Vídeos Baseada em Conteúdo em Um Sistema de Informação para Apoio à Análise do Discurso Televisivo. Dissertação (Mestrado) SOUZA, C. L.
PPGMMC/CEFET-MG, Belo Horizonte/MG, 2012.
SUMMERFIELD, M.
Qt 4. [S.l.]:
Advanced Qt Programming: Creating Great Software with C++ and
Prentice Hall, 2010. 550 p.
THELIN, J.
Foundations of Qt Development. [S.l.]:
Apress, 2007. 528 p.
TONDATO, M. P. Os gêneros televisivos no cotidiano da recepção de televisão. II COLÓQUIO BINACIONAL BRASIL-MÉXICO DE CIÊNCIAS DA COMUNICAÇÃO, 2009.
TREISMAN, A. The eect of irrelevant material on the eciency of selective listening.
American J. Psychology, v. 77, p. 533546, 1964.
TREISMAN, A.; GELADE, G. A feature integration theory of attention.
chology, v. 12, p. 97136, 1980.
Cognitive Psy-
TREISMAN, A.; GORMICAN, S. Feature analysis in early vision: Evidence from search
asymmetries.
Psychological Review, v. 95, p. 1548, 1998.
TREUE, S.; MARTINEZ-TRUJILLO, J. Feature-based attention inuences motion processing gain in macaque visual cortex.
Nature, v. 399, p. 575579, 1999.
TRUONG, B. T.; VENKATESH, S. Video abstraction: A systematic review and classication.
ACM Transactions on Multimedia Computing, Communications, and Applications,
v. 3, 2007.
TSOTSOS, J. A complexity level analysis of vision.
Behavioral and Brain Sciences, v. 13,
p. 423445, 1990.
TSOTSOS,
sual
J.
attention.
K.;
2011.
ROTHENSTEIN,
Disponível
A.
Computational
em:
models
of
vi-
<www.scholarpedia.org/article-
/Computational models of visual attentio>.
ULLMAN, S.
The interpretation of visual motion. [S.l.]:
MIT Press, 1979.
VIOLA, P.; JONES, M. Rapid object detection using a boosted cascade of simple features.
In:
IEEE Conference on Computer Vision and Pattern Recognition. [S.l.:
s.n.], 2001. v. 1.
Second International
Workshop on Statistical and Computational Theories of Vision - Modeling, learning, computing and sampling. Vancouver, Canadá: [s.n.], 2001.
VIOLA, P.; JONES, M. Robust real-time object detection. In:
WOLFE, J.; CAVE, K.; FRANZEL, S. Guided search: An alternative to the feature integration model for visual search.
Exp. Psychology: Human Perception and Performance,
v. 15, p. 419433, 1989.
WOLFE, J. M. Guided search 2.0: A revised model of visual search.
and Review, v. 2, p. 202238, 1994.
Psychonomic Bulletin
YANG, M.-H.; KRIEGMAN, D. J.; AHUJA, N. Detecting faces in images: A survey. In:
IEEE Transactions on Pattern Analysis and Machine Intelligence. [S.l.:
p. 3458.
s.n.], 2002. v. 24,
Referências
82
ZHANG, C.; ZHANG, Z.
A Survey of Recent Advances in Face Detection. [S.l.], 2010.
ZHANG, X.-D. et al. Dynamic selection and eective compression of key frames for video
abstraction.
Pattern Recognition Lett, 2003.