c - NICS - Unicamp

Transcrição

c - NICS - Unicamp
Editorial
Esteéé oo nono
número
da revista
online NICS
Reports
(NR),
a quarta(NR),
e última
edição publicada
Este
décimo
número
da revista
online
NICS
Reports
a primeira
ediçãono ano de
2014, a NR9.
edição
traz, como
de costume,
seleção
de cinco
e alunos do
publicada
noEsta
ano
de 2015
; a NR10.
Estauma
edição
traz
uma trabalhos
seleçãodedepesquisadores
trabalhos de
pesquisadores
e
alunos
do
Núcleo
Interdisciplinar
de
Comunicação
Sonora
(NICS)
da
Núcleo Interdisciplinar de Comunicação Sonora (NICS). O objetivo das publicações NR é divulga os trabalhos
Universidade
Estadual
Campinas
(UNICAMP)
.
acadêmicos do NICS
que jáde
foram
publicados
em outros meios
de comunicação, tais como: simpósios, congressos
O objetivo das publicações NR é divulgar os trabalhos acadêmicos do NICS que já
e revistas indexadas. Neste número, apresentamos cinco artigos divulgados em anais de eventos científicos
foram apresentados em outros eventos e publicados em outros meios de comunicação,
nacionais
internacionais.congressos
Todos estese abordam
relacionados
ciência e apresentamos
arte da produção e do
tais
como:e simpósios,
revistas temas
indexadas.
Nesteà número,
entendimento
da música, em
suas
diferentes
nuances,
perspectivas
a utilizações,
tais como: a cognição
três
artigos divulgados
em
anais
de eventos
científicos
nacionais
e internacionais.
Todosmusical, a
estes
abordam
temas
relacionados
à
ciência
e
arte
da
produçã
o,
performance
e do
musicologia, as performances multimodais, a música computacional, a psicoacústica e a emoção musical.
entendimento
daartigo,
música,
em suas
diferentes
nuances, perspectivas
a utilizações,
tais Moroni,
O primeiro
intitulado
“Transgenic
Visual-and-Sound
Compositions”, de
autoria de Artemis
como: a cognição musical, a musicologia, as performances multimodais, a música
Rafael Bocaletto Maiolla e Jonatas Manzolli, apresenta os resultados com formas num ambiente computacional
computacional, a psicoacústica e a emoção musical.
evolutivo
gráfica.
O aplicado
primeiroà produção
artigo, “Análise
de Ramifications de Ligeti utilizando Transformada
O segundo
artigo,Manzolli
intitulado e“Composição
a partir
da análiseum
sonora
de técnicas
instrumentais, via
Wavelet”
de Jônatas
Andre Luizmusical
Luvizotto
apresenta
processo
de análise
com
auxílio
do
computador
da
obra
“Ramifications”
(1968-69)
para
orquestra
de
cordas musical,
descritores de áudio”de autoria de Ivan Eiji Yamauchi Simurra, trata da composição e da performance
ou
12importantes
cordas solistas
Ligeti. Aasanálise
tomainseridas
como ponto
de vista
o automatismo
no
como
frentes de
de trabalho
quais estão
no universo
complexo
do criação musical,
onde
mecanismo variacional das alturas e o processo de entrelaçamento temporal de
analisa, na história da música, o trabalho colaborativo entre o planejamento e as estratégias composicionais com
camadas na obra de Ligeti.
as práticas
interpretativas
e execução
musical.
O segundo
artigo,
“Sonifying
Robotic Trajectories with a Spherical Omnidirectional
O
terceiro
artigo,
intitulado
“Projeto
Destino
EstudoSidney
sobre Cunha,
a Composição
Vision System in the AURAL Environment”
dePirilampo:
Artemis Um
Moroni,
Josuéde MetaRamos
e Jônatas
Manzolli,
descreve
OmniEye,
um sistema
visãoubíqua
omnidirencional
Soundscapes
em Música
Ubíqua”,
de Luzileio Aliel
e José Fornari,
trata dademúsica
como uma derivação
desenvolvido
para
rastrear
os
robots
móveis
que
integram
o
sistema
AURAL.
Este
natural da música eletroacústica nas quais equipamentos eletronicos são amplamente interconectados
para juntos
sistema
visa
controlara
interação
entre
informação
visual,
sônica
e
robótica
numa
criarem meta-soundscapes.
pesquisa para a produção automática e semi automática de arte computacional.
quarto artigo, intitulado “An Evolutionary Algorithm to Create Artificial Soundscapes of Birdsongs”, de
O Oterceiro
artigo, “Análise Computacional de Texturas Sonoras via Mapas de
José
Fornari,
descreve
um Monteiro
sistema computacional
desenvolvido
emum
PureData
para
a criação de uma
Poincaré”, de Adriano
e Jônatas evolutivo
Manzolli,
apresenta
estudo
utilizando
técnicas
computacionais
parasons
extrair
informação
espectral do áudio digitalizado e
paisagem sonora
artificial que emula
de cantos
de pássaros.
descrever
sonoras
Por texturas
fim, o quinto
artigo, complexas.
intitulado “Aplicações artísticas de ubimus”, de José Fornari, traz exemplos de 7
Esperamos
que
os
trabalhos
aqui apresentados, no décimo número do NICS
aplicações computacionais desenvolvidas pelo autor que são aplicadas em pesquisas e performances de música
Reports (NR10) sejam de interessante amplo e diversificado, sendo pertinentes e úteis a
ubíqua.
todos
os leitores. Que este artigos venham a contribuir para a divulgação e o
Esperamos da
que pesquisa
os trabalhos
apresentados,
nono número
do pela
NICScomputação,
Reports (NR9) àsejam de
desenvolvimento
emaqui
artes
sonoras e no
música,
mediada
interessante
amplo e
diversificado,
pertinentes e úteis a todos
os leitores,se
e assim
venham a contribuir
para
todos
aqueles
que
estudamsendo
aprofundadamente,
ou apenas
interessam
pela
indefinível
fronteira
entre a em
ciência
e a arte.e música mediada pela computação, para todos
a divulgaçãoeeindecifrável
o desenvolvimento
da pesquisa
artes sonoras
aqueles que estudam aprofundadamente, ou apenas se interessam pela indefinível e indecifrável fronteira entre a
ciência e a arte.
Campinas, janeiro de 2015
Campinas, outubro de 2014
Equipe Editorial da NR
NICS / UNICAMP
Análise de Ramifications de Ligeti utilizando Transformada Wavelet
Jônatas Manzolli, Andre Luiz Luvizotto
Núcleo Interdisciplinar de Comunicação Sonora (NICS)
Departamento de Musica, Unicamp
SPECS, Instituto Audiovisual
Universidade Pompeu Fabra, Barcelona, Espanha
[email protected]
RESUMO
Este artigo apresenta um processo de análise com auxílio do computador da obra
“Ramifications” (1968-69) para orquestra de cordas ou 12 cordas solistas de Ligeti. A análise toma
como ponto de vista o automatismo no mecanismo variacional das alturas e o processo de
entrelaçamento temporal de camadas na obra de Ligeti. O objetivo do texto é mostrar que para
obras neste contexto textural, o uso da Transformada Wavelet pode desvendar aspectos da
complexa construção do compositor.
Palavras-chave: Ligeti, Análise, Textura, Wavelet
ABSTRACT
This article presents a computer assisted music analysis of Ligeti’s Ramifications (1968-69),
for string orchestra or 12 soloist strings. It takes as point of view the automatism applied to pitch
transformations and procedures for time nesting of layers in Ligeti’s works. The objective of the text is
to show that for textural pieces composed in this context, the use of Wavelet Transform could be a way
to reveal the composer’s complex build.
Keywords: Ligeti, Analysis, Texture, Wavelet
1 Introdução
A obra de György Ligeti (1923-2006) traz consigo o pensamento de um compositor
que demonstrou grande autonomia e autenticidade no contexto da música da segunda
metade do século passado até os nossos dias. Por não estar notadamente vinculado a
um movimento como o serialismo integral, a eletroacústica, a utilização do acaso ou
processos estocásticos, a sua linguagem parece transgredir os dogmas da transgressão
do Século XX. Figuram nas suas obras apenas duas composições eletroacústicas
“Glissandi” (1957) e “Artikulation” (1958), mas dialogou de forma contundente com
todos estes contextos. Ligeti foi um compositor que, ao desenvolver o complexo
sonoro, destacou-se na sua forma de lidar com o continuum, pois criou um discurso
textural peculiar. Nas próximas seções fazemos um levantamento de referências que
apontam para os dois aspectos importantes da obra de Ligeti que estão vinculados à
visão deste artigo, apresentamos um modelo de análise de complexidade textural e
discutidos o seu potencial ao analisarmos um breve trecho de “Ramifications”.
2 O Discurso Textural de Ligeti
Alguns autores, mencionados a seguir, apontam para duas características importantes
da linguagem composicional de Ligeti: o automatismo algorítmico com o qual
desenvolveu a sua escritura e a superposição de camadas na busca de textura
complexas. Numa primeira observação, podemos notar que estes dois pontos são
complementares, pois o automatismo cria os entrelaçamentos que constroem a
complexa teia de alturas que suporta as massas sonoras.
Em obras como o “Continuum” (1968) o desdobramento da complexidade da peça se
dá graças a forma como a técnica de interpretação do Cravo foi utilizada habilmente
por Ligeti. Com a repetição de padrões mecânicos no teclado desse instrumento,
Ligeti conecta a sonoridade discreta do cravo às nuances do continuum. Para isto, fez
uso de um processo iterativo, que pode estar associado a técnicas algorítmicas que
utilizam recursão (ou loops) para obter a aproximação numérica desejada. A
superposição de camadas, o mecanismo de defasagem e a articulação temporal são
processos que articulam simultaneamente o complexo de alturas e uma teia1 intricada
de figurações rítmicas em “Ramifications”. No que tange a hipótese analítica deste
artigo, estes mecanismos construtivos estão diretamente ligados a integração de
componentes de tempo e de freqüência que podem ser expressos pelo suporte da
Função Base da Transformada Wavelet que determina a resolução no domínio da
freqüência e a sua localização temporal que dá a resolução no domínio do tempo [vide
Luvizotto, 2007].
2.1 Automatismo Algorítmico
Clendinning (1993) destaca na sua análise o que chama composições baseadas em
padrões mecânicos. Ela também descreve as características de Ligeti relacionadas
com simultaneidade de camadas, cada uma delas com espaço intervalar pequeno,
repetição de padrões melódicos e variação gradual do material no decorrer da obra. A
peça “Continuum” (1968) é analisada em detalhes e a autora também mostra como
Ligeti desenvolveu esta técnica em outras composições como “Ramifications” (196869). Para sua análise, Clendinning (1993) utiliza-se de gráficos que descrevem os
parâmetros variacionais aplicados por Ligeti à tessitura, à interação entre diferentes
padrões mecânicos, as respectivas taxas de variação e os pontos de transformação.
Outros autores também discutem as características da linguagem de Ligeti como
[Reiprich, 1978] que analisa a obra “Lontano” (1967) sob a ótica de que há um
1
Ligeti descreve um sonho quando criança e vincula a sua construção textural com a metáfora de uma teia de
aranha [Bernard, 1993; Saraiva, 2008].
pensamento canônico na peça devido a complexidade rítmica de cada uma das
camadas e o grande número de linhas canônicas que soam simultaneamente.
[Morrison, 1985-1986] analisa também aspectos relacionados a manipulação das
alturas nas Dez Peças para Quinteto de Sopros (1968) de Ligeti. Mais uma vez, estes
dois autores destacam a combinação do complexo das alturas com o entrelaçamento
do processo rítmico.
2.2 Complexo de Altura como Teia
Um dos aspectos mais estudados da obra de Ligeti é a utilização, na sua escritura, de
uma densa teia de estruturas intervalares denominada de micropolifonia. Ligeti
(Bernard, 1993) descreve sua técnica da seguinte forma:
"Complexa polifonia imbricada num fluxo harmônico-musical, no qual as harmonias não
mudam repentinamente, mas fundem-se uma nas outras; onde pode-se discernir
claramente que a combinação de intervalos é gradualmente desfocada e, a partir dessa
nebulosidade é possível discernir uma nova combinação intervalar tomando forma".
Como apresentado em [Roig-Francoli, 1995], nas obras micropolifônicas de Ligeti,
após a década de 60, não há mais neutralidade harmônica, mas sim uma
transformação intervalar progressiva dirigida a certas regiões de alturas. Este autor
denomina estas regiões de constelações e destaca que Ligeti desenvolve um processo
de construção de redes (net-structure) e usa para isto técnicas composicionais
baseadas num processo sistemático de iteração e transformação de um determinado
conjunto de parâmetros musicais. Exemplos podem ser encontrados em obras como
“Ramifications” (1968-69) e o Segundo Quarteto de Cordas (1968).
Nota-se nestas obras uma morfologia muito característica de Ligeti, são processos que
geram flutuações cromáticas vinculadas a microestruturas melódicas, transformação
do conteúdo harmônico por expansão e contração intervalar, transformação cromática
de tríades e no contexto geral as texturas resultantes sofrem transformações de
dinâmica, articulação e figuração rítmica. No tratamento rítmico, Ligeti cria um
processo de conexão de camadas com figuração rítmica variada. As alturas são
conectadas em rede e defasadas no tempo para produzir uma maior articulação da
textura da obra. Este aspecto da técnica de Ligeti aponta para uma composição que
insere mudanças tanto no domínio tempo (articulação rítmica em rede) quanto da
freqüência (transformação micro-intervalares) e, portanto, levou-nos a indagar sobre a
possibilidade de analisar este material com uma ferramenta computacional que
apontasse para mesma direção.
3 Análise por Transformada Wavelet
A Transformada Wavelet utilizada neste artigo foi alvo de estudo em [Luvizotto,
2007] onde verificou-se o potencial desta metodologia na representação de sinais
musicais. Como ampliação deste trabalho, utilizamos neste artigo a mesma
metodologia como ferramenta de análise aplicada às características texturais de
“Ramifications (1968-69)”.
3.1 Modelo Sonoro
Fazemos aqui uma introdução ao processo de análise utilizando o “Poème
Symphonique” (1962) para 100 metrônomos de Ligeti. Essa obra evidencia o modo
de operar sobre estruturas temporais desenvolvido em diversas das suas composições.
No “Poème” há superposição de 100 camadas temporais, cada uma relacionada com
um pulso diferente que é controlado individualmente por cada metrônomo. A medida
em que a peça se desenvolve, a sonoridade resultante gradualmente vai perdendo
camadas da massa sonora. Como se o compositor utilizasse um filtro para retirar
gradualmente o conteúdo de cada camada. Na análise com a Transformada Wavelet,
realizam-se operações matemáticas que se comportam de forma similar ao processo
sonoro do “Poème” .
3.2 Transformada Wavelet
Existem pelo menos duas maneiras de abordar a Teoria sobre Wavelets: uma é através
das Transformadas Contínuas e outra através de Análise em Multi-Resolução (MRA).
Sendo que a segunda é a abordagem utilizada neste trabalho. A MRA possibilita
decompor um sinal f(t), com t ∈ R, em aproximações sucessivas de resolução cada
vez menor, numa sequência de processos de filtragem consecutivos. Na MRA duas
funções são utilizadas: a Wavelet e a Função de Escala, que são ortogonais entre si. A
função Wavelet é utilizada para gerar um filtro passa-altas2 que dá origem aos
chamados Coeficientes de Detalhes (CD) do sinal; a função de escala, com oscilações
2
A expressão “passa-alta” descreve o comportamento de um filtro que dada uma freqüência de corte deixa passar
somente as componentes do espectro com valor frequencial acima deste valor.
em baixas frequências, é utilizada para criar um filtro passa-baixas responsável pelos
chamados Coeficientes de Aproximação (CA) [vide Luvizotto, 2007].
4 Análise
Para a implementação da análise foi escrito um programa em linguagem Matlab, as
wavelets escolhidas foram as da família Daubechies [vide Luvizotto, 2007] e o
arquivo digital de áudio (PCA, 44.1 Khz, 16 bits) foi a gravação da obra da Deutsches
Grammophon executada pelo Ensemble Intercontemporain, sob a regência de Pierre
Boulez em março de 1982 no IRCAM, Paris, com produção de Rudolf Werner. As
informações básicas sobre a peça são: “Ramifications” (1968-69) foi escrita para
orquestra de cordas ou 12 cordas solistas; a peça é constituída por dois grupos de seis
instrumentos de cordas: Grupo I (Violinos 1, 2, 3 e 7, Viola 1 e Cello 1) e o Grupo II
(Violinos 2, 4, 6 , Viola 2 e Cello 2 e Contrabaixo); o Grupo I deve ser afinado um
quarto de tom acima.
4.1 Descrição do Trecho Analisado
Nos compassos (1 e 2) da fig. 01 vê-se que os violinos do Grupo I articulam um
padrão de alturas em torno da nota Lá3 (440 Hz). A figuração rítmica foi construída
com a superposição de grupos de 6, 5, 4 e 3 notas por unidade de tempo. Para
manipular internamente a interação entre as camadas, Ligeti utiliza-se também de
pausas dentro das figurações rítmicas de cada instrumento. O Grupo II tem a mesma
construção, todavia a entrada dos instrumentos se dá um tempo depois do Grupo I.
Outro aspecto que podemos verificar na fig. 01 é que a Viola 1, Cello 1 e o Cello 2
executam notas pedais (tenuto senza vibrato). Há um padrão automático de alturas
em torno da nota Lá3 (440 Hz), mas ao mesmo tempo vê-se pela partitura que há uma
intricada figuração rítmica. Portanto, de um lado Ligeti traz estabilidade fixando a
nota de referência e do outro instabilidade através da figuração rítmica.
4.2 Ajustando Camadas e Coeficientes
Como apresentado em 3.2 são os valores dos dois tipos de coeficientes que vão
descrever o conteúdo espectral da obra em análise. Em cada nível de resolução, seja
para os detalhes (CD) ou a aproximação (CA), a sonoridade encontrada é única, pois é
consequência da ortogonalidade entre as Wavelet e a Função de Escala. Desta forma,
geramos novas camadas associadas a Transformada Wavelet e podemos, então,
comparar o seu conteúdo espectral com as camadas criadas por Ligeti. Dada a
extensão do artigo, analisamos apenas o trecho inicial de “Ramifications”, ou seja, os
24 segundos iniciais da peça que refletem o desdobramento dos elementos iniciais
apresentados no trecho da partitura da fig. 01.
Fig. 01 – Partitura de “Ramifications” mostrando a instrumentação, a divisão dos grupos instrumentais,
a figuração rítmica e os padrões intervalares automáticos.
4.2 Análise Wavelet
A resolução em freqüência da Função Wavelet utilizada foi dada em níveis de oitava,
sendo que a freqüência de corte mais alta foi de (CD1) 24KHz, seguido de (CD2)
12KHz, (CD3) 6KHz, (CD4) 3KHz, (CD5) 1,5KHz, (CD6) 750Hz, (CD7) 375Hz,
(CD8) 187,5Hz. Foi utilizado apenas um nível de aproximação (CA1) com freqüência
de corte 93,75Hz. A fig. 02 apresenta em todos os seus detalhes a complexidade da
sonoridade dos primeiros 24 segundos da peça, é pertinente perguntar se dentro destas
camadas o conteúdo da sonoridade da nota Lá3 continua presente. Queremos verificar
se o nível de detalhamento da wavelet é capaz de discriminar os transientes gerados
pela figuração rítmica (resolução no tempo) e a presença da nota pivô (resolução em
freqüência). Pela resolução em oitavas adotada, as camadas CD7 e CD6 devem conter
detalhamento do La3 (440Hz). Reiteramos que as duas camadas não contém somente
esse detalhamento, mas o seus conteúdos espectrais devem mostrar uma concentração
em torno desta freqüência. A fig. 03 apresenta os espectrogramas das camadas CD6 e
CD7, neles vê-se claramente que há um padrão de energia do espectro em torno da
nota pivô.
Fig. 02 – Analise wavelet do trecho de”Ramification”. Cada linha é uma camada de coeficientes, sendo
que, de cima para baixo, há 08 camadas de detalhamento e 01 de aproximação.
Fig. 03 –(esquerda) Conteúdo espectral da camada de detalhe CD6 de 375 a 750Hz; (direita) conteúdo
espectral da CD7 de 187,5 a 375Hz. (escala linear, freq. Na vertical e tempo na horizontal). Como
grifado nas duas imagens, em cada um dos dois gráficos há concentração da energia em torno da nota
La2 (220 Hz) e La3 (440Hz).
5 Discussão e Conclusão
A obra peculiar de Ligeti fomentou o método de análise apresentado neste artigo.
Dentro da diversidade que representa a sua produção, notam-se dois aspectos
invariantes: a construção de um complexo de altura dando origem a micropolifonia
(Roig-Francoli, 1995) e a utilização de padrões mecânicos para desdobrar massas
sonoras (Clendinning, 1993). Entendemos que Ligeti manipulou o complexo sonoro
criando transformações na freqüência e no tempo que foram associados neste artigo a
resolução da Transformada Wavelet. Pudemos então gerar oito camadas de
detalhamento e uma de aproximação. Ao associá-las às próprias camadas criadas por
Ligeti,
visualizamos
as
transformações
na
textura
do
trecho
inicial
de
“Ramifications”. Para as próximas etapas do trabalho faremos uma análise
comparativa de outras trechos desta obra e para tanto necessitamos ampliar as rotinas
do programa do Matlab e verificar os pontos importantes para segmentar a obra.
Pretendemos
estudar
também
composições
de
outros
compositores
com
características similares a Ligeti no que tange ao discurso textural.
Referências
BERNARD, Jonathan W. “States, Events, Transformations”. In: Perspectives of New Music.
Vol. 31:1, p. 164-171, 1993.
LUVIZOTTO, Andre Luiz. “Modelos de Representação de Sinais Musicais via Transformada
Wavelets”. Dissertação de Mestrado defendida no Faculdade de Engenharia Elétrica da
Unicamp, 2007.
CLENDINNING, Jane Piper. "The Pattern-Meccanico Compositions of Gyorgy Ligeti."
Perspectives of New Music 31 (1993): 193-234.
KINZLER, Hartmuth. "Gyorgy Ligeti: Decision and Automatism in Désordre, 1re etude,
Premier Livre." Interface: Journal of New Music Research 20.2 (1991): 89-124.
MORRISON, Charles D. "Stepwise Continuity as a Structural Determinant in György Ligeti's
Ten Pieces for Wind Quintet." Perspectives of New Music 24 (1985-1986): 158-182.
REIPRICH, Bruce. "Transformation of Coloration and Density in Gyorgy Ligeti's Lontano,"
Perspectives of New Music (Spring-Summer 1978): 167-180.
ROIG-FRANCOLI, Miguel. "Harmonic and Formal Processes in Ligeti's Net-Structure
Compositions," Music Theory Spectrum 17 (1995): 242-267.
SARAIVA, Lourdes. “O Coro dos Contrários em White on White de Gyorgy Ligeti: aspectos
da organização formal”. In: IV Jornada de Pesquisa e XVIII Seminário de Iniciação
Cientifica, 2008.
http://www.ceart.udesc.br/revista_dapesquisa/volume3/numero1/musica.htm.
Sonifying Robotic Trajectories with a Spherical
Omnidirectional Vision System in the AURAL
Environment
Artemis Moroni1, Sidney Cunha1, Josué Ramos1, and Jônatas Manzolli2
1
Robotics and Computer Vision Division, Renato Archer Information Technology Center
Rod. D. Pedro I km 143.6, Campinas, São Paulo, 13069-901, Brazil
2
Interdisciplinary Nucleus for Sound Studies, University of Campinas
CP 6166, Campinas, São Paulo, 13083-872, Brazil
{Artemis.Moroni, Sidney.Cunha, Josué.Ramos}@cti.gov.br; [email protected]
Abstract. This paper describes the OmniEye, an omnidirectional vision system
developed to track mobile robots in AURAL, i. e., in a computational structured
environment. AURAL aims to control the interaction between visual, sound and
robotic information in a research for automatic and semi-automatic processes of
artistic production. Different convex mirrors can be used to achieve an
omnidirectional system. The use of a spherical mirror in this case introduces
distortions in the image. A toolbox for the calibration of central omnidirectional
cameras was used to obtain a first estimation for the imaging function. Then, a
genetic algorithm was applied to adjust the coefficients of the imaging function.
Experimental results and the application of the OmniEye for translating robotic
paths into sound events in the AURAL environment are described.
Keywords: Omnidirectional vision, robotics, algorithmic composition.
1 Introduction
This development is part of the AURAL project, where a user draws a path in an
interactive interface and transmits it to a mobile robot. An omnidirectional vision
system, the OmniEye, occupies an important role in the AURAL, for it is the
“observer” being used to feedback the robot localization [1]. Like others [2, 3, 4],
AURAL belongs to that kind of systems that combine the behavior of mobile robots
with sound events. In the AURAL, a robot tries to travel along the path in a follow up
area, but it can be disturbed by other robots or obstacles while traversing it. The
interaction of physical parameters and the presence of the mechanical bodies of the
robots are potentially able to generate a complex sequence of interactive events.
These events will be used to modify the performance controls of JaVOX, an
evolutionary environment applied to sound production [5].
Different convex mirrors can be used to achieve an omnidirectional system.
Parabolic, hyperbolic, spherical mirrors or even pre-designed surfaces with specific
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
desired properties can be applied. Yagi [6] compiled a literature review which shows
the application of various types of omnidirectional visual systems. Such systems can
be assembled, according to various models, using multiple cameras, which point to
different directions, or even using a single free camera which rotates around a fixed
axis [7]. From the possible ways of building an omnidirectional system, it was
decided to assemble a spherical mirror. In spite of the fact that the spherical mirror
does not present any special property [8], it is relatively easy to be built and can also
be used in robotic navigation and tele-operation, having a low cost compared to
hyperbolic mirrors.
The use of a spherical mirror, with no single effective viewpoint in the
omnidirectional system, introduces distortions in the captured image. The processing
of this kind of system can be carried out in two different ways: through an initial
rectification of the image and further application of concerning techniques, or the
handling of the omnidirectional image. The former approach is useful when the final
result of the process is oriented towards the human interpretation of the image, while
the latter avoids the need of a rectification and can be used for the automatic
processing of the image by means of computational systems.
This paper belongs to the second group. Here, the development of a geometrical
formulation for images, aims to determine a relation between the coordinates of the
physical world and the coordinates of the pixels of a corresponding omnidirectional
image. For this, given a captured image and the corresponding scene of the world, the
modeling of the geometrical projection of this image is necessary to relate some
measurements of interest.
Next, in sections 2 and 3, a description of the geometrical modeling for the
development and calibration of the omnidirectional camera will be made. In section 4
the genetic approach to optimize the calibration function will be discussed. In section
5 some results will be shown and section 6 deals with the translation of trajectories
into sound events. Finally, in section 7, a conclusion is presented.
2 Geometrical Modeling for the OmniEye
Specific algorithms to process images obtained with the omnidirectional system
invariably require geometrical parameters from the optical system which is being
applied. The analysis of the radial distortion introduced by the system camera-mirror
in relation to a world scene is of fundamental interest to the spherical mirror, as well
as the determination of the intrinsic and the extrinsic parameters of the mathematical
model applied to the camera.
In this development, the catadioptric omnidirectional system is made up of a
camera, a spherical convex mirror and a conical weight, assembled in a pendulum
mount, which gives a vertical direction having good accuracy to align the camera and
stabilize the set up. To cause a minimal obstruction in the image captured or, in other
words, to obtain areas with minimal occlusions, nylon threads were used to fix the
system. The optical axis of the camera was aligned with the optical center of the
mirror, which was hung from the ceiling of the room, minimizing occlusions. The
whole environment was captured in a single image. The set up is shown in Figure 1.
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
Fig. 1. The OmniEye with the spherical mirror, the camera fixed with nylon threads and the
conical mass that make up the omnidirectional system.
The extrinsic parameters are the entries of vector T and rotation matrix R,
totalizing 6 parameters. The intrinsic parameters are those necessary to determine the
optical, geometrical and digital characteristics of the visualization provided by the
camera. These parameters can be described by: (1) the geometric projection
(characterized by the focal distance f of the lens and the pixel size); (2) the
transformation of the coordinates of the camera-to-image reference systems and (3)
the geometric distortion introduced by the optical system during the process. In spite
of the geometric distortion, we have:
x c = − ( x im − o x ) s x ; y c = − ( y im − o y ) s y
(1)
where (xc, yc) and (xim, yim) are the coordinates of the image point of the cameraimage reference systems, respectively; (ox, oy) are the coordinates of the center of the
image and (sx, sy) are the actual size of the pixel (in millimeters) in the horizontal and
vertical directions, respectively.
The modeling of the catadioptric omnidirectional perspective camera system
permits us to relate the coordinates of the image (in pixels with respect to the axis u
and v) with the three-dimensional vector p whose origin is in the single center of
projection of the mirror and whose end is at the point of reference in space. This
projection model is based on Scaramuzza et al. [9].
In spite of the spherical mirror, it is assumed that there is a single center of
projection (origin of vector p) which is also the center of the radial symmetry of the
mirror with its optical axis. This approximation is assumed because only the central
part of the image is actually used in the experiment. The localization of the objects
will be made in a restricted area of the environment.
A system with a single center of projection is such that beams of light from the
camera, reflected by the surface of the mirror, intersect each other at a single point
(virtual point, origin of vector p as shown in Figure 2). Systems without a single
center of projection, in contrast, are those in which the intersection between the
described beams do not occur at a single point.
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
(a)
(b)
(c)
Fig. 2. (a) The coordinate system in the catadioptric case. (b) Sensor plane, in metric
coordinates. (c) Camera image plane, in pixel coordinates. Pictures (b) and (c) are related by an
affine transformation.
The construction of omnidirectional catadioptric systems employing lenses with
hyperbolic, parabolic or elliptic mirrors assures the property of the single center of
projection. For spherical mirrors this property can only be approached locally in the
central area of the image. Thus, coordinate vector p = (x, y, z) and its projection u =
(u, v) described in Figure 2 can be related as:
x 
u ' '
 y  = λ v ' ' 
 
 
λ≥0
x
 α ⋅ u' 
p =  y  = λ  α ⋅ v ' 
 z 
 f (α .ρ ' ) 
(2)
(3)
λ, α 〉0
Since p is a vector, a constant α can be included in f(u, v), since this latter function
depends only on the radial distance ρ2 = u2 + v2 of point p to the optical axis.
u '

x 


p =  y  = λ .α v '

 a + ... + a ρ 'n 
 z 
n
 0

(4)
λ , α 〉0
Therefore, the process of calibration consists of determining the coefficients of the
polynomial expression, the intrinsic parameters given below, as well as the extrinsic
parameters.
f (u ' ' ) = a0 + a1 ρ ' '+ a2 ρ ' ' 2 + a3 ρ ' '3 + a4 ρ ' ' 4 +...
(5)
By applying a spherical coordinate system, we obtain:
u = ρ ' '⋅ sin(θ ) ⋅ cos(ϕ )
v = ρ ' '⋅ sin(θ ) ⋅ sin(ϕ )
z = f ( ρ ' ' ) = ρ ' '⋅ cos(θ )
(6)
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
If u and v are known,
ϕ
and
ϕ
θ
can easily be found. u and v are extracted from the
pixels of the image. Since
and θ are known, the coordinates x and y, associated
with the u and v pixel coordinates, can be evaluated for any desired plane z. In this
case, the plane is the floor of the room, the (x, y) world coordinates of an image can
be calculated, and consequently the path of a mobile robot.
3 The OmniEye Calibration
The toolbox [10] allows the calibration of any central omnidirectional camera or, in
other words, cameras having a single center of projection. The calibration is
accomplished in two different stages: initially, a set of images containing a chess
pattern is captured from different positions and orientations in space. Then, the
corners of the pattern are manually determined using the toolbox. The calibration is
then automatically calculated by using the obtained data, with the help of a corner
detector to improve the accuracy of the data.
Through the camera calibration the relationship between the pixels of the image
and the 3D vector can be determined, as well as the origin in the single projection
center and the end in the space points projected on the image, as shown in Figure 2.
However, even if the property of a single projection center is not exactly verified,
the toolbox still provides good results using the calibration. The spherical mirror
furnishes the possibility of a good estimation of a hyperbolic mirror in a restricted
area of space, in the central part of the image. During the calibration with the toolbox,
the degree of the polynomial used to map the pixels of the image, with the
corresponding 3D points of the world, is requested. Experience has shown that
polynomials of degree 4 are enough to describe the image-world mapping resulting
from the optimization of the SSD function [9]. Once the coefficients in Equation 5
are determined, a spherical coordinate system was used to find any vector emanating
from the omnidirectional image to the world.
The error incurred was of 8% in the lowest “maximum distance” although the
result was very consistent. Aiming to obtain a better approximation, a genetic
algorithm was applied to optimize the coefficients.
4 Image Function Estimation with a Genetic Algorithm
All evolutionary approaches share many features. They are all based on the general
framework provided by J. H. Holland's original genetic algorithm (GA) [11]. In
nearly every case, new populations of potential solutions to problems are created
(here, the problem is of image function estimation), generation after generation,
through three main processes: 1. By making sure that better solutions to the problem
will prevail over time, more copies of currently better solutions are placed into the
next generation. 2. By introducing new solutions into the population, that is, a low
level of mutation operates on all acts of reproduction, so that some offsprings will
have randomly changed characteristics. 3. By employing sexual crossover to combine
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
good components between solutions, that is, the "genes" of the parents are mixed to
form offsprings having aspects of both. With these three processes taking place, the
evolutionary loop can efficiently explore many points of the solution space in parallel,
and good solutions can often be found quite quickly.
In the genetic algorithm applied to estimate the calibration function, the
chromosome of each individual of the population is coded in an array of length 8,
where the first five elements contain the coefficients of the polynomial defined by
Equation 5 being estimated. The sixth element of the array corresponds to the distance
of the focus of the mirror. The seventh and eighth elements contain the coordinates x
and y of the center of the image. It is worth to point out that the spherical mirror does
not have a well defined focus. The values which are being investigated are those
which better estimate the mapping from pixels of the image with the points of the
world, whose coordinates are known.
4.1 The reproduction cycle
In the first experiment using the genetic algorithm, eight points Pi, i = 1 ... 8, were
marked on the floor of the room for fitness evaluation. An image of the scene was
captured using the omnidirectional system and the pixel coordinates (ui, vi)
corresponding to each of the eight points were obtained from this image.
A tournament selection was applied to choose the parents for the next generation.
The values obtained for each individual from Equation 6 were applied as parameters
in Equation 7, used to estimate position Pi’ for each point Pi. The distance di between
each pair (Pi, Pi’) was evaluated and D was assigned with the greatest di. The fitness F
for each individual was evaluated as:
F =1 D
(7)
Therefore, what was investigated was the shortest “maximum image-world
distance”. An arithmetic crossover was applied to the pairs of parents, followed by the
Gaussian mutation [12]. The best individuals of the previous generation were
included in the new one.
4.2 The results
Since the first experiment using the genetic algorithm, the distance has been 3% of the
shortest maximum distance. It is worth to note here that there are some sources of
errors. For example, the alignment of the camera with the center of the mirror in the
vertical plane is very error prone. Aiming to obtain more points to improve the
imaging function, a grid of points was drawn on the floor. Figure 3 shows the image
that was used to obtain the pixels of the points of the grid and Figure 4 depicts the
mapping.
The function fitness was evaluated considering 24 points. A better result was
obtained with an error of 1% relative to the maximum distance; 5000 individuals;
mutation rate = 15%; crossover rate = 30%. In this application, the result was
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
satisfactory since the robot used in the experiment was a Nomad 200, having a 45 cm
diameter and 85cm high. The height of the mirror from the floor was 2.9 m.
Fig. 4. The map that was obtained using the genetic algorithm with 24 points to evaluate the
fitness. The circles are the points of the world; the crosses are the estimated points.
5 Tracking the robot
Functions of the OpenCV library are being used to track the robot. Initially, the vision
system captures an image of the environment that will be used as a background
image. This image is subtracted from all the other images which were obtained in real
time. If no modification of brightness in the environment occurs, the result of the
subtraction is a black image.
A high intensity light source is mounted on the robot. The lamp is lit after the
background image has been captured. Each image captured with the omnidirectional
vision system is subtracted from the background image and a thresholding function is
applied. The result is a binary image (black and white), according to the threshold
level applied. Operations of mathematical morphology (Top Hat, Opening, Closing)
are then applied in the binary image. Next, a routine to find contours is used to obtain
the location (pixels) in the image of the mark associated with the lamp of the robot.
The coordinates of the pixels of the contour are then used to calculate the centroid of
the mark. Next, the mapping function is used to evaluate the coordinates of the world
associated with the coordinates of the centroid. These coordinates of the world are
used as feedback to the robot concerning its position in the environment.
Figures 5 (a) and (b) show the results of the morphological operations with the
omnidirectional images, pointing out the path traversed by two robots, the Nomad and
a Roomba. In (a), a trajectory was sent to be traversed by the Nomad robot. In (b), the
way traversed by a Roomba robot is shown. Note that the spiral performed by the
Roomba, when turned on, is easily recognized in the upper part of Figure 5 (b).
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
(a)
(b)
Fig. 5. On the left, the path traversed by the Nomad robot, observed by the omnidirectional
system. On the right, the path traversed by the Roomba robot.
The developed code allowed to accomplish all the mentioned operations in real
time recording video images at 30 fps, with all the robot path logs and localizations in
the world referential, as seen in Figure 5. But the use of a light source for tracking the
robot presupposes that there is not a great light variation in the environment. To
overcome this limitation, another approach based on colors was applied. On each
robot, a strongly-colored panel was fixed and a variation of the Camshift demo from
OpenCV samples was applied. In short, once the program is launched, a rectangle on
the panel to be tracked is selected with the mouse, in the image captured with the
OmniEye. A color histogram is created to represent the panel. Next, the “panel
probability” for each pixel in the incoming video frames is calculated. The location of
the panel rectangle in each video frame is shifted. The new location is found by
starting at the previous location and computing the center of mass of the panelprobability values within a rectangle. The rectangle is then shifted to its right over the
center of mass. CamShift stands for “Continuously Adaptive Mean Shift” and is the
based on Mean Shift algorithm [13]. The algorithm is called continuously adaptive
and not just a mean shift because it also adjusts the size and angle of the panel
rectangle each time it shifts it. It does this by selecting the scale and orientation that
are the best fit to the panel-probability pixels inside the new rectangle location.
Figure 6 shows the CamShift interface, and the robots Nomad (red circle) and
Roomba (blue circle). The coordinates of the center of mass of the circles in the
image are evaluated and applied in the equation system 6 to evaluate the position of
each robot in the area.
6 Translating Paths into Sound Events
The system that translates paths into sound events is also based on Evolutionary
Computation. In this context, the MIDI protocol representation was used to code the
genotype, like in the original development of VOX POPULI [14, 15]. This
environment, initially developed in Visual Basic, was translated into Java, resulting in
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
JaVOX. The features described in this paper are codified both in JaVOX and VOX
POPULI.
Fig. 6. On the left, the Nomad robot, inside the red circle; on the right, the Roomba inside the
blue circle, both are tracked with the CamShift interface.
In both environments, a control area (pad) of the interactive interface enables the
user to draw curves in a phase space, associating to each one of them a trajectory that
guides the sound production. Figure 7 shows the curves drawn by the user in the
graphic interface of VOX POPULI and the resulting sound sequence.
Fig. 7. Sound sequence resulting from the curves at the left, drawn in the interactive pad of
VOX POPULI environment.
Similarly, in AURAL, the paths are drawn and transmitted to a mobile robot. The
mobile robot traverses a structured area which is associated, through a bi-dimensional
projection, with the area in the graphic interface that is approximated with MIDI
events. The robot is observed by the OmniEye, that estimates the location of the robot
in the area and sends it to JaVOX. The corresponding position is plotted in the
interactive pad. The sequence of points describes the approximated path traversed by
the robot.
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
Figure 8 shows the interface of JaVOX environment, where the lines drawn by the
user direct the sound production in real time. Like in VOX POPULI, JaVOX links
each line with the interface parameter controls. The red curves are associated with the
melodic parameter (mel), in the x-component, and octave parameter (oct), or voice
interval, in the y-component. These parameters guide the evolutionary sound
production. In figure 8, the red line was drawn by the user and sent to the robot as a
trajectory to be traversed. The blue line represents the path traversed, observed by the
OmniEye. Both are used to control the sound production.
(b)
(a)
Fig. 8. The JaVOX interface. Below, the performance controls that are associated with events
decurring from the interaction between the robots. On the right, the OmniEye with three mobile
robots: a Roomba, a Pioneer and Nomad.
Besides the trajectories, JaVOX has other possibilities to control the sound
production in real time. See, in the lower part of Figure 8.a, the Performance Control
interface is shown. For each one of the four voices there are three controls named 1)
solo; 2) sequence; and 3) block. These three modes of sound performing generate
significant variations in the sound result and can be applied as a compositional
strategy. The interaction of these controls with the dynamic behavior of the mobile
robot, the OmniEye and eventually, the presence of other robots in the area, can
generate a complex sound organization. The link process between the behavior of the
robots in the structured area and the translation into sound was developed aiming to
verify the capability of AURAL to create self organized sound textures departing
from simple interactions between the mobile robots. A supervisor module TrajeCt (for
traject control) receives the sequence of trajectory points from JaVOX and sends it to
the Nomad robot. Communication between each part of the system is made by means
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
of an Inter-process communication protocol (IPC). The path traversed by the mobile
robots is captured by the OmniEye that provides the coordinates (Equation 1) and the
criteria of behavior for performance control in JaVOX.
The interaction between the free navigation of the Roomba(s) and the path
traversed by the Nomad generates a collective behavior (between the robots) that is
used as a performance control in JaVOX. Figure 10 shows the omnidirectional system
and three mobile robots. There may be four robots in the environment at the most,
each one associated with a voice in JaVOX, but other robots can be linked using other
interface controls.
7 Conclusion
Different convex mirrors can be used to achieve an omnidirectional system. Among
the possible ways of building an omnidirectional system, a spherical mirror was
selected because of its availability and low cost and also because it can be used in
robotic navigation and tele-operations. A significant gain in precision was obtained by
applying a genetic algorithm to refine the coefficients of the perspective projection
function. The use of the previous model, originally developed for a hyperbolic mirror,
was very convenient. Populations of different size were tried, and the convergence
was quick.
This technique does not use any specific model of the omnidirectional sensor. The
resulting device is easily reproducible and of low cost. The application of the
OmniEye in the AURAL environment, besides the feedback, allows to record sessions
to study the behavior of the robots. In the AURAL context, the OmniEye can be
considered not only as a support for creative explorations, but also as a device to learn
about “automatic aesthetics”. In either case, it helps the user and the computer to
work together interactively in a new way to produce results that can not be produced
individually.
Acknowledgements
We wish to thank the students Lucas Soares, Igor Dias, Igor Martins and Eduardo
Camargo, who worked in the development of the OmniEye. We also thank the
students Thiago Spina, Felipe Augusto and Gustavo de Paula, who worked with the
robots Nomad and Roomba. We thank the researchers Rubens Machado and Helio
Azevedo for their useful suggestions. We are also thankful to the technical support of
Jonnas Peressinotto and Douglas Figueiredo. We thank the Scientific Initiation
Program of the National Research Council (PIBIC/CNPq), CenPRA and the
Interdisciplinary Nucleous for Sound Studies of the State University of Campinas
(NICS/UNICAMP) for making this research possible. This research work is part of
the AURAL project, supported by the Foundation for the Research in São Paulo State
(FAPESP) process 05/56186-9.
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
References
1. Moroni, A., Cunha, S.: OmniEye: A Spherical Omnidirectional System for Tracking Robots
in the AURAL Environment. In: 11th Computer Graphics and Artificial Intelligence
Conference, pp. 109–118, Athens, (2008)
2. Manzolli, J., Verschure, P. F. M. J.: Roboser: a Real-world Musical Composition System.
Computer Music Journal 3, 55–74 (2005)
3. Wassermann, K. C., Eng, K., Verschure, P. F. M. J., Manzolli, J.: Live Soundscape
Composition Based on Synthetic Emotions. IEEE Multimedia 4, 82–90, (2003)
4. Murray, J., Wermter, S., Erwin, H.: Auditory robotic tracking of sound sources using hybrid
cross-correlation and recurrent networks. In: IROS2005 - International Conference on
Intelligent Robots and Systems, pp. 3554–3559 (2005)
5. Moroni, A. S., Manzolli, J., Von Zuben, F.: ArTbitrating JaVox: Evolution Applied to Visual
and Sound Composition. In: Ibero-American Symposium in Computer Graphics, pp. 97–108
(2006)
6. Yagi, Y.: Omnidirectional sensing and its applications. IEICE Transactions on Information
and Systems 3, 568–579 (1999)
7. Mei, C., Rives, P.: Single View Point Omnidirectional Camera Calibration from Planar
Grids. In: IEEE International Conference on Robotics and Automation, pp. 3945–3950
(2007)
8. Svoboda, T., Pajdla, T.: Epipolar Geometry for Central Catadioptric Cameras. International
Journal of Computer Vision. 49 (1), 23–37 (2002)
9. Scaramuzza, D., Martinelli, A. and Siegwart, R.: A Flexible Technique for Accurate
Omnidirectional Camera Calibration and Structure from Motion. In: 4th IEEE International
Conference on Computer Vision Systems ICVS’06, p. 45 (2006)
10.
Omnidirectional
Camera
Calibration
Toolbox
for
Matlab.
http://asl.epfl.ch/~scaramuz/research/Davide_Scaramuzza_files/Research/
OcamCalib_Tutorial.htm
11. Holland, J. H.: Adaptation in Natural and Artificial Systems. University of Michigan Press
(1975)
12. Michalewicz, Z.: Genetic Algorithms + Data Structures = Evolution Programs. SpringerVerlag, Berlin (1996)
13. Comaniciu, D., Meer, P.: Robust Analysis of Feature Spaces: Color Image Segmentation.
In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 750–755 (1997)
14. Moroni, A., Manzolli, J., Von Zuben, F. J., Gudwin, R.: Vox Populi: An Interactive
Evolutionary System for Algorithmic Music Composition. Leonardo Music Journal, 10, 49–
54, 2000.
15. Moroni, A., Manzolli, J., Von Zuben, F.J., Gudwin, R.: Vox Populi: Evolutionary
Computation for Music Evolution. In: Bentley, P., Corne, D. (eds.) Creative Evolutionary
Systems, pp. 205–221. Morgan Kaufmann, San Francisco, 2002.
Workshop Proceedings of SIMPAR 2008
Intl. Conf. on SIMULATION, MODELING and PROGRAMMING for AUTONOMOUS ROBOTS
Venice(Italy) 2008 November,3-4
ISBN 978-88-95872-01-8
pp. 354-365
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
Análise Computacional de Texturas Sonoras via Mapas de
Poincaré
Adriano Monteiro
Núcleo Interdisciplinar de Comunicação Sonora (NICS)
Departamento de Musica, Unicamp
Jônatas Manzolli
Núcleo Interdisciplinar de Comunicação Sonora (NICS)
Departamento de Musica, Unicamp
Resumo: Apresentamos um estudo onde utilizamos técnicas computacionais para
extrair informação espectral do áudio digitalizado e descrever texturas sonoras
complexas. Esta pesquisa utiliza o descritor de áudio denominado de centróide espectral
e mapas de recorrência ou de Poincaré. Descrevemos um estudo piloto na qual
escolhemos quatro obras de referência e fizemos uma comparação por pares com o
objetivo de validar o método de análise.
Palavras-Chave: análise musical, computador, texturas, complexidade, mapas de
poincaré.
Computer Analysis of Sound Textures via Poincaré Maps
Abstract: We present a study on computational techniques to extract spectral
information from digital audio and describe complex sound textures. This research
approach uses the Spectral Centroid audio descriptor and recurrence or Poincaré Maps.
In order to validate the method of analysis, we describe a pilot study in which we choose
four reference pieces and develop an evaluation per pairs.
Keywords: music analysis, computer, textures, complexity, Poincaré maps
1. Introdução
Reportamos neste artigo um método de análise de texturas sonoras que
associa descritores de áudio (Puckette e Apel 1998; Malt e Jourdan 2009; Pereira
2009) com mapas de Poincaré (Bradley 2002). Discutimos um estudo piloto no qual
escolhemos quatro obras de referência e fizemos uma comparação por pares com o
objetivo de validar o método de análise. O ponto de partida para a nossa análise são
os trabalhos de (Clendinning 1993; Roig-Francoli 1995) e duas obras do compositor
Gyorgi Ligeti tomadas como referência. A motivação do trabalho é a seguinte:
quando processos musicais adquirem um certo grau de complexidade a análise
musical com auxílio computacional pode prover informação complementar à Escuta
e estabelecer uma visão mais ampla da obra.
A primeira hipótese do nosso estudo é que o aumento de complexidade
sonora é análoga à dinâmica de sistemas complexos e que o grau de recorrência é
inversamente proporcional a homogeneidade dos padrões encontrados na obra. Em
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
outras palavras, o jogo estabelecido entre recorrência, estabilidade e instabilidade
caracteriza as nuances do discurso textural. A segunda hipótese é que este tipo de
estrutura desenvolvida por recorrência de padrões pode ser detectada diretamente
do sinal de áudio digitalizado utilizando-se o descritor “Centróide Espectral”
(Pereira 2009) conjugado com os Mapas de Poincaré.
3. Descritores
Os descritores de áudio são utilizados para extrair características acústicas
e psico-acústicas de áudio digital, principalmente, a partir de suas componentes
espectrais. A principal literatura sobre descritores está nos anais do congresso da
“Sociedade Internacional para Recuperação de Informação Musical”1. Há descritores
implementados em ambientes de programação como Pure Data, como os primitivos
fiddle~, bonk~ e sigmund~ (Puckette e Apel 1998). Há também objetos para
MAX/MSP como o analyser~, brightness~, noisiness~ e a biblioteca Zsa.Descriptors
implementada por (Malt e Jourdan 2009) que é voltada à caracterização da
sonoridade de técnicas instrumentais estendidas. Para desenvolver nossa pesquisa
implementamos também uma biblioteca de descritores em Pure Data (xxxx, xxxxx).
4. Mapas de Poincaré
O matemático francês Henri Poincaré desenvolveu no começo do século
XX um estudo sobre dinâmicas complexas (Poincaré 1923). Uma ferramenta útil
para análise deste tipo de fenômeno são os mapas por ele desenvolvidos. Estes são
gráficos bi-dimensionais que descrevem recorrências em sequências numéricas
chamadas de Séries Temporais. Por exemplo, estes mapas são utilizados na análise
da variabilidade dos batimentos cardíacos (Acharya 2006), no estudo do
comportamento coletivo em interações sociais (Camurri 2010) e o fluxo da
respiração humana (Bruce 1996). A recorrência é uma propriedade fundamental dos
sistemas dinâmicos, pois caracteriza a regularidade ou não-regularidade temporal
dos estados do sistema (Bradley 2002). O mapa de Poincaré descreve recorrência
quando uma série temporal visita várias vezes uma mesma região do gráfico
formando aglomerados de pontos, chamados de “clusters”. Exemplificamos este
comportamento na Figura 1. Quando o mapa de Poincaré é associado a uma
1
ISMIR- International Society of Musical Information Retrieval
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
sequência randômica, todo o gráfico é preenchido com pontos (vide 4A). Em
oposição quando a sequência é periódica, apenas a faixa da diagonal principal é
preenchida (vide 1A). Em (2A) uma sequência periódica é superposta a uma
sequência periódica perturbada com números aleatórios; em (3A) a sequência
perturbada é superposta a aleatória.
Figura 1: Mapas de Poincaré localizados nos gráficos da esquerda (bloco A) e os
gráficos de desvios estão no bloco à direita (bloco B).
Dada uma série temporal unidimensional S(t) : [ a...b] ⊂ ℜ → [c...d ] ⊂ ℜ
com valores tomados em t = t1,t 2 ,t 3 ...t n descritos como A = {x1, x 2 , x 3 ,..., x n } , o mapa de
Poincaré
conjunto de pares ordenados
€
P = {(x1, x 2 ),(x 3 , x 2 )...(x n−1, x n )} . Dada duas séries temporais {S1 (t),S2 (t)} denotadas por
€
€
A = {x1, x 2 , x 3 ,..., x n } e B = {y1, y 2 , y 3 ,..., y n } , geradas pelo mesmo descritor para dois
€
€
€
é
o
gráfico
associado
ao
trechos diferentes de áudio, definimos a função desvio D(A,B) : A × B → ℜ como
€
d(x i , y j ) = x i − y j para i=1,2,3...n. No bloco B da figura 1, há quatro gráficos dos
€
desvios respectivamente aos mapas do bloco A.
€
5. Metodologia e Análise
O insight para o uso dos mapas de Poincaré para analisar obras texturais
vem do próprio compositor Gyorgy Ligeti que interessou-se pelas idéias do
matemático Benoit Mandelbrot (1982), principalmente a chamada Geometria Fractal
que é também uma forma de descrever recorrência ou auto-semelhança em sistemas
complexos. Ao referir-se ao seu “Piano Concerto” (1985-1988), numa entrevista à
BBC, Ligeti mencionou: “eles [fractais] são sempre novos, mas sempre os mesmos e
isto é algo que me atrai muito e é o que se encontra na minha música” (Manzolli,
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
1993). O conceito de recorrência está implícito nesta citação. Clendinning (1993)
denomina-o de “composição baseada em padrões mecânicos” construídos a partir da
recorrência de camadas. Roig-Francoli (1995) discute que Ligeti desenvolveu um
processo de construção de redes (net-structures). Este conjunto de informação
teórica é o suporte para desenvolver o estudo piloto de obras texturais com os mapas
de Poincaré. Contextualizando a nossa hipótese, em composições onde há
superposição de camadas e iteração de padrões, como na micro-polifonia de Ligeti,
seria possível descrever e analisar a recorrência de padrões com os mapas de
Poincaré?
A metodologia de análise por pares (Figura 2) baseia-se nos seguintes
passos: a) geração do(s) espectrograma(s) para construir hipótese(s), b) definição
do(s) descritore(s) que serão utilizados para extrair características relacionadas
à(s) hipótese(s), c) extração das características via descritores, d) construção dos
mapas de Poincaré superpondo características de duas peças e e) análise dos
mapas.
Figura 2 – Diagrama da metodologia de análise por pares.
As obras escolhidas para análise foram: a) “Continuum” (1968) para cravo
e “Lux Aeterna” (1966) para 16 solistas de Ligeti, b) “Piano Phase” (1967) para dois
pianos ou duas marimbas de Steve Reich e c) “Sabbato Sancto” madrigal para coro
de Carlo Gesualdo (1566-1613). A Tabela 1 apresenta os parâmetros fixados para a
análise:
Parâmetros do Processamento Computacional 2
No. Amostras
No. Amostras
Tipo de Janela
Faixa
HOP
FFT
(windowing)
freq.
2048
Hanning
44 -22 kHz
512
Parâmetros das Obras
COMPOSITOR
TRECHO
DUR
OBRA
Ligeti
toda peça
3:45
Continuum
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
Reich
início da peça
2:12
Piano Phase
Ligeti
apôs
2
minutos
2:00
Lux Aeterna
Gesualdo
toda peça
1:57
Sabbato
Sancto
Tabela 1 – Parâmetros utilizados na análise computacional.
Os espectrogramas das quatro obras estão na vide Figura 3 (“Continuum”
à esquerda, “Piano Phase” à direita acima; “Lux Aeterna” à esquerda e “Sabbato
Sanctus” à direita abaixo). Observa-se nos dois espectrogramas superiores que há
padrões recorrentes e a faixa de frequência coberta pelo “Continuum” é mais ampla.
Nos dois espectrogramas inferiores há mais proximidade entre a faixa de frequência
ocupada pelas duas obras. Nas quatro obras há uma distribuição homogênea de
frequências (faixas horizontais dos espectrogramas), o que caracteriza um acúmulo
contínuo de energia na mesma faixa de frequência do espectro.
Figura 3 – Espectrogramas das obras: (esquerda, acima) “Continuum”, (direita, acima) “Piano
Phase”, (esquerda, abaixo) Lux Aeterna e (direita, abaixo) Sabbato Sancto.
Frente às observações apontadas acima, escolhemos o descritor
“Centróide Espectral” para analisar as quatro obras. O centróide descreve o centro
de massa do espectro, em outras palavras, a frequência que é o centro de energia do
espectro sonoro. Para calcular o centróide, o espectro é dividido em segmentos ou
janelas (vide Tabela 1) e para cada janela calcula-se a frequência centróide. Este
método é repetido para várias janelas e, desta forma, gera-se uma série temporal de
frequências centróides variando no tempo. O cálculo computacional do centróide foi
realizado com a biblioteca PDescriptors (vide xxxxxxx). As sequências numéricas
foram gravadas em arquivo texto e com um programa do Matlab os mapas de
Poincaré e os gráficos de desvios foram gerados (vide figura 4). A Tabela 2 apresenta
os valores limites para a variação de cada uma das sequências de centróides.
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
Obra
Continuum
Piano Phase
Lux Aeterna
Sabbato
Sancto
[min, max] (Hz)
Banda (kHz)
[82, 13.403]
[407, 939]
[304, 1.601
[44, 1.177]
13,321
0,532
1,297
1,133
Tabela 2 – Valores máximos e mínimos dos centróides
Figura 4 – (1A) superposição dos mapas dos centróides das obras “Continuum” e “Piano Phase”, (2A)
desvio entre os dois mapas, (1B) superposição de Lux Aeterna e Sabbato Sancto, (2B) desvios.
No mapa (1A) há dois cluster na diagonal principal. O que indica
recorrência nos valores dos dois centróides (vide modelo na figura 1). O primeiro
cluster concentra-se na faixa de frequência até 5 Khz e o segundo na faixa de 11khz a
13khz; a banda de freqüência do centróide do “Continuum” é 25 vezes maior que a
do “Piano Phase” (vide Table 2). No mapa (1B) há apenas um cluster na diagonal
principal e este descreve a recorrência do centróide na faixa de freqüência até 1.6
kHz; a banda de frequência de “Lux Aeterna” é muito próxima da banda de “Sabbato
Sancto” (vide Table 2).
6. Discussão e Conclusão
O “Continuum” é uma obra criada explicitamente com recorrência de
padrões de altura e o instrumento usado na obra, o Cravo, possui espectro com
transientes de alta-frequência. Este dois aspectos foram explicitados no mapa (1A),
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
ou seja, os dois clusters e largura de banda de 13,321 kHz (Tabela 2) descrevem a
recorrência do centróide e a expansão da energia do espectro numa faixa extensa. O
“Piano Phase” também apresentou padrões recorrentes no mapa de Poincaré, mas a
banda de frequência do centróide de 0,532 kHz é muito mais comprimida. A obra
“Lux Aeterna”, composta com camadas de alturas recorrentes de longa duração,
apresenta faixa de freqüência mais estreita o que relaciona-se com a percepção de
maior compactação de massas sonoras. Este processo é descrito no mapa (Figura 4,
1B), pois o centróide concentrou-se no entorno da diagonal principal e a banda de
freqüência de 1,297 kHz é mais reduzida. “Sabbato Sancto” apresentou um mapa
muito similar tanto na largura de banda 1,133 kHz quanto recorrência do centróide,
vide a superposição dos dois mapas no gráfico (1B).
Os resultados do processo de análise computacional apresentaram
recorrência de padrões do centróide e este foi o objetivo do estudo piloto. Mas há
outros aspectos revelados pela Escuta de obras texturais, ou seja, as quatro obras têm
outras características que as diferenciam. Portanto, é necessário estudar outros
descritores para ampliar o campo de visão da análise. Desta forma, os próximos
descritores pesquisados serão densidade de eventos texturais e discriminação entre
camadas por banda crítica. Estes aspectos já foram apresentados por outros autores
como sendo relevantes para análise textural (Ferraz 1986; Mackay 1984). Finalmente,
este método validado pode tornar-se adequado também à análise de obras
eletroacústicas e improvisação musical com eletrônicos ao vivo.
7. Referências
ACHARYA, U.R., Joseph, K. P., Kannathal, N., Lim, C. M., Suri, J. S. Heart Rate
variability: a review. Medical and Biological Engineering and Computing, 44(12),
1031–1051, 2006.
BRADLEY, E. Mantilla, R. Recurrence plots and unstable periodic orbits. Chaos,
12(3), 596–600, 2002.
BRUCE, E.N. Temporal variations in the pattern of breathing. Journal of Applied
Physiology, 80(4), 1079–1437, 1996.
CAMURRI, A., Varni, G., Volpe, G. “Towards Analysis of Expressive Gesture in
Groups of Users: Computational Models of Expressive Social Interaction”. Lecture
Notes in Computer Science, Springer: Berlin, 5934, 122–133, 2010.
CLENDINNING, J. P. The Pattern-Meccanico Compositions of Gyorgy Ligeti.
XXI Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música Uberlândia - 2011
Perspectives of New Music 31: 193-234, 1993.
FERRAZ, S. Análise e Percepção Textural: O Estudo no. VII, para sopros de Ligeti.
Atravez – Associação Artístico Cultural, 1986
http://www.atravez.org.br/ceam_3/analise_percepcao.htm, acessado em 4/4/2010.
MACKAY, John. “The perception of density and stratification in granular sonic
textures: an exploratory study”, Interface, vol. 13, no 4 (Lisse: Sweets & Zeitlinger
B.V), 1984.
MANZOLLI, J. (1993) “Non-linear Dynamics and Fractals as a Model for Sound
Synthesis and Real Time Composition. PhD Dissertation at the University of
Nottingham, UK.
MANZOLLI, J. & LUVIZOTTO, A.L. “Análise de Ramifications de Ligeti utilizando
Transformada Wavelet”. Anais do Congresso da ANPPOM, Curitiba, 2009.
MALT, M., Jourdan, E. “Zsa.Descriptors: a library for real-time descriptors analysis”.
In: 5th Sound and Music Computing Conference, Berlin, Allemagne, 31th july to
August 3rd, 2008.
MANDELBROT, B. The Fractal Geometry of Nature, W H Freeman & Co, 1982.
PUCKETTE, M., Apel, T. "Real-time audio analysis tools for Pd and MSP”. In:
International Computer Music Conference. San Francisco: International Computer
Music Association, pp. 109-112, 1998.
POINCARÉ, H. The Foundations of Science: Science and Hypothesis, the value of
Science, Science and Method, The Science Press, New York, 1923.
PEREIRA, E. M. Estudos Sobre uma Ferramenta de Classificação Musical.
Campinas, 2009, Dissertação de Mestrado, Universidade Estadual de Campinas.
ROIG-FRANCOLI, M. Harmonic and Formal Processes in Ligeti's Net-Structure
Compositions. Music Theory Spectrum 17: 242-267, 1995.