Sistema de Recuperação de Imagens Similares em um Hospital
Transcrição
Sistema de Recuperação de Imagens Similares em um Hospital
Sistema de Recuperação de Imagens Similares em um Hospital Universitário Natália Abdala Rosa1,6, Roberto Figueira Santos Filho2, Josiane M. Bueno3, Agma J. M. Traina4, Caetano Traina Junior5 1,2,3,4,5 Grupo de Bases de Dados e Imagens do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, Brasil 6 Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo Resumo – Esse trabalho apresenta o SRIS-HC - Sistema de Recuperação de Imagens Similares que foi desenvolvido com a finalidade de demonstrar a viabilidade de recuperação de imagens por conteúdo no Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (HCFMRP/USP). Essa funcionalidade, que atua como um recurso adicional de um sistema PACS, é um auxílio adicional ao diagnóstico por imagens. O SRIS-HC foi desenvolvido a partir do Sistema de Informação em Radiologia do Serviço de Radiodiagnóstico do HCFMRP/USP – o Sistema de Laudo Eletrônico. Para possibilitar a recuperação e disponibilização das imagens consultadas de forma rápida e eficiente, o SRISHC faz uso da Slim-tree, que é um Método de Acesso Métrico (MAM) que possibilita a indexação e recuperação das características extraídas das imagens de forma otimizada. Palavras-chave: PACS, recuperação de imagens por conteúdo, DICOM, indexação de imagens. Abstract – This paper presents the SRIS-HC – Image Retrieval by Similarity System, developed aiming to demonstrate the ability to retrieve images based on their content at the Clinical Hospital of the Medical School of Ribeirao Preto of the University of Sao Paulo at Ribeirao Preto – Brazil (HCFMRP/USP). This ability is an additional resource of a PACS system and enables to improve medical diagnosis by images. The SRIS-HC was developed based on the Radiology Information System of the Radiodiagnosis Services of the HCFMRP/USP – the Electronic Report System. To enable an efficient and fast retrieval of images searching, the SRIS-HC works with Slim-tree, a Metric Access Method (MAM) that enables to index and retrieve image features which are extracted from the images in an optimized way. Key-words: PACS, image retrieval based content, DICOM, images index. Introdução Sistemas PACS (Picture Archiving and Communication System) referem-se a sistemas computacionais que são utilizados para capturar, armazenar, distribuir e exibir imagens médicas de forma descentralizada. Para aplicações de diagnóstico por imagens, a tecnologia PACS vem sendo utilizada para possibilitar radiologia sem filme (filmless). Radiologia sem filme refere-se a um hospital ou um amplo ambiente de rede no qual o filme tem sido substituído completamente ou amplamente, por um sistema eletrônico que adquire, armazena, comunica e exibe imagens[1]. A finalidade desse trabalho é apresentar o SRIS-HC - Sistema de Recuperação de Imagens Similares, desenvolvido com a finalidade de demonstrar sua viabilidade de uso no Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (HCFMRP/USP), e sua utilidade e importância como uma ferramenta adicional a um sistema PACS, uma vez que os PACS tradicionais não suportam busca de imagens baseadas no conteúdo. Em sistemas de suporte a diagnóstico, é importante permitir a comparação entre imagens, buscando as que são mais semelhantes (similares). A consulta exata por imagens não é utilizada nesse contexto, pois o médico está geralmente interessado em obter imagens que sejam similares àquela que encontra-se em análise. Encontrar a própria imagem dada é um processo de busca por chave textual ou numérica associada à imagem, o que já é suportado diretamente pelos gerenciadores de dados comerciais. A partir do Sistema de Laudo Eletrônico do Serviço de Radiodiagnóstico do HCFMRP/USP, desenvolvido em parceria com o Centro de Ciências das Imagens e Física Médica (CCIFM) da Faculdade de Medicina de Ribeirão Preto e o Centro de Informações e Análises do HCFMRP [2], o SRIS-HC foi desenvolvido mantendo totalmente sua integração com o mesmo, bem como com o padrão dos módulos de consultas do Sistema de Laudo Eletrônico. O SRIS-HC poderá atuar como uma ferramenta de apoio ao diagnóstico, permitindo a recuperação de imagens associadas a todas as informações relacionadas ao exame do paciente, contidas no Sistema do Laudo Eletrônico, tais como informações do paciente, dados textuais dos exames (tais como data, local de realização, região, modalidade), o laudo médico e os diagnósticos. O intuito é disponibilizar o acesso ao sistema através das estações de trabalho localizadas em qualquer local do hospital, através de acesso direto ao SRIS-HC ou indireto (através do Sistema de Laudo Eletrônico), o que irá reduzir grandemente o tempo que um médico levaria para se dirigir ao Serviço de Arquivo Médico e consultar o prontuário do paciente (que é uma pasta contendo todas as informações do paciente, tais como laudos médicos, prescrições, fichas operatórias, entre outros), ou ao Serviço de Radiodiagnóstico e consultar as imagens referentes ao exame realizado. Além disso, com a redução do esforço necessário para recuperar essas informações, uma vez que os médicos não necessitarão se deslocar até o Serviço de Radiodiagnóstico para a visualização das imagens e resultados, e com todas as informações disponíveis de forma integrada, além da possibilidade de se fazer consultas de imagens semelhantes a uma dada imagem de referência, ocorrerá um aumento na freqüência com que os médicos pesquisarão imagens de outros estudos do paciente com o intuito de auxiliar na interpretação do estudo corrente, melhorando a qualidade do diagnóstico feito. Para tanto, é necessário que a recuperação e disponibilização das imagens consultadas seja rápida e eficiente, sendo necessário o uso de estruturas de indexação que possibilitem a indexação e recuperação das imagens de forma bem otimizada. Como as imagens são dados multidimensionais, de dimensão usualmente elevada, o processo de indexação de imagens é complexo. As imagens são indexadas e recuperadas através de características extraídas das mesmas. As principais características utilizadas são a distribuição de cor e/ou brilho da imagem, formas e texturas presentes na mesma. Essas informações são tipicamente valores de alta dimensionalidade ou até adimensionais. Portanto o sistema de indexação, responsável por permitir responder consultas efetuadas sobre as imagens, tem que suportar eficientemente esse tipo de dados. Duas técnicas de extração de características de imagens foram adotadas no SRIS-HC: o histograma tradicional e o histograma métrico, uma nova característica construída sobre os histogramas de intensidade tradicionais de imagens. O histograma métrico é invariante às transformações de escala e brilho das imagens sendo pelo menos seis vezes mais compacto que os tradicionais histogramas, demandando menos espaço de armazenamento e fornecendo acesso mais rápido [3]. Os histogramas métricos são uma nova e eficiente técnica para capturar características de brilho das imagens, permitindo um mais rápido acesso às imagens baseado em conteúdo [4]. Dentre os métodos de acessos existentes, os mais adequados para se indexar um vetor de característica multidimensional, estão os Métodos de Acesso Métricos (MAM), que organizam um amplo conjunto de dados métricos permitindo inserções, deleções e buscas e suportam consultas por similaridade. Consultas por similaridade utilizam técnicas de recuperação de imagens baseadas no conteúdo, ou seja, as imagens são indexadas e comparadas através dos vetores de características extraídos delas [3]. Range queries (que pesquisa os objetos que estão até uma dada distância de um objeto de referência, por exemplo, “encontre as imagens que distam da imagem fornecida em até 10 unidades”) e k-nearest neighbor queries (que permitem solicitar as k imagens mais semelhantes da imagem dada, como por exemplo, “selecione as 10 imagens de Tomografia Computadorizada que mais se assemelham à imagem dada”) são tipos de consultas por similaridade [5]. A árvore métrica utilizada no desenvolvimento do SRIS-HC foi a Slim-tree (proposta por Traina et. al [6]), que é um novo MAM dinâmico pois permite inserções posteriores à criação da estrutura, além de ser uma árvore balanceada que cresce de baixo para cima, das folhas (onde estão armazenados os dados) para a raiz. A Slim-tree tem-se apresentado como a mais eficiente estrutura métrica atual. Testes na indexação de um grande conjunto de imagens vêm sendo realizados no Laboratório de Banco de Dados e Imagens (LaBdI) do Instituto de Ciências Matemáticas da Universidade de São Paulo (ICMC-USP) utilizando um conjunto de imagens médicas de Ressonância Magnética, obtido junto ao Serviço de Radiodiagnóstico do HCFMRP e, com o SRIS-HC. Metodologia A ampla biblioteca utilizada na implementação do SRIS-HC vem sendo projetada pelo Grupo de Base de Dados e Imagens (GbdI) do ICMC-USP, de São Carlos, com a finalidade de estarem desenvolvendo, em conjunto com o Centro de Ciências das Imagens e Física Médica, o cbPACS [3], que é um PACS que permite Recuperação de Imagens Baseadas em Conteúdo. O SRIS-HC foi desenvolvido utilizando-se a ferramenta de desenvolvimento CBuilder 5 com Base de Dados Oracle 8i. O desenvolvimento do SRIS-HC consistiu das seguintes etapas: a) análise do conjunto de imagens adotado como base e extensão da biblioteca utilizada; b) armazenamento das imagens no Servidor de Base de Dados Oracle 8i; c) desenvolvimento de um módulo de consulta de exames dos pacientes, associados aos respectivos laudos e às imagens pertencentes aos exames; d) desenvolvimento de um módulo de manutenção que permite criar a Slim-tree; e) desenvolvimento do módulo de pesquisa por imagens similares, núcleo do SRIS-HC. Resultados A primeira etapa no desenvolvimento do Sistema de Recuperação de Imagens Similares – SRIS-HC, foi a análise do conjunto de imagens adotado como base. As imagens encontram-se armazenadas em arquivos no formato DICOM 3.0. O formato DICOM (Digital Imaging and Communications in Medicine) é o padrão para comunicação de imagens médicas e informações associadas, atualmente utilizado por diversas modalidades de equipamentos de imagens médicas [7]. Os arquivos DICOM são compostos por informações textuais armazenadas em tags e pela imagem. Devido ao trabalho de vinculação das imagens de Ressonância com o Sistema de Laudo Eletrônico [7], adotou-se um padrão na forma de trabalho dos técnicos do HCFMRP no momento da aquisição das imagens, que consistiu em inserir em uma das tags do DICOM, a tag (0008,0050) – Accession Number, a chave do exame radiológico (composta pelo número do exame e um dígito de referência do ano), gerada pelo Sistema de Laudo Eletrônico. A partir desse momento, as novas imagens geradas possuíam no interior de seus arquivos a chave que permite vinculá-las com o exame radiológico. As imagens utilizadas nesse trabalho já fazem parte dessa nova geração de imagens obtidas com a nova forma de trabalho dos técnicos do HCFMRP. Portanto, na primeira etapa, a biblioteca utilizada foi estendida pelo GbdI para tratar a tag correspondente ao número do exame. O segundo passo foi desenvolver um módulo para armazenar as imagens em um Banco de Dados Relacional Oracle 8i (figura 1), já relacionadas com o exame. Os arquivos das imagens DICOM são abertos, processados, extraindo-se as imagens e as informações textuais relevantes, tais como o número do exame. A seguir, as informações textuais são armazenadas em seus respectivos campos e tabelas, e as imagens são armazenadas no Oracle no formato gbdi, que é interno do sistema, contendo a imagem e um cabeçalho. Pode-se também optar pelo armazenamento no Oracle das imagens em formato JPG, porém para o uso de todos os recursos da biblioteca, o armazenamento das imagens é feito no formato proprietário, o que não impede sua conversão. É possível armazenar somente as imagens, ou armazená-las juntamente com seus respectivos histogramas métricos ou tradicionais. Visando agilizar o processo de armazenamento das imagens, o SRIS-HC possibilita duas formas de execução desse processo: a forma parcial ou direta e a forma total. A forma parcial ou direta permite armazenar somente a imagem, sem o processo de extração e armazenamento das características. Esse processo pode ser executado posteriormente, no módulo que permite extrair e armazenar as características das imagens ainda não processadas. O armazenamento total consiste em armazenar a imagem, extrair as características suportadas pelo sistema e armazená-las na base. Figura 1 - tela de armazenamento de imagens na Base de Dados Foram armazenadas 3984 imagens e, extraído para cada imagem, o histograma tradicional e o histograma métrico (características suportadas pelo SRIS-HC), armazenando os resultados no Banco de Dados. O SRIS-HC também foi projetado para futuras inserções de outras características desejadas, como por exemplo, momentos, coeficientes de Fourier ou wavelets. Dessa forma, deve-se somente adicionar as novas características na tabela que as armazena e preparar a base para recebê-las. O próximo passo foi desenvolver um módulo de consulta de exames de pacientes, semelhante ao módulo existente no Sistema de Laudo Eletrônico. Porém, com a possibilidade adicional de, além de se visualizar todos os exames e respectivos laudos médicos do paciente pesquisado (figura 2), visualizar todas as imagens do exame selecionado, em pequenos thumbnails1 (figura 3). Esse módulo foi 1 Imagens em miniaturas, foto minimizada, slides. desenvolvido também com o objetivo de possibilitar selecionar a imagem de referência a ser utilizada nas buscas de imagens similares. Ao informar o nome-de-usuário e senha corretos, o usuário terá acesso à tela principal do sistema (figura 5). Figura 2 - consulta de exames de pacientes e respectivos laudos e imagens Figura 5 - tela principal do SRIS-HC Na quarta etapa, foi desenvolvido um módulo de manutenção que permite criar a Slimtree com as informações extraídas das imagens, histogramas métricos ou tradicionais. O último módulo do sistema, o núcleo do SRIS-HC é o que permite fazer consultas por similaridades, tanto as consultas range queries, quanto as k-Nearest Neighbor queries, e recuperar as imagens semelhantes à imagem de referência selecionada. A imagem de referência das consultas pode estar no formato gbdi (e portanto, armazenada no banco), ou no formato DICOM, localizada em uma pasta (em um CD-Rom ou winchester), existindo portanto, no SRIS-HC, duas formas de selecioná-la (figura 6). Figura 3 - imagens pertencentes ao exame selecionado Vale salientar que, referente às políticas de seguranças do sistema, o mesmo foi desenvolvido em conformidade com os demais sistemas do HCFMRP. É necessário que o usuário possua um nome-de-usuário e senha (figura 4), adquirido junto ao Centro de Informações e Análises do HCFMRP para estar utilizando os demais sistemas existentes no Hospital das Clínicas. Figura 6 - tela de pesquisa de imagens similares Figura 4 - conexão do usuário no SRIS-HC Ao selecionar uma imagem de referência no formato gbdi, verifica-se se a mesma possui a característica selecionada (histograma tradicional ou métrico) extraída e armazenada no banco. Caso possua, a mesma será informada como o vetor de característica a ser pesquisado na Slimtree; caso a imagem selecionada não possua a característica selecionada extraída e armazenada no banco, a imagem passará pelo processo de extração da característica, armazenando o resultado no banco (para evitar que, se selecionada novamente, tenha que passar por esse processo mais uma vez). A seguir, o vetor de característica será utilizado como objeto de busca a ser utilizado na Slim-tree. Se a imagem selecionada estiver no formato DICOM, ela passará pelo processo inicial no qual as imagens DICOM foram abertas, tendo sido extraído das tags do arquivo, as tags relevantes, sem porém, armazenar a imagem de busca no Banco, parando por aí. Nesse caso, a imagem de busca, após este processo. estará no formato gbdi, e já possuirá seu respectivo vetor de característica extraído a ser utilizado como base de pesquisa na Slim-Tree. Após a realização da pesquisa na Slimtree, serão retornados, caso existam objetos que satisfaçam os critérios de pesquisa, os objetos da árvore, contendo a identificação (Oid) da imagem que permite ir buscar no Banco as imagens detentoras desses Oids. Ou seja, através do Oid desses objetos retornados, é feito uma busca no Banco de Dados, para retornar as respectivas imagens associadas com as informações do Sistema de Laudo Eletrônico. As imagens serão então exibidas em pequenos thumbnails (figura 7), na ordem crescente de similaridade, com possibilidade de visualizá-las em seu formato original, e também com a possibilidade de visualizar as informações do paciente a quem pertencem, ou mesmo o laudo médico do exame a que pertence a imagem. Figura 7 – resultado da consulta por similaridade (por k-nearest neighbor, com k = 14) As figuras 7 e 8 ilustram a consistência dos resultados obtidos utilizando-se uma mesma imagem de referência (figura 6), executando primeiro uma consulta k-nn, com k=14 (no exemplo ilustrado). No resultado das imagens obtidas, é possível visualizar o Oid da imagem, além do exame a que pertencem e a distância das mesmas à imagem de referência (ordenada da menor distância para a maior, ou seja, da mais semelhante para a menos semelhante – figura 9). Figura 8 - resultado da consulta por range query, com “range” = 0,041 Figura 9 - zoom nas 3 primeiras imagens da figura 8 (observe o valor da distância da imagem resultante à imagem de referência e sua ordenação) Sendo assim, foi executado uma consulta range query, selecionando-se uma faixa que iria abranger algumas imagens resultantes da consulta k-nearest neighbor feita, como por exemplo, o valor 0,041. Com isso, verifica-se a coerência dos resultados obtidos, tendo sido obtido as mesmas imagens esperadas (obtidas na consulta k-nn). Uma vez que a imagem de referência pode ser selecionada de um arquivo DICOM localizado em um diretório, ou de uma imagem gbdi armazenada no Banco de Dados, foram feitos testes para validar as consultas quando a mesma imagem foi selecionada do arquivo original DICOM ou do Banco de Dados. Os resultados obtidos, tanto na consulta por range querie quanto na consulta k-nearest neighbor foram os mesmos. O SRIS-HC estará sendo submetido a mais testes, em uma base contendo um número maior de imagens e deverá, em breve, ser validado em operação. Conclusões Contatos O suporte de consultas por similaridade onde o conteúdo das imagens é utilizado é uma poderosa ferramenta para suporte ao diagnóstico por imagens médicas. A integração do sistema SRIS-HC junto ao Sistema de Informação Hospitalar do HC através do Sistema de Laudo permite que os médicos avaliem e comparem diagnósticos anteriores com os casos em estudo, proporcionando uma melhoria no diagnóstico. Natália Abdala Rosa. Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto. Campus Universitário – Monte Alegre. Ribeirão Preto – SP, Caixa Postal: 14048-900. Telefone: (016) 602-2245. E-mail: [email protected]. (http://www.natalinha.hpg.com.br) Referências Siegel, E. L. “Current State of the Art and Future Trends”, in Filmless Radiology, E. L. Siegel and R. M. Kolodner, Eds. New York City, NY: Springer Verlag, 1999, pp. 3-20. Marques, P. M. A., Santos, A. C., Elias Junior, J., Góes, W. M., Castro, C. R., Trad, C. S. “Implantação de um Sistema de Informação em Radiologia (RIS) em Hospital Universitário”. Radiologia Brasileira, v.33, p.155-160, 2000. Bueno, J. M., Chino, F., Traina, A. J. M., Traina Jr, C., Marques, P. M. A. “How to Add Content-based Image Retrieval Capability in a PACS”, In: The 15th IEEE Intl. Conference on Computer-Based Medical System – CBMS’02, 2002, Maribor, Eslovênia. Proceedings of IEEE CBMS’02. Los Alamitos, CA: IEEE CS Press, 2002. p.6pgs. Traina, A. J. M., Traina Jr, C, Bueno, J. M., Marques, P. M. A. “The Metric Histogram: A New and Efficient Approach for Content-based Image Retrieval” In: The Sixth IFPI Working Conference on Visual Database Systems (VDB6), 2002, Brisbane. Advances in Visual Database Systens. USA: Kluwer Academic Press, 2002. p.15pgs. Traina Jr, C., Traina, A. J. M., Faloutsos, C., Seeger, B. “Fast Indexing and Visualization of Metric Datasets Using Slim-trees”. IEEE Transactions on Knowledge and Data Engineering. Los Alamitos, CA:, v.14, n.2, p.244-260, 2002. Caritá, E. C., Marques, P. M. A., “Vinculação de Imagens para Busca e Visualização a Partir do Sistema de Informação em Radiologia (RIS)”, VII Congresso Brasileiro de Informática em Saúde e do II Simpósio Internacional de Sistemas de Informação Hospitalar, São Paulo-SP, 14 a 18 de outubro de 2000. Roberto Figueira Santos Filho. Instituto de Ciências Matemáticas e de Computação – USP. Grupo de Bases de Dados e Imagens. Avenida Trabalhador Sãocarlense, 400 – Centro. Cx. Postal: 668. São Carlos/SP – Brasil. CEP 13566590. Telefone: (016) 273-9674. www.gbdi.icmc.sc.usp.br. E-mail: [email protected]. Josiane M. Bueno. Instituto de Ciências Matemáticas e de Computação – USP. Grupo de Bases de Dados e Imagens. Avenida Trabalhador Sãocarlense, 400 – Centro. Cx. Postal: 668. São Carlos/SP – Brasil. CEP 13566-590. Telefone: (016) 273-9674. E-mail: [email protected]. Agma Juci Machado Traina. Instituto de Ciências Matemáticas e de Computação – USP. Grupo de Bases de Dados e Imagens. Avenida Trabalhador Sãocarlense, 400 – Centro. Cx. Postal: 668. São Carlos/SP – Brasil. CEP 13566590. Telefone: (016) 273-9674. www.icmc.sc.usp.br/~agma E-mail: [email protected]. Caetano Traina Junior. Instituto de Ciências Matemáticas e de Computação – USP. Grupo de Bases de Dados e Imagens. Avenida Trabalhador Sãocarlense, 400 – Centro. Cx. Postal: 668. São Carlos/SP – Brasil. CEP 13566590. Telefone: (016) 273-9674. www.icmc.sc.usp.br/~caetano E-mail: [email protected]