fabio alexandrini.cdr
Transcrição
fabio alexandrini.cdr
RECUPERAÇÃO DE INFORMAÇÕES MÉDICAS DE LAUDOS EM PADRÃO TEXTO Fábio Alexandrini Alex Klehm Lenilson Porath Ricardo Wotzke RESUMO ABSTRACT Este trabalho centra-se no estudo de métodos de recuperação e interpretação de laudos médicos em padrão texto, utilizando-se de técnicas de PLN (Processamento de Linguagem Natural). Propõe-se também a estruturação de laudos médicos em formato texto utilizando-se adicionalmente a terminologia SNOMED (Systematized Nomeclature of Medicine) permitindo potencializar ainda mais o desempenho das técnicas de recuperação das informações dos laudos em formato textos. Seu objetivo central é propor formas eficientes de interpretação e recuperação de Laudos Radiológicos proporcionando informações que contribuam para futuros trabalhos. This paper centers in the study of recovery methods and interpretation of clinical reports in text format. The main goal is the structuring of the Clinical reports in text format using the NLP techniques (Natural Language Processing), being based on terminology SNOMED (Systematized Nomeclature of Medicine) that allows to improve the techniques of recovering the information from clinical reports in free texts. It focus on forms of interpretation and recovery of Radiological reports providing information that contribute for future works. Key words: Clinical reports, Natural Language Processing, information's System. Palavras chave: Laudos Médicos, Processamento de linguagem Natural, Sistemas de Informação. UNIDAVI 1 2 3 4 1 Professor Titular do Curso de Bacharelado em Sistemas de Informação UNIDAVI, Mestre em Engenharia de Produção, Aluno do Doutorado do Curso de Engenharia de Produção e Sistemas - Área de Concentração Inteligência Aplicada. 2 Graduandos do Curso de Bacharel em Sistemas de Informação da UNIDAVI 51 INTRODUÇÃO Durante as rotina os profissionais de saúde fazem, habitualmente, todo ou parte dos registros em papel, filmes impressos e outros meios físicos. Muitas instituições de saúde buscam implementar sistemas de registro clínico eletrônico visando maior agilidade no acesso aos dados de paciente, melhorando assim o atendimento. Mas normalmente, por força de mercados, os sistemas têm enfoques mais administrativos e financeiros do que preocupação com as informações dos pacientes como laudos e prescrições. Depois de vencida as resistências naturais do ser humano para a cooperação e o uso de sistemas informatizados surgem outros problemas. A maioria dos profissionais de saúde utiliza apenas textos livres para o registro de anamineses, laudos, prescrições e outros. Pois a escrita em textos livres é o método mais comum e habitualmente usado na comunicação entre qualquer pessoa, porém podem-se utilizar inúmeros recursos de linguagem, palavras sinônimas, linguagem figurada entre outros que vem a dificultam a interpretação dos mesmos e conduzem a erros e equívocos, principalmente quando se utiliza esta técnica em computadores, reduzindo o texto livre a apenas um conjunto de dados de difícil manipulação e interpretação. Apesar dos textos livres, na medicina diferirem em parte de textos livres comuns, pois se utilizando normalmente de escrita em forma 52 Caminhos de síntese e vocabulários próprios da medicina, sofrem dos mesmos problemas em escalas de maior ou menor intensidade, para a interpretação pelo computador. A proposta de combinação de diversas técnicas integradas a sistemas de informações na área da saúde seria uma solução viável que permitiria o uso efetivo de sistemas de registros médicas com técnicas de recuperação de informações que habitualmente ficam apenas armazenadas em bases de dados ou em backup (cópia de segurança) sem utilidade para o dia a dia. Porém as informações dos casos registrados até o momento, e que estão em formato texto, são de extrema importância no tratamento dos pacientes, assim como para comparações com casos de novos pacientes. Mas para que estas possam ser recuperadas e utilizadas de forma plena pelos profissionais da área da Saúde, necessitam estar ordenadas e padronizadas para facilitar o entendimento principalmente para permitir e agilizar a sua recuperação. Diversas técnicas, ferramentas e métodos foram estudados para apoiar o desenvolvimento de um protótipo, entre elas cita se: Orientação a Objeto (OO), Linguagens de Programação (LP), Banco de dados livres, Padrões Internacionais de Armazenamento de laudos médicos, Processamento de Linguagem Natural (PLN), Nomenclaturas na área de Medicina. ORIENTAÇÃO A OBJETOS código mais limpo, o que facilita e muito a sua manutenção e entendimento. A Orientação a Objetos proporciona uma enorme reutilização do código fonte para outras aplicações. Sempre lembrando que a reutilização completa do código se da quando não são mais feitas alterações prévias. A POO (Programação Orientada a Objetos) pode ser facilmente confundida com a POE (Programação Orientada a Eventos) principalmente por programadores sem muita prática ou que estão começando agora. A Orientação a Objetos atraiu muitos adeptos para a sua utilização principalmente pela sua pouca quantidade de código carregada na fonte como as linguagens mais antigas, citando como exemplo Clipper e Cobol duas linguagens muito utilizadas nos anos 80 e 90. As linguagens Orientadas a Objetos possuem alguns conceitos que devem ser previamente entendidos para a sua utilização entre elas podem-se citar algumas que podem ser visualizadas no quadro 1. Essa pouca quantidade de código utilizada tem como vantagem um Atualmente possuem várias linguagens de programação que uti- Quadro 1: Conceitos de Orientação a Objetos. UNIDAVI 53 lizam conceitos de Orientação a Objetos, mais somente uma linguagem pode se dizer que é puramente Orientada a Objetos essa é o Smalltalk que será vista a seguir. Dentre as linguagens a que mais se aproxima do Smalltalk e o Java, que implementa tipos simples de dados (integer, real, char) herdados do C, mais o resto todo é Orientado a Objetos. Outras linguagens como Delphi, C++ e Peal, possuem características Orientadas a Objetos, mais não as executam no seu todo. LINGUAGEM DE PROGRAMAÇÃO SMALLTALK A linguagem de programação Smalltalk existe a mais de 22 anos e com o decorrer da evolução da tecnologia vem sendo a primeira linguagem completamente orientada a objetos. Essa linguagem de programação foi criada por volta de 1980 no Centro de Pesquisas de Palo Alto (PARC) da XEROX onde anunciaram uma linguagem totalmente orientada a objetos e cujo nome no projeto inicial denominava se Dynabook, essa linguagem apresentada passou-se posteriormente a chamar-se Smalltalk. Pode se dizer que Smalltalk é a única linguagem realmente orientada a objetos. É uma ótima linguagem para a prototipação e estudos acadêmicos educacionais. Uma ferramenta de programação muito utilizada para desenvolver aplicativos em Smalltalk e o Visual Works, que é uma ferramenta visual e de fácil utilização desenvolvida pela CINCOM. Essa ferramenta trabalha com 54 Caminhos um Browser que mostra todas as Classes e métodos disponíveis para o desenvolvimento. Existe uma vasta gama de classes e métodos que já são disponibilizados pela ferramenta, mais nada impede que mais classes e métodos sejam criados. Smalltalk é uma linguagem interpretada e gera um código chamado bytecode. Essa linguagem também pode ser executada em várias plataformas de sistemas operacionais, já que não geram apenas arquivos executáveis para uso de um determinado Sistema Operacional. O Visual Works possui uma ferramenta chamada de Work Space, onde funciona como um bloco de notas para desenvolvimento de rotinas e partes do programa, sendo que estas partes desenvolvidas podem ir sendo testadas de acordo com o desenvolvimento, sem que se espere todo o projeto final. A facilidade de desenvolvimento de interfaces também é uma vantagem já que é totalmente gráfica como a linguagem de programação Delphi. Também pode - se utilizar um banco de dados para a inserção, manu-tenção, exclusão de dados dos sistemas. BANCO DE DADOS Um sistema de Banco de Dados pode-se dizer que é uma quantidade de dados que são armazenados dentro de um ambiente computadorizado, onde estes dados podem ser recuperados e alterados, virando informações que podem ser utilizadas em várias ocasiões. Pode-se perceber melhor quando C. J. Date diz que: “[...] um sistema de banco de dados é basicamente um sistema computadorizado de armazenamento de registros; isto é, um sistema computadorizado cujo propósito é armazenar informações e permitir ao usuário buscar e atualizar estas informações, quando solicitado”. (DATE, 2000, p. 4); Para manipular e recuperar informações armazenadas em um banco de dados é necessário à utilização da linguagem SQL “[...] SQL é uma linguagem padrão para se lidar com banco de dados relacionais, e é aceita por quase todos os produtos do mercado”.(DATE, 2000, p.71). O SQL foi criado por volta da década de 70 pela empresa IBM Research. Os comandos SQL não são case sensitive, ou seja, ela não possui restrição no uso de letras maiúsculas e letras minúsculas. Um comando SQL pode ter várias linhas e não importa onde são quebrados, “A única exceção é a quebra no meio de uma cadeia de caracteres[...]”. (SONNINO, 2000, p. 121). A SQL inclui uma linguagem de definição de dados (DDL, data definition language) e um componente de manipulação de dados (DML, data manipulation language). A DML da SQL pode operar tanto no nível externo (sobre visões) quanto no nível conceitual (sobre tabelas básicas). Do mesmo modo a DDL de SQL pode ser usada para definir objetos no nível externo (visões), no nível conceitual (tabelas básicas), e mesmo - na maioria dos sistemas comerciais, embora não no padrão em si - no nível interno (isto é, em índices e outras estruturas físicas de armazenamento). (DATE, 2000, p. 85). O SQL também possui controles de dados que na verdade não podem ser classificados como DDL e nem como DML, então é criada uma nova linguagem de definição de dados o DCL (data control language). A linguagem DDL possui os comandos create, alter e drop. A linguagem DML possui os comandos insert, delete, update, select. E por ultima a linguagem DCL possui os comandos Grant e revoke. Dentre os diversos tipos de Banco de Dados como Oracle, SQL Server, Interbase, existe o banco de dados MYSQL que é atualmente um software gratuito, e segundo Soares (2001, p.17) “é um gerenciador de banco de dados mais utilizado no mundo Linux [...]”, mais nada impede que ele seja instalado na plataforma Windows, além dele estar disponível para várias plataformas operacionais. Para que ele possa ser instalado, corretamente e seja de fácil utilização na plataforma Windows é preciso 3 arquivos: MYSQL para Windows, Interface Gráfica para MYSQL e Drive ODBC para MYSQL. O MYSQL aceita dados do tipo Numérico, Data / Hora (Temporais) e String (Cadeia de Caracteres). As datas são tratadas de diferentes formas em bancos de dados. O MYSQL as trata da seguinte forma AAAA-MM-DD, ou seja, primeiro vem o ano com quatro dígitos, depois UNIDAVI 55 vem o mês com 2 dígitos e em seguida o dia também com 2 dígitos. Este sistema de banco de dados pode ser considerado de médio ou intermediário porte se comparado a outros modelos de Banco de Dados, não é tão robusto quanto o Oracle, mais também não deixa a desejar como o Access. Soares (2000, p.31) afirma a sua utilização é muito simples, pois aceita comandos SQL para a manipulação de dados e dispõe de alguns comandos extras para a manipulação do ambiente[...]. Ele possui um bom controle de segurança no acesso aos dados por usuários não autorizados. Na criação de suas tabelas faz apenas referência a chaves primárias e não a estrangeiras, em aplicações de até médio porte não precisa se considerar isso um problema, já que pode ser feito via programação, e nas próximas versões que estão para sair este recurso será implantado. O MYSQL e um banco de dados leve e rápido funciona como monousuário (apenas um usuário acessando os dados) ou multiusuário (mais que um usuário acessando os dados) neste projeto que será desenvolvido será utilizado o MYSQL e ele poderá trabalhar tanto em mono-usuário como em multiusuário, isso vai depender de quais os módulos desenvolvidos será instalada automação, e se terá servidor de dados ou não. Alem de ferramentas de softwares como linguagens de programação e Sistemas de Banco de Dados, são necessários padrões que são utilizados em sistemas desenvolvidos nas áreas de saúde. Dentre 56 Caminhos esses padrões pode-se citar alguns padrões internacionais como PACS, HL7 e DICOM. PACs - Picture Archive and Communication System. Os grandes centros médicos e hospitais de todo o mundo têm procurado integrar as informações de seus pacientes incluindo os exames de imagens efetuados (tomografia computadorizada, tomografia por ressonância magnética, ultra-som, medicina nuclear, etc.). Um sistema que integra as imagens junto às informações tradicionais é chamado de Sistema de Arquivamento e Comunicação de Imagens ou PACS. Os sistemas PACS comerciais associam as imagens de exames às informações de pacientes através de chaves de consultas textuais e numéricas, não suportando consultas baseadas no conteúdo pictórico das imagens. Entretanto, muitas vezes o médico gostaria de recuperar as imagens armazenadas que fossem semelhantes (similares) a uma determinada imagem de consulta. Por exemplo, seja a consulta: "encontre as 10 imagens mais semelhantes à imagem Raio-X - tórax do João da Silva". Ao responder a consultas desse tipo, o sistema permite que o médico relembre casos ocorridos anteriormente. Além disso, o conhecimento já gerado de exames e tratamentos anteriores pode ser recuperado mais rapidamente do que utilizando apenas a memória humana ou um sistema não automático de recuperação de infor- mações. Um sistema com a capacidade de recuperar imagens utilizando o seu conteúdo pictórico é uma ferramenta valiosa para o auxílio ao diagnóstico médico. Esta tese apresenta a arquitetura de um PACS atualmente em desenvolvimento. HL7 - Health Level 7. O Health Level 7(HL7) é um comitê fundado em 1987 para desenvolver normas para o intercâmbio eletrônico de informação clínica, financeira e administrativa entre serviços de saúde independentes orientados por computador, como sistemas de informação de hospitais, sistemas de laboratórios clínicos, etc. Em junho de 1994, HL7 foi designado pelo Instituto da Associação Nacional Americana de Normas (ANSI) como um fornecedor de normas para a mesma na área da saúde. A norma atual define as transações para transmitir dados sobre registro de pacientes, admissão, descarte e transferências, seguros, taxas e contas a pagar, pedidos e resultados para testes de laboratório, exames de imagem, observações médicas e de enfermagem, prescrições de dieta, pedidos a farmácia, pedidos de suprimentos, e arquivos. O HL7 está atualmente desenvolvendo transações para a troca de informações sobre marcação de consultas, lista de problemas, avaliações clinicas, permissões do paciente, diretivas avançadas, e sinais fisiológicos. HL7 é uma norma reconhecida internacionalmente para o intercâmbio eletrônico de dados na área da saúde. Não se trata de um software comercial, mas antes um conjunto de regras para enviar grupos de textos em caracteres que representam a identificação do paciente, a identificação dos clínicos, resultados de análises laboratoriais, resultados de testes e outros dados administrativos e clínicos. Esta norma permite a comunicação entre diferentes tipos de sistemas de informação. O sistema HL7 é atualmente utilizado na maioria dos hospitais dos E.U.A., sendo também usado na Austrália, Áustria, Bélgica, Canadá, Finlândia, Alemanha, Holanda, Israel, Japão, Nova Zelândia e Reino Unido. De fato, alguns países formaram mesmo organizações filiadas do HL7 como HL7 Canadá, HL7 Alemanha, HL7 Nova Zelândia, HL7 Finlândia, HL7 Holanda e HL7 Austrália. DICOM - Digital and Communications in Medicine) Surgiu em 1985, duas organizações norte-americanas, uma da área médica (American College of Radiology) e outra da área de equipamentos médicos (National Electrical Manufacturers Association) desenvolveram conjuntamente um padrão para o intercâmbio eletrônico de imagens que não dependesse do tipo de computador onde residem os dados. Esse padrão recebeu o nome de ACR-NEMA, e foi o primeiro a ser adotado pelos fabricantes de aparelhos geradores de imagens radiológicas, permitindo assim uma UNIDAVI 57 conexão mais fácil a computadores de uso geral. Posteriormente foi criado, a partir dele, outro padrão, o DICOM (Digital and Communications in Medicine), o qual foi adotado muito mais amplamente, e que governa também as informações de texto (nome, número de registro do paciente, laudo radiológico, etc.). O DICOM define não somente como a imagem é representada digitalmente dentro do computador (formato de imagem), bem como ele deve ser arquivado. Cada objeto codifica apenas informações semânticas, e não contém informações sobre como o documento representado pelo objeto deve ser apresentado, ou impresso. Portanto, cada implementação de prontuário eletrônico pode ter um formato para apresentação que lhe for mais adequado. Além disso, objetos no padrão fazem uso de terminologia controlada, o que evita as ambigüidades da linguagem natural, facilita o entendimento automatizado do conteúdo, a busca por informações específicas, e a internacionalização do conteúdo. São enormes os benefícios trazidos por sistemas desse tipo, pois os programadores de software podem simplesmente incorporar o padrão em seus programas, ao invés de ter que desenvolver um novo programa a partir do zero. Além disso, eles não precisam se preocupar com as diferenças entre os vários modelos de aparelhos de raios X, tomografia, ultra-som, medicina nuclear, etc., ou com os computadores onde rodam os seus programas. Várias organizações, como o American College of Cardiology e o American College of 58 Caminhos Pathology estão adotando o DICOM como padrão. Isso fará com que um largo espectro de imagens médicas sejam padronizadas e disponíveis através de alguns comandos simples. Existem vários sites na Internet onde você pode achar software gratuito que "entende" o DICOM e pode visualizar imagens geradas segundo o padrão. O padrão DICOM contempla também itens como comunicação e troca de mensagens entre aplicações, serviços oferecidos, segurança de informação, etc., possibilitando a interface com outros sistemas computacionais voltados para a área médica, como os Sistemas de Informação Hospitalar, os Sistemas de Automação de Leitos, os Sistemas de Controle Laboratorial, dentre outros. A rápida adoção do padrão DICOM pelas indústrias de imagem médica irá também abrir novas oportunidades para organizações de cuidados à saúde para aumentar a qualidade e a efetividade nos cuidados aos pacientes. O sistema DICOM permite que informações sobre um paciente viagem entre lugares diferentes do mundo via modem, o que é mais barato e mais rápido do que outros meios de transporte. Além disso, as imagens não perdem a definição e, consequentemente, a interpretação das imagens pelas entidades médicas é mantida, já que a qualidade gráfica não se altera. Sem uma dúvida, o DICOM é o maior projeto de padrões de imagens médicas empreendido por indústria e sociedades profissionais. Ele é um padrão complexo por causa do tamanho de seu conteúdo, mas isto é implementável e útil. O padrão oferece o balanço certo entre o suporte de implementação rápida de objetivo pragmático em produtos correntes e uma fundação modular sólida que assegura uma capacidade para desenvolver e responder a necessidades de futuras. A quantidade de trabalhos feitos no DICOM é uma parte da razão pelo interesse de outros especialistas que usam imagens. Através do uso da perícia disponível em sociedades profissionais, objetos de informação e serviços podem ser definidos. Esta pode fazer uso da estrutura do DICOM para implementação. DICOM STRUCTURE REPORT O padrão DICOM SR estabelece como devem ser formados objetos compostos de informação que codificam dados a respeito de exames, diagnósticos e, tratamentos, além de informações de contexto, tais como procedimentos que devem ser executados para o sucesso de um tratamento, e dados sobre profissionais de saúde envolvidos. Um objeto no padrão pode conter referências embutidas a imagens, eletrocardiogramas, e arquivos de áudio bem como a outros documentos no mesmo padrão. Desta forma um único objeto DICOM pode conter todas as informações referentes a um determinado tratamento. Cada objeto codifica apenas informações semânticas, e não con- tém informações sobre como o documento representado pelo objeto deve ser apresentado, ou impresso. Portanto, cada implementação de prontuário eletrônico pode ter um formato para apresentação que lhe for mais adequado. Além disso, objetos no padrão fazem uso de terminologia controlada, o que evita as ambigüidades da linguagem natural, facilita o entendimento automatizado do conteúdo, a busca por informações específicas, e a internacionalização do conteúdo. São inúmeros os benefícios que podem ser alcançados com a utilização de padrões para codificação, armazenamento e transmissão de registros clínicos eletrônicos. A necessidade de se utilizar padrões se torna mais evidente à medida que mais instituições implementam sistemas de registro clinico eletrônico. O padrão DICOM SR se destaca por fazer parte de um padrão para dados médicos, amplamente utilizado atualmente nos Estados Unidos e parte da Europa, pela flexibilidade para representação de informações, pelo uso de terminologia controlada, e pela possibilidade de embutir outros objetos no padrão como imagens e eletrocardiogramas. NOMENCLATURAS MÉDICAS INTERNACIONAIS A classificação em Medicina tem finalidades estatísticas e epidemiológicas, pesquisa clínica, indexação de documentos e prestação de contas. Os sistemas de classificação sur- UNIDAVI 59 giram no sentido de permitir a compreensão precisa e global dos registos clínicos. Uma classificação é um sistema ordenado de conceitos dentro de um domínio, com princípios de sistematização e agrupamento implícitos ou explícitos. A forma como os domínios são definidos depende da sua intenção de uso. A classificação é baseada num conhecimento primário e estabelece a ligação para a extensão do conhecimento. O propósito da classificação é, por exemplo, estabelecer bases para estatísticas médicas ou facilitar a pesquisa. Numa classificação, os conceitos são ordenados de acordo com relações genéricas. Isto significa, por exemplo, pneumonia é um tipo de doença do pulmão. Classificação contém conceitos dentro de um certo domínio. Exemplos de domínios são: o diagnóstico, procedimento médico, pesquisa científica e administração de fármacos. A este respeito, a Classificação internacional de doenças, 9th edição (ICD-9) é uma classificação de diagnósticos. Na classificação de doenças são importantes nomeadamente, os seguintes aspectos: localização anatômica, etiologia, morfologia e disfunção. Estes aspectos correspondem a diferentes ordens de classificação, o que se denomina de axis. Muito genericamente refere-se aos sistemas de classificação que se dividem em dois grupos: uniaxiais ou unidimensionais e multiaxiais ou multidimensionais. Nos primeiros a 60 Caminhos distinção de conceitos é feita através de um sistema de referência (ex: CID), nos outros a distinção é feita e estabelecida por mais do que um sistema de referência (ex: SNOMED). CID - Classificação Internacional de Doenças. Classificação Internacional de Doenças (CID) é um gênero de nomenclatura médica criada pela Organização Mundial de Saúde (OMS) que têm por objetivos promover comparabilidade internacional na coleção, processamento, classificação e apresentação de estatísticas de mortalidade. Isso inclui a indexação de dados hospitalares em relação a doenças e procedimentos cirúrgicos para que os mesmos sejam armazenados e futuramente analisados. CID-10 o nome completo é “Classificação Estatística Internacional de Doenças e Problemas Relacionados à Saúde” e simplificado para CID-10. A CID-10 é uma Classificação Internacional de Doenças que tem um código alfanumérico, que permite a análise sistemática, a interpretação e a comparação dos dados de morbidade e mortalidade coletados nos diferentes países, em diferentes épocas. Ela também é usada para traduzir diagnósticos de doenças e outros problemas de saúde a partir desta codificação alfanumérica. Esta codificação facilita o arquivamento, a recuperação e a análise das informações, podendo ser usada pela informática. Entre outras utilidades como ensino, pesquisa, propósitos epidemiológicos gerais bem como, finalidades administrativas da saúde. Vale lembrar aqui que os atestados de óbito e procedimentos médicos são codificados pela CID. NOMENCLATURA SNOMED A padronização do vocabulário médico é fundamental para reunir informação clínica no cuidado ao paciente, para recuperar informação no manejo da doença ou para pesquisa, assim como para conduzir a análise de resultados. A SNOMED “The Systematized Nomenclature of Human Medicine” é uma nomenclatura multiaxial criada para indexar o conjunto de registros médicos. A SNOMED internacional foi formada em setembro de 1993, mas já havia sido traçada desde o início dos anos 60 como a Systematized N o m e n c l a t u r e f o r Pa t h o l o g y (SNOP). Ela inclui sinais e sintomas, diagnósticos e procedimentos; e seu projeto único irá permitir a integração completa de todas as informações médicas, em um registro médico eletrônico dentro de uma estrutura única de dados. A composição da nomenclatura SNOMED possui alguns eixos para distinção dos termos e facilidade de localização dos mesmos, conforme a figura 1. O eixo topográfico ou anatômico tem seus códigos iniciado com a letra T indicando anatomia funcional para medicina humana e veterinária pos- suindo aproximadamente 13.165 registros. No âmbito morfológico com a letra M compreende as alterações encontradas nas células, tecidos e organismos com aproximadamente 5.898 registros e os diagnósticos indicados pela letra D indicam a classificação de condições reconhecidas clinicamente encontradas na medicina humana e veterinária com 41.494 registros. Os Procedimentos indicados pela letra P são procedimentos administrativos, exames de todos os tipos, diagnósticos e terapêuticos (n= 30.796 registros), e Funcional F, com sinais e sintomas; fisiologia e fisiopatologia dos processos da doença (n= 19.355 registros) Organismos vivos L: organismos com vida de etiologia significante na doença humana e animal (n= 24.821 registros). Os produtos com a letra C são os químicos, drogas, produtos biológicos e manufaturados farmacêuticos. E os Agentes físicos, ações e forças A: compêndio de ações físicas, perigos físicos, e forças da natureza (n= 1601 registros). Para Contexto social S: condições sociais e suas relações de importância para a medicina (n= 1.070 registros) e as Ocupações J são termos que descrevem a ocupação. Existem ainda termos gerais G que são ligações, descrições, e qualificações que se associam ou que modificam os termos contidos em cada eixo (n = 1594 registros). UNIDAVI 61 Topografia (T) Morfologia (M) Organismo (L) Doença (D) Modificadores Gerais (F) Função (F) Procedimentos (P) Agentes Químicos Ocupação (J) Agentes Físicos (A) Contexto Social (S) Figura 1: Modelo de Eixos da Nomenclatura SNOMED. Fonte: SNOMED A sua sistematização compreende uma combinação de alguns destes eixos. Por exemplo, um diagnóstico completo na SNOMED consiste em um código topográfico, um código morfológico, um código de organismo vivo e um código funcional. Quando um diagnóstico é estabelecido. Por exemplo, a doença com o código D-13510 (Pneumonia pneumocócica) é equivalente à combinação de: T-28000 (código topográfico para pulmão); M-40000 (código morfológico para inflamação) e L25116 (código Streptococcus Pneumoniae do eixo de organismos vivos). Um outro exemplo é a doença dermatite atópica com o código D10130 é composta pelos seguintes eixos: T-01000 (código topográfico para pele), M-4300 (código morfológico para inflamação crônica), M01735 (código morfológico para eritema papulovesicular), F-C3000 (código funcinal para reação de hipersensibilidade alérgica) e FA2300 (código funcional para o sin- 62 Caminhos toma coceira). PROCESSAMENTO DE LINGUAGEM NATURAL O Processamento de Linguagem Natural (NLP, sigla em inglês) é o conjunto de métodos formais para analisar textos e gerar frases escritas em um idioma humano. Normalmente computadores estão aptos a compreender instruções escritas em linguagens de computação como o Java, C, PERL, Basic, etc., mas possuem muita dificuldade em entender comandos escritos em uma linguagem humana. Isso se deve ao fato das linguagens de computação serem extremamente precisas, contendo regras fixas e estruturas lógicas bem definidas que permitem o computador saber exatamente como deve proceder a cada comando. Em um idioma humano uma simples frase normalmente contém ambigüidades, nuances e interpre- tações que dependem do contexto, do conhecimento do mundo, de regras gramaticais, culturais e de conceitos abstratos. Pois durante milhões de anos o cérebro humano foi desenvolvido e evoluiu para a capacidade de comunicação social através da linguagem. Atualmente os computadores e equipamentos eletrônicos nos obrigam a aprender formas não intuitivas de comunicação com essas máquinas através de comandos precisos, linguagens de programação, menus, links e botões. As interfaces entre as máquinas e seres humanos estão ficando mais sofisticadas e caminhando aos poucos em direção às formas mais humanas de comunicação. Muitas vezes ainda precisa-se dar comandos do tipo "copy c:\file.doc a:\" para copiar um arquivo para o disquete, ou podemos fazer isso de forma gráfica, mas estáse (ou melhor, estava-se) longe de poder dizer "Computador, copie para o disquete o texto acabei de salvar". O objetivo final do Processamento de Linguagem Natural é fornecer aos computadores a capacidade de entender e compor textos. E "entender" um texto significa reconhecer o contexto, fazer análise, sintática, semântica, léxica e morfológica, criar resumos, extrair informação, interpretar os sentidos e até aprender conceitos com os textos processados, conforme o quadro 2. Quadro 2: Níveis de Processamento de Linguagem Natural. CARACTERÍSTICAS DA LINGUAGEM MÉDICA. No universo da Medicina a Radiologia de forma geral é a que possui o maior número de equipamentos computadorizados e portanto, é inevitável o contato dos profissionais da área com as tecnologias da área de informática tornando-os assim mais receptivos a sistemas de informática de qualquer natureza. Dentre os equipamentos na área radiológica que utilizam amplamente tecnologias da área de informática destacam-se os Ultra-sonógrafos, Tomógrafos, Aparelhos de Hemodinâmicas e de Raios-X apenas os mais modernos. UNIDAVI 63 Normalmente é a área que mais gera textos como resul-tados dos exames realizados, denominados laudos radiológicos. Estes Laudos provem do resultado do processo entre médicos especialistas nas mais diversas áreas dentro da medicina e as clínicas Radiológicas, conforme a Figura 2. Inicialmente o médico especialista ao realizar a Anaminese com o paciente e através das queixas do mesmo solicita diversos exames, entre eles os radiológicos para documentar e certificar-se das suspeitas que possui acerca do diagnóstico correto. Estes exames normalmente são requisitados por formulários próprios de cada plano de saúde (público ou privado) e possuem código e formalidades de preenchimentos específicos a cada um. As Clínicas radiológicas onde são realizados os procedimentos necessários à execução do exame e posterior análise com a emissão de um Laudo acerca dos achados que fogem aos padrões convencionais de estrutura anatômicas em evidência assim como de corpos estranhos sejam estes secreções, líquidos entre outros. Figura 2: Diagrama das Fases de Atendimento e Laudo sob a ótica Radiológica Fonte: Grupo de Pesquisa de Recuperação de Informações Médicas de Laudos em Padrão Texto. 64 Caminhos Os laudos gerados através dos exames, têm características e vocabulários próprios, seguindo uma estruturação específica por tipo de exame. Habitualmente são destacadas apenas as áreas anatômicas de interesse do estudo. Por exemplo, em uma tomografia da região do tórax são destacadas regiões anatômicas como mediastino, Traquéia, Brônquios, Pulmões Hilos e Pleuras conforme exemplo da Figura 2. Quadro 2: Exemplo de tomografia computadorizada do tórax. Fonte: acervo dos autores. Ao se fazer uma análise do laudo radiológico do Quadro 2, encontram-se diversas frases que precisam ser interpretadas conforme mostra o Quadro 3. As informações foram extraídas do laudo baseando-se no livro de radiologia alemão CT- und MRTNormalebefunde e no livro SNOMED Systematisierte Nomenklatur der Medizin. A SNOMED, como descrito anteriormente, contém deste as regiões anatômicas, ocupação, agentes químicos, fiscos, vírus, além de possíveis doenças, tal como inflamações, deformações e outros achados significativos para os especialistas médicos. Nos textos dos laudos em português empregam-se apenas frases afirmativas ou negativas, normalmente sem o emprego de verbo, tornando a leitura objetiva e rápida a cerca dos itens a serem descritos. Por Exemplo: em uma tomografia do tórax, onde os pulmões são o objeto de estudo algumas das frases mais são: • Transparência pulmonar normal • Seios costo - frênicos livres • Contornos regulares. • Hilos anatômicos. Este recurso empregado nos tex- UNIDAVI 65 tos dos laudos foge as regras lingüísticas do idioma português, porém trazem benefícios da eficiência e rapidez na leitura e interpretação por parte dos médicos especialistas a quem se destinam os exames realizados, conforme proposta no quadro 3. Quadro 3: Exemplo de análise de um laudo de uma tomografia computadorizada do tórax convencional com contraste. Fonte: acervo dos autores. CARACTERISTICAS DOS LAUDOS RADIOLÓGICOS Os laudos destes exames radiológicos são compostos também pelas imagens geradas durante os exames que podem ser: radiografias convencionais, Tomografia Computadorizada Helicoidal, Mamográfias, Ultrasonográfias, Densiometria Óssea, Dental Scan, Doppler Colorido, Endoscopia Digestiva, Radiologia Intervencionista, Ultra-sonografia Computadorizada. Para cada tipo de exame são emitidos laudos pelos médicos espe- 66 Caminhos cializados em dentro das diversas especialidades, técnicas e aparelhos de Radiologia. Estes laudos se considerados objetos normalmente possuem uma estrutura compostas de outros objetos que o compõem, como Cabeçalho, Técnica e Título do Exame, Dados Clínicos, Achados, Conclusão e Rodapé. Cabeçalho: onde é feita a identificação do paciente e do médico requisitante alem de constar evidentemente o tipo de exame realizado com a respectiva região anatômica ou topológica do corpo onde foi realizado. As informações impor- tantes neste cabeçalho estão nos quadros de números 4, 5 e 6. Quadro 4: Identificação do médico. Fonte: acervo dos autores. Nam*: Composto de Nome e Sobrenome que podem ser de 1 a n Dat*: Data de Nascimento Quadro 5: Identificação do paciente. Fonte: acervo dos autores. Quadro 6: Identificação do Título do exame. Fonte: acervo dos autores. Técnica do Exame: descreve o tipo de técnica usado no exame, normalmente citando ou não o uso de Contrastes e seqüência de imagens, a maioria dos termos pode ser convertida em SNOMED tipo de Procedimento. Nem todos os exames exigem estas especificações. Ex: Realizado estudo do tórax em modo [axial / helicoidal], durante e após a administração endovenosa do meio de contraste iodado. Dados clínicos: contém Doenças conhecidas e reclamações/queixas do paciente. Descrito em algumas frases, que nem sempre poderão ser traduzidas em SNOMED, a menos quando definem patologias previamente conhecidas. Ex: Suspeita de Pneumonia. Lesão pré-existente no pulmão, etc. Achados: descreve o que esta sendo visto no exame realizado e pode ser dividido em novos subobjetos, contêm apenas dados im- UNIDAVI 67 portantes sobre a região Anatô-mica, utiliza frases curtas com o emprego de pouco ou nenhum verbo, citando a região anatômica convertida em SNOMED tipo Topolografia „TTopographie“, podendo existem uma citação conjunto a posição dentro da região anatômica: convertida em SNOMED tipo posição „GA-Position“ como: direita, esquerda. Normalmente este tipo de termo está combinado com proposição de lugar tais como: em, na / no, acima, abaixo. Especifica problemas encontrados convertida em SNO-MED tipo Morfologias „M-Morphologie“, Doenças „D-Krankenheit“ ou Disfunções „F-Funktion/Disfunktion”“. Qualifica esta região anatômica e/ou os Problemas usar termos qualificadores como: sem, ausente indicando negação ou normal, intacto, anatômico, etc. que também indicam a ausência de problemas. Ou mínimo, leve, pouco, etc. que indicam pequenos problemas ou ainda Quadro 7: Exemplo de laudo médico. Fonte: acervo do autor. 68 Caminhos forte, agudo, crônico, etc. que indicam um grau mais avançado do problema. O Parecer: descreve o que há de mais importante visto no exame realizado, normalmente repete as frases contidas nos achados e, portanto segue as mesmas regras do mesmo. Rodapé: onde é feita a identificação do médico radiologista responsável pelo laudo e as informações encontradas nesta parte são o pronome tratamento: Dr. Seu nome completo e seu número de identificação no CRM - conselho regional de medicina .Abaixo no quadro 7, está um exemplo de um exame onde foram, por questões éticas e de responsabilidade, anonimizados os nomes dos médicos e paciente do exame, bem como endereços, datas e outros dados que permitiriam qualquer tipo identificação ou associação. DESENVOLVIMENTO DO PROTÓTIPO Primeiramente estudou-se a linguagem de programação Smalltalk,uma vez que esta não é ministrada no curso de Sistemas de Informação. Mais por ter características específicas de Orientação a Objeto e possuir versões para inúmeros sistemas operacionais, foi à plataforma de desenvolvimento sugerida para o projeto, pois outros softwares que já aviam sidos desenvolvidos até então por outras pessoas ou grupos de pesquisa principalmente da Universidade Federal de Santa Catarina, que se depuseram a ajudar no entendimento da linguagem e que também tinham desenvolvidos seus projetos em Smalltalk. Passada esta fase inicial de estudos básicos da linguagem, passou-se a estudar e desenvolver rotinas de tratamento de textos, frases e palavras que nos auxiliassem futuramente no projeto. Essas rotinas também serviam como boas bases de exercícios para a utilização da linguagem. Juntamente com o desenvolvimento dessas rotinas, necessitou-se a leitura de arquivos de laudos radiológicos em diversos formatos, ou seja, laudos originais nos padrões em documentos .doc e transformá-los para uma forma mais simples, onde pudessem ser mais bem observados e manipulados pelo sistema, então os passando para o padrão texto (.txt). Os padrões texto são bem mais simples que os Documentos em si, por que não carregam consigo grandes cabeçalhos de padrões de cores, tabelas, fontes entre outras perfumarias visuais. Durante o desenvolvimento de algumas rotinas que auxiliassem nesta conversão, observou se à complexidade do que estava sendo desenvolvido para esse projeto. Visando agilizar alguns processos e procurando não reinventar a roda fez-se uso de uma ferramenta já pronta que faz a conversão de vários arquivos sendo uma delas de documento para arquivo texto. Essa ferramenta é conhecida como AntiWord que resolveu os problemas de conversão, com a sua chamada durante a execução do programa principal. Também foi utilizada outra ferramenta já desenvolvida por terceiros, que serve como um dicionário e corretor ortográfico. Isto por que alguns laudos podem conter alguns erros, nos quais podem comprometer a análise léxica feita mais adiante em cima desses textos médicos, causando erros indesejáveis. Essa ferramenta chama-se Aspell e encontra-se disponível em vários idiomas e sistemas operacionais como Linux e Windows. Vencida mais esta etapa iniciou-se então o estudo e desenvolvimento de uma interface gráfica para o sistema, no qual fosse simples, intuitiva e de fácil acesso para os usuários médicos. A escolha de um banco de dados para o armazenamento das informações geradas se deu após o desenvolvimento de algumas rotinas e a interface gráfica. Foi refeita a análise do Sistema, sendo montado um modelo de banco de dados com as tabelas, entidades e relacionamentos. UNIDAVI 69 tendo por fim criação das mesmas no sistema gerenciador de banco de dados MySQL, que não tem a robustez do famoso banco de dados Oracle, mas atende as necessidades primárias do projeto, alem de ser gratuito e também pode ser utilizado futuramente sob do Sistema Operacional Lixux, que tem seu código aberto minimizando os custos finais com Banco de dados e Sistema Operacional, sem contar na sua facilidade na utilização. Também foram desenvolvidas rotinas de cadastros de Médicos para o armazenamento de dados dos médicos responsáveis pelos laudos, assim como rotinas de cadastros dos pacientes em geral, visando saber com exatidão a quem o laudo se refere como paciente. Outras rotinas de cadastros se fizeram necessárias, como as de localidades, mas sem uma grande importância especifica para o funcionamento do sistema, servindo somente como referência para os cadastros de médicos e usuários. Figura 3: Tela de cadastro dos profissionais médicos Fonte: acervo dos autores. Foi necessária também a criação de classificação das palavras encontradas nos laudos pela sua classe gramatical conforme a tabela 1, cuja 70 Caminhos finalidade e auxiliar na estruturação das informações encontradas e vinculá-las aos respectivos código SNOMED. Tabela 1: Tabela de classificação de palavras. Fonte: acervos dos autores. Após os primeiros testes de classificação encentraram-se uma quantidade expressiva de adjetivos que eram derivados de substantivos e que por isso possuíam grande importância para a organização e interpretação das frases, necessitando assim um tratamento especial com os mesmos. O sistema também possui uma tela principal que é utilizada para o tratamento e manuseio dos laudos em si, com suas devidas transformações, correções ortográficas, médico responsável pelo laudo, paciente, número de laudo entre outras coisas mais, para então a partir daí ser feito de forma automática e sucinta, sem que o usuário veja, toda uma análise gramatical em cima do texto para seu armazenamento de forma estruturada de acordo com regras e padrões internacionais. Tudo isso visando futuramente à recuperação dos desses analisados por outros profissionais médicos, tendo então uma melhor base de conhecimento para tratamento de casos similares. UNIDAVI 71 Figura 4: Tela principal do sistema. Fonte: acervo dos autores. CONSIDERAÇÕES FINAIS 72 com os resultados parciais obtidos em análise por médicos cujo objetivo é a validação das informações geradas pelo sistema, tem motivado de forma especial à continuação dos trabalhos em uma segunda etapa visando o aperfeiçoamento do protótipo e a inclusão de novas facilidades sugeridas. Durante o desenvolvimento deste projeto surgiram varias situações e problemas, mas que com empenho e dedicação durante o decorrer do tempo também foram sendo superados. Os maiores problemas se criaram devido à falta de literaturas para a pesquisa na utilização de algumas ferramentas para o seu desenvolvimento que não possuam muita documentação. Outra grande dificuldade é a análise gramatical das palavras onde se envolvem muitas regras e não são fáceis de expressar na forma de regras computacionais. Apresentam-se, a seguir, algumas recomendações que possam vir a orientar futuras pesquisas e estudos a respeito: Mas até o presente momento, • Continuar a pesquisa atual, efe- Caminhos RECOMENDAÇÃO DE TRABALHOS FUTUROS tuando as devidas modificações que se fizerem necessárias e forem recomendadas pelos profissionais médicos. • Utilizar padrões internacionais para armazenamento de dados. • Propor novos projetos visando criar ferramentas de busca para auxiliar médicos. UNIDAVI 73 REFERÊNCIAS FALLER, Adolf Der Körper des Menschen: Einführung in Bau und Funktion STUTTGART Thieme, 1999. RUSSEL, Stuart J. e NORVIG, P. Artificial Intelligence: a modern approach. Prentice-Hall, Inc., Upper Saddle River, N.J. THEWS, Gerhard Pathophysiologie des Menschen Wiss.Verl.Ges, 1999. ZETKIN, Maxin Wörterbuch der Medizin 1980. STUTTGART BERLIM Verl.Gesundheit, Camargo, Leoleli. Medicina na Rede; Jornal Zero Hora; 15/06/2002. Dellani, Paulo Roberto. Desenvolvimento de um servidor de imagens médicas digitais no padrão DICOM; [dissertação], Universidade Federal de Santa Catarina.;2001. Clunie, David A. DICOM Structured Reporting; 2000. DICOM - Digital Imaging and Communications in Medicine. [On-Line] available: http://medical.nema.org/ TELEMEDICINA 2000 I Seminário de Telemedicina do Alto Vale do Itajaí UNIDAVI Rio do Sul - Maio-2000. SOARES, Walace. MySQL Conceitos e Aplicações. 9ª ed. São Paulo, Èrica, 2001. WANGENHEIM, Aldo Von, Conhecendo o Smalltalk. Santa Catarina, Visual Books, 2002. DATE, C.J, Introdução a Sistemas de Banco de Dados. 3ª ed. Rio de Janeiro, Campus, 2000. SONNINO, Bruno, Desenvolvendo Aplicações em Delphi 5, São Paulo, Makron Books, 2000. COAD, Peter. Análise baseada em objetos. Rio de Janeiro. Campus, 1998. CHRISTODULAKES, Demtres - Natural language processing: 2th International Conforerence, Patras Greece: proceedings NLP BERLIM Springer, 2001. BUENO, Josiane Maria, Suporte à recuperação de imagens médicas baseadas em conteúdo através de Histogramas Métricos, Tese de Doutorado, USP, 2001. 74 Caminhos WINGERT, Friedrich, SNOMED Systematisierte Nomenklatur der Medizin, Heidelberg: Springer-Verlag, 1984. Clunie, David A. DICOM Structured Reporting; PixelMed Publishing; 2000. MÖLLER, Torsten B, REIF, Emil, CT - Und MRT Stuttgart, Thieme, 1998. Normalebefunde, GNU Aspell. Disponível em < http://www.gnu.org/software/aspell>.Acesso em: 7 maio 2003. MANNING,Christopher D., SCHÜTZE, Hinrich Friedrich, Foundations of Statistical Natural Languange Processing, Londres: The MIT Press, 1999. UNIDAVI 75 76 Caminhos