Tema 1
Transcrição
Tema 1
PLN Análise Extração Aplicações Introdução às tecnologias linguísticas Pablo Gamallo Otero Departamento de Língua Espanhola Universidade de Santiago de Compostela Matéria: Desenho e desenvolvimento de tecnologias linguísticas Mestrado em Linguística e as suas aplicações Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Índice 1 PLN 2 Análise 3 Extração 4 Aplicações Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Índice 1 PLN 2 Análise 3 Extração 4 Aplicações Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Processamento da Língua Natural Áreas de investigação Análise automática da língua: tokenização, PoS tagging, parsing, ... Extração de informação: entidades (NER), keywords, multi-palavras, relações semânticas... Aplicações: tradução automática, síntese/reconhecimento da fala, recuperação de informação, corretores de língua, análise do sentimento, resumos automáticos, busca de respostas, ... Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Processamento da Língua Natural Metodologia Linguísticos: métodos baseados em regras, heurísticas, ... Estatísticos: Machine Learning (métodos supervisados e não supervisados) Híbridos: linguístico-estatísticos. Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Índice 1 PLN 2 Análise 3 Extração 4 Aplicações Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Análise do texto texto tokenizador e lematizador texto tokenizado léxico e corpus etiquetado etiquetador (PoS tagger) gramática ou corpus analisado texto etiquetado analisador sintáctico (parser) texto analisado analisador semântico analisador discursivo representação semântico-discursiva Tecnologias Linguísticas Tema 1 modelo do domínio PLN Análise Extração Aplicações Análise do texto texto tokenizador e lematizador texto tokenizado léxico e corpus etiquetado etiquetador (PoS tagger) gramática ou corpus analisado texto etiquetado analisador sintáctico (parser) texto analisado analisador semântico analisador discursivo representação semântico-discursiva Tecnologias Linguísticas Tema 1 modelo do domínio PLN Análise Extração Aplicações Índice 1 PLN 2 Análise 3 Extração 4 Aplicações Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Named Entity Recognition (NER) Entidades Nomeadas: entidades designadas por nomes próprios e expressões numerais. Reconhecimento: identificação de entidades mono-lexicais (Rajoy) e multi-lexicais (Mariano Rajoy, Universidade de Santiago de Compostela). Melhora a tokenização. Classificação (NERC): localidades (Vigo), pessoas (Manuel Rivas), organizações (La Voz de Galicia), etc. Melhora a análise semântica. Ambiguidade semântica: La Voz de Galicia pode ser organização ou entidade informativa Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações NERC Metodologia Aprendizagem supervisado: corpus de treino e classificador Supervisão distante: listas classificadas (Wikipédia, DBpédia...) Demo: http://fegalaz.usc.es/~gamallo/php/nec/index.php Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Keywords Palavras clave: as mais representativas de um texto. Método estatístico: comparar frequências das palavras/lemas no texto contra as frequências dessas palavras/lemas em corpus de referência. Entrada: texto tokenizado e lematizado. Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Multi-palavras Multiwords: expressões multi-lexicais (tomar em conta, núcleo do átomo, ... Métodos híbridos: padrões de PoS tags (NOME-PREP-NOME, VERBO-PREP-NOME, etc.) e medidas estatísticas de associação. Entrada: texto etiquetado. Terminologia: construção de glossários de termos. Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor e periodista, actualmente colabora con el diario El País tripleta <Manuel Rivas , colabora con, El País> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor e periodista, actualmente colabora con el diario El País tripleta <Manuel Rivas , colabora con, El País> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor e periodista, actualmente colabora con el diario El País tripleta <Manuel Rivas , colabora con, El País> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor y periodista, actualmente colabora con el diario El País Mais tripletas <Manuel Rivas , lugar de nacimiento, A Coruña> <Manuel Rivas , fecha de nacimiento, 1957> <Manuel Rivas , es un, escritor> <Manuel Rivas , es un, periodista> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor y periodista, actualmente colabora con el diario El País Mais tripletas <Manuel Rivas , lugar de nacimiento, A Coruña> <Manuel Rivas , fecha de nacimiento, 1957> <Manuel Rivas , es un, escritor> <Manuel Rivas , es un, periodista> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor y periodista, actualmente colabora con el diario El País Outras tripletas <El País , es un, diario> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de Informação Relações (ou tripletas) texto Manuel Rivas (A Coruña, 1957), escritor y periodista, actualmente colabora con el diario El País Outras tripletas <El País , es un, diario> Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Extração de tripletas Metodologia Estratégias híbridas com informação linguística e estatística. Análise sintáctica de dependências para melhorar a extração. Open Information Extraction: conjunto aberto de relações. Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Índice 1 PLN 2 Análise 3 Extração 4 Aplicações Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Aplicações do PLN Análise do sentimento / Minaria de opiniões Milhões de tweets diários expressam opiniões ou sentimentos sobre produtos, pessoas, marcas, empresas... O sistema estándard de análise do sentimento de um texto devolve: POSITIVO, NEGATIVO ou NEUTRO Interesse para empresas e organizações: vigilância tecnológica, seguimento dos competidores, etc. Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Análise do sentimento Dificuldades @coleghi los de Ataque Escampe tocan fatal y cantan una mierda, pero me gustan que carallo :D Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Análise do sentimento Dificuldades @coleghi los de Ataque Escampe tocan fatal y cantan una mierda, pero me gustan que carallo :D Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Análise do sentimento Dificuldades @coleghi los de Ataque Escampe tocan fatal y cantan una mierda, pero me gustan que carallo :D Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Análise do sentimento Dificuldades @coleghi los de Ataque Escampe tocan fatal y cantan una mierda, PERO me gustan que carallo :D Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Aplicações do PLN Busca de respostas / Question&Answering À diferença dos motores de busca (Recuperação de Informação) que mostram um grande número de documentos relevantes, os sistemas de Question-Answering devem devolver respostas concisas, que podem ser frases extraídas de documentos ou frases construídas/geradas. Método: Compreensão da pergunta realizada e busca da resposta em grandes bases de dados (Linked Data) ou/e em grandes coleções de documentos (PLN). O sistema mais conhecido: Watson, de IBM. Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Linked Data Figura: Repositórios do projecto Linked Data Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações Watson no jogo televisivo Jeopardy Tecnologias Linguísticas Tema 1 PLN Análise Extração Aplicações ONTOpedia Search http://fegalaz.usc.es/ontopediaweb Tecnologias Linguísticas Tema 1
Documentos relacionados
PROCESSAMENTO NATURAL DA LINGUAGEM E
Informação, no sentido de identificar ferramentas que facilitem a recuperação e representação da informação, para identificação dos itens lexicais recorrentes em grandes volumes de textos. O objeti...
Leia mais