Motores de busca - nexus.futuro.usp.
Transcrição
Motores de busca - nexus.futuro.usp.
CBD 201 – Recursos Informacionais II Relatório de Exercício de Busca em Buscadores Web Amanda Pacini de Moura – nº USP 5901630 Profª Dra. Brasilina Passarelli 1. Motores de busca, temas e palavras-chave Foram selecionados três motores de busca: Google, AltaVista e Bing. Fundado em 1998 por Larry Page e Sergei Bin, o Google é hoje o buscador mais popular do mundo, tornando-se referência mundial, sendo que seu nome tornou-se praticamente sinônimo de fazer buscas na Internet. Segundo Larry Page, “O mecanismo de pesquisa perfeito deve entender exatamente o que você quis dizer e retornar exatamente o que você quer”, e esse é o objetivo do contínuo desenvolvimento do Google.1 Selecionei também o AltaVista por ser o primeiro buscador que eu utilizei, e com o qual costumava fazer minhas para pesquisas escolares. Foi uma empresa pioneira em diversos serviços de busca e referência online, como pesquisa multimídia, índice automático da web e pesquisa em diversos idiomas.2 Por último, o Bing, novo motor de busca desenvolvido pela Microsoft, que nunca usei e considerei interessante testar. O Bing é ‘herdeiro’ dos outros sistemas de busca criados anteriormente pela Microsoft, MSN Search, Live Search e Windows Live Search.3 Realizaram-se três buscas em cada buscador, sempre com as mesmas palavras-chave: preservação e conservação de papel, direitos e deveres dos idosos e Sistema Bethesda4, sempre sem aspas e procurando em toda a web (sem restrições de língua ou país). As buscas foram realizadas entre as 06h55 e 08h40 da manhã do dia 22 de março de 2010; em seguida, os resultados foram analisados quantitativamente, em relação ao número total de resultados obtidos, e qualitativamente, explorando as 10 primeiras respostas fornecidas por cada buscador. Nessa exploração, buscaram-se notar a relevância das respostas (em relevante, 1 Informações retiradas de: <http://www.google.com.br/intl/pt-BR/corporate/facts.html> <http://www.google.com.br/intl/pt-BR/corporate/tenthings.html>. Acesso em: 22 mar. 2010. 2 Informações retiradas de: <http://br.altavista.com/about/>. Acesso em: 22 mar. 2010. 3 Informações retiradas de: <http://en.wikipedia.org/wiki/Bing_%28search_engine%29>. Acesso em: 22 mar. 2010. 4 O Sistema Bethesda é o sistema de classificação de exames citopatológicos de colo de útero (exame de Papanicolaou), realizados para prevenção do câncer nessa região. pouco relevante e irrelevante), coincidências entre os resultados de busca e os sites onde as páginas estavam hospedadas. 2. Buscas 2.1. Busca #1: Preservação e conservação de papel A busca realizada com o Google apresentou o maior número de resultados: cerca de 2.720.000 páginas, mais que o dobro do Altavista (1.220.000) e quase o triplo do Bing (96.500). Dentre os dez primeiros links, nenhum coincidiu nos três buscadores simultaneamente, mas cinco endereços foram encontrados em dois dos motores. Também não houve, em nenhum caso, coincidência quanto à ordem de relevância dos endereços em comum. Com exceção de um link, todos os primeiros resultados do Google consistiram de páginas localizadas em sites de referência: universidades (UnB, UFSC, Universidade do Porto, USP, PUC-Rio), instituições governamentais (Fundação Fiocruz, Tribunal de Justiça, Escola de Saúde Pública do Rio Grande do Sul) e periódicos científicos (Arquivística). A exceção consiste em um blog no Wordpress que republica notícias relacionadas a preservação, conservação e restauro de materiais bibliográficos. Figura 01. Página de resultados do Google para a primeira busca. Três dos dez resultados são manuais de conservação, sendo dois em pdf e um destes um manual para leigos usuários de biblioteca. Dois resultados são artigos de periódicos, em pdf, com relatos de experiências de conservação em acervo. Foram considerados de pouca relevância quatro resultados, três que direcionam o usuário a departamentos e/ou laboratórios de conservação institucionais e um que apresenta o programa de uma disciplina universitária de conservação (da Universidade do Porto). Nenhum resultado do Google foi considerado irrelevante ou não relacionado ao assunto buscado. Na busca do Altavista, seis dos resultados forma páginas de sites institucionais ou governamentais (SIBi-USP, Associação Brasileira de Encadernação e Restauro – ABER, PUC-Rio, escola de fotografia); no entanto, um dos links não abriu. O Altavista também foi o único motor a indicar uma página relevante da Wikipédia. Quatro resultados foram divulgações de cursos na área, sendo que dois links, embora de sites diferentes, informam sobre o mesmo evento; apenas um dos resultados se relaciona a um evento recente (2009), sendo considerado mais relevante que os demais. Dois resultados direcionaram para artigos em pdf, sendo que um deles também foi encontrado pelo Google (da revista Arquivística). Coincidente com o Google também foi a página do setor de conservação da PUC-Rio. Um dos resultados, também indicado pelo Bing, foi considerado irrelevante, por tratarse de artigo sobre preservação ambiental. O Bing totalizou o maior número de ruídos, pois dos dez resultados, dois não abriram (incluindo um arquivo ppt) e cinco foram irrelevantes, sobre preservação ambiental, incluindo dois diferentes artigos da Wikipédia. Dos três links relevantes restantes, um consiste em um manual pdf de conservação, também localizado pelo Google; outro em divulgação de curso da área na página da ABER, também encontrado pelo Altavista; e o terceiro o programa de uma disciplina do Curso de Arquivologia da Universidade de Brasília, de pouca relevância. Todos esses três resultados encontram-se em páginas institucionais. 2.2. Busca #2: Direitos e deveres dos idosos O maior número de resultados foi obtido na busca realizada pelo Altavista, com 346.000 páginas encontradas, quase o triplo do Google (118.000) e sete vezes o número de resultados do Bing (49.400). Entre os dez primeiros links de cada busca, um resultado coincidiu nos três buscadores, uma cartilha de direitos e deveres do trabalhador doméstico, em pdf, disponível no site do Ministério do Trabalho, considerada irrelevante para a busca. Também houve coincidência de mais dois resultados entre as respostas do Google e do Bing. O Google também apresentou mais um resultado considerado irrelevante, uma página de notícias da TV Transamérica com informações sobre divórcio e DPVAT. Dois resultados consistiam em blogs de Portugal sobre o assunto e um relacionava-se a notícia antiga (2006) sobre a distribuição de cartilhas sobre o Estatuto do Idoso, considerados pouco relevantes. Cinco respostas foram consideradas relevantes: um site que republica notícias sobre a terceira idade, uma listagem das leis brasileiras relacionadas ao direito dos idosos, histórico do estatuto do idoso com cartilha sobre direitos de transporte, um artigo jurídico em linguagem acessível sobre direitos do idoso e o portal da FolhaOnline sobre o Estatuto do Idoso. Três resultados pertenciam a páginas institucionais ou governamentais (Folha Online, Agência Nacional de Transportes Terrestres, Unochapecó). Figura 02. Página de resultados do Altavista para a segunda busca. Na busca do Altavista, apenas dois resultados não pertenciam a sites institucionais ou governamentais, e coincidentemente eram irrelevantes, relacionados a direitos das crianças e dos adolescentes e dos trabalhadores. Outros quatro resultados foram também considerados irrelevantes, dois tratando-se de estatutos de sindicatos e confederações relacionados a idosos, aposentados e pensionistas, um reproduzindo o texto da Declaração Americana dos Direitos e Deveres do Homem, de 1948 e o quarto tratando dos direitos dos portadores de hanseníase, em pdf. Os três resultados considerados relevantes foram uma página da Fundação PróMenino, da Telefônica, que apresentava o site da Secretaria Especial dos Direitos Humanos da Presidência da República, com conteúdo sobre direitos dos idosos; uma notícia recente (março de 2010) na página da Secretaria da Cultura do Estado da Bahia sobre palestra de direito dos idosos; e informações sobre os direitos dos idosos portadores de diabetes na Rede Nacional de Pessoas com Diabetes. Os resultados do Bing apresentaram o maior nível de relevância: sete de dez, praticamente todos relacionados ao Estatuto do Idoso, incluindo a página da Wikipédia e da Associação de Cuidadores do Idoso de Minas Gerais. Dois resultados, listagem das leis brasileiras e portal da FolhaOnline, também foram indicados pelo Google. Todos os resultados, com exceção da Wikipédia, eram institucionais ou governamentais, sendo que duas páginas pertenciam ao mesmo portal, DHnet, uma organização não-governamental de direitos humanos. 2.3. Busca #3: Sistema Bethesda Novamente o Altavista forneceu o maior número de resultados de pesquisa, 777.000, aproximadamente quatro vezes os resultados do Google (183.000) e oito vezes os resultados do Bing (98.300). Entre os dez primeiros resultados, houve uma resposta comum a todas as buscas, três em comum entre Altavista e Bing (um deles também com relevância em comum), e duas em comum entre Google e Bing, sendo que estes também registraram coincidência de relevância de três respostas (como primeiro, segundo e terceiro lugar). Todos os resultados do Google foram considerados relevantes, tratando de apresentações e explicações do sistema, e/ou comparações entre ele e outros métodos classificatórios. Foram encontrados também um artigo científico, uma referência de artigo na base LILACS e um documento (em doc) do Programa Viva Mulher do Ministério da Saúde com a adaptação do Bethesda para uso no Sistema Único de Saúde brasileiro. Quatro dos resultados direcionou para livrarias e lojas virtuais que vendem o manual do sistema, sendo duas lojas brasileiras, uma portuguesa e uma espanhola. Os resultados do Altavista também foram todos considerados relevantes, sendo todos análises, explanações, adaptações e relatórios do sistema Bethesda; quanto a tipos de arquivos, houve um documento em doc (relatório de atualização do sistema) e dois em pdf (apresentações de eventos científicos). Apenas o Bing apresentou um resultado irrelevante, uma página da Wikipédia sobre o sistema sanguíneo ABO, e dois de baixa relevância, tratando de assuntos paralelos. Seis das sete respostas relevantes apontam endereços também indicados nas outras buscas, sendo que a sétima trata de outro endereço e forma (aqui, pdf), mas consiste no mesmo arquivo doc localizado na busca pelo Google. Figura 03. Página de resultados do Bing para a terceira busca. Todos os resultados relevantes dos três buscadores pertencem a páginas governamentais ou institucionais, seja de laboratórios, associações profissionais ou publicações científicas. 3. Análise dos resultados Quanto ao número de resultados, o Altavista forneceu o maior número em duas das três buscas, e o Google, em uma delas; nesta busca (a Busca #1), o número de resultados total foi muito maior do que nas outras. Não se compreende a razão para isso em relação à Busca #2, pois ambas foram feitas com palavras-chave mais ou menos amplas; supõe-se, devido a algumas das irrelevâncias notadas, que isso possa se originar das múltiplas aplicações dos termos ‘preservação’, ‘conservação’ e, notoriamente, ‘papel. Já a última busca refere-se ao nome de um sistema oficial, e esperava-se, portanto, menos resultados. Em todos os casos o Bing sempre apresentou o menor número de resultados nas buscas. 3.000.000 Número de resultados por buscador por busca 2.500.000 2.000.000 1.500.000 1.000.000 500.000 0 Google Altavista Busca #1 Bing Busca #2 Busca #3 Figura 04. Gráfico comparativo do número de resultados das buscas. Na avaliação qualitativa, o Google foi o que menos apresentou resultados irrelevantes á busca, com um total de 2 em 30, enquanto Altavista e Bing registraram, respectivamente, 8 e 11. O Bing registrou muitas irrelevâncias especialmente na busca #1, onde apenas 3 resultados eram aproveitáveis. Depreende-se daí que o buscador tem dificuldade de trabalhar com palavras polissêmicas, como as usadas nessa busca. Já as muitas irrelevâncias do Altavista na busca #2 em geral dizem respeito a resultados que tratam de direitos e deveres de outras categorias ou faixas etárias que não o idoso. 8 7 6 5 4 3 2 1 0 Número de irrelevâncias nos resultados por buscador por busca Google Altavista Busca #1 Bing Busca #2 Busca #3 Figura 05. Gráfico comparativo do número de irrelevâncias nos resultados. Comparando as figuras 05 e 06, no entanto, pode-se observar que, embora o Google registre baixa irrelevância, sempre apresenta uma quantidade considerável de pouca relevância em suas buscas. Foram considerados resultados ‘pouco relevantes’ do Google notícias desatualizadas (na busca #1), livros em lojas virtuais (na busca #3) e páginas portuguesas (na busca #2); note-se, no entanto, que nos últimos dois casos, respectivamente, pode ser importante para um usuário saber onde adquirir livros sobre o assunto pesquisado, e as buscas foram feitas no modo ‘global’, sem filtros quanto à língua ou país de procedência das páginas. O único buscador que não apresentou resultados pouco relevantes em alguma busca foi o Altavista, nas buscas #2 e #3. 5 Número de resultados de pouca relevância por buscador por busca 4 3 2 1 0 Google Altavista Busca #1 Bing Busca #2 Busca #3 Figura 06. Gráfico comparativo do número de resultados de pouca relevância. Na figura 07 podem-se observar os resultados que foram encontrados em mais de um relatório de busca ao mesmo tempo. Nas três buscas, apenas dois resultados foram apontados por todos os buscadores. Em todas as buscas pelo menos um resultado foi encontrado em comum entre todos os pares possíveis de buscadores, o que reforçaria, teoricamente, as chances ou níveis de relevância das respostas apontadas por ambos; no entanto, não é isso que se observa, sendo que alguns resultados coincidentes são pouco relevantes ou irrelevantes. 5 4 Número de resultados coincidentes entre os buscadores por busca 3 2 1 0 G+A+B G+A Busca #1 G = Google G+B Busca #2 A = Altavista A+B Busca #3 B = Bing Figura 07. Gráfico comparativo do número de resultados coincidentes entre os buscadores