Motores de busca - nexus.futuro.usp.

Transcrição

Motores de busca - nexus.futuro.usp.
CBD 201 – Recursos Informacionais II
Relatório de Exercício de Busca em Buscadores Web
Amanda Pacini de Moura – nº USP 5901630
Profª Dra. Brasilina Passarelli
1. Motores de busca, temas e palavras-chave
Foram selecionados três motores de busca: Google, AltaVista e Bing.
Fundado em 1998 por Larry Page e Sergei Bin, o Google é hoje o buscador mais
popular do mundo, tornando-se referência mundial, sendo que seu nome tornou-se
praticamente sinônimo de fazer buscas na Internet. Segundo Larry Page, “O mecanismo de
pesquisa perfeito deve entender exatamente o que você quis dizer e retornar exatamente o que
você quer”, e esse é o objetivo do contínuo desenvolvimento do Google.1
Selecionei também o AltaVista por ser o primeiro buscador que eu utilizei, e com o
qual costumava fazer minhas para pesquisas escolares. Foi uma empresa pioneira em diversos
serviços de busca e referência online, como pesquisa multimídia, índice automático da web e
pesquisa em diversos idiomas.2
Por último, o Bing, novo motor de busca desenvolvido pela Microsoft, que nunca usei
e considerei interessante testar. O Bing é ‘herdeiro’ dos outros sistemas de busca criados
anteriormente pela Microsoft, MSN Search, Live Search e Windows Live Search.3
Realizaram-se três buscas em cada buscador, sempre com as mesmas palavras-chave:
preservação e conservação de papel, direitos e deveres dos idosos e Sistema Bethesda4,
sempre sem aspas e procurando em toda a web (sem restrições de língua ou país). As buscas
foram realizadas entre as 06h55 e 08h40 da manhã do dia 22 de março de 2010; em seguida,
os resultados foram analisados quantitativamente, em relação ao número total de resultados
obtidos, e qualitativamente, explorando as 10 primeiras respostas fornecidas por cada
buscador. Nessa exploração, buscaram-se notar a relevância das respostas (em relevante,
1
Informações retiradas de: <http://www.google.com.br/intl/pt-BR/corporate/facts.html>
<http://www.google.com.br/intl/pt-BR/corporate/tenthings.html>. Acesso em: 22 mar. 2010.
2
Informações retiradas de: <http://br.altavista.com/about/>. Acesso em: 22 mar. 2010.
3
Informações retiradas de: <http://en.wikipedia.org/wiki/Bing_%28search_engine%29>. Acesso em: 22 mar.
2010.
4
O Sistema Bethesda é o sistema de classificação de exames citopatológicos de colo de útero (exame de
Papanicolaou), realizados para prevenção do câncer nessa região.
pouco relevante e irrelevante), coincidências entre os resultados de busca e os sites onde as
páginas estavam hospedadas.
2. Buscas
2.1. Busca #1: Preservação e conservação de papel
A busca realizada com o Google apresentou o maior número de resultados: cerca de
2.720.000 páginas, mais que o dobro do Altavista (1.220.000) e quase o triplo do Bing
(96.500).
Dentre os dez primeiros links, nenhum coincidiu nos três buscadores simultaneamente,
mas cinco endereços foram encontrados em dois dos motores. Também não houve, em
nenhum caso, coincidência quanto à ordem de relevância dos endereços em comum.
Com exceção de um link, todos os primeiros resultados do Google consistiram de
páginas localizadas em sites de referência: universidades (UnB, UFSC, Universidade do
Porto, USP, PUC-Rio), instituições governamentais (Fundação Fiocruz, Tribunal de Justiça,
Escola de Saúde Pública do Rio Grande do Sul) e periódicos científicos (Arquivística). A
exceção consiste em um blog no Wordpress que republica notícias relacionadas a preservação,
conservação e restauro de materiais bibliográficos.
Figura 01. Página de resultados do Google para a primeira busca.
Três dos dez resultados são manuais de conservação, sendo dois em pdf e um destes
um manual para leigos usuários de biblioteca. Dois resultados são artigos de periódicos, em
pdf, com relatos de experiências de conservação em acervo. Foram considerados de pouca
relevância quatro resultados, três que direcionam o usuário a departamentos e/ou laboratórios
de conservação institucionais e um que apresenta o programa de uma disciplina universitária
de conservação (da Universidade do Porto).
Nenhum resultado do Google foi considerado irrelevante ou não relacionado ao
assunto buscado.
Na busca do Altavista, seis dos resultados forma páginas de sites institucionais ou
governamentais (SIBi-USP, Associação Brasileira de Encadernação e Restauro – ABER,
PUC-Rio, escola de fotografia); no entanto, um dos links não abriu. O Altavista também foi o
único motor a indicar uma página relevante da Wikipédia.
Quatro resultados foram divulgações de cursos na área, sendo que dois links, embora
de sites diferentes, informam sobre o mesmo evento; apenas um dos resultados se relaciona a
um evento recente (2009), sendo considerado mais relevante que os demais. Dois resultados
direcionaram para artigos em pdf, sendo que um deles também foi encontrado pelo Google (da
revista Arquivística). Coincidente com o Google também foi a página do setor de conservação
da PUC-Rio.
Um dos resultados, também indicado pelo Bing, foi considerado irrelevante, por tratarse de artigo sobre preservação ambiental.
O Bing totalizou o maior número de ruídos, pois dos dez resultados, dois não abriram
(incluindo um arquivo ppt) e cinco foram irrelevantes, sobre preservação ambiental, incluindo
dois diferentes artigos da Wikipédia. Dos três links relevantes restantes, um consiste em um
manual pdf de conservação, também localizado pelo Google; outro em divulgação de curso da
área na página da ABER, também encontrado pelo Altavista; e o terceiro o programa de uma
disciplina do Curso de Arquivologia da Universidade de Brasília, de pouca relevância. Todos
esses três resultados encontram-se em páginas institucionais.
2.2. Busca #2: Direitos e deveres dos idosos
O maior número de resultados foi obtido na busca realizada pelo Altavista, com
346.000 páginas encontradas, quase o triplo do Google (118.000) e sete vezes o número de
resultados do Bing (49.400).
Entre os dez primeiros links de cada busca, um resultado coincidiu nos três
buscadores, uma cartilha de direitos e deveres do trabalhador doméstico, em pdf, disponível
no site do Ministério do Trabalho, considerada irrelevante para a busca. Também houve
coincidência de mais dois resultados entre as respostas do Google e do Bing.
O Google também apresentou mais um resultado considerado irrelevante, uma página
de notícias da TV Transamérica com informações sobre divórcio e DPVAT. Dois resultados
consistiam em blogs de Portugal sobre o assunto e um relacionava-se a notícia antiga (2006)
sobre a distribuição de cartilhas sobre o Estatuto do Idoso, considerados pouco relevantes.
Cinco respostas foram consideradas relevantes: um site que republica notícias sobre a terceira
idade, uma listagem das leis brasileiras relacionadas ao direito dos idosos, histórico do
estatuto do idoso com cartilha sobre direitos de transporte, um artigo jurídico em linguagem
acessível sobre direitos do idoso e o portal da FolhaOnline sobre o Estatuto do Idoso.
Três resultados pertenciam a páginas institucionais ou governamentais (Folha Online,
Agência Nacional de Transportes Terrestres, Unochapecó).
Figura 02. Página de resultados do Altavista para a segunda busca.
Na busca do Altavista, apenas dois resultados não pertenciam a sites institucionais ou
governamentais, e coincidentemente eram irrelevantes, relacionados a direitos das crianças e
dos adolescentes e dos trabalhadores. Outros quatro resultados foram também considerados
irrelevantes, dois tratando-se de estatutos de sindicatos e confederações relacionados a idosos,
aposentados e pensionistas, um reproduzindo o texto da Declaração Americana dos Direitos e
Deveres do Homem, de 1948 e o quarto tratando dos direitos dos portadores de hanseníase,
em pdf.
Os três resultados considerados relevantes foram uma página da Fundação PróMenino, da Telefônica, que apresentava o site da Secretaria Especial dos Direitos Humanos
da Presidência da República, com conteúdo sobre direitos dos idosos; uma notícia recente
(março de 2010) na página da Secretaria da Cultura do Estado da Bahia sobre palestra de
direito dos idosos; e informações sobre os direitos dos idosos portadores de diabetes na Rede
Nacional de Pessoas com Diabetes.
Os resultados do Bing apresentaram o maior nível de relevância: sete de dez,
praticamente todos relacionados ao Estatuto do Idoso, incluindo a página da Wikipédia e da
Associação de Cuidadores do Idoso de Minas Gerais. Dois resultados, listagem das leis
brasileiras e portal da FolhaOnline, também foram indicados pelo Google. Todos os
resultados, com exceção da Wikipédia, eram institucionais ou governamentais, sendo que
duas páginas pertenciam ao mesmo portal, DHnet, uma organização não-governamental de
direitos humanos.
2.3. Busca #3: Sistema Bethesda
Novamente o Altavista forneceu o maior número de resultados de pesquisa, 777.000,
aproximadamente quatro vezes os resultados do Google (183.000) e oito vezes os resultados
do Bing (98.300). Entre os dez primeiros resultados, houve uma resposta comum a todas as
buscas, três em comum entre Altavista e Bing (um deles também com relevância em comum),
e duas em comum entre Google e Bing, sendo que estes também registraram coincidência de
relevância de três respostas (como primeiro, segundo e terceiro lugar).
Todos os resultados do Google foram considerados relevantes, tratando de
apresentações e explicações do sistema, e/ou comparações entre ele e outros métodos
classificatórios. Foram encontrados também um artigo científico, uma referência de artigo na
base LILACS e um documento (em doc) do Programa Viva Mulher do Ministério da Saúde
com a adaptação do Bethesda para uso no Sistema Único de Saúde brasileiro. Quatro dos
resultados direcionou para livrarias e lojas virtuais que vendem o manual do sistema, sendo
duas lojas brasileiras, uma portuguesa e uma espanhola.
Os resultados do Altavista também foram todos considerados relevantes, sendo todos
análises, explanações, adaptações e relatórios do sistema Bethesda; quanto a tipos de
arquivos, houve um documento em doc (relatório de atualização do sistema) e dois em pdf
(apresentações de eventos científicos).
Apenas o Bing apresentou um resultado irrelevante, uma página da Wikipédia sobre o
sistema sanguíneo ABO, e dois de baixa relevância, tratando de assuntos paralelos. Seis das
sete respostas relevantes apontam endereços também indicados nas outras buscas, sendo que a
sétima trata de outro endereço e forma (aqui, pdf), mas consiste no mesmo arquivo doc
localizado na busca pelo Google.
Figura 03. Página de resultados do Bing para a terceira busca.
Todos os resultados relevantes dos três buscadores pertencem a páginas
governamentais ou institucionais, seja de laboratórios, associações profissionais ou
publicações científicas.
3. Análise dos resultados
Quanto ao número de resultados, o Altavista forneceu o maior número em duas das
três buscas, e o Google, em uma delas; nesta busca (a Busca #1), o número de resultados total
foi muito maior do que nas outras. Não se compreende a razão para isso em relação à Busca
#2, pois ambas foram feitas com palavras-chave mais ou menos amplas; supõe-se, devido a
algumas das irrelevâncias notadas, que isso possa se originar das múltiplas aplicações dos
termos ‘preservação’, ‘conservação’ e, notoriamente, ‘papel. Já a última busca refere-se ao
nome de um sistema oficial, e esperava-se, portanto, menos resultados.
Em todos os casos o Bing sempre apresentou o menor número de resultados nas
buscas.
3.000.000
Número de resultados por
buscador por busca
2.500.000
2.000.000
1.500.000
1.000.000
500.000
0
Google
Altavista
Busca #1
Bing
Busca #2
Busca #3
Figura 04. Gráfico comparativo do número de resultados das buscas.
Na avaliação qualitativa, o Google foi o que menos apresentou resultados irrelevantes
á busca, com um total de 2 em 30, enquanto Altavista e Bing registraram, respectivamente, 8
e 11. O Bing registrou muitas irrelevâncias especialmente na busca #1, onde apenas 3
resultados eram aproveitáveis. Depreende-se daí que o buscador tem dificuldade de trabalhar
com palavras polissêmicas, como as usadas nessa busca. Já as muitas irrelevâncias do
Altavista na busca #2 em geral dizem respeito a resultados que tratam de direitos e deveres de
outras categorias ou faixas etárias que não o idoso.
8
7
6
5
4
3
2
1
0
Número de irrelevâncias nos
resultados por buscador por busca
Google
Altavista
Busca #1
Bing
Busca #2
Busca #3
Figura 05. Gráfico comparativo do número de irrelevâncias nos resultados.
Comparando as figuras 05 e 06, no entanto, pode-se observar que, embora o Google
registre baixa irrelevância, sempre apresenta uma quantidade considerável de pouca
relevância em suas buscas. Foram considerados resultados ‘pouco relevantes’ do Google
notícias desatualizadas (na busca #1), livros em lojas virtuais (na busca #3) e páginas
portuguesas (na busca #2); note-se, no entanto, que nos últimos dois casos, respectivamente,
pode ser importante para um usuário saber onde adquirir livros sobre o assunto pesquisado, e
as buscas foram feitas no modo ‘global’, sem filtros quanto à língua ou país de procedência
das páginas.
O único buscador que não apresentou resultados pouco relevantes em alguma busca
foi o Altavista, nas buscas #2 e #3.
5
Número de resultados de pouca
relevância por buscador por busca
4
3
2
1
0
Google
Altavista
Busca #1
Bing
Busca #2
Busca #3
Figura 06. Gráfico comparativo do número de resultados de pouca relevância.
Na figura 07 podem-se observar os resultados que foram encontrados em mais de um
relatório de busca ao mesmo tempo. Nas três buscas, apenas dois resultados foram apontados
por todos os buscadores. Em todas as buscas pelo menos um resultado foi encontrado em
comum entre todos os pares possíveis de buscadores, o que reforçaria, teoricamente, as
chances ou níveis de relevância das respostas apontadas por ambos; no entanto, não é isso que
se observa, sendo que alguns resultados coincidentes são pouco relevantes ou irrelevantes.
5
4
Número de resultados coincidentes
entre os buscadores por busca
3
2
1
0
G+A+B
G+A
Busca #1
G = Google
G+B
Busca #2
A = Altavista
A+B
Busca #3
B = Bing
Figura 07. Gráfico comparativo do número de resultados coincidentes entre os buscadores