-iDIPLOMARBEIT Evaluierung hybrider Suchsysteme im WWW
Transcrição
-iDIPLOMARBEIT Evaluierung hybrider Suchsysteme im WWW
-iDIPLOMARBEIT Universität Konstanz Informationswissenschaft Evaluierung hybrider Suchsysteme im WWW vorgelegt von Joachim Griesbaum Hardtstr.15 78467 Konstanz Matrikelnummer 01/442653 Gutachter Prof. Dr. Rainer Kuhlen Prof. Dr. Harald Reiterer Konstanz, 21.12.00 Abstract Der Ausgangspunkt dieser Arbeit ist die Suchproblematik im World Wide Web. Suchmaschinen sind einerseits unverzichtbar für erfolgreiches Information Retrieval, andererseits wird ihnen eine mäßige Leistungsfähigkeit vorgeworfen. Das Thema dieser Arbeit ist die Untersuchung der Retrievaleffektivität deutschsprachiger Suchmaschinen. Es soll festgestellt werden, welche Retrievaleffektivität Nutzer derzeit erwarten können. Ein Ansatz, um die Retrievaleffektivität von Suchmaschinen zu erhöhen besteht darin, redaktionell von Menschen erstellte und automatisch generierte Suchergebnisse in einer Trefferliste zu vermengen. Ziel dieser Arbeit ist es, die Retrievaleffektivität solcher hybrider Systeme im Vergleich zu rein roboterbasierten Suchmaschinen zu evaluieren. Zunächst werden hierzu die grundlegenden Problembereiche bei der Evaluation von Retrievalsystemen analysiert. In Anlehnung an die von Tague-Sutcliff vorgeschlagene Methodik wird unter Beachtung der webspezifischen Besonderheiten eine mögliche Vorgehensweise erschlossen. Darauf aufbauend wird das konkrete Setting für die Durchführung der Evaluation erarbeitet und ein Retrievaleffektivitätstest bei den Suchmaschinen Lycos.de, AltaVista.de und QualiGo durchgeführt. The starting point of this work is the problem of searching the world wide web effectively. Search Engines on one hand are considered indispensable for successful information retrieval, on the other hand, they are said to be of only moderate efficiency. The topic of this work is to investigate the retrieval effectiveness of german-language search engines. It shall be determined which retrieval effectiveness may currently be expected by users. A basic approach to increase the retrieval effectiveness of search engines is to mix editorial results, which are compiled by humans, with the results that are automatically created by the engine. The goal of this study is to evaluate the retrieval effectiveness of such hybrid systems in comparison with the effectiveness of purely robot-based search engines. First the fundamental issues of the evaluation of retrieval systemes are analyzed. In accordance with the methodology suggested by Tague-Sutcliff, a possible approach is derived considering the specifics of the web. Subsequently, a concrete setup for the execution of the evaluation is elaborated and a test of the retrievaleffectiveness of the search engines Lycos.de, AltaVista.de and QualiGO.de is executed. Inhaltsverzeichnis 1. Einleitung............................................................................................................. 7 2. Theoretischer Teil - methodische Vorgehensweise........................................ 11 2.1 Evaluationen im Kontext des Information Retrieval .............................................. 11 2.2 Retrievaltests - historischer Abriss und aktueller Stand....................................... 13 2.2.1 ASTIA und Cranfield (1953)............................................................................... 13 2.2.2 Cranfield I (1957) ............................................................................................... 14 2.2.3 Cranfield II (1966) .............................................................................................. 14 2.2.4 Medlars (1966) ................................................................................................... 15 2.2.5 Inspec (1969) ..................................................................................................... 15 2.2.6 Aberystwyth Index-Languages Test (1972)...................................................... 15 2.2.7 Padok (1984-1986) ............................................................................................. 15 2.2.8 Milos II (1995): ................................................................................................... 16 2.2.9 TREC (Text Retrieval Conference):................................................................... 17 2.2.10 GIRT (1997) ...................................................................................................... 19 2.2.11 Historischer Abriss – Erkenntnisse................................................................ 20 2.2.12 Retrievaltests – Zwischenergebnis ................................................................ 26 2.3 Evaluationsmethodik............................................................................................... 27 2.3.1 Testen oder nicht testen? ................................................................................. 27 2.3.2 Welche Art von Test soll durchgeführt werden? ............................................. 28 2.3.3 Wie sind die Variablen zu definieren und zuzuordnen? .................................. 29 2.3.4 Welches Informationssystem wird genutzt/untersucht?................................. 30 2.3.5 Wie sind die Informationsbedürfnisse und Suchanfragen zu erschließen?... 31 2.3.6 Wie sollen die Suchanfragen durchgeführt werden? ...................................... 32 2.3.7 Wie wird das Testsetting ausgestaltet, welche Testanordnung ist adäquat? 32 2.3.8 Wie sollen die Daten erfaßt werden?................................................................ 33 2.3.9. Wie sollen die Daten ausgewertet werden? .................................................... 34 2.3.10 Wie sollen die Ergebnisse präsentiert werden? ............................................ 34 2.3.11 Evaluationsmethodik - Schlußfolgerung........................................................ 35 2.4 Besonderheiten des Information Retrieval im World Wide Web ........................... 36 2.4.1 Informationsraum Internet ................................................................................ 36 2.4.1.1 Datenbestand .............................................................................................. 37 2.4.1.2 Hypertextstrukturen im Internet................................................................. 38 2.4.1.3 Nutzer .......................................................................................................... 39 2.4.1.4 Internetsuchmaschinen.............................................................................. 40 2.4.1.5 Informationsraum Internet – Schlußfolgerungen ...................................... 43 2.4.2 Retrievaltests im Internet.................................................................................. 43 2.4.2.1 Chu und Rosenthal (1996) .......................................................................... 44 2.4.2.2 Leighton und Srivastava (1997).................................................................. 46 2.4.2.3 Gordon und Pathak (1998).......................................................................... 47 2.4.2.4 Wolff (2000). ................................................................................................ 51 2.4.2.5 ZDLabs (2000). ............................................................................................ 53 2.4.2.6 Retrievaltests im Internet – Schlußfolgerung ............................................ 54 2.5 Theoretischer Teil – Zwischenergebnis.................................................................. 55 3. Praktischer Teil - Durchführung der Evaluation.............................................. 58 3.1. Entwicklung des Evaluationsettings nach Tague-Sutcliff .................................... 58 3.1.1 Testen oder nicht testen? ................................................................................. 58 3. 1.2 Welche Art von Test soll durchgeführt werden? ........................................... 60 3.1.3. Variablendefinition und Zuordnung ................................................................ 61 3.1.3.1 Unabhängige Variablen .............................................................................. 61 3.1.3.1.1 Bewertungsmaße und -größen................................................................ 61 3.1.3.1.1.1 Relevanz als Grundlage der Bewertungsmaße.................................... 61 3.1.3.1.1.2 Relevanzeinstufung .............................................................................. 62 3.1.3.1.1.3 Bewertungsmaße .................................................................................. 65 3.1.3.1.2 Suchanfragen und Informationsbedürfnisse.......................................... 68 3.1.3.1.3 Testpersonen ........................................................................................... 69 3.1.3.2 Umgebungsvariable Informationsraum Internet........................................ 70 3.1.3.3 Abhängige Variablen – Relevanzeinstufung der Treffer ........................... 71 3.1.4 Ausgewählte Suchmaschinen .......................................................................... 72 3.1.5 Erschließung der Informationsbedürfnisse und Suchanfragen...................... 76 3.1.6 Durchführung der Suchanfragen...................................................................... 79 3.1.7 Testanordnung .................................................................................................. 81 3.1.8 Datenerfassung ................................................................................................. 84 3.1.9 Datenauswertung .............................................................................................. 85 3.1.10 Ergebnispräsentation...................................................................................... 89 3.2 Pretest...................................................................................................................... 89 3.2.1 Durchführung der Suchanfragen...................................................................... 89 3.2.2 Relevanzbeurteilung der Juroren ..................................................................... 90 3.3 Testdurchführung.................................................................................................... 92 3.3.1 Durchführung der Suchanfragen...................................................................... 93 3.3.2 Relevanzbeurteilung der Juroren ..................................................................... 95 3.4 Ergebnisanalyse ...................................................................................................... 98 3.4.1 Überprüfung der Testhypothesen .................................................................... 98 3.4.1.1 Testhypothese „hybride Systeme“ ............................................................ 98 3.4.1.2 Testhypothese „redaktionelle Treffer“..................................................... 103 3.4.2 Effektivität bei verschiedenen Suchanfragetypen ......................................... 107 3.4.2.1 Einwortanfragen ....................................................................................... 108 3.4.2.2 Mehrwortanfragen..................................................................................... 110 3.4.2.3 Offene Fragestellungen ............................................................................ 111 3.4.2.4 Geschlossene Fragestellungen................................................................ 113 3.4.2.5 Expected Search Length bei geschlossenen Suchanfragen .................. 115 3.4.3 Ergebnisinterpretation und -zusammenfassung ........................................... 116 4. Schluß .............................................................................................................. 120 4.1 Einschätzung und Schlußfolgerungen hinsichtlich der Ergebnisse................... 120 4.2 Einschätzung und Schlußfolgerungen bezüglich der Evaluation ....................... 122 Literaturverzeichnis ............................................................................................ 128 Anhang A: Übersicht andere Evaluationen ....................................................... 135 Anhang B: Suchanfragen Übersicht .................................................................. 139 Anhang C: Verteilungscode der Suchmaschinen ............................................. 145 Anhang D: Beispiel eines Fragebogens ............................................................ 146 Anhang E: Beispiel eines Signifikanztests........................................................ 155 Abbildungsverzeichnis Abbildung 1 – aktuelle Angaben zur Indexgrößen von Suchmaschinen ............................... 42 Abbildung 2 – Top20 Precision – alle Suchanfragen............................................................ 99 Abbildung 3 – Beantwortung der Suchanfragen................................................................. 101 Abbildung 4 – Lycos hybrid vs Lycos roboterbasiert Top12 Precision ................................ 104 Abbildung 5 – Beantwortung der Suchanfragen Lycos hybrid vs Lycos roboterbasiert ....... 105 Abbildung 6 – Lycos roboterbasiert vs AltaVista & QualiGo Top12 Precision ..................... 106 Abbildung 7 – Beantwortung der Suchanfragen bei Top12 Precision ................................. 107 Abbildung 8 – Top20 Precision - Einwortanfragen ............................................................. 108 Abbildung 9 – Beantwortung der Einwortsuchanfragen...................................................... 109 Abbildung 10 – Top20 Precision Mehrwortsuchanfragen ................................................... 110 Abbildung 11 – Beantwortung der Mehrwortsuchanfragen................................................. 111 Abbildung 12 – Top20 Precision bei offenen Fragestellungen............................................ 112 Abbildung 13 – Beantwortung der Suchanfragen bei offenen Fragestellungen................... 113 Abbildung 14 – Top20 Precision geschlossene Suchanfragen ........................................... 114 Abbildung 15 – Beantwortung der geschlossenen Suchanfragen....................................... 115 Abbildung 16 – ESL bei geschlossenen Fragestellungen................................................... 116 Evaluation hybrider Suchmaschinen Seite 7 1. Einleitung Das Thema dieser Arbeit ist die Untersuchung der Retrievaleffektivität ausgewählter deutschsprachiger Suchmaschinen.1 Die Retrievaleffektivität bestimmt die Brauchbarkeit von Suchmaschinen anhand der Qualität der Suchergebnisse. Die Frage lautet also, wie gut (relevant) sind die Ergebnisse (Treffer), die von den betrachteten Suchmaschinen geliefert werden? Die Motivation zu dieser Fragestellung liegt in der Problematik des Information Retrievals (IR)2 im World Wide Web begründet, aus der Vielzahl der vorhandenen Daten die benötigte(n) Information(en) auch zu finden. Einerseits sind Suchmaschinen für die erfolgreiche Informationssuche im Web unverzichtbar, denn "...without search engines, searchers would be about as successful negotiating the internet as someone trying to look up a phone number in an unsorted Manhattan phone book."3 Andererseits wird ihnen eine mäßige Leistungsfähigkeit vorgeworfen.4 Hauptkritikpunkt ist dabei die geringe Retrievaleffektivität, die sich vor allem darin zeigt, daß viele irrelevante Treffer geliefert, relevante Dokumente hingegen nicht gefunden werden.5 Um dieses Problem, durch die Verbesserung der Qualität, d.h. der Retrievaleffektivität der Suchmaschinen, zu entschärfen, existieren momentan zwei Ansätze: Beim ersten Ansatz werden zusätzlich nicht-dokumentinhärente Metainformation bei der Relevanzbeurteilung der Webseiten hinzugezogen. Zum einen mit Hilfe von Linkpopularity,6 1 Unter dem Begriff Suchmaschinen werden hier roboter-basierte Suchdienste, deren Index maschinell erstellt wurde verstanden. Vgl Bernhard Bekavac, Tutorial zur Suche im WWW/Internet (1.2) Version 1998, siehe http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html#2.3 (01.10.00). Vgl auch Suchmaschinen-Topologie von Carsten Ulisch, Suchmaschinen im Internet, siehe http://www.uni-koblenz.de/~krause/Suchmaschinen.html (01.10.00). Zur Architektur von Suchmaschinen siehe, André Wichmann, Aufbau und Techniken von Suchmaschinen für das WWW, siehe http://www-student.informatik.uni-bonn.de/~wichmann/writings/webcrawlers/index.html (08.10.00). "deutschsprachig" bedeutet, daß die Suchmaschinen für den deutschen Sprachraum konzipiert sein müssen, so daß davon ausgegangen werden kann, daß der Index überwiegend deutschsprachige Webseiten enthält. 2 Zur Begriffsbestimmung des Information Retrieval siehe http://www.inf-wiss.unikonstanz.de/CURR/winter99/irm/folien/index.html (16.10.00). 3 Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180, S.142. 4 Ebd. 5 C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.191. Evaluation hybrider Suchmaschinen Seite 8 wie sie zuerst bei der Suchmaschine Google verwendet wurde. Zum anderen mittels der Messung der sogenannten Hit- oder Clickpopularity,7 die bei DirectHit verwendet wird.8 Beim zweiten Ansatz werden die automatisch generierten Trefferlisten mit Treffern vermengt, bei denen die inhaltliche Erschließung, Kategorisierung und Relevanzeinstufung durch redaktionelle Verfahren geschieht.9 Beispiele für solche hybride Suchsysteme, in denen die redaktionellen und roboterbasierten Ergebnisstrukturen in einer Trefferliste verschmolzen werden, sind Lycos.de10 und Goto.com.11 Bei Lycos.de werden beispielsweise redaktionell verfaßte Katalogeinträge zusammen mit den Treffern der Suchmaschine ausgeben. Goto.com gibt die automatisch erzeugten Ergebnisse des Roboters zusammen mit Trefferseiten von Kunden aus, die Rangplätze ersteigern. Die jeweilige Listenposition ergibt sich jeweils durch die Höhe des Preises, den der Kunde für den Rangplatz zu zahlen bereit ist.12 Während der erste Ansatz, mit der zusätzlichen Verwendung nicht-dokumentinhärenter Metainformation sich also darum bemüht, die bestehenden automatischen Rankingalgorithmen und damit die Qualität der Ergebnisse graduell zu verbessern, wird im zweiten Ansatz versucht die Retrievaleffektivität prinzipiell zu erhöhen - fraglich ist, ob dieses Ziel auch erreicht wird. Aus diesem Grund liegt der Fokus dieser Arbeit nicht nur darin festzustellen, wie effektiv die zu untersuchenden Suchmaschinen Informationsbedürfnisse befriedigen, sondern auch zu untersuchen, ob hybride Systeme eine höhere Retrievaleffektivität erreichen, d.h. bessere Treffer liefern, als andere Suchmaschinen. 6 Google untersucht die Links die auf eine Trefferseite verweisen und von dieser Trefferseite ausgehen. Die zugrundliegende Annahmen sind a) Webseiten werden von thematisch verwandten Webseiten verknüpft , bzw. verweisen selbst auf thematisch verwandte Seiten. b) Eine Seite, auf die häufig verwiesen wird, hat eine größere Bedeutung sprich Relevanz für das Thema, als eine Seite auf die weniger häufig verwiesen wird. Dies gilt rekursiv, so daß ein Link, der von einer bedeutenden Seite (einer sogenannten Authoritätsseite) auf die Trefferseite verweist, mehr zählt als einer, der von einer selten referenzierten Seite herrührt. 7 DirectHit zeichnet auf, welche Seiten die Surfer aus der Trefferliste auswählen und wie lange diese die selektierten Seiten betrachten und ordnet dann denjenigen Seiten, die häufig selektiert werden und eine lange Verweildauer aufweisen eine höhere Relevanz zu. 8 Chris Sherman, The Future Revisited: What´s New With Web Search, in: Online May 2000, siehe http://www.onlineinc.com/onlinemag/OL2000/sherman5.html (01.10.00). 9 Redaktionelle Verfahren bedeutet, daß die inhaltliche Erschließung, Kategorisierung und Relevanzeinstufung letztlich durch eine bewußte Entscheidung, mindestens eines Menschen, vorgenommen wird. Diese Treffer erscheinen auf den Trefferlisten der hybriden Systeme auf den vorderen Rangplätzen, vor den mit Hilfe der maschinellen Rankingverfahren ausgegebenen Treffern. 10 http://www.lycos.de (01.10.00). 11 http://www.goto.com (01.10.00). Evaluation hybrider Suchmaschinen Seite 9 Um diese Fragestellung beantworten zu können, ist zuerst zu erörtern, ob und wie sich die Retrievaleffektivität von Suchmaschinen bestimmen lassen kann. Zunächst ist zu untersuchen wie methodisch vorgegangen werden kann, um die Retrievaleffektivität von Suchmaschinen valide13 und reliabel14 zu ermitteln. Das gefundene Verfahren ist dann in einem zweiten Schritt schließlich auf die zu untersuchenden Suchmaschinen anzuwenden. Folglich gliedert sich die Arbeit in einen theoretischen und empirischen Teil. Dem theoretischen Teil muß in dieser Arbeit ein breiter Raum zugestanden werden, weil in ihm das methodische Vorgehen zu entwickeln ist. Hierzu ist zunächst auf den gegenwärtigen Forschungsstand bei der Evaluation von Retrievalsystemen einzugehen. Damit soll zum einen ein Überblick über gängige Evaluationsverfahren und -methoden gewonnen, zum anderen sollen hierdurch aber vor allem potentielle Problemfelder bei der Evaluation von Retrievalsystemen identifiziert und, wenn möglich, Lösungen gefunden werden. Aufbauend auf diesen Erkenntnissen soll versucht werden, grundlegende Anhaltspunkte für die Ausgestaltung und Durchführung von Retrievaltests zu finden, um eine methodische Basis für die Entwicklung eines Testdesigns zu erschließen. Anschließend sind die spezifischen Charakteristika des Information Retrievals im Web darzustellen, um die webspezifischen Aspekte der Evaluation von Internetsuchmaschinen zu beleuchten. Im praktischen Teil wird darauf aufbauend das konkrete Evaluationssetting entworfen. Die Gebrauchstauglichkeit des erstellten Testsettings wird anhand eines Pretests - der die Testdurchführung und die Auswertung der Daten simuliert - überprüft. In Abhängigkeit der Ergebnisse des Pretests, bzw. von Problemen, die durch den Pretest offensichtlich werden, muß möglicherweise das Evaluationssetting modifiziert werden. 12 D.h. Websitebetreiber bezahlen dafür, bei Eingabe bestimmter Suchbegriffe (z.B. Mp3), auf der Trefferliste von Goto gelistet zu werden. Der Betreiber der den höchsten Preis bezahlt erscheint an erster Stelle auf der Trefferliste, siehe http://goto.com/d/about/company/usvision.jhtml (08.10.00). 13 Validität: Bedeutet ,daß die Ergebnisse gültig d.h. "richtig" sind. "Validity is the extend to which the experiment actually determines what the experimenter wishes to determine", aus Jean Tague-Sutcliffe, The pragmatics of information retrieval experimentation, revisited, in: Information Processing & Management Vol.28, No.4, 1992, S.467-490, S.467. Evaluation hybrider Suchmaschinen Seite 10 Schließlich ist die Evaluation durchzuführen. Bei der Analyse der gewonnenen Daten bildet dabei die Verifikation oder Falsifikation der Testhypothesen die Grundlage für die Ergebnisinterpretation. Das Ziel der Untersuchung ist es, qualifizierte Aussagen über die Retrievaleffektivität der untersuchten Suchmaschinen treffen zu können, d.h. folgende Fragen zu beantworten: Welche der untersuchten Suchmaschinen liefert zum Untersuchungszeitpunkt die "besten" Ergebnisse? Welche Retrievaleffektivität können Benutzer gegenwärtig von den untersuchten Suchmaschinen erwarten? Sind hybride Suchsysteme anderen Suchmaschinen bei der Retrievaleffektivität tatsächlich überlegen? Abschließend sollen die Evaluation und ihre Ergebnisse diskutiert werden. Einerseits sollen die Ergebnisse eingeschätzt werden, um festellen zu können, ob der hybride Ansatz sinnvoll erscheint. Andererseits ist bei der Untersuchung selbst kritisch zu hinterfragen, ob das verwendete Verfahren bzw. -setting brauchbar erscheint, um die Retrievaleffektivität zu ermitteln, bzw. welche Problembereiche bei der Evaluation aufgetreten sind und inwiefern Verbesserungen vorgenommen werden könnten/sollten. 14 Reliabilität: Bedeutet daß die Ergebnisse reproduzierbar, übertragbar und somit verallgemeinerungsfähig sind. "Reliability is the extend to which the experimental results can be replicated", aus ebd. Evaluation hybrider Suchmaschinen Seite 11 2. Theoretischer Teil - methodische Vorgehensweise Im folgenden wird das Thema, Evaluation hybrider Suchsysteme im WWW, in den Kontext der Informationswissenschaft eingeordnet, also der fachwissenschaftliche Bezug hergestellt. Dazu werden zunächst die Begriffe Information Retrieval und IR-Systeme präzisiert und die Bedeutung von Evaluationen in diesem Fachbereich herausgestellt. Anschließend wird auf den aktuellen Stand der Forschung bei der Evaluation von Retrievalsystemen eingegangen. Dabei soll zunächst mit Hilfe einer exemplarischen Darstellung einiger prominenter Retrievaltests, die Frage beantwortet werden, wie und mit welchem Erkenntnisinteresse Evaluationen bislang durchgeführt wurden. Ziel ist es dabei, einerseits einen allgemeinen Überblick über gängige Evaluationsmethoden, -verfahren und -standards zu gewinnen, andererseits aber auch, die Problemfelder in diesem Forschungsbereich aufzuzeigen. Darauf aufbauend soll versucht werden, ein Guideline zur Konstruktion eines Evaluationssettings zu entwickeln. Anschließend soll geklärt werden, welchen spezifischen Bedingungen Information Retrieval im Web unterliegt, um zu analysieren, welche Besonderheiten bei der Evaluation von Internetsuchmaschinen beachtet werden müssen. Hierzu soll vor allem die kritische Betrachtung anderer Evaluationen von Suchmaschinen im WWW konkrete Hinweise darüber liefern, wie das Testdesign ausgestaltet werden soll, bzw. welche Fehler zu vermeiden sind. 2.1 Evaluationen im Kontext des Information Retrieval Information befriedigen. 15 Retrieval verfolgt den Zweck artikulierte Informationsbedürfnisse zu 15 Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.9. Knorz bezeichnet Information Retrieval als technisch gestützten Prozeß des Wissenstransfers von Wissensproduzenten und Informationsnachfragern, siehe Gerhard Knorz, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00).Vgl. auch FN 2. Evaluation hybrider Suchmaschinen Seite 12 Um dies zu erreichen, besteht ein IR-System aus einer Reihe von Regeln und Prozeduren, die einige oder alle der folgenden Operationen ausführen:16 •Indexing (Erstellen einer inhaltlichen und/oder formalen Dokumentrepräsentation) •Suchanfrage(-formulierung) (Repräsentation des Informationsbedürfnisses) •Suche (Abgleich zwischen Suchanfrage und Dokumentrepräsentationen) •Feedback (iterative Wiederholung und/oder Modifikation der oben genannten Prozesse in Abhängigkeit von der Einschätzung der vorhergegangenen Prozessergebnisse) •Erstellung einer Indexierungssprache (bzw. Aufstellung von Dokumentrepräsentationsregeln) Ziel eines IR-Systems ist es, Daten so aufzubereiten und abzuspeichern, "daß sie bei einem konkreten Informationsbedarf mit problemangepaßt Suchstrategien und -operatoren interaktiv möglichst präzise (...) und vollständig herausgesucht werden können."17 Aus Nutzersicht liegt die Intention eines Retrievalssystems im Nachweis relevanter Dokumente.18 Gesicherte Aussagen darüber, wie effektiv und effizient ein IR-System diese Aufgabe erfüllt, lassen sich anhand der Durchführung von Evaluationen erschließen. Aus diesem Grund ist die Evaluierung von Retrievalverfahren und -anwendungen ein wichtiges Teilgebiet des Information Retrievals, da nur durch sie sichere Aussagen über die Qualität von Retrievalverfahren und -systemen möglich sind.19 Bei der Evaluierung eines IR-Systems läßt sich dabei zwischen Retrievaleffektivität20 und Retrievaleffizienz differenzieren. Die Effizienz beschreibt dabei Faktoren, wie die Antwortzeiten des Systems auf eingehende Suchanfragen, die Kosten, den Lernaufwand, usw. Die Effektivität hingegen, ist die Fähigkeit des Systems, dem Nutzer die gesuchten Informationen zu referenzieren oder zu liefern. D.h. die Effektivität ist ein Maß dafür, wie gut ein IR-System seine Aufgabe erfüllt, die Effizienz dagegen ein Maß für den Aufwand, den das System hierzu erfordert. Im Kontext dieser Arbeit findet nur die Retrievaleffektivität explizite Beachtung. 16 Ebd. Gerhard Knorz, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00). 18 T.Käter, M. Rittberger, C. Wormser-Hacker, Evaluierung der Text-Retrievalsysteme Domestic, Intelligent Miner for Text, Lars II und TextExtender, 1999, siehe http://www.inf-wiss.uni-konstanz.de/People/MR/pubs/kik99.html (19.10.00). 19 Gerhard Knorz, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00). 20 siehe http://www.inf-wiss.uni-konstanz.de/CURR/irm/bewertung/index.htm (18.10.00). 17 Evaluation hybrider Suchmaschinen Seite 13 2.2 Retrievaltests - historischer Abriss und aktueller Stand Mit einer knappen historischen Aufzählung prominenter Retrievaltests, soll der aktuelle Entwicklungsstand im Forschungsfeld Evaluation von IR-Systemen dargestellt werden. Damit soll deutlich werden, welche Fragestellungen anhand von Retrievaltests bislang untersucht wurden, wie in der Vergangenheit vorgegangen wurde, bzw. heute vorgegangen wird und vor allem auch, welche Problembereiche auftreten können.21 2.2.1 ASTIA und Cranfield (1953) Bereits 1953 finden die ersten Retrievaltests statt. In den ASTIA-Uniterm und CranfieldUniterm-Tests wird die Retrievaleffektivität verschiedener Indexierungssysteme evaluiert. Beim ASTIA Test werden als Datenbasis insgesamt 15 000 Dokumente indexiert und anschließend über diese Dokumentenmenge 93 Suchanfragen durchgeführt. Das Effektivitätskriterium ist die Relevanz der gefunden Dokumente. Die Relevanzeinstufung stellt sich als zentraler Problemfaktor heraus, da die zwei verschiedenen Testgruppen unterschiedliche Relevanzurteile fällen und dadurch zu konträren Aussagen bezüglich der Ergebnisse gelangen. Der Cranfield-Uniterm Test, in dem ebenfalls verschiedene Indexierungssysteme evaluiert werden, beruht auf 200 Dokumenten zum Thema Aeronautik, über die 40 Fragen, die aus 40 sogenannten "Source Documents" entnommen sind, abgefragt werden. Effektivitätsmaß ist die Fähigkeit des Systems die 40 "Source Documents" vollständig nachzuweisen. Kritik an dieser Evaluation wird in folgender Hinsicht geübt: Durch die Verwendung von "Source Documents", aus denen die Fragen gebildet werden, mit denen wiederum genau diese und nur diese "Source Documents" nachzuweisen sind - würde im Testsetting das begriff-basierte System, gegenüber dem konzept-basierten System, a per se bessergestellt. Der Vorwurf an diese Evaluation ist also, daß das Design der Evaluation so angelegt sei, daß Ergebnis unzulässig beeinflußt würde. 21 Die folgenden Ausführungen stützen sich soweit soweit nicht anders vermerkt auf Elisabeth Sachse, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft, Band 14 1998. Eine weitere Übersicht findet sich beispielsweise bei Stephen E. Robertson, The methodology of information retrieval experiment, in: Karen Sparck Jones (Hg), Information retrieval experiment, Butterworths 1981, S.9-31. Evaluation hybrider Suchmaschinen Seite 14 2.2.2 Cranfield I (1957) Mit dieser Evaluation werden ebenfalls verschiedene Indexierungssysteme getestet. Bei ansonsten weitgehend mit dem Cranfield-Uniterm Test übereinstimmenden Testsetting werden 1200 Abfragen über 18 000 Dokumente zum Thema Luftfahrt-Ingenieurwesen durchgeführt. Für die Relevanzeinstufung wird eine dreistufige Skala verwendet. Um Kritik wie im vorhergegangenen Test vorzubeugen, werden zwei zusätzliche Tests durchgeführt. Hierbei werden im ersten Fall ausgewählte Suchfragen an Informationsvermittlungsstellen geschickt mit der Bitte, Literaturlisten zu den Fragen zu erstellen. Diese Listen werden anschließend mit den 18 000 Dokumenten abgeglichen. Die so erhaltenen Dokumente werden dabei einer von drei Relevanzeinstufungen zugeordnet. Die folgenden Tests ermittelen dann die Anzahl der relevanten Dokumente, die von den verschiedenen Systemen als Treffer zurückgeben werden. Im zweiten Zusatztest werden 759 Dokumente, die durch 79 zufällig ausgewählte Fragen ermittelt wurden, auf ihre Relevanz überprüft. Ziel ist es dadurch festzustellen, inwieweit die Systeme fähig sind, nicht-relevante Dokumente zurückzuhalten. Trotz dieser Zusatztests wird wiederum Kritik an der Verwendung von "Source Documents" und der darauf basierenden Suchfragenformulierung geübt. Einerseits seien in Praxissituationen keine "Source Documents" vorhanden und andererseits würden Indexierungssysteme, die auf Stichwortverfahren beruhen, bevorzugt. Es wird also bezweifelt, ob die Ergebnisse tatsächlich auf die Realität übertragbar sind. 2.2.3 Cranfield II (1966) Mit Cranfield II werden verschiedene Indexierungssprachen auf ihre Retrievaleffektivität geprüft. Als Meßwerte finden erstmals Recall und Precision22 Verwendung. Für den Test werden 33 Indexierungssprachen entwickelt. Der Datenraum besteht aus 1 400 Dokumenten aus dem Themenbereich Luftfahrt, es werden 211 Suchfragen gestellt. Die Suchanfragen sind diejenigen Fragen, welche die Autoren der Dokumente im Testdatenraum als Ausgangspunkt für das Verfassen der jeweiligen Texte verwendet hatten. Die Relevanzbeurteilung findet zweistufig statt: Erstens durch Studierende, dann, nachgeschaltet, durch den jeweiligen Autor. 22 precision (Genauigkeit); relevante gefundene Dokumente / alle gefundenen Dokumente = A / A + B recall (Vollständigkeit); relevante gefundene Dokumente / alle relevanten Dokumente = A / A + C Meßintervall jeweils zwischen 0 - 1, idealer Wert: 1. Siehe http://www.inf-wiss.uni-konstanz.de/CURR/winter98/iv1/iv1vorlesung/6_sitzung/bewertung.html (18.10.00). Evaluation hybrider Suchmaschinen Seite 15 Dies wird bei Cranfield II kritisiert, denn z.T. weichen die Relevanzbeurteilungen der Studenten und Autoren voneinander ab, d.h. es ist möglich, daß diese Inkonsistenzen die Testergebnisse verzerren. 2.2.4 Medlars (1966) In diesem Retrievaltest werden 302 Nutzerfragen über die Medlars-Datenbank, die aus rund 700 000 Dokumenten besteht, abgefragt. Meßwerte sind Recall und Precision, wobei der Recall aufgrund der großen Datenmenge nur geschätzt werden kann. Die Relevanzbeurteilung nehmen die Nutzer vor. 2.2.5 Inspec (1969) Beim Inspec-Test werden fünf verschiedene Indexierungsverfahren evaluiert. Es werden 97 Suchfragen über 542 Dokumente aus den Sachgebieten Elektrotechnik und Physik durchgeführt. Pro Suchfrage werden bis zu drei Suchformulierungen variiert. 2.2.6 Aberystwyth Index-Languages Test (1972) Auch hier wird die Retrievaleffektivität verschiedener Indexierungssprachen untersucht. Zur Effektivitätsbewertung werden acht verschiedene Meßwerte herangezogen. Es werden 63 Suchanfragen über eine Dokumentmenge von 800 Dokumenten gestellt. Meßwerte sind Recall und "nicht-relevante gefundene Dokumente." Als Problem werden auch hier die sich unterscheidenden Relevanzurteile verschiedener Personen betrachtet. 2.2.7 Padok (1984-1986)23 Der Padok Retrievaltest hat das Ziel, die am meisten geeignete Texterschließungsvariante für Massendaten in Patentdatenbanken zu ermitteln. Dazu werden u.a. die Leistungen von Textaufbereitungsalgorithmen wie Grundformenreduktion, oder Kompositazerlegung evaluiert. Konkret werden vier verschiedene Erschließungssystem (PASSAT, CTX, DETECT und ein Freitextsystem) getestet. Das verwendete Retrievalsystem ist GRIPS-DIRS. Die Dokumentmenge besteht aus 11706 Patentdokumenten. 23 Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.3. Evaluation hybrider Suchmaschinen Seite 16 Die 300 Testaufgaben ergeben sich aus der ersten Seite einer Offenlegungsschrift. Dabei kann eine Aufgabe aus mehreren Anfragen bestehen. Die Absicht ist, die Interaktion zwischen Mensch und System, in die Prüfungsaufgaben miteinzubeziehen. Die Testpersonen sind Experten im Bereich der Patentrecherche, aber aus unterschiedlichen Tätigkeitsbereichen. Die Begründung für dieses Vorgehen ist, "...daß die Auswahl der Testpersonen des Padok-Retrievaltests eine recht realitätsnahe Abbildung des später zu erwartenden Benutzerkreises darstellt."24 Der Padok Retrievaltest ist also weniger als Laborexperiment, sondern eher als realitätsbezogener Vergleichstest verschiedener Systeme angelegt. Die Relevanzbewertung der gefundenen Dokumente wird durch "Juroren" mit fundierten Fachwissen vom DPA (Deutschen Patentamt), vorgenommen. Somit ist die Einheitlichkeit der subjektiven Ergebnisbewertung sichergestellt.25 Maßzahlen für die Ergebnisbewertung sind Recall und Precision, wobei der Recall höher gewichtet wird. Bei der Ergebnisanalyse werden aufwendige Signifikanztests durchgeführt, um die Aussagekraft der Ergebnisse zu überprüfen. 2.2.8 Milos II (1995):26 Das Ziel von MILOS II (einem Nachfolgeprojekt von MILOS I)27 ist es, die Retrievaleffektivität verschiedener Indexierungsverfahren zu untersuchen. Dazu werden 100 typisierte28 Suchanfragen29 (50 aus Milos I und 50 neue), die nach statistisch beobachteten Benutzergewohnheiten zusammengestellt worden waren, über einen Dokumentraum von 190 000 Dokumenten aus dem Zeitraum von 1991-1995 des Datenbestands der deutschen Bibliothek durchgeführt. 24 Ebd., S.7. Ebd., S.7. 26 Elisabeth Sachse, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft, Band 14 1998. siehe auch http://www.uni-duesseldorf.de/ulb/mil_ber.htm (19.10.00). 27 Dr. Klaus Lepsky, Jörg Siepmann, Andrea Zimmermann, Automatische Indexierung für Online-Kataloge: Ergebnisse eines Retrievaltests, 1996, siehe http://www.uni-duesseldorf.de/ulb/mil_retr.htm (19.10.00). 28 Die Typisierung untergliederte sich in: - Fragen nach einfachen Sachverhalten mit einem Suchbegriff (z.B. Konjunkturpolitik) - Fragen nach einfachen Sachverhalten mit zwei Suchbegriffen (z.B. Anleitung zum Videofilm) - Fragen, in denen Beziehungen zwischen mehrern Begriffen vorhanden sind; "Und"-Verknüpfung - Fragen die Adjektiv-Substantiv-verbindungen für einen festen Begriff enthalten - Fragen, die Eigennamen mit einer Mehrwort-Verbindung oder Zählung enthalten - Eigennamen, die in verschiedenen Schreibweisen möglich sind - Komplexe Suchfragen, die aus drei Begriffen bestehen und miteinander verknüpft werden (Kombination mit "und" und "oder") aus, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft, Band 14 1998, S.15-16. 29 Es wurden verschiedene Suchformulierungen (Queries) variiert, siehe ebd., S.16. 25 Evaluation hybrider Suchmaschinen Seite 17 Effektivitätsmaße waren Recall und Precision, die Relevanz wird dabei von den Testpersonen beurteilt. Das Ergebnis dieser Evaluation ist die Feststellung, daß automatische Indexierungsverfahren, im Vergleich zu herkömmlichen Verfahren effektiver sind. 2.2.9 TREC (Text Retrieval Conference):30 Eine qualitativ völlig neue Dimension bei der Evaluation von IR-Systemen wird ab 1992 mit den sich seither jährlich wiederholenden TREC-Konferenzen erreicht. "... TREC (...) setzt gegenwärtig die Maßstäbe für die Effektivität von Retrievalsystemen, weit über den eigentlichen Kreis der Teilnehmer aus Forschung und Industrie hinaus."31 TREC bietet eine, inzwischen institutionell fortdauernde, Plattform für Retrievaltests, die sowohl kommerziellen als auch wissenschaftlichen Teilnehmern als Experimentierfeld für den Vergleich und die Beurteilung von Retrievalsystemen zur Verfügung steht. Den Teilnehmern ist es möglich ihre Retrievalsysteme unter weitestgehend einheitlichen und kontrollierten Testbedingungen zu testen. Die letzte TREC Konferenz TREC-832 fand im November 1999 statt. Als Dokumentmengen existieren verschiedene Kollektionen, die z.T. sehr groß sind. Die Hauptaufgaben (tasks) sind die sogenannten ad-hoc und die routing Aufgaben Bei den ad-hoc tasks werden neue Suchthemen (topics)33 an eine statische Datenmenge und bei den routing tasks dieselben Suchthemen an eine dynamische Datenmenge gestellt. Hinzu kommen andere Evaluationsbereiche wie web, cross-language, filtering, interactive, tracks.34 30 http://TREC.nist.gov (19.10.00). http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/slide/owfrtr1.htm siehe auch Ricardo Baeza-Yates,, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.84-21. 31 Gerhard Knorz, Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger sozialwissenschaftlicher Fachinformation (GIRT), , Bericht über einen Workshop am IZ Sozialwissenschaften, Bonn 12. September 1997, siehe http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/girt97/paper1.htm (19.10.00). 32 Ein Überblick über TREC 8 findet sich unter http://TREC.nist.gov/presentations/TREC8/overview/index.htm (29.10.00). 33 Beispiel für ein TREC Topic <top> <num> Number: 409 <title> legal, Pan Am, 103 <desc> Description: What legal sanctions have resulted from the destruction of Pan Am Flight 103 over Lockerbie, Scotland, on December 21, 1988? <narr> Narrative: Documents describing any charges, claims, or fines presented to or imposed by any court or tribunal are relevant, but documents that discuss charges made in diplomatic jousting are not relevant. </top> Evaluation hybrider Suchmaschinen Seite 18 Beim ad-hoc task wurden 1999 50 neue Topics, mit manueller und automatischer Abfragengenerierung an einen Dokumentraum von über 2 Gigabyte Größe gestellt, der sich überwiegend aus Artikeln verschiedener Zeitschriften, wie der Financial und L.A. Times, zusammensetzt. Die Topics sollen "realen" Informationsbedürfnissen entsprechen und variieren jährlich z.T. auch in Form und Länge.35 Maßzahlen sind auch bei TREC Recall und Precision sowie die daraus abgeleitete durchschnittliche Precision (mean average precision).36 Die Relevanzbeurteilung wird mittels eines Pooling Verfahrens vorgenommen.37 D. h. die jeweils Top 100, der von den an den TREC Retrievaltests beteiligten Systemen, zurückgegebenen Treffer werden zusammengeführt und dann bewertet. Wobei die Treffer für ein Suchthema nur von einer Person bewertet werden, um die Konsistenz der Beurteilungen sicherzustellen. Web Track38 Der erstmals 1998 durchgeführte Web Track gliedert sich in einen Large und einen Small Web Track. Der Large Web Track wird über die sogenannte VLC2 Kollektion (bestehend aus über 100 Gigabyte Daten, das sind 18,5 Mio Webseiten) und der Small Web Track über die sogenannte WT2g Kollektion (bestehend aus 2 Gigabyte Daten, das sind 250 000 Webseiten aus der VLC2 Kollektion) durchgeführt. Die Suchthemen werden aus den TREC 8 ad hoc Topics übernommen. Die Relevanzbewertung wird für jedes Thema von nur einem Gutachter vorgenommen. Bei den Tests werden die Webseiten in ein Text Format konvertiert, es werden also nicht die Originaldokumente bewertet. Die TREC Konferenzen sind State-of-the-Art im Bereich Evaluation von IR Systemen. Sie stellen einheitliche, öffentlich zugängliche und transparente Verfahren und Methoden zur Evaluation von Retrievalverfahren und -systemen bereit. Aus diesem Grund ist TREC inzwischen zum anerkannten Standard im Bereich der Evaluation von IR-Systemen avanciert. siehe http://TREC.nist.gov/presentations/TREC8/overview/tsld013.htm (29.10.00). DonnaHarman, The Text Retrieval Conferences (TRECs): Providing a Test-Bed for Information Retrieval Systems, siehe http://www.asis.org/Bulletin/Apr-98/harman.html (01.11.00). 35 Siehe http://TREC.nist.gov/presentations/TREC8/overview/sld014.htm (29.10.00). 36 Der Durchschnitt der pro Rangplaz erreichten Precisionwerte, siehe http://wwwnlpir.nist.gov/works/presentations/spie99/tsld016.htm (16.11.00). 37 Siehe http://TREC.nist.gov/data/reljudge_eng.html (29.10.00). 38 David Hawking, Ellen Voorhees, Nick Craswell, Peter Bailey, Overview of the TREC-8 Web Track, 2000, siehe http://TREC.nist.gov/pubs/TREC8/papers/web_overview.pdf 29.10.00). 34 Evaluation hybrider Suchmaschinen Seite 19 Dennoch läßt sich auch bei TREC Kritik anbringen, insbesondere im Bereich der Relevanzbewertung. Denn einerseits ist zu bezweifeln, daß durch das Pooling Verfahren alle relevanten Dokumente gefunden werden können, und zum anderen, daß die Relevanzurteile unter anderen Testverhältnissen identisch ausfallen würden. "However , from what we know about the great many factors affecting relevance judgements (...), we can be sure that under many other conceivable conditions the set of relevant documents in the TREC experimentel collection would be very different from those that served as the foundation for the actual TREC experiments. What this means is in terms of the validity of the conclusions reached by TREC experimenters or of retrieval evaluation more generally is not so clear."39 Obwohl die TREC Konferenzen also auch im Rahmen des Themas dieser Arbeit in Bezug auf Evaluationsverfahren als Quasi-Standard gelten müssen, verbietet sich eine einfache Übernahme der TREC Methodik. Denn es ist fraglich, ob die Evaluationsmethodik (inklusive Relevanzbeurteilungsverfahren), die bei TREC Anwendung findet, für den Kontext dieser Arbeit adäquat ist und somit einfach übertragen werden kann. Beispielsweise beruhen die TREC Tests - auch bei Web Track - auf statischen und identischen Dokumentmengen, was bei den hier zu untersuchenden Internetsuchmaschinen nicht der Fall ist. Eine 1:1 Übertragung der TREC Evaluationsmethodik - falls technisch realisierbar - würde dem Untersuchungsgegenstand dieser Arbeit alleine schon deshalb nicht gerecht werden können, weil dadurch Teile der Indexing Komponenten40 der zu untersuchenden Suchmaschinen, die z.B. die Aktualisierungshäufigkeit oder die Indexgröße bestimmen, nicht berücksichtigt werden würden und somit ein abschließendes Qualitätsurteil verfälscht werden könnte.41 2.2.10 GIRT (1997) Als deutsche Entsprechung von TREC läßt sich GIRT (German Indexing and Retrieval Textdatabase) bezeichnen. Das IZ Sozialwissenschaften stellt hierbei eine Testumgebung bezüglich Dokumenten, Retrievalfragen, Aufbereitungs- und Auswertungskapazität zur 39 Donna Harman, The Text Retrieval Conferences (TRECs): providing a test-bed for information retrieval systems, in: 40 Siehe Kapitel 2.1 Aufbau eines IR-Systems. 41 Auf diese Thematik wird im Laufe dieser Arbeit noch dezidierter eingegangen. Mit der Frage der "Angemessenheit" der TREC Methodik für die Evaluation von Internetsuchmaschinen beschäftigen sich auch Nick Craswell, Peter Bailey, David Hawking, Is it fair to evaluate web systems using TREC ad hoc methods?, siehe http://pastime.anu.edu.au/nick/pubs/sigir99ws.ps.gz (02.11.00). Evaluation hybrider Suchmaschinen Seite 20 Verfügung.42 Die Vorteile sind somit dieselben wie bei TREC. Es steht eine Testumgebung zur Verfügung, die vergleichbare Testergebnisse bei Evaluationen ermöglicht. Auf der Basis von GIRT wurden schon mehrere Evaluationen durchgeführt, z.B. der Pretest von Frisch und Kluck,43 sowie ein Retrievaltest an der Universität Konstanz.44 Der GIRT-Pretest von Frisch und Kluck testet die Retrievaleffektivität zweier Retrievalsysteme mittels 9 Anfrageproblemen - aus den Themengebieten Frauenforschung, Industrie- und Betriebssoziologie, Migration und ethnische Minderheiten - über 15 000 Dokumente. Die Relevanzbewertung wird dabei durch einen IZ-Juror im voraus auf einer vierstufigen Skala vorgenommen, die Konsistenz der Relevanzbeurteilung unterschiedlicher Juroren wird überprüft und liegt bei 70-80%. Testpersonen sind acht informationswissenschaftlich gebildete Probanden, die aus den Anfrageproblemen die konkreten Suchanfragen generieren. Maßzahlen sind Recall und Precision. Die Treffermenge wird auf eine Anzahl von 30 beschränkt. Das Ergebnis dieses Pretests ist, daß keine Aussage darüber getroffen werden kann, ob eines der Systeme eine höhere Effektivität erzielt, die Probanden allerdings das boolsche System dem ranking-basierten System vorziehen. Inzwischen ist GIRT als "Special Task" Teil des "Cross-Language Evaluation Forums".45 Die Testumgebung besteht mittlerweile aus 80 000 Dokumenten und 25 Suchfragen. 2.2.11 Historischer Abriss – Erkenntnisse Aus dem vorhergegangenen, unvollständigen46 Abriss, von Evaluationen im Bereich Information Retrieval wird ersichtlich, das es sich um ein komplexes Themengebiet handelt, dem kein abgesichertes theoretisches Fundament zugrundeliegt47 und das deshalb mit vielfältigen Problembereichen und Vorgehensweisen behaftet ist. Das zentrale Problem bei 42 Gerhard Knorz, Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger sozialwissenschaftlicher Fachinformation (GIRT), siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/girt97/paper1.htm (02.11.00). 43 E. Frisch, M. Kluck, Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der Retrievalsysteme Messenger und freeWAISsf, Bonn 1997. 44 T. Käter, M. Rittberger, C. Womser-Hacker, Evaluierung der Text-Retrievalsysteme Domestic, Intelligent Miner for Text, Lars II und TextExtender siehe http://www.inf-wiss.uni-konstanz.de/People/MR/pubs/kik99.html (02.11.00). 45 Siehe www.iei.pi.cnr.it/DELOS/CLEF (02.11.00). 46 Beispielsweise fehlen die Retrievaltests von SMART, LIVE und AIR siehe Christa Womser-Hacker, Der PadokRetrievaltest, Zürich, NewYork 1989, S.24-25. 47 Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Harlow 1999, S.84. Evaluation hybrider Suchmaschinen Retrievaltests ist, eine dem jeweiligen Untersuchungsziel Seite 21 angemessene Evaluationsmethodik zu entwickeln - hierbei stehen vor allem die historischen älteren Evaluationen in der Kritik, beispielsweise die Cranfield-Tests. Das methodische Problem umfaßt, vereinfacht gesprochen, zwei Aspekte, zu einem eine eher quantitative und zum anderen eine eher qualitative Dimension der Ausbildung der Testparameter. Die quantitative Dimension kommt beispielsweise in der Größe der verwendeten Dokumenträume oder der Anzahl der Suchanfragen zum Ausdruck. en Doks. gefunden rel. Dok. Relevanz-einstufung Rel. 40 200 1200 18 000 CRAN. I 211 1 400 CRAN. II Skala Recall aller Dreistufige Precision/ CRANFIELD d. Nachweis 93 Suchanfragen/ Queries 15 000 Dokumentanzahl ASTIA 97 542 63 800 INSPEC ABER. Seite 22 (geschätzt) Recall Recall Recall gef.Doks/ GIRT 100 neue pro anno 50 Recall Recall Recall Precision/ 9 190 000 Bis zu 18,5 Mio 15 000 TREC Precision/ Precision/ Precision/ 300 11706 PADOK MILOS II relevante Recall Precision/ Precision/ Nicht- 302 700 000 MEDL. Für die hier aufgeführten Evaluationen setzen diese sich wie folgt zusammen: Evaluation hybrider Suchmaschinen Evaluierung hybrider Suchsysteme im WWW Seite 23 Vergleicht man die Spannweite einzelner Werte, so lassen sich bei der Größe der verwendeten Dokumentkollektionen Unterschiede bis zum Faktor 92 500 ausmachen, während die Quantitätsunterschiede bei den Anfragen bis zum Faktor 77 reichen. Bei derartig großen Unterschieden bezüglich extern variabler Testparameter der verschiedenen Evaluationen ist die Frage, welche Anzahl jeweils notwendig ist, um verallgemeinerungsfähige Aussagen treffen zu können nicht trivial. Denn bei (zu) kleinen Testkollektionen und Anfragemengen kann beispielsweise keine "Skalierbarkeit" auf große Mengen unterstellt werden.48 Zwar ist im Zeitablauf bei der Größe des verwendeten Dokumentraums eine steigende Tendenz festzustellen,49 betrachtet man aber das GIRTSetting, so wird diese Aussage wieder relativiert. In dieser Untersuchung ist also auch die Frage zu beantworten, welche quantitativen Werte für diese extern vorzugebenden Testparameter, bezogen auf das jeweilige Untersuchungsziel, notwendig sind, um qualifizierte Aussagen überhaupt erst treffen zu können.50 Damit ist über die inhärente Beschaffenheit51 dieser Testparameter aber noch nichts ausgesagt. Hierin kommt der qualitative Problembereich jeder Evaluationsmethodik zum Ausdruck. Dabei muß sichergestellt werden, daß durch die qualitative Ausgestaltung der Testvariablen das Ergebnis der Evaluation nicht unzulässig beeinflußt wird, d.h. das beispielsweise bestimmte Systeme oder Verfahren nicht schon ex ante unzulässig bevorteilt werden, wie es z.B. in der Kritik an der Verwendung von "Source Documents" bei Cranfield I angeführt wird. Grundsätzlich ist also darauf zu achten, daß die qualitative Ausgestaltung der Evaluationsparameter dem Untersuchungsgegenstand auch entspricht, z.B. in Bezug auf "repräsentative" Dokumentmengen oder Anfragen, so daß durch den Retrievaltest auch verwertbare Ergebnisse ermittelt werden können.52 48 Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00). 49 Was sicherlich auch durch die fortschreitende Entwicklung der IK-Technologie ermöglicht, oder zumindest begünstigt wird. 50 Im weitesten Sinne sind also die quantitativen Aspekte einer Evaluation mit der Forderung nach Reliabilität verbunden, siehe Jean Tague-Sutclife, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.205. 51 Damit sind inhärente Eigenschaften, z.B. bei der Dokumentmenge, wie Format oder Themenbereich(e) oder typische Dokumentlänge, usw. oder z.B. bei den Anfragen, Themenbereich(e), Frageart (offen/geschlossen) usw. gemeint. 52 Dies entspricht im weitesten Sinne der "Validitätsforderung", siehe Jean Tague-Sutclife, The Pragamatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.205. Evaluierung hybrider Suchsysteme im WWW Seite 24 Besonders deutlich wird dieses Problem bei der qualitativen Ausgestaltung der Bewertungsmaße, "die als unabhängige Indikatoren fungieren, welche über die zu beurteilenden Systeme ein objektives Urteil zulassen." (sollen) 53 Hier stellt sich das sogenannte Relevanzproblem, denn nahezu jedes Bewertungsmaß der Retrievaleffektivität beruht auf der Unterscheidung von relevanten und nicht-relevanten Dokumenten.54 Die Relevanz ist somit ein zentraler Begriff, bei der Evaluation von IR-Systemen.55 Definitionen für diesen Term existieren im Bereich des Information Retrieval zuhauf, exemplarisch werden hier vier angeführt.56 • Taublee sieht Relevanz als "a relationship between an expressed information need and a document."57 • Saracevic schreibt: "Relevance is considered as a measure of the effectiveness of the contact between a source and a destination in a communication process."58 • Van Rihsbergen formuliert: "A document is relevant to an information need if and only if it contains at least one sentence which is relevant to that need."59 • Bei TREC wird Relevanz wie folgt definiert: "If you were writing a report on the subject of the topic and would use the information contained in the document in the report, then the document is relevant. Only binary judgments ("relevant" or "not relevant") are made, and a document is judged relevant if any piece of it is relevant (regardless of how small the piece is in relation to the rest of the document)."60 Das zentrale Problem des Relevanzbegriffs ist, daß er zwar als objektiv operationalisierbares Bewertungsmaß verwendet wird, aber im Grundsatz nicht objektivierbar ist. Zu vielfältig, unterschiedlich und komplex sind die Einflußfaktoren die der Relevanzbeurteilung zugrunde liegen. 53 Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.27. Ebd. 55 Sondern beispielsweise auch in den Sozialwissenschaften oder der Philosophie, siehe Tefko Saracevic, Relevance: A Review of and a Framework for the Thinking on the Notion in Information Science, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.143-165, S.144. 56 Rezitiert aus Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.28. 57 O. E. Taublee, Content Analysis, Specification and Control, in: Annual Review of Information Science and Technology 3 1967, S.105-136, S.107. 58 Tefko Saracevic, Relevance: A Review of and a framework for the Thinking on the Notion in Information Science, in: in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San Francisco 1997, S.143-165, S.143. 59 C.J van Risjbergen, Information Retrieval, London 19792, S.147. 60 Siehe http://TREC.nist.gov/data/reljudge_eng.html (03.11.00). 54 Evaluierung hybrider Suchsysteme im WWW Seite 25 Aufgrund des pragmatischen Primats der Information,61 kann die Relevanz zurückgegebener Dokumente nur im Kontext der Handlungsrelevanz derjenigen Person verstanden werden, die versucht, ein konkretes Informationsbedürfnis mittels eines Retrievalsystems zu befriedigen. Prinzipiell ist die Beurteilung der Relevanz also nur subjektiv durch den jeweiligen Nutzer lösbar. Um die Relevanz trotzdem als annähernd objektive, d.h. verallgemeinerungsfähige Meßgröße zu operationalisieren, muß von dieser personellen Situationsgebundenheit abstrahiert werden. Zu beachten ist, daß intellektuell zu fällende Relevanzurteile - auch wenn der personenbezogene Handlungskontext ignoriert wird - in jedem Fall abhängig von interpersonellen und intertemporalen Unterschieden sind.62 Die interpersonelle Konsistenz der Relevanzbeurteilung liegt dann bei 70-80%.63 Also gilt auch auf dieser abstrahierten Ebene das grundlegende Problem; ..., the same document may mean different things to different people"64, das sich nur auf eine andere Ebene verlagert. Das bedeutet wiederum, daß es in Bezug auf die Validität der Evaluationsergebnisse riskant ist, sich bei der Relevanzbewertung auf das Urteil nur einer Person zu stützen.65 Interpersonelle Unterschiede ergeben sich dabei u.a. aus unterschiedlichen kognitiven Fähigkeiten oder Wissensständen verschiedener Personen. Beispielsweise ist es möglich, daß für einen Juror eine ihm schon bekannte Information nicht als relevant betrachtet, ein anderer Juror, dem diese Information unbekannt ist, aber sehr wohl. Bei den intertemporalen Faktoren kann beispielsweise die technische Entwicklung im Zeitablauf eine entscheidende Rolle spielen, in diesem Bereich sind wahrscheinlich immer nur neue Informationen relevant, Informationen, die eine gewisse "Altersgrenze" überschreiten, wahrscheinlich nicht.66 Ein weiteres Problem der Relevanzbeurteilung liegt darin, daß sie durch die Beurteilung einzelner Dokumente - die als voneinander unabhängig betrachtet werden - vorgenommen wird. Dadurch wird z.B. vernachlässigt, daß für sich allein betrachtet irrelevante Dokumente, 61 Rainer Kuhlen, Pragmatischer Mehrwert von Information, Sprachspiele mit informationswissenschaftlichen Grundbegriffen, Konstanz 1989, S.17. 62 2 Gerald Kowalski, Information Retrieval Systems, Theory and Implementation, Norwell 1998 , S.224. 63 Siehe 2.2.10 Girt, auch ebd., S.225. 64 Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180, S.147. 65 F . Wilfried Lancaster, Amy J. Warner, Information Retrieval Today, Arlington 1993, S.52. 66 Beispiele aus ebd. Evaluierung hybrider Suchsysteme im WWW Seite 26 zusammen betrachtet u.U. als relevant gewertet werden könnten oder sich eventuell relevante Dokumente durch andere Dokumente, als nicht relevant herausstellen könnten.67 Hinzu kommt, daß es faktisch unmöglich ist, einen Grad der Relevanz zu bestimmen. Denn ein Relevanzurteil ist nicht binär oder graduell, sondern vielmehr als "...Funktion zwischen exakter und keinerlei Übereinstimmung mit dem Informationsbedürfnis" zu sehen.68 Es wird also deutlich, das alleine schon das Bewertungsmaß, das als unabhängiger Indikator für die objektive Beurteilung dienen soll, vielfältigen Einflüssen unterliegt, die berücksichtigt werden müssen, um zu gewährleisten, daß die erzielten Ergebnisse auch Aussagekraft besitzen. Die Schilderung der Relevanzproblematik diente dazu, zu verdeutlichen, daß auch die inhärente Beschaffenheit der Testparameter, ihre qualitativen Eigenschaften, entscheidenden Einfluß auf die Validität der Ergebnisse von Evaluationen ausüben. 2.2.12 Retrievaltests – Zwischenergebnis Als Ergebnis für dieses Kapitel läßt sich festhalten, daß die prinzipielle Vorgehensweise bei allen Retrievaltests zwar klar ist und einfach erscheint - eine Menge von (An)Fragen an einen Dokumentraum zu richten und dann die Qualität des Output zu beurteilen - aber daß ein ungeheurer Aufwand erforderlich wäre, um den Anspruch einzulösen, die Retrievaleffektivität und die sie beeinflussenden Faktoren objektiv und exakt zu bestimmen.69 Die Frage, die sich stellt, lautet nun, wie sind die quantitativen und qualitativen Testparameter zu entwickeln und zu bestimmen, um eine dem jeweiligen Untersuchungsziel angemessene Evaluationsmethodik zu entwickeln und so die Reliabilität und Validität der Evaluation sicherzustellen? Da, wie oben angeführt, kein abgesichertes theoretisches Grundgerüst zu Evaluationen im Information Retrieval existiert,70 steht ebenso wenig eine, "watertight method for evaluating an information retrieval system"71 zur Verfügung. Im folgenden ist also zu versuchen, Hinweise darüber zu finden, welche Punkte beachtet werden müssen, um trotz dieser 67 Siehe http://www.inf-wiss.uni-konstanz.de/CURR/winter97/iv1/iv1-vorlesung/6_sitzung/qualitaet.html (04.11.00). 2 Gerald Kowalski, Information Retrieval Systems, Theory and Implementation, Norwell 1998 69 Reginald Ferber siehe http://www.darmstadt.gmd.de/~ferber/vorlesung-9697/framevor/book_1.part_3.chapter_6.html (31.10.00). 70 Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.84-97. 68 Evaluierung hybrider Suchsysteme im WWW Hindernisse eine Evaluation zumindest annähernd objektiv Seite 27 und aussagekräftig durchzuführen. 2.3 Evaluationsmethodik Das Ziel dieses Kapitels ist es, Hinweise über eine adäquate Vorgehensweise bei der Durchführung von Evaluationen dahingegehend zu gewinnen wie die quantitativen und qualitativen Probleme - mit vertretbaren Aufwand - umgangen oder minimiert werden können. In der Literatur finden sich einige Quellen, die die Problematik von Evaluationen im Information Retrieval diskutieren und Hinweise zur Evaluationsmethodik liefern. An erster Stelle ist der Aufsatz "The Pragmatics of Information Retrieval Experimentation, Revisited"72 von Jean Tague-Sutcliffe zu nennen, auf das sich dieses Kapitel grundlegend stützt. Ziel des Artikels ist es, Informationswissenschaftlern bei der Durchführung eines Experiments so zu leiten, daß das Ziel, welches sich der Untersuchende gesetzt hat, auch wirklich erreicht wird.73 Um dies sicherzustellen werden die einzelnen Schritte eines Retrievaltests (insgesamt 10) durchlaufen und Hinweise gegeben, welche Entscheidungen wie getroffen werden sollten, um die Validität, Reliabilität und Effizienz74 des Testsettings sicherzustellen. 2.3.1 Testen oder nicht testen?75 An erster Stelle steht die Entscheidung, ob ein Retrievaltest durchgeführt werden soll oder nicht. Grundlage dabei soll ein klar gesetztes Ziel sein, sowohl in Bezug auf den Untersuchungsgegenstand, vor allem aber in Hinblick auf das Erkenntnisinteresse. Durch Sichtung der aktuellen Literatur soll dabei zum einen sichergestellt werden, ob durch die 71 Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, Butterworths 1981, S.9-31, S.30. 72 Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216. 73 Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.205. 74 Unter der Effizienz wird hier der Aufwand im Testsetting zur Sicherung der Validität und Reliabilität verstanden, siehe ebd. Evaluierung hybrider Suchsysteme im WWW Seite 28 Evaluation auch neue Erkenntnisse gewonnen werden76 können und zum anderen ist zu versuchen, bereits vorhandene Erkenntnisse und Ideen für die durchzuführende Evaluation zu gewinnen. 2.3.2 Welche Art von Test soll durchgeführt werden?77 An nächster Stelle ist dann zu entscheiden, welche grundlegende Art von Retrievaltest durchgeführt werden soll, eher ein Laborexperiment oder eher ein Test unter realen Bedingungen. Je mehr sich der Test an der Realität orientiert, um so schwieriger und unwahrscheinlicher ist es, die einflußnehmenden externen Faktoren, wie z.B. die Benutzer oder den Dokumentraum, kontrollieren zu können. Der Vorteil von Laborexperimenten ist es, im Idealfall alle Testparameter genau zu kontrollieren. Die gezielte Variation einzelner Parameter ermöglicht dann im besten Fall auch die isolierte und exakte Beobachtung der Auswirkung(en). Dadurch kann es gelingen, allgemeingültige Erkenntnisse über die Einflüsse einzelner Faktorenvariationen zu erschließen. Bei einem Test unter eher realen Bedingungen, beispielsweise bei einem Retrievalsystemvergleich, ist es kaum möglich, verallgemeinerungsfähige Aussagen bezüglich einzelner systemimmanenter Einflußfaktoren zu treffen, da die Systeme, bzw. die Systemleistung insgesamt verglichen werden. Tests die unter eher realen Bedingungen durchgeführt werden, sind aber einfacher durchzuführen, da ein geringerer Aufwand zur Kontrolle der Variablen notwendig ist, bzw. viele Parameter durch die Systeme vorgegeben sind und deshalb nicht beeinflußt und isoliert werden können. In einem Satz formuliert, je kontrollierter eine Evaluation, desto spezifischer sind die Erkenntnisse, aber um so höher ist der Aufwand, der für die Durchführung der Evaluation erforderlich ist. Die Frage, welche Testvariablen inwieweit kontrolliert werden sollen/können ist also zentral für den Aufbau des Testsettings. 75 Ebd. Also der Untersuchungsgegenstand nicht schon erforscht wurde. 77 Ebd. 76 Evaluierung hybrider Suchsysteme im WWW Seite 29 2.3.3 Wie sind die Variablen zu definieren und zuzuordnen?78 Unabhängig vom Grad der Kontrolle mit dem der Retrievaltest durchgeführt wird sind die Parameter die die Evaluation beeinflussen oder durch sie untersucht werden, vor allem die Variablen, eindeutig zu benennen und zuzuordnen. Es ist also festzulegen, welche Parameter durch den Test untersucht (abhängige Variablen) und welche extern vorgegeben und variiert (unabhängige Variablen) werden können, bzw. welche Variablen vorhanden aber nicht zu beeinflussen sind (Umgebungsvariablen). Die wichtigsten Variablen sind: • Dokumentkollektion: Die Dokumentkollektion variiert z.B. in Größe, Form, Themenbereich, etc. • Dokumentrepäsentation: Die Art der Dokumentrepräsentation läßt sich auf doppelte Weise betrachten. Zum einen in der physischen Beschaffenheit, in der die Dokumentrepräsentation aufgebaut ist., z.B. als zentrales invertiertes Files oder als verteilte Datenbank. Zum anderen in der der Dokumentrepräsentation zugrundeliegenden logischen Struktur, beispielsweise ob eine Volltextindizierung stattfindet, oder ob eine Stoppwortliste benutzt wird usw. • Benutzer: Benutzer lassen sich auf vielfältige Weise differenzieren, z.B. nach Geschlecht, Alter, Bildungsgrad, Nutzungskontext von Retrievalsystemen, Sprachkenntnissen. • Informationsbedürfnisse und Suchanfragen (Queries): Informationsbedürfnisse können artifiziell entworfen oder aus dem realen Leben entnommen sein. Die Suchanfragen können sich in ihrer Formulierung unterscheiden, beispielsweise ob und wie Operatoren verwendet werden, oder wie die Länge/Komplexität der Anfragen gestaltet wird, z.B. bezüglich der Anzahl der Keywords. • Suchprozeß: Auch die Interaktion mit dem Retrievalsystem kann verschiedenartigen Einflüssen unterliegen. Beispielsweise kann die Benutzerschnittstelle eines Retrievalsystems auf Auswahlmenüs oder auf einer Kommandosprache (z.B. Messenger) beruhen. Ein weiterer Punkt betrifft die Art der Durchführung der Suchanfragen, wird sie durch Mittler 78 Ebd., S.206. Evaluierung hybrider Suchsysteme im WWW Seite 30 oder die Nutzer selbst vorgenommen? Findet ein interaktiver Suchprozeß statt oder werden die Abfragen in einer Art Stapelverarbeitung durchlaufen? • Bewertungsmaße: Die traditionellen Größen zur Beschreibung der Retrievaleffektivität sind Recall und Precision. Es existiert aber noch eine Vielzahl anderer Meßgrößen wie z.B. estimated search length usw.79 Es ist einleuchtend, daß die Verwendung verschiedener Meßgrößen unterschiedliche Ergebnisse und somit andere Bewertungen der Retrievaleffektivität zur Folge haben können. Der eigentliche kritische Punkt sind aber die, zunächst unabhängig von der Meßgröße zu treffenden Relevanzurteile. Die Kriterien für die Relevanzzuordnung müssen eindeutig sein und sollten zumindest annähernd objektiv, d.h. unabhängig von der personellen Handlungssituation,80 im Idealfall also repräsentativ sein. 2.3.4 Welches Informationssystem wird genutzt/untersucht?81 Schließlich ist zu fragen, mit welchen Informationssystemen die Tests vorgenommen werden sollen, mit experimentellen, extra zu entwickelnden, oder mit ausgereiften, verfügbaren Systemen? Welche Art von Dokumentraum und Dokumentrepräsentation ist erforderlich? Beispielsweise spielt die Größe des Dokumentraums eine ebenso wichtige Rolle, wie seine thematische Ausrichtung und zeitliche Abdeckung. Ebenso wichtig ist auch, wie die Dokumente durch das Retrievalsystem aufbereitet werden, z.B. welche Indexierungsfelder zur Verfügung stehen oder wie die Dokumente referenziert werden, als Volltext, Abstracts oder Zitationen. Hinzu kommt die Frage, ob normierte Dokumenträume als Testkollektionen verwendet werden können/sollen oder nicht. Zielt die Untersuchung eher auf die Erschließung praxisnah verwertbarer Ergebnisse ab, so ist die Verwendung existierender Systeme effizienter, für fortgesetzte Grundlagenforschung hingegen sind experimentelle Systeme geeigneter. 79 Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.74-84. Siehe 2.2.11. 81 Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.209. 80 Evaluierung hybrider Suchsysteme im WWW 2.3.5 Wie sind die Informationsbedürfnisse und Seite 31 Suchanfragen zu erschließen?82 Eine Suchanfrage läßt sich als verbalisiertes Informationsbedürfnis betrachten. Die Suchanfragen sind die Inputfaktoren an das jeweilige Retrievalsystem. Sie bestimmen den Suchprozeß und determinieren den Retrievaloutput. Sie sind also ein entscheidender Faktor jeder Untersuchung. Adäquate, d.h. Mit dem Untersuchungsziel korrespondierende Suchanfragen zu verwenden, ist ein zentrales Problemfeld bei der Evaluation von Retrievalsystemen. Es sind geeignete Suchanfragen zu erschließen. Bei der Erschließung stehen unterschiedliche Quellen zur Verfügung. Eine mögliche Quelle von Suchanfragen stellen Nutzer mit realen Informationsbedürfnissen dar. Eine andere Möglichkeit liegt darin, Suchanfragen auf künstliche Weise, z.B. aus Überschriften von Zeitungsartikeln oder Titeln von Zeitschriftenartikeln zu generieren. Auch die Verwendung von Suchanfragen, die von Informationsdiensten bereits erfaßt und aufgezeichnet wurden, stellt eine Möglichkeit dar, Suchanfragen für die Evaluation zu gewinnen. Problematisch ist bei artifiziellen Suchanfragen allerdings, daß sie das zugrundeliegende Informationsbedürfnis nur unzureichend repräsentieren. Die Schwierigkeit liegt darin, daß von einer solchen Suchanfrage nicht eindeutig auf das zugrundeliegende Informationsbedürfnis geschlossen werden kann, da zusätzliche personelle Informationen fehlen. So ist es z.B. möglich, daß derselben Suchanfrage unterschiedliche Informationsbedürfnisse zugrunde liegen könnten, wenn sie von verschiedenen „echten“ Nutzern stammen würden. Dies läßt sich beispielsweise anhand der Verwendung von Polysemen83 in Suchanfragen verdeutlichen.84 Ist also das Informationsbedürfnis unklar, so sind es auch die Kriterien für die Relevanzbeurteilung. Hier kann nur versucht werden, die Relevanzkriterien durch Rücksprache und Überprüfung mit neutralen Personen auf ihre Plausibilität hin 82 Ebd. Polyseme sind Wörter mit verschiedener Bedeutung aber identischer Schreibweise. Beispiele: Schloß (Türschloß und Gebäude), Bank (Ruheplatz und Kreditinstitut). Siehe Hadumod Bußmann, Lexikon der Sprachwissenschaft, Stuttgart 19902, S. 452. 84 Zwei Beispiele finden sich bei Ricardo Baeza-Yates,, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.390. Das erste lautet "Go" (englisches Wort für "Gehen" und zugleich ein japanisches Spiel), das zweite "Jaguar Speed" ("Jaguar" ist zum einen ein Raubtier zum anderen der Name eines Videospiels, eines Sportwagens, eines US Football Teams, eines Netwerk Servers usw.) Sprache und damit auch Suchanfragen sind also doppeldeutig, redundand und kontextabhängig. 83 Evaluierung hybrider Suchsysteme im WWW Seite 32 abzusichern.85 Die Relevanzbeurteilung für die referenzierten Dokumente soll dann pro Suchanfrage durch einen Nutzer vorgenommen werden, um Inkonsistenzen zu vermeiden. Um die Objektivität von Vergleichstests sicherzustellen, ist es zudem wichtig, daß der Untersuchende nicht zu tief in die Such- und Beurteilungsphase involviert ist, damit eine (unbewußte) Befangenheit bezüglich eines favorisierten Ergebnisses vermieden wird. Der Untersuchende soll also primär als "Testarchitekt" nicht aber als Testperson oder Juror wirken. Tests mit realen Benutzern sollen immer dann durchgeführt werden, wenn die notwendige Kontrolle möglich und sichergestellt ist. Aufgrund der individuellen Unterschiede zwischen Nutzern ist es notwendig mit einer hinreichenden Anzahl von Suchanfragen und Testpersonen zu arbeiten, um die Verallgemeinerungsfähigkeit der Untersuchungsergebnisse sicherzustellen. 2.3.6 Wie sollen die Suchanfragen durchgeführt werden?86 Wichtig ist es, die Vorgehensweise im Testablauf zu standardisieren, denn unbeabsichtigte Veränderungen im Testablauf können das Ergebnis verzerren. Bei einem Laborexperiment ist es weniger aufwendig, unbeabsichtigte Variationen des Testablaufs zu vermeiden. Aber auch bei Evaluationen, die mit Hilfe von Testpersonen vorgenommen werden, ist es möglich, unbeabsichtigte Einflüsse weitgehend zu reduzieren, beispielsweise durch Schulung der Benutzer etwa durch Trainingseinheiten oder Tutorials. Notfalls muß der Testablauf abgebrochen werden, bevor unbeabsichtigte Einwirkungen, wie etwa Systemabstürze, das Ergebnis verfälschen können. 2.3.7 Wie wird das Testsetting ausgestaltet, welche Testanordnung ist adäquat?87 Die Ausgestaltung des Testsettings determiniert den konkreten Aufbau und Ablauf der Untersuchung. Um die Reliabilität und Validität in möglichst hohem Maße sicherzustellen, ist es entscheidend, ungewollte Einflüsse, die das Testergebnis verfälschen können, zu minimieren. Konkret bedeutet dies, die "richtige" Testanordnung zwischen Testsubjekten 85 Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.17. 86 Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.210. Evaluierung hybrider Suchsysteme im WWW Seite 33 (z.B. Probanden), Einflußfaktoren (variierte Parameter) und Untersuchungsobjekten (Systemen/Verfahren), beispielsweise bei der Ausgestaltung der Testaufgaben, zu finden. Das Testdesign soll also möglichst so ausgestaltet sein, daß ungewollte Einflüsse wie Lerneffekte oder Ermüdung, die das Ergebnis verfälschen könnten vermieden werden. "Standardtestverfahren" wie "Crossed Designs", "Repeated Measures Designs" oder "Latin Square Designs" beruhen darauf, ungewollte Einflüsse durch Zufallsanordnungen und Wiederholungen zu minimieren. Beim "Crossed Design" werden beispielsweise alle Testsubjekte (z.B. Benutzer A, B, C) mindestens einmal den verschiedenen Faktoreinflüssen (z.B. Suchstrategie Y, X) pro Untersuchungsgegenstand (z.B. Suchmaschinen L, M, N) zugeordnet. Dies kann je nach Anzahl der Untersuchungsobjekte und untersuchter Faktoreinflüsse und Testpersonen sehr umfangreich und aufwendig werden. Beim "Repeated Measures Designs" werden hingegen dieselben Einflußfaktoren pro Testsubjekt den verschiedenen Untersuchungsgegenständen zugeordnet. Dies erfordert einen geringeren Aufwand, kann allerdings Lern- oder Ermüdungseffekte nach sich ziehen.88 Es ist also sorgfältig abzuwägen, welche Untersuchungsanordnung den besten Kompromiß zwischen Aufwand und Objektivität im Testdesign darstellt, und deshalb vorzuziehen ist. 2.3.8 Wie sollen die Daten erfaßt werden?89 Würde versucht werden alle anfallenden Daten eines Retrievaltest zu sammeln, so wäre eine nicht mehr auswertbare Datenmenge die Folge. Deshalb stellt sich die Frage, welche Daten zu erfassen sind und wie diese erfaßt werden sollen. Will man beispielsweise Daten über Testpersonen durch Beobachtung gewinnen, so ist zu bedenken, daß die Nutzer sich unter Umständen, weil sie beobachtet werden, anders verhalten. Das heißt auch die Art der Datenerfassung kann eine verzerrende Wirkung auf das Ergebnis ausüben. Ein weiterer Punkt ist, daß bereits bei der Datensammlung die nachfolgende Datenanalyse bedacht werden sollte. Einerseits bezüglich des verwertbaren Datenformats. Hier sind digital gespeicherte Daten stets leichter (weiter) zu verarbeiten als Daten, die nicht in digitaler Form erfaßt werden. Andererseits spielen auch die verwendeten Meßgrößen und Skalen eine Rolle. So sind Daten, die z.B. in natürlichsprachlicher Form, in 87 Ebd. Weitere Beispiele für "design Patterns" finden sich ebd., S.211-212. 89 Ebd., S.212. 88 Evaluierung hybrider Suchsysteme im WWW Seite 34 ganzen Sätzen vorliegen erheblich schwerer kardinal und ordinal zu analysieren und auszuwerten als Daten, die in codierter Form, z.B. in Skalen- oder Reihenform wie gut/mittel/schlecht, in Zeitreihen usw., vorliegen. 2.3.9. Wie sollen die Daten ausgewertet werden?90 Wie oben angedeutet, ist die Form der Datenauswertung auch abhängig von der Art der Datenerhebung. Die statistische Analyse der Daten kann beschreibend und schlußfolgernd geschehen. Werden nur deskriptive Methoden verwendet, so lassen sich keine weitergehenden Aussagen treffen, die Daten stehen dann für sich selbst. Mit Hilfe inferentieller Methoden hingegen ist es möglich, Schlüsse über die Allgemeingültigkeit der gewonnen Daten zu ziehen. Die deskriptive Beschreibung der gewonnen Daten hat auf jeden Fall zu erfolgen. Hierbei ist zu überlegen, in welcher Form dies erfolgen soll, ob z.B. Recall-Precison Graphen verständlicher sind als reine Ergebnistabellen und deshalb verwendet werden sollen. Weiterhin zu überlegen inwieweit die Daten zu aggregieren sind. Genügt es, z.B. das "Gesamtergebnis" auszuwerten, oder sollen verfeinerte Sichten ebenfalls analysiert werden? Diese Entscheidung wird weitgehend vom Untersuchungsziel bestimmt werden. Inferentielle Methoden erlauben weitergehende Schlußfolgerungen aus den Testergebnissen. Insbesondere Signifikanztests zur Überprüfung der Aussagefähigkeit der Ergebnisse sind hier zu erwähnen. Auch hier gilt es, die dem jeweiligen Testdesign "angemessenen" Methoden und Analyseprogramme zu wählen. Beispielsweise sind je nach Stichprobengröße parametrische oder nichtparametrische Techniken anzuwenden . Der wichtigste Punkt bei der Analyse der Ergebnisse ist es unbedingt, nicht angemessene oder dem Untersuchenden unverständliche Analyseverfahren oder -methoden zu vermeiden. 2.3.10 Wie sollen die Ergebnisse präsentiert werden?91 Die Ergebnispräsentation sollte die Evaluation nicht nur erzählend beschreiben, sondern die Untersuchung so umfassend darstellen, daß • 90 91 das Ziel des Retrievaltests geschildert wird, Ebd. Ebd., S.214. Evaluierung hybrider Suchsysteme im WWW Seite 35 • der Hintergrund der Evaluationen beschrieben wird, • die Methodik, d.h. Die Testumgebung, das Testdesign, der Testablauf nachbildbar, also wiederholbar gestaltet werden können und auch Probleme die bei der Evaluation auftraten erwähnt werden, • die Ergebnisse so präsentiert werden, daß sie eindeutig nachvollzogen werden können, • die Schlußfolgerungen, d.h. die gewonnenen Erkenntnisse, mitgeteilt werden. Die Ergebnisse sollen also transparent präsentiert werden, so daß die Evaluation für Außenstehende weitestgehend nachvollziehbar und nachbildbar wird. 2.3.11 Evaluationsmethodik - Schlußfolgerung Jean Tague-Sutcliffs Aufsatz bietet einen Leitfaden zur Durchführung von Retrievaltests, der zwar die Probleme bezüglich der quantitativen und qualitativen Ausgestaltung der Testparameter nicht konkret löst (lösen kann), aber einen umfassenden Leitfaden vorschlägt, wie Evaluationen ausgestaltet und durchgeführt werden sollten, um das Untersuchungsziel trotz der vorhandenen Problemfelder auch tatsächlich zu erreichen. Diese grundlegende Methodik gliedert sich dabei in zehn Punkte, welche jeweils die notwendigen Entscheidungen beinhalten, die sequentiell zu treffen sind:92 1. Testen oder nicht testen (Need for testing) 2. Testart (Type of test) 3. Variablendefinition und Zuordnung (Definition of variables) 4. verwendetes Informationssystem (Database development) 5. Erschließung der Informationsbedürfnisse und Suchanfragen (Finding queries) 6. Durchführung der Suchanfragen (Retrieval software) 7. Testanordnung (Experimental design) 8. Datenerfassung (Data collection) 9. Datenauswertung (Data analysis) 10. Ergebnispräsentation (Presenting Results) Wichtig ist es, das Projekt vor der Durchführung komplett zu durchdenken, um bei auftauchenden Schwierigkeiten nicht auf ad hoc zu treffende Entscheidungen zur Problembewältigung angewiesen zu sein.93 92 93 Die Punkte werden hier in der englischen Originalbezeichnung aufgeführt., siehe ebd. Ebd., S.215. Evaluierung hybrider Suchsysteme im WWW Seite 36 Obwohl der Aufsatz schon 1992 erschien,94 ist er immer noch State of the Art.95 Deshalb wird diese Arbeit im folgenden bei der Evaluierung hybrider Suchsysteme im WWW grundlegend diesem Leitfaden folgen und sich auf ihn als methodische Guideline zur Entwicklung und Durchführung der durchzuführenden Evaluation stützen. 2.4 Besonderheiten des Information Retrieval im World Wide Web Nachdem nun die zentralen Problembereiche bei der Evaluation von Retrievalsystemen erläutert und eine grundlegende methodische Vorgehensweise zur Durchführung von Retrievaltests aufgezeigt wurde, ist es notwendig, die Besonderheiten des Information Retrieval im Web darzustellen, bevor das Testdesign zur Evaluierung hybrider Suchsysteme erstellt werden kann. Der Grund hierfür liegt darin, daß sich Information Retrieval im Web grundlegend vom klassischen Retrieval96 unterscheidet und in dieser Arbeit bislang Information Retrieval nur allgemein aber nicht internetspezifisch betrachtet wurde. Die dem Information Retrieval im Internet eigenen Ausprägungen, die im Rahmen dieser Arbeit von Bedeutung sind, sollen im folgenden in zwei Schritten erschlossen werden. In einem ersten Schritt sollen dazu die Besonderheiten des Informationsraums Internet dargestellt werden, um die bei der durchzuführenden Untersuchung zu beachtenden Eigenheiten herauszuarbeiten. In einem zweiten Schritt soll dann untersucht werden, wie die Retrievaleffektivität von Suchmaschinen im Internet bislang evaluiert wurde. Die kritische Betrachtung dieser bisherigen Suchmaschinenevaluationen soll Hinweise und Ideen - beispielsweise bezüglich der Möglichkeit zu Übernahme gängiger Testverfahren - für die Gestaltung des Testdesigns liefern, zugleich aber auch aufzeigen, welche (webspezifischen) Fehler möglichst zu vermeiden sind. 2.4.1 Informationsraum Internet Die Unterschiede zwischen dem Internet und "traditionellen Retrievalsystemen" als Informationssysteme sind erheblich und umfassen mehrere Dimensionen. 94 Siehe http://citeseer.nj.nec.com/brajnik96evaluating.html(10.11.00). zumindest war in der Literatur eine ähnlich thematisch umfassende und theoretisch fundierte Arbeit nicht zu finden. 96 Hierunter werden hier primär Online-Datenbanken wie z.B. Infodata, siehe z.B. http://www.fizkarlsruhe.de/onlin_db.html (15.10.00)., aber auch OPACS (Online Public Access Catalogs), siehe http://nightflight.com/cgi-bin/foldoc.cgi?OPAC (15.10.00). verstanden. 95 Evaluierung hybrider Suchsysteme im WWW Seite 37 Anführen lassen sich in diesem Zusammenhang vor allem die Faktoren Datenbestand (Dokumentraum), Hypertextstruktur, Nutzer und die Suchmaschinen selbst. 2.4.1.1 Datenbestand Das World Wide Web (WWW) hat mittlerweile einen gigantischen Umfang erreicht. Die relativ aktuelle Schätzung von Cyveillance geht für Juni 2000 von einer Anzahl von über zwei Milliarden Webseiten aus, im Februar des nächsten Jahres soll die vier Milliarden Grenze überschritten werden.97 Rechnet man das sogenannte "Invisible Web"98 hinzu, welches vorwiegend aus Datenbanken besteht, auf die Suchmaschinen nicht zugreifen (können), so läßt sich diese Anzahl noch vervielfachen. Dabei sind die Webseiten auf eine sehr hohe Anzahl von Servern verteilt99 und der Dokumentraum ist sehr dynamisch. Webseiten sind unbeständig, d.h. es werden mit sehr hoher Frequenz neue Seiten publiziert, aus dem Netz entfernt, bestehende Seiten modifiziert oder gar erst auf konkrete Anforderung hin generiert.100 Die Daten sind dabei überwiegend semi- bzw. unstrukturiert, dokumentinhärente Metainformationen stehen, wenn überhaupt, dann meist nur in nichtstandardisierter Form zur Verfügung. Es existieren verschiedene Medientypen und Formate bei Bild, Text und Tondaten wobei das Seitenbeschreibungsformat HTML in seinen verschiedenen Ausprägungen vorherrschend ist.101 Dazu kommt noch, daß die Präsentation der Information, abhängig vom benutzten "Ausgabegerät" ist. Hiermit sind zunächst die verwendeten Browser102 gemeint. Faktoren wie Browsertyp, Browserversion, Bildschirmauflösung, Farbanzahl, Betriebssystem, aktivierte/nichtaktivierte Features (Java, Javascript, CSS) oder 97 Siehe Alvin Moore, Brian H. Murray, Sizing the Internet, A Cyveillance Study, 2000. http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf (02.10.00). Eine andere Schätzung vom Januar 2000 geht von über einer Milliarde Webseiten aus, siehe http://www1.inktomi.com/webmap/ (20.09.00). 98 Chris Sherman, The Invisible Web, siehe http://websearch.about.com/internet/websearch/library/weekly/aa061199.htm (11.11.00). Zugang zu diesen Informationen versucht die Website http://www.invisibleweb.com/ zu verschaffen (11.11.00). 99 Eine Schätzung vom Oktober 2000 geht von etwa 22 Millionen Web-Servern aus, sieh http://195.92.95.5/Survey/ (11.11.00). 100 Bei Datenbankabfragen z.B., siehe etwa http://www.nethics.net/nethicsforum/Library/findLink.asp?TUSR= (11.11.00). 101 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.31. Evaluierung hybrider Suchsysteme im WWW Seite 38 vorhandene Plug-Ins entscheiden darüber, wie und ob die vorhandenen Informationen dargestellt werden.103 Ein weiterer wichtiger Punkt ist, daß im Internet weder eine thematische Beschränkung noch eine Qualitätskontrolle formaler und/oder inhaltlicher Art der Dokumente vorhanden ist.104 Jeder kann alles publizieren. Momentan dominiert (noch) im Web die englische Sprache.105 Zusammenfassend läßt sich festhalten, daß das Internet und klassische Informationsysteme in besonderer Weise durch die Heterogenität und Variabilität der Datenbestände im WWW divergieren.106 2.4.1.2 Hypertextstrukturen im Internet Das World Wide Web wird durch die Verknüpfungsmöglichkeiten innerhalb und zwischen Webseiten als weltweite öffentliche Plattform für Hypertext-Projekte strukturiert,107 und stellt insofern selbst ein Hypertextsystem dar.108 Dies wiederum bedeutet, daß der Informationsgehalt eines Dokumentes sich nicht ausschließlich auf dessen text-, bild- oder toninhärente Daten bezieht, sondern möglicherweise auch durch die Verweise festgelegt wird, die vom Dokument ausgehen und sofortigen Zugriff auf weitere Daten erlauben.109 Dies hat wiederum direkte Bedeutung für das Verhalten von informationssuchenden Nutzern. Im Internet ist eine zielgerichtete Suche auch durch das Verfolgen der vorhandenen angebotenen Verknüpfungen möglich. Kuhlen schreibt: "Die früher einmal sich eher strikt auszuschließen scheinenden Domänen des Information Retrieval (mit dem Such-/Matching-Paradigma) und von Hypertext 102 "Programm, das einen Zugriff auf das World Wide Web im Internet ermöglicht.", siehe http://www.wissen.de/servlets/de.wissen.tm.DictionaryServlet/NSID-www.wissen.de39a8%3A3a0dc62f%3A68b90b5bd76765?todo=showGermanDict&tid=3610033 (11.11.00). 103 Eine Übersicht über momnetan verwendete Browser und Systeme bietet beispielsweise Webhits, siehe http://www.webhits.de/webhits/inetstat_d.htm (11.11.00). Hier noch Brwoserarchive einfügen 104 Die Zensurproblematik wird hier vernachlässigt. Informationen dazu finden sich beispielsweise bei Nethics, siehe http://www.nethics.net/nethics/de/brisant/zensur.html (18.11.00). 105 Ebd. 106 Ebd. 107 Stefan Münz, Hypertext, 1997 siehe http://user.fachdid.fu-berlin.de/Docs/HTXT/htxt613.htm (01.10.00). 108 Addison Wesley Longman, A history of HTML, 1998, siehe http://www.w3.org/People/Raggett/book4/ch02.html 109 "Given the hypertext nature of the Web, maybe partially relevant documents (Spink, Greisdorf, and Bateman 1998) in the top ten were used as a jumping off point to find a relevant one. For example, a user looking for a faculty member's homepage at a university does not retrieve the faculty's homepage in the top ten but gets the university homepage. Rather than continue search engine via the searching, the user starts browsing beginning with the university page." Aus Bernard J. Jansen, Amanda Spink, Tefko Saracevic, Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web, siehe http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html (16.10.00). Evaluierung hybrider Suchsysteme im WWW Seite 39 (mit dem Browsing-/Navigations-Paradigma) sind längst eine produktive Symbiose eingegangen."110 Relevante Informationen können also auch durch das Verfolgen der angebotenen Verknüpfungen (Links) - auch bei an sich irrelevanten Seiten - erschlossen werden. Insofern sind Internetsuchmaschinen nicht nur danach zu beurteilen, ob und inwieweit die von ihnen gelieferten Treffer an sich für das Informationsbedürfnis relevant sind, sondern auch danach, ob die von ihnen gelieferten Trefferseiten dem Nutzer den Zugriff auf die gewünschte Information durch angebotene Verknüpfungen ermöglichen. 2.4.1.3 Nutzer Im Internet besitzt die überwiegende Anzahl der Suchmaschinennutzer keine Information Retrieval Kenntnisse. Insofern unterscheidet sich der typische Nutzerkreis von Internet Retrieval Systemen in wesentlichen Punkten von professionellen Nutzern klassischer Online Retrieval Systeme. Die wichtigsten sind: Operatoren und "Advanced search Features" werden im Web kaum verwendet, in über 90% aller Suchanfragen werden Keywords ohne Operatoren eingegeben. Nur ein Drittel der Nutzer variieren ihre Suchanfrage bei der Recherche. Durchschnittlich werden 1,6 Suchanfragen pro Sitzung und User abgefragt.111 Selten werden mehr als zwei Ergebnisseiten der Suchmaschinen betrachtet.112 Über die Hälfte der Nutzer sichten nur Ergebnisse der ersten Trefferlistenseite, nur wenig mehr als 20% der Nutzer schauen sich die dritte Trefferlistenseite an.113 Hierin könnte sich auch die Hypertextstruktur des Web bemerkbar machen, indem Nutzer teilweise relevante Seiten als "Jumping-off Points" zu relevanten Seiten nutzen.114 Das Browsing Paradigma hat insofern auch direkten Einfluß auf das Suchverhalten der Nutzer. Körber kommt in seinem Experiment zum Ergebnis, daß auch bei der direkten Nutzung der 110 Rainer Kuhlen, Hypertextifizierung - Zu den methodischen Grundlagen nicht-linear organisierter Informationssysteme: Text - Kontext - Hypertext, siehe http://www.inf-wiss.unikonstanz.de/CURR/summer98/imk/hypertextgrundlagen.html (30.11.00). 111 Major Bernard J. Jansen, Amanda Spink, Tefko Saracevic, Real Life, Real Users and Real Needs: A study and Analysis of User Queries on the Web , siehe http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html (23.10.00). 112 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.37. Siehe auch Keywordananlyzer von Suchtreffer unter http://www.suchtreffer.de (10.11.00). 113 Major Bernard J. Jansen, Amanda Spink, Tefko Saracevic, Real Life, Real Users and Real Needs: A study and Analysis of User Queries on the Web , siehe http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html (23.10.00).s 114 Ebd. Evaluierung hybrider Suchsysteme im WWW Seite 40 Suchmaschinen das Browsingverhalten im Suchprozeß überwiegt.115 Das ist ein deutlicher Hinweis darauf, daß Retrievaltests im Web, nicht allein auf Relevanzkriterien beschränkt werden können, die auf der inhaltlichen Analyse von Suchmaschinentrefferseiten basieren. Um dem tatsächlichen Suchverhalten gerecht zu werden, müssen vielmehr die vorhandenen Verknüpfungen auf den Ergebnisseiten ebenfalls berücksichtigt werden. Es läßt sich also festhalten, die typische Art wie Retrievalsysteme im Web genutzt werden, unterscheidet sich enorm von der Art der Nutzung "traditioneller" Retrievalsysteme. Es gibt kaum differenzierte Suchanfragen und Strategien, elaborierte Features von Suchmaschinen werden nur wenig genutzt. Ob dies grundsätzlich aus "Unfähigkeit" geschieht, oder ob diesem Verhalten andere Gründe wie ein Motivationsmangel der Nutzer116 zugrundeliegt, kann hier nicht geklärt werden. Sicher ist aber, daß die Retrievaleffektivitätsuntersuchung die konkrete Art und Weise der Suchmaschinennutzung berücksichtigen muß, damit die Ergebnisse der Untersuchung auch köharent auf den realen Nutzungskontext bezogen werden können. 2.4.1.4 Internetsuchmaschinen117 Suchmaschinen lassen sich grob in vier Bestandteile gliedern:118 • Einem Spider oder Crawler, der das Web traversiert und Seiten zur Indexierung auffindet. • Einer Indexierungskomponente, die die Seiten auswertet, aufbereitet und in einem Index verwaltet. • Einem Benutzerinterface, über das der Benutzer mit dem System kommuniziert und seine Anfragen formuliert. • Einer Retrievalfunktion, die die Suchanfragenformulierung mit dem Index abgleicht und das Ergebnis an das Benutzerinterface weiterleitet. Auf einen ersten Blick scheinen Suchmaschinen im Vergleich zu Online-Retrievalsystemen einfach und weitgehend identisch aufgebaut zu sein. 115 Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, siehe http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00). 116 Barbara Hale, Survey shows web search engines not meeting user needs, 1999, siehe http://www.eurekalert.org/releases/psu-ssw100499.html (10.10.00). 117 Andere Internetretrievalsysteme wie Kataloge oder Metasuchmaschinen werden in dieser Arbeit nicht behandelt. Zur typeinteilung siehe beispielsweise C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.191. 118 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in Evaluierung hybrider Suchsysteme im WWW Seite 41 Im Bereich der Benutzerschnittstelle treten ein einfaches Inputfeld zur Eingabe der Begriffe und ein Pushbutton zum Starten der Suchanfrage an die Stelle komplizierter Retrievalsprachen die mittels eines befehlsorientierten Textinterfaces eingegeben werden.119 Insofern erscheinen Suchmaschinen zunächst, gerade in Bezug auf ihren typischen Nutzerkreis im Internet, benutzerfreundlich konstruiert zu sein. Genau dies täuscht. Wie Stenmark formuliert "..., the user is left with a search interface consisting of one input field (in which they have no idea of what to type) and one push button. Hardly hi-tech. Most users type in a single keyword, click on the button, and hope for the best. It seldom occurs."120 Die Gründe hierfür sind vielfältig. Zunächst einmal besteht kein Konsens unter Suchmaschinenbetreibern bezüglich der Interpretation von Anfragen ohne Operatoren. Wolff folgert, daß sich aufgrunddessen kein allgemein akzeptiertes Interpretationsmodell für Suchanfragen herausbilden kann, was wiederum zur Folge hat, daß Ergebnisse falsch interpretiert oder nicht verstanden werden.121 Die Intransparenz in bezug auf die Zusammensetzung des Retrievaloutput ist generell das Hauptproblem bei der Untersuchung der Retrievaleffektivität von Suchmaschinen, denn es ist fast ausgeschlossen nachzuvollziehen, warum welche Treffer in der jeweils vorgegebenen Reihenfolge als Ergebnis auf eine Suchanfrage zurückgegeben werden. Denn es ist unklar, welche Seiten von der jeweiligen Maschine überhaupt gefunden werden können. Die Suchmaschinebetreiber machen zwar Angaben über die Größe ihrer Datenbasis, vage bleibt aber aus welchen Webseiten sie konkret aufgebaut ist. Da selbst die Maschine mit dem größten Index122 nur einen Teil des Web indexiert, kann in keinem Fall mit Sicherheit davon ausgegangen werden, alle relevanten Dokumente (Webseiten) gefunden zu haben.123 der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.35-36. 119 Ein Beispiel für eine Retrievalsprache findet sich unter http://www.FIZ-Karlsruhe.DE/stn/messenger/mctoc.html (15.10.00). 120 Dick Stenmark, To Search is Great, to Find is Greater: a Study of Visualisation Tools for the Web. http://w3.informatik.gu.se/%7edixi/publ/mdi.htm (13.04.99) 121 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.37. 122 Momentan wird Google als solche bezeichnet siehe http://www.searchenginewatch.com/reports/sizes.html (15.11.00). 123 Auch nicht durch Metasuchmaschinen, wenngleich diese, zumindest theoretisch, eine höhere Abdeckungsrate erreichen. Vgl. Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Such- und Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.37. Evaluierung hybrider Suchsysteme im WWW Seite 42 Abbildung 1 – aktuelle Angaben zur Indexgrößen von Suchmaschinen124 Insofern ist die Verwendung der Meßgröße Recall im Web hochproblematisch, absolut zu ermitteln ist sie nicht,125 und die Verwendung von Pooling-Verfahren ist durch die geringe Überlappung der einzelnen Suchmaschinenindexe126 wenig aussagekräftig. Die Ausgabe der Treffer erfolgt in der Regel als sortierte Liste, die nach der vermuteten, d.h. von der Maschine durch Rankingalgorithmen errechneten Relevanz, absteigend sortiert ist. Da die Benutzer nur die vorderen Rangplätze sichten, sind die Rankingkriterien wohl der kritische Erfolgsfaktor der Suchmaschinen.127 Sie werden von den Suchmaschinenbetreibern niemals offengelegt und häufig modifiziert, da sie ansonsten Gefahr laufen von sogenannten "Spamseiten" überflutet zu werden.128 Faßt man diese beiden Punkte zusammen, so läßt sich nur der Schluß ziehen, daß die Retrievaleffektivität von Suchmaschinen sich zwar ermitteln läßt, nicht aber auf ihre Faktoren zurückgeführt werden kann. Eine schlechte Precision z.B. kann sowohl durch das Rankingals auch durch das Indexierungsmethode oder die Spidermethode, bzw. Kombinationen aus diesen, 124 verursacht werden.129 In diesem Sinne stellen Suchmaschinen für den Siehe http://www.searchenginewatch.com/reports/sizes.html (03.04.00). "...it is impossible to calculate how many potentially relevant items there are for any particular query in the huge and ever changing web system.", aus: C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.194. 126 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.35. 127 Martin P. Courtois, Michael W. Berry, Results Ranking in Web Search Engine, in: Online, May 1999, siehe http://www.onlineinc.com/onlinemag/OL1999/courtois5.html (19.11.00). 128 Altavista, Änderung der Rankingkriterien, siehe http://www.at-web.de/Suchmaschinen-int/Altavista-newRanking.htm (14.11.00). 129 David Hawking, Nick Craswell, Paul Thistlewaite,Donna Harman, Results and Challenges in Web Search Evaluation, siehe http://www8.org/w8-papers/2c-search-discover/results/results.html (14.10.00). 125 Evaluierung hybrider Suchsysteme im WWW Seite 43 Untersuchenden eine Blackbox dar, die ausschließlich nach ihrem Output bewertet werden können. Suchmaschinen ändern sich andauernd, z.B. in Bezug auf das Benutzerinterface, den Index und das Ranking. Dies bedeutet wiederum Evaluationen bzw. ihre Ergebnisse haben nur für kurze Zeit Gültigkeit.130 Für die folgende Untersuchung heißt dies, daß durch Retrievaltests bei Suchmaschinen nur ein allgemeines Qualitätsurteil gefällt werden kann, welches zudem nur für kurze Zeit Gültigkeit besitzt. 2.4.1.5 Informationsraum Internet – Schlußfolgerungen Es wird deutlich, daß die zu beachtenden Eigenheiten des Internet für die durchzuführende Evaluation von großer Bedeutung sind und sich in der Ausgestaltung der Evaluation bei allen Parametern, d.h. bei allen Untersuchungsvariablen zu beachten ist. Zunächst wird offensichtlich, daß die Dokumentbasis nicht zu kontrollieren ist. Das Browsing Paradigma impliziert eine Anpassung der Ausgestaltung der Maße zur Effektivitätsmessung, während die anderen nutzerspezifischen Besonderheiten eher bei der Ausgestaltung der zu kontrollierenden Testparameter zu beachten sind. Die Aussagekraft der Untersuchung wird sich auf das Gesamtsystem beschränken und zudem nur für kurze Zeit gültig sein. 2.4.2 Retrievaltests im Internet131 Retrievaltests bei Internetsuchmaschinen durchzuführen, ist inzwischen populär geworden, dies zeigen nicht zuletzt die relativ aktuellen Beispiele von Tomorrow132 und der Stiftung Warentest.133 130 C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation, Vol. 56 No. 2 2000, S.190-211, S.193. 131 Einen Überblick über Retrievaltests im Internet ist in ebd. Zu finden. Im Anhang findet sich unter „Übersicht andere Evaluationen“ eine tabellarische Zusammenstellung beispielhaft aufgeführter Evaluationen von Intersuchmaschinen und anderen Suchdiensten. 132 O. A., Suchmaschinen, Die besten Suchmaschinen im Test , in Tomorrow, siehe http://www.tomorrow.de/popup/test.html?v_id=633252 (18.11.00). 133 O. A., Internet Suchmaschinen -Such!, in: Test 08/2000, sieh http://www.warentest.de/wtest/plsql/sw_test.anzeige_beitrag?kontaktnr=0&tmp_inh_id=18364&tmp_zeitschrift=t&t mp_ausgabe=8&tmp_jahr=2000. Evaluierung hybrider Suchsysteme im WWW Seite 44 In diesem Kapitel sollen anhand der exemplarischen Darstellung von fünf Retrievaltests im Internet und deren kritischer Betrachtung, konkrete Anhaltspunkte für die Durchführung der Evaluation gefunden werden. Positive Anhaltspunkte im Sinne einer möglichen Übernahme von Testverfahren, negative Hinweise im Sinne von Fehlern, die möglichst zu vermeiden sind. 2.4.2.1 Chu und Rosenthal (1996)134 Chu und Rosenthal unternehmen 1996 den Versuch, ausgehend von einer vergleichenden Evaluation der Suchmaschinen AltaVista,135 Excite136 und Lycos137 eine Methodologie für die Evaluation von Suchmaschinen zu entwickeln. Um die Retrievaleffektivität zu prüfen, verwenden sie 10 Fragen, von denen 9 auf Informationsbedürfnissen realer Nutzer beruhen und eine eigens für die Untersuchung konstruierte. Die Suchanfragenformulierung werden für jede Suchmaschine in Bezug auf Operatorenverwendung angepaßt. Als "Ausgabegeräte" dienen die Browser Netscape und Lynx. Die Suchen werden mit Hilfe des Standardsuchfelds unter Verzicht der Nutzung von weitergehenden Suchoptionen durchgeführt. Jeweils die ersten 10 Ergebnisse werden bewertet. Meßgrößen sind Precision und Antwortzeit. Bewertet werden die Trefferlisten, nicht die Ergebnisseiten selbst. Die Untersuchenden nehmen die Relevanzbewertungen selbst vor. Errechnet wird die durchschnittliche Precision über alle Fragen hinweg. Aus ihrem Experiment schlußfolgern Chu und Rosenthal, daß folgende Aspekte bei einer Evaluation von Suchmaschinen beachtet werden müssen: • • 134 Index der Suchmaschine: • Größe • Aktualität • Dokumentaufbereitung Suchmöglichkeiten: Heting Chu, Marilyn Rosenthal, Search Engines for the World Wide Web: A Comparative Study and Evaluation Methodology, in: ASIS 1996 Annual Coonference Proceedings, October 19-24 1996, siehe http://www.asis.org/annual-96/ElectronicProceedings/chu.html (17.10.00). 135 Http://www.altavista.com 136 Http://www.excite.com 137 Http://www.lycos.com Evaluierung hybrider Suchsysteme im WWW • Boolsche Ausdrücke • Phrasensuche • Trunkierung • Einschränkungsmöglichkeiten (z.B. Feldsuche) • Seite 45 Retrievaleffektivität: • Precision • Recall • Antwortzeit • Ausgabeformat: • • bereitgestellte Optionen Benutzerfreundlichkeit: • Dokumentation • Interface Die Methodologie von Chu und Rosenthal verfolgt einen eher ganzheitlichen Ansatz zur Bewertung eines Retrievalsystems. Die Retrievaleffektivität ist hierbei zwar ein entscheidender Punkt, es treten aber auch Aspekte hinzu, die eher einer Effizienzbeurteilung gleichkommen, beispielsweise die Antwortzeit und Benutzerfreundlichkeit. Da Effizienzaspekte in dieser Arbeit nicht betrachtet werden ist diese Methodologie hier nicht von Belang. Das Testdesign selbst scheint nicht sehr elaboriert entworfen zu sein. Denn die Untersuchenden sind gleichzeitig diejenigen, von denen die Suchanfragen stammen und die die Beurteilung der Relevanz der Dokumente vornehmen. Auch die Bewertung der Trefferlisten an sich und nicht der einzelnen Trefferdokumente kann Verzerrungen nach sich ziehen, da nicht sichergestellt ist, daß die Trefferlisten die Dokumente korrekt repräsentieren, oder daß die Dokumente überhaupt existieren. Dies zeigt, daß der hohe Anspruch an eine Methodik zur Evaluation von Suchmaschinen von Chu und Rosenthal selbst durch die durchgeführte Untersuchung konterkarriert wird. Insofern ist diese Untersuchung eher ein Beispiel dafür, welche Fehler vermieden werden sollen, als ein Beispiel dafür, welche Vorgehensweisen übernommen werden können. Evaluierung hybrider Suchsysteme im WWW Seite 46 2.4.2.2 Leighton und Srivastava (1997)138 Der Retrievaltest von Leighton und Srivastava vergleicht mittels 15 Suchanfragen fünf Suchmaschinen in Bezug auf die Top20 Precision. Bezugnehmend auf ihre Analyse anderer Evaluationen kritisieren sie vor allem die zu kleinen Testsets - besonders die Anzahl der verwendeten Suchanfragen - aber ebenso die intransparente oder fehlende Darstellung der Untersuchungsmethodik bei den meisten bisherigen Retrievaltests im Internet. Dies seien die Hauptgründe dafür, daß verschiedene Tests zu unterschiedlichen Aussagen bezüglich der Retrievaleffektivität einzelner Suchmaschinen gelangten. Um dies zu vermeiden, sei es notwendig das Testdesign so zu entwickeln, daß keiner der untersuchten Suchdienste "unfair" bevorteilt wird. Beispielsweise sollen die Suchanfragen möglichst zum gleichen Zeitpunkt durchgeführt werden, so daß keine Maschine einen "Indexierungsvorteil" aufzuweisen vermag. Ebenso sind die Ergebnisse so schnell wie möglich lokal zu speichern, damit Veränderungen im Web sich nicht in den Testergebnissen niederschlagen können. Das Evaluationsverfahren wird so aufgebaut, daß die Relevanzkriterien vor der Relevanzbeurteilung schriftlich definiert werden. Die Relevanzbeurteilung aber auch in dieser Unterschung von den Untersuchenden selbst vorgenommen. Die Ergebnisseiten werden so aufbereitet, daß deren Herkunft nicht mehr zu ermitteln sein soll. D.h. sie werden mittels eines Perl Programms lokal abgelegt und in einem Texteditor auf Relevanz geprüft. Die Kategorien für die Relevanzbeurteilung werden differenziert gefaßt und exakt definiert: • duplicate links • inactive links • irrelevant links • technical relevant links • potentially useful links • most probably useful links Beispielsweise werden Seiten dann als Duplikate bewertet, wenn sie identische Urls aufwiesen. Seiten, die identisch sind, aber auf anderen Servern liegen, werden aber nicht als 138 H. Vernon Leighton, Jaideep Srivastava, Precision among World Wide Web Search Services (Search Engines):Alta Vista, Excite, HotBot, Infoseek, Lycos, 1997, siehe http://www.winona.msus.edu/library/webind2/webind2.htm Evaluierung hybrider Suchsysteme im WWW Seite 47 Duplikate gewertet. Ob und Inwieweit dies, bzw. ob überhaupt, der Relevanzbeurteilung eines typischen Nutzers entspricht, ist unklar. Grundsätzlich bleibt zu fragen, inwieweit eine solche Ausdifferenzierung sinnvoll sein kann, bzw. überhaupt den möglichen Formen von Dubletten gerecht wird,139 oder ob diese Problematik nicht vielmehr vom subjektiven Nutzungskontext abhängig ist. 2.4.2.3 Gordon und Pathak (1998)140 Gordon und Pathak liefern ebenfalls einen Überblick über Retrievaltests im Internet. Zugleich listen sie sieben Punkte auf, die bei einer akkuraten Evaluation zu beachten seien. Diese sind: 1.Die Suchanfragen sollen auf zugrundeliegenden Informationsbedürfnissen beruhen. 2.Der Kontext der Informationsbedürfnisse soll so soweit wie möglich erfaßt und formuliert werden. 3.Die Anzahl der Suchanfragen muß "ausreichend" groß sein. 4.Die Untersuchung soll die wichtigsten Suchmaschinen einbeziehen. 5.Die Ermittlung der Retrievaleffektivität Retrievalfähigkeiten/-features 141 soll unter Ausnutzung aller der jeweiligen Suchmaschine geschehen. 6.Die Relevanzentscheidung soll von denjenigen getroffen werden, die das Informationsbedürfnis haben. Der Untersuchende darf keinesfalls selbst das Relevanzurteil fällen. 7.Das Testdesign selbst soll sorgfältig ausgearbeitet sein. Dieser Forderungskatalog zeigt zugleich die Hauptkritikpunkte, die Gordon und Pathak an anderen Evaluationen bemängeln. Zunächst kritisieren sie, daß bei anderen Tests Suchanfragen benutzt werden, denen kein reales Informationsbedürfnis zugrundeliegt. Häufig werden die Suchanfragen eher willkürlich von den/dem Untersuchenden festgesetzt.142 Die Verwendung identischer Suchanfragen bei verschiedenen Suchmaschinen, wird kritisiert, weil sie den unterschiedlichen Fähigkeiten der Suchmaschinen nicht gerecht wird und somit 139 Man denke beispielsweise an Seiten, die ein unterschiedliches Format bei identischen Inhalt haben: Ein Benutzer der keinen "framefähigen" Browser besitzt, ist vielleicht auf die "normale" Version angewiesen, weil die andere Version für ihn nicht zugänglich ist. 140 Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180, S.145-149. 141 Z.B in Bezug auf Advanced Search Features wie Feldsuche usw. siehe beispielsweise http://www.altavista.com/cgi-bin/query?pg=ps (18.11.00). 142 Beispielsweise G. Westera, Robot-driven search engine evaluation overview, 1996 siehe http://lisweb.curtin.edu.au/staff/gwpersonal/senginestudy/ (18.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 48 kein Urteil über die erreichbare Retrievaleffektivität erlaubt, obwohl zugestanden wird, daß dies eine Möglichkeit ist, das tatsächliche Verhalten der Suchmaschinennutzer nachzubilden. In der Mehrzahl der angeführten Evaluationen143 wird das Relevanzurteil durch die Untersuchenden gefällt. Hier wird das Relevanzproblem angesprochen. Auch unabhängige Juroren können nur semantische oder gar nur syntaktische Relevanzurteile fällen. Werden also Juroren verwendet, so bleibt der personenbezogene Handlungskontext - der pragmatische Primat - unberücksichtigt Die Analyse von Gordon und Pathak zeigt also, zumindest aus der Sicht ihres normativen Kriterienkatalogs eklatante methodische Schwachpunkte in der Mehrzahl der betrachteten Retrievaltests auf. Um ihrem Anspruch gerecht zu werden, wird ein Retrievaltest durchgeführt, der unter Beachtung der erstellten Kriterien ein "objektives" Urteil über die Retrievaleffektivität gewährleisten soll. Dieses Experiment ist wie folgt aufgebaut:144 Informationsbedürfnisse: Die Informationsbedürfnisse werden durch die Befragung von 36 Studenten gewonnen. Sie werden dazu auf einem Formular schriftlich ausformuliert. Ausgewählte Suchdienste: Es werden Altavista, Excite, Infoseek, Open Text, HotBot, Lycos, Magellan und Yahoo ausgewählt. Diese Auswahl soll die wichtigsten Suchdienste - sowohl in Bezug auf Nutzungsgrad als auch auf verwendete Retrievaltechniken - repräsentieren. Sucher: Zur Durchführung der Suchanfragen werden Experten herangezogen, das Kriterium für die Auswahl ist die fachliche Ausbildung. Durchführung der Suchanfragen: Die Sucher versuchen unter Vorlage der schriftlich ausformulierten Informationsbedürfnisse die in Bezug auf die verwendete Suchmaschine jeweils beste Suchanfrage zu formulieren, so daß sich unter den ersten 200 Ergebnissen möglichst viele relevante Dokumente befinden. Die Suchanfragen werden so oft verändert und variiert, bis das "beste" Ergebnis 143 Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180, Tabelle 1 S.148. 144 Ebd., S.149-152. Evaluierung hybrider Suchsysteme im WWW Seite 49 vorliegt. Die Ergebnisse werden in der richtigen Reihenfolge lokal gespeichert. Die Dauer für die Durchführung der Suchanfragen variiert dabei jeweils von einem bis zu zwei Arbeitstagen. Beurteilungen: Jeweils die Top20 Ergebnisseiten werden ausgedruckt und in zufälliger Reihenfolge den Personen zur Beurteilung vorgelegt, die das Informationsbedürfnis formuliert haben. Die Relevanzeinstufung erfolgt mittels einer Skala mit vier Abstufungen: sehr relevant, etwas relevant, etwas irrelevant, sehr irrelevant. Auswertung: Bewertungsmaße sind Recall und Precision. Und obwohl nur jeweils die ersten 20 Dokumente explizit ausgewertet werden, wird unter Zuhilfenahme von Treffern die bei verschiedenen Maschinen mehrfach auftreten, die Precision und Recall Werte auf alle 200 Dokumente extrapoliert. Insgesamt wird die Precision bei verschiedenen Cut-Off-Werten berechnet und die Relevanzurteile binär in relevant oder nicht-relevant zusammengefaßt. Schließlich werden die Ergebnisse statistisch mittels einer Varianzanalyse abgesichert. Wie ist der Retrievaltest von Gordon und Pathak nun zu bewerten? Erstens ist festzuhalten, daß sie mit ihrem siebenstufigen Punktekatalog normative Kriterien aufstellen, und aufgrund dieser Kriterien andere Evaluationen als eher inadäquat beurteilen. Zugleich versuchen sie in einer eigenen Evaluation dem selbsterstellten Anspruch gerecht zu werden. Zuerst ist zu klären, inwieweit der Punktekatalog für die Durchführung von Retrievaltests hilfreich scheint. Die ersten beiden Punkte, die Bezugnahme auf existierende Informationsbedürfnisse, stellen sicher, daß die Retrievaleffektivität auch anhand realer und nicht bloß hypothetischer Fragestellungen überprüft wird. Die Anzahl der Suchanfragen ist mit mindestens 25 bzw. 50 angemessen hoch zu stellen um eine verallgemeinerungsfähige Aussagekraft zu erreichen.145 Die ingesamt 36 Suchanfragen scheinen dieses Kriterium zu erfüllen. Das gezielte Ausreizen aller Fähigkeiten der jeweiligen Suchmaschine ist in der Tat geeignet, die erreichbare Retrievaleffektivität zu ermitteln. Fraglich bleibt aber, ob diese bei der realen "normalen" Nutzung im alltäglichen Gebrauch auch erreicht wird. Die Beurteilung 145 Schäuble spricht von mindestens 50. Peter Schäuble, Eurospider Suchsystem für die ETH Zürich, siehe http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Mindestens 25 besser 50 laut TREC, vgl. Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23rd Annual Evaluierung hybrider Suchsysteme im WWW Seite 50 der Dokumente durch die Personen, die das Informationsbedürfnis verspüren, ist sinnvoll.146 Unsicher bleibt aber, ob die individuell formulierten Informationsbedürfnisse, als auch die individuellen Ergebnisbewertungen repräsentativ sein können, bzw. wie dies sichergestellt werden kann. Kann in diesem Retrievaltest der selbsterstellte Anspruch auch eingelöst werden? Ein erster möglicher Kritikpunkt betrifft die formulierten Informationsbedürfnisse. Sind diese wirklich repräsentativ? Oder ist es möglich, daß Informationsbedürfnisse, die von 36 Mitgliedern der faculty "Computer and Information Systems" der "University of Michigan" in Bezug auf Themenbereich, -spektrum und -komplexität die Realität unzureichend repräsentieren und deshalb nicht zu verallgemeinern sind? Diese Problematik findet keine explizite Erwähnung, insofern bleibt unbestimmt, ob sich die Ergebnisse des Tests generalisieren lassen. Ein weiterer Kritikpunkt betrifft die Art der Testanordnung. Gordon und Pathak betonen den objektiven Charakter ihrer Evaluation damit, daß die Informationsbedürfnisse und Bewertungen von denselben Personen stammen, vergessen aber in Betracht zu ziehen, daß gerade durch die Hinzunahme professioneller Rechercheure, das den Zielpersonen präsentierte Ergebnis verzerrt bzw. vorzensiert sein kann. Es scheint unrealistisch, in Bezug auf den realen Nutzungskontext, ein oder zwei Arbeitstage auf die Formulierung der "optimalen" Suchanfrage zu verwenden. Viel gravierender ist aber, daß bei der interaktiven Modifikation/Variation der Suchanfragen, das von der Maschine gelieferte Zwischenergebnis, jeweils vom Rechercheur auf Relevanz hin beurteilt werden muß, ohne daß die Zielperson bei abweichender Meinung das Retrievalergebnis vorzeitig für hinreichend/optimal erklären kann. Die finalen Ergebnisse der Suchmaschinen sind also quasi vorzensiert. Theoretisch besteht die Möglichkeit, das ein "Zwischenergebnis" für die Zielperson besser geeignet gewesen wäre. Folglich können Gordon und Pathak ihren eigenen "Objektivitätsanspruch" nicht einlösen. Ebenso bleibt zu fragen, inwieweit die Ergebnisse der Top20-Precison auf die Top200 Ergebnisse hochgerechnet werden können, bzw. warum überhaupt gerade 200 Dokumente die Grenze für die Anzahl der auszuwertenden Dokumente darstellen sollen. Ein weiterer Problembereich ist die Annahme, die Zielpersonen könnten die Relevanz von Internetseiten anhand eines Ausdruckes derselben beurteilen. Dies gilt, wenn überhaupt, International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000, S.33-40, S.33. 146 Vgl. 2.2.11 Evaluierung hybrider Suchsysteme im WWW Seite 51 dann nur für nicht interaktive Webseiten. Bei dynamischen Seiten ist es leicht möglich, daß die Darstellung schon je nach verwendeten Browser147 variiert. Bei Ausdrucken von Webseiten gehen zwangsläufig alle dynamischen Elemente verloren. Auch dieser Problembereich wird bei Gordon und Pathak ignoriert. Als Fazit läßt sich festhalten: Die Evaluation von Gordon und Pathak ist einerseits durchdacht und das methodische Vorgehen begründet. Aber der selbsterhobene Anspruch von Objektivität kann nicht eingelöst werden. Einerseits bleiben viele Fragen offen, d.h. Problembereiche werden nicht gesehen oder vernachlässigt,148 andererseits ist anzuzweifeln, ob die Testanordnung wirklich geeignet ist, die Neutralität der Ergebnisse sicherzustellen.149 Es ist also wichtig, bei der durchzuführenden Evaluation, insbesondere bei der Testanordnung, jeden Schritt und Faktor bezüglich verzerrender Einflüsse zu überdenken und auf etwaige Einflüsse, die sich abträglich auf die Validität und Reliabilität auswirken könnten, hinzuweisen. 2.4.2.4 Wolff (2000).150 Wolff führt im Wintersemester 1999/2000 in einer Lehrveranstaltung zum Thema Information Retrieval eine Evaluierung von Suchmaschinen (AltaVista151, Northernlight152) und Metasuchmaschinen (Metacrawler153, C4154) durch. Der Retrievaltest ist in Form eines zweistufigen "Paper and Pencil" Experiments aufgebaut. Testpersonen sind die 25 Studenten des Kurses. Sie werden gebeten, für je ein persönliches fachspezifisches und ein persönliches nichtfachspezifisches Informationsbedürfnis, drei Suchanfragen zu formulieren. Eine Suchanfrage unter Verwendung von Operatoren, eine als natürlichsprachigen Text und eine als boolschen Ausdruck. 147 Bzw. benutzten Optionen, wie Javascript, Java oder Plug-ins wie Flash. Ein Beispiel ist die Homepage der Deutschen Bank, siehe http://www.deutsche-bank.de (18.11.00). 148 Vgl. das Relevanzurteil anhand von Ausdrucken, oder die (hinreichende?) thematische Bandbreite der Informationsbedürfnisse. 149 Es ist leicht denkbar, daß die den Testpersonen vorgelegten "bestmöglichen" Ergebnisse der Suchmaschinen, eher von den Fähigkeiten (einerseits fachlich, aber vor allem auch bezüglich der "richtigen" Relevanzeintsufung durch den Rechercheur) der Rechercheure als von den Retrievalmechanismen der Suchdienste abhängig waren. 150 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.38-42. 151 Siehe http://www.altavista.com (18.11.00). 152 Siehe http://www.northernlight.com (18.11.00). 153 Siehe http://www.metacrawler.com (18.11.00). 154 Siehe http://www.c4.com (18.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 52 Diese Anfragen werden nach einer Fehlerbereinigung vom Untersuchungsleiter in die Suchdienste eingegeben. Die Auswahl der Suchdienste erfolgt unter den Gesichtspunkten, jeweils einen schon länger und einen erst seit kurzem verfügbaren Suchdienst jeder Art zu testen. Auswahlkriterien sind der Umfang des Index (Suchmaschinen), Operatorenkompatibilität und Anzahl angesprochener Suchmaschinen (Metasuchmaschinen). Es werden jeweils die ersten 30 Ergebnisrepräsentationen, die Trefferseiten der Suchdienste, gesichtet. Zur Bewertung wird diese Dokumentmenge zusammengeführt. Da nur die Dokumentrepräsentationen der Suchdienste, nicht aber die Dokumente selbst bewertet werden können, wird zur Beurteilung die Relevanzstufe "vielleicht relevant", neben den Bewertungstufen "relevant" und "nicht relevant" hinzugefügt. Berechnet werden Top10 und Top30 Precision und Recall als Anteil der nachgewiesenen relevanten Dokumenten zur Anzahl aller relevanten Dokumente in den zusammengeführten Ergebnissen. Die von Wolff verwendete Methodik umgeht also das Problem der Einschaltung von Intermediären im Suchprozeß dadurch, daß die Suchanfragenformulierung von den Testpersonen selbst vorgenommen werden. Die Verwendung der Trefferlisten der Suchmaschinen als Grundlage zur Beurteilung der Relevanz der einzelnen Dokumente scheint allerdings problematisch. Erstens wird dadurch impliziert, daß die angegebenen Metainformationen die Seiteninhalte korrekt und hinreichend wiedergeben und zweitens wird das Problem der Aktualität der Suchmaschinentrefferlisten ignoriert, beispielsweise bezüglich Webseiten, die zwar relevant sein könnten, aber nicht mehr existieren. Dieses Problem wird auch durch die Vergabe eines Relevanzbeurteilungsgrades "vielleicht relevant" nicht gelöst. Das bedeutet, es ist wahrscheinlich, daß die Ergebnisse dieser Untersuchung "positiv" verzerrt sind, weil solche Fehler der Suchmaschinen nicht erkannt werden. Bezogen auf die durchzuführende Evaluation folgt daraus, daß wenn möglich die gelieferten Webseiten selbst und nicht ihre "Repräsentationen" auf den Trefferlisten der Suchmaschinen, auf Relevanz geprüft werden sollen. Evaluierung hybrider Suchsysteme im WWW Seite 53 2.4.2.5 ZDLabs (2000).155 In der von der Suchmaschine AltaVista in Auftrag gegeben Evaluation, untersuchen die ZDLabs die Suchdienste Google,156 DirectHit,157 Fast,158 AltaVista,159 Northern Light160 und Yahoo161 auf ihre Retrievaleffektivität. Das Testdesign ist so aufgebaut, daß an jeden Suchdienst jeweils fünf Suchanfragen verschiedener Art aus fünf Themenbereichen (Sport, Geschäftsbereich, Reisen, Finanzierung und Shopping) gestellt werden. Die Suchanfragesyntax wird dabei variiert. Es wurden Suchanfragen als: • Natürlichsprachige Anfragen • Einwortanfragen • Mehrwortanfragen • Mehrwortanfragen unter Verwendung von Operatorenkompatibilität • sogenannte "Home Page Target" Anfragen durchgeführt. Die jeweils ersten 10 Ergebnisse der Suchmaschinenergebnislisten werden auf Relevanz hin bewertet und zur Ergebnisanalyse ein differenziertes Punktesystem genutzt. Relevante Treffer bekommen 1 Punkt, wenn sie tatsächlich existieren werden 0,5 Bonuspunkte vergeben, ebenso 2 Bonuspunkte, wenn der erste Treffer relevant ist und 1 Bonuspunkt, wenn der zweite Treffer als relevant beurteilt wird. Zusätzlich wird die Mächtigkeit der Suchdienste in Bezug auf vorhandene Retrievaloptionen wie Feldsuche verglichen. Bei der Beurteilung dieser Evaluation ist zunächst zu kritisieren, daß die Methodik des Testverfahrens bezüglich der Auswahl der Fragen und der Relevanzbeurteilung nicht dargestellt wird. Durch diese Intransparenz kann nicht nachvollzogen werden, inwieweit die Evaluation den Erfordernissen von Validität und Reliabilität entspricht. Interessant ist 155 ZDLabs, AlatVista Web Search Site Evaluation, 2000, siehe http://www.zdnet.com/etestinglabs/reports/altavista.pdf (06.10.00). 156 Http://www.google.com 157 Http://www.directhit.com 158 Http://www.alltheweb.com/ 159 Http://www.altavista.com 160 Http://www.northernlight.com 161 Http://www.yahoo.com Evaluierung hybrider Suchsysteme im WWW allerdings der durchgeführte Vergleich verschiedener Seite 54 Suchanfragenformulierungen. Allerdings läßt sich kein Schluß auf eine "optimale" Suchanfrageformulierung ziehen, da die zugrunde gelegten Informationsbedürfnisse bei jeder Formulierungsart unterschiedlich162 waren. Ein wichtiger Punkt stellt die Verwendung sogenannter "Home Page Target" Suchanfragen dar. Beispielsweise steht die Suchanfrage "IBM" für das Informationsbedürfnis "Finde die Homepage der Firma IBM". Dies ist ein Informationsbedürfnis, das durch das Auffinden der einen relevanten Antwort befriedigt werden kann. In diesem Retrievaltest wurden also auch geschlossene Fragestellungen miteinbezogen. Die Frage stellt sich also, ob es sinnvoll ist, geschlossene Fragestellungen in die Evaluation miteinzubeziehen, oder ob es legitim ist, wie bei den Ad Hoc und Small Web Topics bei TREC darauf zu verzichten.163 2.4.2.6 Retrievaltests im Internet – Schlußfolgerung Die exemplarische Analyse der Literatur von Retrievaltests im Internet zeigt enorme methodische Unterschiede hinsichtlich der betrachteten Evaluationen auf. Die Probleme sind vielfältig, und lassen sich prinzipiell auf drei Bereiche zurückführen: • Mangelnde Transparenz bezüglich des Testdesigns • Ungenügende Neutralität des Testdesigns • Zu geringe Anzahl von Suchanfragen Die mangelnde Transparenz zeigt sich daran, daß bei Retrievaltests die Methodik der Untersuchung, vor allem in Bezug auf die qualitative Ausgestaltung einzelner Testparameter, nicht oder nur unvollständig offengelegt wird. Somit kann nicht nachvollzogen werden, inwieweit die Ergebnisse der jeweiligen Untersuchung der Forderung nach Validität und Reliabiltät gerecht werden.164 Daraus ist zu folgern, daß bei der durchzuführenden Evaluation versucht werden muß, alle Einflußfaktoren und jeden vorzunehmenden Schritt offenzulegen, damit die erzielten Ergebnisse nachvollzogen und auch überprüft werden können. Die oftmals ungenügende Neutralität von Testdesigns zeigt sich darin, daß verzerrende Einflüsse nicht erwähnt oder beachtet werden, oder gar, wie bei Gordon und Pathak, das 162 ZDLabs, AlatVista Web Search Site Evaluation, 2000, siehe http://www.zdnet.com/etestinglabs/reports/altavista.pdf (06.10.00), S.5. 163 Die verwendeten Topics bei TREC können unter http://TREC.nist.gov/data/topics_eng/index.html (18.11.00). heruntergeladen und eingesehen werden. 164 Vgl. Kapitel 2.4.2.5. Evaluierung hybrider Suchsysteme im WWW Seite 55 verwendete Verfahren fälschlicherweise für objektiv gehalten wird. Deshalb muß im folgenden versucht werden favorisierende Einflüsse auszuschließen.165 Beispielsweise sind nicht die Ergebnislisten der Suchmaschinen, sondern die Treffer selbst zu bewerten, dies darf keinesfalls durch den Untersuchenden selbst geschehen, vielmehr sind geeignete Testpersonen zu rekrutieren. Um auch bei den Probanden Vorlieben oder Abneigungen in Bezug auf einzelne Suchmaschinen zu neutralisieren, ist die Herkunft der Treffer unkenntlich zu machen. Die Suchanfragen sind innerhalb eines möglichst kleinen Zeitraums durchzuführen, um "Indexierungsvorteile" weitgehend auszuschließen. Die Anzahl der Suchanfragen ist häufig sehr gering.166 In der nachfolgenden Evaluation soll sichergestellt werden, daß eine hinreichend große Menge, d.h. 50 167 Suchanfragen, verwendet wird. Die drei genannten Problemfelder machen deutlich, daß das Kernproblem von Retrievaltests im Web darin besteht, daß bislang keine Standardverfahren ähnlich TREC zur Verfügung stehen. Deshalb ist im weiteren Vorgehen vor allem darauf zu achten, die Implikationen der einzelnen Faktoren und Parameter des durchzuführenden Retrievaltests so weit als möglich aufzuführen und offenzulegen und auch auf durch sie verursachte Beschränkungen hinzuweisen. Keinesfalls ist ein Objektivitätsanspruch zu reklamieren, der nicht einzulösen ist. 2.5 Theoretischer Teil – Zwischenergebnis Ziel des theoretischen Teils dieser Arbeit ist es, das methodische Vorgehen bei der Untersuchung der Retrievaleffektivität ausgewählter deutschsprachiger Suchmaschinen zu 165 C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation, Vol. 56 No. 2 2000, S.190-211, S.193. 166 Dania Bilal vewendet in ihrer Untersuchung der Retrievaleffktivität der Suchmaschinen Yahooligans!, Ask Jeeves for Kids und Super Snooper beispielsweise nur ein Informationsbedürfnis, "how long does an alligator live in the wild and how long in captivity" und kreiert daraus drei Suchanfragen, vgl. Dania Bilal, Web Search Engines for Children, A Comparative Study and Performance Evaluation of Yahooligans!, Ask Jeeves for Kids, and Super Snooper, Proceedings of the 62nd ASIS Annual Meeting, 36, October 31-Nov. 4, 1999, Washington, D.C. (pp. 70-82). Richard Einer Peterson benutzt in seiner Evaluation nur zwei Suchanfragen, "Embargo" und "Woodrow Wilson´ s Forteen Points vgl. Richard Einer Peterson, Eight Internet Search Engines Compared, 1996, siehe http://www.firstmonday.dk/issues/issue2_2/peterson/index.html (19.10.00). 167 Peter Schäuble, Eurospider Suchsystem für die ETH Zürich, siehe http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Chris Buckley, Ellen M. Voorhees, rd Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000, S.33-40, S.33. Evaluierung hybrider Suchsysteme im WWW Seite 56 entwickeln. Es folgt eine Zusammenfassung der in den vergangenen Kapiteln erarbeiteten Erkenntnisse. Es wird ersichtlich, daß die Untersuchung der Retrievaleffektivität von Retrievalsystemen ein komplexes Themengebiet ist, dem kein theoretisch abgesichertes Fundament zugrundeliegt. Die zugrundeliegende Vorgehensweise ist zwar klar, Anfragen an das zu testende Retrievalsystem zu stellen und dann den Output des Systems zu beurteilen. Aber aufgrund der Problematik der adäquaten quantitativen und qualitativen Ausgestaltung der Parameter von Evaluationen, existiert kein normativ allgemeingültiges Verfahren, welches ein "objektives" Ergebnis sicherstellt. Zwar ist mit den TREC Konferenzen inzwischen eine Standardplattform zur Evaluation von Retrievalsystemen vorhanden, die dort verwendeten Verfahren können aber aufgrund der Unterschiede des Information Retrieval im Internet, nicht einfach übertragen werden, weil dadurch die webspezifischen Eigenheiten, bezüglich Dokumentraum, Nutzer, Nutzungskontext, Browsingparadigma usw., nicht hinreichend berücksichtigt werden würden.168 Um die folgende Evaluation bezüglich der quantitativen und qualitativen Ausgestaltung der Testparameter im Kontext des Untersuchungsrahmens trotzdem möglichst objektiv durchzuführen zu können, ist die Evaluation methodisch der von Tague-Sutcliff entwickelten prinzipiellen Vorgehensweise nachzubilden. Das bedeutet, das konkrete Evaluationssetting ist in den zehn vorgeschlagenen Schritten zu entwickeln. Dabei sind bei der quantitativen und qualitativen Ausgestaltung der Testparameter die spezifischen Eigenheiten des Web bezüglich Datenbestand, Hypertextstrukturen, Nutzer, Nutzungskontext und der Internetsuchmaschinen selbst so zu berücksichtigen, daß den tatsächlichen Gegebenheiten des Information Retrieval im Internet, z.B. bezüglich Informationsbedürfnissen, Suchanfragen, Relevanzbeurteilungen usw. möglichst exakt entsprochen wird. Deshalb ist zu versuchen, die Evaluation • transparent zu gestalten, damit die Ergebnisse nachvollzogen und überprüft werden können, d.h. die Evaluation ist in allen Punkten zu dokumentieren, alle 168 Siehe Kap. 2.4.1. Craswell Bailey und Hawking bezweifeln ebenfalls die "Angessenheit" von TREC Verfahren für die Evaluation von Internetsuchmaschinen, vgl. Nick Craswell, Peter Bailey, David Hawking, Is it fair to evaluate web systems using TREC ad hoc methods?, siehe http://pastime.anu.edu.au/nick/pubs/sigir99ws.ps.gz (02.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 57 Entscheidungen müssen festgehalten und Faktoren, die die Aussagekraft der Untersuchung beschränken, genannt werden. • gegen verzerrende Einflüsse abzusichern, d.h. insbesondere: • die Relevanzbeurteilungen dürfen nicht vom Untersuchenden vorgenommen werden. • es müssen die Ergebnisseiten und nicht die Trefferlisten bewertet werden • die Herkunft der Trefferseiten ist unkenntlich zu machen • die Informationsbedürfnisse und Suchanfragen dürfen nicht willkürlich erstellt werden • die Suchanfragen selbst müssen bezüglich Syntax, Themenbereich und komplexität die Realität der Nutzung von Suchmaschinen widerspiegeln • mit einer hinreichenden Anzahl von Suchanfragen durchzuführen, d.h. es sind mindestens 50 Suchanfragen zu verwenden.169 Das Ziel das erreicht werden soll, ist, qualifizierte Aussagen über die Retrievaleffektivität der untersuchten Suchmaschinen treffen zu können. Dabei ist klar, daß Aussagen nur bezüglich der Leistungsfähigkeit der Gesamtsysteme getroffen werden können. Die Auswirkungen einzelner systemimmanter Komponenten auf die Retrievaleffektivität können nicht geklärt werden. Der Zeitraum für die Gültigkeit der Ergebnisse ist sehr begrenzt. Durch die andauernden Veränderungen im Web und bei den Suchmaschinen selbst ist das Ergebnis im Prinzip nur für den Zeitraum der Untersuchung selbst gültig. Wichtig ist ebenfalls festzuhalten, daß die hier verwendete Vorgehensweise keinerlei Anspruch darauf erhebt, die einzig mögliche Form eines "objektiven" Evaluationsverfahrens im Untersuchungskontext darzustellen. Vielmehr ist sie nur als ein mögliches Untersuchungsverfahren zur Ermittlung der Retrievaleffektivität von Suchmaschinen im Internet zu sehen. 169 Peter Schäuble, Eurospider Suchsystem für die ETH Zürich, siehe http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23rd Annual Evaluierung hybrider Suchsysteme im WWW Seite 58 3. Praktischer Teil - Durchführung der Evaluation Zur Durchführung der Evaluation sind vier Schritte zu durchlaufen. An erster Stelle ist das Evaluationssetting auszugestalten. Dies soll durch sequentielles und adaptives170 Abarbeiten des von Tague-Sutcliff vorgeschlagenen Leitfadens geschehen. Die Anwendung dieses umfassenden methodischen Guidelines soll sicherstellen, daß die Untersuchung vor Testbeginn komplett durchdacht und sinnvoll strukturiert wird, so daß auftauchende Schwierigkeiten schon vor der Durchführung des Retrievaltests erkannt und Problemlösungsstrategien möglichst vor der Testdurchführung, entwickelt werden können. Vor der Durchführung der eigentlichen Tests ist anhand eines Pretests zu verifizieren, ob das Evaluationssetting in Bezug auf das Untersuchungsziel adäquat ausgestaltet ist. Dabei ist insbesondere die konkrete Testanordnung dahingehend zu überprüfen, ob sie zur validen und reliablen Ermittlung der unabhängigen Variablen tauglich und praktikabel erscheint. In Abhängigkeit der Ergebnisse des Pretests ist das Evaluationsetting gegebenenfalls zu modifizieren. Schließlich sind die Test durchzuführen und anschließend die Daten auszuwerten. Abschließend sind die gewonnen Daten zu analysieren. Grundlage der Ergebnisinterpretation bildet dabei die Verifikation oder Falsifikation der Testhypothese(n). 3.1. Entwicklung des Evaluationsettings nach Tague-Sutcliff 3.1.1 Testen oder nicht testen? Die Entscheidung diesen Retrievaltest durchzuführen, liegt wie schon in der Einleitung angeführt, in der Problematik des Information Retrievals im Internet begründet. Suchmaschinen gelten einerseits als essentiell für erfolgreiches Information Retrieval, andererseits wird ihnen unterstellt nur in geringem Maße leistungsfähig zu sein.171 Grundlegendes Ziel ist es, zu klären, wie effektiv deutschsprachige Suchmaschinen im Vergleich beim Information Retrieval augenblicklich sind. 170 Bezogen auf die Besonderheiten des Information Retrievals im Web. Evaluierung hybrider Suchsysteme im WWW Seite 59 Zwar wurden, wie in Kapitel 2.4.2 geschildert, schon eine große Anzahl von Retrievaltests durchgeführt, fraglich ist aber, inwieweit die Ergebnisse dieser Untersuchungen aussagekräftig sind. Hinzu kommt, daß sich sowohl das Web als auch die Suchmaschinen ständig ändern. Ergebnisse vergangener Untersuchungen sind deshalb schon nach kurzer Zeit veraltet, somit besteht die Notwendigkeit Retrievaltests stets erneut durchzuführen.172 Zudem stellen hybride Systeme in der hier genannten Form,173 gerade im deutschsprachigen Raum einen relativ neuen Ansatz174 dar, um die Retrievaleffektivität zu erhöhen. Bislang wurde noch nicht untersucht, inwieweit und ob sie überhaupt eine höhere Retrievaleffektivität erreichen. Insofern ist die hier durchgeführte Evaluation in einem doppelten Sinne legitimiert. Allgemein betrachtet damit, daß Retrievaltests von Internetsuchmaschinen immer wieder erneut durchzuführen sind und zweitens besonders dadurch, daß hybride Systeme bislang noch nicht in Bezug auf ihre Retrievaleffektivität evaluiert wurden. Das Erkenntnisinteresse der Untersuchung ist es generell zu ermitteln, wie leistungsfähig die untersuchten Systeme derzeit sind und speziell festzustellen, ob die getesteten hybriden Systeme eine höhere Retrievaleffektivität erreichen. Die erzielten Ergebnisse sollen Hinweise liefern, ob dieser Ansatz für Retrievalsysteme sinnvoll erscheint. Konkret überprüft wird dies anhand der folgenden Testhypothesen. • hybride Systeme erreichen eine höhere Retrievaleffektivität als rein roboterbasierte Systeme. • redaktionell erzeugte Treffer bewirken eine höhere Effektivität des hybriden Retrievalsystems.175 Die erste These prüft, ob hybride Systeme eine höhere Effektivität erreichen, die zweite These prüft nach, ob eine etwaige höhere Retrievaleffektivität auch tatsächlich auf die Verwendung redaktioneller Treffer zurückzuführen ist. 171 Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180, S.142. 172 C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation, Vol. 56 No. 2 2000, S.190-211, S.193. 173 Siehe die Definition von hybriden Systemen in der Einleitung. 174 Lycos.de verwendet seit April 2000 Katalogeinträge in seinen Trefferlisten, siehe http://www.suchtreffer.de/news_03042000-25042000.html#12 Goto.com existiert seit Ende 1997, siehe http://www.goto.com/d/about/company/usvision.jhtml (18.11.00). 175 Dieser Hypothese liegt die Annahme zugrunde, daß die von Menschen vorgenommene inhaltliche Relevanzeinstufung maschinellen Verfahren überlegen ist. Evaluierung hybrider Suchsysteme im WWW Seite 60 Die Ergebnisse der theoretischen Analyse und Literatursichtung zu diesem Thema finden sich in Kapitel 2.5 und werden deshalb hier mehr nicht aufgeführt. Für die Durchführung der Evaluation werden daraus zwei Schlußfolgerungen gezogen. 1. Methodisch ist die Untersuchung nach der von Tague-Sutcliff vorgeschlagenen Vorgehensweise aufzubauen. 2. Bei der Ausgestaltung der Testanordnung ist soweit wie möglich zu versuchen, die Testparameter so auszugestalten, daß sie ein Höchstmaß der Realität des Information Retrieval im Internet widerspiegeln und zugleich kontrollierbar bleiben. 3.1.2 Welche Art von Test soll durchgeführt werden? Der besondere Fokus der Evaluation liegt insbesondere darin herauszufinden, ob hybride Systeme eine höhere Retrievaleffektivität als rein roboterbasierte Systeme erreichen oder nicht. Es findet also eine vergleichende Untersuchung existierender Systeme statt. Zu fragen ist, welches Testverfahren dafür am besten geeignet ist. Sutcliffs Differenzierung zwischen eher laborhaften und eher realen Bedingungen unterliegenden Experimenten läßt sich laut Wolff in fünf grundlegende Testverfahren untergliedern:176 1.paper-and-pencil-Experiment 2.Laborstudie mit experimentellen Prototyp 3.interaktiver Test an einem operationalen System 4.Test mit Nutzern vs. Test mit Informationsvermittlern 5.Test anhand einer Testkollektion Die Intention die Evaluation möglichst realitätsnah zu gestalten, legt es zunächst nahe einen interaktiven Test mit Nutzern an den Suchmaschinen durchzuführen. Das Problem bei einem solchem Testverfahren ist es aber die notwendige Kontrolle, die zur Absicherung der Vergleichbarkeit und Reliabilität der Ergebnisse erforderlich ist, sicherzustellen. Beispielsweise wäre es möglich, daß Vorlieben oder Abneigungen bezüglich einzelner Suchmaschinen verschiedener Probanden das Testergebnis verzerren. Hinzu kommt, daß bei einem solchen Verfahren Effizienzfaktoren wie z.B. Benutzerfreundlichkeit das Ergebnis beinflussen würden. Ein interaktiver Test würde also gerade die Vergleichbarkeit der Ergebnisse in Frage stellen. Evaluierung hybrider Suchsysteme im WWW Seite 61 Um dieses Problem zu vermeiden, lehnt sich das Testverfahren weitgehend an die TREC Methodik an, bei der durch identische Testkollektionen und einheitliche Testanordnungen die Vergleichbarkeit der Ergebnisse sichergestellt wird. Die Evaluation ist also als Test anhand einer Testkollektion aufzubauen und durchzuführen. Damit die erzielten Ergebnisse Aussagekraft in Bezug auf den realen Nutzungskontext von Suchmaschinen im Internet haben, müssen die variablen Parameter dieser Kollektion, d.h. vor allem die Informationsbedürfnisse und die Suchanfragen so ausgestaltet werden, daß sie möglichst die typischen Gegebenheiten des Information Retrieval im Internet widerspiegeln. 3.1.3. Variablendefinition und Zuordnung Wie sind die Variablen zu bestimmen, damit dieses Ziel auch erreicht wird? Nachfolgend werden die einzelnen Variablen des Retrievaltest aufgeführt und zugeordnet. 3.1.3.1 Unabhängige Variablen Die unabhängigen Variablen in dieser Evaluation sind die Bewertungsmaße und -kriterien, die Suchanfragen und die zugrundeliegende Informationsbedürfnisse sowie die Testpersonen. 3.1.3.1.1 Bewertungsmaße und -größen 3.1.3.1.1.1 Relevanz als Grundlage der Bewertungsmaße Sieht man die Aufgabe von Suchmaschinen darin Informationsbedürfnisse zu befrieden,177 dann können Bewertungsmaße nur daran ausgerichtet sein, inwieweit sie diese Aufgabe erfolgreich erfüllen. Das zentrale Konzept zur Beurteilung von Retrievalsystemen ist aus Nutzersicht, die Relevanz der zurückgegebenen Dokumente. Robertson schreibt: 176 Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00). 177 Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180, S.146. Evaluierung hybrider Suchsysteme im WWW Seite 62 "The word "relevance" has been used in many different ways but broadly it corresponds to "how well does the document match the user´s needs?"178 Diese Auffassung von Relevanz, ob ein Dokument den Informationsbedürfnissen entspricht oder nicht, soll auch in dieser Untersuchung die Grundlage für die zu fällenden Relevanzurteile bilden. Das zentrale Problem des Relevanzbegriffs, die personelle Gebundenheit jeder Relevanzbewertung wurde in Kapitel 2.2.11 diskutiert. Die Frage ist, wie der Widerspruch zwischen der Funktion des Bewertungsmaßes als unabhängigem Indikator der Leistungsfähigkeit einerseits und dem subjektiven Aussagengehalt einer Relevanzbewertung andererseits operationalisiert werden kann. Warners kritisiert, daß genau dies nicht gelingen kann, weil die notwendige Abstraktion des Relevanzbegriffs dazu führt, daß keine Korrelation zwischen artifiziell operationalisierten und der sich ausschließlich individuell äußernden, persönlichen Relevanz nachzuweisen ist.179 Alternative Bewertungsmaße die anerkannt sind, existieren jedoch nicht.180 Das bedeutet, daß die Relevanz von Dokumenten, trotz der damit verbundenen Probleme und mangels einer „besseren“ Alternative auch in dieser Untersuchung als Grundlage der Bewertungsmaße verwendet wird. 3.1.3.1.1.2 Relevanzeinstufung Um die Relevanzbewertung möglichst objektiv zu gestalten, ist die Relevanzeinstufung nicht vom Untersuchenden selbst, sondern von "unabhängigen Juroren" vorzunehmen. Dies mag nur eine mangelhafte Annäherung an die Realität sein, gewährleistet aber zumindest, daß die Bewertungen von Vorlieben und Abneigungen des Untersuchenden unbeeinflußt bleiben.181 Um dies auch bei den Juroren182 selbst sicherzustellen, wird die Herkunft der Dokumente unkenntlich gemacht. Zugleich wird jedes Dokument nur von einem Juror bewertet, um die Eindeutigkeit der Bewertungen zu garantieren. 178 Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.14. 179 Julian Warner, In the catalogue ye go for men: evaluation criteria for information retrieval systems, in: Aslib Proceedings Vol.52, No.2 2000, S.76-82, S.77. 180 Auch der von Warner angeführte "enhanced capacity for information choice" Ansatz vermag diesen Widerspruch nicht auf operationalisierbare Weise aufzulösen, ist aber sehr hilfreich um diesen Problembereich zu verdeutlichen. Vgl. ebd. 181 Dieses "gängige" Verfahren wird zwar mit steigenden Mißtrauen betrachtet, eine Alternative ist aber kaum zu sehen. Vgl. Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.17. 182 z.B. in Bezug auf die zu untersuchenden Suchmaschinen Evaluierung hybrider Suchsysteme im WWW Seite 63 Die Hypertextstruktur des Web muß auch bei der quantitativen Ausgestaltung der Relevanzbewertung der Dokumente berücksichtigt werden. Eine dichotome Einstufung in inhaltlich relevante und nicht-relevante Dokumente würde dem tatsächlichen Suchverhalten im Web, bei dem auch während der Nutzung von Suchmaschinen die Browsing Perioden überwiegen,183 widersprechen. Denn es besteht die Möglichkeit, daß ein an sich irrelevantes Dokument einen direkten Zugriff auf relevante Seiten ermöglicht.184 Aus diesem Grund wird neben den Relevanzeinstufungsmaßen "relevant" und "nichtrelevant" auch ein drittes Einstufungsmaß "verweist auf relevante Seite(n)" verwendet, mit dem die Juroren zum Ausdruck bringen können, daß die entsprechende Seite zwar inhaltlich nicht relevant ist, aber den Zugriff auf relevante Dokumente ermöglicht. Bei der Ergebnisbewertung sind solche Treffer letztlich zu den relevanten Seiten zu addieren und als relevant zu werten, weil auch sie zur Befriedigung der Informationsbedürfnisse beitragen. Das bedeutet wiederum, daß bei der Auswertung der Retrievaleffektivität diese dreifache Ausdifferenzierung der Dokumentbewertung auf eine binäre Unterscheidung zu aggregieren ist. Auf eine tiefergehende quantitative Ausdifferenzierung der Relevanzeinstufung wird bewußt verzichtet. Es mag zwar zutreffen, daß mehrstufige Relevanzgrade185 die Relevanzeinstufung für Juroren erleichtern, aber bei der Aggregierung der einzelnen Urteile zu einer Gesamtwertung sind feinstufige Relevanzgrade aufgrund der mangelnden interpersonellen Konsistenz der Bewertungen nicht hilfreich.186 Eine Einschränkung, die zwar zur Kontrolle der Untersuchung notwendig ist, aber die Realitätsnähe der Bewertung begrenzt ist, daß von einer Einzelbetrachtung der Dokumente ausgegangen wird. Somit wird quasi über die ganze Auswertungsphase ein gleichbleibender Wissensstand des Suchers impliziert. Die sogenannten "Grenzfälle der Relevanz" werden ignoriert.187 Dies bewirkt, daß folgende, in der Realität vorhandenen, Einflüsse fast vollständig vernachlässigt werden:188 183 Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, S.41, siehe http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00). 184 Dies beschränkt sich nicht nur auf Links, sondern kann ebenso über Sucheingabemasken, wie bei den Suchmaschinen selbst der Fall sein. Ein Beispiel dafür ist eine Online-Telefonauskunft, falls der Suchmaschinennutzer gerade eine Telefonnummer recherchier. Siehe http://www.teleauskunft.de/NSAPI/Anfrage?AKTION=zeSuchseiteTelefonbuch&SPRACHE=DE&SESSIONID=02 80b18ff13a1d7cb20004675a&BUAB=BUNDESWEIT (21.11.00). 185 Denkbar z.B. in Form einer Schulnotenskala. 186 Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.18. 187 Siehe http://www.inf-wiss.uni-konstanz.de/CURR/winter97/iv1/iv1-vorlesung/6_sitzung/qualitaet.html (20.11.00). 188 Ebd. Evaluierung hybrider Suchsysteme im WWW • Seite 64 zwei für sich allein genommene Dokumente, die als nicht relevant eingeschätzt werden, gemeinsam als relevant bewertet werden können. • ein relevantes Dokument sich durch ein anderes als doch nicht relevant erweist. • die situationelle (zeitlich/persönliche/Wissenstand) Situation der Juroren sich auf die Relevanzbeurteilung auswirkt. • Dokumente nachgewiesen werden, die dem Juroren schon aus anderen Quellen bekannt sind. Der einzige Faktor, der in diesem Zusammenhang berücksichtigt wird sind Dubletten. Dubletten sind Dokumente, die laut Ansicht des Juroren identisch sind. Sie können nur höchstens einmal, beim ersten Erscheinen, als relevant bewertet werden, weil sich bei wiederholtem Auftreten identischer Seiten kein Informationszuwachs mehr erzielen läßt. Ein weiterer wesentlicher Faktor, der bei der Relevanzeinstufung durchaus von Bedeutung sein kann und in dieser Evaluation nicht vernachlässigt werden darf, ist die Frage, welche Dokumentrepräsentation in welcher Darstellungsform die Grundlage für die Relevanzbeurteilung darstellen soll. Da die tatsächliche Retrievalleistung untersucht werden soll genügt es nicht, nur die Trefferlisten der Suchmaschinen zu bewerten, vielmehr müssen die Ergebnisseiten selbst Gegenstand der Relevanzbeurteilung sein. Würden nur die Trefferlisten bewertet, so würde eine Reihe von Faktoren vernachlässigt, die das Ergebnis verfälschen könnten. Beispielsweise würde nicht überprüft, inwieweit der Index der Suchmaschine mit den aktuellen Inhalt des Web übereinstimmt, weil unter Umständen Seiten in der Trefferliste angezeigt werden, die nicht mehr oder in veränderter Form existieren. Auch die Auswirkungen von sogenannten Ranking-189 aber auch Spamseiten,190 die beispielsweise dazu dienen, den Suchenden automatisch auf eine andere Seite umzuleiten, würden dabei komplett vernachlässigt.191 Es würde unterstellt, daß die Metainformation der Trefferlisten die Ergebnisseiten korrekt und hinreichend beschreiben. 189 Im Idealfall dienen Rankingseiten dazu die Relevanz und Auffindbarkeit von dynamischen Seiten inhaltsbezogen zu verbessern. Siehe http://www.suchtreffer.de/netiquette.html (24.11.00). 190 Im Unterschied zu Rankingseiten die auf der Grundlage einer Netiquette erstellt wurden dienen Spamseiten dazu die Relevanz und Auffindbarkeit von Seiten zu verbessern, bei denen kein oder nur ein unzureichender kontextualer bezug zum Informationsbedürfnis besteht, siehe http://www.suchtreffer.de/glossar_s.html#spam (25.11.00). 191 Auf die verwendeten Techniken wird hier nicht näher eingegangen. Für einen ersten Überblick siehe http://www.ideenreich.com/cloaking.shtml (25.11.00). Ein Beispiel für eine Rankingseite findet sich unter http://www.nethics.net/nethics/de/ethik_im_internet.html (24.11.00). Bitte beachten sie ist nur bei deaktiviertem Javascript (Netscape Communicator), bzw. abgeschalteten Active Scripting (Internet Explorer) zu betrachten, ansonsten wird auf http://www.nethics.net/nethics/de/index.html (24.11.00). umgeleitet. Evaluierung hybrider Suchsysteme im WWW Seite 65 Es müssen also die Ergebnisseiten selbst beurteilt werden, da die Trefferlisten der Suchmaschinen zur Relevanzbeurteilung ungenügend sind. Webseiten im Internet sind oftmals dahingehend konzipiert, dynamisch mit dem Nutzer zu interagieren. Je nach Nutzerverhalten werden verschiedene Aktionen ausgelöst, die unter Umständen die optische Darstellung,192 beziehungsweise den Informationsgehalt193 der Dokumente variieren lassen.194 Deshalb werden bei der Beurteilung der Dokumente die Originaldokumente zugrunde gelegt, welche dabei unter Zuhilfenahme eines aktuellen Browsers zu betrachten sind. Im Gegensatz zu TREC195 oder der Evaluation von Wolff196 wird auf eine Konvertierung der Ergebnisseiten oder die Verwendung von Ausdrucken der Treffer verzichtet, weil dabei die Gefahr besteht, daß bei der Relevanzbewertung interaktive Elemente nicht berücksichtigt werden und somit unter Umständen die Relevanzbeurteilung verfälscht werden könnte. 3.1.3.1.1.3 Bewertungsmaße Die etablierten und meistgebrauchten Standardwerte zur Effektivitätsmessung sind Recall und Precision.197 Verglichen mit komplexeren Maßen, wie Risbergens e-Maß oder Meetham´s I-Maß198 sind sie am besten auf Benutzerbedürfnisse übertragbar.199 In dieser Untersuchung wird auf die Messung des Recall verzichtet, weil er zum einen im Web nicht bestimmt werden kann200 und zum anderen, weil der vollständige Nachweis aller relevanten Dokumente für den Nutzer, je nach Art des zugrundeliegendem Informationsbedürfnisses, nur in geringem Maße von Interesse ist.201 192 Z.B. durch Mouseovereffekte. Z.B. durch Bannereinblendung oder Verwendung von Layern die unterschiedliche Inhalt beherbergen, siehe http://public.deutsche-bank.de/deuba/group.nsf/doc/MKVK-4BRM2L?OpenDocument (25.11.00). 194 Zu den Möglichkeiten Webseiten in Hinblick auf Interaktivität mit dem Benutzer zu konzipieren vgl. beispielsweise W3C, HTML 4.0 Specification, http://www.w3.org/TR/ (20.11.00). 195 David Hawking, Ellen Voorhees, Nick Craswell, Peter Bailey, Overview of the TREC-8 Web Track, 2000, siehe http://TREC.nist.gov/pubs/TREC8/papers/web_overview.pdf 29.10.00). 196 Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen. 197 Michael Lesk, The seven ages of information retrieval, siehe http://www.ifla.org/VI/5/op/udtop5/udtop5.htm (30.10.00). 198 Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, New York 1989, S.48-52. 199 Ebd., S.171. 200 C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation, Vol. 56 No. 2 2000, S.190-211, S.190. 201 Beispielsweise bei Informationsbedürfnissen die auf eher geschlossenen Fragestellungen beruhen, wie z.B. Fragen nach bestimmten Fakten, die durch die Rückgabe der einen richtigen Antwort zu befriedigen sind. Vgl. Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00). 193 Evaluierung hybrider Suchsysteme im WWW Seite 66 Da die Mehrzahl der Benutzer, nur die ersten zwei Ergebnisseiten der Suchmaschinen sichtet,202 zeigt sich die Retrievaleffektivität einer Suchmaschine für den typischen Nutzer auch nur in der Qualität dieser tatsächlich gesichteten Treffer. Deshalb wird die Top20 Precision als Bewertungsmaß verwendet. Sie sagt aus, welcher Anteil der ersten 20 zurückgegebenen Treffer als relevant zu bezeichnen ist, d.h. welche Retrievaleffektivität die Suchmaschinen bei typischer Betrachtung der ersten 20 Treffer aufweisen. Der Aussagengehalt dieses Bewertungsmaßes ist allerdings auch explizit auf die ersten 20 Treffer beschränkt. Weitere Schlußfolgerungen lassen sich in bei dieser Betrachtungsweise der Retrievaleffektivität nicht ziehen. Wichtig ist es auch festzuhalten, daß diese mathematische Maßzahl, die als Wert zunächst von ihrer qualitativen Ausgestaltung abstrahiert, nur im Kontext ihrer qualitativen Ausgestaltung, also bezüglich der zugrundeliegenden Suchanfragen usw., interpretiert werden kann. Informationsbedürfnisse, 203 Die Entscheidung Precision bzw. Top20 Precision zu verwenden, ist auch dadurch begründet, daß es ein intuitiv verständliches und leicht interpretierbares Bewertungsmaß darstellt.204 Allerdings ist das Maß der Top20 Precision insofern problematisch, weil bei der aggregierten Betrachtung diese Wertes über mehrere Suchanfragen ungeklärt bleibt, welche Suchmaschine die einzelnen Fragen am besten beantwortet. Beispielsweise ist folgender Fall denkbar: Es werden drei Suchanfragen A, B und C an zwei Suchmaschinen X und Y gestellt und jeweils die ersten 20 Treffer bewertet. Suchmaschine X liefert zur Suchanfrage A 20 relevante Treffer, zu Suchanfrage B und C keinen relevanten Treffer. Die Top20 Precision beträgt in diesem Fall ein Drittel. Suchmaschine Y liefert zur Suchanfrage A keinen relevanten Treffer, zur Suchanfrage B und C jeweils einen. Die Top20Precision beträgt also 2/60stel. Suchmaschine X weist also eine 202 Laut AltaVista.com benutzen sogar weniger als 10% die zweite Ergebnisseite, siehe Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, S.33. siehe http://kommunix.uni-muenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00). 203 Beispielsweise in Bezug auf die Höhe des Precisionwertes, der sich z.B. grundlegend durch die Art der Fragestellung beinflussen läßt. So ist beispielsweise zu erwarten, daß bei Informationsbedürfnissen, die auf sehr speziellen und spezifischen Fragestellungen beruhen eine niedrigere Precision erreicht wird als bei Informationsbedürfnissen die eher auf allgemeinen und unspezifischen Fragestellungen beruhen. 204 Andere Werte, die dazu entwickelt worden sind, in einer Meßgröße die Retrievaleffektivität zu bewerten, wie beispielsweise das e-Maß, siehe Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00)., sind aber nicht intuitiv einleuchtend. Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, New York 1989, S.34. Evaluierung hybrider Suchsysteme im WWW Seite 67 um den Faktor 10 höhere Precision auf, liefert aber nur bei einer Suchanfrage ein besseres Ergebnis als Suchmaschine Y, die immerhin zu zwei Suchanfragen mindestens ein relevantes Dokument nachzuweisen vermag. Suchanfrage A Suchanfrage B Suchanfrage C Top20 Effektiver Precision bei Suchmaschine X 20 rel. Treffer 0 rel. Treffer 0 rel. Treffer ein Drittel A Suchmaschine Y 0 rel. Treffer 1 rel. Treffer 1 rel. Treffer 2/60stel B und C Die Frage, welche Suchmaschine in einer solchen Situation eine höhere Retrievaleffektivität erreicht, kann letztlich nur nach dem individuellem Standpunkt des Nutzers entschieden werden.205 Ein solcher Extremfall zeigt aber die Notwendigkeit auf festzustellen, welche Suchmaschine bezüglich der einzelnen Suchanfragen am effektivsten ist. Deshalb ist eine Rangliste zu erstellen die anzeigt, wie effektiv die Suchmaschinen bei den einzelnen Suchanfragen sind. Die Retrievaleffektivitätsbewertung der Suchmaschinen ist also nur aus der additiven Betrachtung der aggregierten Top20 Precision und der Effektivität bei den einzelnen Suchanfragen möglich. Supplementär wird schließlich zusätzlich bei geschlossenen Fragestellungen, bei denen das Informationsbedürfnis, durch die eine "richtige" Antwort befriedigt werden kann, das zuerst von Cooper vorgeschlagene Bewertungsmaß ESL (Estimated/Expected Search Length) verwendet.206 "ESL (...) calculates the cost paid by a user in the sense of the number of sites the user must look through before he or she gets sufficient relevant items to satisfy the query."207 ESL mißt also die Anzahl der Dokumente, die gesichtet werden müssen, bis das Informationsbedürfnis befriedet werden kann. Da eine Einschränkung dieser Untersuchung darin liegt, daß die Juroren die Dokumente voneinander unabhängig auf Relevanz beurteilen sollen, kann ESL nur bei geschlossenen Fragestellungen sinnvoll angewendet werden, da bei solchen Fragestellungen mit der ersten relevanten Antwort das Informationsbedürfnis als befriedigt gelten kann. 205 Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, New York 1989, S.57. W. S.Cooper, Expected search length, in: American Dokumentation, 19 1968 S.30-41. 207 C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.199. 206 Evaluierung hybrider Suchsysteme im WWW Seite 68 3.1.3.1.2 Suchanfragen und Informationsbedürfnisse Bei der quantitative Ausgestaltung dieser Variable wird die Standardvorgabe von TREC übernommen, d.h. insgesamt sind 50 Suchanfragen durchzuführen.208 Buckley und Voorhees schlagen zwar vor, für Bewertungsmaße die auf Top10- oder Top30-Precision im Web beruhen, eine höhere Anzahl von Suchanfragen durchzuführen, aber aufgrund der beschränkten Ressourcen dieser Untersuchung muß eine Anzahl von 50 Suchanfragen ausreichen, zumal das TREC Programm Committee eine Mindestanzahl von 25 Suchanfragen für ausreichend erachtet, um abgesicherte Aussagen treffen zu können. Prinzipiell ist aber zu sagen, je höher die Anzahl der Anfragen um so geringer die Fehlerwahrscheinlichkeit bei den Ergebnissen der Evaluation. Weshalb immer versucht werden sollte, eine größtmögliche Anzahl von Suchanfragen durchzuführen.209 Die Suchanfragen determinieren als direkter Inputfaktor an die Retrievalsysteme unmittelbar die Quantität und Qualität des Output. Das heißt, der erreichbare Precisionsgrad der Ergebnisse wird schon weitgehend vorab bestimmt. Faktoren wie Themenbereich, Spezifität oder Komplexität spezifizieren den Rahmen, also den "Schwierigkeitsgrad" der Suchanfrage für das Retrievalsystem. Wird beispielsweise eine Anfrage gestellt, zu der alle Suchmaschinen keine oder nur wenige Treffer nachweisen können, so ist zu erwarten, daß über alle Maschinen hinweg die Top20 Precision geringer ausfällt, als bei einer Anfrage, zu der die Suchmaschinen eine Vielzahl von Treffern referenzieren können.210 Für die Ergebnisbewertung bedeutet dies, daß weniger die absolute Höhe der erreichten Precisionwerte, sondern eher die Unterscheide der erreichten Precisionwerte zwischen den Suchmaschinen im Vergleich zueinander etwas über die Retrievaleffektivität aussagt. Die qualitative Ausgestaltung der Suchanfragen wird an die Nutzergewohnheiten angelehnt. Dies bedeutet, daß überwiegend kurze Suchanfragen ohne die Nutzung von Operatoren zu verwenden sind. 208 rd Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000, S.33-40, S.33. 209 Ebd. 210 Zur Veranschaulichung dieser Problematik soll ein einfaches Beispiel dienen: Die Suchanfrage "hypothesengenerierende Untersuchsverfahren" in Phrasenform liefert bei den Suchmaschinen Fireball (http://www.fireball.de), Crawler.de (http://www.crawler.de) und Infoseek.de (http://www.infoseek.de) keinen Treffer, da sie zu spezifisch ist, die Suchanfrage "webcam" jedoch bei Fireball 224917, bei crawler.de 30622 und bei Infoseek.de 50358 Treffer, weil sie thematisch sehr weit gefaßt ist. Evaluierung hybrider Suchsysteme im WWW Seite 69 Eine Einschränkung auf bestimmte Themenbereiche findet nicht statt, mit der Ausnahme, daß pornographische Themen ausgeklammert werden.211 Auch die Spezifität soll die typischer Suchanfragen widerspiegeln. Analysiert man verschiedene Suchmaschinen bezüglich der Suchanfragen, so zeigt sich, daß gerade die häufigsten Suchanfragen aus Einwortanfragen bestehen und thematisch nicht sehr eng spezifiziert sind.212 Die aufzubauende Testkollektion muß diese Eigenschaften widergeben. Konkret bedeutet dies, daß knapp ein Drittel der Suchanfragen aus Einwortanfragen und der Rest aus Mehrwortanfragen bestehen muß.213 Um auch bei den Mehrwortanfragen dem tatsächlichen Nutzerverhalten möglichst nahezukommen müssen ca. zwei Drittel aus Zweiwortanfragen bestehen. Die restlichen Anfragen sollen sich aus Drei-, Vier- und Fünfwortanfragen, zusammensetzen.214 Die Anfragen werden inhaltlich so ausgestaltet, daß sie als repräsentativ für typische Suchanfragen und Informationsbedürfnisse gelten können. Die konkrete Ausgestaltung der Variablen Suchanfragen und Informationsbedürfnisse wird in Punkt 3.1.5 vorgenommen. Wichtig ist es folgendes festzuhalten: Weil die Relevanzeinstufung durch Dritte vorzunehmen ist, müssen die jeder Suchanfrage zugrundeliegenden Informationsbedürfnisse eindeutig benannt und schriftlich ausformuliert werden. Die darauf aufbauenden Relevanzkriterien sind auf dieser Grundlage möglichst exakt und realitätsnah zu bestimmen, damit das Urteil des Jurors sich möglichst dem fiktiven Kontext eines Nutzers mit individuellen Informationsbedürfnis annähern kann. Die Durchführung der Suchanfragen wird vom Untersuchenden selbst vorgenommen. Das heißt, die identischen Suchanfragen werden an die verschiedenen Suchmaschinen gestellt, die Ergebnisseiten sind lokal abzuspeichern und für die Beurteilung durch die Probanden zur Verfügung zu stellen. 3.1.3.1.3 Testpersonen Um die Verallgemeinerungsfähigkeit der Bewertungen abzusichern, sind mehrere Juroren als Testprobanden anzuwerben. 211 Dies ist eine normative Entscheidung des Autors. Vgl. z.B. "Live Suche von Fireball.de", siehe http://www.fireball.de/qstat.html (25.11.00). 213 Diese Verteilung ergibt sich aufgrund einer Analyse der Keyworddatenbank bei Suchtreffer, die Abfragen bei Suchmaschinen protokolliert. Da insgesamt über zwei Millionen Abfragen aufzeichnet wurden , wird hier angenommen, das diese Verteilung repräsentativ ist. Eine ähnliche Verteilung gilt auch für den englischen Sprachraum, siehe http://searchenginewatch.internet.com/reports/npd.html. 214 Ebd. 212 Evaluierung hybrider Suchsysteme im WWW Seite 70 Sieht man die Anzahl von 50 Suchanfragen als gegebene (notwendige) Rahmenbedingung, so erscheinen 25 Juroren als eine realistische Anzahl. Denn einerseits ist der Zeitraum für die Testdurchführung möglichst kurz zu halten und andererseits ist der zeitliche Aufwand für die Juroren zu begrenzen damit die Bereitschaft zur Testteilnahme überhaupt vorhanden ist.215 Ziel ist es nicht, durch die Anzahl und Art der Probanden den typischen Nutzer repräsentativ wiederzugeben, sondern abzusichern, daß die gefällten Relevanzurteile als repräsentativ gelten können. Die Anzahl von 25 Testpersonen scheint hinreichend, um bei einer Interpersonenkonsistenz der Relevanzbeurteilung von 70%-80%, verzerrende Abweichungen durch Ausreißer zu kompensieren.216 Vorausgesetzt, die Juroren besitzen die notwendige technische und inhaltliche Kompetenz zur Relevanzbeurteilung. Um die technische Kompetenz sicherzustellen werden nur Testpersonen ausgewählt, die ein Minimum an Computer-, Internet- und Suchmaschinennutzungskompetenz aufweisen. Diese Kompetenz wird durch Befragung mittels eines Fragebogenformulars erfaßt, in dem sich die Juroren vor Testbeginn selbst einzustufen haben. Probanden, die sich in jeder der drei genannten Kategorien in der geringsten Kompetenzstufe einordnen, werden als Juroren abgelehnt, bzw. bei der Auswertung der Daten nicht berücksichtigt. Die inhaltliche Kompetenz wird nicht überprüft, vielmehr ist bei der Erschließung der Suchanfragen zu berücksichtigen, daß wissenschaftliches oder technisches oder sonstiges erforderliches Spezialwissen217 bei der Relevanzbeurteilung keine Rolle spielen darf. Sollte dies doch der Fall sein, so sind solche Informationsbedürfnisse aus der Testanordnung zu eliminieren. 3.1.3.2 Umgebungsvariable Informationsraum Internet Die Umgebungsvariable in dieser Untersuchung, die nicht beeinflußt werden kann ist der Informationsraum Internet. Im Rahmen dieses Retrievaltests läßt er sich als nicht zu beeinflussender Dokumentraum einordnen. Das Internet bildet die Grundlage für die Retrievalfunktionalität der zu untersuchenden Suchmaschinen. Dabei greift jede Suchmaschine auf die zugänglichen Informationen im Web verschieden zu und bewertet 215 Diese Größe bewegt sich auch in dem Rahmen, der Größenordnung, den Gordon Pathak (siehe 2.4.2.3) und Wolff (2.4.2.4), für die Anzahl der Testpersonen wählen. Vgl. Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.17. 216 Dies ist eine nicht abgesicherte Hypothese, die Legitimität ergibt sich aus pragmatischen Gründen. D.h. es muß gelingen im gegebenen Zeitraum die notwendige Anzahl von Juroren zu rekrutieren. 217 Beispielsweise bezüglich eines Fachvokabulars. Evaluierung hybrider Suchsysteme im WWW Seite 71 diese auch unterschiedlich. Das bedeutet wiederum, daß sich die Indexe der Suchmaschinen stark unterscheiden können.218 Da die Suchmaschinenbetreiber weder in Bezug auf ihre Indexierungs- noch die Rankingkomponente genaue Angaben machen kommt hinzu, daß der "innere" Aufbau der Suchmaschinen im Detail unbekannt ist. Aufgrund dieses "blackbox"-artigen Charakters der Suchmaschinen ist es unmöglich, gezielt die Effektivität einzelner Komponenten zu evaluieren. Da aber das Internet, für einen fixen Zeitraum, den untersuchten Systemen identische Rahmenbedingungen bietet, ist ein Vergleich der Suchmaschinen bezogen auf die Gesamtsystemleistung möglich. 3.1.3.3 Abhängige Variablen – Relevanzeinstufung der Treffer Die abhängige Variable ist die Beurteilung der Relevanz der Trefferseiten. Suchmaschinen liefern als Ergebnis eine in der Regel nach "vermuteter" Relevanz219 sortierte Liste von Verknüpfungen über deren Aktivierung der Benutzer zu den jeweiligen Trefferseiten navigieren kann. Die Trefferliste enthält Vorabinformationen über die jeweiligen Treffer die als Metainformationen Angaben wie Titel, Url, Beschreibung, Indexierungsdatum usw. enthalten. Auch wird meist eine Trefferanzahl sowohl bezüglich der einzelnen Suchwörter als auch in Bezug auf die Suchanfrage angegeben.220 Oftmals sind auch Relevanz Feedback Techniken implementiert, die ausgehend von der Selektion eines vermutlich relevanten Dokuments die interaktive und iterative Verfeinerung der Suchanfragen ermöglichen. Häufig wird auch ein Link zu einer ebenfalls relevant erscheinenden Rubrik eines zusätzlichen Katalogs angeboten. All diese Mehrwerte der Trefferlisten bleiben hier unberücksichtigt was durchaus ein Problem darstellt. Beispielsweise ist es möglich, durch einen raschen Überblick über die Trefferliste, irrelevante Dokumente schnell auszufiltern und nur vermeintlich Relevante zu selektieren. 218 Die Indexe der verschiedenen Suchmaschinen sind weitgehend disjunkt aufgebaut, d. h. sie weisen nur einen geringen Überlappungsgrad auf (dies gilt zumindest für die großen internationalen Suchmaschinen) .Vgl. Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Such- und Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48, S.35. 219 Gerhard Knorz, Information Retrieval-Anwendungen, in: M.G. Zilahi-Szabo (Hg.): "Kleines Lexikon der Informatik und Wirtschaftsinformatik", München, Wien: Oldenbourg-Verlag 1995, S. 244 - 248. Siehe http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm (25.11.00). 220 Beispiele für Trefferlisten sind http://ragingsearch.altavista.com/cgi-bin/query?q=mp3 (25.11.00). oder http://www.google.com/search?q=mp3 (25.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 72 Oder durch Browsing im zusätzlichen Katalog ebenfalls relevante Dokumente zu erschließen. Trotzdem werden hier ausschließlich die Trefferseiten und nicht die Trefferlisten als Basis für die Relevanzbeurteilung verwendet. Rechtfertigen läßt sich das Vorgehen durch die Zielsetzung der Arbeit, es soll untersucht werden wie effektiv die Suchmaschinen für den typischen Nutzer sind. Dieser variiert nur in einem Drittel der Fälle die Suchanfrage und sichtet in der Regel nur die ersten zwei Trefferseiten.221 Hinzu kommt, daß der Index und somit die Trefferliste für jedes Dokument in einem anderen Maße veraltet ist. Durch die Trefferliste allein läßt sich die Retrievaleffektivität also nicht ermitteln, weil sie unter Umständen den aktuellen Inhalt des Internets nicht korrekt wiedergibt. Entscheidend ist aber, daß Vorlieben und Abneigungen der Juroren in Bezug auf die einzelnen Suchmaschinen, das Ergebnis nicht beeinflussen sollen und somit die Herkunft der Trefferseiten unkenntlich gemacht werden muß. Auch ist eine Vorkategorisierung bei der Relevanzbeurteilung unbedingt zu vermeiden, beispielsweise bei Dokumneten die nicht mehr existieren.222 Allein der Juror kann entscheiden, ob eine Trefferseite relevant ist oder nicht. Beispielsweise ist es möglich, daß eine Fehlerseite einen Link auf eine relevante Seite enthält und deshalb dieser "Fehler" der Suchmaschine dem Nutzer Zugang zur benötigten Information verschafft.223 3.1.4 Ausgewählte Suchmaschinen Durch die Eigenheiten des Web, beschränkt sich dieser Punkt auf die Selektion der zu evaluierenden Suchdienste. Die Eigenschaften der Informationsysteme, wie Größe des Dokumentraums oder Struktur und Aufbau der Dokumentrepräsentation, können vom Untersuchenden nicht extern bestimmt werden. Mit der Zielsetzung der Untersuchung sind zugleich die grundlegenden Kriterien für die Auswahl der hier zu untersuchenden Suchmaschinen vorgegeben. Zum einen müssen die Maschinen für den deutschen Sprachraum konzipiert sein und zum anderen sind sowohl hybride als auch rein roboterbasierte Suchmaschinen in den Test miteinzubeziehen. 221 Vgl.2.4.1.3 Gemeint sind hiermit sogenannte "Error 404 Url not found" Seiten. 223 Beispielsweise ist ein Fall denkbar, daß ein Nutzer, daß Informationsbedürfnis besitzt sich über den Studiengang Informationswissenschaft an der Universität Konstanz die Information. Liefert die Suchmaschine eine Seite die nicht (mehr) existiert wie z.B. http://www.inf-wiss.uni-konstanz.de/nichtmehrda.html so hat er doch die Möglichkeit durch eine Verknüpfung auf dieser Fehlerseite zu seinem Ziel zu gelangen. 222 Evaluierung hybrider Suchsysteme im WWW Seite 73 Für diesen Retrievaltest werden die drei folgenden Suchmaschinen ausgewählt: Lycos.de, Altavista.de und QualiGo Lycos.de ist unter den deutschsprachigen Suchmaschinen ein Dienst, der die Ergebnislisten der roboterbasierten Suchmaschine224 mit einem 40 000 Einträgen umfassenden manuell erstellten Katalog kombiniert.225 Diese ergänzen bei entsprechenden Matches der Suchanfragen als Empfehlungen die roboterbasierten Treffer und werden diesen in der Ergebnisliste voranstellt.226 Lycos ist also der Definition nach ein hybrides System. Zugleich ist diese Suchmaschine eine der meistgenutzten deutschsprachigen Suchmaschinen, und von diesen das einzige System, welches einen hybriden Ansatz verfolgt.227 Lycos dient in dieser Untersuchung somit als Fallbeispiel hybrider Suchmaschinen. Als "Gegenkandidat" soll die Suchmaschine AltaVista.de die Retrievaleffektivität rein roboterbasierter Suchmaschinen referenzieren. Der Grund für die Auswahl der Suchmaschine AltaVista.de ist zum einen der hohe Nutzungsgrad,228 zum anderen, daß sie - ebenso wie die internationale Version AltaVista.com - in der Vergangenheit bei Suchmaschinentests gute Ergebnisse erzielte.229 QualiGo ist ein neue Suchmaschine, die am 06.11.00 ihren Dienst aufnahm. Diese Suchmaschine spielt eine besondere Rolle im Rahmen dieser Evaluation. Denn QualiGo ist als hybrides System konzipiert, weißt aber zum Testzeitpunkt noch keine redaktionell basierten Einträge auf. Deshalb läßt sich in diesem Test nur die roboterbasierte Komponente von QualiGo untersuchen. Die Aufnahme von QualiGo in die Evaluation ist vor allem dadurch zu rechtfertigen, daß durch einen später durchzuführenden Test dezidiert festgestellt werden soll, ob und inwieweit die dann vorhandenen redaktionellen Einträge, die Retrievaleffektivität erhöhen. Allerdings muß hierzu angemerkt werden, daß die hier getestete Version noch weitgehend als Prototyp zu verstehen ist, weil der Index zum Testzeitpunkt nur rund eine Million Einträge aufweist. 224 Der roboterbasierte Teil von Lycos, verwendet die von DirectHit lizensierte Hitpopularity (siehe FN7) als ein Rankingkriterium, siehe http://www.suchfibel.de/3allgem/lycosde.htm (19.11.00). 225 Siehe http://pressroom.lycos.de/deutsch/common/newsitem.asp?id=6 (19.11.00). 226 Ebd. Siehe auch http://www.suchfibel.de/3allgem/lycosde.htm (19.11.00). 227 http://www.webhits.de/webhits/inetstat_d.htm (20.11.00). 228 http://www.webhits.de/webhits/inetstat_d.htm (19.11.00). auch http://www.vibrio.de/service/altavist/texte/080800.htm (18.10.00). 229 Siehe beispielweise http://www.warentest.de/wtest/plsql/sw_test.anzeige_beitrag?kontaktnr=0&tmp_inh_id=18364&tmp_zeitschrift=t&t mp_ausgabe=8&tmp_jahr=2000 (19.11.00). http://www.tomorrow.de/popup/test.html (19.11.00). http://www.chip.de/PC2D/PC2DB/PC2DBA/PC2DBAA/pc2dbaa.htm?id=2271 (19.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 74 Das hybride Konzept von QualiGo unterscheidet sich von dem hybriden Ansatz den Lycos verfolgt. Hier werden keine Katalogeinträge mit roboterbasierten Treffern verschmolzen, sondern sogenannte "positionierte" Webseiten. Dieses Konzept ähnelt dem von Goto.com und bietet Seitenbetreibern die Möglichkeit sich, in Abhängigkeit von der Suchanfrage, die Ranglistenposition unter den Suchergebnissen zu ersteigern. Dabei setzt der jeweilige Kunde unter der gewünschten Suchanfrage das gewünschte Gebot ab. Je höher das Gebot, desto höher die Position in der Trefferliste. Aktiviert der Suchmaschinennutzer bei einer Suchanfrage solch einem ersteigerten Treffer, so erstattet der Seitenbetreiber, der die Position ersteigert hat, den Betreibern der Suchmaschine den für die Position gebotenen Betrag. Evaluierung hybrider Suchsysteme im WWW Seite 75 Die folgende Tabelle bietet einen Überblick über die zu untersuchenden Systeme: Lycos.de230 AltaVista.de231 Qualigo232 Indexgröße 100 Millionen Urls 25 Mio Urls Ca 1 Million Urls Suchoptionen Operatoren, Operatoren Länderspezifische boolsche Ausdrücke boolsche Ausdrücke Einschränkung Phrasen Phrasen Familienfilter aktivieren Feldsuche Feldsuche bezahlte Links anzeigen Eigene Spracheinstellungen Gewichtungskriterien zusätzlicher Katalog Quasi-Katalog der die einstellbar Themensuche Eingabe von integrierter Katalog (Bilder, Musik, Video) Suchbegriffen an die Anzeige 10 Treffer Anzeige 10 Treffer max. Maschine durch eine 200 verknüpfte hierarchische Struktur ermöglicht Anzeige 20 Treffer Besonderheiten DirectHit Technologie Ein "nur Text" Interface Bezahlte Links Zusatzdienste ist zusätzlich verfügbar (Email/Community/Provi Zusatzdienste (Email, der/Übersetzung) Provider/Übersetzung) Integrierter Katalog Im Vergleich wird ersichtlich, daß die Indexgröße in erheblichen Maße variiert und auch, daß Lycos.de und AltaVista.de über "fortgeschrittene" Suchoptionen verfügen, die es dem Nutzer ermöglichen komplexe und sehr spezifisch ausgerichtete Suchanfragen zu stellen. Diese Fähigkeiten werden in diesem Vergleichstest nicht berücksichtigt, da einfache Keywordanfragen durchgeführt werden, insofern wird die Suchmaschine Qualigo in dieser Evaluation bevorteilt. Dies wird aber hingenommen, weil in dieser Untersuchung die Retrievaleffektivität der Suchmaschinen bei typischen Gebrauch und nicht unter Ausnutzung sämtlicher optionaler Retrievalfeatures evaluiert wird. Festzuhalten ist aber auch, daß durch diesen Test keine Aussage über die tatsächlich erreichbare Retrievaleffektivität der Suchmaschinen Lycos.de und AltaVista.de getroffen werden kann. 230 Angaben von Lycos.de und der Suchfibel, siehe http://www.suchfibel.de/3allgem/lycosde.htm (25.11.00). Angaben von AltaVista.de und der Suchfibel, siehe http://www.suchfibel.de/3allgem/altavista.htm (25.11.00). 232 Angaben von Qualigo (26.11.00). 231 Evaluierung hybrider Suchsysteme im WWW Seite 76 3.1.5 Erschließung der Informationsbedürfnisse und Suchanfragen Zunächst wird die Entscheidung getroffen, auf überwiegend artifizielle Weise die Suchanfragen zu erschließen. Der Grund hierfür liegt darin, daß bei einer direkten Benutzerbefragung, nicht automatisch gefolgert werden kann, daß die so erschlossen Suchanfragen typischen Suchanfragen auch wirklich entsprechen.233 Deshalb werden die Suchanfragen auf folgende Weise erschlossen. In der Mehrzahl der Fälle wird die "Keyworddatenbank" der Firma Suchtreffer verwendet, in der die Suchanfragen einer großen Anzahl Suchmaschinen aufgezeichnet werden.234 Diese Datenbank enthält gegenwärtig ungefähr zweieinhalb Millionen Einträge.235 Aufgrund dieser enormen Anzahl wird hier davon ausgegangen, daß die Einträge dieser Keyworddatenbank ein repräsentatives Abbild der Suchanfragen im Web wiedergeben. Aus diesem Grund werden 30 der 50 zu erschließenden Anfragen plus 2 Suchanfragen für den Pretest aus der Keyworddatenbank selektiert. Selektionskriterium ist dabei primär die Abfragehäufigkeit. Aus den 200 häufigsten Abfragen werden jeweils 15 Einwort- und 15 Zweitwortanfragen für diese Untersuchung verwendet. Ausgeschlossen werden Anfragen, die auf ein pornographische Informationsbedürfnis schließen lassen. Einwortanfragen Häufigkeit236 Zweiwortanfragen Häufigkeit mp3 2527 big brother 830 routenplaner 2296 deutsche bahn 792 sms 3551 last minute 728 chat 2095 britney spears 414 telefonauskunft 1029 möbelspeditionen münchen 73 yahoo 927 beate uhse 357 moorhuhn 1227 sms sprüche 183 spiele 1034 free sms 256 reisen 1057 verona feldbusch 220 auto 1106 börse bücher 139 wetter 1779 stiftung warentest 225 immobilien 891 gelbe seiten 192 stadtplan 834 flughafen frankfurt 83 233 Vgl. 2.4.2.3 Unter anderem Fireball, Infoseek.de und Lycos.de. 235 Eine öffentlich zugängliche Version mit geringerem Funktionsumfang fand sich bis Ende November unter http://www.suchtreffer.de (28.11.00). Mittlerweile wird diese Datenbank nur noch intern für Mitarbeiter angeboten. 236 bezogen auf eine Million Abfragen 234 Evaluierung hybrider Suchsysteme im WWW Einwortanfragen Häufigkeit236 Zweiwortanfragen Seite 77 Häufigkeit job 768 deutsche bank 130 bildschirmschoner 703 star trek 95 Pretest: Pretest: auktionen 504 deutsche telekom 101 Die Vorteile der Einträge dieser Datenbank bei der Erschließung der Suchanfragen sind: • sie spiegeln typische verbalisierte Informationsbedürfnisse von Nutzer wieder. • sie reflektieren tatsächliches Suchverhalten in Bezug auf • Keywordanzahl • Syntax • Themen Problematisch ist es allerdings die Informationsbedürfnisse die diesen Anfragen zugrunde liegen zu rekonstruieren.237 Zur Rekonstruktion wird folgendes Verfahren verwendet: Der Untersuchende unternimmt selbst einen ersten Rekonstruktionsversuch und fixiert die „vermutlichen“ Informationsbedürfnisse schriftlich. Um subjektive Einflüsse weitgehend zu eliminieren wird diese Vorlage dann anschließend von insgesamt 4 Personen238 in Bezug auf "Objektivität" überprüft und schließlich in zwei Fällen "korrigiert" bzw. modifiziert.239 Betrachtet man die aus der Keyworddatenbank erschlossenen Suchanfragen näher, so zeigt sich, daß sie von der Spezifität eher allgemein (reisen, auto) und von der Thematik her eher freizeitbezogen (spiele, bildschirmschoner) sind. Aber auch, daß geschlossene Fragestellungen auftreten, die spezifisch auf eine "richtige" Antwort ausgerichtet sind (telefonauskunft, yahoo). Daraus folgt, daß Informationsbedürfnisse die auf einer geschlossenen Fragestellung240 beruhen, in einem Retrievaltest, der sich am realen Nutzungskontext orientiert, nicht ignoriert werden dürfen.241 237 Einen eher satirischen Versuch aus Suchanfragen Informationsbedürfnisse zu erschließen unternimmt Klaus Schallhorn, Tief Not Flieger, siehe http://suchfibel.de/aktuell/gastbeitrag/tiefnotflieger.htm (28.11.00). "Rekonstruktionsversuche" in der Art, daß aus den Suchanfragen die Informationsbedürfnisse und Relevanzkriterien rekonstruiert werden, finden in ähnlicher Form auch bei TREC statt, siehe http://TREC.nist.gov/presentations/TREC9/overview/sld017.htm (28.11.00). 238 Zwei Mitarbeitern der Firma Suchtreffer, einem Mitarbeiter eines anderen "Internetunternehmens" und einem Dozenten. 239 Der erste Fall war "mp3", hier wurde beschlossen, daß der Sucher bei der Eingabe dieser Suchnafrage eher nicht nach MP3 Hardware sucht. Im zweiten Fall handelte sich um die Suchanfrage "spiele", hier wurde entschieden , daß das Informationsbedürfnis nicht auf Online-Spiele wie Netzwerkspiele zu beschränken ist. 240 Hierunter werden in dieser Arbeit Fragestellungen verstanden, deren zugrundeliegendes Informationsbedürfnis mit der ersten richtigen Antwort befriedigt werden kann. 241 Die TREC Ad-hoc Tasks bestehen ausschließlich aus offenen Fragestellungen. Evaluierung hybrider Suchsysteme im WWW Seite 78 Damit sich die Repräsentativität der Suchanfragen und Informationsbedürfnisse nicht nur auf die Abfragehäufigkeit Informationsbedürfnisse, reduziert, werden die ebenfalls insgesamt 17 typischen Suchanfragen Suchanfragen und und Informationsbedürfnissen von Nutzern entsprechen sollen, aus anderen Evaluationen übernommen. Insbesondere soll so sichergestellt werden, daß auch, in der Realität vorhandene, komplexere Informationsbedürfnisse berücksichtigt werden. Die aus TREC ausgewählten Informationsbedürfnisse werden aus den "TREC-8 cross language topics in German" und Web Track entnommen.242 Aus den gegebenen Informationsbedürfnissen und Relevanzkriterien werden vom Untersuchenden die Suchanfragen generiert. Diese wurden wieder von denselben 4 Personen nachgeprüft. TREC Topics No 55 abtreibungen anzahl statistik schwangerschaft schwangerschaftsabbrüche No 61 bundeswehr un auslandseinsatz No 66 waffenexport türkei No 67 weltraumschrott gefahren No 68 homosexualität recht gesetzgebung adoption eheschließung heirat No 71 delphine schleppnetzfischen gefahr No 81 tierschutz organisationen rettung geschützter Arten Web Track britisch argentinische beziehungen Zwei weitere Suchanfragen werden von Courtois und Berry übernommen und übersetzt und die Relevanzkriterien sowie die Informationsbedürfnisse rekonstruiert (s.o.).243 Courtois und Berry kreditkartenbetrug online handel ira nordirland konflikt friedensprozeß Weitere 7 Suchanfrage wurden von den Milos I & II Retrievaltests ausgewählt.244 242 Zu finden unter http://TREC.nist.gov/data/topics_noneng/index.html (28.11.00). Martin P. Courtois, Michael W. Berry, Results Ranking in Web Search Engines, in: Online May 1999, siehe http://www.onlineinc.com/onlinemag/OL1999/courtois5.html (28.11.00). 243 Evaluierung hybrider Suchsysteme im WWW Milos I Milos II widerstand nationalsozialismus alarmanlagen auto folgen scheidung kinder behandlung schlaganfall ergonomie arbeitsplatz reiseführer toskana Seite 79 medizin drittes reich Schließlich werden drei Suchanfragen und Informationsbedürfnisse durch Befragung von Mitarbeitern der Firma Suchtreffer erschlossen. Suchtreffer umts lizenzen auktion teilnehmer preise gewinner vorlagen microsoft word goldmedaillen gewinner marathonlauf olympische spiele 2000 sydney Das insgesamt nach fünf Quellen diversifizierte Auswahlverfahren soll einer zu engen und einseitigen Ausrichtung an den Selektionsmechanismen und -kriterien einer Erschliesungsressource vorbeugen. Das quantitative Übergewicht der Suchanfragen der Keywortdatenbank ist aber beabsichtigt, da allein bei dieser Quelle eine direkte empirische Absicherung über Anfragehäufigkeiten gegeben ist. Die Aufnahme natürlichsprachiger Anfragen,245 sowie die Durchführung von Dokumentrecherchen246 wurde angedacht, aber aus thematischen Gründen - solche Anfragen sind laut den Einträgen der Keyworddatenbank extrem selten - wieder verworfen. 3.1.6 Durchführung der Suchanfragen Da die Suchanfragen auf artifizielle Weise erschlossen werden und das typische Verhalten der Suchmaschinennutzer bei Suchanfragen bekannt ist,247 kann bei der Durchführung der 244 Elisabeth Sachse, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft, Band 14 1998, S.15-16. 245 Z.B die Suchanfrage "was sind die gegenwärtigen preise für g3 powerbooks" 246 Sogenannte „Known Item Searches“ z.B. eine Suche nach der Magisterarbeit von Sven Körber "Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, zu finden auf der Website http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00). Vgl. Mechtild Stock, Wolfgang G. Stock, InternetSuchwerkzeuge im Vergleich, Teil 1: Retrievaltest mit Know Item Searches, in: Password 11/2000, S.23-31. 247 kaum Gebrauch von Operatoren, kaum Gebrauch von "Advanced Search Features", vgl. 2.4.1.3 Evaluierung hybrider Suchsysteme im WWW Seite 80 Suchanfragen auf eine Mitwirkung realer Nutzer verzichtet werden. Die Suchanfragen sind somit vom Untersuchenden selbst durchzuführen. Die Durchführung wird dahingehend standardisiert, daß jede Suchanfrage in das Standardtexteingabefeld der jeweiligen Suchmaschine eingetragen und die Ergebnisseiten der Suchmaschinen unmittelbar darauf gespeichert werden. Danach sind die einzelnen Trefferseiten zu sichten und lokal zur Verfügung zu stellen, um sicherzustellen, daß die Ergebnisseiten bezüglich des originalen Inhalts248 bewertet werden können. Der Zeitraum für die Durchführung einer Suchanfrage bei allen untersuchten Systemen soll dabei einen Rahmen von zwei Stunden nicht überschreiten.249 Sollten sich Probleme betreffend der Verfügbarkeit einzelner Suchmaschinen, wie z.B. eine Serverüberlastung ergeben, so ist die jeweilige Suchanfrage für alle Maschinen zu einem Zeitpunkt, zu dem alle Maschinen verfügbar sind, zu wiederholen. Ergebnisseiten, auf die aufgrund von Serverfehlern nicht zugegriffen werden kann,250 sind innerhalb von zwei Stunden wiederholt anzusteuern (mindestens dreimal) um sicherzustellen, daß kurzzeitige Ausfälle, die umgehend behoben werden, das Testergebnis nicht beeinflussen. Ergebnisseiten, auf die auch nach Ablauf dieser Frist nicht zugegriffen werden kann, sind aber als Fehlerseiten zu speichern. Da längerfristig nicht erreichbare Seiten, aus Nutzersicht, keinen Informationswert besitzen, sind solche Ergebnisseiten der Suchmaschinen diesen auch "zur Last" zu legen. Die Darstellung der Ergebnisseiten, die Präsentation der Information muß sich möglichst eng an der Originaldarstellung im Web anlehnen, damit durch etwaige "Konvertierungsverluste", die z.B. bei Ausdrucken oder reinen Textversionen entstehen,251 die Relevanzbeurteilung der Juroren nicht verzerrt wird.252 Um dies zu erreichen sind die Ergebnisseiten bei der Bewertung von den Juroren mit einem Browser der vierten Generation zu betrachten, die von über 95% der Internetnutzer verwendet werden.253 248 Das ist zum Zeitpunkt der Suchanfragendurchführung, Verzerrungen durch Aktualisierungen im Web soll so vorbeugt werden. 249 Idealerweise sollten die Suchanfragen zum gleichen Zeitpunkt bei allen Maschinen durchgeführt werden. Der zugestandene Zeitkorridor von zwei Stunden pro Suchanfrage wird hier als hinreichende Näherung an dieses Ideal verstanden, da davon ausgegangen wird, das sich in diesem Zeitraum weder der Index der Suchmaschinen, noch der Inhalt oder die Verfügbarkeit der Ergebnisseiten merklich ändert. 250 "Connection refused error" 251 Gemeint sind vor allem dynamische Elemente wie Mouseovereffekte, Pulldownmenüs, Layer usw, die im weitesten Sinne auf der Verwendung von z.T. browserspezifischen Fähigkeiten in Bezug auf der Interpretation von Javascript-, Dhtml-, CSS- oder Javaelementen in Webseiten beruhen. 252 Vgl. 3.1.3.1.1.2 253 Siehe http://www.webhits.de/webhits/inetstat.htm (28.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 81 Um abzusichern, daß die Ergebnisseiten originalgetreu gesichert werden, wurden mehrere "Mirrortools" getestet, die Ergebnisse waren aber ungenügend.254 Deshalb wird entschieden zur Sicherung der Webseiten die "Offline verfügbar machen" Funktion des Browsers Internet Explorer 5.0 von Microsoft zu nutzen, die es ermöglicht Webseiten, inklusive Bildern und dynamischen Elementen, lokal verfügbar zu machen.255 Allerdings läßt sich diese Funktion nicht im notwendigen Maße konfigurieren, um die Sicherung der Ergebnisseiten zu automatisieren,256 so daß für die Durchführung der Suchanfragen inklusive Sicherung der Ergebnis- und Trefferseiten ein Zeitraum von zwei Wochen veranschlagt wird.257 3.1.7 Testanordnung Der Aufbau der Testanordnung ist durch die genannten Punkte schon weitgehend determiniert. Jede Suchanfrage ist nur von einer Person zu bewerten um das Problem der interpersonellen Unterschiede bei der Relevanzbestimmung zu vermeiden. Die Bewertungsgrundlage bilden dabei ausschließlich die möglichst originalgetreu replizierten Trefferseiten, auf eine Bewertung der Ergebnisseiten der Suchmaschinen wird verzichtet um eine Beeinflussung durch eventuell vorhandene Vorlieben auszuschließen. Insgesamt hat jeder Juror jeweils 120 Webseiten zu beurteilen. Der zeitliche Aufwand pro Person wird dabei auf ca. eine Stunde geschätzt. Um die Dublettenproblematik möglichst wirklichkeitsnah zum Ausdruck zu bringen, werden die jeweiligen Treffer den Juroren in der richtigen Reihenfolge präsentiert. Im einzelnen bleibt es ihnen selbst überlassen zu beurteilen, ob eine Dublette vorliegt oder nicht. Für den Testablauf bedeutet dies, der jeweilige Juror bewertet nacheinander die Treffer 1-20 der Suchmaschine A, dann die der Maschine B, schließlich die der Maschine C. 254 Beispielsweise wurden Javascripte häufig unkorrekt wiedergegeben. Die Verwendung dieses Browsers ist auch durch den hohen Nutzungsgrad gerechtfertigt.Laut Webhits wird er von rund zwei Drittel aller Internetnutzer verwendet, siehe http://www.webhits.de/webhits/browser.htm (02.12.00). Damit die Benutzer auch die passenden Seiten und nicht etwa Seitenversionen für Browser ohne oder mitdeaktiviertem Java, die erheblich voneinander unterscheiden können, bewerten sind dabei die Funktionen Aktive Scripting, CSS und Java zu aktivieren, siehe ebd. 256 Z.B. durch Filtermechanismen die ausgehend von den Ergebnislisten der Suchmaschinen eine exakte Spezifizierung der zu speichernden Seiten ermöglichen. 257 Insgesamt sind 3250 Seiten lokal abzuspeichern. Je 100 Ergebnisseiten von Lycos.de und Altavista.de (zu je 10 Trefferseiten), 50 Ergebnisseiten von Qualigo.de (zu je 20 Trefferseiten) und die 3000 Trefferseiten selbst (50 Suchanfragen x 20 ersten Treffer x drei Suchmaschinen) 255 Evaluierung hybrider Suchsysteme im WWW Suchanfrage A Maschine A Seite 82 Suchanfrage B Maschine B Maschine C Maschine A Maschine B Maschine C jeweils Bewertung Treffer 1-20 der jeweils Bewertung Treffer 1-20 der Suchmaschinen Suchmaschinen Zeitablauf Juror X Diese Verfahren entspricht am ehesten einen "Repeated Measures Design", denn es werden dieselben Einflußfaktoren (Suchanfragen/-ergebnisse) aller Untersuchungsgegenstände (Suchmaschinen) den Juroren (Testsubjekte) zugeordnet.258 Problematisch an diesem Design ist, daß Lern- oder Ermüdungseffekte auftreten können. Diese sollen dadurch kompensiert werden, daß bei jeder Frage die Reihenfolge der Zuordnung der Suchmaschinen variiert wird. Suchanfrage Suchmaschine A Suchmaschine B Suchmaschine C 1 mp3 AltaVista Lycos QualiGo 2 routenplaner QualiGo AltaVista Lycos 3 sms Lycos QualiGo AltaVista 4 chat AltaVista Lycos QualiGo usw. usw. usw. usw. * Bei der Suchanfrage „mp3“ stammen die Treffer der Liste A von AltaVista, die der Liste B von Lycos und die der Liste C von QualiGo. Bei der nächsten Suchanfrage „routenplaner“ stammen die Treffer der Liste A von QualiGo, die der Liste B von AltaVista und die der Liste C von Lycos usw. Der zeitliche Ablauf jedes Tests ist wie folgt festgelegt: Die Testpersonen erhalten eine kurze mündliche Erläuterung des Themas der Evaluation und ihrer Aufgabe als Juroren. Danach bekommen sie den, auf die jeweilige Testperson abgestimmten, Fragebogen259 ausgeteilt, auf dem die Aufgabenstellung schriftlich aufgeführt ist. Auf dem Fragebogen sind einige persönliche Angaben über Alter, Geschlecht, Computer/Softwarekompetenz, sowie der Häufigkeit der Internet- und Suchmaschinennutzung schriftlich anzugeben. Diese Angaben dienen dazu, die technische Kompetenz der Probanden zu erfassen. 258 Jean Tague-Sutclife, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.210-212. Evaluierung hybrider Suchsysteme im WWW Seite 83 Auf einem weiteren Blatt werden die Juroren darauf hingewiesen, daß sie die Seiten so bewerten sollen, als ob die sie selbst das zugrundeliegende Informationsbedürfnis verspürten und die Suchanfrage eingegeben hätten. Ebenfalls wird erwähnt, daß das Relevanzurteil möglichst spontan, ohne langes Nachdenken gefällt werden soll. Abschließend wird die Dublettenproblematik angeführt und bestimmt, daß Dubletten höchsten einmal, beim ersten Mal relevant sein können. Abschließend wird darauf hingewiesen, daß die einzelnen Listen (Trefferseiten der Suchmaschinen) und Dokumente unabhängig voneinander zu bewerten sind. Durch diese Anweisungen sollen die Juroren dazu angehalten werden, die Relevanzbeurteilung möglichst dem von typischen Internetnutzern nachzubilden. Unterdessen wird der benötigte Webbrowser - Internet Explorer 5.0 - gestartet und auf die richtigen Einstellungen überprüft, "Active Scripting" und "Java" müssen aktiviert sein. Dies soll sicherstellen, daß alle zu bewertenden Webseiten richtig wiedergegeben werden. Die Untersuchung wird gestartet, in dem der Proband aus der erstellten Favoritenliste, den für ihn passenden Ordner selektiert und die Links in der gegebenen Reihenfolge traversiert. Das zu fällende Relevanzurteil wird auf der für jede Suchanfrage pro Maschine A, B und C vorhandene Bewertungsblatt eingetragen. Auf diesen Bewertungsblättern sind am Kopf der Seiten jeweils das Thema, die Query (Suchanfrage), das Informationsbedürfnis und die Relevanzkriterien schriftlich formuliert. Der Juror trägt durch ankreuzen ein, ob eine Trefferseite relevant ist, auf relevante Seite(n) verweist oder nicht relevant ist. Während der Tests sollen die Probanden bei der Relevanzbeurteilung nicht beeinflußt werden, weshalb der Untersuchende zwar für Rückfragen zur Verfügung steht, aber nur solche technischer Art beantwortet. Bei Fragen zur Relevanzbeurteilung einzelner Dokumente, werden nur die schriftlich vorliegenden Kriterien wiederholt und ansonsten ist auf das subjektive Urteilsvermögen der jeweiligen Testperson hinzuweisen. Insgesamt ist die Testanordnung daraufhin angelegt, daß mehrere Tests gleichzeitig durchgeführt werden können, um den Zeitraum für die Durchführung der einzelnen Tests möglichst auf zwei Wochen begrenzen zu können. 259 Vgl Fragebogenbeispiel im Anhang. Evaluierung hybrider Suchsysteme im WWW Seite 84 3.1.8 Datenerfassung Es sind zwei Arten von Daten zu erfassen. Erstens die Bewertungen der Testpersonen und zweitens die Angaben, welche die Juroren Bezugnehmend auf ihre technische Qualifikation sowie ihr Alter, Geschlecht und momentanen Gemütszustand gemacht haben. Beide Kategorien von Daten werden in kodierter Form auf dem Fragebogen erfaßt, dabei werden jeweils verschiedene Kategorien vorgegeben. Bei den personenbezogenen Daten sind dies: •Alter 0-20, 21-30,31-40, 41-50, 51-60 •Geschlecht männlich, weiblich •Computer-/Softwarekompetenz Anfänger, Fortgeschrittener, Experte •Nutzungshäufigkeit Internet selten bis nie, mehrmals pro Woche, täglich •Nutzungshäufigkeit von Suchmaschinen und anderen Retrievalsystemen selten bis nie, mehrmals pro Woche, täglich •Gemütszustand (Wie fühlen sie sich gerade?) -2, -1, 0, 1, 2 Der Grund für die Erfassung der personenbezogenen Daten ist, daß durch diese Angaben bei der Auswertung sichergestellt werden kann, daß nur die Relevanzurteile "kompetenter" Juroren analysiert werden. Die Erfassung des Gemütszustandes ermöglicht es bei der die Analyse festzustellen, ob die Teilnahme an den Tests für die Juroren eine psychische Belastung dastellt. Die Erfassung des Gemütszustandes dient also dazu, Hinweise zu gewinnen, inwieweit das Testsetting die Probanden belastet, ohne eine solche Belastung, mit der direkten Abfrage der "Angemessenheit" der Dauer und Anstrengung schon indirekt zu implizieren. Die Relevanzurteile bilden die Grundlage für die Analyse der Retrievaleffektivität. Die Juroren stufen dabei jede Seite entweder als "relevant", "verweist auf relevante Seite(n)" oder als "nicht relevant" ein. Der Verzicht auf eine ausdifferenziertere Relevanzeinstufung erleichtert die spätere Agreggierung der Relevanzurteile und somit die Ergebnisanalyse. Die Verwendung von Evaluierung hybrider Suchsysteme im WWW Seite 85 Papierfragebögen bietet den Vorteil, daß den Juroren eine Korrektur "falscher" Urteile auf einfache Weise möglich bleibt. Angedacht wurde auch die Generierung einer Datenbank, die die Testdaten bereits bei der Testdurchführung aufnimmt und automatisch verschiedene Sichten auf die Daten ermöglicht. Der hierfür erforderliche Aufwand erscheint unter den gegeben Rahmenbedingungen allerdings zu hoch.260 Über das Verhalten der Juroren während der Tests werden keine Daten gesammelt, weil diese sich so "natürlich" wie möglich verhalten sollen261 und bei dieser Untersuchung die Interaktion mit den Trefferseiten nicht evaluiert wird. Die gesammelten Daten werden schließlich in das Tabellenkalkulationsprogramm Microsoft Excel eingetragen und aufbereitet. Auf die Verwendung eines Statistikprogramms wird verzichtet, da zum einen keine zusätzlichen Kosten entstehen sollen und zum anderen, die notwendige Zeit für die Einarbeitung in ein Statistikprogramm nicht vorhanden ist. 3.1.9 Datenauswertung Bei der Datenauswertung werden zunächst die Relevanzurteile binär aggregiert, in dem die als "verweist auf relevante Seite(n)" eingestuften Webseiten, als "relevant" bewertet werden. Problematisch daran ist, daß die bei der Testdurchführung getroffene qualitative Unterscheidung dieser Seiten, im Vergleich zu den inhaltlich relevanten Seiten vernachlässigt wird.262 Die Alternative wäre eine mathematisch graduelle Abstufung, beispielsweise eine Punktezahl, zu benutzen und diese Seiten erst dann den relevanten Seiten zuzuschlagen.263 Ein solche Relevanzabstufung wird hier bei der Datenauswertung abgelehnt. Denn es ist denkbar, daß eine "verweist auf relevante Seite(n)" Webseite, zur Lösung des Informationsbedürfnisses hilfreicher sein kann, als eine inhaltlich relevante Seite. 260 Zur Entwicklung der Datenbank zur Auswertung der Ergebnisse des Projektkurses Insyder im WS 99/00 benötigten zwei Personen rund vier Wochen, siehe http://kniebach.fmi.unikonstanz.de/bscw/bscw.cgi/0/346940/projektkurs.mdb (30.11.00). Zugangsberechtigung erforderlich! 261 Hiermit ist der sogenannte Hawthorne Effekt gemeint, vgl. Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.212. 262 Der Benutzer muß eine Webseite zusätzlich traversieren, um zu relevanten Informationen zu gelangen. 263 Ein solches Vorgehen befürworten Oppenheim, Morris und McKnight. Sie vergeben Punktezahlen: 1 für inhaltlich relevant 0,5 für teilsweise relevant (verweisen auf relevante Seiten) 0 nicht relevant Vgl. C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.198. Evaluierung hybrider Suchsysteme im WWW Seite 86 relevante Seite verweist auf relevante Seite(n) relevante Seite verweist auf relevante Seite(n) relevante Seite Wie die Grafik zeigt beispielsweise dann, wenn eine inhaltlich nicht relevante Seite zu einer Vielzahl relevanter Seiten verweist, diese selbst aber keine Verknüpfungen zu anderen relevanten Seiten aufweisen. Insofern läßt sich bei der Ergebnisauswertung eine qualitativ begründete quantitative Ausdifferenzierung zwischen beiden Seitentypen nicht aufrechterhalten. Um die erste Testhypothese • hybride Systeme erreichen eine höhere Retrievaleffektivität als rein roboterbasierte Systeme zu überprüfen, sind jeweils die Mean Average Precision der Top20 Treffer der drei Suchmaschinen auszurechnen und paarweise zu vergleichen. Lycos : AltaVista Lycos : QualiGo AltaVista : QualiGo Bei der Berechnung der Mean Average Precision ist es unerheblich, ob die Mikro- oder die Makromethode verwendet wird - da die Anzahl der betrachteten Dokumente für jede Suchanfrage konstant bleibt, sind die Werte identisch. Die Makromethode gilt allerdings als ein dem Benutzerstandpunkt entsprechender Ansatz, da sie im Gegensatz zur Mikromethode nicht die einzelnen Dokumente, sondern die einzelnen Suchanfragen als Grundgesamtheit betrachtet, deshalb wird sie verwendet.264 264 Die Makromethode betrachtet zunächst die einzelnen Suchanfragen als Grundeinheit, d.h. zuerst werden die Precisionwerte pro Suchanfrage berechnet und dann die Werte der Suchanfragen gemittelt, somit fließt jede Suchanfrage gleichgewichtig in die Bewertung ein. Die Mikromethode betrachtet die Dokumente an sich als Evaluierung hybrider Suchsysteme im WWW Seite 87 Zusätzlich ist auszuwerten, welche Suchmaschinen bei welchen Suchanfragen welche Retrievaleffektivität aufweisen, auch hier findet ein paarweiser Vergleich statt. Lycos : AltaVista Lycos : QualiGo AltaVista : QualiGo Zur Überprüfung der zweiten Testhypothese •redaktionell erzeugte Treffer bewirken eine höhere Effektivität des hybriden Retrievalsystems. muß die Precision aller redaktioneller Treffer von Lycos mit der Precision aller maschinell erzeugter Treffer verglichen werden. Da die These gesamtsystembezogen auf eine, dokumentorientierte Betrachtung abzielt, ist hierbei die Mikromethode anzuwenden. Um festzustellen, inwieweit die redaktionellen Treffer sich auf die Effektivität von Lycos auswirken ist die Top20 Precision und die Effektivität bei den Suchanfragen im Vergleich Lycos mit redaktionellen Treffern : Lycos ohne redaktionelle Treffereinträgen zu ermitteln. Um die Effektivität der Roboterkomponente von Lycos im Vergleich zu den anderen Suchmaschinen festzustellen, ist die Top20 Precision und die Effektivität bei den einzelnen Suchanfragen in der Gegenüberstellung Lycos ohne redaktionelle Treffer : AltaVista Lycos ohne redaktionelle Treffer : QualiGo darzustellen Um die statistische Validität dieser Ergebnisse abzusichern, ist es notwendig, diese auf Signifikanz hin zu überprüfen. Erst dadurch wird es möglich zu entscheiden, ob die ermittelten Unterschiede ausreichen265 die Aufrechterhaltung der Testhypothesen zu rechtfertigen. Zunächst sind dazu die entsprechenden Nullhypothesen zu formulieren die besagen, daß keine Unterschiede zwischen den verglichenen Objekten bestehen. Bei der ersten Testhypothese lautet diese: Grundeinheit und berechnet unabhängig von der Trefferanzahl der einzelnen Suchanfragen das Verhältnis der relevanten Treffer zu allen Treffern, dadurch fließt jedes Dokument gleichgewichtig in die Bewertung mitein. Vgl. Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.67-68. 265 Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.7. Evaluierung hybrider Suchsysteme im WWW • Seite 88 hinsichtlich der Retrievaleffektivität gibt es keine Unterschiede zwischen den untersuchten Systemen. Bei der zweiten Testhypothese lautet diese: • redaktionell erzeugte Treffer bewirken keine höhere Effektivität des hybriden Systems. Danach ist die Wahrscheinlichkeit für das Zutreffen der Nullhypothesen anhand des festzulegenden Signifikanzniveaus, daß hier auf den Standardwert 0,05 angesetzt wird266 mittels eines geeigneten Verfahrens zu überprüfen. Da nicht davon ausgegangen werden kann, daß die ermittelten Daten normalverteilt sind ist ein nichtparametrisches Verfahren zu wählen. Als Methode wird der Vorzeichentest verwendet, da er lediglich voraussetzt, daß die unabhängigen Variablen der Untersuchung gleich sind267 - was bezüglich Suchanfragen, Juroren und Relevanzkriterien gewährleistet ist.268 Diese oft als "Trendtest" bezeichnete Methode erlaubt nur Aussagen darüber, ob ein Unterschied besteht oder nicht, eine Aussage über die Höhe der Differenz ist nicht möglich.269 Zur statistischen Validierung der Testhypothesen ist dieses Verfahren hinreichend.270 Um Differenzen bei der Effektivität, in Abhängigkeit der verschiedenen Suchanfragetypen, Suchwortanzahl und Art der Fragestellung zu erfassen ist desweiteren die Top20 Precision bei den Einwort- und Mehrwortanfragen, sowie den offenen und geschlossenen Suchanfragen zu bestimmen. Ergänzend ist die "Expected Search Length" bei den geschlossenen Fragen zu ermitteln, um festzustellen durch welche Anzahl von Treffereinträgen ein Nutzer durchschnittlich navigieren muß, bis er ein relevantes Dokument findet. Alle ausgewerteten Ergebnisse werden tabellarisch und/oder grafisch aufbereitet. 266 Der Standardwert scheint ausreichend, da die formulierten Testhypothesen keiner anerkannten Theorie oder These widersprechen. Vgl. Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.88-89. 267 Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.65. 268 Siehe 3.1.3. 269 Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.157-158. 270 Kann aber nur dann Aufschluß darüber geben, ob die Testhypothesen zutreffen, falls sich die Precisionwerte der untersuchten Systeme unterscheiden und die Relevanz der redaktionell erzeugten Treffer höher ist, als die der automatisch erzeugten Treffer. Zur genauen Vorgehensweise bei diesem Verfahren vgl. Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.65-72. Evaluierung hybrider Suchsysteme im WWW Seite 89 3.1.10 Ergebnispräsentation Die Ergebnispräsentation sind die vorliegende schriftliche Ausarbeitung, und die in elektronischer Form vorliegenden Daten. Diese umfassen: • die schriftliche Ausarbeitung (Word 97) • die gewonnen Daten in Form von Auswertungstabellen (Excell 97 Format) • die statistischen Auswertungstabellen (Excell 97) • die Ergebnisseiten der Suchmaschinen und die Trefferseiten (HTML) • die schriftlich fixierten Suchanfragen und Informationsbedürfnisse (Word 97) • die Vorlagen für die einzelnen Fragebögen (Word 97 und HTML) • den Verteilungscode für die Anordnungsvariation der Suchmaschinen bei den verschiedenen Anfragen Die Dateien werden auf einer CD archiviert und der Arbeit beigelegt. 3.2 Pretest Vor der Durchführung der Tests ist die Tauglichkeit des bis hierhin entwickelten Testdesigns zu überprüfen und gegebenenfalls zu modifizieren. Da zwischen Suchanfragendurchführung und Bewertung der Trefferseiten ein möglichst geringer Zeitraum liegen soll. Werden die Suchanfragen erst unmittelbar vor den Tests durchgeführt und beim Pretest sowie den Tests in die Testanordnung mit integriert. Der Pretest gliedert sich folglich in zwei Teile: die Durchführung der Suchanfragen und die Beurteilung der Trefferseiten durch die Juroren. 3.2.1 Durchführung der Suchanfragen Um herauszufinden, ob das Testdesign für geschlossene und offene Suchanfragen gleichermaßen geeignet ist, wird jeweils eine Frage jeder Art für den Pretest verwendet. Die offenen Fragestellungen werden dabei durch die Suchanfrage „auktionen“, die geschlossenen Fragestellungen durch die Suchanfrage „deutsche telekom“ repräsentiert. Suchanfrage Informationsbedürfnis Relevanzkriterien Evaluierung hybrider Suchsysteme im WWW Seite 90 Suchanfrage Informationsbedürfnis Relevanzkriterien auktionen Benutzer will auf einer Auktionsseite im Internet ein Relevant sind alle Produkt ersteigern oder sich erstmal auf einer Auktionsseiten im Auktionsseite umsehen bzw. sich über Auktionen Internet, aber auch informieren die über Seiten, Online-Auktionen informieren deutsche telekom Benutzer sucht die Homepage der Deutschen Relevant Telekom ist Homepage die der Deutschen Telekom Die Suchanfragen des Pretests können nur bei den Suchmaschinen AltaVista und Lycos durchgeführt werden, da QualiGo zu diesem Zeitpunkt noch nicht zur Verfügung steht. Die Ergebnislisten werden inklusive Bilder und Javascript, lokal mit Hilfe des Browsers Internet Explorer 5.0 gespeichert und die Trefferseiten mit der Funktion „offline verfügbar machen“ als Favoriten in entsprechende Favoritenordner „pq1 auktionen“ und „pq2 deutsche telekom“ in der richtigen Reihenfolge pro Suchmaschine aufgelistet. Der gesetzte Zeitrahmens von zwei Stunden für die Suchanfragendurchführung konnte problemlos eingehalten werden. Danach wird die Internetverbindung des Rechners getrennt, um zu überprüfen, ob diese Methode die Seiten lokal verfügbar zu machen funktioniert. Bei der Suchanfrage „auktionen“ werden jedoch bei der Suchmaschine AltaVista drei und bei der Suchmaschine Lycos zwei Ergebnisseiten ohne Netzverbindung nicht angezeigt. Deshalb müssen diese nachträglich manuell auf Festplatte gespeichert und danach bei den Favoriten eingeordnet werden, wodurch der vorgegebene Zeitrahmen überschritten wurde. Durch diese „Korrektur“ zeigt sich, daß es notwendig ist direkt nach Durchführung der Suchanfrage zu überprüfen, ob alle Seiten korrekt wiedergegeben werden. Bei Bedarf müssen diese Seiten dann direkt anschließend manuell lokal gespeichert werden, um den Zeitrahmen von zwei Stunden einzuhalten. 3.2.2 Relevanzbeurteilung der Juroren Als Juroren werden zwei Personen ausgewählt, ein Mitarbeiter der Firma Suchtreffer und ein Dozent der Informationswissenschaft an der Universität Konstanz. Evaluierung hybrider Suchsysteme im WWW Seite 91 Da die eigentlichen Tests sowohl bei der Firma Suchtreffer als auch im CIP-Pool des Fachbereichs Informatik und Informationswissenschaft durchgeführt werden sollen, ist es notwendig je einen Test an jeder Örtlichkeit durchzuführen. Die Pretests der Relevanzbeurteilung der Juroren sollen insbesondere aufzeigen, ob das Testdesign Mängel in Bezug auf Faktoren wie benötigte Zeitdauer, persönliche Belastung,271 Aufgabenstellung oder Schulung aufweist. Der Test bei Suchtreffer verläuft sehr positiv. Er dauert ungefähr eine halbe Stunde. Im anschließenden Gespräch mit dem Probanden werden etwaige Problembereiche diskutiert. Laut Aussagen der Testperson, sei eine weitergehende „Schulung“ der Testperson, etwa durch eine Trainingsphase unnötig, da die Aufgabenstellung der Juroren auf dem Fragebogen hinreichend ausgeführt und erklärt und zudem intuitiv verständlich sei. Die Testdauer wird somit als angemessen betrachtet, eine Steigerung um ein Drittel durch die Hinzunahme von QualiGo als unkritisch gesehen. Ebenso wird von der Testperson ausgesagt, daß die Herkunft der Trefferseiten durch die Anordnung des Testdesigns nicht zu erschließen sei. Die Testanordnung mit der zweifachen Wiederholung unterschiedlicher Trefferlisten zu identischen Suchanfragen272 wird von der Testperson als unkritischer Faktor betrachtet, da die Treffer ja eindeutig zuzuordnen und bei etwaiger Unsicherheit bezüglich Dubletten wiederholt gesichtet werden könnten. Der zweite Pretest an der Universität verläuft hingegen eher negativ. Einerseits wird die Testanordnung an sich vom Probanden positiv beurteilt – insbesondere wird die zweifach wiederholte Anordnung der Trefferseiten aufgrund der Dublettenproblematik einer Zufallsanordnung vorgezogen – andererseit zeigte sich, daß das Verfahren der Suchanfragendurchführung modifiziert bzw. grundlegend neu konzipiert werden muß. Der Grund hierfür liegt in der Tatsache begründet, daß im CIP-Pool die „offline verfügbar machen“ Funktionalität des verwendeten Browsers gezielt deaktiviert war. Das obengenannte Verfahren, Webseiten lokal zu speichern, kann also nicht angewendet werden.273 271 Im weitesten Sinne, d.h. Monotonie, Überanstrengung usw. Vgl. 3.1.7. 273 Der Untersuchende machte auch nicht die Annahme, daß diese Funktionalität im benötigten Zeitraum zur Verfügung gestellt werden würde. 272 Evaluierung hybrider Suchsysteme im WWW Seite 92 Als Alternative wird der Aufbau einer „Testwebsite“274 beschlossen. Sie soll so aufgebaut sein, daß die Testpersonen auf einer Teststartseite eine jeweils für sie eingerichtete Webseite aktivieren, die wiederum Links zu den einzelnen Trefferlisten beinhaltet, über welche wiederum die einzelnen Trefferseiten gesichtet werden, werden können. Für den Aufbau dieser Website, mit deren Hilfe die 3000 Ergebnisseiten den Testpersonen zugänglich gemacht werden sollen, werden zusätzlich drei Tage veranschlagt. Um den Aufwand für und die Fehlerquote innerhalb dieser Website in Grenzen zu halten, wird beschlossen die Ergebnisseiten über „normierte“ Links zugänglich zu machen. Das bedeutet, daß die einzelnen Trefferlisten immer über gleich benannte Verknüpfungen, von a1 für die jeweils erste Trefferseite, bis t20 für die jeweils letzte Trefferseite jeder Suchanfrage, navigiert werden können. 275 Dies hat den Nachteil, daß die Juroren die Metainformation, die der Url beinhaltet, bei der Relevanzbeurteilung nicht berücksichtigen können. Dies ist eine Abweichung von der Realität, deren Auswirkung auf die Relevanzbeurteilung, vernachlässigt wird. Da allerdings die Trefferseiten an sich so realitätsnah wie möglich nachgebildet werden sollen, wird hier unterstellt, daß diese Abstraktion von der Realität das Testergebnis nicht verzerrt.276 Als Ergebnis des Pretests läßt sich also festhalten, daß die Testanordnung als solche von den Pretestprobanden positiv bewertet wird, Fehler und Probleme die auftraten waren technischer Natur und betreffen den Prozeß der Durchführung der Suchanfragen, welcher modifiziert werden muß. 3.3 Testdurchführung Die Durchführung der Tests konnte am 06.11.00, mit dem Start von QualiGo, beginnen. Im Folgenden soll aus strukturellen Gründen auch die Darstellung der Tests in die Durchführung der Suchanfragen und die Relevanzeinstufung der Juroren unterteilt, obwohl sie zum Großteil parallel durchgeführt werden. 274 Diese Testwebseite war vom 15.11.00 bis 01.12.00 unter der Adresse http://www.inf-wiss.unikonstanz.de/~griesbau/evaluation_html_files/ verfügbar. Auf der beiliegenden CD ist sie im Ordner Evaluation_html_files zugänglich. 275 Vgl. Anhang D: Beispiel für Fragebogen. 276 Konkret überprüft werden kann das aber nicht. Als Argumnet anführen läßt sich allerdings, daß Metainformationen im Internet nur begrenzte Aussagekraft besitzt bei der Relvanzbeurteilung den(vgl.3.1.3.1.1.2), insbesondere bei Frames besitzt die Url nur einen geringen Aussagewert, daß sie für alle Seiten einer solchen Framesite identisch ist. Evaluierung hybrider Suchsysteme im WWW Seite 93 3.3.1 Durchführung der Suchanfragen Die Durchführung der Suchanfragen ist nach den erforderlichen Remodifikationen aufwendiger als zuvor. Alle Dokumente müssen einzeln gespeichert und kontrolliert werden. Dabei zeigt sich, daß jedes 10-15 Dokument eine manuelle Nachbearbeitung erfordert. Dies ist insbesondere immer dann vonnöten, wenn eine Zielseite mittels Javascript ein Frameset “nachlädt“. Bei solchen Seiten wird so verfahren, daß solche Javascripts „manuell“ mittels Texteditor (Notepad) aus dem Quelltext entfernt werden. Eine weiteres Problem stellen Seiten dar, bei denen keine Verbindung zum Zielserver aufgebaut werden kann, diese werden so abgespeichert, daß der Juror eine weiße Seite ohne Inhalt zu sehen bekommt. Teilweise tritt auch die Schwierigkeit auf, daß innerhalb der Seiten „Container“, d.h. festgelegte Bereiche, dynamisch erzeugt und diese Bereiche absolut referenziert werden (z.B. Werbebanner). Können diese nicht statisch abgelegt werden, so werden sie vernachlässigt – falls der Untersuchende entschied, daß sie den für das Relevanzurteil belanglos seien.277 Ebenso wird entschieden Pop-up Fenster, die fast ausschließlich Werbung beinhalten, nicht nachzubilden. Eine identische lokale Abbildung der Webseiten kann also nicht in jedem Fall erreicht werden. Trotzdem wird hier die Annahme vertreten, eine weitestgehend mögliche Annäherung erzielt zu haben, die ausreicht Verzerrungen bei der Relevanzbeurteilung auszuschließen. Um dies abzusichern werden bei solchen, nicht identisch abbildbaren „Problemseiten“ Mitarbeiter bei Suchtreffer befragt, ob ihre Relevanzentscheidung beim Vergleich von lokaler Näherungskopie und Weboriginal identisch sei. Dies wird schließlich bei jeder nachbearbeiteten Seite erreicht. Bei Tests der lokal gesicherten Seiten mit dem Browser Netscape Communicator 4.7 werden ca. 5% der Seiten völlig falsch dargestellt. Dies läßt sich darauf zurückführen, daß gerade bei kommerziellen Seiten, häufig browserspezifische Versionen erstellt werden bzw. auf solche verzweigt wird. Da auch solche Seiten mit dem Internet Explorer gesichert werden, vermag Netscape solche lokale Kopien nicht korrekt darstellen – häufig verursachen solche Seiten einen Programm- oder sogar einen Systemabsturz. Das bedeutet, daß obwohl die 277 Dieser Vorgehensweise kann durchaus vorgeworfen werden eine unzulässige Vorzensur darzustellen, vgl. 2.4.2.3, andererseits scheint es ineffizient für die originalgetreue Nachbildung einzelner Webseiten mehr als eine Evaluierung hybrider Suchsysteme im WWW Seite 94 lokal gesicherten Ergebnisseiten, auf der Testwebsite für alle Browser zugänglich gemacht werden und der Netscape Browser von rund einem Drittel aller Internetnutzer eingesetzt wird,278 kann dieser bei der Relevanzbeurteilung nicht verwendet werden. Die Suchmaschine Lycos verwendet automatisch eine boolsche „Und-Verknüpfung“ eingebener Suchwörter, deshalb werden bei der voreingestellten Standardsuche bei einigen Anfragen weniger als 20 Treffer zurückgegeben, bei einer Anfrage sogar gar kein Treffer. Hier wird so vorgegangen, daß die zurückgebenen Treffer gespeichert werden und anschließend der voreingestellte Suchmodus von „alle Wörter in beliebiger Reihenfolge“ auf den Suchmodus „mindestens eines der Wörter“ umgestellt wird. Danach werden die Treffermengen vermengt. Die Treffer des modifizierten Suchmodus werden denen des Standardmodus angehängt, bis die notwendige Anzahl von 20 Treffern erreicht ist. Treten im modifizierten Suchmodus Treffer auf, die schon im Standardmodus referenziert wurden,279 so werden diese eliminiert. Die Tabelle veranschaulicht eine solche Situation. Suchanfrage Z: Treffer Standardmodus: A B C D E F (6 Treffer) Treffer modifizierter Modus: G H A I J K L M C N O P F Q R S T U V W X Elimination der doppelten Treffer A, C und F aus der zweiten Trefferliste Vereinigung der Treffermengen zur Treffermenge: A B C D E F G H I J K L M N O P Q R S T Stunde zu verwenden – gerade unter der Annhme, daß die weniger originalgetreue Abbildung dieselbe Relevanzbeurteilung durch den Juror aufweisen wird. 278 Siehe http://www.webhits.de/webhits/browser.htm (02.11.00). 279 Kriterium hierbei war der Url. Evaluierung hybrider Suchsysteme im WWW Seite 95 3.3.2 Relevanzbeurteilung der Juroren Ein Großteil der Tests mit den Juroren wird im Rahmen einer Lehrveranstaltung im CIP-Pool des Fachbereichs Informatik und Informationswissenschaft durchgeführt. Insgesamt werden hierzu 15 Tests vorbereitet. Da auf 9 Rechnern der Internet Explorer fehlerhaft konfiguriert und deshalb funktionsuntüchtig ist, müssen diese Testpersonen den Netscape Communicator verwenden. Diese Tests können, aufgrund der oben genannten Problematik browserspezifischer Webseiten, nicht verwertet werden und werden mit anderen Testpersonen erneut durchgeführt. Dies verlängert den Zeitraum für die Testdurchführung um eine Woche. Von den 25 Tests werden 4 bei der Firma Suchtreffer und 21 im Fachbereich an der Universität durchgeführt. Die Testpersonen sind entweder Mitarbeiter der Firma Suchtreffer oder Studenten oder Dozenten der Universität, überwiegend aus dem Fachbereich Informatik und Informationswissenschaft. Das Profil der Testpersonen ist in den folgenden Tabellen zusammengefaßt. Alter 0-20 21-30 31-40 Anzahl 2 16 9 Computer-/Softwarekenntnisse Anfänger Fortgeschrittene(r) Experte Anzahl 0 16 11 Web Nutzungsgrad selten bis nie mehrmals pro Woche täglich Anzahl 0 9 18 Suchmaschinennutzung selten bis nie mehrmals pro Woche täglich Anzahl 0 13 14 Der überwiegende Teil der Juroren ist der mittleren Altersstufe zuzuordnen. Bis auf drei Teilnehmer sind alle Probanden Studenten oder besitzen einen universitären Abschluß. Die Juroren besitzen eine sehr hohe Kompetenz im Bereich der Web- und Suchmaschinennutzung, kein Proband stuft sich im Bereich Computer und Softwarenutzung als Anfänger ein. Bezogen auf die in Kapitel 3.1.3.1.3 definierten Anforderungskriterien erreichen die Testpersonen ein hohes Kompetenzniveau. Evaluierung hybrider Suchsysteme im WWW Seite 96 Die Dauer für die Durchführung der Tests variiert von einer halben bis zu zweieinhalb Stunden. Eine solche Bandbreite ist unerwartet, und läßt sich nur teilweise durch die unterschiedliche Komplexität der Suchanfragen erklären. Vielmehr werden durch anschließende Gespräche mit den Probanden unterschiedliche Verhaltensweisen deutlich. Während der überwiegende Teil die zu bewertenden Seiten nur kurz und überblicksartig „scannt“,280 betrachtet eine Minderheit die Ergebnisseiten ausführlicher. Keine Testperson äußert sich dahingehend, daß die Tests zu lange dauern würden. Die Testanordnung wird von den Testpersonen, mit einer Ausnahme, positiv beurteilt. Diese Person bemängelt, daß die Suchanfragen mangelhaft vorbereitet seien, da die Suchmaschinen in keinem Fall, so viele Fehlerseiten zurückgeben würden. Eine nachträgliche Überprüfung ergibt jedoch, daß die Ergebnisseiten auch bei dieser Person korrekt wiedergegeben wurden. Bei der Suchanfrage „weltraumschrott gefahren“ äußert der entsprechende Juror Zweifel, ob die Ergebnisseiten einer Suchmaschine „korrekt sein könnten.“ Die bemängelte Trefferliste ist die der Suchmaschine QualiGo, die auf diese Suchanfrage überwiegend Seiten von Schrott- und Autohändlern referenziert. Dies könnte ein Hinweis dahingehend sein, daß das bei QualiGo bei der Indexierung verwendete Stemmingverfahren281 bei Suchanfragen die aus präkoordinierten Wörtern bestehen, problematisch sein kann, weil es im Extremfall zu „völlig irrelevanten Ergebnissen“282 führt. Ein Juror merkt an, daß er die Suchanfrage für das ihm vorliegende Informationsbedürfnis anders formulieren würde. Einige Juroren geben an, die Kontextinformation, die der Url vermittelt, vermißt zu haben, während andere meinen, allein der Inhalt der zu beurteilenden Seite sei wichtig, da die Angabe der Url nur dazu diene, auf den Trefferlisten der Suchmaschinen die Vorauswahl zu erleichtern. Insgesamt verlaufen die Tests also, abgesehen von der fehlerhaft konfigurierten Software im CIP-Pool, ohne größere Probleme. Das Testdesign wird überwiegend positiv beurteilt und erscheint insofern geeignet um Retrievaltests durchzuführen. Ein Punkt, der bei einer 280 Jakob Nielsen, How users read on the web, siehe http://www.useit.com/alertbox/9710a.html (03.12.00). Stammformreduktion: Wörter werden durch Abtrennung der Flexions- und Derivationsendungen auf ihren Stamm reduziert. Bsp.: computer, compute, computation, computerization zu comput. Siehe http://wwwis.informatik.uni-oldenburg.de/glossaries/ir.html (03.12.00). 282 Zitat Juror. 281 Evaluierung hybrider Suchsysteme im WWW Seite 97 Wiederholung, verbessert werden sollte, ist es, den Probanden bei der Beurteilung der Ergebnisseiten die Originalurl zur Verfügung zu stellen. Evaluierung hybrider Suchsysteme im WWW Seite 98 3.4 Ergebnisanalyse Die Analyse der Ergebnisse wird in drei Teilen vorgenommen. Die Retrievaleffektivitätsbewertung wird anhand der additiven Betrachtung der Top20 Precision und der Effektivität bei den einzelnen Suchanfragen ermittelt.283 Zunächst sind die zwei Testhypothesen zu überprüfen. Dazu sollen die zu berechnenden Ergebnisse deskriptiv bestimmt und anschließend auf statistische Signifikanz hin überprüft werden. Um die Differenzen in Abhängigkeit der verschiedenen Suchanfragetypen bezüglich Suchwortanzahl und Art der Fragestellung zu erfassen, ist desweiteren die Effektivität bei den Einwort- und Mehrwortanfragen, sowie den offenen und geschlossenen Suchanfragen zu bestimmen. Abschließend soll die „Expected Search Length“ ermittelt werden, um festzustellen, welche Suchmaschine bei geschlossenen Fragestellungen das Informationsbedürfnis am „schnellsten“ befriedigt. 3.4.1 Überprüfung der Testhypothesen 3.4.1.1 Testhypothese „hybride Systeme“ Die erste Testhypothese sagt aus, daß hybride Systeme eine höhere Retrievaleffektivität erreichen, als rein roboterbasierte Systeme. Ist diese Aussage zu verifizieren? 283 Vgl.3.1.3.1.1.3 Evaluierung hybrider Suchsysteme im WWW Seite 99 Top20 Precision - alle Suchanfragen 0,7 0,6 Precision 0,5 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 7 8 9 10 11 12 0,4 13 14 15 16 17 18 19 20 0,62 0,52 0,493 0,475 0,452 0,437 0,42 0,425 0,413 0,408 0,409 Lycos 0,6 0,56 0,513 0,525 0,512 0,49 0,491 0,473 0,467 0,44 0,444 0,442 0,435 0,421 0,416 0,41 0,406 0,398 0,389 0,379 AltaVista 0,64 0,53 0,533 0,525 0,508 0,477 0,457 0,44 0,442 0,436 0,427 0,42 0,415 0,409 0,411 0,405 0,396 0,387 0,385 0,382 QualiGo 0,389 0,38 0,383 0,378 0,371 0,369 0,366 0,365 Anzahl Treffer Abbildung 2 – Top20 Precision – alle Suchanfragen Die Betrachtung der Top20 Precision zeigt, daß der Recall-Precision-Graph von AltaVista bei jedem Rangplatz höhere Werte als der Recall-Precision-Graph von QualiGo erreicht. Für Lycos gilt im Vergleich mit QualiGo, mit Ausnahme des ersten Rangplatzes, dasselbe. Die Graphen von AltaVista und Lycos überschneiden sich hingegen mehrfach, so daß nicht unmittelbar ersichtlich wird, welches der beiden Systeme in dieser Sichtweise eine höhere Effektivität erreicht. Das aggregierte Gesamtergebnis über die ersten 20 Treffer, die Mean Average Precision, beträgt bei: Lycos = 0,4605 AltaVista = 0,4512 QualiGo = 0,4236 Lycos referenziert also knapp ein Prozent mehr relevante Dokumente als AltaVista und knapp vier Prozent mehr als QualiGo. Das hybride System Lycos liefert in absoluten Zahlen über alle Suchanfragen hinweg die besten Ergebnisse. Sind diese Unterschiede statistisch valide?284 284 Der Vorzeichentest wird einseitig unternommen, da Aufgrund der höheren absoluten Mean Average Precision stets unterstellt wird, daß Lycos, bzw. im Vergleich zwischen AltaVista und QualiGo, AltaVista überlegen ist. Der Vorzeichentest kann auf der beiliegenden CD im Ordner Auswertung in der Datei auswertung_qualigo.xls unter Evaluierung hybrider Suchsysteme im WWW Seite 100 Vergleicht man Lycos und AltaVista, so sind bei den 20 Vergleichspaaren 19 Paare mit unterschiedlichen Werten belegt. Dabei erreicht Lycos 16mal und AltaVista dreimal den höheren Wert. Beim Vergleich von Lycos und AltaVista ergibt sich eine Wahrscheinlichkeit für das Zutreffen der Gegenhypothese von 0,002.285 Beim Vergleich zwischen Lycos und QualiGo ist die Wahrscheinlichkeit für das Zutreffen der Gegenhypothese nahezu Null.286 Die Nullhypothese,287 die aussagt, daß es hinsichtlich der Retrievaleffektivität keine Unterschiede zwischen den untersuchten Systemen gibt, läßt sich also zurückweisen. Aus der Sichtweise der Top20 Precision ist die Testhypothese damit statistisch verifiziert, da Lycos signifikant höherer Werte als die beiden anderen Systeme erreicht. Beim Vergleich von AltaVista und QualiGo zeigt sich, daß AltaVista eine signifikant höhere Top20 Precision erreicht als QualiGo. Das heißt, daß zwischen den beiden Systemen, die ausschließlich roboterbasierte Treffer zurückgaben,288 ebenfalls signifikante Unterschiede bestehen. In Bezug auf die Top20 Precision gibt es also eine eindeutige Reihenfolge in Hinblick auf die erreichte Effektivität. Lycos ist das effektivste Retrievalsystem, gefolgt von AltaVista und an letzter Stelle steht QualiGo. Da aber ein Vergleich der Top20 Precision nur aussagt, welches System in der Lage ist, die größte Anzahl relevanter Treffer zurückzugegeben, aber nicht, welches System die einzelnen Suchanfragen am besten beantwortet, ist zu prüfen, welche Retrievaleffektivität die Suchmaschinen bei den einzelnen Suchanfragen erzielen. der Zelle B85 „Vorzeichensignifikanztest“ nachvollzogen werden. Zur Verdeutlichung der Vorgehensweise ist ein Vorzeichentest exemplarisch in Anhang E aufgeführt. Vgl. Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.66. 285 Für N=19 und x=3 ist P(Gegenhypothese)=0,002. Vgl. Ebd. Tabelle D im Anhang, S.236. 286 Ebd. 287 Vgl.3.1.9. 288 Bei QualiGo werden vermutlich in den nächsten Wochen die ersten redaktionellen Einträge vorgenommen. Evaluierung hybrider Suchsysteme im WWW Seite 101 Beantwortung der Suchanfragen * Anzahl Suchanfragen 30 25 20 15 10 5 0 1 2 3 QualiGo 16 20 14 Lycos 24 16 10 AltaVista 20 18 12 Rangplatz Abbildung 3 – Beantwortung der Suchanfragen *Bei gleichhoher Precision wurden Rangplätze auch mehrfach vergeben. Die Tabelle besagt, daß z.B. QualiGo im Vergleich mit den anderen Maschinen bei den 50 Suchanfragen 16 mal die höchste, 20 mal die zweithöchste und 14 mal die niedrigste Zahl relevanter Treffer zurückgibt. Lycos weist auch bei dieser Betrachtungsweise die höchste Retrievaleffektivität auf. Diese Suchmaschine ist am häufigsten (24 mal) bei den einzelnen Suchanfragen die effektivste und am wenigstens häufig (10 mal) die uneffektivste Suchmaschine. Hinzu kommt, daß Lycos zu jeder Suchanfrage mindestens einen relevanten Treffer referenzieren kann. Altavista liegt im Mittelfeld und kann zu einer Suchanfrage kein relevantes Dokument nachweisen. Qualigo fällt auch in dieser Sichtweise zurück, da diese Suchmaschine am wenigsten häufig (16 mal) die leistungsfähigste, aber am häufigsten (14 mal) die ineffektivste Suchmaschine ist. Hinzu kommt, daß QualiGo bei drei Suchanfragen keine relevanten Treffer zurückgeben kann. Das ist eine „Ausfallquote“ von rund 6 Prozent. Sind die Unterschiede zwischen den Suchmaschinen auch bei der Betrachtung der Effektivität bei den einzelnen Suchanfragen signifikant? Führt man den Vorzeichentest289 durch, so zeigt sich, daß die Ergebnisse statistisch nicht signifikant sind. Evaluierung hybrider Suchsysteme im WWW Seite 102 Die Wahrscheinlichkeit für das Eintreten der Nullhypothese die aussagt, daß es hinsichtlich der Retrievaleffektivität keine Unterschiede zwischen den untersuchten Systemen gibt, liegt im Vergleich Lycos und AltaVista bei 50%, beim Vergleich Lycos und QualiGo bei 33%. Auch beim Vergleich Altavista und QualiGo ergibt sich eine Wahrscheinlichkeit für das Zutreffen der Nullhypothese von 44%. D.h. es kann nicht davon ausgegangen werden, daß es statistisch valide Unterschiede zwischen den untersuchten Suchmaschinen gibt. Bei dieser Betrachtungsweise scheinen sie vielmehr in gleichem Maße effektiv zu sein. Allerdings bleibt bei dieser rein quantitativen Betrachtung, der qualitative Unterschied zwischen liefert „die wenigsten Treffer“ und „kann die Suchanfrage überhaupt nicht beantworten“ unbeachtet. Dabei ist es ein erheblicher Unterschied, ob eine Suchmaschine eine Suchanfrage, wenn auch eher schlecht, beantworten kann oder nicht. Allerdings kann dieser Unterschied nicht adäquat quantifiziert werden, weshalb darauf verzichtet wird, diesen, z.B. durch die Vergabe von “Strafpunkten“, in die Berechnung miteinzubeziehen. Festzuhalten ist allerdings, daß Lycos zu jeder Suchanfrage zumindest ein relevantes Dokument unter den ersten 20 nachweist. Die Wahrscheinlichkeit bei einer Suchanfrage eine Lösung zu referenzieren ist also bei Lycos am größten. Faßt man diese Aussagen zusammen, so läßt sich die Testhypothese •hybride Systeme erreichen eine höhere Retrievaleffektivität als rein roboterbasierte Systeme am exemplarischen Beispiel der Suchmaschine Lycos nicht eindeutig verifizieren. Lycos gibt zwar die höchste Anzahl relevanter Dokumente zurück, dennoch läßt sich nicht aussagen, daß diese Suchmaschine Suchanfragen generell am besten beantwortet. Andererseits ist Lycos wiederum diejenige Suchmaschine im Testfeld, die als einzige zu jeder Suchanfrage eine relevante Antwort referenziert. Je nach Interpretation läßt sich also die These verifizieren oder falsifizieren. Da in dieser Untersuchung die Ansicht vertreten wird, daß nur dann, wenn beide Bedingungen erfüllt sind, eine höhere Retrievaleffektivität eindeutig zugeordnet werden kann,290 ist die These nicht verifiziert. Lycos erreicht als exemplarischer Vertreter hybrider Suchmaschinen in dieser Evaluation keine signifikant höhere Retrievaleffektivität als die anderen Systeme. 289 290 Zur Verdeutlichung ist dieser Vorzeichentest exemplarisch in Anhang E aufgeführt. Vgl. 3.1.3.1.1.3 Evaluierung hybrider Suchsysteme im WWW Seite 103 3.4.1.2 Testhypothese „redaktionelle Treffer“ Die zweite Testhypothese sagt aus redaktionell erzeugte Treffer bewirken eine höhere Effektivität des hybriden Retrievalsystems. Ist diese These korrekt? Insgesamt basieren von den 1000 von Lycos zurückgegebenen Treffer 260 auf einer redaktionellen Bearbeitung, von diesen sind wiederum 114 als relevant bewertet. Die Precision aller redaktioneller Treffer beträgt nach der Mikromethode also 0,438. Die Precision der roboterbasierten Treffer beträgt für alle 740 roboterbasierten Treffer zusammengenommen 0,3598, ist somit erheblich niedriger, insofern scheint die Hypothese zuzutreffen. Aufgrund der geringen Anzahl redaktioneller Treffer soll beim direkten Vergleich bezüglich der Mean Average Precision so verfahren werden, daß verglichen wird, ob Lycos mit den hybriden Treffern eine höhere Precision aufweist als ohne. Bei der Darstellung ohne redaktionelle Treffer werden diese aus den Treffermengen eliminiert und die nächsten roboterbasierten Treffer nachgerückt. Suchanfrage Y: Trefferliste mit redaktionellen Treffern: H1 H2 R1 R2 R3 R4 R5 R6 R7 H3 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17 Eliminierung redaktioneller Treffer: R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17 *Die Tabelle erläutert das Verfahren: Die Suchanfrage Y liefert die erste Trefferliste, aus dieser werden die redaktionellen Treffer H(x) eliminiert und die roboterbasierten Treffer R(x) nachgerückt. Weil maximal acht redaktionelle Treffer pro Suchanfrage refernziert werden, kann der Vergleich nur bis zur Top12 Precision durchgeführt werden, da ab Treffer 13 die Anzahl der Treffer unterschiedlich hoch ist und deshalb ein direkter Vergleich unzulässig wäre. Evaluierung hybrider Suchsysteme im WWW Seite 104 Lycos hybrid vs Lycos roboterbasiert 0,7 0,6 0,5 Precision 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 7 8 9 10 Lycos 0,6 0,56 0,5133333 0,525 0,512 0,49 0,4914286 0,4725 0,4666667 0,44 0,4436364 0,4416667 11 12 Lycos roboterbasiert 0,56 0,5 0,48 0,495 0,476 0,47 0,4342857 0,42 0,4111111 0,398 0,3909091 0,3816667 Anzahl Treffer Abbildung 4 – Lycos hybrid vs. Lycos roboterbasiert Top12 Precision Der Vorzeichentest ergibt eine Wahrscheinlichkeit für das Zutreffen der Nullhypothese, redaktionell erzeugte Treffer bewirken keine höhere Effektivität des hybriden Retrievalsystems, von nahezu Null. Daraus folgt, die Top12 Precision von Lycos ist mit der Verwendung redaktioneller Treffer signifikant höher als bei ausschließlichen Verwendung roboterbasierter Treffer. Die Top12 Mean Average Precision beträgt bei der Verwendung redaktioneller Treffer 0,4966, bei der ausschließlichen Verwendung roboterbasierter Treffer 0,4514. Wie wirken sich die redaktionellen Treffer bei den einzelnen Suchanfragen auf die Retrievaleffektivität aus? Evaluierung hybrider Suchsysteme im WWW Seite 105 beruhend auf Top 12 Precision 30 Anzahl Suchanfragen 25 20 15 10 5 0 Reihe1 hybrid höher kein Unterschied roboterbasiert höher 25 17 8 Retrievaleffektivität Abbildung 5 – Beantwortung der Suchanfragen Lycos hybrid vs. Lycos roboterbasiert Bei 17 von 50 Suchanfragen gibt es keine Unterschiede bei 8 Suchanfragen wird eine höhere Retrievaleffektivität bei ausschließlicher Verwendung roboterbasierter Treffer erzielt. Bei der Hälfte der Suchanfragen ist der hybride Ansatz überlegen. Der Signifikanztest bestimmt eine Wahrscheinlichkeit für das Zutreffen der Nullhypothese von nahezu Null. Das bedeutet, die redaktionellen Treffer bewirken auch bei der Beantwortung der Suchanfragen eine statistisch valide höhere Retrievaleffektivität. Da sowohl bei der Top12 Precision, als auch bei den einzelnen Suchanfragen selbst, die redaktionellen Treffer eine höhere Effektivität des hybriden Systems bewirken, ist die zweite These verifiziert. Daraus folgt, daß der hybride Ansatz mit der Einbindung von Katalogeinträgen zumindest für Lycos selbst sinnvoll ist, da er eine höhere Retrievaleffektivität bewirkt. Da aber Lycos den anderen Suchmaschinen bei beiden untersuchten Maßzahlen, der Top20 Precision und der Effektivität bei den einzelnen Suchanfragen, nicht signifikant überlegen ist, stellt sich die Frage, ob die Roboterkomponente von Lycos, im Vergleich zu den anderen Systemen, ineffektiver ist, so daß die redaktionellen Treffer dieses Defizit lediglich zu kompensieren vermögen. Evaluierung hybrider Suchsysteme im WWW Seite 106 Lycos roboterbasiert vs AltaVista & QualiGo Top12 Precision 0,7 0,6 0,5 Precision 0,4 0,3 0,2 0,1 0 QualiGo 1 2 3 4 5 6 7 8 9 10 11 12 0,62 0,52 0,493333 0,475 0,452 0,436667 0,42 0,425 0,413333 0,408 0,409091 0,4 0,47 0,434286 0,42 0,411111 0,398 0,390909 0,381667 0,476667 0,457143 0,44 0,442222 0,436 0,427273 Lycos roboterbasiert 0,56 0,5 0,48 0,495 0,476 AltaVista 0,64 0,53 0,533333 0,525 0,508 0,42 Trefferanzahl Abbildung 6 – Lycos roboterbasiert vs. AltaVista & QualiGo Top12 Precision Die Mean Average Precision beträgt in diesem Fall bei: Lycos roboterbasiert = 0,4514 AltaVista = 0,4863 QualiGo = 0,4560 AltaVista erzielt in diesem Vergleich die höchsten Precisionwerte, QualiGo erreicht ebenso leicht höhere Werte als Lycos ohne redaktionelle Treffer. Der Unterschied zwischen AltaVista und Lycos (roboterbasiert) ist dabei signifikant. Der zwischen QualiGo und Lycos (roboterbasiert) nicht.291 Bei der Beantwortung der Suchanfragen zeigt sich, daß Lycos unter Verwendung ausschließlich roboterbasierter Treffer hinter AltaVista zurückfällt, auch Qualigo ist weniger häufig diejenige Suchmaschine, die die geringste Effektivität bei einzelnen Suchanfragen aufweist. 291 Die Irrtumswahrscheinlichkeit beträgt rund 19%. Evaluierung hybrider Suchsysteme im WWW Seite 107 Beantwortung der Suchanfragen bei Top12 Precision 30 25 Anzahl Suchanfragen 20 15 10 5 0 eins zwei drei Lycos roboterbasiert 16 17 17 AltaVista 24 18 8 QualiGo 15 24 11 Rangplatz Abbildung 7 – Beantwortung der Suchanfragen bei Top12 Precision Der Vorzeichentest ergibt, daß die Unterschiede zwischen AltaVista und Lycos (roboterbasiert) auch in diesem Fall signifikant sind. Die Unterschiede zwischen Lycos (roboterbasiert) und QualiGo sind dagegen nicht signifikant. Lycos weist also gegenüber AltaVista ohne die redaktionellen Einträge, sowohl bei der Top12 Precision, als auch bei den einzelnen Suchanfragen selbst, eine signifikant geringere Retrievaleffektivität auf. Daraus läßt sich die Schlußfolgerung ziehen, daß die roboterbasierten Komponenten von Lycos eine merkbar geringere Retrievaleffektivität aufweisen, als die Suchmaschine AltaVista. Die redaktionellen Treffer vermögen dieses Defizit von Lycos zwar zu kompensieren, bewirken aber keine Überlegenheit des hybriden Systems Lycos gegenüber den anderen Suchmaschinen. Deshalb soll die These aufgestellt werden, daß die Roboterkomponente von Lycos derart schlecht ist, daß sich die Vorteile des hybriden Ansatzes beim Vergleich mit den anderen Suchmaschinen, nicht in einer, im Vergleich, höheren Gesamtsystemleistung auswirken. 3.4.2 Effektivität bei verschiedenen Suchanfragetypen Im folgenden sollen die Ergebnisse für verschieden Anfragetypen dargestellt werden. Damit soll aufgezeigt werden, ob und wie die Retrievaleffektivität der Suchmaschinen von der Art Evaluierung hybrider Suchsysteme im WWW Seite 108 der Fragestellung, ob offen oder geschlossen, oder der Anzahl der verwendeten Suchbegriffe, das heißt der Spezifität der Fragestellung,292 abhängt. Ergänzend ist die „Expected Search Length“ bei geschlossenen Fragestellungen festzuhalten werden, um zu ermitteln welche Suchmaschine am „schnellsten“ eine korrekte Antwort liefern kann. 3.4.2.1 Einwortanfragen Die Einwortanfragen verkörpern in dieser Untersuchung die Suchanfragen mit der geringsten Spezifität. Bei den Anfragen „sms“, „mp3“ und „chat“ sind beispielsweise viele verschiedartige Antworten möglich, da die Relevanzkriterien eher weit gefaßt sind.293 Top20 Precision - Einwortanfragen 1 0,9 0,8 0,7 Precision 0,6 0,5 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 QualiGo 0,867 0,733 0,711 0,683 0,64 0,633 0,619 0,675 0,659 0,653 0,655 0,639 0,631 0,629 0,622 0,608 0,588 0,574 0,579 0,563 Lycos 0,667 0,667 0,533 0,6 0,587 AltaVista 0,867 0,767 0,733 0,7 0,707 0,689 0,648 0,625 0,637 0,62 0,606 0,583 0,574 0,562 0,56 0,558 0,553 0,533 0,516 0,507 0,6 0,6 0,592 0,585 0,553 0,564 0,55 0,533 0,519 0,516 0,508 0,498 0,493 0,481 0,467 Anzahl Treffer Abbildung 8 – Top20 Precision - Einwortanfragen Die Mean Average Precision bei den 15 Einwortanfragen beträgt bei: Lycos = 0,7407 AltaVista = 0,8641 QualiGo =0,8363 292 Es wird davon ausgegangen, daß ein solcher Zusammenhang besteht. Die Steigerung der Spezifität des Informationsbedürfnisses mit zunehmender Suchwortanzahl wird auch durch die hier verwendeten Suchanfragen untermauert. Vgl. Anhang – Suchanfragenübersicht. Das Problem der hohen Spezifität präkoordinierter Einwortbegriffe wie „Informationsressourcenmanagement“ wird vernachlässigt. 293 Vgl. Suchanfragenübersichtstabelle im Anhang. Evaluierung hybrider Suchsysteme im WWW Seite 109 Die Precision ist also rund 30-40% höher als bei allen Suchanfragen. Erstaunlich ist, daß Lycos, die Suchmaschine, die im Gesamtergebnis den ersten Rang einnimmt bei den Einwortanfragen an letzter Stelle steht. Die besten Ergebnisse erzielt AltaVista. Der Vorzeichentest ergibt, daß die Unterschiede zwischen QualiGo und AltaVista nicht signifikant sind,294 die Unterschiede zwischen AltaVista und Lycos und QualiGo und Lycos aber sehr wohl.295 Für die einzelnen Suchanfragen ergibt sich folgendes Bild. Beantwortung der Einwortsuchanfragen 9 8 7 Anzahl Suchanfragen 6 5 4 3 2 1 0 1 2 3 QualiGo 8 6 1 Lycos 6 4 5 AltaVista 4 7 4 Rangplatz Abbildung 9 – Beantwortung der Einwortsuchanfragen QualiGo erreicht hier die höchsten Effektivitätswerte. Die Werte bei Lycos und QualiGo lassen aber keinen eindeutigen Schluß zu, welches Systeme tatsächlich „effektiver“ ist, da der Vorzeichentest keinerlei signifikante Unterschiede ergibt. Es läßt sich also nicht aussagen, welches System einzelne Einwortsuchanfragen am besten beantwortet. 294 295 Die zweiseitige Wahrscheinlichkeitswert für die Nullhypothese beträgt 0,058. Hier liegt die Irrtumswahrscheinlichkeit bei nahezu 0. Evaluierung hybrider Suchsysteme im WWW Seite 110 3.4.2.2 Mehrwortanfragen Die Mehrwortanfragen umfassen überwiegend Zweiwortanfragen (22 Suchanfragen), aber auch Anfragen mit mehr als zwei Suchwörtern (13 Suchanfragen). Die Mehrwortanfragen beinhalten spezifischere Suchanfragen als die Einwortanfragen.296 Top20 Precision Mehrwortsuchanfragen 0,6 0,5 Precision 0,4 0,3 0,2 0,1 0 1 2 3 0,4 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 QualiGo 0,514 0,429 0,386 0,371 0,352 0,335 0,318 0,308 0,303 0,304 0,298 0,286 0,273 0,28 0,279 0,277 0,281 0,275 0,28 Lycos 0,571 0,514 0,505 0,493 0,48 0,443 0,445 0,421 0,416 0,397 0,392 0,395 0,393 0,38 0,373 0,368 0,366 0,357 0,35 0,341 AltaVista 0,514 0,414 0,438 0,443 0,417 0,381 0,371 0,361 0,359 0,357 0,351 0,35 0,347 0,343 0,347 0,339 0,329 0,324 0,329 0,329 Trefferanzahl Abbildung 10 – Top20 Precision Mehrwortsuchanfragen Bei den Mehrwortanfragen ergibt sich bezüglich der Top20 Precision eine eindeutige Rangfolge. Das hybride System Lycos erzielt auf jedem Rangplatz den höchsten Precisionswert, gefolgt von AltaVista. AltaVista erzielt wiederum, mit Ausnahme des zweiten Rangplatzes, immer höhere Werte als QualiGo. Der Vorzeichentest ergibt, daß die Unterschiede in beiden Fällen signifikant sind. Die Mean Average Precision beträgt bei: Lycos = 0,4201 AltaVista = 0,3721 QualiGo = 0,3274 Bei der Betrachtung der einzelnen Suchanfragen ergibt sich folgendes Bild. 296 Vgl. z.B. Einwortsuchanfrage „sms“ mit Mehrwortsuchanfrage „sms sprüche“, siehe Suchanfragenübersichtstabelle im Anhang. Evaluierung hybrider Suchsysteme im WWW Seite 111 Beantwortung der Mehrwortsuchanfragen 20 18 16 Anzahl Suchanfragen 14 12 10 8 6 4 2 0 1 2 3 QualiGo 8 14 13 Lycos 19 11 5 AltaVista 15 11 9 Rangplatz Abbildung 11 – Beantwortung der Mehrwortsuchanfragen Lycos erreicht auch hier die höchste Effektivität, gefolgt von AltaVista. QualiGo ist am wenigsten effektiv. Der Vorzeichentest ergibt, daß Lycos signifikant effektiver ist als QualiGo. Der Vergleich von Lycos und AltaVista und der Vergleich von Altavista und Qualigo ergeben allerdings keine signifikanten Unterschiede. So läßt sich festhalten, daß Lycos bei den Mehrwortanfragen die höchste Retrievaleffektivität erzielt und dabei signifikant höhere Werte erreicht als QualiGo. Bei Mehrwortanfragen ist Lycos somit effektiver als QualiGo. 3.4.2.3 Offene Fragestellungen Bei offenen Fragestellungen werden die Informationsbedürfnisse der Nutzer nicht durch den Nachweis der „einen richtige Antwort“ befriedigt. Vielmehr soll häufig zunächst ein erster Überblick gewonnen werden, da man oft nicht exakt weiß, wonach man mit welchen Begriffen suchen soll („anomalous state of knowledge“).297 Wie effektiv sind die Suchmaschinen darin, solche Arten von Informationsbedürfnissen zu befriedigen? Evaluierung hybrider Suchsysteme im WWW Seite 112 Top20 Precision bei offenen Fragestellungen 0,7 0,6 Precision 0,5 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 QualiGo 0,595 0,486 0,495 0,48 0,459 0,446 0,421 0,432 0,417 0,408 0,405 0,394 0,383 0,373 0,375 0,372 0,367 0,368 0,366 0,366 Lycos 0,541 0,541 0,514 0,527 0,524 0,491 0,483 0,466 0,462 0,438 0,44 0,441 0,437 0,429 0,423 0,416 0,409 0,399 0,39 0,377 AltaVista 0,649 0,514 0,541 0,527 0,503 0,464 0,444 0,432 0,435 0,43 0,428 0,423 0,422 0,419 0,422 0,414 0,404 0,395 0,397 0,396 Trefferanzahl Abbildung 12 – Top20 Precision bei offenen Fragestellungen Die Mean Average Precision beträgt bei: Lycos = 0,4573 AltaVista = 0,4528 QualiGo = 0,4204 Lycos erzielt auch hier die höchsten Werte, AltaVista liegt an zweiter Stelle, gefolgt von QualiGo, allerdings sind die Unterschiede relativ gering. Der Vorzeichentest ermittelt keine statistisch signifikanten Unterschiede zwischen Lycos und AltaVista, sagt aber zugleich aus, daß beide Maschinen eine signifikant höhere Retrievaleffektivität aufweisen als QualiGo. QualiGo ist also hinsichtlich der Top20 Precision bei offenen Suchanfragen weniger effektiv als AltaVista und Lycos. Bezogen auf die einzelnen Suchanfragen zeigt sich folgendes Bild 297 Bernhard Bekavac, Tutorial zur Suche im WWW/Internet (1.2), http://www.inf-wiss.unikonstanz.de/suche/such_tutorial.html (06.12.00). Evaluierung hybrider Suchsysteme im WWW Seite 113 Beantwortung der Suchanfragen bei offenen Fragestellungen 18 16 Anzahl Suchanfragen 14 12 10 8 6 4 2 0 1 2 3 8 14 12 Lycos 15 11 8 AltaVista 17 10 7 QualiGo Rangplatz Abbildung 13 – Beantwortung der Suchanfragen bei offenen Fragestellungen QualiGo ist auch bei dieser Sichtweise die ineffektivste Suchmaschine, während AltaVista effektiver als Lycos erscheint. Die Signifikanzüberprüfung ergibt jedoch zwischen AltaVista und Lycos, und AltaVista und Qualigo keine statistisch validen Unterschiede, aber zwischen Lycos und Qualigo.298 Das heißt, bei offenen Fragestellungen erreicht Lycos eine signifikant höhere Retrievalleistung als QualiGo, über die anderen Vergleichseinheiten lassen sich keine statistische abgesicherten Aussagen fällen. 3.4.2.4 Geschlossene Fragestellungen Bei den geschlossenen Fragestellungen lassen sich die Informationsbedürfnisse durch die erste relevante Antwort befriedigen. Wie wirkungsvoll vermögen die untersuchten beantworten? 298 Mit einer Irrtumswahrscheinlichkeit von 1,5%. Systeme solche Suchanfragen zu Evaluierung hybrider Suchsysteme im WWW Seite 114 Top20 Precision geschlossene Fragestellungen 0,6 0,5 Precision 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 7 8 9 10 11 12 QualiGo 0,4017094 0,4076923 0,4195804 0,4166667 0,408284 0,4010989 0,4051282 0,3942308 0,3800905 0,3717949 0,3684211 0,3615385 Lycos 0,4786325 0,4615385 0,4545455 0,4423077 0,4319527 0,4010989 0,3948718 0,3942308 0,3981901 0,3931624 0,388664 0,3846154 AltaVista 0,4615385 0,4538462 0,4265734 0,4102564 0,3964497 0,3791209 0,3794872 0,3798077 0,3755656 0,3632479 0,3522267 0,3423077 Trefferanzahl Abbildung 14 – Top20 Precision geschlossene Suchanfragen Die Mean Average Precision beträgt bei Lycos = 0,4705 AltaVista = 0,4368 QualiGo = 0,4327 Lycos erreicht also auch bei den geschlossenen Suchanfragen die höchste Mean Average Precision. Die Unterschiede zwischen AltaVista und QualiGo sind minimal und nicht signifikant. Lycos erzielt aber signifikant höhere Effektivitätswerte als die beiden anderen Suchmaschinen. Die Effektivitätswerte erreichen daselbe Niveau wie bei den offenen Fragestellungen. Die Art der Fragestellung hat also, wenn überhaupt, nur geringfügigen Einfluß auf die Retrievaleffektivität. Betrachtet man die einzelnen Suchanfragen, so zeigt sich folgendes Bild. Evaluierung hybrider Suchsysteme im WWW Seite 115 Beantwortung der geschlossenen Suchanfragen 8 7 Anzahl Suchanfragen 6 5 4 3 2 1 0 Rang1 Rang2 Rang3 QualiGo 7 4 2 Lycos 7 5 1 AltaVista 3 6 4 Rangplatz Abbildung 15 – Beantwortung der geschlossenen Suchanfragen Lycos und QualiGo erscheinen aus dieser Sichtweise besser als AltaVista, der Vorzeichentest läßt allerdings keine signifikanten Unterschiede vermuten. Es läßt sich also nicht aussagen, daß geschlossene Suchanfragen bei einer Maschine „besser“ oder „schlechter“ beantwortet werden als bei den anderen. 3.4.2.5 Expected Search Length bei geschlossenen Suchanfragen Wenn es keine signifikanten Unterschiede bei der Beantwortung geschlossener Fragen in Bezug auf die Retrievaleffektivität bei den Top20 Treffern gibt, bleibt zu fragen, ob die Suchmaschinen bezüglich der Rangordnung differenzieren, bzw. an welcher Stelle der Trefferliste sie das „richtige Dokument“ nachweisen. Welche Suchmaschine liefert nun also am schnellsten die Lösung bei geschlossenen Suchanfragen? Evaluierung hybrider Suchsysteme im WWW Seite 116 ESL bei geschlossenen Fragestellungen 18 Rangplatz des ersten relevanten Treffers 16 14 12 10 8 6 4 2 0 routenpla telefonaus ner kunft yahoo moorhuhn wetterberi stadtplan cht big brother beate Uhse stiftung flughafen deutsche bank warentest frankfurt umts marathonl auf Qualigo 1 2 1 4 1 2 7 1 2 1 2 1 3 Lycos 1 2 1 1 2 5 4 1 1 1 2 4 2 AV 2 2 1 1 1 17 3 1 7 1 3 2 5 Suchanfragen Abbildung 16 – ESL bei geschlossenen Fragestellungen Die durchschnittlich Anzahl der Dokumente die zu sichten sind, bis der erste relevante Treffer, gefunden wird beträgt bei Lycos = 2,076923077 AltaVista = 3,538461538 QualiGo = 2,153846154 Bei Lycos und QualiGo ist im Durchschnitt also schon das zweite Dokument relevant, bei AltaVista hingegen erst das dritte oder vierte. Der Vorzeichentest zeigt, daß diese Unterschiede aber nicht signifikant sind. Es kann also keine statistisch valide Aussage darüber getroffen werden, ob es bei der ESL bei geschlossenen Suchanfragen Unterschiede zwischen den Suchmaschinen gibt. 3.4.3 Ergebnisinterpretation und -zusammenfassung Wie lassen sich nun die geschilderten Ergebnisse interpretieren? Bei den hier verwendeten Suchanfragen erreichen die Maschinen eine Effektivität von 30-40 Prozent. Zu fast allen Suchanfragen wird innerhalb der ersten 20 Treffer zumindest ein relevantes Dokument nachgewiesen. Die Retrievaleffektivität der hier untersuchten Suchmaschinen ist also in dem Sinne positiv zu bewerten, daß die Nutzer bei typischen Evaluierung hybrider Suchsysteme im WWW Seite 117 Suchanfragen davon ausgehen können, relevante Treffer zu finden. Die Top20 Precision beträgt rund 36-38%, im Durchschnitt trägt also jedes zweite oder dritte referenzierte Dokument dazu bei, das Informationsbedürfnis zu befriedigen. Es ist anzunehmen, daß dieser Wert auf sehr spezifische oder thematisch sehr enggefaßte Suchanfragen nicht übertragen werden kann, sondern bei solchen Anfragen erheblich niedriger liegt.299 Beim Vergleich der Systeme zeigt sich am Fallbeispiel Lycos, daß nicht a per se davon ausgegangen werden kann, daß hybride Systeme anderen Suchmaschinen bei der Retrievaleffektivität überlegen sind. Denn obwohl Lycos in absoluten Zahlen die höchsten Werte erzielt, kann die erste Testhypothese, die aussagt, daß hybride Systeme eine höhere Retrievaleffektivität als rein roboterbasierte Systeme erreichen, nicht verifiziert werden. Lycos ist zwar bei der Betrachtung der Top20 Precision die „beste“ Suchmaschine, da sie eine signifikant höhere Anzahl relevanter Treffer als AltaVista und QualiGo referenziert, bei der Effektivität hinsichtlich der Beantwortung der einzelnen Suchanfragen lassen sich hingegen keine signifikanten Unterschiede zwischen den Suchmaschinen erkennen. Anzumerken ist allerdings, daß nur Lycos alle Suchanfragen zu beantworten vermag. Abstrahiert man also von den rein quantitativen Aspekten, so läßt sich aussagen, daß der Nutzer bei Lycos am ehesten erwarten kann, relevante Treffer zu bekommen, aber nicht erwarten kann bei einzelnen Suchanfragen die höchste Precision zu erreichen. Die Verifikation der zweiten These zeigt, daß der hybride Ansatz, zumindest für die Suchmaschine Lycos selbst, sinnvoll ist. Denn die Retrievaleffektivität des Gesamtsystems Lycos wird durch die redaktionellen Treffer signifikant verbessert.300 Der Vergleich der roboterbasierten Komponente von Lycos mit den anderen Suchmaschinen zeigt, daß AltaVista eine signifikant höhere Retrievaleffektivität erreicht, während der Vergleich zu QualiGo keine statistisch validen Unterschiede aufzeigt. Als reine Suchmaschine ist also AltaVista der „Gewinner“, wenngleich die Unterschiede zu QualiGo auch nur hinsichtlich der Top20 Precision signifikant sind. Damit stellt sich die Frage, ob die redaktionellen Treffer von Lycos die Mängel der roboterbasierten Komponente nicht bloß kompensieren. Denn es bleibt ungeklärt, ob die redaktionellen Treffer auch die Retrievaleffektivität einer Suchmaschine, die eine signifikant „bessere“ Roboterkomponente als Lycos aufweist, erhöhen würde. Diese Fragestellung könnte Gegenstand einer weiteren Untersuchung sein. 299 Vgl. 3.1.3.1.2 Dies gilt zumindest bei der Betrachtung der Effektivität innerhalb der ersten 12 Treffer und bewirkt eine Steigerung der Mean average precision um rund 4%. 300 Evaluierung hybrider Suchsysteme im WWW Die differenzierte Betrachtung der Retrievaleffektivität Seite 118 hinsichtlich verschiedener Suchanfragetypen zeigt bei den Einwortanfragen eine deutliche Abweichung vom Gesamtergebnis. Lycos fällt hinter die beiden anderen Systeme zurück. Bei der Messung der Top20 Precision weist Lycos eine signifikant geringere Effektivität auf als die beiden anderen Systeme. Bei der Betrachtung der Beantwortung der einzelnen Suchanfragen sind die Unterschiede wiederum nicht signifikant. Das „schlechte“ Abschneiden von Lycos hinsichtlich der Top20 Precision bei Einwortsuchanfragen ist insofern erstaunlich, weil zu erwarten war, daß die redaktionellen Katalogeinträge gerade für die Beantwortung relativ unspezifischer Suchanfragen am besten geeignet seien.301 Und aus diesem Grund Lycos als Gesamtsystem eigentlich bei diesen Suchanfragen höhere Effektivitätswerte als die anderen Systeme erreichen sollte. Warum dies nicht der Fall ist bleibt ungeklärt. Bei den Mehrwortanfragen hingegen ist Lycos signifikant „besser“ als QualiGo. Dies könnte ein Hinweis darauf sein, daß die Größe des Index die Retrievaleffektivität bei spezielleren Fragestellungen stärker beeinflußt, als bei eher unspezifischen. Diese Annahme bleibt aber spekulativ.302 Die Differenzierung nach offenen und geschlossenen Suchanfragen zeigt mit der Ausnahme, daß Lycos bei den offenen Fragestellungen eine signifikant höhere Retrievaleffektivität als QualiGo erreicht, keine wesentlichen Unterschiede im Vergleich zum Gesamtergebnis auf. Hinsichtlich der „Expected Search Length“ bei den geschlossenen Fragestellungen sind bei den Suchmaschinen keine signifikanten Unterschiede aufgetreten. Faßt man das Ergebnis zusammen, so zeigt sich, daß das hybride Exemplar Lycos insgesamt nicht signifikant besser abschneidet als die anderen Suchmaschinen. Der hybride Ansatz scheint aber trotzdem sinnvoll zu sein, da er die Retrievaleffektivität von Lycos signifikant erhöht – was aber auch daran liegen mag, daß die Roboterkomponente von Lycos im Vergleich mit den anderen Maschinen nur in geringem Maße effektiv ist. 301 Siehe http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html#2.2 (07.12.00). Konkret untermauern läßt sie sich nur die an der Tatsache, daß ein Proband bei der Suchanfrage „weltraumschrott gefahren“ bei den Treffern von QualiGo bezweifelte, ob diese wirklich die Ergebnisse waren und dachte es läge ein Fehler in der Testanordnung vor (Siehe 3.3.2). Ob diese „völlig irrelevanten Treffer“ auf das von QualiGo verwendete Stemming beim Indexierungsprozeß oder auf das Nichtvorhandensein relevanter Dokumente im Index oder beides zurückzuführen ist bleibt ungewiss. 302 Evaluierung hybrider Suchsysteme im WWW Seite 119 Insgesamt erstaunt, daß QualiGo, die Suchmaschine, deren Index zum Testzeitpunkt nur ein Bruchteil des Umfangs der Indexe der anderen Suchmaschinen aufweist, im Vergleich nicht erheblich „schlechter“ abschneidet. Dies könnte ein Hinweis, darauf sein, daß der Umfang des Index für den normalen Suchmaschinennutzer bei typischen Suchanfragen von eher geringer Bedeutung hinsichtlich der Qualität der Treffer ist, sofern der Index relevante Dokumente zur Suchanfrage nachzuweisen vermag.303 Anzufügen ist allerdings, daß QualiGo zu drei Suchanfragen kein relevantes Dokument referenzieren kann. Insofern ist bei QualiGo zu erwarten, daß diese Maschine am ehesten Suchanfragen nicht beantworten vermag. Problematisieren läßt sich, daß Suchanfragen, die nicht beantwortet werden konnten, mit einer „Nullwertung“ in die Berechnungsgrößen einfließen. Somit wird z.B. bei der Feststellung, welche Suchmaschine welche Suchanfrage wie gut beantwortet hat, in solchen Fällen zwar der „schlechteste“ Wert vergeben. Dies spiegelt aber den qualitativen Unterschied zwischen „lieferte weniger Treffer als die anderen Maschinen“ und „konnte die Suchanfrage nicht beantworten“ nicht wider. Weil aber jede „qualitative“ Gewichtung willkürlich wäre und keine Steigerung der „Objektivität“ der Ergebnisse bewirken würde, wird eine solche „Gewichtung“ nicht vorgenommen. 303 Zu drei Suchanfragen konnte QualiGo innerhalb der ersten 20 Treffer kein relevantes Dokument nachweisen. Dies könnte ein Hinweis darauf sein, daß der Index keine relevanten Dokumente referenziert, gerade weil bei den anderen Suchanfragen QualiGo nicht signifikant hinter die anderen Suchmaschinen zurückfällt. Evaluierung hybrider Suchsysteme im WWW Seite 120 4. Schluß 4.1 Einschätzung und Schlußfolgerungen hinsichtlich der Ergebnisse Die teilweise, je nach Bewertungssicht und Bewertungsmaß, variierenden Effektivitätswerte der einzelnen Maschinen verdeutlichen, daß die Effektivitätsbeurteilung von Suchmaschinen immer von den Faktoren präjustiert wird, die der jeweiligen Evaluation immanent sind.304 Insbesondere die differenzierte Bewertung der Ergebnisse bei den verwendeten Effektivitätsmaßen „Top20 Precision“ und „Beantwortung der Suchanfragen“ zeigt auf, daß das Ausmaß der Effektivitäts(unterschiede) sehr stark vom verwendeten Bewertungsmaß abhängt. Aus dem Blickwinkel der Top20 Precision lassen sich wesentlich größere Unterschiede hinsichtlich der Retrievaleffektivität bei den untersuchten Maschinen ableiten als bei der Betrachtung der Beantwortung der einzelnen Suchanfragen. Beispielsweise wird die erste Hypothese aus der Sichtweise der Top20 Precision verifiziert, während die Ergebnisse bei der Betrachtung der Beantwortung der einzelnen Suchanfragen keine signifikanten Unterschiede erkennen lassen. Durch solche unterschiedliche Aspekte bezüglich der Untersuchungsmethodik, Bewertungssichten und Bewertungsmaßen ist es unmöglich, zu einer generell gültigen Beurteilung der Retrievaleffektivität zu gelangen. Dies ist aber weniger ein methodologisches Problem,305 sondern eher eine Frage der Zielsetzung der jeweiligen Evaluationen. Diese Untersuchung beschränkt sich auf die Evaluierung der Retrievaleffektivität anhand der Relevanz der ersten 20 zurückgegebenen Treffer bei typischen Anfragen. Die Ergebnisse der Retrievaleffektivität sind folglich auch nur für diese Betrachtungsweise gültig. Eine Aussage über z.B. die tatsächlich erreichbare Retrievaleffektivität unter Ausnutzung aller Retrievalfähigkeiten der Suchmaschinen306 wird nicht getroffen. Bezogen auf die Relevanz der ersten 20 zurückgegebenen Treffer bei typischen Anfragen läßt sich als Resultat festhalten, daß dem dem Nutzer keine „beste“ Suchmaschine empfohlen werden kann. Das Ergebnis dieser Arbeit besagt, daß zwar Unterschiede 304 Untersuchungsziel, Meßgrößen, Kriterien der Relevanzbeurteilung, Art und Ausgestaltung der Suchanfragen, der Variablen usw. 305 Vgl. Wolfgang und Mechtild Stock, die darin ein grundlegendes Problem bei Retrievaltests sehen. Mechtild Stock, Wolfgang G. Stock, Internet-Suchwerkzeuge im Vergleich, Teil 1: Retrievaltest mit Know Item Searches, in: Password 11/2000, S.23-31, S.27. Evaluierung hybrider Suchsysteme im WWW Seite 121 bezüglich der Effektivität vorhanden sind, diese aber insgesamt so gering ausfallen, daß es für den Rechercheerfolg letztlich gleichgültig ist, welche Suchmaschine verwendet wird. Die Frage, ob der hybride Ansatz, die automatisch generierten Treffer mit redaktionell erzeugten Treffern in einer Trefferliste zu vermengen, sinnvoll ist, um die Retrievaleffektivität zu erhöhen, läßt sich nicht allgemeingültig beantworten. Das Beispiel Lycos erreicht in dieser Untersuchung höhere Werte, signifikante Unterschiede ergeben sich aber nur bei der Betrachtung der Top20 Retrievaleffektivität von Precision. Lycos, Die aufgrund redaktionellen der im Treffer erhöhen zwar die Vergleich relativ ineffektiven Roboterkomponente von Lycos bleibt aber unsicher, ob die redaktionellen Einträge bei den Maschinen mit signifikant effektiveren Roboterkomponenten, wie z.B. AltaVista, ebenso eine signifikante Erhöhung der Retrievaleffektivität bewirken würden. Bei der Suchmaschine QualiGo, die in etwa dieselbe Retrievaleffektivität wie Lycos, ohne die redaktionellen Einträge aufweist, kann zum gegenwärtigen Zeitpunkt hinsichtlich der Qualität der Ergebnisse nur empfohlen werden, redaktionelle Einträge den Trefferlisten hinzuzufügen. Wenn die dann beigefügten redaktionellen Beiträge dasselbe Effektivitätsniveau, wie die katalogbasierten Treffer von Lycos erreichen, ist bei dieser Suchmaschine eine signifikant höhere Retrievaleffektivität zu erwarten. Aus dem Blickwinkel der Resultate dieser Evaluation läßt sich also nicht eindeutig bejahen, daß der hybride Ansatz sinnvoll ist, um die Retrievaleffektivität von Suchmaschinen im Internet zu erhöhen. Dieses Ergebnis berücksichtigt allerdings nur die Qualität der referenzierten Treffer an sich. Andere positive Mehrwerte, wie etwa das durch die redaktionellen Treffern ermöglichte Browsing in thematisch passenden Katalogrubriken bleiben unberücksichtigt. Somit bleibt weiterhin unklar, welches positive Potential der hybride Ansatz für den typischen Benutzer hinsichtlich des komplexen Suchprozesses307 tatsächlich umzusetzen vermag. Addiert man zu diesen „Mehrwerten“ das Ergebnis dieser Evaluation hinzu, welches zumindest aussagt, das hybride Systeme keine signifikant geringere Retrievaleffektivität als rein roboterbasierte Suchmaschinen aufweisen, läßt sich festhalten, daß der hybride Ansatz sinnvoll erscheint, um die spezifischen Vorteile von roboterbasierten Suchmaschinen und menschlich erzeugten Dokumenträumen308 positiv zu konvergieren. 306 Z.B. mittels Feldsuche, Phrasensuche oder boolschen Ausdrücken, wie sie bei Lycos und AltaVista möglich sind. 307 Vgl. Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, siehe http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00). 308 Hiermit sind zunächst Verzeichnisse in der Art „klassischer“ Webkataloge wie Yahoo gemeint. Der Terminus Dokumentraum wird gewählt, um andere Formen redaktioneller erzeugter Treffer, wie „paid listings“ nicht Evaluierung hybrider Suchsysteme im WWW Seite 122 4.2 Einschätzung und Schlußfolgerungen bezüglich der Evaluation Ziel dieser Arbeit ist es, qualifizierte Aussagen über die Retrievaleffektivität der untersuchten Suchmaschinen zu gewinnen. Konnte diese Absicht umgesetzt werden? Im theoretischen Teil dieser Arbeit wird offensichtlich, daß die Evaluation der Retrievaleffektivität von Retrievalsystemen ein komplexes Themengebiet ohne abgesichertes theoretisches Fundament darstellt. Das zentrale Problem der „angemessenen“ quantitativen und qualitativen Ausgestaltung der Testparameter wird offengelegt. Die adaptive Umsetzung der von Tague-Sutcliff vorgeschlagenen grundlegenden Vorgehensweise soll sicherstellen, daß das Untersuchungsziel auch tatsächlich erreicht wird. Inwieweit dies gelungen ist, ist zum einen davon abhängig, ob diese Vorgehensweise tatsächlich ein adäquates methodisches Verfahren zur Ermittlung der Retrievaleffektivität darstellt, und zum anderen davon, wie sorgfältig diese Vorgehensweise umgesetzt wird. Der erste Punkt kann hier nicht beurteilt werden, vielmehr ist darauf hinzuweisen das TagueSutcliffs Ansatz auch heute, acht Jahre nach Erscheinen des Artikels, State-of-the-Art im Bereich der Evaluationen im Information Retrieval ist.309 Die akkurate Umsetzung der Vorgehensweise soll durch adaptives Abarbeiten der vorgeschlagenen Vorgehensweise und der möglichst realitätsnahen und gleichzeitig repräsentativen Ausgestaltung der einzelnen Testparameter erreicht werden. Deshalb wird versucht, bei der qualitativen und quantitativen Ausgestaltung der Kenngrößen der Untersuchung, zum einen die webspezifischen Eigenschaften des Information Retrievals, hinsichtlich Datenbestand, Hypertextstrukturen, Nutzer und den Intersuchmaschinen selbst möglichst realitätsgetreu abzubilden und zum anderen, gängige Standards bei der Evaluation, sogenannte „Faustregeln“, z.B. bezüglich Testart (Test anhand einer Testkollektion) und Anzahl der Suchanfragen (50), einzuhalten. Inwieweit wird dies erreicht? auszuschließen.Vgl. Wiebke Loosen, Suchmaschinen -Informations- und Wissensverwalter im World Wide Web, siehe http://kommunix.uni-muenster.de/IfK/lehre/mj_suchmaschinen.htm (11.12.00). 309 rd Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000, S.33-40, S.33-34. Evaluierung hybrider Suchsysteme im WWW Seite 123 Die adaptive Abarbeitung der von Tague-Sutcliff vorgeschlagenen Vorgehensweise ist unproblematisch, da nur minimale Modifikationen hinsichtlich der Ausgestaltung der Vorgehensweise vorgenommen werden müssen.310 Die realitätsnahe Abbildung der Testparameter wird hingegen nur näherungsweise erreicht. Probleme ergeben sich insbesondere bei den Suchanfragen, den zu bewertenden Dokumenten und der Relevanzbewertung selbst. Die „Rückerschließung“ der Informationsbedürfnisse bzw. in umgekehrten Fällen die Generierung der Suchanfragen, wird durch den Untersuchenden selbst vorgenommen. Die so konstruierten Suchanfragen und Informationsbedürfnisse werden zwar von mehreren Personen auf „Objektivität“ hin nachgeprüft, trotzdem läßt sich nicht prinzipiell ausschließen, daß Vorlieben und Abneigungen des Untersuchenden verzerrenden Einfluß auf das Ergebnis ausüben. Bei der Dokumentdarstellung ist eine möglichst originalgetreue Abbildung der zu bewerteten Webseiten das Ziel. Damit soll sichergestellt werden, daß die dynamischen und interaktiven Komponenten der einzelnen Webseiten, bei der Beurteilung berücksichtigt werden können. Eine identische Abbildung wird angestrebt jedoch nicht immer erreicht. Teilweise ist ein erheblicher zeitlicher Aufwand erforderlich, um eine weitgehend übereinstimmende lokale Kopie zu generieren. Obwohl solche problematischen Webseiten dahingehend überprüft werden, daß die Unterschiede in der Darstellung die Relevanzbeurteilung nicht beeinflussen,311 läßt sich nicht ausschließen, daß dies während der Tests trotzdem der Fall war. Bei der Berücksichtigung der Hypertextstruktur des Internet, durch die Relevanzeinstufungsmöglichkeit „verweist auf relevante Seiten“ wird dieses Problem der Relevanzbewertung offensichtlich. Die Relevanzeinstufung wird nicht anhand der Sichtung der Seiten, auf die verwiesen wird gefällt, sondern mittels der Bewertung der Verknüpfung auf den lokal gespeicherten Ergebnisseiten vorgenommen. Gegen diese Verfahrensweise läßt sich dasselbe Argument anführen, daß auch gegen die Verwendung der Trefferseiten der Suchmaschinen spricht. Es wird implizit unterstellt, daß die Metainformation der Verknüpfung auf der lokal gesicherten Ergebnisseite den Inhalt der Seite, auf die verlinkt wird hinreichend und korrekt beschreibt. Dies kann nur annähernd der Fall sein. Idealerweise müßten alle Seiten, auf die die Ergebnisseiten verweisen, ebenfalls 310 Nur das Kapitel 2.3.4 „Welches Informationssystem wird genutzt/untersucht?“ wurde vereinfachend modifiziert, da sich dieser Punkt im Web auf die Auswahl der zu untersuchenden Suchmaschinen beschränkt. Vgl. 3.1.4. 311 Durch Rücksprache mit Mitarbeitern der Firma Suchtreffer, vgl. 3.3.1. Evaluierung hybrider Suchsysteme im WWW Seite 124 originalgetreu gesichert werden, um Verzerrungen der Ergebnisse bezüglich unzureichender oder gar falscher Metainformationen auf den Ergebnisseiten zu kompensieren. Obwohl in dieser Arbeit also gezielte Maßnahmen ergriffen werden, um die Neutralität des Testdesigns sicherzustellen, zeigen diese Probleme, daß auch in dieser Untersuchung letztlich nicht ausgeschlossen werden kann, daß Vorlieben und Abneigungen des Untersuchenden, verzerrenden Einfluß auf die Ergebnisse ausüben. Aufgrund der beschränkten personellen, zeitlichen und auch hardwaretechnischen Ressourcen312 müssen diese, möglicherweise das Ergebnis verzerrenden, Einschränkung allerdings in Kauf genommen werden. Die Anlehnung an Standards im Information Retrieval findet in dieser Untersuchung vor allem in der Anzahl der Suchanfragen und der verwendeten Testart ihren Ausdruck. Zur Anzahl der Suchanfragen läßt sich aussagen, daß durch einen Retrievaltest umso qualifiziertere Aussagen getroffen werden können, je größer die Anzahl der durchgeführten Suchanfragen ist. In dieser Arbeit wird die Anzahl von 50 Suchanfragen gewählt, weil diese Anzahl als ausreichend gilt, um bei Retrievaltests verallgemeinerungsfähige Aussagen treffen zu können.313 Diese Menge kann, im Rahmen der zur Verfügung stehenden Ressourcen, bewältigt werden. Die Wahl der Testart „Test anhand einer Testkollektion“ bietet einerseits den Vorteil einer höheren Kontrolle über die Tests, andererseits wird dadurch aber verhindert, daß z.B. mittels „interaktiver Tests mit Nutzern“ die Auswirkungen anderer potentiellen Mehrwerte des hybriden Ansatzes (Katalogrubriken)314 evaluiert werden können. Im angeführten Punkt wird z.B. die Repräsentativität der Relevanzbeurteilungen der größeren Realitätsnähe interaktiver Tests mit realen Nutzern vorgezogen. Im Rahmen des Untersuchungsziels werden folglich mehrere Abwägungen, „trade-offs“, zwischen verschiedenen zu evaluierenden Aspekten getroffen. Das bedeutet im Umkehrschluß, daß bei dieser Evaluation nur ein Teil der Gesichtspunkte, die Einfluß auf die Retrievaleffektivität von Internetsuchmaschinen ausüben, berücksichtigt wird. 312 Vor allem aus Speicherplatzgründen, die 3000 Ergebnisseiten belegen alleine schon rund 330 MB Speicherplatz, würden die von diesen Seiten aus verlinkten Seiten ebenfalls lokal gesichert, so würde ein Vielfaches dieses Menge benötigt. 313 rd Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000, S.33-40, S.33. 314 Vgl. 4.1. Evaluierung hybrider Suchsysteme im WWW Seite 125 Faßt man die Problematik bei der Ausgestaltung der Kenngrößen zusammen, so läßt sich grundlegend festhalten, daß jede Entscheidung, die beim Aufbau des Evaluationsettings getroffen wird, die Aussagekraft der Untersuchung einerseits einschränkt, andererseits aber die Validität und Reliabilität innerhalb dieses dann eingeschränkten Bereichs verstärkt, bzw. absichert. Den externen Rahmen für die Beschränkungen bilden die vorhandenen Ressourcen, d.h. der zur Verfügung stehende Zeitraum, die Fachkompetenz des Untersuchenden, die Art und Anzahl der zur Verfügung stehenden Probanden sowie die vorhandene Hard- und Softwareaustattung . Zur Einschätzung dieser Evaluation läßt sich festhalten, daß versucht wird im Rahmen der zur Verfügung stehenden Ressourcen, unter Rückgriff und Einbeziehung vorhandener Erkenntnisse, eine bestmögliche Annäherung an die Realität des Information Retrieval im Web zu erreichen. Das in dieser Arbeit gewählte Vorgehen zielt dahin auf heuristischpragmatisch Weise, Fehler oder Unzulänglichkeiten anderer Untersuchungen zu vermeiden und dadurch innerhalb der von den vorhandenen Ressourcen gesetzten Rahmenbedingungen das „bestmögliche“ Testanordnung zu bestimmen. Dieses Ziel wird zwar nur näherungsweise erreicht, trotzdem wird davon ausgegangen, daß die Evaluation insgesamt hinreichend valide und reliabel durchgeführt werden konnte. Denn einerseits werden bei der Durchführung der Tests, die webspezifischen Eigenheiten des Information Retrieval wie Datenbestand, Hypertextstrukturen und Nutzer im Rahmen der Möglichkeiten der vorhandenen Ressourcen berücksichtigt, andererseits werden die gängigen Standards bei der Evaluation von Retrieval Systemen, bezüglich der Anzahl der Suchanfragen, des Testverfahren und der Relevanzbewertungsmaße eingehalten. Ein allgemeingültiger Objektivitätsanspruch kann schon alleine deshalb nicht erhoben werden, weil die ersichtlichen Defizite breiten Raum für mögliche Verbesserungen erkennen lassen. Auf die Testanordnung bezogen sollte versucht werden: • Die Durchführung der Suchanfragen und die Sicherung der Ergebnisseiten zu automatisieren, beispielsweise durch die Entwicklung eines Skripts, welches diesen Vorgang weitgehend selbstständig ausführt. Evaluierung hybrider Suchsysteme im WWW • Seite 126 Der Url sollte den Juroren bei der Relevanzbeurteilung zur Verfügung gestellt werden, beispielsweise dadurch, daß obengenanntes Skript die Adresse der Ergebnisseite automatisch in diese einfügt, oder beim Aufbau der Testwebsite berücksichtigt. • Ebenso sollte versucht werden die lokalen Kopien originalgetreuer zu generieren, beispielsweise durch die Verwendung eines Webeditors. • Denkbar wäre auch die Entwicklung einer Datenbank unter optionaler Einbindung eines Statistiktools, welche die Auswertung der Daten und die Berechnung der Ergebnisse auf „Knopfdruck“ ermöglicht. Bei diesen „Verbesserungsmaßnahmen“ muß allerdings vorab gesichert werden, daß sie die Validität und Reliabilität der Untersuchung auch tatsächlich steigern oder im Rahmen der vorhandenen Ressourcen zumindest eine Effizienzsteigerung bewirken.315 Generell sind die zur Verfügung stehenden Ressourcen der zentrale Punkt jeder Evaluation. Je mehr Ressourcen zur Verfügung stehen, umso elaborierter können die quantitativen und qualitativen Testparameter ausgestaltet werden. Beispielsweise kann die Anzahl der untersuchten Suchmaschinen, oder die Anzahl der untersuchten Aspekte welche die Retrievaleffektivität beinflussen316 erhöht und/oder die Validität und Reliabilität der einzelnen Untersuchungsparameter gesteigert werden. Wobei die zentrale Frage, welcher Aufwand und welche Vorgehensweise für welchen Untersuchungszweck hinreichend ist, bei der Evaluation von Internetsuchmaschinen weiterhin ungeklärt bleibt.317 Dies weist auf den Bedarf für Standards bei der Evaluation von Retrievalsystemen im Internet hin. Ziel sollte es sein, dem jeweiligen Untersuchungsziel angemessene Standarttestverfahren und -anordnungen, ähnlich TREC, unter Berücksichtigung der webspezifischen Eigenschaften im Bereich des Information Retrieval zu entwickeln. Werden diese allgemein akzeptiert, so wäre es möglich, Retrievaltests im Web auf eine gemeinsame methodische Basis zu stellen womit die Ergebnisse verschiedener Untersuchung erstmals miteinander verglichen werden könnten. 315 Tague-Sutcliff definiert Effizienz als Verhältnis des Grades der erreichten Validität und Reliabilität im zum hierfür betriebenen Aufwand. Vgl. Jean, Tague-Sutclife, The Pragamatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.216-217. 316 Z.B. Thematik der Suchanfragen, Suchanfragenformulierung, Spezifität der Fragestellungen, usw. 317 Vgl. 2.4.2, siehe auch Anhang A. Evaluierung hybrider Suchsysteme im WWW Seite 127 Diese Untersuchung zeigt dabei eine Möglichkeit auf, wie ein Evaluationssettings entwickelt werden kann, das hinreichend scheint die Retrievaleffektivität von Internetsuchmaschinen valide und reliabel zu ermitteln. Evaluierung hybrider Suchsysteme im WWW Seite 128 Literaturverzeichnis Baeza-Yates, Ricardo/ Ribeiro-Neto, Berthier, Modern Information Retrieval, Essex 1999. Bekavac, Bernhard, Tutorial zur Suche im WWW/Internet (1.2) Version 1998, siehe http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html#2.3 (01.10.00). Bilal, Dania, Web Search Engines for Children, A Comparative Study and Performance Evaluation of Yahooligans!, Ask Jeeves for Kids, and Super Snooper, Proceedings of the 62nd ASIS Annual Meeting, 36, October 31-Nov. 4, 1999, Washington, D.C. (pp. 70-82). Buckley, Chris/ Voorhees, Ellen M., Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23rd Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000, S.33-40. Bußmann, Hadumod,Lexikon der Sprachwissenschaft, Stuttgart 1990.2 Chu, Heting/ Rosenthal, Marilyn, Search Engines for the World Wide Web: A Comparative Study and Evaluation Methodology, in: ASIS 1996 Annual Coonference Proceedings, October 19-24 1996, siehe http://www.asis.org/annual96/ElectronicProceedings/chu.html (17.10.00). Cooper, W. S., Expected search length, in: American Dokumentation, 19 1968 S.30-41. Courtois, Martin P./ Berry, Michael W., Results Ranking in Web Search Engine, in: Online, May 1999, siehe http://www.onlineinc.com/onlinemag/OL1999/courtois5.html (19.11.00) Craswell, Nick/ Bailey, Peter/ Hawking, David, Is it fair to evaluate web systems using TREC ad hoc methods?, siehe http://pastime.anu.edu.au/nick/pubs/sigir99ws.ps.gz (02.11.00). Frisch, E./ Kluck, M., Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der Retrievalsysteme Messenger und Evaluierung hybrider Suchsysteme im WWW Seite 129 Gerald Kowalski, Information Retrieval Systems, Theory and Implementation, Norwell 1998.2 Gordon, Michael/ Pathak, Praveen, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180. Gordon, Michael/ Pathak, Praveen, Finding Information on the World Wide Web: the retrieval effectiveness of search engines, in: Information Processing and Management (35) 1999, S.141-180. Harman, Donna,The Text Retrieval Conferences (TRECs): Providing a Test-Bed for Information Retrieval Systems, siehe http://www.asis.org/Bulletin/Apr98/harman.html (01.11.00). Hawking, David/ Craswell Nick/ Thistlewaite, Paul/ Harman, Donna, Results and Challenges in Web Search Evaluation, siehe http://www8.org/w8-papers/2c-searchdiscover/results/results.html (14.10.00). Hawking, David/ Voorhees, Ellen/ Craswell, Nick/ Bailey, Peter, Overview of the TREC-8 Web Track, 2000, siehe http://trec.nist.gov/pubs/trec8/papers/web_overview.pdf 29.10.00). Jansen, Bernard J./ Spink, Amanda/ Saracevic, Tefko, Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web, siehe http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html (16.10.00). Käter, T./ Rittberger, Marc/ Wormser-Hacker, C./ Evaluierung der Text-Retrievalsysteme Domestic, Intelligent Miner for Text, Lars II und TextExtender, 1999, siehe http://www.inf-wiss.uni-konstanz.de/People/MR/pubs/kik99.html (19.10.00). Knorz, Gerhard, Information Retrieval-Anwendungen, in: M.G. Zilahi-Szabo (Hg.): "Kleines Lexikon der Informatik und Wirtschaftsinformatik", München, Wien: OldenbourgVerlag 1995, S. 244 - 248. Siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm (25.11.00). Evaluierung hybrider Suchsysteme im WWW Seite 130 Knorz, Gerhard, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00). Knorz, Gerhard, Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger sozialwissenschaftlicher Fachinformation (GIRT), , Bericht über einen Workshop am IZ Sozialwissenschaften, Bonn 12. September 1997, siehe http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/girt97/paper1.htm (19.10.00). Körber, Sven, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, siehe http://kommunix.uni-muenster.de/IfK/examen/koerber/suchmuster.pdf (30.08.00). Kuhlen, Rainer, Pragmatischer Mehrwert von Information, Sprachspiele mit informationswissenschaftlichen Grundbegriffen, Konstanz 1989. Kuhlen, Rainer, Hypertextifizierung - Zu den methodischen Grundlagen nicht-linear organisierter Informationssysteme: Text - Kontext - Hypertext, siehe http://www.infwiss.uni-konstanz.de/CURR/summer98/imk/hypertextgrundlagen.html (30.11.00). Lancaster, F . Wilfried/ Warner, Amy J., Information Retrieval Today, Arlington 1993. Lepsky, Klaus/ Siepmann, Jörg/ Zimmermann, Andrea, Automatische Indexierung für OnlineKataloge: Ergebnisse eines Retrievaltests, 1996, siehe http://www.uniduesseldorf.de/ulb/mil_retr.htm (19.10.00). Lesk, Michael, The seven ages of information retrieval, siehe http://www.ifla.org/VI/5/op/udtop5/udtop5.htm (30.10.00). Loosen, Wiebke, Suchmaschinen -Informations- und Wissensverwalter' im World Wide Web, siehe http://kommunix.uni-muenster.de/IfK/lehre/mj_suchmaschinen.htm (11.12.00). Moore, Alvin/ Murray, Brian H./ Sizing the Internet, A Cyveillance Study, 2000. http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf (02.10.00). Evaluierung hybrider Suchsysteme im WWW Seite 131 Münz, Stefan, Hypertext, 1997 siehe http://user.fachdid.fu-berlin.de/Docs/HTXT/htxt613.htm (01.10.00). Nielsen, JakobHow users read on the web, siehe http://www.useit.com/alertbox/9710a.html (03.12.00). Oppenheim, C./ Morris, A./ McKnight, C./ Lowley, S., The evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211. Peterson, Richard Einer, Eight Internet Search Engines Compared, 1996, siehe http://www.firstmonday.dk/issues/issue2_2/peterson/index.html (19.10.00). Robertson, Stephen E., the methodology of information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31. Sachse, Elisabeth/ Liebig, Martina/ Gödert, Winfried, Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft, Band 14 1998. Saracevic, Tefko, Relevance: A Review of and a Framework for the Thinking on the Notion in Information Science, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.143-165. Schallhorn, Klaus, Tief Not Flieger, siehe http://suchfibel.de/aktuell/gastbeitrag/tiefnotflieger.htm (28.11.00) Schäuble, Peter, Eurospider Suchsystem für die ETH Zürich, siehe http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Sherman, Chris, The Future Revisited: What´s New With Web Search, in: Online May 2000, siehe http://www.onlineinc.com/onlinemag/OL2000/sherman5.html (01.10.00) Evaluierung hybrider Suchsysteme im WWW Seite 132 Sherman, Chris, The Invisible Web, siehe http://websearch.about.com/internet/websearch/library/weekly/aa061199.htm (11.11.00). Zugang zu diesen Informationen versucht die Website http://www.invisibleweb.com/ zu verschaffen (11.11.00). Siegel, Sidney, Nichtparametrische statistische Methoden, Eschborn 1987. Stenmark, DickTo Search is Great, to Find is Greater: a Study of Visualisation Tools for the Web. http://w3.informatik.gu.se/%7edixi/publ/mdi.htm (13.04.00). Stock, Mechtild/ Stock, Wolfgang G. Internet-Suchwerkzeuge im Vergleich, Teil 1: Retrievaltest mit Know Item Searches, in: Password 11/2000, S.23-31. Tague-Sutclife, Jean The Pragamatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216. Tague-Sutcliffe, Jean, The pragmatics of information retrieval experimentation, revisited, in: Information Processing & Management Vol.28, No.4, 1992, S.467-490. Taublee, O. E., Content Analysis, Specification and Control, in: Annual Review of Information Science and Technology 3 1967, S.105-136. Ulisch, Carsten, Suchmaschinen im Internet, siehe http://www.unikoblenz.de/~krause/Suchmaschinen.html (01.10.00). Van Risjbergen, C.J, Information Retrieval, London 1979.2 Warner, Julian In the catalogue ye go for men: evaluation criteria for information retrieval systems, in: Aslib Proceedings Vol.52, No.2 2000, S.76-82. Wichmann, André, Aufbau und Techniken von Suchmaschinen für das WWW, siehe http://www-student.informatik.unibonn.de/~wichmann/writings/webcrawlers/index.html (08.10.00). Evaluierung hybrider Suchsysteme im WWW Seite 133 Wolff, Christian, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Such- und Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft, Konstanz 2000, S.31-48. Wolff, Christian, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe http://www.informatik.unileipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00). Womser-Hacker, Christa, Der Padok-Retrievaltest, Zürich, NewYork 1989. ZDLabs, AltVista Web Search Site Evaluation, 2000, siehe http://www.zdnet.com/etestinglabs/reports/altavista.pdf (06.10.00). Hilfe eines Queries mit den Versuchspersonen selbst Vielleicht Relevant =bei (Anteil der Metasuchmaschinen nicht beim Recall Relevant durch Trefferliste Fehlerbereinigung bei den von Nicht relevant boolsche Ausdrücke natural language sowie als Recall Retrievaleffektivität von Off Werten (10/30) Relevanzbeurteilung Such- und Metamaschinen sind Vergleich der Informatikstudenten nicht effektiver, auch 2 Metamaschinen (Metacrawler/C4) von Such- und Metasuchmaschinen (AltaVista/Northernligh g brachte keine Operatorenverwendun Testpersonen unkenntlich gemacht) Treffer wurde bewertet (Herkunft der Beurteilungsbogens verschiedenen Cut- Standardoperatoren und 20Dokumenten usw.) 2 Suchmaschinen (10 Dokumenten/ Dokumente wurden ausgedruckt und mit Recall/Precision Values verschiedener Messung anhand Highly irrelevant Somewhat irrelevant Somewhat relevant Highly relevant Die ersten 20 Precision bei "best possible queries" language phrase durch Studenten höhere Effektivität and-pencil" experiment Vergleichstudien "paper- als Single Keyword multiple keyword and natural oder mit einem Link zur richtigen Antwort Yahoo "Searcher" in the wild and how long in captivity" Relevanzbeurteilung nicht unter den paar. ersten 20 zu verteilen Formulierung durch 33 Suchen Überlappungsgrad Precision Recall Relevant ist ein Dokument Relevanzbeurteilung "how long does an alligator live mit der richtigen Antwort Eine Query: fact-finding Queries Magellan Lycos Studenten Formulierung durch Information need Dokumenten unter den optimale Query relevantesten tendieren dazu die t) im World Wide Web, Eine 1999 vergleichende Evaluierung Effektivität von Recherchen vergangener Evaluationen Open Text engines Christian Wolff infoseek Literaturauswertung effectiveness of search Hotbot Excite world wide web: The retrieval Evaluation Praveen Pathak Guide für eine "akukurate" AltaVista Finding information on the Michael Gordon, Super Snooper Ask Jeeves for Kidsm and Super Snooper Suchmaschinen Redundancy Retrievalperformane Study and Performance Evaluation of Yahooligans!, Overlap Retrieval Output Kindersuchmaschinen und Aks Jeeves for Kids Yahooligans Featurevergleich von Web Search Engines for Variablen Children: A comparative Suchmaschinen Dania Bilal Hypothesen/Ergebni Durchführung s Test von Titel Autor Thema Seite 135 Anhang A: Übersicht andere Evaluationen Evaluierung hybrider Suchsysteme im WWW 23 Suchmaschinen Netz? Information Retrieval on the World-Wide Web 1998 Venkat N. Gudivada William I. Grosky Vijay V. Raghavan Wer ist die beste Spinne im Suchmaschinen Einschätzung von Vergleichende und User Interface Suchmaschinen im Vergleich, Vergleich von Relevanz Panagiotis Koukoudis Conjunktive und Ergebnisse als lieferten bessere Phrasenqueries gepflegte Datenbank Umfang des Index Spezielle Features Aktualität Suchverfeinerung Trefferqualität Datenbankpflege über Links erlaubt Urteil Anzahl der Toten Links, d.h. eine schlecht g wurde variiert multiagent system architecture latex software Wer ist Boris Becker Köln bewegt sich Anfragenformulierun Apollo 11 - "Woodrow Wilson´ s Forteen Points" 2 Anfragen language Treffern Trefferanzahl Verfügbarkeit 10mal angefragt wurde mindestens Features Lycos hat viele tote 6 Fragen mit und ohne Jede Suchmaschine Operatoren, keine natural Antwortzeit Compared 1996 10 Suchmaschinen oge/Metasucher) (Suchmaschinen/Katal (pooling Methode)) maximale Anzahl von - Embargo Richard Einer Peterson Retrievaltest Dokumenten Vergleichender Collections Der Grosse Tomorrow Test relevanten Search Engines Eight Internet Karzauninkat Stefan Tomorrow Test Informationen über die Relevanz von Justin Picard Hyperlinks beinhalten 21 fachliche Bezug auf alle Dokumenten 20 allgemeine Dokumenten in fachspezifischen und 41 Anfragen formulierten Queries Queries allgemeinen Anfragen nachgewiesenen relevanten Unterscheidung der Variablen Fragen nach Hypothesen/Ergebni Durchführung s Suchmaschinen Seite 136 Test von Web and in Distributed Report on the TREC-8 Jacques Savoy, Thema Experiment: Searching on the Titel Autor Evaluierung hybrider Suchsysteme im WWW Websites (Platzierung) Zufriedenstellende Unsicherheit Relevanzbeurteilung Lycos "gewinnt" Queries Lycos WWW search engines Schlichting, Erik Nielsen 1996 Signal detection Analysis of Infoseek, Lycos) besonders schlecht •Relevanzentscheidung Detection Analysis Beurteilung durch Signal 7) • Usefulness eurteilung (1- j/n 2 stufige Relevanz wurden bewertet Die ersten 10 Dokumente Trefferlisten Forschungsthema 5 8 Keywords Beurteilung der durch Autoren Relevanzbeurteilung Top 10 Precision der Kriterien aber mit "Nachjustierung" schriftlich niedergelegt Relevanzkriterien vorher First 20 Precision Relevanzbeurteilung Keyworte zu einem Infoseek und AV sind generierten 4-6 5 Universitätsmitarbeiter 4 Suchmaschinen gelieferten Treffer Anzahl der Alexander 1997 Carsten 11 Suchmaschinen aus Universitätsbibliotheken (features) Lebedev, "sample queries" Suchmöglichkeiten 10 15 Queries precision, response time 3 Suchmaschinen 5 Suchmaschinen Variablen Chu, Rosenthal Bibliothek Quereis aus der generell Subject Excite, Hotbot, Infoseek, Vergleichende Evaluation (AltaVista, Excite, Block Design Ergebnisseiten geblendet vermeiden (Search Engines): Alta Vista, Web Search Services Suchmaschinen Disjunktive Hypothesen/Ergebni Durchführung s Test von Seite 137 1996 Srivastava 1997 Precision among World Wide Versucht Bias zu Leighton, Thema Titel Autor Evaluierung hybrider Suchsysteme im WWW zu unterhalten oder Software, die für IRC notwendig ist. Softwareangebote die IRC ermöglichen, ebenso chat-spezifische Chatmöglichkeiten und Dienste chat im Internet chat sms Software Spiel Moorhuhn Computerspiele online moorhuhn spiele Autokauf/-verkauf/-verleih im auto Internet Reiseangebote im Internet reisen Gewinnspiele Kartenspiele Glücksspiele (Netzwerk) spiele Brettspiele Suchdienst yahoo Web auto reisen spiele moorhuhn yahoo Telefonnummernrecherche im telefonauskunft yahoo telefonauskunft Benutzer sucht Chat-Einstiegspunkte im Netz um sich Relevant sind alle Seiten, die Chatrooms anbieten, aber auch SMS Angebote im Netz sms routenplaner Routenplanung im Internet Suchdienste geschlossen geschlossen von Verkäufern/Verkaufshäusern/Herstellern Werkstätten Benutzer will ein Auto kaufen/verkaufen/leihen/ leasen Relevant sind Informationsangebote Autos betreffend (z.B. Zeitwert), Seiten Netz Relevant sind Reiseinfos, Reiseangebote durch z.B. Firmen aber auch Metainformation über Reiseinfos oder direkte Buchungsmöglichkeiten im Spiele jeder Art käuflich zu erwerben (Shops) oder downzuloaden. offen offen Relevant sind alle Seiten auf denen es möglich ist zu spielen (online Games), offen Relevant sind Seiten die den Download von Moorhuhn anbieten Relevant ist die Seite www.yahoo.de. ganze Bundesgebiet) anbieten. Benutzer will Reiseangebote recherchieren und oder reparieren offen offen Relevant sind Seiten die eine Telefonnummernauskunft (mindestens für das geschlossen eventuell buchen Benutzer will Spiele finden oder spielen herunterladen Benutzer will moorhuhn spielen, d.h. das Spiel Benutzer will den Suchdienst yahoo finden Benutzer will eine Telefonnummer recherchieren Sprüche/Klingeltöne) auch Seiten relevant die SMS spezifischen Content anbieten (z.B. Web anbieten oder auf solche Dienste verweisen (Übersichten), ebenso sind Relevant sind Seiten, die kostenlose oder kostenpflichtige SMS Dienste im wählbar sein. eine Routenplanung vorzunehmen. Start und Zielort müssen dabei frei Benutzer sucht SMS Dienste im Netz Relevant sind Seiten, die es erlauben, zumindest innerhalb Deutschlands Benutzer will eine Fahrtroutenplanung online vornehmen geschlossen Hardware oder einzelne Songs bzw. Bands sind nicht relevant Files (Software/Songs) aufzuspüren bzw. herunterzuladen Relevant sind Seiten die MP3 Suchangebote für Songs oder Software (Player offen oder Suchtools) beinhalten. Fragetyp Benutzer sucht Mp3 Dateien/Software d.h.. Relevanzkriterien Übersichten, Verzeichnisse Suchmaschinen um Mp3 (unterstelltes) Informationsbedürfnis Routenplaner mp3 Query mp3 Dateien/Software Thema MP3 Einwortqueries Seite 139 Anhang B: Suchanfragen Übersicht Evaluierung hybrider Suchsysteme im WWW Wetterbericht übers Internet Immobilieninformation -kauf, - wetter immobilien Bildschirmschoner für PC Bildschirmschoner Online Auktionen informieren Benutzer will übers Internet Immobilien kaufen oder diese herunterladen Fahrplanauskunft oder Kartenbestellung anbieten. Kartenbestellung bzw. Fahrplanauskunft Verona Feldbusch Star Verona Feldbusch verona feldbusch free sms Kostenlose Sms Angebote im Free Sms Internet Sms Sprücheseiten im Internet sms sprüche Sms Sprüche Benutzer sucht Informationen oder informationelle zu verschicken Relevanz sind Seiten die Infos, Bilder oder Produkte überwiegend von/über Benutzer sucht Dienste, die es erlauben kostenlos Sms Relevant sind Seiten, die kostenloses verschicken von Sms ermöglichen Relevant sind Seiten die SMS-Sprüche anbieten bzw. Übersichten über solche Seiten bereitstellen Benutzer sucht Texte (z.B. Witze u. Liebesgedichte) Relevant ist die Homepage des Online-Versandhandels von Beate Uhse über Möbelspeditionen in München die sich für den Versand per Handy eignen. Benutzer sucht den Onlineshop von Beate Uhse beate uhse Beate Uhse Einzelhandel Beate Uhse München Erotik-Versand und- oder Fanartikel von Britney Spears möbelspeditionen münchen Benutzer sucht für einen Umzug Möbelspeditionen in Relevant sind Seiten von Möbelspeditionen in München oder Übersichten München Möbelspeditionen in München Möbelspeditionen offen offen geschlossen geschlossen geschlossen geschlosem offen offen offen geschlossen offen Relevant sind Seiten die Infos, Bilder oder Produkte überwiegend von Britney offen Produkte (Bildschirmschoner usw.) oder CD´s, Videos Spears enthalten Benutzer sucht Informationen oder informationelle Informationsdienste über Last-Minute Relevant sind konkrete Angebote von Reiseunternehmen, sowie Dienstleistungen bezüglich der Bahn, wie Kartenreservierung Internet britney spears Relevant ist die Big Brother Homepage ermöglichen. Benutzer sucht Online Dienstleistungen der Deutschen Relevant ist die Homepage der Bundesbahn sowie Seiten die Internet Popstar Britney Spears relevant. z.B. Stellenmärkte. Stellenausschreibungen einzelner Firmen sind nicht Relevant sind Seiten, die eine hohe Anzahl von Stellenangeboten offerieren, für ganz Deutschland anbieten. Bahn z.B. Möglichkeiten zur Reservierung und Benutzer sucht Last Minute Reisemöglichkeiten im deutsche bahn und Verkauf ermöglichen Benutzer sucht Bildschirmschoner im Internet und will Relevant sind Seiten, die den Download von Bildschirmschonern Benutzer sucht Stellenangebote geschlossen offen Fragetyp Relevant sind alle Seiten die über Immobilien informieren und/oder den Kauf offen Benutzer will online einen Stadtplan benutzen/einsehen Relevant sind alle Seiten, die online Stadtpläne, zumindest flächendeckend verkaufen oder sich darüber informieren anbieten Benutzer will übers Internet den Wetterbericht abfragen Relevant sind Seiten, die Wetterberichte, zumindest in ganz Deutschland, informieren Auktionsseite umkucken bzw. sich über Auktionen Relevant sind alle Auktionsseiten im Internet aber auch Seiten, die über Produkt ersteigern oder sich erstmal auf einer Informationsdiensten (z.B. ADAC) Relevanzkriterien Benutzer will auf einer Auktionsseite im Internet ein (unterstelltes) Informationsbedürfnis big brother bzw „Big Brother“ Benutzer sucht die Homepage zur Serie bildschirmschoner job stadtplan immobilien wetter auktionen Query Seite 140 Last Minute Reiseangebote im last minute Britney Spears Last Minute Verfügbare Dienstleistungen Deutsche Bahn der Deutschen Bahn im Internet Reality Soap Big Brother Big Brother Queries Keyword Jobangebote im Internet job Multiple Stadtpläne im Internet Stadtplan verkauf im Internet Auktionen im Internet auktionen (pretest) Thema Evaluierung hybrider Suchsysteme im WWW Frankfurter Flughafen im flughafen frankfurt Statistiken über Abtreibungen Bundeswehr im UN-Auftrag Waffenexport in die Türkei Weltraumschrott No 61 No 66 No 67 selbst No 55 geniert) (Queries TREC TOPICS Verona Feldbusch enthalten Produkte oder Videos oder Fanartikel von Verona Börsengeschehen und zwar in Buchform Rechtfertigung durch die Verfassung und der Legitimation im Lichte der Erfahrungen des Zweiten Weltkrieges und des Dritten Reiches. Wichtig ist Bundeswehr im Rahmen von UN-Aufträgen diskutieren. weltraumschrott gefahren waffenexport türkei Bundeswehr für UNO-Missionen und befassen sich auch mit Fragen der Entscheidungen zum Einsatz der deutschen auslandseinsatz die die Waffenlieferungen an die Türkei noch nicht eingestellt haben, sowie die jeweiligen internen Diskussionen bezüglich dieser Frage. von Menschen produziert wurde? Weltraumschrott und den davon ausgehenden Gefahren. Irrelevant sind Welche Gefahren gehen von Weltraumschrott aus, der Relevante Dokumente befassen sich mit menschlich produziertem offen verurteilt. Relevante Dokumente betrachten diejenigen europäischen Länder, Waffenlieferungen an die Türkei immer noch nicht eingestellt? die deswegen erhobenen Proteste gegen die Regierungen dieser Länder und Europa hat die brutale Unterdrückung der Kurden durch die türkische Armee offen offen offen geschlossen offen geschlossen Welche europäischen Nationen haben ihre Kampfeinsätze umfassen. auch die Frage, ob friedenserhaltende Missionen auch militärische Finde Dokumente, die den Einsatz und die politischen Relevante Dokumente diskutieren den Auslandseinsatz der deutschen bundeswehr un einzelner Personen oder in einzelnen Kliniken enthalten, sind irrelevant. die Abtreibung (auch in Form von Statistiken) oder die Abtreibungen Gesamtzahl der Schwangerschaften. Dokumente, die nur Meinungen über Abtreibungen in aller Welt oder in verschiedenen Ländern, z.B. mit Bezug zur Schwangerschaftsabbrüche in aller Welt schwangerschaft Benutzer sucht die Homepage der Deutsche Telekom Relevant ist die Homepage der Deutschen Telekom Relevanz sind Seiten die Infos, Bilder oder Produkte von/über Star Trek enthalten Produkte oder Videos oder Fanartikel zu Star Trek Relevant ist die Homepage der Deutschen Bank verlinken Die Statistiken informieren über die Anzahl der legalen oder illegalen schwangerschaftsabbrüche offen geschlossen offen Fragetyp Relevant ist die Homepage des Frankfurter Flughafens bzw Seiten die darauf geschlossen Relevant sind überregionale Firmenverzeichnisse im Internet. Benutzer sucht Informationen oder informationelle Benutzer sucht die Homepage der Deutschen Bank Flughafens Benutzer sucht die Homepage des Frankfurter Benutzer sucht Firmenverzeichnisse im Internet Benutzer sucht die Homepage der Stiftung Warentest Relevant ist die Homepage der Stiftung Warentest Relevant sind Seiten, die Bücher anbieten, welche vom Börsengeschehen handeln Benutzer sucht Informationen über das Feldbusch Relevanzkriterien (unterstelltes) Informationsbedürfnis Seite 141 abtreibungen anzahl statistik Suche Statistiken über legale und/oder illegale TelekomDeutsche Telekom im Internet deutsche telekom Deutsche Pretest Science Fiction Serie Star Trek star trek Star Trek deutsche bank Deutsche Bank im Internet Deutsche Bank Internet Firmenverzeichnisse im Internetgelbe Seiten Gelbe Seiten flughafen frankfurt Stiftung Warentest im Internet stiftung warentest Siftung Warentest börse bücher Bücher über die Börse Query 25 Börse Bücher Thema Evaluierung hybrider Suchsysteme im WWW Milos I Martin P.Courtois Relevante Dokumente enthalten Informationen über die Gefahren des Fischens mit Schleppnetzen und Grundschleppnetzen für Delfine und/oder bestehen, nicht Relevant sind Dokumente, die sich ausschließlich mit dem Wie ist Ergonomie am Arbeitsplatz umzusetzen? ergonomie arbeitsplatz welche Folgen zieht eine Scheidung für Kinder nach Ergonomie am Arbeitsplatz folgen scheidung kinder Folgen einer Scheidung für Relevant sind Dokumente, die die Thematik Ergonomie am Arbeitsplatz aus Auswirkungen einer Ehescheidung für Kinder beschreiben. Relevant sind Dokumente die die psychologischen oder rechtlichen schildern. Widerstandsformen wurden angewandt, mit welchem Erfolg? Widerstandes gegen den Nationalsozialimus aufzählen, darstellen oder Relevant sind Dokumente, die Gruppen, Personen oder Ereignisse des Darstellungen der anderen Konfliktparteien schildern Irrelevant sind Dokumente die ausschließlich Positionen/ Argumente/ Reich, wer waren die Gruppen, Personen, welche welche Formen von Widerstand existierten im Dritten sich nationalsozialismus oder blockiert sie und wenn ja, mit welchen Mitteln Kinder widerstand Widerstand im Nationalsozialismus Nordirlandkonflikts Relevant sind alle Dokumente, die die Rolle der IRA im Friedensprozeß zur Welche Rolle spielt die IRA im Friedensprozeß zur Sicherheitsprobleme, wie können diese umgangen/gelöst werden Lösung des Nordirlandkonflikts, läßt sie sich einbetten Lösung des Nordirlandkonfliktes behandeln/beleuchten. Betrugsproblematik bei Kreditkartentransaktionen im Internet eingehen, d.h. die Probleme bzw. Gefahren schildern oder Lösungshinweise geben. Kreditkartenbetrug begangen, worin bestehen die Welche Rolle spielt die IRA im ira nordirland konflikt beim Business to Consumer E-Commerce liefern oder generell auf die In welchem Umfang wird beim Handel im Internet handel Relevant sind Dokumente, die quantitative Angaben über Kreditkartenbetrug Falkland Krieg beschäftigen oder wirtschaftlichen Kontakte oder Verträge zwischen GB und Argentinien und Großbritannien. kreditkartenbetrug online friedensprozeß offen offen offen Fragetyp offen offen offen offen offen Relevanz haben Dokumente, die schildern welche diplomatischen politischen offen wirtschaftlichen Beziehungen zwischen Argentinien Wie sind die diplomatischen/politischund Rechte verschrieben haben. Friedensprozeß des Sicherheit im E-Commerce britisch argentinische beziehungen Informationen über Tiere, die zu den geschützten Arten gehören, und über die Rettung geschützter Tierarten engagieren. Gruppen oder Einzelpersonen, die sich dem Schutz der Tiere und ihrer von Menschen gefährdet oder verletzt. Relevante Dokumente enthalten Tiere, die zu den geschützten Arten gehören, werden oft durch Handlungen Personen berichten, die sich überall auf der Welt für rettung geschützter Arten und verendet sind. Finde Dokumente, die über Organisationen und tierschutz organisationen Welt verursacht? es den Tod Tausender dieser Tiere in den Meeren der berichten von Fällen, in denen Delfine in solchen Netzen gefangen wurden das Überleben der Delfine, da delphine schleppnetzfischen Birgt das Schleppnetzfischen eine ernste Gefahr für der Rechte zur Eheschließung und zur Adoption von Kindern beschreiben. Die relevanten Dokumente sollen die Rechte Homosexueller einschließlich Dokumente, die natürliche Objekte wie z.B. Kometen betreffen. Relevanzkriterien gefahr Britisch-Argentinische Tierschutz No 81 Paare? eheschließung heirat Welche Rechte haben homosexuelle Personen oder homosexualität recht (unterstelltes) Informationsbedürfnis Seite 142 gesetzgebung adoption Query Beziehungen Rettung für Delphine No 71 Web Trec Homosexualität und Recht No 68 Thema Evaluierung hybrider Suchsysteme im WWW Literatursuche erschlossene Nutzerbefragung Durch Susan Feldmann NLP Queries Milos II alarmanlagen auto Query Verkaufsangebote z.B. von Hardware durch Online Shops welche Vorschriften sind zu beachten? Welche Firmen waren bei der UMTS Auktion dabei Suchmuster erfahrener und Benutzer sucht die Magisterarbeit von Sven Körber unerfahrener der Magisterarbeit von Sven spiele 2000 sydney Olympischen Sielen 2000 geschlossen Relevant sind Seiten die Magisterarbeit beinhalten oder auf diese Verweisen geschlossen Benutzer will den Name des Goldmedaillengewinners Relevanz sind Seiten, die den Namen des Olympiasiegers beinhalten. herausfinden Literatursuche goldmedaillen gewinner marathonlauf olympische Goldmedaillengewinner beim Marathonlauf bei den Benutzer benötigt Vorlagen für Microsoft Word und will Relevant sind Seiten die Vorlagen für Microsoft Word zum download anbieten offen diese aus dem Internet herunterladen vorlagen microsoft word beinhalten, sowie die Höhe der Lizenzpreise angeben. Relevant sind Seiten, die die Teilnehmer der Auktion und die Lizenzgewinner offen Vorlagen für Microsoft Word und ersteigerten zu welchem Preisen wieviele offen geschlossen Lizenzen teilnehmer preise gewinner Restaurants/Hotels/Gaststätten enthalten sind Welche Restaurants in Florenz sind empfehlenswert? Relevant sind Seiten auf denen Kritiken oder Übersichten von sind geschlossen offen Offen Frequenzen umts lizenzen auktion wer bekam wieviele florenz in italien finde restaurantführer für kindersitzherstellern UMTS Technologie Restaurantführer für Florenz Welche Kindersitzhersteller gibt es? Relevant sind Seiten in denen mindestens 2 Kindersitzhersteller aufgeführt finde listen oder Kindersitze im Auto verzeichnisse von oder Seiten in denen Preise für G3 Powerbooks genannt werden Powerbooks Relevant sind Seiten, die Preisübersichten über G3 Powerbooks anbieten, des Nationalsozialimus informieren. demographische Entwicklungen im medizinischen Bereich während der Zeit preise für g3 powerbooks während der Zeit des Nationalsozialismus Welche Entwicklungen im Bereich der Medizin gab es Relevant sind Seiten die über politische, wissenschaftliche sowie Toskana anbieten oder online händische Toskana Reiseführer verkaufen Toskana finden oder online Reiseführer erwerben oder medizinische Therapien Aufschluß geben Relevant sind Seiten, die entweder online Reiseinformationen über die Benutzer will online Reiseinformationen über die medizinischen Therapien gibt es? offen Relevant sind Dokumente, die entweder über notwendige Sofortmaßnahmen Offen beinhalten, ebenso konkrete Verkaufsangebote Informationen über Autoalarmanlagen z.B. (den Einbau in das Auto) Fragetyp Was ist bei einem Schlaganfall zu tun? Welche diese, wie schwierig ist der Einbau? Apple medizin drittes reich Medizin im Dritten Reich theoretischer oder rechtlicher Sicht behandeln, irrelevant sind konkrete Welche Voraussetzungen müssen erfüllt sein und Welche Alarmanlagen gibt’s es für Autos, was kosten Relevant sind Dokumente, die Marktübersichten, oder technische Relevanzkriterien (unterstelltes) Informationsbedürfnis Seite 143 Preise für G3 Powerbooks von was sind die gegenwärtigen Benutzer will sich über die aktuellen Preise für G3 reiseführer toskana Reiseführer für die Toskana Behandlung bei Schlaganfällen behandlung schlaganfall Alarmanlagen für das Auto Thema Evaluierung hybrider Suchsysteme im WWW Suchmaschinennutzer im Körber 2000 Recherchemöglichkeiten im Koch Grau hinterlegte Suchanfragen wurden während der Tests nicht verwendet internationaler Überblick Internet - Verbesserung der von Koch, T. Relevant ist der Volltext des Artikels oder Seiten die auf diesen verlinken Relevanzkriterien Seite 144 Benutzer sucht Online-Artikel (Volltext) von Traugott (unterstelltes) Informationsbedürfnis Literatursuched Finde Artikel Wide Web. Ein Experiment. deutschsprachigen World Query Thema Evaluierung hybrider Suchsysteme im WWW geschlossen Fragetyp Evaluierung hybrider Suchsysteme im WWW Seite 145 Anhang C: Verteilungscode der Suchmaschinen query # AltaVista Treffer AltaVista Lycos Treffer Lycos QualiGo Treffer QualiGo 1 mp3 sa 904700 sb 127048 sc 22715 2 routenplaner sb 105224 sc 16104 sa 17801 5147 3 sms sc 361815 sa 122399 sb 4 chat sa 2550645 sb 442830 sc 8001 5 telefonauskunft sb 29460 sc 7146 sa 80978 6 yahoo sc 151390 sa 144076 sb 8530 7 moorhuhn sa 25841 sb 7265 sc 1131 8 spiele sb 1380640 sc 258544 sa 238273 165318 9 reisen sc 2506837 sa 345321 sb 10 auto sa 2989418 sb 543160 sc 80150 11 wetter sb 1888892 sc 443846 sa 53768 12 immobilien sc 2035560 sa 212084 sb 40969 13 stadtplan sa 517585 sb 58842 sc 146571 14 job sb 956886 sc 277129 sa 151779 15 bildschirmschoner sc 52606 sa 23124 sb 1413 16 big brother sa 156340 sb 22177 sc 9971 17 deutsche bahn sb 1469495 sc 39857 sa 5378 18 last minute sc 465905 sa 86405 sb 9375 19 britney spears sa 15472 sb 5801 sc 1932 20 möbelspeditionen münchen sb 2189434 sc 749392 sa 66989 21 beate uhse sc 67414 sa 2380 sb 676 22 sms sprüche sa 317643 sb 1439 sc 125224 23 free sms sb 378760 sc 13949 sa 3282 24 verona feldbusch sc 32470 sa 3522 sb 478 25 börse bücher sa 4830989 sb 11627 sc 10419 26 stiftung warentest sb 246825 sc 47100 sa 25223 27 gelbe seiten sc 544894 sa 11822 sb 2398 28 flughafen frankfurt sa 2042930 sb 19608 sc 1372 29 deutsche bank sb 3321300 sc 70905 sa 5965 17396 30 star trek sc 160555 sa 41897 sb 31 abtreibungen anzahl statistik sa 689510 sb 703634 sc 50830 32 bundeswehr un auslandseinsatz sb 80283 sc 40 sa 195365 33 waffenexport türkei sc 150445 sa 115 sb 26787 34 weltraumschrott gefahrensa sa 245306 sb 97486 sc 110559 35 homosexualität recht gesetzgebung sb 804366 sc 701258 sa 268383 36 rettung für delphine sc 614911 sa 171027 sb 16284 37 tierschutz sa 1335422 sb 332886 sc 373455 38 britsch argentinische beziehungen sb 395944 sc 6/126420 sa 48506 39 sicherheit ecommerce sc 12376401 sa 23 sb 317724 40 ira sa 131463 sb 54 sc 62221 41 widerstand nationalsozialismus sb 264929 sc 3624 sa 189939 42 folgen scheidung kinder sc 3177560 sa 1346 sb 199789 43 ergonomie arbeitsplatz sa 267858 44 alarmanlagen auto sb 644618 sc 810 sa 118023 45 behandlung schlaganfall sc 438310 sa 2224 sb 100425 46 reiseführer toskana sa 130846 sb 565 47 medizin drittes reich sb 970066 sc 48 umts sc 3133482 sa 49 vorlagen microsoft word sa 739645 sb 50 marathonlauf sb 2641710 sc 1853 204557 sc 58157 sa 113558 758828 sb 299368 1319 sc 88777 4658703 sa 409404 Evaluierung hybrider Suchsysteme im WWW Seite 146 Anhang D: Beispiel eines Fragebogens Personenschlüssel Fragebogen - Evaluation hybrider Suchdienste Herzlich willkommen zu dieser Untersuchung. Ihre Aufgabe in dieser Untersuchung besteht darin, im Folgenden Webseiten auf ihre Relevanz hin zu bewerten. Sie bekommen hierzu eine Liste von URL´s, die die hier untersuchten Suchmaschinen als Ergebnisse bestimmter Anfragen geliefert haben. Ihre Einschätzung dient als Grundlage zur qualitativen Bewertung der untersuchten Suchmaschinen. Zunächst bitte ich Sie noch um einige grundlegende Informationen zu ihrer Person, die für die Auswertung benötigt werden. Diese Daten werden streng vertraulich behandelt; keinerlei Informationen, die Ihre Person erkennen lassen, werden auf irgendeinem Medium gespeichert oder an Dritte weitergeleitet. Wichtig: Bei dieser Untersuchung geht es nicht um eine Beurteilung Ihrer Person, sondern lediglich um ihre persönliche Relevanzeinstufung der Ergebnisseiten der untersuchten Suchmaschinen. Sollten Sie während der Untersuchung Fragen haben, werde ich sie gerne beantworten. Bitte beantworten Sie zunächst folgende Fragen. Welchem Geschlecht und welcher Altersgruppe gehören Sie an? weiblich männlich 0-20 21-30 31-40 41-50 Welche berufliche Tätigkeit üben Sie aus? 51-60 __________________________________ Im Umgang mit Computern bzw. Software bezeichnen Sie sich als? Anfänger Fortgeschrittener Experte Wie häufig „surfen“ Sie im World Wide Web? täglich mehrmals pro Woche selten bis nie Sie benutzen Suchmaschinen oder andere Information Retrieval Systeme? selten bis nie mehrmals pro Woche täglich. Wie fühlen Sie sich gerade? sehr schlecht – 2 –1 0 +1 +2 sehr gut Evaluierung hybrider Suchsysteme im WWW Seite 147 Untersuchung Sie sehen im weiteren Teil des Fragebogens zwei Bewertungsbögen, zu je drei Blättern, auf denen jeweils aufgeführt sind: • das zu behandelnde Thema • die Suchabfrage, die bei den Suchmaschinen durchgeführt wurde • das der Suchanfrage zugrundgeliegende Informationsbedürfnis • und die Kriterien zur Relevanzeinstufung Lesen Sie diesen Text gründlich und in Ruhe durch. Weiter unten auf den Blättern sind die zu beurteilenden Webseiten in einer Reihenfolge von a1-t20 aufgeführt. Auf diese Webseiten können Sie zugreifen, indem Sie im Browser die Url http://www.inf.unikonstanz.de/~griesbau/evaluation_html_files/ öffnen und den Links folgen. Selektieren Sie bitte, von oben beginnend, eine Seite, so daß diese im Browser erscheint und kreuzen sie das ihrer Meinung nach passende Relevanzkriterium auf dem jeweiligen Bewertungsblatt an. Wenn Sie fertig sind, selektieren Sie bitte die nächste Webseite und bewerten diese u.s.w.. Insgesamt sind 120 Webseiten zu bewerten. Fällen sie ihr Urteil „spontan“ ohne langes Nachdenken, so als würden sie selbst das zugrundegelegte Informationsbedürfnis verspüren und die Suchabfrage eingegeben haben. Betrachten sie nur die jeweilige Seite, folgen Sie keinen Links. Wenn sie denken die Seite würde auf relevante Seiten verweisen, so kreuzen sie das entsprechende Feld auf den Bewertungsblättern an, ohne die Links zu überprüfen. Seiten, die innerhalb eines Bewertungsblattes mehrfach erscheinen (Dupletten z.B. wenn die Webseite x, auf einem Bewertungsblatt mehrfach auftaucht) sind als nicht relevant anzukreuzen. Ansonsten bewerten Sie die jeweiligen Listen und Dokumente unabhängig voneinander, jede(s) für sich. Und nun viel Spaß! Evaluierung hybrider Suchsysteme im WWW Seite 148 Personenschlüssel q18_last_minute_sa Thema Query Informationsbedürfnis Last last Benutzer Minute minute Reisemöglichkeiten im Internet. sucht Relevanzkriterien Last Minute Relevant sind konkrete Angebote von Reiseunternehmen, Reiseang Informationsdienste ebote im Minute. über sowie Last- Internet Seite relevant verweist auf relevante Seite(n) nicht relevant a1 O O O b2 O O O c3 O O O d4 O O O e5 O O O f6 O O O g7 O O O h8 O O O i9 O O O j10 O O O k11 O O O l12 O O O m13 O O O n14 O O O o15 O O O p16 O O O q17 O O O r18 O O O s19 O O O t20 O O O Evaluierung hybrider Suchsysteme im WWW Seite 149 Personenschlüssel q18_last_minute_sb Thema Query Informationsbedürfnis Last last Benutzer Minute minute Reisemöglichkeiten im Internet. sucht Relevanzkriterien Last Minute Relevant sind konkrete Angebote von Reiseunternehmen, Reiseang Informationsdienste ebote im Minute. über sowie Last- Internet Seite relevant verweist auf relevante Seite(n) nicht relevant a1 O O O b2 O O O c3 O O O d4 O O O e5 O O O f6 O O O g7 O O O h8 O O O i9 O O O j10 O O O k11 O O O l12 O O O m13 O O O n14 O O O o15 O O O p16 O O O q17 O O O r18 O O O s19 O O O t20 O O O Evaluierung hybrider Suchsysteme im WWW Seite 150 Personenschlüssel q18_last_minute_sc Thema Query Informationsbedürfnis Last last Benutzer Minute minute Reisemöglichkeiten im Internet. sucht Relevanzkriterien Last Minute Relevant sind konkrete Angebote von Reiseunternehmen, Reiseang Informationsdienste ebote im Minute. über sowie Last- Internet Seite relevant verweist auf relevante Seite(n) nicht relevant a1 O O O b2 O O O c3 O O O d4 O O O e5 O O O f6 O O O g7 O O O h8 O O O i9 O O O j10 O O O k11 O O O l12 O O O m13 O O O n14 O O O o15 O O O p16 O O O q17 O O O r18 O O O s19 O O O t20 O O O Evaluierung hybrider Suchsysteme im WWW Seite 151 Personenschlüssel q19_britney_spears_sa Thema Query Informationsbedürfnis Relevanzkriterien Popstar britney Benutzer sucht Informationen oder Relevant sind Seiten die Infos, Britney spears informationelle Bilder oder Produkte überwiegend Spears Produkte (Bildschirmschoner usw.) oder CD´s, von Britney Spears enthalten. Videos oder Fanartikel von Britney Spears Seite relevant verweist auf relevante Seite(n) nicht relevant a1 O O O b2 O O O c3 O O O d4 O O O e5 O O O f6 O O O g7 O O O h8 O O O i9 O O O j10 O O O k11 O O O l12 O O O m13 O O O n14 O O O o15 O O O p16 O O O q17 O O O r18 O O O s19 O O O t20 O O O Evaluierung hybrider Suchsysteme im WWW Seite 152 Personenschlüssel q19_britney_spears_sb Thema Query Informationsbedürfnis Relevanzkriterien Popstar britney Benutzer sucht Informationen oder Relevant sind Seiten die Infos, Britney spears informationelle Bilder oder Produkte überwiegend Spears Produkte (Bildschirmschoner usw.) oder CD´s, von Britney Spears enthalten. Videos oder Fanartikel von Britney Spears Seite relevant verweist auf relevante Seite(n) nicht relevant a1 O O O b2 O O O c3 O O O d4 O O O e5 O O O f6 O O O g7 O O O h8 O O O i9 O O O j10 O O O k11 O O O l12 O O O m13 O O O n14 O O O o15 O O O p16 O O O q17 O O O r18 O O O s19 O O O t20 O O O Evaluierung hybrider Suchsysteme im WWW Seite 153 Personenschlüssel q19_britney_spears_sc Thema Query Informationsbedürfnis Relevanzkriterien Popstar britney Benutzer sucht Informationen oder Relevant sind Seiten die Infos, Britney spears informationelle Bilder oder Produkte überwiegend Spears Produkte (Bildschirmschoner usw.) oder CD´s, von Britney Spears enthalten. Videos oder Fanartikel von Britney Spears Seite relevant verweist auf relevante Seite(n) nicht relevant a1 O O O b2 O O O c3 O O O d4 O O O e5 O O O f6 O O O g7 O O O h8 O O O i9 O O O j10 O O O k11 O O O l12 O O O m13 O O O n14 O O O o15 O O O p16 O O O q17 O O O r18 O O O s19 O O O t20 O O O Evaluierung hybrider Suchsysteme im WWW Wie würden Sie jetzt nach dem Test Ihre Stimmung bezeichnen? – 2 –1 0 +1 +2 __________________________________ Vielen Dank für Ihre Mitarbeit! __________________________________ Seite 154 Evaluierung hybrider Suchsysteme im WWW Seite 155 Anhang E: Beispiel eines Signifikanztests Vorzeichentest nach Sidney, Siegel, Nichtparametrische statistische Methoden, Eschborn 1987. Signifikanz der Effektivitätsunterschiede hinsichtlich der Beantwortung der einzelnen Suchanfragen verwendetes nichtparametrisches Verfahren: Vorzeichentest; prüft ob signifikante Unterschiede bestehen. Test wird einseitig unternommen, da vorab davon ausgegangen wird, daß Lycos besser ist. Ausnahme Vergleich von AltaVista und QualiGO Nullhypothese h0: p(XA>XB) = p(XA<XB) =0,5 Anzahl der Paare (XA>XB) gleich Anzahl der Paare (XA<XB) ungefähr die Hälfte der Differenzen besitzt ein negatives bzw. positives Vorzeichen wird diese mit hinreichender Wahrscheinlichkeit widerlegt, gilt die Testhypothese. Ablauf: Ermittlung der Werte der Vergleichspaare N (Precision pro Suchanfrage) (N=50) Elimination der Vergleichspaare mit identischen Werten aus der Menge N Ermittlung der Häufigkeit von X (X = kleinere Anzahl von Vorzeichen) Für N<=25 Ermittlung der Wahrscheinlichkeit für das Zutreffen der Gegenhypothese aus Tafel D im Anhang S.236. Für N >= 25 Berechnung von z und anschließend Ermittlung der Wahrscheinlichkeit für das Zutreffen der Gegenhypothese aus Tafel A im Anhang S.233. Wert z ermittelt sich aus ((x +/- 0,5) – (0,5 N))/0,5 N0,5 Suchanfrage Suchanfragen Precision pro Signifikanztest Lycos Signifikanztest Lycos Signifikanztest AltaVista AltaVista AltaVista QualiGo Suchanfrage Lycos AltaVista QualiGo 1 mp3 0,45 0,6 0,85 - - 2 routenplaner 0,5 0,7 0,85 - - - 3 sms 0,55 0,5 0,5 + + 0 - - 4 chat 0,6 0,4 0,45 + + 5 telefonauskunft 0,5 0,5 0,55 0 - - 6 yahoo 0,5 0,45 0,5 + 0 - 7 moorhuhn 0,45 0,6 0,6 - - 0 8 spiele 0,75 0,5 0,65 + + - 9 reisen 0,65 0,8 0,6 - + + 10 auto 0,25 0,6 0,55 - - + 11 wetterbericht 0,35 0,25 0,45 + - - 12 immobilien 0,4 0,7 0,8 - - - 13 stadtplan 0,3 0,1 0,15 + + - 14 job 0,5 0,5 0,35 0 + + 15 bildschirmschon 0,25 0,4 0,6 - - - + er 16 big brother 0,25 0,25 0,1 0 + 17 deutsche bahn 0,15 0,15 0,05 0 + + 18 last minute 0,55 0,65 0,5 - + + 19 britney spears 0,3 0,25 0,25 + + 0 20 möbelsp. 0,05 0,05 0 0 + + Evaluierung hybrider Suchsysteme im WWW Seite 156 münchen 21 beate Uhse 0,25 0,15 0,05 + + 22 sms sprüche 0,35 0,6 0,4 - - + + 23 free sms 0,6 0,45 0,35 + + + 24 verona 0,35 0,45 0,3 - + + feldbusch 25 börse bücher 0,25 0,5 0,05 - + + 26 stiftung 0,3 0,05 0,1 + + - warentest 27 gelbe seiten 0,5 0,6 0,65 - - - 28 flughafen 0,4 0,2 0,25 + + - frankfurt 29 deutsche bank 0,55 0,7 0,35 - + + 30 star trek 0,7 0,6 0,55 + + + 31 abtreibungen 0,15 0,5 0,4 - - + 32 bundeswehr 0,35 0,45 0,1 - + + Waffenexport 0,35 0,25 0,3 + + - + 33 türkei 34 weltraumschrott 0,2 0,2 0 0 + 35 homosexualität 0,25 0,2 0,4 + - - 36 rettung delphine 0,1 0,15 0 - + + 37 tierschutz 0,4 0,6 0,1 - + + 38 britisch 0,2 0 0,05 + + - + argentinisch 39 ecommerce 0,6 0,3 0,2 + + 40 ira 0,1 0,2 0,35 - - - 41 widerstand 0,35 0,45 0,45 - - 0 42 scheidung 0,35 0,5 0,55 - - - 43 ergonomie 0,2 0,3 0,2 - 0 + 44 alarmanlagen 0,45 0,3 0,35 + + - 45 schlaganfall 0,55 0,35 0,4 + + - 46 toskana 0,6 0,35 0,05 + + + medizin drittes 0,2 0,05 0,4 + - - 47 reich 48 umts 0,45 0,45 0,55 0 - - 49 vorlagen 0,35 0,2 0,05 + + + 0,2 0,05 0,2 + 0 - microsoft word 50 marathonlauf N=50-7=43 N=50-3=47 22 30 N=50-4=46 23 -21 -17 -23 N=43 x=21 folgt z=0,0 N=47 x=17 folgt N=46 x=23 folgt daraus folgt laut Tafel z=0,43 daraus folgt z=0,14 daraus folgt laut Tafel A siehe A siehe Siegel laut Tafel A siehe P(Gegenhypothese)= Siegel Siegel 0,5, d.h. nicht P(Gegenhypothese)= P(Gegenhypothese)= signifikanz 0,3336, d.h. nicht 0,88 d.h. nicht signifikanz signifikanz