Dokument_1.
Transcrição
Dokument_1.
Thomas Mandl Die automatische Bewertung der Qualität von InternetSeiten im Information Retrieval Habilitationsschrift 2006 II Inhaltsverzeichnis Inhaltsverzeichnis 0. EINLEITUNG..................................................................................1 0.1 Problemstellung ................................................................................................... 2 0.2 Überblick .............................................................................................................. 4 0.3 Definitionsansätze für Qualität im Internet...................................................... 6 0.4 Bibliothekswissenschaftliche Qualitätskriterien............................................... 7 0.5 Gebrauchstauglichkeit (Usability) ...................................................................... 8 0.6 Realisierungsansätze automatischer Qualitätsbewertung ............................... 8 0.7 Link-Analyse ........................................................................................................ 9 0.8 Fortgeschrittene Modelle .................................................................................. 12 0.9 Automatische Bewertung der Gebrauchstauglichkeit ................................... 14 0.10 Fazit: Realisierungsansätze automatischer Qualitätsbewertung .................. 18 0.11 AQUAINT – Entwicklung, Implementierung und Evaluierung ................... 19 TEIL I: GRUNDLAGEN DER QUALITÄTSBEWERTUNG IM INTERNET ...............23 1. MENSCH-MASCHINE INTERAKTION IM INTERNET ................25 1.1 Formen der Mensch-Maschine-Interaktion.................................................... 26 1.2 Richtlinien für die Gestaltung .......................................................................... 27 1.3 Gestaltungsprinzipien ....................................................................................... 28 1.4 Ästhetische Gestaltung...................................................................................... 29 1.5 Evaluierung und Messung ................................................................................ 33 1.6 Hindernisse für die Mensch-Maschine-Interaktion ....................................... 35 1.7 Realisierung von Benutzungsoberflächen im Internet................................... 37 2. INFORMATION RETRIEVAL IM INTERNET ...............................39 ............................................................................................................39 2.1 Linguistische Vorverarbeitung......................................................................... 41 2.2 Gewichtung und Ähnlichkeitsberechnung ...................................................... 44 III 2.3 Optimierungsansätze ........................................................................................ 47 2.4 Evaluierung........................................................................................................ 51 2.5 Semantische Heterogenität und Semantic Web............................................... 55 2.6 Benutzungsoberflächen und Browsing als Suchstrategie .............................. 57 2.7 Mehrwertkomponenten .................................................................................... 59 3. WEB MINING UND TEXT MINING .............................................. 63 3.1 Maschinelles Lernen ......................................................................................... 66 3.1.1 Neuronales Backpropagation-Netzwerk ......................................................... 67 3.1.2 Data Mining..................................................................................................... 69 3.2 Web Structure Mining ...................................................................................... 70 3.2.1 Autoritätsmaße ................................................................................................ 71 3.2.2 Quantitative Untersuchungen.......................................................................... 72 3.3 Web Usage Mining ............................................................................................ 74 3.3.1 Methodische Probleme.................................................................................... 74 3.3.2 Aufzeichnung der Interaktionsdaten ............................................................... 76 3.3.3 Log-Daten in der Mensch-Maschine-Interaktion............................................ 77 3.4 Web Content Mining......................................................................................... 80 3.4.1 Lexikalisches Wissen ...................................................................................... 80 3.4.2 Web Knowledge Mining ................................................................................. 81 3.5 Text Mining........................................................................................................ 82 3.6 Fazit: Web Mining und Text Mining............................................................... 83 4. QUALITÄT VON INTERNET-ANGEBOTEN ............................... 85 4.1 Rahmen für Qualitätsdefinitionen................................................................... 85 4.2 Qualität vs. Relevanz......................................................................................... 90 4.3 Bezugsgröße von Qualität................................................................................. 93 4.4 Facetten von Qualitätsdefinitionen.................................................................. 94 4.4.1 Kriterien für Qualität....................................................................................... 96 4.4.2 Autorität .......................................................................................................... 98 4.4.3 Zeitliche Aspekte........................................................................................... 101 4.4.4 Gebrauchstauglichkeit................................................................................... 103 4.4.5 Wirtschaftliche Aspekte ................................................................................ 104 4.4.6 Technische und Software-Qualität ................................................................ 105 4.4.7 Interkulturelle Unterschiede.......................................................................... 109 4.5 IV Fazit: Qualität von Internet-Angeboten........................................................ 111 Inhaltsverzeichnis 5. QUALITÄT IM KONTEXT ..........................................................115 5.1 Arbeitsteilung zwischen Mensch und Maschine ........................................... 115 5.2 Negative Qualität ............................................................................................. 117 5.3 Erkennen von Eigenschaften (Qualitäten) .................................................... 118 5.4 Prozess der Qualitätsbewertung .................................................................... 120 5.5 Wissensquellen für Qualitätsurteile............................................................... 121 5.5.1 Benutzungsdaten............................................................................................ 121 5.5.2 Informationsarbeit durch Setzen von Links................................................... 123 5.5.3 Explizite Qualitätsentscheidungen ................................................................ 125 TEIL II: STAND DER FORSCHUNG ZUR AUTOMATISCHEN QUALITÄTSBEWERTUNG ....129 6. ANWENDUNGSSZENARIEN AUTOMATISCHER QUALITÄTSBEWERTUNG..............................................................131 6.1 Qualitätsfilter ................................................................................................... 133 6.2 Integration in Retrieval-Systeme ................................................................... 134 6.3 Werkzeuge und Mehrwertdienste für die Internet-Benutzung................... 135 6.4 Sammeln von Internet-Dokumenten.............................................................. 136 6.5 Evaluation von Institutionen und Personen.................................................. 140 7. AUTOMATISCHE QUALITÄTSBEWERTUNG DURCH LINKANALYSE.........................................................................................143 7.1 Der PageRank-Algorithmus ........................................................................... 145 7.2 Grundlage Bibliometrie .................................................................................. 149 7.3 Überblick über Algorithmen zur Link-Analyse ........................................... 150 7.4 Maße mit zwei Rollen ...................................................................................... 152 7.5 Aspekte der Implementierung........................................................................ 157 7.6 Modifikationen des Page-Rank-Algorithmus ............................................... 161 7.7 Globale Link-Struktur des Internets ............................................................. 166 7.7.1 Statische Modelle .......................................................................................... 166 7.7.2 Dynamische Modelle..................................................................................... 169 7.7.3 Gesamtstruktur des Web................................................................................ 171 7.8 Anwendungen von Link-Analysen zur Community-Erkennung ................. 174 7.9 Integration von Link-Maßen im Information Retrieval .............................. 178 V 7.10 Evaluierung von Link-Analyse ...................................................................... 179 7.10.1 Web Track bis 2001 .................................................................................. 179 7.10.2 Web Track 2002 und 2003 ........................................................................ 182 7.10.3 Fallstudien ................................................................................................. 184 7.11 Bewertung komplexer Einheiten.................................................................... 185 7.12 Fazit: Link-Analyse......................................................................................... 186 8. WEITERFÜHRENDE SYSTEME UND MODELLE FÜR DIE AUTOMATISCHE QUALITÄTSBEWERTUNG ............................... 191 8.1 Teilweise formalisierte Modelle ..................................................................... 191 8.2 Automatische Zuordnung............................................................................... 193 8.3 Qualitätsfilter................................................................................................... 196 8.3.1 Integration von Qualitätsmetriken in Retrieval-Verfahren ........................... 202 8.3.2 Zeitliche Aspekte........................................................................................... 207 8.4 Gebrauchstauglichkeit .................................................................................... 208 8.4.1 Syntax- und Richtlinienkonformitäts-Prüfung .............................................. 209 8.4.2 Seitenstruktur ................................................................................................ 214 8.4.3 Link-und Hypertext-Struktur......................................................................... 217 8.4.4 Navigation ..................................................................................................... 219 8.5 Qualität von Texten......................................................................................... 220 8.5.1 Lesbarkeitsanalyse ........................................................................................ 221 8.5.2 Syntaxbewertung........................................................................................... 222 8.6 Negative Qualität............................................................................................. 222 8.7 Technische Qualität......................................................................................... 224 9. FAZIT: STAND DER FORSCHUNG ZUR AUTOMATISCHEN QUALITÄTSBEWERTUNG ............................................................. 227 TEIL III: WEITERENTWICKLUNG AUTOMATISCHER QUALITÄTSBEWERTUNG: AQUAINT ..................229 10. DIFFERENZIERTE LINK-ANALYSE...................................... 235 10.1 Strukturelle Einflüsse auf die Link-Analyse................................................. 235 10.2 Inkonsistenzen der Link-Analyse .................................................................. 242 10.3 Berücksichtigung von thematischer Zentralität........................................... 243 10.4 Fazit .................................................................................................................. 244 VI Inhaltsverzeichnis 11. ENTWICKLUNG VON QUALITÄTSMODELLEN ...................247 11.1 Überblick .......................................................................................................... 249 11.2 Untersuchte Parameter ................................................................................... 251 11.2.1 Datei-Maße ................................................................................................ 251 11.2.2 Link-Maße ................................................................................................. 252 11.2.3 Häufigkeit von Tags .................................................................................. 253 11.2.4 Farb-Maße ................................................................................................. 253 11.2.5 Tabellen-Maße........................................................................................... 254 11.2.6 Listen-Maße............................................................................................... 255 11.2.7 Sprachliche Eigenschaften......................................................................... 255 11.2.8 Berechnete Größen .................................................................................... 256 11.2.9 Fazit Eigenschaften.................................................................................... 256 11.3 Realisierungsaspekte ....................................................................................... 258 11.4 Qualitäts-Modelle ............................................................................................ 262 11.4.1 Qualitätsmodelle auf der Basis von Yahoo ............................................... 264 11.4.2 Qualitäts-Modelle für die Spam-Erkennung.............................................. 265 11.4.3 Modelle auf der Basis von drei Klassen .................................................... 266 11.4.4 Reduzierte Modelle.................................................................................... 268 11.4.5 Modelle auf der Basis des Benutzertests ................................................... 269 11.5 Analyse der Qualitätsmodelle......................................................................... 271 11.5.1 Wichtige Eigenschaften in den Trainingsdaten ......................................... 271 11.5.2 Wichtige Eigenschaften im Benutzertest................................................... 273 11.6 Fazit Qualitätsmodelle .................................................................................... 275 12. VOM INFORMATION RETRIEVAL ZUM QUALITÄTSRETRIEVAL .....................................................................................277 12.1 Fusion im Information Retrieval ................................................................... 278 12.2 Weitere Überlegungen: Transparente Fusion im Qualitäts-Retrieval ....... 280 12.3 Systembeschreibung ........................................................................................ 282 12.4 Fazit Qualitäts-Retrieval................................................................................. 285 13. EVALUIERUNG ......................................................................287 13.1 Vorüberlegungen zur Evaluierung ................................................................ 287 13.2 Testaufbau und -durchführung...................................................................... 288 13.3 Ergebnisse: Qualitätsbewertung durch Testpersonen ................................. 291 13.4 Ergebnisse: Mehrfach angebotene Ergebnis-Seiten..................................... 295 VII 13.5 Qualitative Auswertung der Bemerkungen .................................................. 296 13.6 Ergebnisse: Evaluierung der AQUAINT-Ranking-Funktion ..................... 297 13.7 Fazit Evaluierung ............................................................................................ 301 14. WEB DESIGN MINING ........................................................... 305 15. AUSBLICK.............................................................................. 313 16. FAZIT ...................................................................................... 317 17. LITERATURVERZEICHNIS.................................................... 321 ANHANG.......................................................................................... 347 Anhang A: Lineares Regressionsmodell für Benutzertest....................................... 347 Anhang B: Support Vektor Maschinen Modell........................................................ 348 Anhang C: Benutzertest-Vorab-Information ........................................................... 351 Anhang D: Beispielseiten ............................................................................................ 353 VIII Einleitung 0. Einleitung Internet-Suchmaschinen gehören für viele Menschen bereits zum Alltag. So werden nach Schätzungen pro Tag mehr als 500 Millionen Anfragen an Suchmaschinen gestellt1. Eine der wichtigsten Herausforderungen des Web Information Retrieval besteht in der großen Heterogenität der Qualität der Dokumente. Seit einigen Jahren setzen Suchmaschinen daher link-basierte Verfahren ein, um von der Häufigkeit der Verweise auf eine Seite auf deren Qualität zu schließen. Derartige eindimensionale Verfahren versagen allerdings angesichts der Komplexität des Qualitätsbegriffs. Dementsprechend entstanden in den letzten Jahren erste komplexe Verfahren zur Abschätzung der Qualität von Internet-Angeboten. Die vorliegende Arbeit greift diese Tendenz in der Forschung auf und führt sie weiter. In Teil I erfolgt eine Einführung in das Web Information Retrieval sowie einige Technologien, die dabei eine Rolle spielen. Teil II stellt den Stand der Forschung und Technik zur automatischen Qualitätsbewertung im Internet dar. Dazu erläutern einige einführende Kapitel die Komplexität des Qualitätsbegriffs im Kontext Internet. Anschließend fasst ein Kapitel den Stand der Forschung zur Link-Analyse zusammen und weist auf die Schwächen dieses Ansatzes hin. Das folgende Kapitel stellt weitere Ansätze zur automatischen Qualitätsbewertung vor. Diese werden erstmals aus der Perspektive der automatischen Qualitätsbewertung diskutiert und kategorisiert. Teil III zieht die Konsequenzen aus den bestehenden Ansätzen. Die vorliegende Arbeit schlägt zunächst einige Ansätze zur Differenzierung und Verfeinerung der Link-Analyse vor. Im Anschluss wird ein Qualitätsmodell entwickelt und implementiert, das zahlreiche Parameter berücksichtigt und in eine Qualitäts-Suchmaschine integriert. Diese Monographie stellt die Ergebnisse bei der Implementierung und Evaluierung des Systems AQUAINT2 (Automatic Quality Assessment for Internet Resources, Automatische Quali- 1 http://searchenginewatch.com/reports/article.php/2156461 (alle in den Fußnoten aufgeführten Internet-Adressen wurden am 29.08.2005 verifiziert) AQUAINT wurde von der Deutschen Forschungsgemeinschaft (DFG) unter dem Kennzeichen MA 2411/3-1 gefördert. 1 Einleitung tätsabschätzung für Internet Ressourcen) vor, in dem die innovativen Qualitätsbewertungs-Verfahren für das Web Retrieval entwickelt wurden. 0.1 Problemstellung Eine der wichtigsten Herausforderungen des Web Information Retrieval besteht in der großen Heterogenität der Qualität der Dokumente. Seit einigen Jahren gilt besonders die niedrige Qualität vieler Internet-Angebote als Herausforderung für die Forschung1. Die Automatisierung dieser Aufgabe mag zunächst als überzogene Forderung eines Anhängers der Künstlichen Intelligenz gelten. Jedoch bewerten Suchmaschinen längst auch die Qualität von Seiten. Somit ist eine Analyse dieses Forschungsfeldes zur Schaffung von Transparenz und zur Darstellung der Möglichkeiten und Schwächen dieser Verfahren sehr wichtig. Die Bewertung von Wissen nach seiner Qualität stellt einen existentiellen Prozess für den Nutzer dieser Information dar. Menschen erledigen dies tagtäglich. Diese Aufgabe wird jedoch zunehmend – und zunächst weitgehend unbemerkt – an Maschinen übertragen. Diese Vorstellung mag so manchen abschrecken oder zumindest als unrealistisch erscheinen, da die Bewertung von Qualität als eine intelligente und dem Menschen ureigenste Aufgabe gilt. Schließlich stehen hinter den Informationsobjekten wiederum Menschen, die diese erstellt haben. Bei der automatischen Qualitätskontrolle bewertet demnach ein Computer indirekt einen Menschen. Aber die stark anwachsende Menge von Wissen, das weltweit zur Verfügung steht, erfordert eine teilweise Übertragung auf Maschinen, oder doch zumindest eine weitgehende Unterstützung des Menschen durch Computer. Zugleich schafft die weltweite Vernetzung technische Grundlagen zur Analyse, zum Vergleich und zur Verknüpfung sehr vieler Wissensangebote. Die Internet-Technologie bietet Möglichkeiten, das Verhalten zahlreicher Benutzer zu beobachten. Systeme zur Bearbeitung gemeinsamer Informationsräume eröffnen darüber hinaus ein Potential zu computer-unterstützter Bewertung von Qualität. 1 2 In einem aktuellen Überblicksartikel stellt die Forschungsleiterin von Google das Qualitätsproblem als zweitwichtigste Herausforderung für das Web Information Retrieval dar (cf. HENZINGER ET AL. 2002). Das in ihren Augen drängendste Problem spamming, also Täuschungsversuche zum Inhalt, kann ebenfalls als Sonderfall des Qualitätsproblems interpretiert werden. Einleitung Vor allem aber ist die Automatisierung der Qualitätsbewertung bereits Realität. Im Einsatz befindliche Systeme nutzen zur Zeit einzelne und begrenzte Facetten von Qualität. Experimentelle Systeme gehen darüber schon hinaus und basieren auf zahlreichen Facetten von Qualität. Die Bewertung von Informationsangeboten erfordert die Analyse heterogener Objekte anhand unterschiedlicher Kriterien. Dabei können die Inhalte ebenso wie ihre Präsentation, ihre Anordnung und ihre technische Umsetzung ins Spiel kommen. Je nach Objekt der Bewertung sind unterschiedliche Aspekte für die Qualität entscheidend. Während bei der technischen Umsetzung die Ladezeit eine Rolle spielt, kommt es bei der Präsentation etwa auf die Lesbarkeit und Übersichtlichkeit an, um einige einfache Beispiele zu nennen. Problematischer ist die inhaltliche Bewertung von Text-Dokumenten, ein Bereich, bei dem automatischen Verfahren eine große Skepsis entgegengebracht wird. Diese Skepsis ist sicher auch weitgehend berechtigt. Andererseits setzt die Szientometrie gerade in diesem Bereich schon seit langem automatisierbare Verfahren ein. Entscheidend für die Einschätzung der Möglichkeiten und Grenzen automatischer Verfahren zur Qualitätsbewertung ist die Kenntnis der verwendeten Verfahren und ihrer Entwicklungsperspektiven. Inhaltliche Faktoren für eine Abschätzung der Qualität können der Wahrheitsgehalt, der wissenschaftliche Neuigkeitswert, Aktualität, stilistische Qualität, Grad der Adaptierung an den Adressatenkreis ebenso sein wie der Verlauf einer Diskussion. An diesen Beispielen wird bereits deutlich, dass Qualität nicht nur im Sinne von Güte sondern auch als Eigenschaft oder Beschaffenheit verstanden werden muss. Die Bewertung hängt stark vom Benutzerbedürfnis ab. Demnach ist das Erkennen einer Eigenschaft Grundvoraussetzung für eine adäquate Bewertung im Hinblick auf die konkreten Anforderungen einer Benutzungssituation. So ist das Erkennen journalistischer Texte und ihre Bevorzugung oder Ausblendung für viele Benutzungsbedürfnisse bereits ein entscheidender Mehrwert. Kern automatischer Verfahren zur Abschätzung von Qualität ist das formale Erkennen von Eigenschaften. Dies gilt sowohl für die Beschaffenheit als auch die Güte. Die entscheidende Frage besteht darin, welche Eigenschaften sich gut hierfür eignen und welche überhaupt formal erkannt werden. Die meisten automatischen Verfahren, die realisiert sind oder als wissenschaftliche Entwicklungen vorgestellt wurden, greifen auf Verfahren zur Zitationsanalyse in der Infometrie zurück und übertragen diese von Zitaten auf die im Internet verwendeten Hypertext-Verknüpfungen oder Links. Hier setzen Verfahren des Web-Mining und des Web-Measurement an. 3 Einleitung Trotz der Suche nach automatischen Verfahren sollte dem menschlichen Urteil immer das Primat eingeräumt werden. Dementsprechend soll es auch die Richtschnur für Algorithmen vorgeben. So vage das menschliche Qualitätsurteil auch sein mag und so schwierig es zu erfassen ist, es gibt das Lernziel für den Computer vor. Erfolgreich realisierte Verfahren zur automatischen Qualitätsbewertung können vielfach eingesetzt werden. Immer wieder genannt wird die Funktion eines Qualitätsfilters, der in Suchmaschinen als zweiter Schritt nach den Standard Retrieval-Verfahren aus dem Ergebnis Dokumente mit sehr niedriger Qualität tilgt. Ein solches System beschreibt auch Teil III dieser Arbeit. 0.2 Überblick Die vorliegende Arbeit befasst sich mit der automatischen Abschätzung der Qualität von Internet-Angeboten. Zunächst muss daher der Qualitätsbegriff geklärt werden. Anschließend werden automatische Verfahren zur Abschätzung der Qualität diskutiert. Erste Ansätze und Systeme zur Delegation von Qualitätseinschätzungen an Maschinen existieren bereits. Diese werden hier erstmals in einem umfassenden state-of-the-art Bericht systematisch dargestellt und bewertet. Darauf aufbauend wird ein neuartiges System zur automatischen Abschätzung der Qualität von Internet-Angeboten entworfen, implementiert und evaluiert. Die Bewertung von Dokumenten nach ihrer Qualität wird im Zeitalter verteilten und in großen Mengen vorliegenden Wissens zunehmend an Software delegiert. Dies gilt besonders bei der Suche nach Informationen etwa mit Internet-Suchmaschinen, bei der Qualitätsbewertungssysteme als Filter einsetzbar sind. Aufgrund der hohen Heterogenität der Qualität von InternetDokumenten ist hier ein deutlicher Mehrwert zu erwarten. Experimentelle Systeme behandeln verschiedene Aspekte und nutzen unterschiedliche Definitionen von Qualität. Im Einsatz befindliche Systeme greifen zur Zeit noch auf sehr enge Definitionen von Qualität zurück. Die Analyse der Verlinkungsstruktur im Internet stellt den Prototyp für derartige Systeme dar. Die Mehrschichtigkeit des Qualitätskonzepts und der Dokumente erfordert jedoch auf mehreren Aspekten beruhende Definitionen. Die vorliegende Arbeit interpretiert die bisherige Forschung unter dem Qualitätsaspekt und leitet komplexe Qualitätsdefinitionen aus menschlichen Urteilen ab. Formale Eigenschaften von Internet-Seiten sollen automatisch extrahiert werden. 4 Einleitung Menschliche Qualitätsurteile unterschiedlichen Ursprungs bilden die Grundlage für Verfahren des maschinellen Lernens. So entstehen Klassifikationssysteme, welche die menschlichen Urteile so weit wie möglich simulieren. Diese sollen in prototypischen Such- und Filtersystemen integriert werden. Wichtige Herausforderungen stellen dabei das Auswerten vorliegender Qualitätsurteile und die Evaluierung der Qualitätsfilter dar. Die stark anwachsende Menge von Wissen, das weltweit zur Verfügung steht, erfordert eine teilweise Übertragung auf Maschinen, oder doch zumindest eine weitgehende Unterstützung des Menschen durch Computer. Zugleich schafft die weltweite Vernetzung technische Grundlagen zur Analyse, zum Vergleich und zur Verknüpfung sehr vieler Wissensangebote. Trotz möglicher Bedenken ist die Automatisierung von Qualitätsbewertung bereits teilweise Realität. Experimentelle Systeme werden in der Forschung intensiv diskutiert und etliche Systeme befinden sich bereits im realen Einsatz. Problematisch ist die inhaltliche Bewertung von Text-Dokumenten, ein Bereich, bei dem automatischen Verfahren eine große Skepsis entgegengebracht wird. Diese Skepsis ist sicher auch weitgehend berechtigt. Andererseits setzen die Szientometrie und die Bibliometrie gerade in diesem Bereich schon seit langem mathematische und damit automatisierbare Verfahren ein. Die meisten automatischen Verfahren für Internet-Seiten, die realisiert oder als wissenschaftliche Entwicklungen vorgestellt wurden, greifen auf Verfahren zur Zitationsanalyse zurück und übertragen diese von Zitaten auf die im Internet verwendeten Hypertext-Verknüpfungen oder Links. Für die automatisierte Qualitätsbewertung im Internet ist eine wissenschaftliche Analyse der Möglichkeiten und Grenzen überfällig. Entscheidend für die Einschätzung der Möglichkeiten und Grenzen automatischer Verfahren zur Qualitätsbewertung ist deren gründliche Kenntnis. Mit dem hier beschriebenen System AQUAINT wurde ein komplexer Qualitätsfilter entwickelt, der auf weit mehr Eigenschaften zugreift als Hypertext-Verknüpfungen. Trotz der Suche nach automatischen Verfahren wird dem menschlichen Urteil immer das Primat eingeräumt. Dementsprechend soll es auch die Richtschnur für Algorithmen vorgeben. Menschliche Qualitätsurteile unterschiedlichster Art werden analysiert und dienen als Ziel für Verfahren des maschinellen Lernens. Welche Lernverfahren hierfür besonders gut geeignet sind und welche der formal identifizierbaren Eigenschaften wichtig sind, zeigen die Experimente. Diese Evaluierung wurde im Rahmen des hier vorgestellten Habilitationsvorhabens mit dem System AQUAINT (Automatic Quality Assessment for Internet Resources, Automatische Qualitätsabschätzung für Internet Ressourcen) durchgeführt. 5 Einleitung 0.3 Definitionsansätze für Qualität im Internet Qualität bezeichnet meist die Güte oder das Maß der Exzellenz von etwas. Qualität im Bereich Information ist eine Eigenschaft von Informationsobjekten, die diesen von Menschen zugeordnet wird und ein Maß für die Güte der Informationsobjekte darstellt. Hinter dieser Zuordnung steht die Hoffnung oder Überzeugung, dass dieses Objekt ein bestimmtes akutes oder potenzielles Bedürfnis wie etwa ein Informationsproblem oder einen Unterhaltungswunsch in besonderer Weise löst. Dies kann bedeuten besonders vollständig oder umfassend, besonders schnell, besonders überzeugend, didaktisch gut aufbereitet oder in Verbindung mit positiven subjektiven Emotionen. Gut bewertbar wird die Qualität, wenn mehrere Angebote mit weitgehend gleichen Inhalten vorliegen und diese verglichen werden können. Die Qualität von Information und Informationssystemen stellt ein häufig bearbeitetes Forschungsfeld dar. Die Diskussion erstreckt sich von ISO-Normen für die technische Qualität von Software über die Qualität von Online-Diensten, die Qualität der Darstellung und Interaktion bis hin zur Qualität des Inhalts. Qualität lässt sich schwer definieren. Die Definitionsversuche liegen zwischen zwei extremen Positionen, die verkürzt als objektive und subjektive Perspektive bezeichnet werden. Eine objektive Position bezieht sich auf absolute Werte. Demnach existiert genau ein Qualitätswert, den es zu erkennen gilt. Dagegen verwirft die subjektive Position den Glauben an eine absolute Wahrheit und ersetzt ihn durch die Meinung des Betrachters in einem bestimmten Augenblick. Damit akzeptiert eine subjektive Perspektive die Existenz mehrerer und möglicherweise unterschiedlicher Qualitätswerte. Die Unzufriedenheit mit Definitionen von Qualität stammt aus der Unvereinbarkeit der subjektiven und der objektiven Perspektive sowie deren inhärenter Schwächen. Reale Definitionen liegen meist zwischen diesen Extremen und führen produkt-orientierte Ansätze mit ein. Diese produkt-orientierten Definitionen greifen einzelne Eigenschaften der Produkte auf und legen fest, welche Ausprägungen dieser Eigenschaften auf einen Grad von Qualität hinweisen. Produkt-orientierte Definitionen versuchen, die objektiven Ansätze instrumentalisierbar zu machen, indem sie Anhaltspunkte für das Erkennen des absoluten Qualitätswerts geben. Andererseits verstehen sie sich auch als Versuch der Objektivierung von rein subjektiven Ansätzen. Durch das Vorgeben von Eigenschaften und Kriterien für Qualität machen sie die Beliebigkeit der 6 Einleitung subjektiven Entscheidung besser nachvollziehbar. Auf der Ebene der einzelnen Eigenschaft und der Entscheidung, wie ein bestimmter Wert auf Qualität verweist, unterliegen produkt-orientierte Definitionen jedoch dem gleichen Dilemma zwischen objektiven und subjektiven Ansätzen. Die Entscheidung kann einer absoluten Wahrheit folgen oder im Einzelfall dem Benutzer überlassen bleiben. Zufriedenstellende globale Definitionen zur Informationsqualität sind daher nicht zu erwarten. 0.4 Bibliothekswissenschaftliche Qualitätskriterien Im Internet existieren zahlreiche Kriterienlisten, die produkt-orientierte Qualitätsdefinitionen enthalten. Sie stammen häufig aus der angloamerikanischen Bibliothekswissenschaft und unterstützen den Benutzer vor allem bei der Einschätzung der Zuverlässigkeit und Glaubwürdigkeit von Internet-Quellen. Darin tauchen am häufigsten Autorität und Korrektheit als Kriterien für Qualität auf. Ein typisches Beispiel bietet BECK 1997. Die Liste beinhaltet die Kriterien „Accuracy, Authority, Objectivity, Currency, Coverage“ und bezieht sich damit ausschließlich auf den Inhalt. Eine kurze Liste von Kriterien legen WILKINSON ET AL. 1998 in einem Fragebogen vor, der zur Bewertung von Dokumenten im Internet eingesetzt werden soll. Er sieht vier umfassende Kriterien vor: Credibility, Organization, Links und Graphics. Damit tragen WILKINSON ET AL. 1998 der Realität des Internets Rechnung, integrieren Kriterien für die Darstellung und legen wenig Wert auf intrinsische Faktoren. Diese kurzen Beispiele verdeutlichen schon einige der Schwierigkeiten bei der Anwendung dieser Listen. Bewertet ein Juror die Objektivität einer Information, so wird diese Entscheidung von seiner subjektiven Einstellung stark mit beeinflusst. Der Umfang (coverage) stellt ein ambivalentes Kriterium dar. In einer konkreten Situation und vor dem Hintergrund eines realen Informationsbedarfs kann eine Informationseinheit in einer bestimmen Situation zu wenig und in einer anderen Situation zu viel Information bieten. Eine objektive Bewertung fällt schwer. Ähnliches gilt für die Kriterien zur Präsentation von WILKINSON ET AL. 1998. Seiten mit vielen graphischen Elementen und die ästhetische Gestaltung sprechen die subjektive Wahrnehmung an und lassen sich nur in engen Grenzen objektivieren. Diese Schwierigkeiten treten bei allen Kriterienlisten auf. Die Anwendung solcher Kriterien ist für Laien schwierig und wenig sinnvoll. In der Praxis der Benutzung des Internet spielen diese Ansätze keine Rolle. Sie liefern jedoch Ansatzpunkte für die Entwicklung automatischer Verfahren. 7 Einleitung 0.5 Gebrauchstauglichkeit (Usability) Die Gebrauchstauglichkeit von Internet-Angeboten erweist sich sehr häufig als mangelhaft, so dass sie als Qualitätskriterium entscheidend ist. Gebrauchstauglichkeit lässt sich schwer in konkrete Definitionen fassen und nur aufwendig erheben. Sie beinhaltet die benutzer- und aufgabengerechte Gestaltung, wobei sich die subjektive Zufriedenheit sowie die Qualität der Aufgabenbearbeitung messen lassen. Die Analyse und Messung von Gebrauchstauglichkeit geschieht in der Regel durch Benutzertests, in denen die Qualität der Aufgabenbearbeitung in einem kontrollierten Experiment überprüft wird. Zusätzlich erfolgt die Erhebung der subjektiven Zufriedenheit, wobei diese beide Aspekte zu unterschiedlichen Einschätzungen führen können. Deshalb entstanden auch in diesem Forschungsbereich Kriterien zur Bewertung. Dazu zählen etwa Styleguides mit expliziten Regeln für die Gestaltung 1. Derartige Kriterienlisten für die Qualität von Web-Seiten sind aber ähnlich wie die bibliothekswissenschaftlichen Kriterien schwer anzuwenden und unterliegen sehr unterschiedlichen Interpretationen. 0.6 Realisierungsansätze automatischer Qualitätsbewertung Qualitätsdefinitionen im Internet sind also bereits sehr problematisch. Für mehrere Aspekte stehen Kriterienlisten zur Verfügung, so etwa für die bibliothekswissenschaftliche Einschätzung sowie für die Gebrauchstauglichkeit. Jedoch gestaltet sich die Anwendung dieser Kriterien durch den Menschen problematisch. Für automatische Verfahren liefern die Kriterienlisten somit nur einzelne Eigenschaften, deren Analyse sinnvoll sein kann. Als Ausgangspunkt für eine Realisierung bietet sich keine Zusammenstellung von Kriterien an. Die Automatisierung der Qualitätsabschätzung stellt die Forschung vor noch größere Probleme. Trotzdem ist der Bedarf an automatischer Qualitätsbewertung aufgrund der Informationsflut und der Heterogenität der Qualität gerade im Internet so hoch, dass längst Systeme im Einsatz sind, die den Menschen bei der Qualitätsbewertung unterstützen. 1 8 http://www.uni-koblenz.de/FB4/Institutes/ICV/AGKrause/Materialien/Style%20Guides Einleitung 0.7 Link-Analyse Die automatische Bewertung von Qualität im Sinne von Autorität ist am weitesten verbreitet und kann bereits als Standard-Verfahren im Bereich des Web Information Retrieval gelten (für einen Überblick cf. BAEZA-YATES & RIBEIRO-NETO 1999:380f., HENZINGER 2000). Die Autorität basiert im Wesentlichen auf der Anzahl der Verbindungen, die auf eine Seite verweisen (in-links). Die Popularität dieses Ansatzes hat mehrere Gründe: Die Verbindungen einer Seite lassen sich technisch relativ einfach extrahieren und analysieren. Damit kann das Informationsverhalten von Autoren von Web-Seiten im großen Umfang beobachtet und ausgewertet werden. Ein Link kann vereinfacht wie ein Zitat behandelt werden und unter dieser Prämisse greift die Untersuchung der Autorität im Internet auf die etablierte Wissenschaft Bibliometrie und ihre Methoden zu. Die Grundidee besitzt eine hohe Plausibilität und erzeugt durch ihre Einfachheit den Anschein hoher Transparenz. PageRank ist in der Suchmaschine Google1 realisiert, die als umfangreichste und erfolgreichste Implementierung einer automatischen Qualitätsbewertung gelten kann. PageRank benutzt die Anzahl der Links, die auf eine Seite verweisen, als Parameter für sein Qualitätsmaß, er nutzt aber nicht einfach die Summe der in-links. Der Einfluss einer Seite auf andere Seiten wächst mit ihrer Autorität. Je größer die Autorität einer Seite ist, desto höheres Gewicht haben die von ihr ausgehenden Links. Der Algorithmus arbeitet iterativ. Zunächst werden alle Seiten mit dem gleichen Autoritätswert initialisiert und dann berechnet der erste Schritt die neue Autorität aller Seiten aus der Verlinkung. Dabei ergeben sich neue Autoritätswerte, so dass alle Werte nun erneut berechnet werden und das Ergebnis die angestrebte Autorität besser wiedergibt. Laut den Autoren konvergiert der Algorithmus nach einer Anzahl von Schritten (cf. PAGE ET AL. 1998), d.h. bei einem weiteren Berechnungsschritt verändern sich die Autoritätswerte kaum mehr. Neben PageRank existieren zahlreiche andere Algorithmen zur Link-Analyse, die sich nach folgenden Kriterien einteilen lassen: • Global (query independent) und nachbarschaftsbezogen (query dependent, vincinity oder neighborhood algorithms) • Anzahl der Qualitätswerte (meist ein oder zwei Maße, authority und evtl. auch hub) 1 http://www.google.com, http://www.google.de 9 Einleitung • Behandlung lokaler Links (Verbindungen innerhalb des gleichen Servers) • Art der Kombination mit Retrieval Status Value (RSV) Beim sogenannten HITS- (Hyperlink Induced Topic Search) oder KleinbergAlgorithmus wird deutlich, dass die ersten beiden Parameter anders gesetzt sind als bei PageRank. Der PageRank-Algorithmus kann als eine vereinfachte Version des Algorithmus von Kleinberg gelten. Kleinberg zielt ebenfalls auf Autorität ab und berücksichtigt nur die Verbindungsstruktur zwischen einer Menge von Seiten. Er führt zwei Rollen ein, um die Autorität zu bewerten (KLEINBERG 1998). Der HITS-Algorithmus spricht von hubs und authorities und weist jeder Web-Seite ein Gewicht für beide Rollen zu. Ein hub entspricht einem Mittelpunkt oder Verteiler, dessen Aufgabe im Wesentlichen in der Bereitstellung von Verbindungen zu anderen Seiten besteht. Dahinter steht die Vorstellung eines Clearinghouse oder eines guten wissenschaftlichen Überblickartikels mit vielen Referenzen. Ein hoher hub-Wert kennzeichnet also einen guten Informationsvermittler. Die authorities dagegen enthalten die eigentliche Information in unterschiedlicher Qualität. Der fehlende thematische Bezug von PageRank wird von vielen Autoren bemängelt. Der globale Ansatz, der für jede Seite vor der Anfrage einen Qualitätswert berechnet, bietet natürlich Vorteile für die Implementierung. Darüber hinaus kommt der thematische Bezug durch die Anfrage zur Wirkung. Gleichwohl wurden themenabhängige PageRank-Modelle entwickelt, welche den Seiten abhängig von der Thematik (z.B. HAVELIWALA 2002) oder auch abhängig vom Benutzer (z.B. JEH & WIDOM 2003) unterschiedliche Qualität zuweisen. Für die Bewertung von Hypertext-Links als Qualitätskriterium sind Kenntnisse über deren globale Verteilung im Internet erforderlich. In mehreren aufwendigen Analysen ergaben sich überraschend klare Muster für die Verteilung der Häufigkeit von in-links pro Seite, die für die Qualitätsbewertung in der Linkanalyse entscheidend sind. Es handelt sich dabei um Verteilungen nach dem Potenzgesetz. In derartigen Verteilungen überwiegen Elemente mit sehr niedrigen Werten während einige wenige Elemente sehr hohe Werte erzielen (HUBERMAN 2001). Für die Qualitätsbewertung bedeutet dies, dass sehr unterschiedliche Werte verarbeitet werden müssen. Die weitaus meisten Seiten liegen im niedrigen Bereich und unterscheiden sich nicht sehr stark voneinander. Dynamische Modelle versuchen das Entstehen einer derart ungleichen Verteilung zu erklären. Die Ergebnisse von PENNOCK ET AL. 2002 zeigen, dass 10 Einleitung solche Verteilungen durch das Zusammenwirken zweier Einflussfaktoren erklärbar sind. Ob ein neuer Link im Internet auf eine bestimmte Seite verweist, hängt zu 10% vom Zufall ab und zu 90% von der Anzahl der Links, die bereits auf diese Seite zeigen. Unter Web-Autoren bereits bekannte und populäre Seiten wachsen sehr viel stärker in ihrer Popularität bzw. in ihrem PageRank als andere Seiten. Demnach ist ein In-Link nicht nur das Ergebnis der hohen Qualität einer Seite, sondern auch das Resultat eines dynamischen, sozialen Prozesses. PageRank und andere auf Links basierenden Qualitätsmaße wurden im Rahmen großer Evaluierungsstudien zum Information Retrieval bewertet. Die Ergebnisse des web track in TREC weisen darauf hin, dass die Berücksichtigung von Hypertext-Verknüpfungen die Ergebnisse des Retrieval nicht verbessern. Lediglich bei der Suche nach homepages zeigten sich positive Effekte. Dies gilt sowohl für die Experimente einzelner Gruppen (z.B. KRAAIJ & WESTERVELD 2000, SAVOY & RASOLOFO 2000) als auch für die globale Sicht auf die Experimente (HAWKING 2000:10). Die Qualitäts- bzw. Autoritätsmaße wie der PageRank-Algorithmus weisen weitere Nachteile auf: Kritiker von bibliometrischen Maßzahlen bemängeln seit langem, dass sich die Qualität wissenschaftlichen Publizierens durch einfache Kennzahlen nicht messen lässt. Web-Seiten werden von Autoritätsmaßen meist unabhängig von ihrem Inhalt und Kontext bewertet. Ebenso wie Wissenschaften ein unterschiedliches Zitatationsverhalten aufweisen, ist davon auszugehen, dass je nach Internet-Dokument-Typ unterschiedliche Verlinkungsneigung herrscht. Gerade für neue Seiten liefern Autoritätsmaße keine befriedigende Lösung. Die Suchmaschinen hinken mit der Aktualisierung der von ihnen indexierten Seiten ohnehin hinterher. Schwerer wiegt aber, dass eine Seite erst von vielen Benutzern entdeckt und positiv bewertet werden muss, bevor einige dieser Benutzer in ihren Seiten einen Link auf die Seite aufnehmen. Damit erreicht PageRank erst nach einer gewissen Zeitspanne seinen endgültigen Wert. Die Algorithmen für Autoritätsmaße können manipuliert werden. Dies geschieht sicher bereits in hohem Maße, da ein erhebliches wirtschaftliches Interesse daran besteht, eigene Seiten bei vielen Internet-Suchen auf den vorderen Ranking-Positionen zu sehen. Während die Annahme von PageRank auf den ersten Blick plausibel wirkt, ist es unrealistisch, dass jeder Web-Autor das Ziel seiner Links ständig auf hohe Qualität untersucht. Zum einen verändern sich viele Seiten sehr häufig und zum anderen sind besonders populäre Angebote oft sehr groß. So wird oft auf 11 Einleitung den Verzeichnisdienst Yahoo verlinkt, obwohl sicher kaum ein Autor vorher den gesamten hierarchischen Baum des Verzeichnisdienstes betrachtet. Somit sprechen zahlreiche Argumente gegen die Linkanalyse. Zudem hat sie sich in der Evaluierung nicht zur Verbesserung des Information Retrieval bewährt. Aus all diesen Gründen eignet sich die Linkanalyse zumindest nicht als alleiniges Qualitätskriterium. Dieses Manko haben bereits viele Autoren erkannt, so dass mehrere Qualitätsmodelle über die Linkanalyse hinausgehen und weitere Kriterien integrieren. 0.8 Fortgeschrittene Modelle Für das Information Retrieval wurden bereits einige experimentelle Qualitätsfilter entwickelt, die über die Linkanalyse hinausgehen. Besonders interessant sind die Ansätze von ZHU & GAUCH 2000 sowie von AMENTO ET AL. 2000, auf die hier etwas ausführlicher eingegangen wird. AMENTO ET AL. 2000 trennen Qualität explizit von Relevanz und betonen den subjektiven und vagen Charakter von menschlichen Qualitätsentscheidungen. Das Ziel des Experiments liegt v.a. darin, die Bewertung von Experten aufgrund einfacher formaler Eigenschaften der Seiten nachzubilden1. Falls dies gelingt, ließe sich ein System mit den Eigenschaften der Seiten und den Entscheidungen der Experten trainieren. Zu fünf sehr breit definierten Themen suchten AMENTO ET AL. 2000 nach Internet-Sites. Dazu bedienten sie sich des Verzeichnisdienstes Yahoo und ließen in einem ersten Schritt von Testpersonen aus den dort präsentierten Angeboten die besten Sites auswählen. Die besten Angeboten sollten nützlich und umfassend sein2. Im zweiten Schritt kamen Experten zum Zuge und bewerteten diese Internet-Angebote auf einer Skala mit sieben Stufen nach ihrer Qualität. Die Ergebnisse wurden mit Rangfolgen verglichen, die sich aus verschiedenen anderen, formal erkennbaren Eigenschaften der Seiten ergeben. Dabei bezogen AMENTO ET AL. 2000 vor allem auf der Verlinkung basierende Größen mit ein, die sich nach Analyse der näheren Umgebung ergab. Die Verbindungs-Struktur wurde sowohl anhand der Anzahl von ankommenden sowie ausgehenden Links gemessen als auch mit dem PageRank-Algorithmus und dem hub- und authority- Gewicht von Kleinberg, die oben erläutert 1 “ … we examine how well the various rankings match human quality judgement“ (AMENTO ET AL. 2000:299). 2 “We defined the ‚best‘ items as those that together gave a useful and comprehensive overview for someone wanting to learn about the topic“ (AMENTO ET AL. 2000:298). 12 Einleitung wurden. Daneben berechneten AMENTO ET AL. 2000 Größen wie den Umfang der Datei und die Anzahl von Seiten auf der Site als auch die Anzahl von Grafiken und Audio-Dateien. Als weitere komplexe Größe bestimmen sie die Relevanz. Das Ziel von AMENTO ET AL. 2000 bestand aber in der Messung der Übereinstimmung von menschlichen Urteilen und dem Ranking anhand einfacher formaler Größen. Dazu sollte die Präzision anhand eines typischen Information Retrieval-Maßes überprüft werden. Die fünf besten Indikatoren für die Vorhersage der Qualitätsaussage der Experten lagen in dem Experiment von AMENTO ET AL. 2000 gleich auf. Dazu gehören drei Größen aus der Linkanalyse, die Anzahl eingehender Links, der PageRank und Kleinbergs authority-Index sowie die Anzahl der Seiten der Site und die Anzahl der Grafiken. Schlechtere Indikatoren dagegen waren die Anzahl der ausgehenden Verbindungen, die Anzahl von Audio-Dateien, die Größe der Startseite und die inhaltliche Ähnlichkeit. Die Autoren folgerten also, dass die Anzahl der Seiten eines Angebots ein ebenso guter Indikator für die Qualität dieses Angebots ist wie die aufwendige Analyse der Verlinkung. Der Ansatz von ZHU & GAUCH 2000 integriert die Bewertung von Qualität in ein Information Retrieval-System. Er stellt einen der wenigen Ansätze dar, welche eine komplexe Definition von Qualität realisieren. Die Autoren schlagen sechs Kriterien für Qualität vor: „currency, availability, information–tonoise ratio, authority, popularity, and cohesiveness“ (ZHU & GAUCH 2000:288). Sie begründen die Auswahl mit einer Analyse von Literatur zu der intellektuellen Analyse von Qualität und stellen fest, dass diese Aspekte in den meisten Kriterienlisten vorkommen. Die Aktualität (concurrency) ergibt sich aus dem Datum der letzten Änderung. Die Größe Information-to-Noise Ratio lässt sich besten mit Informationsgehalt ausdrücken. Die formale Umsetzung berücksichtigt die Anzahl der Tokens im Text und setzt sie ins Verhältnis zu der Dateigröße. Damit wird weder Grafiken und Farben noch anderen nicht textuellen Informationsträgern ein Informationsgehalt zugeschrieben. Popularität (popularity) bestimmen ZHU & GAUCH 2000 anhand der Anzahl der Verbindungen, die zu einer Seite führen. Dabei wird die Qualität der referenzierenden Seite nicht berücksichtigt, d.h. jede Verbindung zählt gleich viel. Diese Größe entspricht eher dem, was in anderen Studien als Autorität bezeichnet wird. Autorität messen die Autoren anhand intellektueller Bewertungen im Rahmen eines Internet-Dienstes von Yahoo. Ausgehend von diesen Definitionen und ihren Umsetzungen stellen ZHU & GAUCH 2000 ein Modell für verteiltes Information Retrieval vor, mit dem sie mehrere Experimente durchführen. Die Ergebnisse werden mit Standard-Evaluationsmaßen aus dem Information Retrieval bewertet. Die zurückgelieferten Seiten 13 Einleitung wurden von menschlichen Juroren betrachtet und als relevant oder nicht relevant eingeordnet. Daraus wurde die durchschnittliche Precision berechnet. Alle Experimente liefen zunächst ohne Qualitätsmerkmale und mit allen Qualitätsmerkmalen einzeln. Fast immer ergab sich eine Verbesserung der durchschnittlichen Precision, die dann als Gewicht der Wichtigkeit des Merkmals diente. Durch die Kombination mehrerer Merkmale ergaben sich teilweise bessere Werte als bei einzelnen Qualitätsmerkmalen, aber in keinem Fall basierte das beste Ergebnis auf allen Merkmalen. Unklar bleibt, ob die Ergebnisse auch tatsächlich von höherer Qualität waren oder ob nur mehr relevante Seiten gefunden wurden. Die Studien von AMENTO ET AL. 2000 und ZHU & GAUCH 2000 weisen noch zahlreiche methodische Schwächen auf. Sie greifen auf nur wenige automatisch extrahierbare Kriterien zu und sind auf Seiten zu bestimmten Themen beschränkt. Trotz dieser Schwächen verweisen die Ergebnisse auf interessante Tendenzen, die aber für nicht integrative Ansätze nicht ungeprüft übernommen werden sollten: Je nach Aufgabenstellung und bewerteten Einheiten können völlig andere Qualitätsmerkmale ausschlaggebend sein. Eine Analyse mehrerer Merkmale und ihrer Kombinationen zahlt sich aus. Allerdings können teilweise auch sehr einfache Merkmale eine gute Annäherung von Qualität erreichen. 0.9 Automatische Bewertung der Gebrauchstauglichkeit Die Gebrauchstauglichkeit stellt ein entscheidendes Qualitätskriterium für Informationssysteme dar, das sich im Internet kaum von den Inhalten trennen lässt. Die Bewertung von Gebrauchstauglichkeit ist ein sehr aufwendiger Prozess, welcher in der Regel Benutzertests erfordert. Deshalb entstanden auch in diesem Forschungsbereich Ansätze zur Automatisierung dieser Bewertung. Die erste Stufe bilden Systeme, die sich aus HTML-Syntax-Prüfern entwickelten. Sie basieren auf sehr konkreten Forderungen zur Steigerung der Gebrauchstauglichkeit wie beispielsweise den Forderungen nach alternativen Texten zu Grafiken und den Anforderungen für sehbehinderte Benutzer (CHAK 2000). Auch konkrete Gestaltungshinweise, wie sie sich etwa in Styleguides finden, lassen sich teilweise durchaus automatisch abprüfen. Diese einfachen Kriterien repräsentieren aber nur einen Teil der Gebrauchstauglichkeit und vernachlässigen weitgehend die Seitengestaltung und die Navigation, wie der folgende Abschnitt zeigt. Einfache Werkzeuge können Benutzertests auf keinen Fall ersetzen. 14 Einleitung Einige komplexe Ansätze versuchen, weitergehende Ergebnisse zu erzielen. Sie lassen sich unterteilen in Systeme zur Analyse der Struktur von Seiten und zur Analyse der Navigation in Sites. Eine auf formalen Kriterien beruhende Analyse der Benutzbarkeit legen BUCY ET AL. 1999 vor. Die Autoren betrachten das Internet als neues Medium, dessen Gestalter noch nach den besten Ausdrucksmöglichkeiten suchen. Die formalen Eigenschaften, welche in der Studie eine Rolle spielen, wurden zwar intellektuell erfasst, jedoch könnten diese auch automatisch mit befriedigender Qualität bestimmt werden. Das Ziel der Studie aus dem Gebiet der Medienwissenschaft bestand darin, zu prüfen, inwieweit bestimmte Gestaltungselemente überhaupt eingesetzt werden, inwieweit ihr Einsatz mit den Richtlinien populärer Ratgeber zum Web-Design übereinstimmt1 und inwieweit das Befolgen dieser Ratschläge zu höheren Zugriffsraten führt2. Als Maßstab für letzteres gilt die Zugriffshäufigkeit, also ein Parameter, der häufig als Annäherung der Popularität eines Angebots gewertet wird. Die Popularität muss als eines der wichtigsten Indizien für Qualität im Internet gewertet werden, so dass die Untersuchung von BUCY ET AL. 1999 auch unter dem Gesichtspunkt der Qualität betrachtet werden kann. Die Vorschläge populärer Ratgeber zum Web-Design liegen auf einer sehr allgemeinen Ebene (REISS 2000, VAN DUYNE ET AL. 2003, ROSENFELD & MORVILLE 2002). Sie fordern beispielsweise Übersichtlichkeit. Dabei würde niemand widersprechen. Der sogenannte gesunde Menschenverstand bildet die Grundlage für scheinbar sinnvolle Richtlinien. Daraus leiten populäre Ratgeber aber konkrete Umsetzungen ab, die sich jedoch nicht mehr notwendigerweise aus der allgemeinen Forderung herleiten lassen. Zudem widersprechen sich die Regeln häufig. Zwar dienen sie einem Einsteiger sicher als gute Orientierung, als alleiniger Maßstab für die Abschätzung der Qualität von Organisation, Struktur und Benutzbarkeit können sie sicher nicht dienen. Darauf deuten auch die Ergebnisse einer empirischen Analyse solcher Vorschläge durch SPOOL et al. 1999 hin. BUCY ET AL. 1999 wählen als Maßstab für die Popularität die Zugriffshäufigkeit nach einem Verzeichnisdienst, der vorgibt, qualitativ gute Seiten vor- 1 “Specifically, the study asks if the interactive capabilities of the Web are being exploited by Web page designers to the extent that the popular literature suggests they are“ (BUCY ET AL. 1999:1247). 2 “ … is there a relationship between the complexity of Web page design and the amount of traffic a site receives? Do these relationships vary by domain?“ (BUCY ET AL. 1999:1248). 15 Einleitung zuhalten. Aus den 5000 am häufigsten von diesem Verzeichnisdienst aus besuchten Sites wählten die Autoren zufällig eine Menge von 500 Angeboten aus. Die untersuchte Stichprobe besteht also bereits aus häufig zugegriffenen Seiten. Mehrere Studierende analysierten alle Angebote intellektuell und kodierten Banner, Reklame, Animationseffekte, dominierende Farbe, Logos, Frames, Grafiken und Links. Die Zuverlässigkeit dieser Methode überprüften die Autoren durch einige Doppelkodierungen von zwei Bewertern. Dabei stellten sie grundsätzlich eine hohe Übereinstimmung fest, die aber stark von dem kodierten Element abhing. Während die Hälfte aller Variablen über 90% Übereinstimmung aufwiesen, zeigte sich bei Banner-Links mit 37% eine große Abweichung zwischen den menschlichen Bewertern. Für die Analyse größerer Mengen von Internet-Angeboten hinsichtlich formaler Details sollten immer automatische Verfahren eingesetzt werden, da sonst die Erhebung zu viele Ressourcen in Anspruch nimmt. Der Mensch sollte lediglich zur Bewertung der Qualität etwa in Form seiner allgemeinen Zufriedenheit herangezogen werden. Trotzdem enthält die von BUCY ET AL. 1999 untersuchte Menge von Parametern interessante Ansatzpunkte. Die Auswertung sucht nach Korrelationen zwischen den in den Seiten enthaltenen Gestaltungselementen und der Häufigkeit des Zugriffs darauf. Dazu wurden sechs Variablen untersucht: das Vorkommen grafischer Elemente, dynamischer Elemente, asynchroner interaktiver Elemente (Links, Kontaktinformation), real-time interaktiver Elemente (Chat, Video-Links, WebKameras) und die Verteilung einer zusammengesetzten Strukturvariable, welche die Anzahl von Frames, Screens und Page Maps kombiniert. Eine sechste Variable integriert alle vorherigen fünf (omnibus strucure variable). Eine signifikante, positive Korrelation ergab sich für die Anzahl von asynchronen Interaktionselementen wie e-mail Adressen. Für kommerzielle Seiten liegt ebenfalls eine signifikante Korrelation zwischen grafischen Elementen und Popularität vor. Starke Korrelationen bestehen auch bei UniversitätsSeiten. Die Studie von BUCY ET AL. 1999 weist in die richtige Richtung, umfasst aber eine kleine Stichprobe eher populärer Seiten. Zwar sollten mehr Eigenschaften von Internet-Seiten evaluiert werden, aber die Ergebnisse zeigen, dass grafische Elemente Einfluss auf die Popularität haben. Die Untersuchung mit den meisten Kriterien für Qualität stammt von IVORY & HEARST 2002, die das System WebTango entwickelt haben. Darin werden aus dem Blickwinkel der Gebrauchstauglichkeit 157 einzelne Maße für Seiten und Sites untersucht. Ziel ist es, statistische Zusammenhänge zwischen Qualitätsurteilen und den untersuchten Kriterien zu finden und die Diskrepanzen in Vorschläge für Modifikationen umzusetzen, um die entsprechenden Seiten zu 16 Einleitung verbessern. Stoßrichtung der Untersuchung ist die Gebrauchstauglichkeit der Internet-Seiten, was zur Folge hat, dass keine inhaltlichen Maße wie semantische Kohäsion usw. untersucht werden. Zwar umfasst die Studie Eigenschaften von Text-Elementen, jedoch geht es vorwiegend um die Rezipierbarkeit und nicht den Inhalt. Dementsprechend erfassen IVORY & HEARST 2002 z.B. die Menge an Text, die Größe der Schrift sowie die Komplexität des Textaufbaus. Die Datengrundlage der Analyse von IVORY & HEARST 2002 liefert ein Internetpreis für populäre Seiten. Die mit diesem Webby-Award ausgezeichneten Seiten gelten als qualitativ sehr hochstehend und sie werden analysiert. Insgesamt erzielen die Autoren sehr hohe Korrelationen zwischen ihrem Klassifizierer auf der Basis der einfachen Eigenschaften und den Urteilen der Evaluatoren. Aus dem Blickwinkel der Anwendung von Qualitätsfiltern im Information Retrieval wirken die von IVORY & HEARST 2002 gewählten Qualitätsurteile insgesamt zu positiv. Das Filtern zielt vorwiegend darauf ab, Seiten mit besonders negativer Qualität zu entfernen. Deshalb sollten Seiten, die überhaupt nicht für einen Preis wie den webby-award in Erwägung gezogen wurden, ebenfalls untersucht werden. Das Projekt Bloodhound bearbeitet die Navigationsstruktur (CHI ET AL. 2003). Ausgehend von beispielhaften Benutzeranforderungen in Form einer Anfrage analysiert das System, inwieweit der Benutzer beim Verfolgen von Links, deren Text oder Umfeld seiner Anfrage ähnelt, tatsächlich zu Seiten gelangt, die für sein Problem relevant sind. CHI ET AL. 2000 bezeichnen die textuellen Informationsspuren in und um Links als Information Scent. Das System Bloodhound simuliert Log-Files anhand von typischen Informationsbedürfnissen, die der Evaluator als Menge von Suchtermen vorgibt. Das System analysiert die Link-Struktur der Site und berechnet die Ähnlichkeit aller Seiten und Links zu den Anfragen. Im Projekt Bloodhound werden Struktur und Inhalt auf sehr spezifische Weise kombiniert, um zu Qualitätsaussagen zu gelangen. Dieser sehr interessante Ansatz bleibt aber notwendigerweise auf kleinere Mengen von Seiten beschränkt. Die automatische Bewertung von Internet-Seiten umfasst notwendigerweise die Bewertung der Qualität von Texten. Texte werden in unterschiedlichen Kontexten von Menschen auf ihre Qualität hin untersucht, wie etwa in Schulen oder beim Peer Review. Während BERLEANT 2000 in einer kleinen Studie Zusammenhänge zwischen Formatierungen und der Qualität von Förderanträgen analysiert, greifen Ansätze zur automatischen Benotung von Aufsätzen nur auf den Inhalt des Textes zu. 17 Einleitung Darüber hinaus existieren Untersuchungen für die automatische Qualitätsanalyse von Texten ohne Berücksichtigung von Formatierungen, die sich nur auf den Inhalt beziehen. FOLTZ ET AL. 1999 stellen den Intelligent Essay Assessor vor, der auf Latent Semantic Indexing (LSI) beruht. Dieses System weist einem Aufsatz eine Note zu, indem es seine Ähnlichkeit zu bereits benoteten Aufsätzen bestimmt. Über verschiedene Mengen von insgesamt über 1200 Essays erreichte das System eine Korrelation von 0,7 zu der Bewertung von Lehrern. Die Korrelation zwischen zwei Menschen war ebenso hoch, so dass also die Bewertung des Systems so gut mit einer menschlichen Bewertung übereinstimmt wie die Bewertung eines weiteren Menschen. Ähnliche Qualität erreicht das System von LARKEY 1998, der Verfahren zur Text-Kategorisierung anwendet. LARKEY 1998 benutzt alle Terme als Merkmale und setzt als Lernverfahren einen Bayes-Klassifizierer sowie Knearest neighbour ein. Die entworfenen Maße wiesen eine Korrelation zu den Ergebnissen aus psychologischen Experimenten zur Lesbarkeit auf. Die Verständlichkeit von Texten lässt sich demnach durchaus abschätzen und dies könnte als Qualitätsindikator eingesetzt werden. Allerdings erfüllen Texte im Internet meist eine völlig andere Funktion als Essays oder Bedienungsanleitungen. Im Gegensatz zu Aufsätzen kommen in Internet-Angeboten sehr häufig strukturierte Texte wie etwa Listen oder Tabelleninhalte vor, die ebenfalls nicht immer Kohärenz als Qualitätskriterium erfordern. Für globale Qualitätsabschätzung bei Internet-Seiten erscheinen solche Verfahren nicht vielversprechend. 0.10 Fazit: Realisierungsansätze automatischer Qualitätsbewertung Qualität ist ein mehrschichtiges Phänomen, das kontext- und benutzerabhängig bewertet werden muss. Der obige Überblick über die existierenden Systeme und verschiedenen Theorien zeigt, dass die automatische Qualitätsbewertung noch am Beginn ihrer Entwicklung steht. Qualitätskriterien für Internet-Seiten enthalten teilweise plausible und nachvollziehbare Qualitätskriterien, die sich aber nur sehr eingeschränkt für die automatische Bewertung eignen. Die am meisten eingesetzten Verfahren zur automatischen Qualitätsbewertung kommen aus der Link-Analyse. Im Vordergrund stehen dabei Algorithmen, welche die Anzahl der Links auf eine Seite als wichtigstes Kriterium für die Qualität dieser Seite werten. Sie werden im großen Umfang und in realen Kontexten eingesetzt. Ihr Wert ist aber unklar. Sie weisen zahlreiche 18 Einleitung Nachteile auf und zeigten sich in keiner bekannten Evaluierung als überlegen. Die Link-Analyse stellt somit lediglich eine Heuristik zur automatischen Qualitätsbewertung dar. Experimentelle Systeme haben erste erfolgversprechende Ergebnisse erzielt. Sie sind jedoch sowohl beim Input als auch beim Output noch stark eingeschränkt. Diese Ansätze verwenden meist wenige Kriterien als Anhaltspunkte für die automatische Erkennung der Qualität. Dabei werden die im Information Retrieval stark vernachlässigten formalen und strukturellen Eigenschaften von Seiten benutzt. Beim Output beschränken sich die meisten Ansätze auf eine eng definierte Menge von Seiten sowie auf einen einzelnen Aspekt der Qualität. Das Potential für die Verbesserung der Qualitätsanalyse ist also bei weitem noch nicht ausgeschöpft. Die dargestellten Stärken und Schwächen verweisen auf mögliche Entwicklungslinien für weiterführende Systeme. Das hier vorgestellte Habilitationsvorhaben verfolgte diese Entwicklungstendenzen und führte zur Realisierung des Qualität-Suchsystems AQUAINT (Automatic Quality Assessment for Internet Ressources, Automatische Qualitätsabschätzung für Internet Resourcen) und einer Quality Workbench (QuWob). 0.11 AQUAINT – Entwicklung, Implementierung und Evaluierung Das vorrangige Ziel der Arbeit besteht in der Erstellung eines Modells für Qualität, das auf menschlichen Urteilen beruht und diese weitgehend wiedergibt. Ein derartiges Modell muss mehrere Aspekte von Qualität integrieren und zumindest sowohl auf die Autorität als auch die Gebrauchstauglichkeit abzielen. Zunächst müssen dazu Qualitätsentscheidungen erfasst werden. Besonders ergiebig hierfür sind von Redakteuren erstellte Internet-Kataloge und Clearinghouses. Die Aufnahme in einen oder mehrere solcher Dienste spiegelt ein Qualitätsurteil wieder. Als Vergleichsdaten sollen beliebige Seiten dienen, die etwa mit Hilfe einer Suchmaschine gesucht werden. In der Vergleichsmenge können natürlich auch qualitativ gute Seiten enthalten sein, die den Redakteuren aber nicht bekannt sind. Die Evaluierung darf sich deshalb nicht in der Approximation der Aufnahmeentscheidungen erschöpfen. Auch das Setzen von Links und Nutzungsdaten soll als Qualitätsentscheidung interpretiert werden. Nach Erfassen der Qualitätsdaten erfolgt die formale Analyse der Seiten nach unterschiedlichen Kriterien, die sich automatisch erkennen lassen. Zunächst 19 Einleitung sollen vor allem die aus der Literatur bekannten Kriterien untersucht werden. Möglich ist die Einbeziehung des Inhalts einer Seite, die Link-Struktur sowie die Analyse des HTML-Quellcodes, die Analyse der Site und ihrer Struktur. In AQUAINT liegt der Schwerpunkt auf der Struktur der Seite. Dabei werden bereits in anderen Studien verwendete Kriterien benutzt und darüber hinaus weitere Kriterien entwickelt. Inhalt und Darstellung sind im Internet sehr eng verbunden. Die Bewertung des Inhalts kann daher selten von dessen Darstellung getrennt werden. Die Linkanalyse bewertet die Qualität ebenfalls ohne Berücksichtigung des Inhalts. Sie hat sich in der Praxis etabliert. Aufgrund ihrer Nachteile bedarf sie der Ergänzung durch andere Verfahren. Der gleiche Inhalt kann bei unterschiedlicher Darstellung und Präsentation stark unterschiedlich gut benutzbar sein. Die Gebrauchstauglichkeit oder Benutzbarkeit stellt einen wichtigen Aspekt von Qualität dar und zu dessen automatischer Bewertung liegen erste Ansätze vor, die oben erläutert wurden. Die Benutzbarkeit offenbart sich zu einem Teil in der Präsentation. Die Anteile grafischer Inhalte, die Ausgewogenheit sowie die Überladenheit oder Klarheit und Einfachheit einer Seite lassen sich an dem HTML-Quellcode ablesen. Zu einem Teil gelingt dies auch automatisch. Dieser Ansatz kann auf der Forschung zur automatischen Bewertung von Benutzungsoberflächen aufbauen. Die subjektive Bewertung von Internet-Seiten durch den Benutzer hängt in hohem Maße von visuellen Eindrücken ab. Diese lassen sich aus der Struktur der Seite ableiten. Die experimentellen Ansätze für die Bewertung der Qualität haben mit verschiedenen formalen Kriterien experimentiert. Dabei haben sich einige einzelne Kriterien in experimentellen Systemen zum Information Retrieval und zur Gebrauchstauglichkeit bewährt. Ein umfassender Ansatz ist daher überfällig. Eine zuverlässige Definition von Qualität kann sicher nur durch eine Kombination zahlreicher Kriterien erreicht werden. Zwischen den Qualitätsurteilen und den erfassten Kriterien sollen Verfahren des maschinellen Lernens Korrelationen und Abbildungen finden. Entsprechende Algorithmen sowohl für lineare als auch nicht lineare Beziehungen stehen zur Verfügung. Die Evaluierung erfolgte im Kontext einer Anwendung der Qualitätsabschätzung. Eine abgehobene Bewertung ohne Anwendungsbezug verspricht bei der Komplexität des Qualitätsbegriffs keine validen Ergebnisse. Als Anwendungsbezug soll die Suche im Internet dienen. Deshalb wird das von einem Lernverfahren gefundene Modell als Filter in eine Meta-Suchmaschine 20 Einleitung integriert, welche die Ergebnisse einer Suchmaschine bewertet und in einer neu sortierten Liste wieder ausgibt. In Retrievaltests mit Studierenden konnte die Qualität des originalen Suchergebnisses mit der Qualitäts-Liste verglichen werden. Durch die Evaluierung ließ sich zeigen, dass das entwickelte Modell tatsächlich auch zu einer Verbesserung von Suchergebnissen hinsichtlich der Qualität führt und so für einen Mehrwert sorgt. Da die Thematik relativ neu und nicht jedem Leser das Potential automatischer Qualitätsbewertung präsent ist, sollen hier einige Untersuchungen überblicksartig vorgestellt werden, die in den Hauptteilen dieser Monographie systematisch aufgearbeitet werden. BERLEANT 2000 berichtet von einer Untersuchung der formalen Eigenschaften von Anträgen auf Forschungsförderung. Er stellt fest, dass Ablehnung oder Annahme der Anträge mit formalen Eigenschaften korreliert. Nun denkt man zunächst an Verstöße gegen die formalen Vorschriften der fördernden Institution. Aber BERLEANT 2000 fand ganz andere Eigenschaften, die nicht vorgegeben waren, wie Schriftgröße, dem Verwenden von serifenlosen und Serifenschriften und den Pronomen, mit dem der Autor auf sich selbst referenziert. Im einem Fall führte sogar ein Verstoß gegen die Richtlinien zu höheren Chancen eines Antrags. Teilweise hatten Autoren eine zusätzliche Zusammenfassung an einer Stelle eingefügt, wo zwar keine vorgesehen war, wo es aber inhaltlich Sinn machte, eine Zusammenfassung zu ergänzen. Eine verblüffend einfache Korrelation zwischen dem wirtschaftlichen Erfolg und dem Bericht einer Aktiengesellschaft fand die Investmentbank Merill Lynch. Demnach ist der Umfang des Berichts ein sehr guter Indikator für die Entwicklung1. Fällt ein bestimmter Pflichtbericht für die Börse größer als 400 KB aus, weist dies auf eine negative Tendenz hin. Dagegen lässt ein knapperer Bericht auf steigende Kurse schließen. Möglicherweise deutet ein längerer Text auf einen erhöhten Erklärungsbedarf für negative Entwicklungen hin. Die Untersuchungen zur Qualität zeigen die Wichtigkeit von formalen Eigenschaften. Da die Hauptanwendung von Qualitätsfiltern im Information Retrieval liegt, müssen diese in dem größeren Kontext Web Information Retrieval eingeordnet werden. Bisher war das Information Retrieval fast ausschließlich auf den Inhalt von Dokumenten fixiert. Zunehmend treten jedoch 1 cf. Computerwoche 21/2001 21 Einleitung weitere Aspekte in den Fokus des Interesses. Formale Eigenschaften, welche die Qualität erkennen lassen oder der besseren Adaption an Benutzerinteressen dienen, gewinnen Einfluss auf Retrieval-Systeme und beeinflussen das Ranking der Ergebnisse. Bereits in den Anfangszeiten des Retrieval konnten Benutzer nach formalen Eigenschaften recherchieren. Dazu zählt etwa der Autor eines Dokuments, die Sprache oder das Erscheinungsjahr. Im Internet hat sich die Situation aber verändert. Wie bereits diskutiert, sind die Dokumente im Web von stark unterschiedlicher Qualität, während in klassischen Retrieval Kontexten wie etwa bei Fachdatenbanken eine konsistent hohe Qualität der Dokumente angestrebt wurde. Diese erzielen die Datenbankbetreiber etwa durch die Beschränkung auf Fachzeitschriften mit hohen Qualitätsstandards, die durch peer review gesichert sind. Entsprechende Mechanismen fehlen im Internet weitestgehend. Darüber hinaus eröffnet das Internet die Chance zu einer automatischen Erkennung zahlreicher formaler Eigenschaften, die in klassischen Fachdatenbanken1 nicht zur Analyse zur Verfügung stehen. Dort gilt aber die Qualität meist als gesichert. Bei der Aufnahme in die Datenbank oder schon bei der Aufnahme in die Quellen einer Datenbank findet häufig eine Qualitätskontrolle statt, wie z.B. durch Annahme einer Publikation durch ein Herausgebergremium. 1 Beispiele hierfür sind etwa die Fachdatenbanken des Fachinformationszentrums Karlsruhe (FIZ, http://www.fiz-karlsruhe.de). 22 Teil I: Grundlagen der Qualitätsbewertung im Internet Teil I: Grundlagen der Qualitätsbewertung im Internet Betrachten wir aber dieses, insofern uns Fähigkeit gegeben ist, mit vollem Geiste und aus allen Kräften, so erkennen wir, dass Quantität und Qualität als die zwei Pole des erscheinenden Daseins gelten müssen (Johann Wolfgang von Goethe: Maximen und Reflektionen, Allgemeines, Ethisches, Literarisches, 10121) Die folgenden Kapitel führen in Grundlagen ein, die im weiteren Verlauf eine wichtige Rolle spielen. Der damit bereits vertraute Leser kann natürlich sofort zu deren Anwendung auf die Problematik der Qualitätsbewertung springen und mit Teil II fortfahren. Das Internet hat seit dem Anfang der 1990er Jahre eine rasante Entwicklung durchlaufen, die längst noch nicht abgeschlossen ist. Diese Entwicklung bedeutet meist ein mehr an Quantität und wird häufig quantiativ beschrieben. Die Entwicklung der Qualität als zweiter Pol, um das obige Zitat aufzugreifen, kommt langsamer voran. Sie wird am Ende dieses ersten Teils und in Teil II und III ausführlich behandelt. Inzwischen dient das Internet als Informationsmedium für ein breites Spektrum von Informationsbedürfnissen und gehört für immer mehr Menschen nicht nur zur beruflichen Tätigkeit, sondern durchdringt den gesamten Alltag. Gleichwohl besteht nach wie vor die Problematik der mangelnden Gebrauchstauglichkeit von Internet-Angeboten, die vom Benutzer aufgrund der mangelhaften Gestaltung der Mensch-Maschine 1 http://www.wissen-im-netz.info/literatur/goethe/maximen/1-16.htm 23 Teil I: Grundlagen der Qualitätsbewertung im Internet Interaktion kaum genutzt werden können. Diese Thematik behandelt das folgende Kapitel. Schon seit langem bietet das Internet eine unübersichtliche Fülle von Angeboten, die nur über Information Retrieval-Systeme zugänglich sind. Eine kurze Einführung in diese Suchsysteme bietet Kapitel 2. Der Erfolg des Internets basiert nicht zuletzt auf seinen einfachen Technologien und den offenen Standards, die eine kostenlose oder zumindest kostengünstige Art der Publikation erlauben. Dadurch entstehen zahllose Angebote mit zweifelhaften Inhalten oder Benutzungsoberflächen von fragwürdiger Qualität. Insbesondere Internet-Suchmaschinen reagieren zunehmend auf diese Herausforderung und bewerten die Qualität von Angeboten, um fragwürdige Seiten zu filtern. Kapitel 4 und 5 beleuchten das Konzept Qualität aus unterschiedlichen Blickwinkeln und stellen Ansätze für Definitionen vor. Teil II und III greifen dann das Problem der automatischen Qualitätsbewertung auf. 24 Mensch-Maschine Interaktion im Internet 1. Mensch-Maschine Interaktion im Internet Informationssysteme sollen die Bedürfnisse von Benutzern erfüllen. Neben technischen Aspekten wie der Zuverlässigkeit und Schnelligkeit kommt dabei der sinnvollen Gestaltung der Informationsprozesse und der Benutzungsoberfläche besondere Bedeutung zu. Mit diesen Themen befassen sich die Mensch-Maschine Interaktion und die Software-Ergonomie, die den Gebrauch von Informationssystemen für den Benutzer optimieren wollen (als Einführung siehe PREECE ET AL. 2002). Allgemein gesprochen muss dazu die Software dem menschlichen Benutzer angepasst werden und nicht umgekehrt, der Benutzer sich in langwierigen Lernprozessen dem Informationssystem anpassen1. Somit lässt sich die Software-Ergonomie als eine Weiterführung der traditionellen Ergonomie auffassen. Während die traditionelle Ergonomie Werkzeuge an den Menschen anpasste, bearbeitet die Software-Ergonomie diese Aufgabe für Werkzeuge, welche die mentalen Fähigkeiten des Menschen unterstützen. Jedoch greift diese Auffassung noch zu kurz. Die Informationstechnologie durchdringt heute die gesamte Gesellschaft und zahlreiche Lebensbereiche auch außerhalb der Erwerbstätigkeit. Moderne Definitionen müssen daher auch die damit verbundenen Aspekte berücksichtigen, wobei das subjektive Empfinden des Benutzers eine wichtige Rolle spielt2. Die Gestaltung von Informationssystemen für den Menschen erfordert die Kenntnis des wahrnehmungspsychologischen Apparats und der kognitiven Fähigkeiten. Die Struktur, die Leistungsfähigkeit und Einschränkungen des Gedächtnisses etwa entscheiden über die grundlegenden Formen der Mensch- 1 „Die Software-Ergonomie hat das Ziel, die Software eines Computersystems, mit dem die Benutzer arbeiten, an die Eigenschaften und Bedürfnisse dieser Benutzer anzupassen, um ihnen einen hohen Nutzen möglichst vieler relevanter Fähigkeiten und Fertigkeiten zu ermöglichen.“ (BALZERT ET AL. 1996) 2 „Die Gebrauchstauglichkeit der neuen Technik wird zu einem zentralen Qualitätsmerkmal. Erfolgreiche Geräte und Systeme müssen gleichzeitig nützlich für die zu erledigenden Aufgaben, benutzbar im Sinne einer intuitiven Verständlichkeit und möglichst geringen Ablenkung von der Aufgabe und ansprechend im Sinne von Ästhetik und Spaß an der Nutzung gestaltet sein. Gebrauchstaugliche Software eröffnet dann auch neue Potentiale zur Reorganisation von menschlicher Arbeit, von Lernen und Freizeit.“ (Memorandum Initiative Mensch und Computer http://mc.informatik.uni-hamburg.de/memorandum.html) 25 Mensch-Maschine Interaktion im Internet Maschine-Interaktion sowie zahlreiche Design-Entscheidungen. Wissen über die Aufmerksamkeitsleistung des Menschen hilft bei der Gestaltung von Arbeitsprozessen. So ist etwa bekannt, dass Menschen häufig durch Analogien lernen und ein bereits gelerntes Muster auf eine neue Situation anwenden. Diese kognitive Strategie nutzen viele Programme zum einen durch den Bezug auf Altwissen und zum anderen durch Metaphern aus. Altwissen umfasst Kenntnisse zur Interaktion, welche Benutzer von anderen Benutzungsoberflächen kennen. Durch die Konstruktion ähnlicher Elemente oder Befehle können Benutzer, welche bereits damit vertraut sind, sich schneller in eine neue Benutzungsoberfläche einarbeiten. Metaphern nutzen Kenntnisse des Menschen aus anderen Lebensbereichen aus und erlauben dem Benutzer die Übertragung auf die Computer-Welt. 1.1 Formen der Mensch-Maschine-Interaktion Die Interaktion zwischen Mensch und Maschine kann in unterschiedlichen Formen ablaufen. Bis in die 1970er Jahre interagierte der Mensch ausschließlich über formale Sprachen mit dem Computer. In den folgenden Jahrzehnten wuchs das Bewusstsein für die Bedeutung einer einfachen Interaktion und es entwickelten sich zwei weitere sogenannte natürliche Formen, die natürlichsprachliche Interaktion und die grafisch-direktmanipulativen Benutzungsoberflächen (BOF). Die formalsprachliche Interaktion eignet sich für beliebig komplexe Aufgaben und kann von der Maschine leicht verarbeitet werden. In der Effizienz überragt sie für viele routinemäßige Aufgaben die anderen Formen nach wie vor und ist vor allem in der Programmierung nicht zu ersetzen. Allerdings führt sie zu einer hohen kognitiven Belastung beim Erlernen und Erinnern. Kleine syntaktische Fehler des Benutzers können zudem große Auswirkungen haben. Von den natürlichen Formen der Interaktion verspricht man sich eine Entlastung des kognitiven Apparats und versucht den Lern- und Erinnerungsaufwand zu reduzieren. Die natürlichsprachliche Interaktion scheint zunächst völlig ohne Lernaufwand auszukommen, da jeder Benutzer als Altwissen die Kenntnis einer natürlichen Sprache einbringt, mit der er ebenfalls äußerst komplexe Anweisungen geben kann. Jedoch können natürliche Sprachen heute noch nicht vollständig algorithmisch analysiert werden. Bei der gesprochenen Sprache kommt als zusätzliche Hürde die Spracherkennung ins Spiel. Somit muss der Benutzer meist doch lernen, welche Untermenge der 26 Mensch-Maschine Interaktion im Internet natürlichen Sprache seine Benutzungsoberfläche interpretieren kann, und er muss sich auf diese beschränken. Zudem findet die zwischenmenschliche Kommunikation bei weitem nicht nur über die Sprache statt, sondern zum Beispiel deiktische Gesten klären unter anderem Mehrdeutigkeiten. Die reine natürlichsprachliche Interaktion hat sich aus diesen Gründen nicht etabliert. Ein weiterer wichtiger Grund für das Nischendasein der natürlichsprachlichen Interaktion liegt darin, dass der Benutzer alle Interaktionsbefehle selbst produzieren muss. Bei der heute marktbeherrschenden grafisch-direktmanipulativen Interaktion dagegen repräsentieren grafische Darstellungen die Objekte und bieten Aktionen zur Auswahl an. Aufgrund des Vorlagecharakters muss der Benutzer lediglich erkennen und nicht selbst produzieren. Als wichtiges Interaktionsverfahren dienen Zeigegesten mit spezieller Hardware wie der Maus. Die Zeigegesten ermöglichen die Manipulation von Objekten wie Fenster, Buttons, Menüs, Listen oder andere Flächen, die ein Bildschirm darstellt. Nach der Manipulation liefert die Grafik sofortiges Feedback, das den Benutzer über die Konsequenzen seiner Aktion informiert. So setzen grafisch-direktmanipulative Benutzungsoberflächen eine niedrige Einstiegshürde und fördern einen explorativen Lernstil, bei dem der Benutzer ohne Trainingsmaßnahmen selbst lernt. Im Internet ist diese Form am bedeutendsten. Genau betrachtet handelt es sich bei den grafisch-direktmanipulativen Benutzungsoberflächen um eine Mischform, bei der auch die Sprache eine große Rolle spielt. Sprachliche Elemente sind im Internet und in grafischen Benutzungsoberflächen überall präsent, sei es in Menüs, als Beschriftung von Aktionselementen oder als Vermittler der eigentlichen Inhalte. Daneben treten grafische Elemente wie kleine Sinnbilder (Icons) und Primitive wie Striche oder Punkte auf. Somit tragen sowohl die Graphik als auch die Sprache zur Bedeutung bei. Die Position eines Begriffs unterstützt die Semantik der Benutzungsoberflächen ebenso wie der Begriff selbst. Im Gegensatz zu natürlichsprachlichen Benutzungsoberflächen vermeiden die grafisch-direktmanipulativen Systeme jedoch Eingaben des Benutzers, die syntaktisch aufwendig analysiert werden müssen. 1.2 Richtlinien für die Gestaltung Aufgrund des gestiegenen Bewusstseins für gut gestaltete Benutzungsoberflächen entstanden zahlreiche Wissensquellen für die optimale Gestaltung von grafisch-direktmanipulativen Systemen. Zum einen handelt es sich dabei um Normen und Richtlinien auf hoher Ebene, die aus Eigenschaften der menschlichen Kognition und Perzeption abgeleitet sind. Daneben existieren 27 Mensch-Maschine Interaktion im Internet detaillierte Regeln, die von den technischen Möglichkeiten ausgehen und die Anwendung vorhandener Interaktionselemente kommentieren. Für die Qualität der Mensch-Maschine-Interaktion formuliert die ISO-Norm folgende Grundsätze für Dialoggestaltung (DIN EN ISO 9241-10 2004): • Aufgabenangemessenheit • Selbstbeschreibungsfähigkeit • Steuerbarkeit • Erwartungskonformität • Fehlertoleranz • Individualisierbarkeit • Lernförderlichkeit Stärker auf die Anforderungen des Internet gehen Gestaltungsrichtlinien zur Accessibility des W3C ein (W3C 2005). Neben den Gestaltungsrichtlinien, die sehr generelle Hilfestellung geben, existieren auch sehr konkrete und detaillierte Vorschläge für das Design, die meist als Styleguides bezeichnet werden. Dazu gehören etwa die Vorschrift, dass jeder Web-Browser einen BackButton besitzen sollte. Eine weitere Vorschrift für Formulare und DialogBoxen besagt, dass eine Eingabe-Möglichkeit durch eine weiße Zeile auf der Grundfarbe gekennzeichnet sein soll. Styleguides sorgen vor allem für Konsistenz beim Einsatz von Interaktionselementen und spielen so eine wichtige Rolle. Zahlreiche Firmen formulieren eigene Styleguides für ihre Anwendungen, um ein einheitliches Design zu erreichen. Allerdings decken die Styleguides nicht alle möglichen Einsatzgebiete ab und garantieren allein keineswegs eine gute Gebrauchstauglichkeit. Durch die Regelung vieler Einzelfälle geraten die einzelnen Vorschläge leicht zueinander in Widerspruch, so dass eine Abwägung erfolgen muss. Andererseits führen Verstöße gegen die Styleguides oft zu großen Problemen bei der Gebrauchstauglichkeit. 1.3 Gestaltungsprinzipien Bei den grafisch-direktmanipulativen Benutzungsoberflächen gelten einige Prinzipien, bei denen der Gestalter eine Entscheidung treffen muss. Ein Beispiel hierfür ist die Platzaufteilung auf dem Bildschirm. Sobald mehrere 28 Mensch-Maschine Interaktion im Internet Programme oder Dokumente geöffnet sind, muss der Platz für diese Flächen aufgeteilt werden. Die dominierenden grafischen Betriebssysteme1 haben sich für das Fenster-Prinzip entschieden, bei dem sich die einzelnen Flächen (Fenster) überlappen und überdecken, so dass manche zwar möglicherweise nicht oder nur teilweise sichtbar sind. Dafür bleibt die Größe immer gleich. Das Fenster-Prinzip nutzt gewissermaßen eine Metapher aus der realen Welt, in der Papierdokumente auch übereinander liegen können. Dagegen teilt das Frames-Prinzip den vorhandenen Platz auf alle Dokumente auf. Dabei bleiben alle Dokumente sichtbar, der ihnen zur Verfügung stehende Raum schrumpft aber mit der Anzahl der geöffneten Dokumente. Dieses Prinzip hat teilweise im Internet Verbreitung gefunden, wo Frames als Gestaltungselement in HTML integriert wurden. Die dominierenden grafischen Benutzungsoberflächen veranschaulichen auch die Übertragung eines Prinzips der Objekt-Orientierung aus der Programmierung auf Benutzungsoberflächen. Dokumente werden zu Objekten, in denen die Methoden gekapselt sind. Innerhalb von Anwendungsprogrammen wirken Objekte wie Stift, Pinsel, Drucker oder Kopierer. Objekte werden parametrisiert und können dazu geöffnet werden. Dies erfolgt typischerweise in einer Dialogbox, die mit einem OK-Button geschlossen wird. Das gegenläufige Prinzip ist die Funktions-Orientierung, bei welcher der Fokus auf Programmen und Menüs steht. Auch dieses Prinzip ist weit verbreitet. 1.4 Ästhetische Gestaltung Die zunehmende Benutzung von Informationssystemen im Alltag2 öffnet den Blick für die ästhetischen Aspekte der Gestaltung von Benutzungsoberflächen. Gefallen und Geschmack sind sehr subjektiv, jedoch wirken auch hier universale Regeln, die in den Fähigkeiten zur Wahrnehmung und dem Erfahrungswissen des Menschen angelegt sind. Einen Ausgangspunkt für diese Darstellung bieten die sogenannten Gestaltgesetze. Diese gehen von der Grundannahme aus, dass der Mensch immer ganzheitlich wahrnimmt. Eine Wahrnehmung kann nicht nur als Summe aller 1 Dazu zählt vor allem Microsoft Windows, jedoch wirken die gleichen Gestaltungsprinzipien auch bei anderen Systemen wie den Windows-Managern unter Linux. 2 So nennt eine Universitäts-Bibliothek auf einer Liste von sieben Gründen für das Erstellen von Web-Seiten neben „Inform“ auch „Personal Enjoyment“, „Share Information“ sowie „Entertain“ (http://lib.colostate.edu/howto/evalweb2.html) 29 Mensch-Maschine Interaktion im Internet Pixel erklärt werden, vielmehr interpretiert der Mensch visuelle Daten bereits auf einer sehr niedrigen Ebene. Die Gestaltgesetze sind ökonomische Prinzipien, die es dem Menschen erlauben aus der Unmenge von atomaren visuellen Eindrücken sehr schnell zusammenhängende Objekte zu erkennen. Als Beispiel sei hier das Gesetz der Nähe genannt, dessen Prinzip Abbildung 1.1 zeigt. Die Wahrnehmung fasst nahe zusammenliegende Objekte sofort zu Einheiten zusammen. Im linken Bereich der Abbildung erkennt der Beobachter vertikale Linien, obwohl die Punkte auch horizontale Linien bilden. Im rechten Bereich fasst der Beobachter sofort die näher aneinander liegenden Linien als Einheiten auf. Abb. 1.1: Gestaltgesetz der Nähe (nach KATZ 1969:34) Während der Mensch sich der Geltung der Gestaltgesetze nicht entziehen kann, besitzen die ästhetischen Regeln einen eher vagen Charakter. Sie stehen damit in einem Spannungsfeld zwischen Geschmack und Universalia. Als Beispiel seien hier der Gegensatz zwischen schwerer und leichter Gestaltung sowie die Symmetrie genannt. 30 Mensch-Maschine Interaktion im Internet Abb. 1.2: „Schwere“ vs. „leichte“ Gestaltung (nach FRIES 2002:28) Abbildung 1.2 zeigt eine an einer Horizontal-Achse gespiegelte Abbildung, die für sich keinen ästhetischen Wert beansprucht. Fragt man Testpersonen aber nach der besseren oder angenehmeren Darstellung, so spricht sich meist eine deutliche Mehrheit für die rechte Variante aus. Dieses Ergebnis überrascht zunächst, da es sich ja im Prinzip um die gleiche Abbildung handelt. Trotzdem wirken Darstellungen mit größeren und damit schwerer wirkenden Objekten weiter „oben“ weniger angenehm. Dies liegt wohl an der Erfahrung des Menschen, wonach schwere Gegenstände häufiger auf dem Boden liegen oder stehen, während nur leichte Objekte weiter oben zu finden sind. So befindet sich beispielsweise bei einem Baum der schwere und dicke Stamm unten, während leichte Blätter auch oben hängen. Der Mensch bevorzugt offensichtlich Abbildungen, welche diesem Muster folgen. Diesem Prinzip folgen auch zahlreiche Web-Sites (als Beispiel siehe Abbildung 1.3) 31 Mensch-Maschine Interaktion im Internet Abb. 1.3: Beispiel für „leichte“ Gestaltung (freier Platz oben) Ebenso empfindet der Mensch meist Abbildungen angenehmer, die an einer vertikalen Symmetrie-Achse gespiegelt sind, als an einer horizontalen Achse ausgerichtete Darstellungen. Auch hier bevorzugt der Mensch bekannte Darstellungsmuster. Dieses Prinzip gilt keineswegs nur für Benutzungsoberflächen, auch Kleidung ist meist vertikal symmetrisch. Die Ästhetik orientiert sich also an bekannten Mustern und dadurch entstehen Gesetze für die Gestaltung. Jedoch besitzen diese Gesetze einen anderen Charakter als etwa die Gestaltgesetze. Sie sind weitaus vager und dürfen nicht zu extrem ausgelegt werden. Gerade Symmetrie bildet ein gutes Beispiel für den Gegensatz zwischen Ordnung und Komplexität. Stark symmetrisch ausgerichtete Designs wirken klar und einfach, sie erscheinen aber auch als reizarm und langweilig. Dagegen erzeugen komplexe Designs ohne symmetrische Ordnung Spannung, führen aber leicht zu einer Reizüberflutung. Je nach Anforderung kann die Lösung stärker in Richtung Ordnung oder in Richtung Komplexität liegen (cf. EIBL 2000:110 und BÜRDEK 1994:188). Dieses Thema wird auch unter den Begriffen Reduction und Balance diskutiert (BRINCK ET AL. 2002:185 ff.). Die Kunst des Designers besteht zu einem Teil darin, die optimale Balance zwi- 32 Mensch-Maschine Interaktion im Internet schen Komplexität und Ordnung zu finden. Ein aktuelles und umfassendes Lehrbuch der Mensch-Maschine-Interaktion, das den Prozesscharakter des Designs betont, liegt mit ROSSON & CARROLL 2002 vor. Abb. 1.4: Beispiel für eine stark symmetrisch gestaltete Seite 1.5 Evaluierung und Messung Die Vielschichtigkeit der Mensch-Maschine-Interaktion erlaubt keine a-priori Bestimmung der Qualität. Die Auswirkungen von Interaktionsmechanismen oder Designalternativen auf den Prozess der Benutzung lassen sich nicht kognitiv bestimmen, sondern können nur im Einsatz gemessen oder beobachtet werden. Der empirischen Evaluierung der Mensch-Maschine-Interaktion kommt daher entscheidende Bedeutung zu. Die wichtigsten Methoden sind die objektiven Testmethoden wie Benutzertests und Log-Analyse. Reichen die Ressourcen dafür nicht aus, können die Entwickler auch auf subjektive 33 Mensch-Maschine Interaktion im Internet Methoden zurückgreifen. Dazu zählen vor allem Fragebogen, Interviews und Inspektionsmethoden. Vor einer Evaluierung sollte für die Anwendung festgelegt werden, was benutzerorientiert im konkreten Fall bedeuten soll. Drei Facetten wirken hier zusammen: • Effektivität: Wie wirkungsvoll ist die Benutzungsoberfläche? Kann der Benutzer damit Lösungen in bester Qualität erreichen? Dies kann je nach Anwendung eine besonders fehlerfreie oder vollständige Lösung sein. • Effizienz: Wie wirksam und wirtschaftlich ist die Benutzungsoberfläche? Wie steht die Qualität der erreichten Lösungen in Beziehung zu den eingesetzten Ressourcen? Die wichtigste Kategorie ist dabei die Zeit, die für die Erarbeitung der Lösung anfällt. • Zufriedenheit: Wie zufrieden ist der Benutzer mit der Benutzungsoberfläche? Hierbei zählt ausschließlich das subjektive Gefühl des Benutzers. Die besten Ergebnisse für die Evaluierung hinsichtlich der Effizienz und der Effektivität liefern die objektiven Methoden. Dabei wird nach messbaren Faktoren gesucht und subjektive Einflüsse werden vermieden (siehe auch Evaluierung im Information Retrieval in Kapitel 2). Die Beobachtung der Benutzer erfolgt meist in einem Benutzertest. Dazu gehört die Beobachtung und Befragung einiger repräsentativer Testbenutzer während der Erledigung von Testaufgaben. Alle Interaktionsschritte sollten aufgezeichnet und der Benutzer gefilmt werden (RUBIN 1994). Der Testleiter soll sich dabei möglichst passiv verhalten. Die Aufgaben müssen aus der Praxis gewonnen werden und realistische Tätigkeiten abbilden sowie möglichst viel Funktionalität der Benutzungsoberfläche abdecken. Während des Benutzertests bearbeitet die Testperson Aufgaben möglichst ohne Unterstützung und erhält nur vorab meist eine kurze Einführung in das System. Die Auswertung erfolgt je nach Schwerpunkt. Am häufigsten werden die Korrektheit oder Vollständigkeit der Lösungen sowie die Zeit erfasst. Die Log-File-Analyse als objektives Evaluierungsverfahren bespricht Abschnitt 3.3. Objektive Verfahren besitzen auch Schwächen. Sie können die subjektive Zufriedenheit nicht erheben und sie liefern bei ihren Ergebnissen keine Erklärung mit. So kann aus der gemessenen Effektivität nicht gefolgert werden, warum dieses Ergebnis erzielt wurde. Zum Beispiel können mentale Modelle nicht entdeckt werden. 34 Mensch-Maschine Interaktion im Internet Dieses Wissen können subjektive Verfahren liefern, bei welchen Benutzer oder Experten ihre Einschätzung schriftlich oder mündlich abgeben. Bei Benutzern erfolgen meist Interviews oder Fragebogenaktionen, während Experten Inspektionsmethoden aufgreifen. Die Einbeziehung der Benutzer führt nicht nur zu dem Wissensgewinn bei der Evaluierung, sondern sorgt auch für positive Effekte bei der späteren Akzeptanz. Eine weitere Variante ist das „laute Denken“ während eines Benutzertests, durch das die internen Vorgänge aufgedeckt werden sollen. Hier liegt also eine Kombination subjektiver und objektiver Verfahren vor. Die Inspektionsverfahren können nur als heuristische Methoden gelten. Trotz aller Richtlinien und Verfahren überwiegen die Subjektivität des Evaluators und dessen Ausbildung und Erfahrung. Für Interviews oder Befragungen gelten in der Mensch-Maschine-Interaktion die gleichen Regeln wie bei anderen Fachgebieten wie etwa der Sozialwissenschaft. Nur bei angemessen gestalteten Fragen und Antwortoptionen kann ein verlässliches Ergebnis erzielt werden. 1.6 Hindernisse für die Mensch-Maschine-Interaktion Das plausible und auch häufig formulierte Ziel der Mensch-MaschineInteraktion erreichen Informationssysteme aber nur selten, da dem einige schwerwiegende Hindernisse im Weg stehen: • Die Entwicklung für den Benutzer erfordert vom Entwickler oder Entscheidungsträger das Verlassen des eigenen Standpunktes und das Einnehmen der Perspektive des Benutzers. Der Entwickler muss das mentale Modell des Benutzers über das System berücksichtigen. Für den Entwickler ist es aber äußerst schwierig, das eigene Wissen und damit das eigene mentale Modell zurückzustellen. • Die benutzungsgerechte Gestaltung erfordert das Wissen aus mehreren Disziplinen wie etwa der Informationswissenschaft, der Informatik, der Psychologie, der Arbeitswissenschaft (Ergonomie) und dem künstlerischen Design. Die traditionellen Ausbildungswege behindern aber diese Interdisziplinarität. • Wissen über die benutzergerechte Gestaltung war bereits bei traditionellen Softwareentwicklern nur wenig verbreitet. Durch die Einfachheit der Entwicklung von Internet-Angeboten wurden sehr viel mehr Personen zu Gestaltern, so dass dieses Wissen nun noch weit weniger verbreitet ist. 35 Mensch-Maschine Interaktion im Internet • Die Anwendungsszenarien von Informationssystemen sind so komplex, dass es keine Möglichkeit gibt, a priori oder durch das Verfolgen konkreter Handlungsanweisungen zu gebrauchstauglichen Benutzungsoberflächen zu gelangen. • Gleichzeitig erweisen sich die Ergebnisse von Prüfungen der Gebrauchstauglichkeit als sehr vieldimensional und schwer zu interpretieren. Dem gegenüber steht der subjektive und unmittelbare Eindruck des Entwicklers oder des Entscheidungsträgers, der sich im Entscheidungsprozess somit leichter durchsetzt. • Die Überprüfung der Gebrauchstauglichkeit sollte bereits früh im Entwicklungsprozess einsetzen. Gleichwohl bleibt sie ein nachgeordneter Prozess, der bei den häufigen Störungen des Entwicklungsprozesses etwa durch wirtschaftliche Zwänge oder durch Verzögerungen stärker leidet als andere Phasen. • Kommt es in einem Entwicklungsprozess trotz aller bisher genannten Hemmnisse dennoch zu einer Überprüfung der Gebrauchstauglichkeit, dann erhalten die Entwickler idealer weise eine Rückmeldung von einer von ihnen unabhängigen Gruppe. Zumindest sollten die Testpersonen nicht zu dem Entwicklungspersonal zählen. Damit fasst die soziale Gruppe dieses in einem iterativen Prozess wertvolle Feedback eher als eine externe und negative Kritik auf, welche man als Gruppe nicht akzeptiert. Diese Hindernisse erklären, weshalb trotz des wachsenden Bewusstseins nach wie vor schlecht gestaltete Benutzungsoberflächen überwiegen. Die Gebrauchstauglichkeit stellt demnach ein schwer zu fassendes Qualitätsmerkmal von Informationssystemen dar. Sie stellt sich jedoch zunehmend als entscheidendes Kriterium dar, da zunehmend viele Anbieter ähnliche Bedürfnisse bedienen. Während sich also die Inhalte weitgehend ähneln, versuchen die Anbieter sich durch das Design zu positionieren und für eine Wiedererkennung zu sorgen. Dann wird das Design und die damit einhergehende Gebrauchstauglichkeit zum einzigen Selektionskriterium. Dies ist für ECommerce besonders kritisch, da der Wechsel zu einem Konkurrenten sehr einfach ist. Die Qualität muss also keineswegs als absoluter Wert definiert werden, sondern die vergleichende Analyse entscheidet. 36 Mensch-Maschine Interaktion im Internet 1.7 Realisierung von Benutzungsoberflächen im Internet Basis des Internet bildet die Auszeichnungssprache (Markup Language) HTML (Hypertext Markup Language). Darauf aufbauend wurden komplexere und mächtigere Sprachen und Technologien geschaffen, aber HTML überwiegt nach wie vor. HTML ist eine einfache Auszeichnungssprache, in der sogenannte Tags das Layout des darin eingeschlossenen Textes bestimmen. Einen Überblick bietet NIEDERST 1999. Die einfachen Gestaltungsanweisungen erlauben neben dem Layout von Text auch das Einbinden multimedialer Objekte. Viele Gestaltungselemente werden vielfältig verwendet. So bilden die HTML-Tabellen nicht nur Daten-Tabellen im relationalen Stil. Aufgrund der eingeschränkten Formatiermöglichkeiten stellen HTML-Tabellen ein wichtiges Formatierelement dar, das erfahrene Web-Designer intensiv einsetzen. Die automatische Unterscheidung zwischen den Einsatzarten von Tabellen ist nicht trivial (cf. WANG & HU 2002). Inzwischen werden HTML Seiten mit Editoren erstellt oder aus Content-Management-Systemen generiert, so dass für Autoren Kenntnisse von HTML Grundlagen nicht mehr erforderlich sind. Wichtige Erweiterungen von HTML stellen Skriptsprachen dar, die einfach im HTML Quellcode eingefügt werden können. JAVA-Script bietet einfache Interaktionselemente wie Eingabenfelder, Auswahllisten und Buttons. Die Skriptsprache PHP erlaubt das Einbinden von Datenbank-Abfragen (WEICHSELBAUM 2003). Neuere Entwicklungen der Auszeichnungssprachen hin zu flexiblen und konfigurierbaren Werkzeugen wie der Extensible Markup Language XML greift Abschnitt 2.5 auf. Insbesondere die Programmiersprache JAVA bietet seit einigen Jahren neue Möglichkeiten im Internet. JAVA ist eine vollwertige, interpretierte Programmiersprache, mit der sich jedes beliebige Programm schreiben lässt. In Internet-Browser sind Interpreter eingebaut, welche die Ausführung des Programms erlauben. Das Programm wird vom Server übertragen und auf dem Client ausgeführt, so dass nun sämtliche Inhalte und jede Funktionalität im Internet zur Verfügung steht. Zwar verhindern derzeit noch Sicherheitsbedenken einen breiten Einsatz von JAVA, doch die Entwicklung wird in dieser Richtung weitergehen. Mit JAVA lassen sich innerhalb und außerhalb eines Internet-Browser beliebige Gestaltungselemente in Benutzungsoberflächen einbinden. (SCHILDT 2001) Noch häufiger als JAVA werden Werkzeuge für die dynamische Gestaltung von Web-Seiten eingesetzt. Dazu zählen vor allem Flash und Shockwave, mit denen bewegbare Elemente und Animationen erstellt werden können (WEINMAN 2000). 37 Information Retrieval im Internet 2. Information Retrieval im Internet Information Retrieval (IR) beschäftigt sich mit der Suche nach Information und mit der Repräsentation, Speicherung und Organisation von Wissen. Information Retrieval modelliert Informationsprozesse, während derer Benutzer in einer großen Menge von Wissen die für ihre Problemstellung relevante Teilmenge identifizieren. Dabei entsteht Information, die im Gegensatz zum gespeicherten Wissen problembezogen und an den Kontext angepasst ist. Die Fachgruppe Information Retrieval der Gesellschaft für Informatik definiert Information Retrieval in Abgrenzung zu Datenbank-Abfragen als vagen Prozess der Interaktion des Benutzers mit dem System, bei welchem das Ergebnis vor dem Prozess nicht eindeutig bestimmt werden kann. Demnach beschäftigt sich Information Retrieval „schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können: häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage durchsucht werden. Die Darstellungsform des in einem IR-System gespeichertem Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen technisch naturwissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in Bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte.“ (FACHGRUPPE IR 1996) 39 Information Retrieval im Internet Andere Definitionen fokussieren stärker auf die Verarbeitung einer Anfrage durch entsprechende Algorithmen (cf. BAEZA-YATES & RIBEIRO-NETO 1999:3). Information Retrieval gewinnt im Zeitalter des Internet neue Bedeutung. Der großen Menge gespeicherten und online zugänglichen Wissens stehen zahlreiche frei nutzbare Internet-Suchmaschinen gegenüber. Damit steigt auch der Bedarf für die Evaluierung von Information Retrieval-Systemen. Information Retrieval muss im Rahmen der Behandlung von Qualität intensiv betrachtet werden. Information Retrieval hat das Ziel, einem Benutzer zu einer Problemstellung inhaltlich relevante Objekte anzubieten. Wie die Diskussion des Qualitätsbegriffs zeigen wird, unterscheidet sich Relevanz von der Qualität, jedoch stehen die Begriffe in enger Verbindung und überlappen sich teilweise. Information Retrieval stellt technologisch zahlreiche Verfahren bereit, um v.a. Texte zu analysieren und ihren Inhalt effizient zu repräsentieren. Verfahren aus dem Information Retrieval können auch die semantische Ähnlichkeit zwischen verschiedenen Objekten berechnen. Im Zentrum des Information Retrieval-Prozesses steht der Benutzer mit einem Informationsbedürfnis. Im Verlauf des Prozesses führt der Benutzer einen Dialogs mit einem Information Retrieval-System und formuliert dabei sein Informationsbedürfnis im Rahmen der Möglichkeiten der Benutzungsoberfläche des Systems. Das System vergleicht die Anfrage mit den im System vorhandenen Dokumenten bzw. deren Repräsentationen, die vorab in der Indexierungsphase erstellt wurden. Eine Teilmenge der Dokumente wird dem Benutzer als Ergebnis vorgelegt. Dabei sucht das System solche Dokumente, die zu der Anfrage ähnlich sind. Das Information Retrieval-System berechnet für alle Dokumente eine System-Relevanz oder Retrieval Status Value (RSV) in bezug auf die Anfrage. Der Benutzer bewertet, ob die gefundenen Ergebnis-Dokumente für das Informationsbedürfnis relevant sind und unternimmt möglicherweise weitere Interaktionsschritte innerhalb des Information Retrieval-Systems (für einen Überblick über Information Retrieval cf. FUHR 2005, BELKIN 2000, BAEZA-YATES & RIBEIRO-NETO 1999) 40 Information Retrieval im Internet Gesamtumfang unklar und schwer zu erfassen Stark heterogene Inhalte und Darstellung Wissen über Beziehungen, Ähnlichkeiten und Verteilungen Skalierbarkeit erfordert Heuristiken WEB Autoren Erstellung Fortsetzung des Informationsprozesses durch Browsing möglich Dokumente (Objekte) InformationsSuchender Indexierung ObjektEigenschaftMatrix Skalierbarkeit erfordert Heuristiken ErgebnisDokumente häufig kurz Formulierung Repräsentation Anfrage Ähnlichkeitsberechnung Kommerzielle Interessen (Reklame) Indexierung AnfrageRepräsentation Abb. 2.1: Der Information Retrieval-Prozess und Herausforderungen im Web Die folgenden Abschnitte zeigen skizzenhaft die Funktionsweise von automatischen Information Retrieval-Systemen1. Die folgenden drei Abschnitte befassen sich mit der Erstellung der Repräsentation der Dokumente. Daran schließen sich Abschnitte zur Rolle und Unterstützung des Benutzers. Ein eigener Abschnitt ist der Evaluierung gewidmet. 2.1 Linguistische Vorverarbeitung Information Retrieval behandelt primär Dokumente in natürlichen Sprachen, da Wissen meist in Form von Sprache aufgezeichnet wird. Auch im Internet 1 Die intellektuelle Indexierung, bei der Menschen die beschreibenden Begriffe für ein Dokument vergeben wird in diesem Kapitel nicht thematisiert. Sie spielt im Internet nur eine untergeordnete Rolle: „In the future, human indexing will only be applied to relatively small and static (or nearly static) or highly specialized data bases, e.g., internal corporate Web pages" (KOBAYASHI & TAKEDA 2000:153) 41 Information Retrieval im Internet überwiegt nach wie vor die natürliche Sprache als Wissensträger, auch wenn visuelle Medien und strukturierte Daten1 stark an Bedeutung gewinnen. Damit steht die Verarbeitung natürlicher Sprachen am Beginn des Arbeitsprozesses im Information Retrieval. Die linguistische Verarbeitung beschränkt sich dabei auf die Ebene der Lexik und der Morphologie. Syntax und Semantik analysieren die Systeme nicht, da Technologie für solch tiefgehendes Verstehen für den Einsatz bei Massendaten noch nicht vorhanden ist. Dementsprechend bildet das Lexem den Kern für die Repräsentation des Inhalts eines Dokuments im Information Retrieval-System. Die Bedeutung eines Textes erfasst das System also nur als Reihung der Grundformen aller darin vorkommenden Wörter. Jedes Wort besitzt zwar per se eine Bedeutung, seine konkrete Bedeutung innerhalb eines Satzes oder Textes kann jedoch davon abweichen. Das offensichtlichste Beispiel hierfür sind Homonyme, also Wörter, die mehrere Bedeutungen besitzen. Für zahlreiche, besonders häufige Wörter gilt dies aber nur eingeschränkt. Sie dienen der Syntax und besitzen selbst keine Bedeutung, welche im Rahmen des Retrieval-Prozesses wichtig ist. Diese sogenannten Stoppwörter eliminieren Retrieval-Systeme vor den folgenden Schritten. Die wichtigsten Operationen im Rahmen der linguistischen Vorverarbeitung sind die Grundform-Reduktion und die Komposita-Zerlegung. Die Grundform-Reduktion führt konjugierte und deklinierte Wortformen auf eine definierte einheitliche Form zurück. Da die Syntax der verarbeiteten Texte nicht weiter analysiert wird, wäre es sinnlos, die morphologischen Variationen als Ausdruck der syntaktischen Funktionen zur Repräsentation zu behalten. Zudem verringert sich so der Umfang der Repräsentation, da lediglich das Vorkommen der Grundform vermerkt wird und nicht jede einzelne morphologisch markierte Form. Die Komposita-Zerlegung spielt in Sprachen mit häufiger Komposita-Bildung wie dem Deutschen eine wichtige Rolle. Dabei werden die Bestandteile von Komposita analysiert. Ziel ist meist die Repräsentation des Textes durch die einzelnen Bestandteile. Teilweise geht zusätzlich das Kompositum in die Repräsentation ein. 1 Über datenbankähnliche Abfragen sind zahlreiche Datensammlungen im Internet zugänglich. Diese nur über spezielle Suchmasken ansprechbaren Daten werden als Deep Web bezeichnet, da sie anders als öffentlich zugängliche HTML Dateien nicht in InternetSuchmaschinen auffindbar sind (cf. GRIESBAUM 2003). 42 Information Retrieval im Internet Häuser -> haus vorziehen -> zieh Abb. 2.2 Beispiele für Stammform-Reduktion Hilfreich kann als weiterer Verarbeitungsschritt die Erkennung von Eigennamen sein. Diese können in Variationen, als Abkürzung oder als Mehrwortgruppe auftauchen1. Die Erkennung und Vereinheitlichung kann die Genauigkeit des Indexierung verbessern. Neben der oben vorgestellten linguistischen Vorverarbeitung gewinnt in den letzten Jahren auch der N-gram-Ansatz wieder an Bedeutung. Hier nimmt nicht das Wort die Rolle des Atoms der Repräsentation ein, sondern eine Folge von n Buchstaben. Der Wert von n schwankt üblicherweise zwischen drei und fünf. Jedes Text wird in die darin vorkommenden Buchstaben-Tupel der Länge n zerlegt. Dieses effektive Verfahren erfordert keinerlei sprachspezifisches Wissen und keine linguistischen Komponenten2. Beispieltext: Analyse der Wörter Zerlegung in Trigramme: _an ana nal aly lys yse se_ _de der er_ _wö wör ört rte ter er_ Zerlegung in Viergramme: _ana anal naly alys lyse yse_ _der der_ _wör wört örte rter ter_ Abb. 2.3: N-gram Analyse Mehrsprachige Dokument-Kollektionen erfordern sprachspezifische Werkzeuge für die Indexierung und weitere Verarbeitung. 1 z.B. Deutsches Rotes Kreuz, Rotes Kreuz, DRK 2 In einigen vergleichenden Analysen erwiesen sich n-gram-Ansätze für einige Sprachen gegenüber der traditionellen Stammform-Reduktion als überlegen (cf. MCNAMEE & MAYFIELD 2004). 43 Information Retrieval im Internet Sprache A Sprache B Sprache C Korpus Indexierung ErstellungMultilinguales Dokumente Indexierung Autoren Indexierung Dokumente Dokumente Sprachspezifische Resourcen SprachIdentifikationRepräsentation Dokument-Term- Matrix Ähnlichkeitsberechnung Indexierung AnfrageRepräsentation Erkenung von Eigenschaften Maschinelle Übersetzung Anfrage Ü b er se t zu ng Übersetzung g Abstract Erstellung n zu et rs InformationsSuchende e Üb Stemming ErgebnisDokumente Maschinelle Sprachverarbeitung Abb. 2.4: Linguistische Werkzeuge im Information Retrieval Abbildung 2.4 zeigt, wie linguistische Komponenten an den verschiedenen Stellen im Information Retrieval-Prozess wirken. 2.2 Gewichtung und Ähnlichkeitsberechnung Nach der linguistischen Vorverarbeitung erfolgt als nächster Schritt die Gewichtung. Zunächst erfasst das System die Häufigkeit des Vorkommens der Grundformen in allen Dokumenten1. Die Gewichtung basiert auf der Annahme, dass das mehrfache Auftreten eines Worts oder nun Deskriptors2 in einem Dokument ein Hinweis darauf ist, dass dieses Wort den Inhalt besser repräsentiert als bei einem einfachen Vorkommen. Diese Beziehung verläuft jedoch nicht linear, sondern wird von einer logarithmischen Funktion gesteuert. 1 Die intellektuelle Indexierung, bei der menschliche Experten die Repräsentation als Menge von Begriffen erstellen, wird an dieser Stelle vernachlässigt. 2 Die Grundformen oder Deskriptoren werden auch als Terme bezeichnet. 44 Information Retrieval im Internet Die zweite wichtige Annahme der Gewichtung besteht darin, dass auch die Häufigkeit der Wörter im gesamten Korpus wichtig ist. Sehr häufige Wörter tragen wenig zur Bedeutung eines einzelnen Dokuments im Gesamtkorpus bei. Bei der Unterscheidung von anderen Dokumenten sollen daher diese Deskriptoren weniger beitragen als seltene Begriffe. In ihrer Reinform finden sich diese Annahmen in der Gewichtungsformel der Inversen DokumentFreuquenz (IDF). Eine sehr erfolgreiche Weiterentwicklung stellt z.B. die OKAPI Gewichtungsformel dar. Tab. 2.1: Beispiele für Gewichtungsformeln Term − Frequenz TF-IDF idf i = log Anzahl der Dokumente mit Term i Term − Frequenz Längen- w = log ji Anzahl der Terme in Dok . × Anzahl der Dok . normalisierung OKAPI (k1 + 1)tf (k 3 + 1)qtf ( r + 0,5)( N − n − R + r + 0,5) log 2 ( R − r + 0,5)(n − r + 0,5) t∈Q 3 + qtf ) ∑ ( K + tf ) x (k (cf. ROBERTSON ET AL. 1996) Der Einsatz im Internet stellt neue Anforderungen an das Retrieval. Die enormen Datenmengen stellen nicht nur große Anforderungen an Hardware, sie führen auch zu neuen Heuristiken. So speichert z.B. die Suchmaschine Lycos1 nur die 100 am höchsten gewichteten Terme (cf. GUDIVADA ET AL. 1997), um effizienter zu arbeiten. Ein wichtiges Erfolgskriterium für Suchmaschinen im Internet stellt die Indexierungstiefe dar, die ausdrückt wie viele Seiten im Index enthalten sind und wie aktuell der Index ist. Für Information Retrieval-Systeme im Internet ist es schon schwierig, überhaupt alle Dokumente zu finden, die es dann der Indexierung unterwirft (siehe Abschnitt 6.4 zum Crawling). Die Gewichtung jedes Deskriptors für alle Dokumente stellt nun die Repräsentation der Dokumente dar. Je nach Retrieval-Modell berechnen die Systeme daraus die Retrieval Status Value (RSV) oder System-Relevanz des 1 http://www.lycos.de bzw. http://www.lycos.com 45 Information Retrieval im Internet Dokuments zu einer Anfrage. Die Anfrage wird meist ähnlich behandelt wie ein Dokument, so dass sie als eine Sammlung von Deskriptoren betrachtet werden kann. Ranking-Modelle berechnen für eine Anfrage jedem Dokument eine Relevanz, welche die Grundlage des Ranking bildet. Nach dieser Relevanz ordnet das System die Dokumente und der Benutzer findet so die relevantesten Dokumente zu Beginn der Ergebnisliste. Das Vektorraum-Modell beschreiben SALTON & MCGILL 1983 ausführlich. Es bildet zugleich auch ein Meta-Modell für das Information Retrieval, da die meisten anderen Modelle damit kompatibel sind und sich im Kontext des Vektorraum-Modells formulieren lassen. Das Vektorraum-Modell ist ein geometrisches Modell. Darin sind die Dokumente Punkte in einem viel-dimensionalen Koordinaten-System, dessen Achsen die Deskriptoren repräsentieren. Formal kann ein Punkt in einem Koordinaten-System immer auch als ein Vektor vom Nullpunkt zu diesem Punkt interpretiert werden. Auch die Anfragen interpretiert das Vektorraum-Modell als Vektoren oder Punkte im Deskriptoren-Raum. Dokumente, die zu einer Anfrage passen, sind im Vektorraum-Modell Punkte, welche nahe nebeneinander liegen. Die Ähnlichkeit ergibt sich also aus der räumlichen Nähe bzw. Distanz der Punkte. Einige Ähnlichkeitsfunktionen messen die unterschiedliche Richtung der Vektoren anhand des Winkels zwischen ihnen1. Abbildung 2.5 veranschaulicht das Prinzip des Vektorraum-Modells für ein Modell mit zwei Dimensionen. Die zwei Terme A und B formen ein Koordinatensystem mit zwei Dimensionen. Darin liegen die beiden Dokumente als Punkte, die sich auch als Vektoren vom Ursprung des Koordinatensystems zu den Punkten betrachten lassen. Jedes Dokument und jede Anfrage erhält an den Term-Achsen das Gewicht für diesen Term zugewiesen. In dem Beispiel in Abbildung 2.5 liegt die Anfrage näher bei Dokument 2, das damit ähnlicher zur Anfrage ist als Dokument 1. Innerhalb des Vektorraum-Modells lassen sich Strategien zur Modellierung der Interaktivität des Retrieval-Prozesses integrieren. 1 Verbreitet ist die Kosinus-Funktion, aber auch das Innere Maß oder Dice werden diskutiert (cf. MANDL 2001). 46 Information Retrieval im Internet Gewicht von Term B Term Term A B Dokument 1 2,5 5 Dokument 2 6 3,5 Dokument 1 Dokument 2 Anfrage Anfrage 7 2,5 Gewicht von Term A Abb. 2.5: Deskriptor-Dokument-Matrix und zugehöriges Vektorraum-Modell Eine wichtige und erfolgreiche Strategie, um die Qualität eines RetrievalErgebnisses zu erhöhen, ist Relevanz-Feedback. Dabei beurteilt der Benutzer eine Teilmenge von Dokumenten und weist ihnen einen Relevanz-Wert zu. Das System nutzt diese Einschätzung, indem es die beurteilten Dokumente analysiert und davon ausgehend die Anfrage modifiziert. Die Terme der positiv eingeschätzten Dokumente werden stärker gewichtet bzw. kommen zur Anfrage hinzu. Die Terme der negativ beurteilten Dokumente werden entsprechend schwächer gewichtet. Auch Relevanz-Feedback kann mit der räumlichen Metapher des Vektorraum-Modells interpretiert werden. Die Anfrage wird im Raum in Richtung der relevanten Dokumente verschoben. 2.3 Optimierungsansätze Relevanz-Feedback hat sich als derart erfolgreiche Strategie bei der Verbesserung von Retrieval-Ergebnissen gezeigt, dass es auch ohne reale Benutzerbewertungen angewandt wird. Beim sogenannten Blind RelevanzFeedback nimmt der Entwickler an, die ersten Treffer auf der Liste seien relevant und führt dann einen Relevanz-Feedback-Schritt durch. Dadurch 47 Information Retrieval im Internet werden die häufigsten Deskriptoren aus den ersten Treffern zu der Anfrage hinzugefügt. Daneben existieren andere Verfahren zur Modifikation der Anfrage. Die Anfrage-Erweiterung (query expansion) fügt zu der vom Benutzer formulierten Anfrage ebenfalls einige Deskriptoren hinzu. Diese gewinnt das System meist aus einem Thesaurus, der auch automatisch kreiert sein kann. Automatische Thesauri basieren auf dem gemeinsamen Vorkommen von Deskriptoren in Dokumenten. Häufig gemeinsam auftretende Begriffe erhalten einen Thesaurus-Eintrag. Zahlreiche Evaluierungen haben ergeben, dass die Qualität guter Information Retrieval-Systeme häufig sehr ähnlich ist und die Ergebnismengen sich trotzdem stark in ihrer Zusammensetzung unterscheiden (cf. WOMSER-HACKER 1997). Oft liefert jedes Verfahren einige relevante Dokumente, die von den anderen als kaum relevant eingestuft und so dem Benutzer nicht präsentiert werden. Als Konsequenz daraus gewinnen sogenannte Fusionsverfahren an Bedeutung, die mehrere Verfahren kombinieren und so versuchen, im Gesamtergebnis insgesamt eine höhere Qualität zu erreichen (cf. BARTELL ET AL. 1994, LEE 1995, MCCABE ET AL. 1999). Das MIMOR-Modell zur Fusion integriert Fusion mit Relevanz-Feedback und kann als eine zusätzliche Schicht in einem Information Retrieval-System betrachtet werden, welche die Kombination verschiedener Ergebnisse verwaltet. Zu Beginn erhalten alle Verfahren das gleiche Gewicht. Damit beeinflussen alle Verfahren das Ergebnis gleich stark. Im Lauf des Lernprozesses adaptiert MIMOR die Gewichte so, dass Verfahren, die das Ergebnis positiv beeinflussen, gestärkt werden. Die Entscheidung, welche Dokumente im Ergebnis besonders relevant sind, trifft der Benutzer durch das RelevanzFeedback. Die Verfahren, die den positiv bewerteten Dokumenten hohe System-Relevanz zuweisen, erhalten höheres Gewicht (cf. MANDL & WOMSER-HACKER 2000). Jedoch ergeben sich Schwierigkeiten am Beginn der Benutzung, wenn noch wenig Urteile vorliegen, die Vorteile der Individualisierung noch nicht offensichtlich sind und hoher Arbeitsaufwand erforderlich wäre. Dies löst das MIMOR Modell durch die gleichzeitige Pflege eines privaten und eines öffentlichen Modells, die beide zum Gesamtergebnis beitragen (cf. MANDL & WOMSER-HACKER 2000). Beide Modelle bestehen aus einem Vektor von Gewichten, die den Einfluss der einzelnen Verfahren in dem jeweiligen Modell beschreiben. Der Einfluss jedes Modells wird ebenfalls durch ein Gewicht bestimmt. Das private Modell trägt mit dem Gewicht p zum Gesamtergebnis bei und das öffentliche Modell mit dem Gewicht (1 – p). Im Zeitraum der Benutzung des Systems kann sich p verändern. Zu Beginn der Arbeit mit dem System steht das private Modell auf der Basis weniger Relevanz-Bewertungen und ist damit noch unzuverlässig. 48 Information Retrieval im Internet Daher ist es sinnvoll, p und damit den Einfluss des privaten Modells niedrig zu halten und sich mehr auf das bereits ausgewogene öffentliche Modell zu verlassen. Je mehr Bewertungen ein Benutzer im Lauf der Arbeit mit dem System vornimmt, desto größer kann der Einfluss des privaten Modells werden. Das Gewicht p könnte auch mit steigender Sättigung des privaten Modells wachsen. Ändert sich das private Modell nur noch wenig, so kann es als weitgehend vollständig und stabil gelten. Das Gewicht könnte für fortgeschrittene Benutzer auch manipulierbar sein (cf. MANDL & WOMSERHACKER 2000). Im maschinellen Lernen wird die Kombination mehrerer überwachter Lernverfahren als Committee Machine bezeichnet. Diese Metapher verweist auf menschliche Komitees, in denen mehrere Experten ebenfalls gemeinsam ein Ergebnis finden. Die folgenden Architekturen sind verbreitet (cf. HAYKIN 1999:351 f.): • Statische Methoden: Das Ergebnis von einzelnen Experten hat keinen Einfluss auf die Fusion. • Ensemble averaging: Das Ergebnis von verschiedenen Experten wird linear kombiniert. • Boosting: Ein schwaches Lernverfahren wird durch erneutes Training mit falsch klassifizierten Beispielen anhand eines anderen Algorithmus verbessert. Dynamische Methoden: Der Output einzelner Experten steuert den Integrationsprozess. • Mixture of experts: Der Output einzelner Experten wird mit nichtlinearen Verfahren kombiniert. • Hierarchical mixture of experts: Die Kombination erfolgt in hierarchischer Weise. 49 Information Retrieval im Internet Extraktion von Eigenschaften Korpus Indexierung Erstellung Dokumente Intellektuelle Indexierung Indexierung Autoren Fusion von Ansätzen zur Indexierung z.B. N-Gram & Wörter Optimierung der Gewichtung, z.B OKAPI Repräsentation Benutzer Relevanz Feedback InformationsSuchender Ergebnis Menge Ähnlichkeitsberechnung Pseudo Relevanz Feedback Formulierung Optimierte Ähnlichkeitsfunktionen Anfrage Erweiterung Anfrage Indexierung AnfrageRepräsentation Abb. 2.6: Ansätze zur Optimierung im Information Retrieval Im Internet entwickelte sich parallel zu den Fusionsverfahren das Phänomen der Meta-Suchmaschinen1, welche wie Fusionsverfahren die Ergebnisse mehrerer Information Retrieval-Systeme kombinieren. Allerdings verfolgen MetaSuchmaschinen einen anderen Ansatz der Optimierung. Jede Internet-Suchmaschine erfasst und indexiert lediglich einen kleinen Teil aller Web-Dokumente. Meta-Suchmaschinen versuchen durch die Kombination mehrerer Suchmaschinen eine größere Abdeckung zu erreichen. Neben dem Inhalt von Dokumenten geben Datenformate im Internet auch die Struktur wieder. Bei HTML ist die Möglichkeit zur Strukturierung lediglich auf das Format der Darstellung beschränkt. Das XML-Format dagegen erlaubt die flexible semantische Strukturierung von Dokumenten. Dies erlaubt die Integration von strukturellen Bedingungen in das Retrieval. Ein entsprechendes System stellen etwa FUHR & GROßJOHANN 2002 vor. Die Problematik der Integration von strukturellen und inhaltlichen Bedingungen diskutiert FUHR 2005. 1 z:B. http://www.metager.de/ oder http://www.zapmeta.com/ 50 Information Retrieval im Internet 2.4 Evaluierung Für das Information Retrieval existieren zahlreiche Modelle und Optimierungsansätze. Das Zusammenspiel mehrerer Komponenten in einem System und ihre Effektivität für ein bestimmtes Korpus lassen sich nicht vorhersagen. Eine grundlegende Überlegenheit eines Modells oder bestimmter Komponenten ließ sich bisher nicht feststellen. Somit kommt der Evaluierung der Effektivität des Retrievals entscheidende Bedeutung bei. Eine holistische Evaluierung von Suchprozessen ist schwierig und muss den Erfolg und die Zufriedenheit der Benutzer als Maßstab setzen. Ein Benutzer ist erfolgreich und zufrieden, wenn die nachgewiesenen Dokumente helfen, sein Informationsbedürfnis zu stillen. Möglichst alle Aspekte des Suchprozesses sollten daher berücksichtigt werden wie etwa Benutzungsoberfläche, die Geschwindigkeit der Suche und ihre Adaptivität. Die benutzerorientierte Evaluierung ist jedoch sehr aufwendig und schwierig. Beim Suchprozess wirken individuelle und subjektive Einflüsse, die eigentlich berücksichtigt werden müssten. Jedoch bevorzugen die Entwickler eine Bewertung ihrer Algorithmen unabhängig von diesen subjektiven Einflüssen und so beschränkt sich die Evaluierung meist auf die Wirkung des Retrieval-Systems. Der Benutzer wird sozusagen als Konstante angenommen und in der Evaluierung durch einen prototypischen Benutzer ersetzt. Dessen Relevanz-Bewertungen übernehmen in den meisten Fällen Experten. Dieses Vorgehen bezeichnet man nach eine der ersten größeren Studien als das Cranfield-Paradigma der Evaluierung. Meist beschränkt sich die Evaluierung auf die Effektivität der Suche. Evaluiert wird, wie gut das System relevante Dokumente findet und wie viel Ballast es dabei präsentiert. Dies messen die Größen Recall und Precision, die im Verhältnis zueinander graphisch dargestellt werden. Tab. 2.2: Recall und Precision Recall Precision R= Anzahl gefundender relevanter Dokumente Anzahl relevanter Dokumente P= Anzahl gefundender relevanter Dokumente Anzahl gefundener Dokumente 51 Information Retrieval im Internet Die binären Relevanz-Entscheidungen1 werden immer wieder kritisiert und neue Maße für mehrstufige Relevanz-Einschätzungen werden diskutiert, konnten sich bisher jedoch nie durchsetzen. Zuverlässige Evaluierungen sind aufwendig und erfordern mindestens etwa 50 Aufgaben, um statistisch zuverlässig zu sein (BUCKLEY & VOORHEES 2002). Besonders aufwendig ist die Durchsicht der Ergebnis-Dokumente und die Prüfung auf Relevanz. Wenn einzelne Forschungsgruppen diesen Aufwand betrieben, dann blieben die Ergebnisse aufgrund der unterschiedlichen, verwendeten Textkollektionen unvergleichbar. Als Reaktion darauf etablierten sich mehrere Evaluierungsinitiativen, welche einen Teil des Aufwands zentral leisteten und so für die Vergleichbarkeit sorgten. Die erste wichtige Initiative, die Text Retrieval Conference2 (TREC) des National Institute of Standards and Technology (NIST) in Gaithersburg (Maryland, USA) findet seit 1989 jährlich statt. TREC stellt eine Infrastruktur für die Evaluierung von Systemen mit Massendaten zur Verfügung, welche Dokumenten-Korpora, Aufgaben für die Systeme (Topics), intellektuelle RelevanzBewertungen und die statistische Auswertung umfasst. Als Trainingsdaten stehen den teilnehmenden Systemen die Korpora der Vorjahre zur Verfügung, die Relevanzurteile enthalten (VOORHEES & HARMAN 2001, VOORHEES & BUCKLAND 2002). TREC hat im Lauf seiner Geschichte zu einer erheblichen Verbesserung der Systeme beigetragen, die sich an den Ergebnissen über die Jahre hinweg ablesen lässt. Diese Weiterentwicklung gelang durch den regen Austausch von Ideen und Verfahren unter den Teilnehmern. Um den Realitätsgrad der TREC-Experimente zu erhöhen und eine Teilnahme für die Forscher attraktiv zu halten, reagieren die Veranstalter auf zahlreiche Anregungen aus der Community. So entstanden neben dem Standard Retrieval (ad-hoc) weitere Tracks. Diese greifen aus der Fülle an potentiellen Anforderungen in der Praxis einzelne Aufgabenbereiche heraus und entwickeln dafür eine Evaluierungsmethodik. So gibt es Routing-Aufgaben, die einem automatisierten Filter entsprechen. Feststehende Routing-Aufgaben begegnen dabei einem konstanten Strom von Dokumenten, aus dem das System die relevanten filtert. Statt dem Ranking muss also eine binäre Entscheidung erzielt werden. Weitere Tracks in TREC befassen sich mit dem Retrieval gesprochener Sprache, dem Beantworten von Fragen, dem Retrieval von Video-Sequenzen, Genom-Informationen sowie der Interaktion des Benutzers mit dem System (cf. VOORHEES & HARMAN 2000, 2001). Dem Web-Track 1 Eine ausführliche Diskussion des Relevanz-Begriffs erfolgt in Abschnitt 4.2. 2 http://trec.nist.gov, cf. VOORHEES & HARMAN (2000, 2001) 52 Information Retrieval im Internet von TREC widmet sich Abschnitt 7.10 noch ausführlich, da dieser Track für das Thema dieser Arbeit besonders wichtig ist. Den Besonderheiten des mehrsprachigen Retrieval widmet sich seit dem Jahr 2000 das Cross-Language Evaluation Forum (CLEF1, cf. PETERS ET AL. 2003, PETERS ET AL. 2004). CLEF führt den von TREC eingeführten CrossLanguage Track für europäische Sprachen fort und orientiert sich dabei weitgehend am Ablauf des Ad-hoc-Retrieval Track. Im CLEF-Projekt arbeiten Gruppen aus verschiedenen europäischen Ländern (und damit auch Sprachräumen) mit dem NIST zusammen2. Die CLEF-Organisatoren bieten ein mehrsprachiges Korpus, mehrsprachige Topics und leisten die intellektuelle Relevanz-Bewertung in allen beteiligten Sprachen. relevant(+) nicht relevant (-) Ergebnis A C B D Im Ergebnis Nicht im Ergebnis Relevant A B Nicht relevant C D Trefferliste RSV Relevanz 1. Treffer 0,91 - 2. Treffer 0,86 + 3. Treffer 0,79 - 4. Treffer 0,78 + 5. Treffer 0,73 + 6. Treffer 0,70 - 7. Treffer 0,66 - 8. Treffer 0,65 - 9. Treffer 0,59 - Abb. 2.7: Vorgehen der Evaluierungsinitiativen 1 http://www.clef-campaign.org 2 IEI-CNR (Pisa, Italien) als Koordinator, Eurospider (Zürich, Schweiz), ELRA (Paris, Frankreich), IZ (Bonn, Deutschland), UNED (Madrid, Spanien), NIST (Gaithersburg, USA) 53 Information Retrieval im Internet Parallel entstand in Japan das NTCIR1 Projekt für multilinguales Retrieval in asiatischen Sprachen (cf. KANDO ET AL. 2001). Die besonderen Anforderungen für Retrieval aus strukturierten Daten am Beispiel von XML untersucht die INEX Initiative (KAZAI ET AL. 2003). Benutzungsoberfläche zur Bewertung • Intellektuelle Bewertung – relevant oder nicht relevant • statistische Auswertung Abb. 2.8: Software für intellektuelle Bewertung und Auswertung Die Subjektivität der Relevanz-Bewertungen von Juroren hat bereits mehrfach zu Zweifeln an der Zuverlässigkeit von Experimenten geführt. Binäre Relevanz-Urteile sind offensichtlich subjektiv geprägt und trotz aller Richtlinien lässt sich keine Vereinheitlichung der Maßstäbe herbeiführen. Da diese Urteile die Basis der Ergebnisse liefern, könnte die Subjektivität die Ergebnisse verfälschen. Eine aktuelle Studie bestätigt zwar die Subjektivität der Urteile, zeigt aber, dass die Folgerung nicht zutrifft. Bei der Untersuchung wurden für mehrere Topics der TREC-Initiative zusätzliche Relevanz-Urteile von unterschiedlichen Juroren erhoben. Es zeigte sich, dass diese tatsächlich unterschiedlicher Meinung über die Relevanz waren. Allerdings wirkte sich 1 http://research.nii.ac.jp/ntcir/ 54 Information Retrieval im Internet dies nicht auf die Reihenfolge der Systeme aus. Zwar war die absolute Qualität der Systeme abhängig vom Juror unterschiedlich, allerdings zielt TREC auf ein Ranking der Systeme ab, um vergleichende Aussagen treffen zu können. Die Reihenfolge blieb weitgehend unverändert (VOORHEES 2000). Solange also eine Person konsequent ihren Standpunkt auf die ErgebnisDokumente anwendet, ergeben sich keine Verfälschungen im Endergebnis. 2.5 Semantische Heterogenität und Semantic Web Semantische Heterogenität bedeutet im Information Retrieval, dass die Repräsentation eines Dokuments kontextabhängig ist und je nach System und Szenario unterschiedliche Semantik besitzen kann. Dieses Problem tritt vor allem bei intellektueller Indexierung auf und gewinnt im Kontext der Vision eines Semantic Web neue Bedeutung. Das Semantic Web versucht, neue Standards zur Wissensrepräsentation und Wissensverarbeitung im Internet zu setzen. Während bisherige Standards wie HTML Wissen so darstellen, dass der Mensch sie wahrnehmen kann, so sollen neue Standards das Wissen im Internet für Maschinen lesbar und verstehbar machen (BERNERS LEE 1998). Während zum Beispiel auf einer HTML-Seite eines Buchverlags nur für den Menschen klar wird, welche Zahl der Preis und welche die Seitenzahl ist, so soll im Semantic Web auch für Software erkennbar sein, welche Zahl der Preis ist. Dies geschieht primär durch Semantic Tagging, also semantisches Auszeichnen, während in HTML das Tagging lediglich das Layout festlegt. Das Layout wird im Semantic Web wiederum nach eigenen Standards getrennt von den Daten verwaltet. Durch die Trennung von Inhalt und Layout lassen sich die gleichen Daten wesentlich flexibler unterschiedlich darstellen. Grundlage des Semantic Web bildet die Beschreibungssprache XML1, in der die Daten kodiert werden. Das Layout wird meist mit XSL (Extensible Stylesheet Language) beschrieben, das einer ähnlichen Syntax folgt wie XML. 1 Extensible Markup Language. In XML sind beliebige, benutzerdefinierte Tags erlaubt. XML ist ein Standard des W3C Konsortiums (cf. http://www.w3.org/xml). 55 Information Retrieval im Internet Abb. 2.9: Pyramide Semantisches Web (Semantic Web Layer) (KOIVUNEN & MILLER 2001) Die semantische Heterogenität entsteht durch die Vielzahl von Perspektiven und daraus entwickelten Ontologien und Einteilungen der Welt. So sind für sehr spezialisierte Themenbereiche auch entsprechende Thesauri nötig, die sich bei weniger spezialisierten Datensammlungen als ungeeignet erweisen. Semantische Probleme treten auch bei Wortlisten aus der automatischen Indexierung auf. Ein Term tritt in verschiedenen Korpora mit unterschiedlichen Verteilungshäufigkeiten auf. Aus Sicht des Information Retrieval, in denen sich Bedeutung auf Vorkommenshäufigkeit reduziert, ändert sich dadurch die Bedeutung. Die Bedeutung eines Terms konstituiert sich aus den Dokumenten, auf die er verweist. Bei einer Integration von online bereitgestellten Wissensbeständen verschiedener Anbieter, die für den Benutzer an sich vorteilhaft ist, ergibt sich nun das Problem der semantischen Heterogenität. Der gleiche Begriff kann völlig unterschiedliche Bedeutung haben. Wichtig sind also Transfer-Verfahren, welche Anfrage-Begriffe semantisch in die jeweiligen Deskriptoren der befragten Korpora überführen (cf. HELLWEG ET AL. 2001). 56 Information Retrieval im Internet In f o r m a tio n s w is s e n s c h a f t In f o r m a tio n s w is s e n s c h a f t In f o r m a tio n R e tr ie v a l M e n s c h -M a s c h in e In te r a k tio n G r u n d la g e n E v a lu ie r u n g E v a lu ie r u n g G r u n d la g e n G r u n d la g e n E v a lu ie r u n g In f o r m a tio n R e tr ie v a l M e n s c h -M a s c h in e In te r a k tio n Abb. 2.10: Beispiele für semantische Heterogenität 2.6 Benutzungsoberflächen und Browsing als Suchstrategie Die Benutzungsoberflächen für Internet-Suchmaschinen und andere Information Retrieval-Systeme sind meist sehr einfach und bestehen aus der Eingabezeile für die Formulierung von Suchanfragen. Da syntaktische Beziehungen zwischen Wörtern nicht analysiert werden, kann der Benutzer auch nicht danach suchen. Eine Anfrage besteht daher meist nur aus einer Reihe von Begriffen1. Die Unterstützung des Benutzers erfolgt eher im Rahmen einer Sitzung und bei der Unterstützung von Suchstrategien wie dem iterativen Retrieval oder dem Wechsel zu einer anderen Strategie wie etwa der Ähnlichkeitssuche. Das Informationsbedürfnis verändert sich während der Interaktion mit einem Suchsystem, da der Benutzer aus den Antworten und den betrachteten Ergebnissen neue Erkenntnisse gewinnt, die sein Wissen ergänzen. Dies geschieht beispielsweise, wenn gefundene Seiten Begriffe enthalten, die dem Benutzer nicht bekannt waren und diese sein Informationsproblem besser beschreiben. Darüber hinaus kann sogar ein Wechsel des Suchparadigmas zu einem 1 Die Anfragen bei Internet-Suchmaschinen sind sogar sehr kurz und umfassen zwischen zwei und drei Anfrage-Terme (SPINK & JANSEN 2004). 57 Information Retrieval im Internet Browsing-System erfolgen, wenn der Benutzer auf relevante Verknüpfungen stößt. Ein einfaches Beispiel zeigt die folgende Abbildung der Suchmaschine Google, die in dieser Ergebnisansicht die Suchanfrage manipulierbar anzeigt und anbietet, von jedem Ergebnisdokument aus eine Ähnlichkeitssuche zu starten. Abb. 2.11: Google mit Möglichkeiten zum iterativen Retrieval (v.a. manipulierbare Anfrage und Ähnlichkeitssuche) Neben der gezielten Suche mit einer Anfrage stellt das Browsing die wichtigste Suchstrategie dar. Browsing kommt bei vagen Informationsbedürfnissen zum Einsatz, bei denen es dem Benutzer schwer fällt, eine Anfrage zu formulieren. Browsing bezeichnet das assoziative Verfolgen von Verbindungen. Dadurch kann es auch zu starken Abweichungen von der ursprünglichen Thematik kommen (serendipity-Effekt), die jedoch auch gewinnbringend verlaufen können. Browsing durch das Verfolgen von Hyperlinks ist eine sehr wichtige Strategie für die Orientierung (MARCHIONINI 1995), die häufig 58 Information Retrieval im Internet unterschätzt wird. Eine Untersuchung von MAHOUI & CUNNINGHAM 2001 zeigt, dass in der untersuchten digitalen Bibliothek lediglich ca. 50% der Benutzer eine Suchanfrage stellen. Vermutlich wünschen viele der übrigen Besucher die Möglichkeit, ihr Informationsbedürfnis durch effiziente Browsing-Angebote zu lösen. Browsing wird zum Beispiel durch Internet-Kataloge unterstützt, welche fremde Internet-Angebote in eine Ontologie einordnen, welche dem Benutzer in der Benutzungsoberfläche präsentiert wird (siehe Abschnitt 10.3). 2.7 Mehrwertkomponenten Information Retrieval-Systeme bieten häufig Mehrwertkomponenten an, um den Benutzer besser zu unterstützen. Mehrsprachiges und insbesondere sprachübergreifendes Information Retrieval erfordert weitere linguistische Komponenten. Cross Language Information Retrieval (CLIR) geht von der Annahme aus, dass Benutzer eine Fremdsprache zwar häufig passiv beherrschen und die Relevanz von Dokumenten in dieser Sprache zumindest abschätzen können, dass sich aber Probleme bei der Erstellung von Anfragen ergeben können. In diesem Benutzungskontext entsteht ein Mehrwert, wenn eine einsprachige Anfrage zu Dokumenten in mehreren Sprachen führt und diese ausschließlich nach Relevanz anordnet. Dazu werden vor allem Komponenten zur maschinellen Übersetzung in Information Retrieval-Systeme eingebunden. Viele Mehrwertkomponenten setzen bei der Darstellung des Ergebnisses an. Üblicherweise stellen Systeme ihre Ergebnisse in einer geordneten Liste an (siehe Abbildung 2.11). Visualisierungen versuchen unter anderem, die Beziehungen der Dokumente untereinander darzustellen. Ein Beispiel sind zweidimensionale Karten, welche ähnliche Dokumente näher zueinander positionieren (cf. EIBL & MANDL 2004). Die semantische Ähnlichkeit wird hier direkt auf die Anordnung übertragen. Das System Kartoo ist ein Beispiel hierfür, welches über das Grundprinzip noch hinausgeht (Abbildung 2.12). Kartoo ermittelt die Art der Beziehungen zwischen den Dokumenten und hängt den Verbindungen die entsprechenden Begriffe an. 59 Information Retrieval im Internet Abb. 2.12 Visualisierung in Kartoo Über die einzelnen Beziehungen der Dokumente untereinander enthält eine Ergebnisliste möglicherweise Gruppen von Dokumenten, welche zueinander in inhaltlicher Beziehung stehen. Solche Beziehungen können für den Benutzer von Interesse sein und manche Information Retrieval-Systeme versuchen, diese zu erkennen und darzustellen. Ein Beispiel für derartige ClusteringSysteme ist etwa Vivisimo, welches Abbildung 2.13 zeigt. 60 Information Retrieval im Internet Abb. 2.13: Clustering in Vivisimo Die Beziehungen semantischer Ähnlichkeit und Cluster-Zugehörigkeit sind vager Natur. Eine eindeutige Art Beziehung stellt beispielsweise die zwischen Autor und Dokument dar. Die Analyse von anderen bibliographischen Relationen wie Ko-Autorenschaft führt hin zu dem Erkennen sozialer Netzwerke, die für den Benutzer einen Mehrwert darstellen können. Ein Beispiel hierfür ist das Autorennetzwerk in der digitalen Bibliothek Daffodil1. Wie Abbildung 2.14 zeigt, erlaubt Daffodil damit das Explorieren der Beziehungen zwischen Autoren über mehrere digitale Bibliotheken. 1 http://www.daffodil.de 61 Information Retrieval im Internet Abb. 2.14: Autorennetzwerk in Daffodil Zunehmend tauchen weitere Mehrwerte auf wie Personalisierung oder die geographische Einschränkung von Suchergebnissen. Mehrwertkomponenten werden zwar im Web häufig angeboten, haben sich jedoch nicht etabliert. Ganz im Gegenteil, im Internet zeigt sich ein deutlicher Trend zur „Primitivisierung“ der Suchsysteme. Die Benutzer widersetzen sich allem, was über eine Eingabezeile und eine Ergebnisliste hinausgeht. So mancher Mehrwertdienst wird schlicht nicht wahrgenommen und einige innovative Funktionen entfernen die Anbieter sogar wieder. Dazu zählt etwa die Cluster-Analyse in der Suchmaschine Northern Light. 62 Web Mining und Text Mining 3. Web Mining und Text Mining Die Begriffe Web Mining und Text Mining entstanden in Analogie zu Data Mining. Zwar besteht weder für Text Mining noch für Web Mining eine anerkannte Definition, jedoch berufen sich beide auf Data Mining als Grundlage und benutzen die gleichen bzw. sehr ähnliche Verfahren. Web Mining bedeutet die Anwendung von Verfahren des maschinellen Lernens und des Data Mining auf Daten aus dem Internet: „treat the information in the web as a large knowledge base from which we can extract new, never-before encountered information“ (HEARST 1999) Text Mining „refers generally to the process of extracting interesting information and knowledge from unstructured text“ (HOTHO ET AL. 2005:19). Sowohl im Web als auch offline stehen riesige Datenmengen zur Verfügung. Die Kombination unterschiedlicher Wissensquellen kann zu neuem Wissen führen, das in dieser Form explizit nicht in der Wissensquelle bereitsteht. Die Suche nach Wissensobjekten, die explizit eine Lösung für ein Suchproblem liefern, ist Aufgabe des Information Retrieval. Mining dagegen leitet neues Wissen aus bereits bekanntem Wissen ab. Die Ziele können im Einzelnen sehr unterschiedlich sein. Definitionen von Text Mining subsumieren Web Mining oft als Teilgebiet und integrieren sogar Web Usage und Web Structure Mining (MEHLER & WOLFF 2005:7). Diese Definition dehnt den Text-Begriff über rein natürlichsprachlichen Text hinaus und integriert ergänzende und strukturierende formale Anteile wie etwa Markup-Sprachen. Dazu zählen Links, Meta-Informationen und strukturelle Eigenschaften von Hypertexten, die keine notwendigen Voraussetzungen für Text-Dokumente sind. Aus der Perspekive des Web Mining ließe sich Text Mining als Teildisziplin des Web Content Mining interpretieren, da die textuellen Teile dem Inhaltsbegriff am nächsten kommen. Dagegen verstellt der Begriff Web Mining den Blick auf offline-Dokumente, die sich teils mit den gleichen Verfahren analysieren lassen. Der entscheidende Unterschied zwischen Text- und Web-Mining liegt in der Datengrundlage. Text Mining bearbeitet textuelle Dokumente und beruft sich stärker auf Grundlagen aus der Computer-Linguistik. Web Mining setzt als Grundlage die online im Web bereit stehenden Dokumente und Daten. Text Mining bearbeitet auch Texte, die nicht im Web online zur Verfügung stehen. 63 Web Mining und Text Mining Wie groß die auf Web Mining gesetzten Hoffnungen sind, spiegelt sich in dem neuen Begriff Web-Intelligence. Eine erste wissenschaftliche Tagung mit diesem Titel fand im Jahr 2001 statt (ZHONG ET AL. 2001). Web-Intelligence greift die Debatte über die Möglichkeiten intelligenten Verhaltens von Maschinen auf und knüpft an Artificial Intelligence und Computational Intelligence an. Artificial Intelligence entstand in den 50er Jahren und institutionalisierte als Disziplin den Glauben, innerhalb kurzer Zeit die Fähigkeiten des Menschen mit Computer-Software simulieren oder gar kopieren zu können. Die kommenden Jahrzehnte brachten Fortschritte im Bereich logisches Schlussfolgerns, jedoch stellte sich immer wieder die Frage, was denn menschliche Intelligenz überhaupt bedeutet. Zahlreiche Fähigkeiten des Menschen wie Wahrnehmung und Erkennen von Objekten konnten mit der Entwicklung mächtiger Hardware mit datenintensiven Verfahren, wie sie im Kapitel zu maschinellen Lernen vorgestellt werden, besser implementiert werden als mit klassischen Artificial Intelligence-Methoden. Web Intelligence hebt das Element der datengetriebenen Entwicklung auf eine neue Stufe. Im Stil des Data Mining soll aus den Datenmengen im Internet Wissen gewonnen werden, das nicht in einzelnen Seiten gespeichert ist. Vielmehr wird dieses Wissen aus der Gesamtsicht auf sehr viele einzelne Wissenselemente destilliert. Folgende Teilaspekte von Web Mining sind nach WALTHER 2001 relevant. Diese Einteilung orientiert sich an der Datengrundlage für das Suchen nach nicht offensichtlichem Wissen, die in Klammern angegeben wird. • Web Content Mining (Inhalt von Internet-Seiten) • Web Structure Mining (Internet-Links) • Web Usage Mining (Web-Log-Dateien) In Kapitel 14 wird dieses Spektrum noch um das Web Design Mining erweitert. Zahlreiche Web Mining-Untersuchungen zeigen, dass zwar die Ausprägung einer einzelnen Seite oder eines einzelnen Links unvorhersehbar bleibt, dass aber die Betrachtung größerer Mengen von Objekten im Netz oft zu sehr klaren und konsistenten Mustern führt. Manche Autoren sprechen daher nicht zu Unrecht von den versteckten Gesetzen oder der verborgenen Ordnung des 64 Web Mining und Text Mining Internet1. Beispiele für solche Muster bei Verteilungen von Links werden noch in Abschnitt 7.8 besprochen. Für die Diskussion um Qualität im Internet können alle diese Aspekte eine wichtige Rolle spielen. Der momentan erreichte Diskussionsstand berücksichtigt vor allem Structure und Usage Mining. Usage Mining liefert Daten darüber, wie oft auf bestimmte Wissensobjekte im Internet zugegriffen wird. Diese Popularität kann als Hinweis für die Qualität dienen. Structure Mining befasst sich vorwiegend mit der Struktur, die durch die Hyperlinks entsteht. Hyperlinks, die auf eine Seite zeigen, sind wiederum Ausdruck einer gewissen Popularität. Im Vergleich zur flüchtigen Popularität, die sich aus dem Zugriff ergibt und die nur mit einem Klick verbunden ist, geht die Popularität, die sich in Links ausdrückt, weiter. Sie erfordert die Veränderung einer Seite durch einen Autor und drückt meist eine Zustimmung oder ein positives Urteil über die Zielseite aus. Diese Popularität manifestiert sich stärker als die flüchtige Zugriffs-Popularität, die sich auf einer globalen Ebene auch kaum messen lässt. Dementsprechend bilden Qualitätsmaße auf der Basis der Hyperlinks derzeit den wichtigsten Ansatzpunkt für Systeme mit automatischer Bewertung der Qualität. Diese Systeme werden weiter unten ausführlich beschrieben, dieses Kapitel bietet lediglich einen Überblick und diskutiert Aspekte des Web Structure Mining, welche bisher nicht explizit für die Qualitätsabschätzung benutzt wurden. Content Mining bietet momentan weniger Ansatzpunkte für die automatische Qualitätsabschätzung. Denkbar wäre natürlich, die Qualität der enthaltenen Information selbst abzuschätzen, wie etwa deren Glaubwürdigkeit. Dies ist bei dem heutigen Stand der semantischen Analyse von Texten kaum möglich. Nach einem kurzen Überblick über maschinelles Lernen als Grundlage stellen drei weitere Abschnitte Anwendungsgebiete des Web Mining dar. Der Schwerpunkt liegt dabei auf beispielhaften Anwendungen. Während die Anwendungen des Usage Mining schwerpunktmäßig bei der Verbesserung der Mensch-Maschine-Interaktion liegen, unterstützen das Structure Mining und das Content Mining vor allem das Information Retrieval. 1 Dies ist z.B. in den Buchtiteln The Web’s Hidden Order (ADAMIC & HUBERMANN 2001) oder The Laws of the Web (HUBERMAN 2001) der Fall. 65 Web Mining und Text Mining 3.1 Maschinelles Lernen Maschinelles Lernen bildet die Grundlage für das Data Mining. Maschinelles Lernen beschäftigt sich mit Computer-Programmen, die fähig sind, nach entsprechenden Eingaben neues Wissen zu formulieren. Menschliches Lernen geht über die Speicherung von Wissen und Anpassung an die Umwelt hinaus. Es besteht aus einer „Auseinandersetzung mit der Umwelt“ (EDELMANN 2000:278) und es kommt dabei „zur Bildung von Erfahrungen, die in der Zukunft neue Aktivitäten beeinflussen“ (EDELMANN 2000:278). Holistische Perspektiven begreifen das Lernen als Persönlichkeitsbildung. Dagegen geht es beim maschinellen Lernen in weit stärkerem Maße um die Anpassung von Verhalten an die Umwelt. Maschinelles Lernen versucht diesen Prozess dadurch nachzubilden, dass der Output eines Programms an den Input angepasst wird. Wichtig ist dabei das schrittweise Lernen. Das System soll beim nächsten Auftreten des gleichen Inputs besser reagieren als vor dem Lernen1. Das maschinelle Lernen kennt u.a. folgende wichtigen Lernstrategien: • Eine Vorstufe des Lernens stellt das Speichern direkter Eingaben dar. Genau das abgespeicherte Wissen kann dann abgerufen werden. • Lernen durch Deduktion: Dabei konstruiert das System Mengen von Regeln und prüft, welche den präsentierten Daten am besten entsprechen. • Induktion: Aus positiven (und negativen) Beispielen berechnet ein System einfache statistische Korrelationen und Regression oder komplexe nicht lineare Modelle, welche die Einteilung in positive und negative Beispiele nachvollziehen. Einen derzeit sehr populären Ansatz für induktives Lernen stellen Support Vector-Maschinen dar (MITCHELL 1997). Beispielhaft wird im Abschnitt 3.1.2 das neuronale Backpropagation-Netzwerk vorgestellt. Symbolische Verfahren betonen Regeln und die logische Nachvollziehbarkeit des gelernten Wissens. Eine wichtige Ausprägung dieser Algorithmen sind beispielsweise Entscheidungsbäume und Klassifikationsregeln (cf. z.B. WITTEN & FRANK 2000). Manche Ansätze versehen die Regeln noch mit einer 1 “The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience” (MITCHELL 1997:XV) 66 Web Mining und Text Mining Gewichtung, welche ihre Korrektheit oder Zuverlässigkeit angibt. Im Folgenden wird ein induktiver Ansatz kurz skizziert. 3.1.1 Neuronales Backpropagation-Netzwerk Ein typischer Vertreter induktiv lernender Verfahren sind BackpropagationNetzwerke (BOSE & LIANG 1996, HAM & KOSTANIC 2001). Sie lernen anhand von Beispielen komplexe Funktionen und können dabei ähnlich wie Experten ihr Wissen nicht in Form von Wenn-dann-Regeln ausgeben. Der Benutzer eines Netzwerks weiss also in den meisten Fällen nicht, warum ein Netzwerk eine Entscheidung trifft. Diesen Nachteil nimmt man aber in Kauf, wenn ansonsten keine Modellierung möglich erscheint. Wie alle neuronalen Netzwerke bestehen Backpropagation-Netzwerke aus zahlreichen, sehr einfachen Neuronen, die in Schichten angeordnet sind. Neuronen wirken als Prozessoren, welche über Verbindungen Input in Form von nummerischer Akivierung empfangen, daraus ihre eigene Aktivierung berechnen und anschließend diese Aktivierung an andere Neuronen weitermelden. Eine Schicht dient dem Input, dann folgen Schichten für die Berechnung von Zwischenstufen und schließlich gelangt die Aktivierung in eine OutputSchicht. Input und Output bilden definierte Schnittstellen zur Welt, dort werden Daten angelegt und abgelesen. Welches Wissen hier eingeht, hängt vom Anwendungsfall ab. Oft entscheiden Experten, welche Daten für das Abbildungsproblem erforderlich sind. Der Output steht für das gewünschte Ergebnis. Zwischen den Neuronen der verschiedenen Schichten befinden sich gewichtete Verbindungen. Sie bilden die Parameter des Netzes, die anfangs zufallsgesteuert initialisiert und beim Lernen richtig eingestellt werden. Das Lernen verläuft in zwei Schritten. Zunächst berechnet das Netz nach Eingabe der Daten ein Ergebnis im Output. Da noch nichts gelernt wurde, ist dieses Ergebnis sicher falsch, d.h., es stimmt nicht mit dem Wert überein, den ein Experte als Beispiel vorgegeben hat. Die Differenz zwischen Ergebnis und Vorgabe misst den Fehler des Netzes. 67 Web Mining und Text Mining gsa usb reitu n 0,9 Berechnung des Fehlers Verändern der Gewichte Akti v ieru n Das Netz errechnet die Aktivierung der Output-Schicht g Der für dieses Beispiel gewünschte 0,6 Output (= Teacher) Input wird angelegt Das Netz lernt bei jedem Schritt ein Beispiel Abb. 3.1: Funktionsweise Backprogapation-Netzwerk Im zweiten Schritt wird dieser Fehler vom Output in Richtung Input, also gewissermaßen rückwärts ins Netz gespeist. Nun verändern sich die Werte der Verbindungen. Sie stellen sich so ein, dass sich der Fehler für dieses Trainingsbeispiel etwas verringert. Dies wird nun für alle Beispiele häufig wiederholt. Bei Erfolg zeigt sich, dass der Fehler immer kleiner wird und das Netz schließlich die gewünschte Funktion lernt. Ein Backpropagation-Netzwerk ist demnach eine Funktion mit sehr vielen Parametern, die aus einem Input einen Output berechnet. Diese Parameter werden zu Beginn zufallsgesteuert eingestellt. Anders als bei einem Schachprogramm ist weder die Anzahl, die Bedeutung noch der richtige Wert dieser Parameter bekannt. Durch die kontinuierliche Präsentation von Beispielen stellt das Netz die Parameter so ein, dass sich aus den Input-Daten der richtige Output ergibt. Jede Verbindung kann als eine Mikro-Regel betrachtet werden, die jedoch für sich alleine keinen Sinn ergibt. Nur im Zusammenspiel aller Verbindungen entsteht die richtige Funktion. Die Rolle neuronaler Netze im Information Retrieval beleuchtet MANDL 2001. Genetische Algorithmen greifen wie neuronale Netze auf eine Analogie zu biologischen Prozessen zurück und versuchen, diese abzubilden (MITCHELL 1997:249 ff.). 68 Web Mining und Text Mining 3.1.2 Data Mining Data Mining entwickelte sich aus dem maschinellen Lernen und befasst sich mit Lernen aus großen Datenmengen und stellt das Lernen in den größeren Kontext des Prozesses der Entdeckung von neuem Wissen. Die Basis für Data Mining entstand mit den zunehmenden Datenmengen, die mit fallenden Preisen für Massenspeicher in vielen Bereichen vorlagen: "Now that we have gathered so much data, what do we do with it?" (FAYYAD & UTHURUSAMY 1996:24). Die Definition eines Algorithmus erinnert noch stark an das maschinelle Lernen: "Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm" (FAYYAD 1997:5). Data Mining umfasst neben dem eigentlichen Lernen den gesamten Prozess der Sammlung und Pflege der Daten, über ihre Auswertung bis hin zur Anwendung der Ergebnisse1. Data Mining betont die Anwendung induktiver Lernverfahren, bei denen datengetrieben neue Erkenntnisse gewonnen werden. Andere Verfahren wie Lernen aus Analogie und Schlußfolgern spielen eine untergeordnete Rolle. Dabei kommen v.a. die folgenden beiden Methoden zum Einsatz: • Klassifikation: Lernen von Zugehörigkeiten aus positiven (und negativen) Beispielen, Einordnen der Objekte in bekannte Klassen • Clustering: Ordnen der Objekte durch Beobachtung und Entdeckung, Organisieren in bisher unbekannten Mengen Wodurch entsteht aber die neue Qualität gegenüber anderen wissenschaftlichen Disziplinen, die sich mit genau der gleichen Frage seit langem befassen, wie allen voran die Statistik? Der wachsende Umfang der Daten erfordert teilweise völlig neue Ansätze: • Der Data Mining Prozess umfasst mehr als eine statistische Analyse, er beinhaltet Datenhaltung (DBMS-Techniken), Benutzung der Daten und Datenvisualisierung. • Data Mining stellt den Anspruch, sowohl ein natürlicheres Interface zu großen Datenmengen zu bieten als auch traditionelle Ansätze zur Abfrage von Datenbanken2. Fayyad verdeutlicht dies an einem Benut- 1 "various steps of the process which include data warehousing, target data selection (or combination), evaluation and interpretation and finally consolidation and use of the extracted ‚knowledge'" (FAYYAD 1997:6) 2 "much more natural interface between human and databases" (FAYYAD 1997:6). 69 Web Mining und Text Mining zerinteresse, das auf alle Transaktionen abzielt, die mit einer Wahrscheinlichkeit von 75% oder mehr auf betrügerische Absichten hinweisen (FAYYAD 1997). Eine entsprechende SQL-Anfrage wäre in einer großen Datenbank sehr komplex. Data Mining-Algorithmen dagegen trainieren ein Modell auf der Basis bekannter Transaktionen, das dann betrügerische Transaktionen erkennt1. • Data Mining bietet nicht nur ungeahnte Möglichkeiten für innovative Anwendungen, es wirft ethisch neue Fragen zur Wahrung der Privatsphäre auf. Daten über Personen, die für sich alleine betrachtet keine Probleme für den Datenschutz darstellen, gewinnen durch ihre Verknüpfung völlig neue Aussagekraft (cf. z.B. VEDEER 2001). Das Individuum kann die Auswirkungen der Preisgabe einzelner Daten nicht mehr absehen. In komplexen Modellen führen bestimmte Daten möglicherweise zur Einordnung in problematische oder risikobehaftete Gruppen (cf. WITTEN & FRANK 2000). Dies kann zur Sperrung von Krediten oder der Verweigerung von Versicherungen führen, aber selbst vitale Interessen können davon betroffen sein, wenn etwa bei Risikogruppen Behandlungsmethoden aufgrund schlechter Aussichten nicht angewandt werden oder gezielt Eizellen für eine Befruchtung ausgewählt werden. 3.2 Web Structure Mining Web Structure Mining nutzt als Datengrundlage vor allem die HypertextLinks zwischen Internet-Seiten. Dazu wird das Web aus der Perspektive der Graphen-Theorie betrachtet und als großer Graph interpretiert. Dabei sind die Seiten Elemente und die Links Kanten in dem formalen Graph (Jansen 2003, BOSE & LIANG 1996). Dies lässt sich auch als Matrix über alle Seiten darstellen, wobei die Zellen die Information enthalten, ob ein Link vorliegt oder nicht. Die beiden Darstellungen in Abbildung 3.2 sind also äquivalent. 1 "construct a training sample for a data mining algorithm, let the algorithm build a predictive model, and then retrieve records that the model triggers on" (FAYYAD 1997:6) 70 Web Mining und Text Mining A A B B C D A B 1 1 C 1 C D D 1 1 1 Abb. 3.2: Netz- und Matrix-Darstellung eines kleinen Graphen Die folgenreichsten Methoden des Web Structure Mining für die Qualitätsbewertung sind die Autoritätsmaße wie der PageRank-Algorithmus, die weiter unten diskutiert werden (siehe Abschnitt 7.1). Wichtige Erkenntnisse des Web Structure Mining sind Aussagen über exponentielle Verteilungen zahlreicher Parameter. So zeigte sich mehrfach, dass viele verschiedene Verteilungen im Internet sehr ähnlichen exponentiellen Wahrscheinlichkeitsverteilungen folgen. Dabei gibt es sehr wenige Elemente, die hohe Werte erzielen und viele Seiten, die äußerst niedrige Werte haben. Dies gilt etwa für die Anzahl der Seiten in Bezug zu eingehenden Links, in Bezug zu ausgehenden Links aber auch für die Anzahl von Seiten pro WebSite (cf. ADAMIC & HUBERMAN 2001, siehe Abschnitt 7.8). 3.2.1 Autoritätsmaße Autoritätsmaße basieren auf der einfachen Annahme, dass häufig zitierte Seiten besonders gut sein müssen. Je mehr Links auf eine Seite verweisen, desto höher ist deren Autorität. Die Grundannahme wird aber weiter verfeinert. Nicht jeder Link zählt gleich viel. Vielmehr sollen Links von Seiten mit großer Autorität höher bewertet werden. Ein Link von einer Seite mit hoher Autorität trägt also mehr zur Autorität der Zielseite bei. Diese Grundannahme bildet den Kern der Algorithmen PageRank (cf. PAGE ET AL. 1998), SALSA (cf. LEMPEL & MORAN 2000) oder HITS (cf. KLEINBERG 1998). Autoritätsmaße stellen die am weitesten verbreitete Methode zur automatisierten Qualitätsabschätzung dar und sie werden daher ausführlich im Kapitel 7 71 Web Mining und Text Mining zu existierenden Systemen diskutiert. Neben den Autoritätsmaßen macht das Web Structure Mining zahlreiche Aussagen über die quantitativen Beziehungen zwischen den Elementen des Internet, die im Folgenden vorgestellt werden. 3.2.2 Quantitative Untersuchungen Die Update-Zeit von Internet-Seiten folgt ebenfalls weitgehend einer exponentiellen Verteilung. In einer Untersuchung von BREWINGTON & CYBENKO 2000 änderten sich 56% der Seiten nie, während ein geringer Anteil von 4% sehr stark dynamisch ist und häufig modifiziert wird. Etwa 20% der Seiten sind weniger als elf Tage alt. Der Median der Verteilung liegt bei 100 Tagen, so dass ca. 50% der Inhalte weniger als drei Monate alt sind. Die Angaben beziehen sich auf ein Korpus von zwei Millionen Seiten (ca. 200 Gigabyte), das über einen Zeitraum von über einem Jahr beobachtet wurde. Die Zeitspanne zwischen den Updates für eine einzelne Seite ließ sich mit einer WeibullWahrscheinlichkeitsverteilung modellieren (BREWINGTON & CYBENKO 2000). Diese Ergebnisse konnte eine Analyse von FETTERLY ET AL. 2003 noch differenzieren, welche umfassend die Dynamik des Internets untersuchte. FETTERLY ET AL. 2003 berücksichtigten auch den Umfang der Änderung (siehe Abbildung 3.3). Die Studie zeigt, dass sich lange Seiten häufiger und stärker ändern als kurze und dass die Dynamik einer Seite weitgehend stabil ist. Tritt in einer Woche eine Veränderung ein, so ist die Wahrscheinlichkeit hoch, dass diese Seiten auch in der nächsten Woche wieder modifiziert werden. Dies ist wichtig für das Crawling, also das Sammeln von WebSeiten, bei dem die Aktualität eine wichtige Rolle spielt. Die Frequenz, mit der eine Seite von einem Crawler besucht wird, sollte von der Änderungshäufigkeit abhängig sein. Dies ist eine Heuristik, die viele Crawler benutzen. Die Arbeit von FETTERLY ET AL. 2003 zeigt nun, dass die Frequenz der Veränderungen stabil ist und die einmal erkannte Rate nicht so schnell wieder überprüft werden muss. 72 Web Mining und Text Mining Abb. 3.3: Änderungsfrequenz von Internet-Seiten (aus FETTERLY ET AL. 2003) Die Veränderungsrate ist schwierig zu messen, da das Alter einer Seite sich kaum exakt bestimmen lässt (cf. LEWANDOWSKI 2004b). Das Hypertext Transfer-Protokoll (HTTP) übermittelt im Header lediglich die letzte Änderung einer Seite und bereits diese Information gilt als sehr unsicher. Je nach Konfiguration des Web-Servers kann diese Information auch völlig falsch sein. Häufig finden sich im Text Angaben zur letzten Änderung, die redaktionell vorgenommen werden und ebenfalls falsch sein können. Das reale Alter einer Seite lässt sich nur mit umfassenden Archivierungen feststellen, die erst langsam beginnen (cf. MASANÈS & RAUBER 2004). Daneben kann eine Änderung von sehr unterschiedlichem Umfang sein und von kleinen Korrekturen bis hin zu einem kompletten Austausch des Inhalts reichen. Der Ansatz von FETTERLY ET AL. 2003 versucht, dieses Problem zu berücksichtigen und überprüft selbst, ob und wie stark sich eine Seite verändert hat. Dazu wurden 330 Millionen Internet-Seiten an vierzehn aufeinander folgenden Wochen geladen und untersucht. Eine komplette Speicherung aller Seiten war nicht möglich, so dass ein Näherungsverfahren bestimmte, ob und wie stark sich die Seiten verändert hatten. Aus den Seiten wurden Codes (sogenannte Shingles) generiert, aus denen sich mit hoher Wahrscheinlichkeit die Änderungsrate ableiten lässt. Diese Codes wurden gespeichert und über die Wochen hinweg verglichen. 73 Web Mining und Text Mining 3.3 Web Usage Mining Web Usage Mining stellt einen Sonderfall des Web Mining dar, da die Basisdaten nicht im Web zur Verfügung stehen, sondern erst bei der Benutzung entstehen und auf Web-Servern in nicht öffentlich zugänglichen Bereichen gespeichert sind. Web Usage Mining untersucht das Informationsverhalten von Benutzern und analysiert es für verschiedene Anwendungen (RAHM 2002). wpbfl2-45.gate.net [29:23:55:01] /docs/browner/cbpress.gif HTTP/1.0" 200 51661 "GET wpbfl2-45.gate.net [29:23:55:29] "GET /docs/Access HTTP/1.0" 302 140.112.68.165 [29:23:55:33] HTTP/1.0" 200 2788 "GET /logos/us-flag.gif wpbfl2-45.gate.net HTTP/1.0" 200 617 [29:23:55:46] "GET /information.html wpbfl2-45.gate.net HTTP/1.0" 200 224 [29:23:55:47] "GET /icons/people.gif Abb. 3.4: Auszug aus einem Log-File1 Öffentlich zugängliche Log-Dateien für Forschungszwecke finden sich auch im Internet2. Für die Analyse von Log-Dateien sind zahlreiche Produkte lieferbar3. 3.3.1 Methodische Probleme Die Log-Files von Web-Servern enthalten für jede Anforderung einer Datei durch einen Browser einen Eintrag. Jedoch entspricht keineswegs jede 1 http://ita.ee.lbl.gov/html/contrib/EPA-HTTP.html 2 Ein Angebot liefert das Internet Traffic Archive: http://www.acm.org/sigcomm/ITA 3 Z.B. ClickTracks (http://www.clicktracks.com/) oder WebTRends http://www.webtrends.com 74 Web Mining und Text Mining Anforderung1 einer Internet-Seite, sondern eine Seite erfordert meist mehrere Anforderungen etwa zur Übermittlung eingebetteter Grafiken. Ein Klick kann daher mehrere Einträge zur Folge haben. Der einzelne Eintrag wird als Hit bezeichnet, während der Aufruf einer Seite aus Benutzerperspektive PageView heißt. Sites zeichnen Aktionen auf WWW Benutzer Site Site Usage Mining: Suche nach Mustern LogDatei Site Site Benutzte Links Site Site LogDatei Site Site Abb. 3.5: Funktionsweise des Web Usage Mining Zahlreiche Anforderungen führen dagegen nicht zu Einträgen im Log-File, da sie von Proxy-Servern bearbeitet werden. Proxy-Server und Daten im Proxy des Browsers speichern häufig abgefragte Daten ab und liefern sie an den anfordernden Browser, ohne den Web-Server zu kontaktieren, von dem sie ursprünglich stammten. Das beschleunigt die Interaktion, führt jedoch zu unvollständigen Daten bei den Log-Dateien. Die Kontrolle darüber liegt nicht vollständig bei den Autoren der jeweiligen Angebote. Ein ähnliches Problem entsteht bei der Benutzung des Back-Button eines Browsers, bei dem die Seite ebenfalls von dem Client erneut gezeigt wird und dabei lediglich aus dem Cache gelesen wird (SULLIVAN 1997:1). Gerade solche Aktionen sind natürlich sehr wichtig für die Mensch-Maschine-Interaktion. 1 Im Hypertext Transport Protocol (HTTP) entspricht die Anforderung einem GET Befehl. 75 Web Mining und Text Mining Darüber hinaus geben Log-Dateien nur unzureichend darüber Aufschluss, wie lang sich ein Benutzer eine Web-Seite betrachtet. Zwar wird für jeden Hit der Zeitpunkt festgehalten, jedoch gehen kurze oder lange Unterbrechungen der Interaktion nicht in die Log-Datei ein. Die oben geschilderten Probleme sind besonders für Anwendungen wichtig, bei denen Interaktion finanziell vergütet werden oder die Häufigkeit der Nutzung sehr genau überwacht werden soll wie vor allem bei Werbung. In diesem Zusammenhang wird häufig der Sammelbegriff Web-Measurement für die Erfassung und Messung von Internet-Inhalten und Zugriffen genutzt. Der Begriff Web-Measurement wird also v.a. in dem Bereich der Werbewirksamkeitsforschung für das Internet gebraucht1 (cf. BÜRLIMANN 2001). 3.3.2 Aufzeichnung der Interaktionsdaten Die Sammlung und Auswertung von Interaktionsdaten kann auf mehreren Ebenen erfolgen. Lokale Daten wie der Cache, die History und die Bookmark-Dateien des Web-Clients erlauben eine Verfolgung der Interaktion und eine Analyse des Interessensspektrum des Benutzers. Aus solchem Wissen ziehen viele adaptive Systeme Inferenzen über das Interesse des Benutzers und versuchen, es auf andere Internet-Seiten zu übertragen. Andere Systeme zur Navigationsunterstützung konzentrieren sich auf die Visualisierung des Interaktionsverlaufs. Teilweise fassen diese Systeme auch die Dialog-Geschichte mehrerer Benutzer zusammen und gelangen so zu einem sozialen Modell der Interaktion (cf. DAVENPORT & BUCKNER 1998). Anders als die lokalen Daten, welche die Interaktionen eines Benutzers auf allen von ihm besuchten Seiten speichern, repräsentieren die Server-LogDateien die Anbieter-Perspektive. Diese Dateien vereinigen die Aufrufe aller Benutzer von Seiten eines Web-Angebots und stehen den Betreibern des entsprechenden Web-Servers zur Verfügung. Die Analyse dieser Daten ist am weitesten verbreitet, liefert jedoch nur Daten für das jeweilige Angebot. Ein Vergleich mit anderen Sites für ähnliche Anwendungen (wie zum Beispiel der Vergleich zweier Online-Geschäfte für Bücher) ist dadurch nicht möglich. 1 Bei der Werbewirksamkeitsforschung wird geprüft, inwieweit Werbebotschaften die Benutzer erreichen und inwieweit sich damit aus der Sicht der werbenden Firmen die Investitionen lohnen. Aus der Perspektive des Angebots, das an der Integration von Werbung in die eigenen Seiten verdienen will, geht es darum, nachzuweisen, dass das eigene Angebot qualitativ so interessant ist, dass es einen lohnenden Werbeträger darstellt. 76 Web Mining und Text Mining Aus Sicht des Web-Usage-Mining wären Daten zu Interaktionen vieler Benutzer mit vielen Internet-Angeboten wünschenswert. Die Einschränkung auf einzelne Benutzer oder einzelne Angebote könnte aber nur durch eine globale Perspektive überwunden werden. Diese Perspektive wird am ehesten durch die Proxy-Server großer Internet Service Provider (ISP) erreicht, welche die Interaktionen vieler Benutzer aufzeichnen können. Solche Daten wären für die Qualitätsbewertung sehr interessant, da sie ein besseres Bild der Popularität wiedergeben als die Link-Analyse. Während die Links lediglich die Popularität einer Internet-Seite bei der kleinen Gruppe der Web-Autoren zeigen, würden globale Log-Dateien die Popularität bei den Benutzern wiederspiegeln1. Die Werbewirksamkeitsforschung versucht durch neue Methoden Vergleichbarkeit zu schaffen. Dazu zählt der Standard der Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e. V. (IVW), bei dem jeder teilnehmende Anbieter auf jeder Seite ein kleines Skript einfügt, das zu einem Aufruf bei einer Zentrale führt2. Die dort gesammelten Daten erlauben zum Beispiel den Vergleich mehrerer Online-Zeitungen. 3.3.3 Log-Daten in der Mensch-Maschine-Interaktion Die Analyse von Nutzungsdaten aus dem Internet gilt auch als eine große Chance für die empirische Forschung zur Mensch-Maschine-Interaktion (siehe Abschnitt 1.5). Die Evaluierung von Benutzungsschnittstellen ist äußerst wichtig. Solche Untersuchungen3 erfordern einen großen Einsatz von Ressourcen und sind sehr teuer. Dagegen entstehen die Daten in Logfiles durch tatsächliche reale Aktionen von Internetnutzern. Alle Benutzer werden gewissermaßen zu Testbenutzern, es gibt keine Probleme bei der Auswahl, Motivation, Bezahlung und Formulierung von Testaufgaben. Verfahren für die Auswertung von Log-Files gelten als „‘discount‘ usability assessment methods“ (SULLIVAN 1997:2). Allerdings enthalten die Log-Files nur sehr wenig Information und sind daher keineswegs so aussagekräftig wie Benutzertests. Manche Kompromisse setzen daher auf die Sammlung von Daten auf der Seite des Clients, also des Browsers: 1 Eine Analyse der Wissensquellen für die Qualitätsbewertung folgt in Abschnitt 5.5. 2 Die Anwendung und Funktionsweise des sogenannten SZM-Tags wird erläutert unter: http://www.ivwonline.de/messverfahren/szm-tag.php 3 Ein Beispiel für eine umfangreiche, vergleichende Untersuchung von verschiedenen Internetangeboten bieten SPOOL ET AL. 1999. 77 Web Mining und Text Mining • Benutzertests: Erkenntnissen intensivste Form mit den aussagekräftigsten • WebVip (NIST) erstellt eine Kopie einer Site und fügt dabei den Links mehr Informationen hinzu. Dadurch werden die Standard-Logfiles wesentlich aussagekräftiger, da dort verfolgte Links mit zusätzlichen Daten kodiert werden (ETGEN & CANTOR 1999). Für die Auswertung ist nicht unbedingt Zugang zu dem Client-Browser des Benutzers erforderlich, was die Methode flexibel macht. Allerdings erlaubt WebVip nur die Evaluierung von vorher definierten und kopierten Sites, so dass die freie Interaktion im Netz nicht bewertet werden kann. Der Benutzer muss also bewusst an dem Test teilnehmen und diszipliniert nur auf eine spezielle Version der getesteten Seite zugreifen. • WET (Web Event Logging Tool, ETGEN & CANTOR 1999): WET ist die Erweiterung eines Browsers, der damit konfigurierbar alle Events bei der Bedienung aufzeichnen kann. Unter Event versteht man atomare Ereignisse in einer Benutzungsoberfläche, wie das Drücken des MouseButtons, das Drücken einer Taste oder das Anklicken einer Checkbox. Die aufgezeichneten Ereignisse spiegeln die Aktionen des Benutzers wider und werden automatisch an die Auswertenden verschickt. WET muss allerdings installiert und je nach Untersuchungsinteresse konfiguriert werden. Es liefert alle Ereignisse aus Sicht eines Benutzers, der viele Sites ansteuert, während Log-Files die Sicht eines einzelnen Servers liefern, auf den viele Benutzer zugreifen. • Log-Datei-Analyse: kostengünstigste Evaluierung, die aber nur wenige Informationen bietet, dafür auf sehr vielen Benutzern basiert Abschließend sollen einige Beispiele die typischen Anwendungsszenarien illustrieren. Häufig suchen Benutzer in einer hierarchischen Struktur nach einer Seite und schlagen Pfade ein, unter denen sie diese Seite vermuten. Wenn sie diese dann nicht finden, gehen sie zurück und suchen unter anderen Pfaden, bis sie schließlich erfolgreich sind. Sobald mehrere Benutzer dieses Ziel zunächst unter einem anderen Pfad vermuten, so weist dies darauf hin, dass dieser erste Pfad der bessere Ort für das Ziel ist. Ein System zur Optimierung einer WebSite nach diesem Prinzip entwickeln SRIKANT & YANG 2001. Mit Pfaden befassen sich auch BORGES & LEVENE 2000. Sie entwerfen eine probabilistische Grammatik, in der ein Satz ein n-Gram von Seiten und damit einen vom Benutzer verfolgten Pfad in einem Hypertext darstellt. Aus den 78 Web Mining und Text Mining Log-Dateien eines Servers extrahieren die Autoren quasi syntaktische Regeln, die das wahrscheinliche Verhalten des Benutzers auf diesem Server wiedergeben. Bei über 10.000 Regeln sinkt der Fehler unter 20%. Je kleiner und handlicher die Grammatik allerdings gestaltet wird, desto mehr steigt dieser Fehler an. Aus den Pfaden lassen sich auch häufig gemeinsam aufgerufene Seiten erkennen (COOLEY ET AL. 2000). Bestehen zwischen Seiten mit hohen Assoziationswerten dann keine strukturelle Beziehung durch Hypertext-Verknüpfungen, dann sind diese besonders interessant für die weitere Analyse. Die Bedeutung der Analyse von typischen Pfaden führte zur Entwicklung flexibler Abfragesprachen. Ein System extrahiert Pfade aus den Log-Dateien und macht diese dem Benutzer mit einer Abfragesprache im relationalen Stil zugänglich (SPILIOPOULOU ET AL. 2000). Die Intelligenz liegt hier also weitgehend beim Benutzer des Web Mining-Systems, der häufig genutzte Pfade identifizieren kann. Diese werden in der vorgestellten Lösung adaptiv verkürzt, indem zusätzliche Verknüpfungen eingefügt werden. Schlagen also Benutzer mit ähnlichen Eigenschaften häufig einen langen Pfad ein, so erlaubt ein automatisch eingefügter Link einen schnelleren Zugriff auf das wahrscheinliche Ziel (SPILIOPOULOU ET AL. 2000). Manche der Erkenntnisse aus der Log-Datei-Analyse können durch andere Evaluierungsverfahren nur schwer gewonnen werden. Die Evaluierung einer Site zur Reservierung von Ferienwohnungen durch Usage-Mining sowie durch Benutzertests zeigte, dass jedes Testverfahren zu anderen Verbesserungsvorschlägen führte (BARTEL 2002). Aus einem Vergleich der Log-Datei-Einträge und den Top-Level-Domains der zugreifenden Benutzer, die Rückschlüsse auf das Herkunftsland der Benutzer zulassen, konnten KRALISCH & BERENDT 2004 sogar kulturelle Präferenzen beim Suchverhalten erkennen. Die Studie zeigte, dass Benutzer aus Kulturen mit stärkerer Unsicherheitsvermeidung als auch Benutzer aus Kulturen mit niedriger Kontextvermittlung eher Suchmasken benutzen als Links. Der Ansatz von CHI ET AL. 1998, 2000, und 2003 analysiert sowohl die Usage-Daten als auch Links und die Inhalte der besuchten Seiten (siehe Abschnitt 8.4.4). Auch CHAKRABARTI ET AL. 1997 greifen auf mehrere Wissensquellen zurück um eine Sammlung von Ressourcen zu einem Thema zu erstellen. Diese Systeme verweisen bereits auf das Web Content Mining. 79 Web Mining und Text Mining 3.4 Web Content Mining Content Mining zieht Wissen aus dem Inhalt der Internet-Seiten. Häufig bildet der lesbare Text einer Seite die Grundlage und dementsprechend wird Content Mining auch als Text-Mining bezeichnet (BERRY 2004). Content Mining extrahiert aus mehreren Seiten Wissen, das explizit nicht vorhanden ist. Die direkte Extraktion von vorhandenem Wissen aus Internet-Seiten bezeichnet man dagegen häufig als Information Extraction. Dabei geht es vor allem um die Überführung von nicht strukturiertem Wissen aus Texten in strukturierte Formate, die von Computern leicht bearbeitet werden können. Die Übergänge sind fließend und die Terminologie wird in der Literatur auch nicht einheitlich benutzt. 3.4.1 Lexikalisches Wissen Viele Anwendungen bemühen sich, die Bedeutung von Begriffen durch das Wissen im Internet zu erkennen. Die Ansätze arbeiten benutzer-orientiert oder extrahieren vages Wissen. Benutzer-orientierte Verfahren präsentieren mehrere Varianten und überlassen die Erkennung guter Definitionen dem Benutzer. Ein System sucht zunächst mit einer Suchmaschine nach dem fraglichen Begriff. Aus den Antwort-Dokumenten werden dann Passagen extrahiert, welche typisch für Definitionen sind. Zum einen vergleicht das System den Text mit syntaktischen Mustern für Definitionssätze („Y ist ein X“) und zum zweiten prüft es, ob die HTML-Formatierung um die Fundstelle des Begriffs auf eine Definition hinweist. Die typische Formatierung sowie die typischen syntaktischen Muster wurden vorab von den Autoren identifiziert (FUJII & ISHIKAWA 2000). Die Bedeutung von Wörtern lässt sich nicht nur in Definitionen erkennen, sondern auch durch vages Wissen beschreiben. Diese Beschreibung erfolgt in der Regel durch einen Vektor mit gewichteten Termen. Diese Terme stellen in dieser Kombination oder einzeln dann mit dem jeweiligen Gewicht Synonyme des Begriffs dar. Je nach Anwendung können die Terme aus der gleichen oder einer anderen Sprache stammen. Neben einer anderen Sprache können auch Terme einer anderen Ontologie die Beschreibung liefern, was vor allem bei semantischer Heterogenität wichtig ist (cf. KÖLLE ET AL. 2004, MANDL & WOMSER-HACKER 2003, siehe Abschnitt 2.5). Eine Anwendung hierfür wurde im Rahmen des Projekts CARMEN entwickelt. Dabei wurden aus dem Internet sozialwissenschaftliche Texte extrahiert, die zur Erstellung von statistischen Transfermodulen dienten (STRÖTGEN 2002). Diese 80 Web Mining und Text Mining Transferverfahren erlauben den Überstieg von den Termen einer sozialwissenschaftlichen Ontologie zu einer anderen. Weitere Ansätze versuchen, ganze Ontologien aus dem Internet zu gewinnen. Diese werden im folgenden Abschnitt diskutiert. Ein interessanter Aspekt der Wissensgewinnung aus dem Internet liegt im Bereich multilingualer Informationssysteme. Dabei stammen die Terme zur Beschreibung eines Begriffs aus einer anderen Sprache. Ziel dieser Verfahren ist letztendlich eine Form der Übersetzung zwischen natürlichen Sprachen. Das Internet enthält überwiegend Text-Dokumente und diese in zahlreichen Sprachen1. Eine wichtige Wissensquelle für Information Retrieval in mehrsprachigen Kontexten, bei dem eine Anfrage auf Dokumente in anderen Sprachen abzielt, sind mehrsprachige Korpora, die synchronisiert (aligned) vorliegen. Das bedeutet, dass zu einem Satz oder Dokument sein Pendant in einer anderen Sprache bekannt ist. Solche Doppelkorpora können dann für die automatische, statistisch basierte Übersetzung von Anfragen oder Dokumenten benutzt werden. Solche Korpora lagen bisher meist nur für begrenzte Datenmengen vor und stammten meist aus mehrsprachigen Ländern wie der Schweiz, wo offizielle Dokumente übersetzt werden müssen. Im Rahmen des Cross Language Evaluation Forum (CLEF, siehe Abschnitt 2.4) werden mehrere Ansätze evaluiert, die solche Datenmengen für ihr konkretes Sprachenpaar aus dem Internet erstellen. Da sehr viele Internet-Angebote sich an ein internationales Publikum richten, müssen sie übersetzt werden und die gleiche Information wird parallel präsentiert. Inzwischen existieren relativ zuverlässige Sprachidentifikationssysteme, die dann im Zusammenspiel mit heuristischen Regeln die jeweiligen Versionen der Dokumente in verschiedenen Sprachen erkennen und synchronisieren. Diese Regeln berücksichtigen z.B. die Verzeichnisstruktur und Dateinamen, aus denen die Sprachversion erkennbar ist. Die Aufgabe des Web-Mining besteht also in der Bereitstellung der Parallelkorpora (cf. NIE ET AL. 1999, NIE ET AL. 2001). Schwierig ist dabei die Erkennung der Übereinstimmung zwischen den Texten. Manche Ansätze erlauben vage Werte für die Übereinstimmung (RIBEIRO ET AL. 2000). 3.4.2 Web Knowledge Mining Neben den auf Sprachressourcen ausgerichteten Verfahren im letzten Abschnitt versuchen andere Algorithmen symbolisches Wissen unterschied- 1 Eine Übersicht über die Anteile der einzelnen Sprachen siehe unter http://global-reach.biz/globstats/index.php3. 81 Web Mining und Text Mining licher Art aus dem Web zu extrahieren. Beispielhaft seien hier nur zwei Systeme genannt. Ein Ansatz mit sehr generellem Anspruch versucht aus einer Menge von Seiten, einer vorgegebenen Ontologie und einigen vorgegebenen Beispielen zu lernen. Ein wichtiger Schritt dabei ist das Lernen aufgrund eines Links, der eine Beziehung zwischen zwei Objekten einer Ontologie repräsentiert. So bedeutet ein Link von der Seite eines Professors auf einen Kurs „unterrichtet“. Einen weiteren wichtigen Anhaltspunkt stellt die Text-Kategorisierung dar, die Web-Seiten den Ontologie-Objekten zuordnet. Durch dieses Verfahren werden typische Begriffe für die Web-Seite eines Objekts aus einer Lernmenge erkannt (CRAVEN ET AL. 1997). Ein spezifischer Ansatz zur Erkennung von Firmenstrukturen aus dem Web greift auf wenige Kriterien zurück, die empirisch ermittelt wurden. Ziel ist die Extraktion der Firmenstruktur aus den Web-Seiten. Um die Seiten zu erkennen, die zum Unternehmen gehören und die potentiell interessant für die Firmenstruktur sind, extrahiert das Verfahren alle Seiten, auf welche die Homepage des Unternehmens verweist. Zusätzlich wird geprüft, ob die Seiten auf dem gleichen Server liegen, den Firmennamen in der URL und im Titel enthalten, einen Link zurück zur Homepage besitzen oder gleiche Bilder wie die Homepage zeigen (SCHEUCH 1997). 3.5 Text Mining Die Grundidee des Text Mining lässt sich wie folgt umschreiben: „Text Mining aims at disclosing the concealed information by means of methods which on the one hand are able to cope with the large number of words and structures in natural language and on the other hand allow to handle vagueness, uncertainty and fuzziness“ (HOTHO ET AL. 2005:19). Text Mining hat Bezüge zum Information Retrieval, der Sprachtechnologie und der Information Extraction. Neben Technologien aus diesen Bereichen sind Klassifikationsverfahren und auch Visualisierungsansätze wichtige Methoden des Text Mining. Die Verfahren für das Erkennen unterschiedlicher Muster ähneln denen aus dem Data Mining. Text Mining fokussiert auf Text-Daten und grenzt sich somit vom Data Mining ab, das die Bearbeitung von numerischen Daten betont. Spezifisch für Text Mining sind dabei die Verfahren zur Erzeugung von Repräsentationen natürlichsprachlicher Texte. Zum Web Mining besteht eine Schnittmenge wie auch der obige Abschnitt zeigt, eine Abgrenzung kann heuristisch über die Datengrundlage erfolgen. 82 Web Mining und Text Mining Anwendungsbeispiele für Text Mining sind etwa Text-Kategorisierung (SEBASTIANI 2002), Patent-Analyse, die visuelle Darstellung von Strukturen in großen Textmengen (siehe auch Abbildung 2.12 EIBL & MANDL 2004, HOTHO ET AL. 2005). Auch die Erkennung der Qualität von Texten lässt sich unter Text Mining fassen, womit sich der Bogen zur Thematik Qualität schließt. So ist die Spam-Erkennung bei E-Mails ein Anwendungsbeispiel für das Text Mining und auch die automatische Benotung von Texten lässt sich darunter fassen (siehe Abschnitt 8.5). 3.6 Fazit: Web Mining und Text Mining Die obigen Beispiele zeigen, wie groß die Chancen und wie breitgefächert die Anwendungen des Text- und Web-Mining bereits sind. Die Ansätze greifen auf eine Fülle von Wissensquellen zu. Deutlich wurden auch einige Einschränkungen. Mit der Qualität des gewonnenen Wissens steigt häufig auch der vorab nötige Aufwand etwa bezüglich Auswahl der Seiten und Erstellung von Heuristiken zur Auswertung. Je nach Anwendung kann dieser Aufwand durchaus lohnend sein. Jedoch sind damit die meisten Ansätze nicht generalisierbar und nicht für die generelle Qualitätsbewertung einsetzbar. Trotzdem bieten viele der Beispiele Anregungen für Qualitätssysteme ebenso wie für andere Informationssysteme. 83 84 Qualität von Internet-Angeboten 4. Qualität von Internet-Angeboten Qualität bezeichnet die Güte oder das Maß der Exzellenz von etwas. Intuitiv ist die Bedeutung von Qualität meist klar. Abstrakte Definitionen gehen meist kaum über den Güte-Begriff hinaus. Im konkreten Anwendungsfall lässt sich Qualität meist nur sehr schwer definieren. Die ISO-Norm definiert die Qualität eines Produktes wie folgt: "Die Gesamtheit der Merkmale eines Produktes oder einer Dienstleistung, die sich auf deren Eignung beziehen, festgelegte oder vorausgesetzte Erfordernisse zu erfüllen" (ISO 8402 1986). Im Folgenden geht es um die Qualität von Information, von InformationsProdukten und insbesondere um Internet-Angebote. Kapitel 4 und 5 führen in den Forschungsstand zur Informationsqualität im weiteren Sinne ein. Der nächste Abschnitt stellt drei Rahmen für Definitionen von Informationsqualität vor. Abschnitt 4.2 thematisiert die Abgrenzung zwischen Qualität und Relevanz. Anschließend diskutiert Abschnitt 4.3 ausführlich unterschiedliche Facetten und Eigenschaften von Qualitätsdefinitionen. Nach diesem statischen Blick auf die Thematik ergänzt Kapitel 5 weitere Aspekte wie Arbeitsteilung, Bezugsgrößen von Qualitätsdefinitionen im Internet, negative Qualität, Eigenschaftserkennung, Wissensquellen sowie den Prozess der Qualitätsbestimmung. 4.1 Rahmen für Qualitätsdefinitionen Qualität ist damit ein schwer zu fassendes Konzept1. Darin ähnelt es dem verwandten Begriff der Relevanz. Möglicherweise haben wir es analog zu dem Relevanz-Paradox auch mit einem Qualitäts-Paradox zu tun. Je mehr wir uns der „wirklichen“ Qualität nähern wollen, desto weniger können wir sie messen bzw. überhaupt erfassen. Diese Meinung vertreten auch die Entwickler der meisten Prototypen zur automatischen Qualitätsbewertung, die sich mit 1 „Mit Qualität wird oft etwas durchgängig Hochwertiges bezeichnet. Man spricht von einer 'guten Qualität' bzw. generell von Qualität, Qualitätsarbeit, Qualitätsprodukt, und so weiter. ... Umgangssprachlich und in Redewendungen spricht man von ’ausgezeichneter Qualität’ oder von ’schlechter Qualität’. In dieser Hinsicht ist Qualität ein mit Wertungen verbundener Begriff, der die Zweckangemessenheit eines Ergebnisses menschlicher Arbeitstätigkeit bzw. der Beschaffenheit eines Produktes oder einer Dienstleistung zum Ausdruck bringt. ... Ein Produkt hat eine exzellente Qualität, wenn die Ansprüche des Kunden mit der Leistung des Produkts möglichst genau übereinstimmen. Die Qualitätsansprüche eines jeden Verbrauchers können hier allerdings völlig verschieden sein.“ (http://de.wikipedia.org/wiki/Qualit%C3%A4t) 85 Qualität von Internet-Angeboten der Bestimmung der Qualität von Informationsobjekten im Internet befassen1. Dieser Abschnitt stellt drei Rahmen für Qualitätsdefinitionen für Information vor, die auf unterschiedlichen Ebenen ansetzen. Der Ansatz von PRICE & SHANKS 2004 und PRICE & SHANKS 2005 stellt einen theoretischen Rahmen dar, der auf der Semiotik aufsetzt und Qualität auf die drei Ebenen Syntax, Semantik und Pragmatik bezieht. Vor allem die Pragmatik ist bedeutsam für die weitere Diskussion. Die Orientierung einer Definition zwischen den Polen objektiv, subjektiv, Produkt, Produktion sowie Wert lässt sich mit dem Rahmen von MARCHAND 1990 beschreiben. Der Bezug von Informationsqualität und entsprechenden Kategorien wird an dem komprimierten und für Web-Angebote gut geeigneten Rahmen von HUANG ET AL. 1999 sichtbar. Einen theoretischen Rahmen für Informationsqualität aus der Perspektive der Entscheidungsunterstützung mit Fokus auf numerischen Daten und Datenbankmodellen stellen PRICE & SHANKS 2004 und PRICE & SHANKS 2005 vor. Sie bauen ihr Modell auf der Theorie der Semiotik auf, nach dem ein Zeichen eine syntaktische, eine semantische und eine pragmatische Ebene bezieht. Die Syntax beschreibt Beziehungen zwischen den Daten, die Semantik betrifft die Übereinstimmung zwischen realer Welt und den repräsentierten Informationen, während die pragmatische Ebene die Information in ihrer Anwendung behandelt. Die pragmatische Qualitätsdefinition fragt, ob Information für eine gewünschte Anwendung geeignet ist und diese Anwendung unterstützt. Auf den Ebenen der Syntax und der Semantik erfordert die Qualität eine hohe Übereinstimmung zwischen definierten Anwendungen und den Daten, welche sich für Stichproben genau messen lässt. Auf der Ebene der Pragmatik wird die Qualität nur aus Sicht des Benutzers bestimmt. Das Ziel des Qualitätsmanagement besteht in der Verringerung der Kluft zwischen erwarteter und wahrgenommener Qualität durch den Benutzer. Dieser aus der Theorie der Semiotik entwickelte Rahmen für die Betrachtung der Qualität geht konform 1 So bezweifeln z.B. AMENTO ET AL. für den Bereich des Internet, „whether a shared notion of quality even exists“ (AMENTO ET AL. 2000:296) und glauben, es sei „difficult to give a precise definition“ (AMENTO ET AL. 2000:296). Die Vielschichtigkeit betonen Capiello et al. 2004: „Data quality is a multidimensional concept and it can be evaluated through different criteria“ (CAPIELLO ET AL. 2004:69). KUHLEN 2000 führt aus: „Rating ist die Einschätzung und Bewertung von Informationsobjekten bezüglich der Qualität ihrer Inhalte und somit die Basis für Filtern und Blocken. Im Rating, sei es intellektuell oder maschinell durchgeführt, liegt der Sprengstoff, da die zum Einsatz kommenden Bewertungsverfahren zwangsläufig, implizit oder explizit, subjektive Interessenslagen oder bestimmte Wertesysteme widerspiegeln, die kaum intersubjektiv gültig sein können.“ (KUHLEN 2000:371f) 86 Qualität von Internet-Angeboten mit der pragmatischen Perspektive der Informationswissenschaft, welche auch die Anwendung des Systems und dessen Benutzer in das Zentrum stellt (KUHLEN 1999). Auf die Schwierigkeiten der Messung der Wahrnehmung weisen PRICE & SHANKS 2004 ebenfalls hin. Während Qualität auf den Ebenen Syntax und Semantik auf der Basis theoretischer Modelle zum Teil nach objektiven Maßstäben erfasst werden kann, erfolgt die Messung auf der pragmatischen Ebene empirisch und hängt völlig vom subjektiven Urteil des Benutzers ab (PRICE & SHANKS 2004:664). Diesen Forderungen trägt die Evaluierung des hier vorgestellten Systems AQUAINT Rechnung, indem dort das Urteil des Benutzers in einer konkreten Anwendungssituation erfasst wird (siehe Kapitel 13). Die detaillierten Kriterien und PRICE & SHANKS 2005 orientieren sich stark am Anwendungsfall Management-Informationssysteme zur Entscheidungsunterstützung. Für allgemeine Ansätze im Internet sind sie weniger geeignet. Aus informationswissenschaftlicher Sicht und für die weitere Diskussion ist die pragmatische Ebene bedeutsam. Die syntaktische und semantische Qualität bilden das Fundament für Informationsprodukte. Sie sind meist die notwendige Voraussetzung für die positive Wahrnehmung durch den Benutzer. Für die weitere Diskussion ist vor allem die pragmatische Ebene bedeutsam. Einen tragfähigen Rahmen für die Analyse der Orientierung unterschiedlicher Qualitätsdefinitionen liefert MARCHAND 1990. Er erkennt fünf typische Ansätze für die Definition von Informationsqualität: • Transzendent: Dieser Ansatz setzt eine objektive und absolute Qualität voraus, die universell gültig ist. • Benutzer-orientiert: Dieser Ansatz betont die Subjektivität der Qualität und stellt sie in den Kontext der jeweiligen Situation des Benutzers. • Produkt-orientiert: Das Informationsprodukt und seine Eigenschaften stehen im Fokus dieser Ansätze, die davon ausgehen, dass Qualität weitgehend messbar und quantifizierbar ist. • Produktions-orientiert: Im Mittelpunkt steht hier der Prozess der Erstellung des Produktes. Qualität besteht in der Abdeckung des vorab festgelegten Pflichtenhefts. • Wert-orientiert: Neben die positiven Eigenschaften treten hier die Kosten des Informationsprodukts. Qualität ist die Suche nach einer optimalen Balance zwischen den beiden Forderungen. 87 Qualität von Internet-Angeboten Diese obigen fünf Ansätze rekurrieren laut MARCHAND 1990 unterschiedlich stark auf die folgenden Dimensionen der Qualität von Information: • Tatsächlicher Wert (beim Treffen einer Entscheidung) • Wahrgenommener Wert • Zuverlässigkeit (vor allem der Quelle) • Validität (der präsentierten Informationen und der benutzten Methoden) • Bedeutung über die Zeit hinweg • Relevanz (für die vom Benutzer vorgegebenen Kriterien) • Ästhetik (subjektive Wahrnehmung des Produkts) Im Zentrum der aktuellen Diskussion zur Qualitätsbewertung im Internet stehen vor allem benutzer-orientierte und produkt-orientierte Ansätze. Wenig Definitionsversuche fußen auf transzendenten, produktions- und wertorientierten Vorstellungen. Die in der Einleitung zu diesem Kapitel zitierte ISO-Norm stellt eine produkt-orientierte Definition dar (ISO 8402 1986). Produktions-orientierte Definitionen besitzen für die interne Betrachtung der Entwicklung eines Informationsproduktes einen Wert. Bei der Qualität im Internet, um die es hier vorwiegend geht, spielen solche Überlegungen aber aus pragmatischer Perspektive kaum eine Rolle. Informationsqualität bezieht sich angesichts des Informationsüberflusses im Internet auf die Wahrnehmung konkurrierender Angebote durch den Benutzer. Ebenso spielt der wertorientierte Ansatz im weitgehend kostenfreien Internet lediglich auf die Zeit bezogen eine Rolle. Unter dem Schlagwort Informations-Qualität wird häufig die Qualität von firmeninternen Informationen und Datenbanken diskutiert. HUANG ET AL. 1999 legen eine systematische Zusammenstellung von vier Kategorien und dazugehörigen Dimensionen der Informations-Qualität vor. Diese bietet sich auch für die Diskussion der Qualität von Internet-Angeboten an. 88 Qualität von Internet-Angeboten Tabelle 4.1: Die vier Kategorien der Informationsqualität: intrinsische Qualität, Kontext, Darstellung und Zugang (HUANG ET AL. 1999:43) IQ Category IQ Dimensions Intrinsic IQ Accuracy, objectivity, believability, reputation Contextual IQ Relevancy, value-added, timeliness, completeness, amount of information Representational IQ Interpretability, ease of understanding, representation, consistent representation Accessibility IQ Access, security concise In der informationswissenschaftlichen Perspektive steht der Benutzer im Zentrum der Qualitätsdefinitionen. Damit gewinnen die kontextuellen Faktoren Gewicht und die Qualität rückt stärker in Richtung Relevanz. Der folgende Abschnitt diskutiert die Abgrenzung zwischen Relevanz und Qualität und zeichnet den Verlauf der Grenze zwischen der intrinsischen und der kontextuellen Kategorie der Qualität. Die meisten Autoren, die im weiteren Verlauf noch diskutiert werden, stellen produkt-orientierte Ansätze vor und identifizieren unterschiedliche Eigenschaften von Angeboten, die bei der Bewertung der Qualität eine Rolle spielen. Jedoch stellen die Autoren oft als Maßstab oder gewissermaßen als Präambel eine benutzer-orientierte Perspektive in das Zentrum, die sich bei der Definition einzelner Produkt-Eigenschaften wiederspiegelt. Im Internet kann sich die Qualität sowohl auf den Inhalt eines Informationsobjektes beziehen, als auch auf ein Informationssystem welches Informationsobjekte (andere Internet-Seiten) dynamisch erzeugt (dynamische Website) oder das dynamisch (Suchmaschine) oder statisch (Linksammlung) auf andere Informationsobjekte verweist. Demnach kann Qualität im Internet sowohl die Güte des Inhalts als auch die Güte eines Informationssystems etwa hinsichtlich Funktionalität, Geschwindigkeit oder Gebrauchstauglichkeit meinen (siehe Abschnitt 4.4.4). Die obigen Definitionen betrachten Qualität als sehr vielschichtiges Phänomen, das sich dynamisch verändert, kontextabhängig ist und subjektiv geprägt 89 Qualität von Internet-Angeboten ist1. Dies wirkt sich in der vorliegenden Arbeit vor allem auf die Evaluierungsmethodik aus. Die Vielschichtigkeit drückt sich in der Forschungsliteratur auch darin aus, dass der Begriff Qualität nicht immer explizit genannt wird, wenn er oder einer seiner Facetten untersucht wird. Häufig ist auch von der Wichtigkeit oder der generellen Bewertung die Rede. Die Begriffe Wichtigkeit und Qualität werden sogar als Synonyme betrachtet2. Auch wenn von Autorität oder Reputation die Rede ist, bleibt unklar, ob hier lediglich dieser Aspekt von Qualität gemeint ist oder ob globale Qualität lediglich durch diese Begriffe ersetzt wurde. Das Ziel bildet also nicht eine ohnehin nicht zu erreichende Objektivität, sondern gewissermaßen Intersubjektivität und somit eine möglichst hohe Übereinstimmung zwischen individuellen, subjektiven Urteilen. Weitgehende Übereinstimmung wird jedoch häufig verfehlt. Dies gilt selbst für intensiv bearbeitete Bereiche wie etwa die Bewertung wissenschaftlicher Forschungsanträge, bei dem eine gründliche Analyse und eine möglichst objektive Entscheidung angestrebt wird3. Die Umsetzung dieser Definitionsrahmen in konkrete Kriterienlisten stellt Abschnitt 4.4 vor. Der folgende Abschnitt vertieft die Differenzierung zwischen Qualität und Relevanz, welche auch bei pragmatischen Qualitätsdefinitionen bestehen bleibt. 4.2 Qualität vs. Relevanz Die benutzer-orientierten Ansätze der Informationsqualität ähneln dem Relevanzbegriff der Informationswissenschaft. Deshalb erscheint zunächst die Abgrenzung des Qualitätsbegriffs vom Konzept der Relevanz besonders wichtig. Diese Unterscheidung wird auch in der Literatur häufig vorgenommen, es werden jedoch nicht immer Gründe angegeben4. Teilweise werden die Relevanz oder synonyme Begriffe mit Qualität gleichgesetzt. DHYANI ET 1 „The quality of a web site inherently is a matter of human judgement“ (AMENTO ET AL. 2000:296). „different factors will affect different users’ perception of the quality of an internet source” (COOKE 1999:15). 2 „ ... higher quality or more important pages“ (PAGE ET AL. 1998:2) 3 Der Biologe Regan stellt fest, dass auch bei dieser Form der Bewertung die intellektuelle Qualitätskontrolle einen Zufallsfaktor beinhaltet. „Very good applications are turned down at one meeting of a committee that might well be recommended for funding at another meeting. There is a random element“ (REGAN 2000:507) 4 „We treat quality and relevance as distinct notions, rather than viewing quality just as an aspect of relevance judgements“ (AMENTO ET AL. 2000:296). 90 Qualität von Internet-Angeboten AL. 2002 diskutieren Relevanz und Qualität unter dem gemeinsamen Oberbegriff Signifikanz1. Die Abgrenzung von Qualität zur Relevanz ist problematisch und sicher nicht immer eindeutig. Beide Konzepte vermischen sich im Sprachgebrauch. Als relevant wird ein Informationsobjekt bezeichnet, wenn es für die Lösung eines akuten Informationsproblems gebraucht werden kann. Dies ist aber nur eine mögliche Definition. Mizzaro merkt in einem Überblicksartikel zur Geschichte der Forschung über Relevanz an: „There are many kinds of relevance, not just one“ (MIZZARO 1997:811). Zur Stützung dieser These baut Mizzaro mehrere Skalen auf, welche mehrere Arten von Relevanz beschreiben. Die wichtigste Dimension bestimmt, ob Relevanz system- oder benutzerorientiert erfasst wird. Die in der realen Situation entscheidende Stufe ist die des Problems des Benutzers, für das eine Lösung gesucht wird. Daneben kann Relevanz aber auch auf der Stufe des Informationsbedürfnisses erfasst werden, die eine mentale Repräsentation des Problems darstellt. Als die Anforderung beschreibt Mizzaro die natürlichsprachliche Formulierung des Informationsbedürfnisses, während die Anfrage die Umsetzung der Formulierung in die Sprache und Syntax des Systems meint2. Während eine Bewertung der Relevanz auf der Problem-Stufe sehr stark pragmatische Faktoren berücksichtigen muss, ist eine Analyse auf Ebene der Anfrage eher formal orientiert. Empirische Studien, die den Vergleich von Information Retrieval-Systemen zum Ziel haben, setzen meist auf der letzten Stufe der Anforderung ein, indem sie formulierte Anforderungen zu fiktiven Informationsproblemen vorgeben3. Der Ausgangspunkt für die Zuordnung von Relevanz ist demnach ein Informationsprozess aufgrund eines Informationsproblems. Dagegen lässt sich Qualität unabhängig von einem konkreten Informationsproblem und einer damit verbundenen Suche zuweisen. Diese Zuordnung gelingt zwar sicher nicht objektiv, aber jedes Subjekt kann von einem konkreten Informationsbedarf abstrahieren und die Qualität von Wissen aus ihrem Blickwinkel bewerten. 1 „The significance of a web page can be viewed from two perspectives – its relevance to a specific information need, such as a user query, and its absolute quality irrespective of particular user requirements.” (DHYANI ET AL. 2002:476) 2 Im Original bezeichnet der Autor die vier Stufen wie folgt: problem, information need, request und query (MIZZARO 1997:811). 3 So gehen die drei großen internationalen Evaluierungsstudien zum Information Retrieval vor, nämlich TREC, CLEF und NTCIR (siehe KLUCK ET AL. 2002, siehe Anschnitt 2.4). 91 Qualität von Internet-Angeboten Pragmatische Faktoren verlieren für die Qualitätsbewertung gegenüber der Relevanzbewertung etwas an Gewicht. So wird ein bereits bekanntes Dokument meist als nicht relevant eingestuft, da es keine neuen Erkenntnisse bringt. Dagegen verändert sich die Qualität eines Dokuments nicht bei einem häufigeren Zugriff, wenn auch der Neuigkeitswert sicher häufig einen Aspekt einer Qualitätsdefinition darstellt. Diese Abkoppelung von Relevanz und Qualität verstärkt sich bei der alltäglichen Nutzung von Informationssystemen. Der Benutzer von elektronischen Umgebungen in der Freizeit sucht sowohl nach Unterhaltung als auch nach handlungsrelevanter Information. Mit zunehmender Nutzung von Informationssystemen im Alltag gewinnt der Aspekt der Unterhaltung an Bedeutung. Nicht zuletzt deshalb untersuchen AMENTO ET AL. 2000 in ihrer Studie zur Qualität von Internet-Angeboten Seiten aus dem Unterhaltungsbereich, insbesondere Sites über populäre Musik und Fernsehprogramme. Gleichwohl besitzt auch die Qualität pragmatische Aspekte. Eine Seite oder ein Angebot ist dann von guter Qualität für einen Benutzer, wenn es für die spezifischen Bedürfnisse angepasst ist. Manche Qualitätsdefinitionen ähneln den Relevanz-Definitionen1 und andere Publikationen umgehen den Qualitätsbegriff und sprechen von den wirklich relevanten Seiten2. Die Abgrenzung von Relevanz und Qualität wird bei der Bewertung von Prozessen und Informationssystemen im Internet deutlich schwieriger. Die Schwierigkeit zur klaren Trennung von Relevanz und Qualität ist bei der Planung von Experimenten bedeutend. Für den Benutzer ist die Unterscheidung zwischen Relevanz und Qualität sehr schwierig, wenn er InternetAngebote bewerten soll. Werden von einem Benutzer nur Relevanzurteile verlangt, dann ist zu erwarten, dass diese Relevanzurteile bei großen Qualitätsunterschieden, wie sie im Internet vorkommen, von der Qualität mit beeinflusst werden. Benutzertests sollten daher eine heuristische Definition vorsehen, welche die Unabhängigkeit der Qualität von einer Anfrage mit einbezieht. 1 „How well does this document/site address your problem or meet your information need?“ (WILKINSON ET AL. 1998) 2 „to better identify the truly relevant pages” (ARASU ET AL. 2001:3) 92 Qualität von Internet-Angeboten 4.3 Bezugsgröße von Qualität Weiterhin unterscheiden sich Relevanz und Qualität in den bewerteten Objekten. Relevant kann ein kleiner Teil eines Dokuments sein. Diese Sichtweise wird in den Ansätzen des Passage Retrieval (KUHLEN & HESS 1993) und des Question Answering (HARABAGIU & MOLDOVAN 2003) deutlich, welche sich mit der Extraktion von kleinen und kleinsten Einheiten aus Dokumenten befassen. In der Regel und meist aus heuristischen Gründen wird die Eigenschaft aber einem vollständigen Dokument oder einer Zusammenfassung zugeschrieben. Im Internet entspräche dem Dokument die Seite (Page). Entscheidend ist natürlich wiederum der Kontext des Informationsprozesses. Im Verlauf des Prozesses muss sich die Handlungsrelevanz für den Benutzer ergeben1. Dagegen erscheint Qualität als ein übergreifenderes Konzept, das größeren Einheiten zugewiesen werden kann. Man spricht seltener von der Qualität eines Abschnitts und von der Relevanz eines Angebots als umgekehrt. Die Qualität eines vollständigen Angebots wird nach anderen Kriterien bewertet als die Qualität einer einzelnen Seite. Aspekte der Interaktion spielen bei der Qualität eine größere Rolle. Seite und Site sind beides rein technisch definierte Größen. Eine sinnvolle Informationseinheit kann technisch kaum erfasst werden. Diesen Versuch unternehmen NIE ET AL. 2005. Sie weisen darauf hin, dass Organisationen, Forschungsaufsätze oder Konferenzen sinnvolle Einheiten sind, die aus unterschiedlich vielen Seiten zusammengesetzt sein können und die über Sites verteilt sein können. Allerdings erweist sich die Erfassung als sehr schwierig. Wie oben bereits erwähnt, berücksichtigt die Qualitätsbewertung im Internet sowohl die Qualität eines Informationsobjektes, als auch die von Informationssystemen, die nach einer Interaktion neue Seiten erzeugen oder Informationssysteme, die auf andere Seiten verweisen. Solche Seiten, die hauptsächlich der Informationsvermittlung dienen, bezeichnet man häufig als Hubs (Knotenpunkte). Mit der Bewertung von Hubs tritt die Qualitätsbewertung in die Nähe der Informationsressourcen-Bewertung, die sowohl aus der Perspektive des Information Retrieval (cf. GÖVERT 1995, NOTTELMANN & FUHR 1 Mizzaro sieht drei Ebenen als potentielle Ziele einer Aussage über Relevanz: „Document, the physical entity“, „Surrogate, a representation of a document“ und „Information, what the user receives when reading a document“ (MIZZARO 1997:811). Den letzten entscheidenden Aspekt beschreiben Meadow & Yuan als den Zeitpunkt, „ … when a reader ingests the content into his or her own knowledge structure“ (MEADOW & YUAN 1997:697) 93 Qualität von Internet-Angeboten 2005) als auch aus Sicht des Informationsmanagement (cf. RITTBERGER 1994) untersucht wird. Damit kann sich das Konzept Qualität auch auf Prozesse beziehen. Die Qualität einer Diskussionsgruppe oder einer kollaborativen Umgebung lässt sich sinnvoll nur unter Berücksichtigung des Prozesscharakters bewerten. Ebenso kann die Qualität von Abbildungsprozessen analysiert werden, wie etwa die der Repräsentation oder Surrogat-Bildung1 oder die Qualität der Inhaltserschließung in Form einer Indexierung. Eine weitere Form der Inhaltserschließung stellt das Clustering dar, das auch Gegenstand einer Qualitätsaussage sein kann2. Damit zählt auch die Bewertung von RetrievalProzessen zur Qualitätsbewertung im Internet. Suchmaschinen lassen sich in diesem Kontext als dynamische Hubs interpretieren. Die vorliegende Arbeit beschränkt sich in der Diskussion und Implementierung im Wesentlichen auf die statische Qualität einzelner Seiten, da dies momentan für ein umfassendes System den einzig gangbaren Weg darstellt. Zwar wäre die Identifiktation von sinnvollen Objekten vorteilhaft (NIE ET AL. 2005), jedoch sind die Verfahren dafür noch kaum erprobt. 4.4 Facetten von Qualitätsdefinitionen Neben der benutzer-orientierten Qualität mit ihrer Nähe zur Relevanz erscheinen in der Forschungsliteratur besonders produkt-orientierte Ansätze. Dieser Abschnitt referiert einige Ansätze, die sich auf das Internet und Eigenschaften von Web-Seiten beziehen. Produkt-orientierte Definitionen versuchen, Eigenschaften von Informationsprodukten aufzulisten, welche die Qualität besonders beeinflussen. Alle Definitionen von Qualität umfassen mehrere Facetten, um das Phänomen adäquat zu beschreiben. In unterschiedlichen Anwendungsgebieten werden manche dieser Facetten mehr oder weniger wichtig sein3. Als Rahmen für die Vorstellung der Facetten unterschied- 1 Damit ist v.a. die Abbildung des Inhalts eines vollständigen Dokuments (häufig der Volltext) auf eine kurze Fassung gemeint. 2 Die Qualität von Clustern kann über z.B. durch das Berechnen der cluster utility automatisch berechnet werden. Die cluster utility gibt an, inwieweit Objekte mit ähnlichen Eigenschaften in gemeinsamen Clustern liegen. Dazu wird die Wahrscheinlichkeit berechnet, mit er sich aufgrund der Clusterzugehörigkeit eine Objekts eine Aussage über seine Attributwerte machen lässt (WITTEN & FRANK 2000:236 ff.) 3 „The critical issue in evaluating quality of a Web page is to select the quality criteria“ (ZHU & GAUCH 2000:289). 94 Qualität von Internet-Angeboten licher Definitionen dienen die vier oben vorgestellten Kategorien für Informations-Qualität von HUANG ET AL. 1999:43: intrinsische Qualität, Kontext, Darstellung und Zugang. Als Ausgangspunkt für ihre Überlegungen bemängeln die Autoren meist die niedrige Qualität von Internet-Dokumenten1. Ein wichtiges Kriterium, das häufig aufscheint, ist die Richtigkeit der veröffentlichten Informationen2. Zahlreiche Checklisten für die intellektuelle Prüfung der Qualität von Internet-Quellen stammen aus der Bibliothekswissenschaft3. Darin kommen am häufigsten Kriterien zur intrinsischen Qualitätsbestimmung wie Autorität und Korrektheit vor. Ein typisches Beispiel legt Beck 1997 vor: Die Liste umfasst “criteria of Accuracy, Authority, Objectivity, Currency, Coverage“4 Neben wissenschaftlichen Definitionen finden sich auch Hinweise von Praktikern. Zahlreiche Internet-Verzeichnisdienste nehmen für sich in Anspruch, aus dem umfangreichen Angebot an Seiten die qualitativ besten auszuwählen. Die verwendeten Kriterien bleiben aber meist vage5 und die Definitionen verweisen eher auf transzendente Ansätze. 1 Die schlechte Qualität von Internet-Dokumenten bemängeln etwa BAEZA-YATES & RIBEIRO-NETO 1999:368. Sie weisen auf ein Spektrum von Problemen hin, das von zahlreichen Rechtschreibfehlern über stilistische Schwächen bis zu unwahren Aussagen reicht. 2 WEINSTEIN & NEUMANN 2000 werten falsche Informationen als ein großes Risiko im Internet und halten fest: „False infomation abounds, either accidentally or with evil intent“ 3 Eine Liste legt etwa Laura Boyer vor: http://wwwlibrary.csustan.edu/lboyer/webeval/webeval.htm 4 http://lib.nmsu.edu/instruction/evalcrit.html 5 So heißt es zum Beispiel bei Yahoo-Deutschland lediglich: Das Internet-Verzeichnis „wird erstellt von unserem Redaktionsteam, welches deutsche Web-Sites sichtet, die Besten auswählt und thematisch sortiert in Kategorien einträgt. Die Yahoo! Redakteure berücksichtigen dabei eine ganze Anzahl von Faktoren.“ (cf. http://eur.help.yahoo.com/help/de/dir/dir-01.html). Der Dienst DMoz schreibt über seine freiwilligen Redakteure: „These citizens can each organize a small portion of the web and present it back to the rest of the population, culling out the bad and useless and keeping only the best content.“ (http://dmoz.org/about.html). Trotz der unklaren Qualitätsdefinitionen gilt es als weitgehend akzeptiert, dass Seiten aus Web-Verzeichnissen qualitativ hochwertig sind (cf. z.B. CRASWELL & HAWKING 2003:3). 95 Qualität von Internet-Angeboten 4.4.1 Kriterien für Qualität Dieser Abschnitt behandelt Kriterien innerhalb von Qualitätsdefinitionen und deren Problematik. Das folgende typische Beispiel zeigt zunächst, dass intrinsische Aspekte die Kriterien-Listen dominieren. Die Betreiber eines Clearinghouse für Asian Studies schlagen folgende Kriterien für die Bewertung von Quellen durch Benutzer vor: • • • • • • „current factually accurate clearly attributed to a particular author and his/her institution annotated supported by adequate references, and ample“1 Interessant an dieser Liste ist vor allem der Aspekt der eindeutigen Zuordnung zu einem Autor und dessen Institution. Dahinter verbirgt sich die plausible Annahme, dass ein Autor sich mehr um Qualität bemüht, wenn er später klar als Autor erkennbar ist und dass innerhalb einer Institution eine Form der Qualitätskontrolle stattfindet. Die folgende Definition für Informationsqualität enthält dagegen zunächst kontextabhängige Kriterien und erst an dritter und vierter Stelle erscheinen intrinsische Aspekte. • • • • • • 1 „Aktualität Relevanz Richtigkeit/Wahrheit Sachlichkeit Verständlichkeit Überprüfbarkeit“ (PANTELIC & PAYER 2001:323) CIOLEK, Matthew (2001): Content rating of sites listed by the Asian Studies WWW Virtual Library. http://coombs.anu.edu.au/WWWVLAsian/VLRating.html (verifiziert am 8.11.2001) 96 Qualität von Internet-Angeboten An einigen Beispielen soll im Folgenden die Problematik der Kriterienlisten dargestellt werden. Die Kriterien lassen sich intellektuell kaum anwenden und sind stark kontextabhängig. Eine umfangreiche Liste von Kriterien legen OLIVER ET AL. 1997 vor, merken aber an, dass eine Liste mit 125 Indikatoren kaum zu handhaben ist. Deshalb führten sie eine Untersuchung mit erfahrenen Internet-Benutzern durch und forderten diese auf, die wichtigsten Indikatoren zu nennen und diese den Kategorien information quality und site quality zuzuordnen. Das Ergebnis löst die Widersprüche und Schwächen der Prüflisten für die intellektuelle Bewertung der Qualität nicht auf. Die wichtigsten Indikatoren für information quality sind organizational scheme, Aktualität, errors or misleading omissions, Verknüpfungen und Name des Autors. Als relativ unwichtig gilt dagegen: „Is the document designed to meet individual audience needs“. Der Name des Autors ist natürlich nur ein sinnvolles Kriterium, wenn der Name dem Benutzer bekannt ist und seine Kompetenz bereits evaluiert wurde. Dies kann aber nur von einem Experten in dem Gebiet erwartet werden. Zahlreiche weitere Definitionen in Form von Checklisten liegen vor allem aus dem Umfeld der angloamerikanischen Bibliotheks- und Informationswissenschaft vor1. Eine kurze Liste von Kriterien legen WILKINSON ET AL. 1998 mit einem einseitigen Fragebogen vor, der zur Bewertung von Dokumenten im Internet eingesetzt werden soll. Er sieht vier umfassende Kriterien vor, für die Umsetzung jedes einzelnen liegen vier Fragen vor. Die generellen Kriterien lauten: credibility, organization, links und graphics. Hypertext-Verknüpfungen spielen in anderen Kriterienlisten eine untergeordnete Rolle, bei der automatischen Bewertung stellen sie jedoch das aktuell am meisten verwendete Kriterium dar. Deshalb sollen die detaillierten Fragen zu Links aus der Liste von WILKINSON ET AL. 1998 hier aufgeführt werden. • „Do the links show evidence of careful selection and/or evaluation? • Are the links relevant and appropriate to the topic of the document? • Are links described so that you know what you are linking to? 1 COOKE 1999, JARDINE 1997, FRANCO & PALLADINO 1999, sowie http://lii.org/search/file/pubcriteria, http://wwwlibrary.csustan.edu/lboyer/webeval/webeval.htm, http://jimmy.qmuc.ac.uk/jisew/ewv24n3/, http://lernundenter.com/interaktion/qualitaet/homepage/startseite.htm 97 Qualität von Internet-Angeboten • How reliable are the links (are there inactive links)?“ (WILKINSON AL. 1998) ET Auf diese Fragen kann der Benutzer an sich nur sinnvoll antworten, wenn er alle Links verfolgt und die Ziel-Seiten wiederum bewertet. Nach den vier Fragen soll der Benutzer daraus abschließend sein overall rating ableiten, dessen einzige Frage stark an die oben diskutierten Definitionen von Relevanz erinnert: „How well does this document/site address your problem or meet your information need?“ (WILKINSON ET AL. 1998). Dazu soll eine Abschätzung auf einer Skala von eins bis fünf abgegeben werden. WILKINSON ET AL. 1998 offenbaren hier eine sehr kontextabhängige Perspektive bezüglich der Qualität. Diese Frage ähnelt aufgrund der Erwähnung der besonderen Weise der Erfüllung eines Informationsbedürfnisses der Arbeitsdefinition am Beginn dieses Kapitels. 4.4.2 Autorität Die Autorität stellt in den meisten Definitionen und Checklisten das zentrale Qualitätsmerkmal eines Internet-Angebots dar. Autorität ist häufig geradezu ein Synonym für die intrinsische Qualität eines Angebots. Die Autorität wird häufig mit Objektivität assoziiert, welche in vielen Definitionen vorkommt. Allerdings kann auch Subjektivität positiv belegt sein. Als Beispiele nennen PRICE & SHANKS 2004 die subjektiv geprägte Texte von Managern, welche Prioritäten festlegen (PRICE & SHANKS 2004:659). Autorität oder Zentralität ist ein Konzept, das aus der Szientometrie stammt. Formal bedeutet Zentralität die Anzahl der Knoten, zu denen Links bestehen. Obwohl der Qualitätsbegriff bezogen auf Forschungsleistungen schwer zu fassen ist (cf. z.B. GÜDLER 1996:6) versucht die Szientometrie bzw. die Bibliometrie zentrale, von vielen anderen anerkannte wissenschaftliche Leistungen und deren Verfasser zu identifizieren (BALL & TUNGER 2005, siehe Abschnitt 7.2). Die Anerkennung drückt sich in erster Linie in Zitaten aus und lässt sich somit nicht völlig von der Popularität trennen. Eine große Schwäche dieses Ansatzes besteht darin, dass nur historisch akzeptierte Qualität gemessen wird. Qualitativ hochstehende, innovative Ansätze, die in den ersten Jahren nach ihrer Entstehung kaum beachtet werden1, kann die Biblio- 1 Als Beispiel kann etwa die Fuzzy Logic dienen, die von Lofti Zadeh bereits in den 60er Jahren formuliert wurde (cf. ZADEH 1965), sich aber erst in den 80er Jahren etablieren 98 Qualität von Internet-Angeboten metrie nicht angemessen würdigen. Neuere Ansätze in der Szientometrie zielen darauf ab, den Vernetzungsgrad und die Entwicklung von Disziplinen transparent zu machen1. Zahlreiche Autoren übertragen den Begriff Autorität auf das Internet2. Das Konzept Authority aus der weitgehend englischsprachigen Literatur beinhaltet Konnotationen wie Ansehen, Einfluss und wissenschaftliches Renommee. Auch der PageRank-Algorithmus der Suchmaschine Google basiert auf der Annahme, dass Seiten mit hoher Autorität für den Informationssuchenden sinnvoller sind. PageRank weist daher den Seiten höhere Relevanz zu, auf die viele Links verweisen. MEADOW & YUAN 1997 nennen einige Attribute von Information, die qualitative Aspekte beinhalten: „Reliability of content. Synonyms or nearsynonyms [of] reliability include: accuracy, veracity, credibility, correctness, and validity“ (MEADOW & YUAN 1997:707f.). Als konkreten Maßstab für Zuverlässigkeit nennen sie weiter frühere Erfahrungen mit dem Anbieter3. Diese Auflistung zeigt, dass Autorität auch mehrere Aspekte umfasst. Eine umfassende semantische Analyse von authority legen FRITCH & CROM4 WELL 2001 vor. Zunächst sehen sie drei Typen von Autorität : • Kognitive Autorität • Administrative Autorität • Institutionelle Autorität Cognitive Authority steht nach FRITCH & CROMWELL 2001 in einem engen Zusammenhang mit Glaubwürdigkeit, die sich wiederum aus Kompetenz und Vertrauenswürdigkeit zusammensetzt. Um Quellen aus dem Internet zu bewerten, entwerfen die Autoren ein Modell, welches das Dokument, den Aukonnte, um dann ab 1992 einen regelrechten Boom zu erleben (cf. ZIMMERMANN 1999:6). 1 So zeichnet beispielsweise eine Studie von GÜDLER 1996 die Entwicklung der deutschen Medienwissenschaft über acht Jahre hin nach. 2 Einen Überblick über die Diskussion zu Authority und Quality bietet RIEH 2002. 3 „Reliability of source. ... This may be actually a rating of the previous conent reliability from this source“ (MEADOW & YUAN 1997:708). 4 „ … different basic types of authority, such as cognitive authority (influence on thoughts), administrative authority (influence on actions), and institutional authority (influence derived from institutional affiliation)“ (FRITCH & CROMWELL 2001:499). 99 Qualität von Internet-Angeboten tor, die Institution und deren Verbindungen und Beziehungen kombiniert (FRITCH & CROMWELL 2001:502). Um dies bereits hier vorweg zu nehmen, die verschiedenen Typen von Autorität werden in den Systemen zur Linkanalyse nicht unterschieden, dort wird versucht, eine globale Form der Autorität zu erfassen. Lediglich der Ansatz von KLEINBERG 1998 kennt neben der Authority noch einen Hub-Wert eines Dokuments, der die Autorität als Wegweiser für andere Seiten misst. Der Hub-Wert entspricht gewissermaßen der Qualität der Seite als Vermittler oder Bibliothekar. Der Anspruch, der sich in diesem Wert ausdrückt, liegt nicht in den eigenen Inhalten, sondern der Kenntnis qualitativ guter Quellen (siehe auch oben). Diese Vermittler-Autorität lässt sich in obiges Schema von FRITCH & CROMWELL 2001 nicht einordnen, sie stellt eine Facette dar, die in allen drei Typen vorliegen kann. Aufgrund der technischen Grundlagen im Internet kommt ihr hohe Bedeutung zu, sie ist durch die formal leicht erkennbaren Links einfach zu messen. Häufig oder laufend nachgewiesene Autorität führt zu einem guten Ruf, einer hohen Reputation. Diese Reputation überträgt sich nach KEAST ET AL. 2001 auch auf Angebote im Internet und ihre Wahrnehmung liefert für Suchprozesse einen erheblichen Mehrwert1. Sie definieren den Erwerb von Reputation aber nicht als einen anhaltenden Prozess, sondern sehen darin lediglich Autorität und Vertrauenswürdigkeit (KEAST ET AL. 2001:77). Ihr Experiment vergleicht mehrere Suchdienste daraufhin, ob Versuchspersonen den Treffern hohe Reputation zuschreiben2. Dazu bewerten 22 Testpersonen die Ergebnisse von fünf Suchdiensten hinsichtlich Vertrauen, Autorität und zusätzlich der thematischen Relevanz. Darunter waren der intellektuell erstellte Katalog von Yahoo, AltaVista und Lycos als Standard-Suchmaschinen sowie die Systeme Google und Topic, welche Linkanalysen integrieren. Die Studie umfasst aber das Thema Film-Besprechungen, zu dem lediglich siebzehn Angebote verglichen wurden. Dabei ergaben sich fast keine Unterschiede zwischen der Bewertung von Vertrauenswürdigkeit und Autorität, jedoch erhebliche Differenzen zur thematischen Relevanz (aboutness). Insgesamt zeigte sich kein Unterschied zwischen Diensten mit menschlicher Beteiligung und rein maschinell arbeitenden Systemen. Zwischen den Typen von Diensten konnten ebenfalls keine Unterschiede erkannt werden, Topic und 1 „To date the evaluation of results has been based primarily on the relevance and ‘aboutness‘ of a site to a query. Equally valuable to the user is the perceived reputation or trustworthisness of the content.“ (KEAST ET AL. 2001:77). 2 „Do certain types of tools yield sites that are perceived more reputable – authoritative and trustworthy – than others? (KEAST ET AL. 2001:77). 100 Qualität von Internet-Angeboten AltaVista erzielten hohe Glaubwürdigkeit, Lycos und mit Google wieder ein link-basierter Ansatz dagegen niedrigere Trust-Werte. Nur ca. ein Drittel der betrachteten Angebote insgesamt wirkt so gut auf die Testpersonen, dass sie diese weiterempfehlen würden. Dies deckt sich mit den Ergebnissen einer völlig anders angesetzten Studie, bei denen die Testpersonen ebenfalls nur einem Drittel der Angebote hohe Qualität zusprachen (AMENTO ET AL. 2000:301), während beim TREC Web Track ein verschwindend geringer Anteil als qualitativ hochwertig eingestuft wurde1. Wie dieses Experiment und die Definition von FRITCH & CROMWELL 2001 zeigen, ist die Autorität eng mit der Vertrauensproblematik verknüpft. Autorität kann als eine Facette von Vertrauen (trust) betrachtet werden. Die Aussage eines Nobelpreisträgers wirkt auf viele Menschen sehr glaubwürdig (face committment). Interessanterweise überträgt sich diese Glaubwürdigkeit auch auf andere Bereiche und so wird von Trägern herausragender Preise oft auch besonderes gesellschaftliches Engagement erwartet. Hier wird die Glaubwürdigkeit instrumentalisiert und auf Fragen ausgedehnt, an denen Menschen eigenes Interesse haben. Dahinter steht möglicherweise ein ökonomisches Prinzip der menschlichen Kognition. Da jeder Mensch nur eine begrenzte Anzahl von Autoritäten intensiv kennen lernen und sich von ihrem hohen Kenntnisstand überzeugen kann, traut man solchen Menschen auch in anderen Gebieten viel zu. Die Werbung nutzt solche Übertragungsmechanismen gezielt und transformiert die Fähigkeiten populärer Werbeträger aus deren Kompetenzfeldern auf die Kompetenz zur Produktauswahl. Im Internet finden ebenfalls Übertragungsprozesse statt. Kennt man Institutionen oder Personen bereits außerhalb des Internet und vertraut ihnen, so wird man auch ihren Internet-Angeboten Vertrauen entgegenbringen. 4.4.3 Zeitliche Aspekte Zeitliche Kriterien tauchen sehr häufig als Qualitäts-Kriterium auf. Besonders die Aktualität und der Neuigkeitswert werden genannt2. Gerade Nachrichten oder auch wissenschaftliche Publikationen veralten schnell und die aktuel- 1 Die Relevanz- und Qualitätsbewertung für den Web Track erbrachte lediglich einen sehr geringen Anteil an sehr guten Angeboten (cf. CRASWELL & HAWKING 2002, siehe auch Abschnitt 7.10). 2 Zhu und Gauch schlagen sechs Kriterien für Qualität vor und stellen die Aktualität an den erste Stelle: „currency, availability, information–to-noise ratio, authority, popularity, and cohesiveness“ (ZHU & GAUCH 2000:288) 101 Qualität von Internet-Angeboten leren Texte gelten als relevanter oder als qualitativ hochwertiger1. Teilweise wird bemängelt, dass sich viele Internet-Seiten nicht verändern. Daneben gilt jedoch auch gerade das Gegenteil als erstrebenswert. Allgemeingültigkeit und Konstanz werden ebenfalls genannt2. Hier tritt das Dilemma der Checklisten also auch deutlich zu Tage. Soll die Dauerhaftigkeit positiv oder negativ für eine Seite gewertet werden? Sicher soll eine Site nicht verschwinden, aber wenn sich eine Nachrichtenseite nicht verändert, dann wird Konstanz zu einem erheblichen Nachteil. Im Sinne unserer Arbeitsdefinition lässt sich die Zeit als Qualitätskriterium besser fassen. Demnach bedeutet Qualität eines Internet-Dokuments, dass es ein Informationsproblem in besonderer Weise löst. Für zeitliche Aspekte kann dies konkretisiert werden und bedeutet die Lösung eines Informationsproblems mit möglichst wenig Zeitaufwand. Nachteil dieser Perspektive besteht darin, dass sich dieser Zeitaufwand kaum erfassen lässt, während das Alter eines Dokuments sich relativ einfach automatisch bestimmen lässt. Eine frühe Publikation kann aber auch auf Qualität hinweisen, wenn ein Text einen Fachbegriff zum ersten Mal benutzt und ihn damit prägt. Solche klassischen Artikel wie etwa der erste Artikel über Hypertext gelten als sehr relevant und werden häufig zitiert. Die Benutzung eines zur Zeit sehr häufig benutzten Modebegriffs kann dagegen als Mitreiten auf einer Welle interpretiert werden. BERLEANT 2000 stellt fest, dass Förderanträge, die vor der deadline eingereicht wurden, eine höhere Förderungswürdigkeit aufwiesen, als in letzter Minute eingereichte. Das Parallelerscheinen eines elektronischen Wissensprodukts als traditionelles Printprodukt kann ebenfalls als ein starker Hinweis auf hohe Qualität betrachtet werden. Zwar mag dahinter auch der Wunsch nach hoher Verbreitung stehen, der besonders bei politischen oder agitatorischen Texten aber auch bei Dokumenten allgemeinen Interesses wie Gesetzestexten im Mittelpunkt steht. Besonders jedoch bei Büchern in Fachverlagen findet Qualitätskontrolle statt, hinter der ökonomische Interessen stehen. Gerade dieses wirtschaftliche Gewinnstreben verhindert aber häufig die Bereitstellung von 1 Viele Suchsysteme nutzen das Alter eines Dokuments als Kriterium für das Ranking und präsentieren dem Benutzer zuerst die aktuellsten Ergebnisse (z.B. ACM Digital Library, http://www.acm.org/dl). 2 So nennen HUANG ET AL. 1999:43 „timeliness“ explizit als Beispiel eines kontextabhängigen Kriteriums. 102 Qualität von Internet-Angeboten bereits gedruckten und damit teueren Wissensprodukten in freien Internetdiensten, auf die uneingeschränkte Qualitätsbewertungen i.d.R. zugreifen. Sämtliche kommerziellen und kostenpflichtigen Angebote können von einer auf das gesamte Internet abzielenden Qualitätsbewertung nicht einbezogen werden. Die kostenpflichtigen Angebote begründen die Kosten natürlich v.a. mit ihrer hohen Qualität, was in einem gewissen Umfang auch sicher zutrifft, so dass sich hier eine Möglichkeit zur Sammlung von Trainingsdaten mit bekannt guter Qualität ergibt. Mit hoher Sicherheit liefern kostenpflichtige Dienste eine gute Kategorisierung, da sie vom Dokumenttyp meist sehr homogen sind. Das Parallelerscheinen eines elektronischen Wissensprodukts als traditionelles Printprodukt kann zwar auf hohe Qualität hinweisen, es wirft aber für ein automatisch funktionierendes System einige Hürden auf. Die Anzahl von entsprechenden Dokumenten dürfte eher niedrig sein und das Erkennen durch automatisierte Verfahren ist schwierig. Einen anderen Wege geht die Internet-Computerzeitschrift Tecchannel, die i.d.R. nur online erscheint. Eine Auswahl von Beiträgen, hinter der sicher v.a. von Qualitätskriterien für diesen Anwendungsfall stehen, erscheint mehrmals jährlich als gedruckte Zeitschrift. 4.4.4 Gebrauchstauglichkeit Neben der intrinsischen Qualität und der kontextabhängigen Qualität spielt die Darstellung und Präsentation der Information eine wichtige Rolle. Im Mittelpunkt dieser Kategorie steht die Gebrauchstauglichkeit, die schon in Kapitel 1 ausführlich erläutert wurde und hier nur kurz aufgegriffen wird. Die zentrale Frage lautet: Lässt sich die enthaltene Information überhaupt rezipieren und aufnehmen? In der Kategorisierung von HUANG ET AL. 1999:43 erscheint dieser Aspekt als representation. Diese Aspekte spielen gerade im Internet eine wichtige Rolle. Konkretere Ausprägungen nennen AMENTO ET AL.: „Major factors influencing quality judgements include site organisation and layout, as well as quantity and uniqueness of information“ (AMENTO ET AL. 2000:296). Die sinnvolle Einteilung von Wissen in einzelne Teile und deren zusammenhängende Darbietung ist sicherlich ein entscheidender Faktor für die Qualität, der im Internet wichtig ist und teils durch automatische Verfahren analysiert 1 http://www.tecchannel.de 103 Qualität von Internet-Angeboten werden kann. Eng mit Organisation und Strukturierung hängt die Navigation zwischen unterschiedlichen Wissenseinheiten zusammen. Verstöße gegen Erkenntnisse aus der Mensch-Maschine-Interaktion können dazu führen, dass Information kaum oder nur sehr schlecht wahrgenommen werden kann. So werden etwa zu kleine Schriften eingesetzt oder Farbkombinationen für Hinter- und Vordergrund verwendet, die aufgrund der Eigenschaften der menschlichen Wahrnehmung kaum erkannt werden. Erstaunlicherweise kommen solche Verstöße noch relativ häufig vor, obwohl entsprechende einfache Richtlinien vorliegen. Eher selten werden sprachliche Eigenschaften wie klare Formulierungen genannt, ein möglicher Grund liegt in der stark individuellen Einschätzung vermutet: „Clarity. Comprehensibility. This is clearly an attribute that will vary with the individual reader“ (MEADOW & YUAN 1997:708). Allerdings gilt dies ebenso für viele andere Aspekte. 4.4.5 Wirtschaftliche Aspekte In den 1990er Jahren vollzog sich eine Kommerzialisierung des Internet. Somit beeinflussen auch wirtschaftliche Überlegungen die Qualitätsdiskussion und zwar auf sehr unterschiedliche Weise. Zum einen mag der wirtschaftliche Erfolg als Qualitätskriterium dienen. Die Definition von Qualität bei SPILIOPOULOU ET AL. basiert auf wirtschaftlichen Faktoren aus der Perspektive des E-Commerce: „we propose a methodology of assessing the quality of a web site in turning its users into customers“ (SPILIOPOULOU ET AL. 2000:142). Dahinter verbirgt sich zunächst die Sichtweise des Anbieters, der wirtschaftlichen Erfolg erzielen will. Es ist jedoch zu vermuten, dass dieser Erfolg auch mit der subjektiven Einschätzung des Benutzers korreliert, da er die Qualität – aufgrund welcher Faktoren auch immer – so hoch einschätzt, dass er dem Angebot vertraut und sogar in eine Geschäftsbeziehung mit dem Anbieter eintritt und somit zum Kunden wird. Wichtiger Maßstab ist also die Benutzungshäufigkeit. Die Analyse der entsprechenden Anforderungen an E-Commerce-Angebote im Internet berücksichtigt vor allem das Rückkehr-Verhalten von Benutzern1. Zwar 1 „Retaining customer loyalty is crucial in electronic commerce because the value of an Internet store is largely determined by the number of its loyal customers“ (LEE ET AL. 2000:305). 104 Qualität von Internet-Angeboten setzen sich am Markt bestimmte Produkte aus den verschiedensten Gründen durch, gleichwohl spielt bei dem hohen Maß von Transparenz im Internet auch die Qualität eine Rolle. Die wirtschaftliche Qualität von InternetAngeboten bewerten auch Ansätze des Web Measurement, welche sich bemühen, den Erfolg von Internet-Werbung durch die Anzahl der Rezipienten dieser Werbung zu messen (cf. BÜRLIMANN 2001). Daneben kann auch der finanzielle Aufwand für die Erstellung eines Angebot ein Maßstab sein. Finanzielle Mittel werden in Organisationen meist erst nach Kontrolle der Qualität gewährt. Indikator für einen hohen finanziellen Aufwand eines Angebotes könnte hohe technische Professionalität sein. Zwar ist der Aufwand für die Erstellung von vielen Internet-Angeboten sehr hoch, dies bedeutet aber keineswegs, dass für ein Angebot eine Benutzungsgebühr zu entrichten ist oder dass damit überhaupt kommerzielle Interessen verfolgt werden. Kommerzielle Interessen gelten für viele Kriterienlisten als Hinweis für mangelnde Objektivität1. Auch das Browsing interpretieren manche Autoren aus wirtschaftlicher Perspektive. Dabei stellt jede Aktion einen Aufwand oder Preis dar, den der Benutzer mit dem Wert der Seite vergleicht. Je nach Höhe des vermuteten Wertes weiterer Seiten bricht der Benutzer die Aktion ab oder verfolgt weitere Verbindungen (cf. HUBERMAN ET AL. 1998:95, CHI ET AL. 1998, siehe auch Abschnitt 5.4). 4.4.6 Technische und Software-Qualität Die Diskussion zur Qualität von Informationssystemen setzt auch oft auf der Ebene der Programmierung an2. Diese Ebene deckt sich weitgehend mit der syntaktischen und teils mit der semantischen Ebene des in Abschnitt 4.1 vorgestellten Rahmens von PRICE & SHANKS 2004. Auch derartige Definitionen sollen hier vorgestellt werden. Die DIN-Norm stellt folgende Qualitäts-Teilmerkmale für Software-Produkte vor (DIN 66272 1994:Anhang 1): • Funktionalität • Zuverlässigkeit 1 In der Kriterienliste des Dienstes Librarians‘ Index to the Internet heißt es: „We do not include sites that are purely commercial with no informational content“ (http://lii.org/search/about). 2 Einen Überblick bieten PUNTER & LAMI 1998. 105 Qualität von Internet-Angeboten • • • • Benutzbarkeit Effizienz Änderbarkeit Übertragbarkeit BRAJNIK 2001 stellt eine Studie vor, in der er die Qualität von WebAngeboten aus der Definition der Qualität von Software allgemein herleitet. Dabei stehen technische Aspekte der Qualität des Quellcodes der InternetSeiten im Mittelpunkt, während inhaltliche Aspekte eine nachgeordnete Rolle spielen. Der Autor sieht die Anwendung einer Internet-Seite als den entscheidenden Faktor für mögliche Definitionen von Qualität, er interpretiert die Anwendung aber sehr breit und betrachtet auch die Warte des Entwicklers als eine Sichtweise1. Insgesamt stellt BRAJNIK 2001 drei mögliche Perspektiven für die Erfassung der Qualität vor: • Task-related Factors (Inhalt, Präsentation, Funktionalität, Navigation und Wirkung) • Performance-related Factors (response time, transaction throughput, reliability and robustness) • Development-related factors Die ersten Faktoren stehen im Zentrum der in den vorigen Abshcnitten angestellten Überlegungen, während die zweite Gruppe von Faktoren typisch für diesen Abschnitt ist. Die dritte Gruppe leitet BRAJNIK 2001 aus der Forschung zur Qualität von Software allgemein ab und behandelt sie in seiner praktischen Untersuchung: • • • • • • 1 „code complexity code reliability code flexibility portability page coupling modifiability“ (BRAJNIK 2001:2) „In fact, for a website there can be as many views of its quality as there are usages“ (BRAJNIK 2001:2). 106 Qualität von Internet-Angeboten Bei Definitionen der Qualität von Software steht häufig die produktionsorientierte Perspektive im Sinne von MARCHAND 1990 im Zentrum. Die ISO 9126 Definition für die Qualität von Software ist sehr allgemein gehalten. Sie besteht in der „totality of features an characteristics of a software product that bear on its ability to satisfy stated or implied needs“ (BRAJNIK 2001:2). In dieser Allgemeinheit lässt sie sich natürlich auch auf mit der hier vorgestellten Ansicht in Einklang bringen, die nächste Ebene der Spezifizierung zeigt jedoch die Intentionen dieser Definition. Folgende Faktoren konstituieren die technische Komponente der Qualität: • Reliability • Efficiency • Maintainability • Portability (BRAJNIK 2001:2) Auch den Aspekt der Entwicklung berücksichtigt Brajnik. Er entwickelt „quality models in the development and maintenance processes“ (BRAJNIK 2001:1) und untersucht dazu den Quellcode von Internet-Seiten auf Mängel bei der korrekten Anwendung von HTML. Die erarbeiteten Maßzahlen ermöglichen Anbietern die Bewertung ihrer Seiten und können zu der Einsicht führen, dass die Prozesse bei Erstellung und Pflege verbessert werden müssen. Aus der Perspektive des Benutzers kommt diesen Aspekten der Qualität Bedeutung zu. Wie bereits erwähnt, bilden die semantische und syntaktische Ebene die Grundlage, ohne die eine pragmatische Bewertung der Qualität nicht möglich wird. Die Qualität und Korrektheit einer Information kann ein Benutzer nur bewerten, wenn ein System nicht aufgrund mangelhafter Programmierung Schwächen aufweist. Faktoren des Software Engineering bilden nur die Basis für die Qualität von Internet-Angeboten aus Perspektive des Benutzers. Bedeutend sind für den Benutzer im Internet auch technische Faktoren, die eher die Hardware betreffen. Lange Download-Zeiten sind ein häufig genanntes Manko. Noch ist nicht klar, ob dieses Problem durch die stark anwachsenden Bandbreiten unerheblich wird oder ob dieser positive Effekt durch eine noch erheblich stärker steigende Nutzung aufgehoben wird Die Sicherheit und Zuverlässigkeit von Servern (DUSTIN ET AL. 2002) und anderen Netzwerkkomponenten, die Diskussion über Quality of Services bei Netzwerkdiensten bis hin zur Zuverlässigkeit von Telekommunikations107 Qualität von Internet-Angeboten Unternehmen spielen hier eine Rolle. So bieten viele Download-Angebote, bei denen eine Datei von mehreren Servern geladen werden kann, einen Mehrwert an, indem sie die Erreichbarkeit und die technische Leistungsfähigkeit der Server anzeigen. Für den Benutzer kann dies eine kürzere Zeit für den Download bedeuten. Dies ist ein Beispiel für die automatische Qualitätsbewertung, die in diesem Fall einfach realisierbar ist. In HTML gibt es Vorgaben, die nicht unbedingt eingehalten werden müssen, um eine interpretierbare und damit darstellbare Seite zu erzeugen. Dazu gehört etwa die Größenangabe für Grafiken oder das Einfügen von MetaDaten1. Diese Robustheit der Sprache HTML und der darstellenden Browser ist eine der Stärken des Internet. Trotzdem existieren Werkzeuge, welche Seiten auf solche Probleme überprüfen. In einer Pilotuntersuchung testet BRAJNIK 2001 fast 9000 Seiten mit einem Prüfprogramm, das zwölf Regeln überprüfte2. Dabei fanden sich in über 6500 Seiten Probleme dieser Art, wobei das Fehlen von Meta-Daten mit über 73% der häufigste Fehler war3. Nach einer automatisch von dem Prüfprogramm erzeugten Meldung an die Webmaster wurden viele der Probleme behoben, wie sich in einem zweiten Test der Seiten zeigte. Nach der Studie sehen die Seiten aus Sicht des Benutzers im Wesentlichen gleich aus, so dass sich die Frage stellt, inwieweit die Qualität tatsächlich erhöht wurde. Solche leichten Fehler lassen auf einen wenig professionellen Umgang mit HTML schließen, der sich nicht auf die Qualität aus Benutzersicht auswirken muss, aber kann: • Direkte Wirkung: Die zusätzlichen, aber nicht unbedingt erforderlichen Angaben können für den Benutzer einen Mehrwert bilden, wenn etwa eine Grafik nicht schnell genug geladen wird, aber an einem Text erkannt werden kann, was erscheinen soll und ob es sich demnach lohnt darauf zu warten. Ähnliches gilt für die nicht unbedingt erforderliche Angabe der Größe einer GIF-Datei. 1 Weitere Beispiele sind ein korrekter String für die Angabe der Farben für Hintergrund und Schrift, Links auf die Seite selbst, Vorhandensein des „NOFRAMES“ Tags und die Verwendung anderer als der Standard-Farben für besuchte und noch nicht besuchte Links (BRAJNIK 2001:8). 2 LIFT, erhältlich unter http://www.usableweb.com 3 Eine Untersuchung von STROETGEN 2002 für sozialwissenschaftliche Fachliteratur im Internet ergab einen ähnlich niedrigen Anteil von ca. 30%. Demnach vergeben auch die Autoren wissenschaftlicher Internet-Seiten nicht häufiger Meta-Daten als andere Autoren. 108 Qualität von Internet-Angeboten • Indirekte Wirkung: Fehler im Quellcode verweisen auf Probleme im Entwicklungsprozess, die sich zwar momentan noch nicht auf die Darstellbarkeit auswirken, aber bald dazu führen können. Durch die Übernahme durch einen anderen Entwickler oder den Umstieg auf einen anderen Editor können aus den bisher verzeihbaren Mängeln schnell ernste Probleme erwachsen. Damit ist die Untersuchung von BRAJNIK 2001 für die Diskussion um die Qualität durchaus relevant, allerdings wirkt sich mangelnde Qualität im Entwicklungsprozess nur geringfügig auf die vom Benutzer wahrgenommene Qualität aus. Von den untersuchten Regeln hat das Fehlen von Meta-Daten, also vom Autor selbst vergebener Schlagwörter noch den stärksten inhaltlichen Bezug. Es wirkt sich aber wenn überhaupt höchstens auf die Auffindbarkeit der Seite aus und nicht auf die vom Benutzer wahrgenommene Qualität. Abschließend bleibt festzuhalten, dass Internet-Angebote zwar unter den Begriff Software eingeordnet werden können, dass dafür aber andere Qualitätsmerkmale angebracht sind. Diese bewegen sich meist auf der syntaktischen und semantischen Ebene, während die pragmatische Ebene hier im Mittelpunkt steht. 4.4.7 Interkulturelle Unterschiede Die Kriterien, ihre Gewichtung und allein die Häufigkeit ihres Vorkommens hängt von der Kultur ab. Kulturen lassen sich anhand von Kulturdimensionen einordnen (HOFSTEDE & HOFSTEDE 2005, TROMPENAARS & HAMPDENTURNER 1997), die auch in diesem Fall einen guten Ausgangspunkt darstellen. So erfordern besonders Kulturen mit niedrigem Kontext und hoher Unsicherheitsvermeidung konkrete Checklisten. Beides trifft in hohem Maße für die USA zu. Dagegen kommunizieren Kulturen mit hohem Kontext zu einem Teil implizit und vermitteln Bedeutung durch in der Kultur bekannte Signale wie Verhalten, Status oder Kleidung. In solchen Kulturen suchen die Benutzer auch in Informationssystemen in stärkerem Maße nach Anhaltspunkten für die eigene Bewertung, während Mitglieder einer Kultur mit niedrigem Kontext explizite Anleitung bevorzugen. Mit aus diesem Grund stammen die mit Abstand meisten der Kriterienlisten aus den USA. Die Tabelle 4.2 zeigt eine Sammlung von Qualitätskriterien und deutet an, wie unterschiedlich diese bewertet werden. 109 Qualität von Internet-Angeboten Tabelle 4.2: Qualitätskriterien aus dem anglo-amerikanischen Raum (aus RADFORD ET AL. 2002:48) Rang Kriterium 1 2 3 3 4 4 5 6 7 7 7 8 8 8 9 9 9 9 9 9 10 10 10 10 10 10 10 10 Bias/purpose/objectivity Currency Author Publisher Credibility Accuracy Documentation Relevance to user Scope/ coverage Author´s authority Aesthetics / visual content Authority Intended Audience Clarity Appropiateness of format Navigation Site access and usability Validity Learning environment Information structure and design Academic credibility Content design and technical feature Date of creation Link to local pages Quality of links Reading levels Relation to other works Spelling Wichtigkeit des Kriteriums 17 13 12 12 10 10 6 5 4 4 4 3 3 3 2 2 2 2 2 2 1 1 1 1 1 1 1 1 Zwischen den Qualitätsdefinitionen in verschiedenen Kulturen bestehen ebenfalls erhebliche Unterschiede. DE LA CRUZ 2003 analysiert zahlreiche Quellen für Listen mit Kriterien zur Qualitätsbewertung von InternetAngeboten und fasst 17 Kriterienlisten aus den USA und 15 weitere Quellen aus dem deutschen, französischen und spanischsprachigen Raum zusammen. Diese umfangreiche Datensammlung zeigt die unterschiedliche Gewichtung der einzelnen Aspekte in Tabelle 4.3 und macht deutlich, dass Qualität im Internet von Autoren aus verschiedenen Kulturen ganz anders definiert wird. 110 Qualität von Internet-Angeboten 4.5 Fazit: Qualität von Internet-Angeboten Die Bedeutung von Qualität leisten Benutzer im Alltag ständig und häufig intuitiv. Jedoch zeigen die oben diskutierten Ansätze, dass Qualität ein sehr schwer zu definierendes und inhärent subjektives Konzept ist, das stark kontextabhängig ist. Für die qualitative Bewertung von Internet-Seiten liegen sowohl detaillierte Kriterienlisten vor als auch generelle und abstrakte Definitionen. Die einzelnen Kriterien in den Definitionen lassen sich in die vier Kategorien intrinsische Qualität, Kontext, Darstellung und Zugang (cf. HUANG ET AL. 1999:43) einordnen. Besonders schwierig ist die Abgrenzung zwischen intrinsischen und kontextabhängigen Faktoren. In engen Definitionen erscheint Qualität allein als intrinsische Eigenschaft, während andere Autoren die Kontextabhängigkeit und damit den Benutzer und seine Situation in das Zentrum rücken. Die Kontextabhängigkeit tritt häufig als Relevanz auf und somit dient die Diskussion über die Abgrenzung von Qualität und Relevanz als Modell für die Balance zwischen intrinsischen und kontext-abhängigen Faktoren. Dagegen erscheinen Darstellung und Zugang in den meisten Definitionen als sekundäre Aspekte. Bei ihnen bleibt jedoch die Ausprägung sehr umstritten und bei den konkreten Kriterien zu diesen Kategorien unterscheiden sich die Definitionen stark. 111 Qualität von Internet-Angeboten Tabelle 4.3: Kriterien aus verschiedenen Kulturen (aus DE LA CRUZ 2003:72) Zusammenstellung der Evaluierungskriterien aus verschiedenen deutschen Quellen Zusammenstellung der Evaluierungskriterien aus verschiedenen französischen Quellen 1. Abdeckung des Themas 1. Autorität (Coverage) 2. Korrektheit (Accuracy) 1. Abdeckung des Themas (Coverage) 3. Navigation 2. Aktualität 4. Angabe Zielgruppe 4. Aktualität 2. Struktur u. Design der Information 2. Objektivität 5. Hilfreiche Links 5. Objektivität 5. Autorität 2. Korrektheit (Accuracy) 3. Navigation 4. Verständlichkeit 5. Struktur u. Design der 4. Angabe Zielgruppe Information 5. Ästhetik der Web-Seite 5. Kosten der Information 6. Usability 5. Herkunftsland und Sprache der Information 6. Kontaktmöglichkeiten 6. Werbung getrennt von (Gästebuch, Foren, Information Chatroom, etc.) 6. Einmaligkeit 6. Lokale Suchfunktion in /Primärinformation Web-Site 6. Zugang 6. Peer Review (Experten Revision) 6. Verständlichkeit 6. Kontaktmöglichkeiten 6. Übersichtlichkeit 6. Zugang 6. Peer Review (Experten Revision) 6. Service (schnelle Antwort nach Anfragen) 6. Kurze Ladezeiten 6. Metainformation 112 Zusammenstellung der Evaluierungskriterien aus versch. Quellen Spanisch sprechender Ländern 1. Autorität 1. Navigation 1. Struktur u. Design der Information 2. Aktualität 2. Kontaktmöglichkeiten (Chatroom, Videoconference, etc.) 2. Zugang 3. Korrektheit (Accuracy) 3. Abdeckung des Themas (Coverage) 3. Multimedialität (Videos, Musik, Photos, etc) 3. Ästhetik 4. Service für den Nutzer (Hilfestellung) 4. Unterhaltungsmöglichkeiten 4. Interaktivität 4. Objektivität 6. Ästhetik 5. Sprache der Information 6. Lokale Suchfunktion in WebSite 7. Usability 6. Einmaligkeit 7. Einmaligkeit 7. Verständlichkeit 7. Kosten der Information 7. Hilfreiche Links 7. Wenig Werbung 7. Angabe Zielgruppe 7. Wap Access Qualität von Internet-Angeboten Eine intellektuelle Überprüfung nach den Kriterien ist meist nicht einfach. Eine ernsthafte Prüfung erfordert einen erheblichen Arbeitsaufwand, der einer Qualitätskontrolle im nachhinein gleichkommt. Gerade Laien in dem entsprechenden Fachgebiet können diese Aufgabe oft überhaupt nicht leisten. So gilt in vielen Prüflisten der Name des Autors als bedeutend. In einem völlig fremden Gebiet wird einem der Name des Autors bei der Bewertung nicht weiterhelfen, da man niemand kennt, der auf diesem Gebiet überhaupt tätig ist. Selbstverständlich nehmen Benutzer, die das Wissen an entscheidender Stelle einsetzen, darauf eine wichtige Entscheidung begründen oder ein Angebot häufiger besuchen wollen, diesen Aufwand zumindest teilweise auf sich. Andererseits wird niemand, der das Internet täglich nutzt, auf jede bisher unbekannte Seite einen umfangreichen Fragekatalog anwenden. Dieses Dilemma zeigt, wie hilfreich die automatische Qualitätsabschätzung ist. Eine weitere entscheidende Schwäche der zahlreichen Prüflisten liegt wie oben diskutiert darin, dass bei vielen Fragen nicht klar ist, welche Ausprägung positiv oder negativ ist. Für beides lassen sich Szenarien finden, was wiederum die mangelnde Kontextabhängigkeit der Regeln verdeutlicht. Ein wichtiger Aspekt in den meisten Qualitätsdefinitionen ist die Subjektivität der Qualität (PRICE & SHANKS 2005). Dies führt natürlich zu sehr heterogenen Ergebnissen über mehrere Benutzer hinweg1. Daneben zeigt sich häufig, dass die subjektive Zufriedenheit der Benutzer und die objektiv gemessene Leistung nicht immer übereinstimmen (z.B. FROKJAER ET AL. 2000). Auch bei der Qualitätsbewertung werden die Einschätzungen nicht immer mit objektiven Kriterien übereinstimmen. Die meisten Prüflisten und Definitionen zielen darauf ab, sehr gute Sites zu erkennen. Angebote mit sehr niedriger Qualität könnten teilweise sehr viel leichter und anhand weniger Regeln erkannt werden (siehe Abschnitt 5.2). Allerdings liegt bereits darin ein großer Mehrwert und die Chancen für eine automatische Erkennbarkeit liegen besser. Interessant ist nun die Umsetzung dieser Kriterien in den existierenden Systemen zur automatischen Bewertung von Internet-Quellen. Es wird sich zeigen, dass momentan meist nur sehr wenige Aspekte untersucht werden und einige der Facetten von Qualität überdurchschnittlich stark berücksichtigt werden. Besonders die Autorität wird aus der Tradition der Bibliometrie übernommen und angesichts ihrer zumindest oberflächlich betrachtet leichten Erkennbarkeit durch das Parsen von Hypertext-Verknüpfungen stark über- 1 "Many kinds of human judgement are intrinsically inconsistent" (MIZZARO 1997:814). 113 Qualität von Internet-Angeboten gewichtet. Wie Kapitel 7 noch zeigen wird, nutzt die Linkanalyse die Verfahren der Bibliometrie wenig kritisch und kaum differenziert. Das folgende Kapitel behandelt nun weitere Aspekte der Qualitätsthematik, bevor Teil II automatische Verfahren zur Qualitätsbewertung vorstellt. 114 Qualität im Kontext 5. Qualität im Kontext Nach den Qualitätsdefinitionen und den weitgehend statischen Aspekten der Qualitätsthematik rundet dieses Kapitel die Diskussion ab. Neben der Arbeitsteilung bei der Qualitätsbewertung wird vor allem der Prozess der Qualitätsbewertung und Wissensquellen behandelt. 5.1 Arbeitsteilung zwischen Mensch und Maschine Die Qualitätskontrolle übernahm bis vor kurzem ausschließlich der Mensch und ihm bleibt auch nach wie vor die endgültige Entscheidung vorbehalten. Vor allem aufgrund der großen zu bewertenden Mengen von Dokumenten ist kompetente und weitgehende maschinelle Unterstützung sinnvoll und wünschenswert. Zwischen menschlicher und maschineller Bewertung von Qualität liegen Mischformen. Die Bewertung kann zwischen Menschen und Computer aufgeteilt werden, wobei dem Computer zunehmend komplexere Teilaufgaben übertragen werden. Trivialerweise erweitert die weltweite Vernetzung durch den leichten Zugriff auf Wissensobjekte die individuellen Zugangsmöglichkeiten und damit die Chancen zur Bewertung. Bei kooperativen Qualitätsentscheidungen erhöht sich das Potential zur Verbesserung weiter. Bereits die weit verbreiteten Werkzeuge wie E-Mail ermöglichen schnellere Kommunikation und damit effizientere Kooperation. Ein Beispiel hierfür sind die Verbesserung und Erleichterung von wissenschaftlichen Review Prozessen1 oder von Communities getragene Diensten wie Wörterbücher. Daneben erleichtern Elemente von E-Commerce-Angeboten den Austausch von Qualitätsurteilen und die Diskussion darüber. 1 Eine wissenschaftliche Tagung, welche die Kommunikation im Rahmen des Review Prozesses schon seit längerem über das Internet abwickelt, ist die jährliche ACM CHI Conference on Human Factors in Computing Systems der ACM special interest group (SIG) zur Computer Human Interaction (CHI). Interessierte Personen können sich dort als Gutachter registrieren und in online-Formularen ihre Interessensprofile eingeben. Diese Profile werden automatisch mit den eingereichten Arbeiten abgeglichen. Die Reviewer können die Arbeiten dann online einsehen und ihre Bewertungen wiederum online abgeben. 115 Qualität im Kontext Solche Möglichkeiten bieten etwa Buchhändler1, die Werturteile direkt mit den Produkten verbinden oder Auktionshäuser2, die Bemerkungen zu den Anbietern ablegen lassen. Online-Auktionshäuser ermuntern Benutzer nach ihren Transaktionen zur gegenseitigen Bewertung. Dazu existieren bereits Agenten, welche etwa den Überblick über Bewertungen erleichtern oder diese auf ihre Konsistenz und Kohärenz überprüfen. Diese Ansätze führen bereits zu sozialen Formen der Qualitätsbewertung. Unter das Paradigma Social Navigation fallen Recomender-Systeme und Verfahren des kollaborativen Filterns (Collaborative Filtering), die zunehmend an Bedeutung gewinnen. Dabei ermöglichen Informationssysteme soziale Kooperation, wie sie in kleinen Gruppen stattfindet über große Entfernung und zwischen vielen Partnern. Erfasste Daten über die Benutzung oder Bewertung von Objekten werden in Zusammenhang mit der Ähnlichkeit von Benutzern ausgewertet. Gerade dabei spielt weniger die Relevanz als die Qualität oder Adaptiertheit von Wissen eine Rolle. Einen Schritt weiter gehen Seiten, in denen die Qualität durch die Benutzer explizit bewertet wird. Ein komplexes Beispiel für den effizienten Einsatz von menschlichen Qualitätsurteilen bietet der Entwurf des Projektes DESIRE (cf. BELCHER & PLACE 2000). Darin entstand ein Modell für die Beschreibung von Qualitätsurteilen, die von Experten gefällt und als Meta-Daten im RDFFormat3 abgelegt werden. Ein Ranking-Algorithmus eines Suchdienstes berücksichtigt diese Qualitätsbewertungen und stellt sicher, dass Dokumente mit hoher Qualität auch höhere Plätze im Ranking einnehmen. Eine Suchmaschine auf der Basis sozialer Zusammenarbeit stellen auch BAIER ET AL. 2004 vor. Benutzer wählen dabei Personen aus, deren Bewertungen sie vertrauen. Diese Bewertungen wirken sich in einer Meta-Suchmaschine auf das Ranking aus. Ein zusammengefasstes Qualitätsurteil aller als vertrauenswürdig eingestuften Benutzer bildet dann eine Grundlage für das Ranking der von einer Suchmaschine gefundenen Seiten (BAIER ET AL. 2004). 1 http://www.amazon.de 2 http://www.ebay.de 3 RDF steht für Resource Description Framework und ist eine wichtige Technologie für das Semantic Web (http://www.w3.org/RDF). 116 Qualität im Kontext 5.2 Negative Qualität Auch negative Qualität kann letztendlich nur jeder Benutzer individuell und subjektiv zuschreiben, so dass auch über schlechte Seiten kein Konsens erzielt werden kann. Allerdings gibt es Angebote, die von vielen Benutzern meist als negativ bewertet werden. Dazu zählt das Vortäuschen von nicht vorhandenen Inhalten (Spam)1 sowie problematische Inhalte wie pornographische und gewaltverherrlichende Darstellungen, die teilweise auch gesellschaftlich sanktioniert werden2. Das automatische Erkennen von Spam gilt gerade bei E-Mail als wünschenswert, hat jedoch auch bei Web-Seiten Bedeutung. Dementsprechend berücksichtigt die Evaluierung der Qualitäts-Suchmaschine AQUAINT auch diesen Aspekt (siehe Kapitel 11). Die Erkennung negativer Qualität bzw. sehr schlechter Seiten erfordert zum Teil die Berücksichtigung anderer Eigenschaften und Verfahren als das Erkennen sehr guter Seiten. Teilweise bieten bereits Betriebssysteme die Möglichkeit an, bestimmte Kategorien von Inhalten zu blockieren (KUHLEN 2000, siehe Abbildung 5.1). Dabei kommen einfache Mustervergleiche zum Einsatz und meist werden ganze Listen von URLs gesperrt. Die Gefahren dieser Technologien bestehen im Blockieren erwünschter Inhalte. Da die angewandten Verfahren nicht sehr stabil und ausgefeilt sind, kommt dies auch oft vor (NEUMANN & WEINSTEIN 1999). Abb. 5.1: Möglichkeiten zur Blockierung unerwünschter Inhalte in Windows 1 Eine umfassende Kategorisierung verschiedener Arten von Spam liefert THUROW 2003: 220ff. 2 Dies gilt beispielsweise beim Zugriff auf derartige Inhalte am Arbeitsplatz oder beim Zugriff durch Minderjährige. 117 Qualität im Kontext Unter negativer Qualität könnte auch das Problem des Plagiats eingeordnet werden. Dies stellt jedoch einen Sonderfall dar. Die technischen Möglichkeiten, sich fremdes geistiges Eigentum anzueignen und es selbst anzubieten, steigen mit dem Grad der Vernetzung, der Freiheit in einem Informationsraum und dessen Umfang. Rechtlich entstehen auch neue Schwierigkeiten. So ist unklar, wie etwa die Übernahme eines Layouts durch das Kopieren des HTML-Quellcodes zu bewerten ist (cf. z.B. SNAPPER 2001). Die Schwierigkeiten, Übernamen zu erkennen und zu bewerten, kann hier aber nicht ausführlich abgehandelt werden und spielt für AQUAINT keine Rolle. Weitere Probleme negativer Qualität und Lösungsansätze zeigt Abschnitt 8.6. 5.3 Erkennen von Eigenschaften (Qualitäten) Die Bedeutung von Qualität umfasst nicht nur Güte. Vielmehr kann Qualität auch Eigenschaft oder Beschaffenheit bedeuten, was besonders am Plural Qualitäten deutlich wird. Im Zentrum dieser Arbeit steht zwar der Aspekt der Güte, aber dieser steht auch in Beziehung mit der Qualität im Sinne von Eigenschaft. Bereits die Bestimmung der Eigenschaften, der Beschaffenheit eines Textes und daraus folgend seine Einordnung in eine Kategorie kann einen erheblichen Vorteil für Benutzer darstellen, die ihre Informationsarbeit auf eine Kategorie von Objekten beschränken möchten (Text-Kategorisierung, SEBASTIANI 2002). Beispielsweise kann ein Benutzer in einer bestimmten Situation nur Nachrichtentexte oder nur wissenschaftliche Texte sehen wollen. Dieses Bedürfnis versuchen im Internet spezialisierte Suchmaschinen zu erfüllen, die entweder nur eine intellektuell bestimmte Menge von Angeboten durchsuchen1 oder deren Crawler2 mit Heuristiken nur nach einer bestimmten Kategorie von Seiten suchen3. Im Internet steht hinter diesem 1 Nach diesem Prinzip arbeitet der auf deutsche Zeitungen spezialisierte Suchdienst Fireball (http://www.fireball.de). 2 Crawler oder Spider sind Agenten, die das Internet mit dem Ziel durchsuchen, möglichst viele Seiten zu erreichen. Dazu analysieren sie den Code der Seite, extrahieren die darin enthaltenen Verbindungen und steuern diese Seiten ebenfalls an. 3 Diese Methode wendet z.B. die Suchmaschine Scirus an um ausschließlich wissenschaftliche Informationen zu indexieren (http://ww.scirus.com). 118 Qualität im Kontext Vorgehen die Intention, den Suchraum von vorneherein einzugrenzen. Allerdings unterstützt die Kategorisierung von Seiten das Retrieval auch in anderer Hinsicht. Retrievalverfahren wirken bei verschiedenen Kollektionen und damit Texttypen unterschiedlich und erzielen teilweise völlig andere Ergebnisse (cf. z.B. WOMSER-HACKER 1997). Eine hinsichtlich des Typs homogene Kollektion erlaubt die Optimierung bzw. die optimierte Auswahl eines Information Retrieval-Systems. Die Zuordnung eines Dokuments zu einer Kategorie hat mehrere Ebenen und kann sich ebenso auf inhaltliche Aspekte wie Textgattung und Thema beziehen wie auch auf formale Dimensionen. Hierzu zählt also die Zuordnung zu einem Genre wie Zeitungstexte oder literarischer Texte, aber auch die Sprachidentifikation (ARTEMENKO & SHRAMKO 2005). Ein System von FINN ET AL. 2001 erkennt mit relativ gutem Erfolg in einem Korpus von Reuters-Nachrichtentexten, ob diese eher faktenvermittelnd oder meinungsorientiert sind. Dazu benutzt es lediglich eine Worttypen-Statistik, die auf einer Part-of-Speech (POS) Analyse beruht. Ein unüberwachtes Verfahren benutzt Text-Komplexität, Sonderzeichen, Satzzeichen, Stoppwörter sowie einige Tags, die in mehreren Datei-Formaten vorkommen. Die Text-Komplexität misst das System über die Satzlänge, Wortlänge und davon abgeleitete Größen. Ziel ist eine Benutzungsoberfläche, welche die Dokumente sowohl inhaltlich in einer zweidimensionalen Karte anordnet als auch den Dokument-Typ über die Farbe anzeigt (RAUBER & MÜLLER-KÖGLER 2001). Der Typ wird in dem nicht-überwachten System aber nicht klar zugeordnet und die Abbildung auf eine Farbe ist willkürlich und wohl für den Benutzer schwer verständlich. Das System DropJaw weist Internet-Dokumenten einen von elf vordefinierten Genres zu und bietet diese Information dem Benutzer beim Retrieval in Form von Dokument-Clustern an. Für die Genre-Identifikation erwähnen die Autoren stilistische Maße wie Häufigkeit von Pronomen, Passiv-Konstruktionen und Wortlängen-Verteilungen (KARLGREN ET AL. 1998). Ebenfalls als Ergänzung für das Information Retrieval dient ein System, welches strukturelle Eigenschaften von Web-Seiten für die Klassifikation in Genres nutzt. Die Beziehung zwischen Genre wie zum Beispiel Produktbeschreibung erfolgt über festgelegte Regeln. Zum Beispiel enthält eine Produktbeschreibung oft den Begriff Specification zwischen HTML-Tags (MATSUDA & FUKUSHIMA 1999). Feste Regeln erweisen sich aber häufig als zu unflexibel. Sprach- und Stil-Analysen sind sprachabhängig, müssen aber für die Qualitätsbewertung in Erwägung gezogen werden. 119 Qualität im Kontext 5.4 Prozess der Qualitätsbewertung Die intellektuelle Qualitätsbewertung von Internet-Seiten verläuft sehr individuell. Gleichwohl stellt RIEH 2002 ein tragfähiges Modell für diesen Prozess vor, das in einer qualitativen empirischen Untersuchung validiert wurde. Demnach verläuft der Prozess in zwei Schritten. Der Benutzer gibt zunächst ein vorhersagendes Urteil aufgrund erster Merkmale ab und bei genauerer Betrachtung verifiziert oder modifiziert er dieses Urteil in einem evaluierenden Schritt. Das Modell und einige Einflussfaktoren zeigt Abbildung 5.2 Die ersten Anzeichen sind Link-Texte, URLs, Titel und häufig daraus abgeleitete Informationen über die Quelle bzw. den Anbieter einer Seite. Fällt der erste vorhersagende Schritt positiv aus, dann wird eine Seite genauer evaluiert oder überhaupt erst aufgerufen. Die folgende Evaluierung orientiert sich stärker am Inhalt (RIEH 2002). Information in the Web page • Content • Source • Presentation • Format Predictive Judgement Action Judgement of IQ and CA • Goodness • Usefulness • Currency • Accuracy • Trustworthiness User • Task • Situation • Knowledge - First-hand Experience - Second-hand Knowledge Evaluative Judgement Predictive Judgement Iteration Abb. 5.2: Modell für den Prozess der Qualitätsbewertung (RIEH 2002:146) Diese Vorgehen lässt sich auch nach der Information Foraging-Theorie von PIROLLI & CARD 1995 einordnen. Demnach verhalten sich Benutzer des Internet bei der Informationssuche ähnlich wie Lebewesen bei der Suche nach 120 Qualität im Kontext Nahrung. Sie verfolgen Spuren, die auf reichhaltige Nahrungsquellen hinweisen, welche sich mit geringem Aufwand erreichen, erschließen und ausbeuten lassen. Qualitativ hochwertige Angebote mögen in diesem Modell den gleichen Nahrungswert besitzen wie andere Seiten, jedoch lässt sich die benötigte Information mit weniger Aufwand erreichen und extrahieren. So können zum Beispiel gute Sites so gestaltet und organisiert sein, dass der Benutzer die Information besonders schnell erkennt. 5.5 Wissensquellen für Qualitätsurteile Um automatische Verfahren zur Qualitätsbewertung auf der Basis menschlicher Urteile zu trainieren und zu evaluieren, sind umfangreiche Wissensquellen zur Qualität von Internet-Seiten erforderlich. Die folgenden Abschnitte stellen einige wichtige Quellen vor. 5.5.1 Benutzungsdaten Die Häufigkeit des Zugriffs auf eine Internet-Seite stellt die flüchtigste Form von Wissen über Qualität dar. Die Zugriffshäufigkeit kann am ehesten als Popularität bezeichnet werden. Grundsätzlich zeichnen Web-Server jeden Zugriff auf eine Seite auf. Somit liegt jede Aktion von Internet-Benutzern ohne Aufwand von Kosten in maschinell verarbeitbarer Form vor. Jedoch bleibt dieses Wissen über die zahlreichen Web-Server der Welt verteilt. Aus sozialen und organisatorischen Gründen erfolgt keine Zusammenführung dieser Daten. Kommerzielle Web-Server sind nicht daran interessiert, Konkurrenten ihre Zugriffszahlen zu offenbaren. Darüber hinaus wäre eine Veröffentlichung von Log-Dateien aus Datenschutzgründen problematisch, da sich damit die Zugriffe und somit das Informationsverhalten einzelner Benutzer ablesen ließe. Damit kann die Zugriffshäufigkeit praktisch nicht oder nur in sehr eingegrenzten Fällen für einzelne Server als Wissensquelle genutzt werden. Ein Beispiel stellt der Algorithmus von OZTEKIN ET AL. 2003 dar, der Zugriffsdaten und Link-Analyse verbindet. Dieses Usage Aware PageRank wird unten bei den Link-Analyse-Verfahren eingeordnet (siehe Abschnitt 7.6). Jedoch muss der Aufruf einer Seite keineswegs bedeuten, dass man diese als qualitativ hochwertig einschätzt. Der Aufruf einer Seite kann ganz andere Gründe haben wie etwa Bedienfehler oder eine falsche Interpretation der Link-Beschriftung. 121 Qualität im Kontext Die Log-Dateien geben nur ein ungefähres Bild von den Benutzeraktionen wieder, das für die Analyse der Mensch-Maschine-Interaktion oft unzureichend ist. Annäherungsweise lässt sich daraus die Zeit ablesen, die ein Benutzer auf einer Seite verbringt. Einige Forscher wie etwa MAYBURY 1999 gehen davon aus, dass diese Zeit als Maß für das Interesse an einer Seite geeignet ist. Eine wichtige Benutzeraktion im Bereich des Information Retrieval stellt die Auswahl eines Dokuments aus der Ergebnisliste dar. Klickt der Benutzer einer Suchmaschine in der Ergebnisansicht auf eine Ergebnisseite, so kann der Betreiber der Suchmaschine dies bei einer entsprechenden Implementierung aufzeichnen. Einige Ansätze werten dies als positives Relevanzurteil, welches der Benutzer implizit gibt. Der Vorteil dieser Interpretation der Benutzeraktion liegt in der Erhebung von Relevanz-Feedback ohne zusätzliche Belastung des Benutzers. Diesen Ansatz implementiert eine Suchmaschine von JOACHIMS 2002. Dabei werden die Auswahl-Aktionen des Benutzers („clickthrough data“) aufgezeichnet und als relatives Feedback interpretiert. Klickt der Benutzer auf eine Seite, so bewertet der Algorithmus die Relevanz dieser Seite für die Anfrage als höher als die Relevanz der nicht besuchten Nachbarseiten. Die Evaluierung vergleicht den Ansatz mit anderen Suchmaschinen. Maßstab bleiben jedoch die impliziten Benutzerentscheidungen, eine intellektuelle Überprüfung findet nicht statt, so dass die Evaluierung wenig valide ist. Die Interpretation der Auswahl als positives Feedback ist jedoch problematisch. Sie gibt letztendlich nur darüber Auskunft, dass bestimmte Dokumente wegen Titel und Kurzfassung nicht ausgewählt werden. Wie bei allen Log-Daten kann die Auswahl auf unterschiedliche Gründe zurückzuführen sein. Ein Vergleich mit dem üblichen Vorgehen bei explizitem Feedback zeigt dies deutlich. Die bei explizitem Feedback analysierten Dokumente erhalten bei binärer Bewertung je nach Einschätzung des Benutzers die Werte relevant oder nicht relevant, während die nicht bewerteten Dokumente als neutral betrachtet werden. Im Falle des obigen Ansatzes aber erhalten die angeklickten und damit implizit bewerteten Dokumente immer den Wert relevant und alle nicht betrachteten Dokumente den Wert nicht relevant. Letztendlich erhält also nur die Untermenge der explizit als relevant bewerteten Dokumente beim impliziten Feedback die gleiche Bewertung wie beim expliziten Feedback, während die anderen Dokumente völlig anders behandelt werden. Besonders deutlich wird die Problematik der Annahmen beim impliziten Relevanz-Feedback bei der Betrachtung des gesamten Information RetrievalProzesses. In dessen Verlauf wird das ursprüngliche Informationsbedürfnis 122 Qualität im Kontext durch Zwischenergebnisse modifiziert und der Benutzer durchläuft einen iterativen Prozess, in dessen Verlauf er meist mehrere Anfragen stellt. Erkennt z.B. ein Benutzer beim Betrachten des ersten Ergebnisdokuments, dass die von ihm gewählten Anfrage-Begriffe zu völlig unerwarteten Ergebnissen führt, so kehrt er möglicherweise direkt zur Anfrage-Seite zurück und formuliert die Query neu. Im Falle des impliziten Feedbacks wird das betrachtete Dokument, das zwar zu einem Wissensgewinn geführt hat („AnfrageTerm ist ungeeignet“), aber für das eigentliche Informationsbedürfnis völlig irrelevant war und explizit auch sicher so bewertet würde, als positives Beispiel interpretiert. Folglich sollten immer explizite Entscheidungen angestrebt werden. 5.5.2 Informationsarbeit durch Setzen von Links Wer häufig eine Seite benutzt, verweist möglicherweise in seinen eigenen Seiten mit einem Link darauf. Mit dieser Argumentation stellen die Vertreter der Link-Analyse Hypertext-Links in das Zentrum der Qualitätsbewertung. Demnach stellen Links in Web-Seiten die beste Annäherung für die Popularität einer Seite dar und werden in vielen Ansätzen als Qualitätsurteil gewertet1. Da Links im Internet frei zugänglich sind, lassen sie sich leicht für die globale Qualitätsbewertung heranziehen. Das Setzen von Verbindungen ist eine Form der Informationsarbeit, die sich in einer umfangreichen Wissensbasis niederschlägt2. Diese Wissensbasis nutzt die Link-Analyse aus (siehe Kapitel 7). So stellen Links die Grundlage für die wichtigsten momentan realisierten Qualitätsbewertungssysteme dar. Demnach verweist ein Link darauf, dass der Autor der Web-Seite das Ziel kennt und es als qualitativ gut einschätzt. Dazu gehören auch technische Aspekte; so wird man weniger oft einen Link auf eine Seite setzen, von der man vermutet, dass sie nicht mehr lange existiert. 1 „A simple means of measuring the quality of a Web page .... is to count the number of pages which have pointers to the page“ (KOBAYASHI & TAKEDA 2000) 2 Nach einer Schätzung von 1998 enthielten die damals 150 Millionen vorliegenden Internet-Seiten ca. 1,7 Milliarden Links (PAGE ET AL. 1998:3), demnach existieren etwa elfmal mehr Verbindungen als Seiten. Die Analyse von BRODER ET AL. 2000:1 zeigt einen Faktor von etwa eins zu acht (200 Millionen Seiten und 1,5 Milliarden Links), während die GOV Kollektion des Web Track von TREC, die bei einem Crawl im Jahr 2002 entstand, ca. 9 Links pro Seite aufweist. (1,24 Millionen Seiten zu 11,2 Millionen Links, CRASWELL & HAWKING 2003:2). 123 Qualität im Kontext Diese Sichtweise wird teils auch durch die deutsche Rechtssprechung gestützt. Demnach kann das Setzen eines Links rechtliche Folgen haben, wenn auf den verlinkten Seiten gegen Rechtsvorschriften verstoßen wird1. Zitat Verweis Navigation Beispiel Reklame <HTML> <HTML> Ähnlichkeit Ergänzung ... Suchergebnis Abb. 5.3: Gründe für das Setzen von Links Allerdings bedeutet ein Link keineswegs immer eine positive Qualitätseinschätzung. Vor dem Setzen eines Links steht natürlich nicht immer eine adäquate Qualitätsprüfung. Links auf weitere Seiten des gleichen Angebots dienen der Navigation oder sie beruhen auf Voreingenommenheit und stellen keine objektive Qualitätseinschätzung dar. Auch wird kein Benutzer vor dem Einfügen eines Links auf einen großen Internet-Verzeichnisdienst (wie etwa Yahoo) eine umfassende Qualitätskontrolle dieses Dienstes durchführen, was auch kaum möglich wäre. Vielmehr wirken im sozialen Netzwerk Internet ähnliche Gesetze wie in anderen Netzwerken (BARABÁSI 2002). Diese führen unter anderem dazu, dass Seiten mit vielen In-Links mit größerer Wahrscheinlichkeit wieder das Ziel von Links werden als weniger populäre Seiten. Zwar drücken Links eher ein positives Qualitätsurteil über die zitierten Seiten aus, jedoch kommen auch Links im Zusammenhang mit negativen Urteilen häufig vor. 1 So führt z.B. REHBEIN aus: „Zum Zeitpunkt des Linksetzens sollte der Webmaster die verlinkte Seite ansehen und für gut befinden“ (http://www.daniel-rehbein.de/urteillandgericht-hamburg.html). Das inzwischen häufig praktizierte Anbringen von Haftungsausschlusserklärungen hat jedoch wenig Sinn. (http://www.jurawiki.de/Disclaimer) 124 Qualität im Kontext DAVISON (2000) versucht, solche Links mit negativen Einschätzungen zu erkennen. Darüber hinaus bedingt auch die Struktur von Sites die Anzahl der eingehenden Links. Weiterhin werden bei weitem nicht alle Benutzer von Seiten zu Autoren. Somit können Links auch das Benutzungsverhalten nicht vollständig nachbilden. Links lassen sich demnach nur bedingt als positive Qualitätsurteile bewerten. Da sie in der Praxis jedoch am häufigsten herangezogen werden, werden sie noch ausführlich diskutiert. Den Wert von Links als Qualitätsurteile diskutiert Kapitel 7 zur Link-Analyse. 5.5.3 Explizite Qualitätsentscheidungen Darüber hinaus liegen weitere Wissensquellen für die Qualität von Seiten vor. Dazu zählt insbesondere die explizite Auswahl von Seiten unter Qualitätsgesichtspunkten durch einen menschlichen Redakteur, die sich in der Aufnahme in Sammlungen wie Clearinghouses, Internet-Verzeichnisdiensten oder auch Internet-Preisen niederschlagen. Einige Angebote werben gerade mit dem Qualitätsargument1. Manche Systeme erlauben die Bewertung von Angeboten auf einer Skala2. Zahlreiche Clearinghouses3 bewerten Internetquellen nach verschiedenen Kriterien. Die ersten Clearinghouses waren vor allem um wissenschaftliche Qualität bemüht, während heute Verzeichnisdienste zu Alltagsthemen überwiegen. Einen weiteren Schritt der Qualitätsbewertung stellt die Angabe konkreter Gründe für die Bewertung dar, wie sie sich in Rezensionen, Besprechungen und Kommentierungen von Web-Seiten ausdrückt. Diese Art von Texten lässt sich nur schwer maschinell auswerten. Dagegen kann die Aufnahme eines Angebots in eine Liste von qualitativ hochwertigen Seiten sehr leicht maschinell ausgewertet werden und dient auch in den Kapiteln in Teil III als Maßstab für die Automatisierung der Qualitätsbewertung. 1 So behauptet etwa ein amerikanischer Dienst: „We track the best stuff on the Web“ (http://www.100hot.com/help/faq.html) 2 So bieten z.B. das Clearinghouse zu Asian Studies und das Argus Clearinghouse eine Skala von einem bis zu fünf Sternen (http://www.clearinghouse.net/, (http://coombs.anu.edu.au/WWWVLAsian/VLRating.html) 3 Eine Sammlung von Clearinghouses mit Qualitätsurteilen bieten FRANCO & PALLADINO 1999 (http://www.iona.edu/faculty/afranco/iima/webliog.htm#WebRatingAndEvaluationSites) 125 Qualität im Kontext Eine weitere Quelle stellen Urteile von Juroren aus Evaluierungsinitiativen für das Retrieval dar (siehe Abschnitt 2.4). Diese sind unabhängig und damit sehr zuverlässig, jedoch liegen nur sehr wenige Urteile vor. Das RelevanzAssessment für den TREC Web-Track sollte dreistufig sein und auch qualitativ gute Angebote hervorheben. Jedoch wurde diese Kategorie äußerst selten vergeben, so dass diese Daten kaum ausgenutzt werden können. Für den Web Track seit 2002 werden neue Daten verwendet, die alle aus der Top Level Domain gov stammen. Sie stellen also offizielle Dokumente von Regierungsorganisationen der USA dar, so dass zahlreiche Phänomene wie Spam ausgeschlossen sind, die zu niedriger Qualität führen. Aus rechtlichen Gründen bevorzugen die Organisatoren aber offizielle Seiten und befürchten Probleme bei der Weitergabe kommerzieller Seiten. Auch der in 2005 erstmals in CLEF eingeführte Web-Track basiert auf Regierungsseiten1 (SIGURBJÖRNSSON ET AL. 2005a) und eignet sich deshalb ebenfalls nicht für die Evaluierung aller Aspekte des Qualitätsretrieval. Die asiatische RetrievalEvaluierungs-Initiative NTCIR benutzt ein vierstufiges Bewertungssystem für den dortigen Web Track, der vorwiegend auf Seiten in asiatischen Sprachen beruht. Sinnvoll ist die Beschäftigung mit dem subjektiven Phänomen Qualität dann, wenn es einen gewissen Grad an Überschneidung zwischen den Definitionen verschiedener Menschen gibt. In einigen Experimenten, die unten geschildert werden, wurde dies auch untersucht. Eine Untersuchung für die RelevanzBewertungen von VOORHEES 2000 zeigt, dass die Urteile subjektiv sind, was sich an abweichenden Urteilen verschiedener Assessoren ablesen lässt. Die Subjektivität der Relevanz-Bewertungen von Juroren im Rahmen von Evaluierungsinitiativen im Information Retrieval hat bereits mehrfach zu Zweifeln an der Zuverlässigkeit von Experimenten geführt. Binäre RelevanzUrteile sind offensichtlich subjektiv geprägt und trotz aller Richtlinien lässt sich keine Vereinheitlichung der Maßstäbe herbeiführen. Da diese Urteile die Basis der Ergebnisse liefern, könnte die Subjektivität die Ergebnisse verfälschen. Eine aktuelle Studie bestätigt zwar die Subjektivität der Urteile, zeigt aber, dass die Folgerung nicht zutrifft. Bei der Untersuchung wurden für mehrere Topics der TREC-Initiative zusätzliche Relevanz-Urteile von unterschiedlichen Juroren erhoben. Es zeigte sich, dass diese tatsächlich unterschiedlicher Meinung über die Relevanz waren. Allerdings herrscht insgesamt doch eine sehr große Übereinstimmung, die das Verfahren rechtfertigt. Die unterschiedlichen Aussagen wirkten sich nicht auf die Reihenfolge der Systeme aus. Zwar war die absolute Qualität der Systeme abhängig vom Juror 1 http://ilps.science.uva.nl/WebCLEF/ 126 Qualität im Kontext unterschiedlich, allerdings zielt TREC auf ein Ranking der Systeme ab, um vergleichende Aussagen treffen zu können. Die Reihenfolge blieb weitgehend unverändert (VOORHEES 2000). Solange also eine Person konsequent ihren Standpunkt auf die Ergebnis-Dokumente anwendet, ergeben sich keine Verfälschungen im Endergebnis. 127 128 Teil II: Stand der Forschung zur automatischen Qualitätsbewertung Teil II: Stand der Forschung zur automatischen Qualitätsbewertung In der Welt gehts immer so zu. Dem Glücklichen sagt man: Bleibet lange gesund! er findet Freunde die Menge. Aber wem es übel gerät, der mag sich gedulden! (Johann Wolfgang von Goethe: Reineke Fuchs, Zwölfter Gesang1) Der Erfolg des Internet beruht auf technischer Dezentralität und inhaltlicher Offenheit. Grundsätzlich kann jeder Mensch Wissen zur Verfügung stellen, ohne dass dies etwa mit einer Zentralstelle abgestimmt werden müsste. Selbst bei Verstößen gegen Gesetze wie Urheberschutz oder Volksverhetzung müssen die veröffentlichten Daten zunächst von Strafverfolgungsbehörden registriert werden. Es wirken aber keine dem Internet inhärenten Mechanismen, die gegen schlechte Qualität von Angeboten oder auch nur gegen falsche Aussagen oder Plagiat vorgehen. Da die Publikation äußerst einfach ist, wird in großen Mengen Wissen sehr heterogener Qualität im Internet angeboten. In großen Fachdatenbanken wird die Qualität durch verschiedene Mechanismen wie etwa Peer Review innerhalb der Quellzeitschriften gesichert. Damit besteht das Problem für den Benutzer hauptsächlich im Finden der relevanten Information, von einer hohen Qualität kann ausgegangen werden. Im Internet, wo eine Qualitätskontrolle mit intensiven menschlichen Arbeitsanteilen wie beim Peer Review ohnehin nur in kleinen Ausschnitten denkbar ist, kommt zu dem Problem der Suche 1 http://projekt.gutenberg.de/goethe/reineke/reinekc2.htm 129 Teil II: Stand der Forschung zur automatischen Qualitätsbewertung nach relevanter Information noch die Problematik der Qualität hinzu. Stimmen die getroffenen Aussagen überhaupt? Bei physischen Objekten insbesondere in der industriellen Produktion hat sich die automatische Qualitätskontrolle in vielen Bereichen etabliert. So ist z.B. bei Druckmaschinen (WESTRA ET AL. 1999) oder Getrieben (LUTZ & SCHMIDLUTZ 1993) längst akzeptiert, dass Maschinen diese Art der Qualitätskontrolle besser oder effizienter oder zumindest billiger durchführen als Menschen. Die automatische Bewertung von Wissensprodukten dagegen steht noch am Anfang. Die folgenden Kapitel stellen den aktuellen Stand der Forschung in diesem Bereich dar. Zunächst sollen Wissensprodukte für diese Arbeit eingegrenzt werden, wobei in dieser Arbeit Wissensprodukte vorwiegend als Internet-Dokumente verstanden werden. Im Anschluss erfolgt die Annäherung an den Qualitätsbegriff, zu dem zahlreiche Arbeiten vorliegen. Die darauf folgenden Kapitel stellen den Kern des Überblicks über den Stand der Forschung und Technik dar. Sie stellen die existierenden Systeme zur automatischen Bewertung der Qualität ausführlich dar. Die wichtigsten Realisierungen zählen zur Link-Analyse, der ein eigenes Kapitel gewidmet ist. Das zweite Kapitel zu diesem Überblick stellt alternative Ansätze vor, die meist auf mehrere Parameter zurückgreifen. Dabei zeigt sich, dass zwischen den abstrakten Definitionen und den Implementierungen zwar eine Schnittmenge besteht, diese aber eher klein ist. Das bedeutet, dass für viele der abstrakten Qualitätskriterien noch keine adäquate algorithmische Umsetzung gefunden wurde. Das folgende Kapitel 6 zeigt Anwendungen, innerhalb derer die automatische Qualitätsbewertung eingesetzt werden kann. Kapitel 7 diskutiert dann ausführlich den Standard-Ansatz für automatische Qualitätsbewertung, die LinkAnalyse. Zahlreiche Gegenargumente werden angeführt, dazu zählt die Fokussierung auf populäre Seiten, welche das obige Zitat andeutet. Kapitel 8 führt dann zu den fortgeschrittenen Verfahren zur automatischen Qualitätsbewertung, welche mehrere Eigenschaften berücksichtigen und die somit der Komplexität des Qualitätsbegriffs eher gerecht werden. 130 Anwendungsszenarien automatischer Qualitätsbewertung 6. Anwendungsszenarien automatischer Qualitätsbewertung Die Qualität der im Internet angebotenen Wissensobjekte ist stark heterogen. Neben qualitativ sehr hochstehenden Angeboten finden sich viele sehr schlechte Angebote. Diese Einsicht ist sowohl in der Forschung1 als auch in populären Veröffentlichungen2 weit verbreitet und kann bereits als ein Gemeinplatz gelten. Diese starke Heterogenität macht Qualitätsbewertungen nötig, die letztendlich der Mensch vornimmt. Somit besteht für den Benutzer eine zusätzliche Hürde bei der Benutzung des Internet. Werkzeuge zur Bewertung der Qualität können den Benutzer in unterschiedlichen Stadien dieser Arbeit unterstützen. Systeme zur automatischen Qualitätsbewertung bewerten Internet-Angebote und liefern ihre Bewertung an unterschiedliche Informationssysteme weiter. Informationssysteme nutzen diese Qualitätsbewertung durch Maßnahmen aus, die den Zugriff auf qualitativ höherwertige Informationen und Informationssysteme im Internet wahrscheinlicher machen. Dies erreichen sie durch Filtern, Ranking oder Hervorheben. • Filter wählen aus einer Menge eine qualitativ höherwertige Untermenge von Seiten aus. Bei der Menge kann es sich beispielsweise um eine Trefferliste, eine Liste von Seiten, die zu indexieren ist oder eine Linkliste handeln. Filter können unterschiedliche Schwellenwerte ansetzen. 1 „Many web-sites are very light on substantive content“ (RADFORD ET AL. 2002:25). „information quality varies widely on the Internet“ (ZHU & GAUCH 2000:288). Auch AMENTO ET AL. betonen: „For many topics, the World Wide Web contains hundreds or thousands of relevant documents of widely varying quality“ (AMENTO ET AL. 2000:296). PAGE ET AL. betonen die Einfachheit des Publizierens: „the simplicity of creating and publishing web pages results in a large fraction of low quality web pages that users are unlikely to read“ (PAGE ET AL. 1998:2). Ähnlich argumentieren BRIN & PAGE: „‘Junk results‘ often wash out any results that a user is interested in“ (BRIN & PAGE 1998, Abschnitt 1.3.1). Der Trend zu niedriger Qualität scheint sich sogar zu beschleunigen: „Die Datenbanken wurden zunehmend mit werblichen, ‚inhaltslosen’ Seiten überflutet“ (LEWANDOWSKI 2004a:183). 2 Als Beispiel sei lediglich das folgende Zitat genannt: „denn im World Wide Web wimmelt es mittlerweile von Datenschrott und Seiten, die nicht gesehen zu haben, keinen Verlust darstellt“ (Rainer WERLE, 2003, http://www.werle.com/intagent) 131 Anwendungsszenarien automatischer Qualitätsbewertung • Ranking sorgt vor allem in einer Trefferliste für eine neue Reihenfolge, welche die Qualität berücksichtigt und sehr gute Seiten weiter noch oben stellt. Ranking auf Basis der Qualität kann auch auf beliebige andere Linklisten angewandt werden. • Besonders gute Seiten in einer Liste können hervorgehoben werden, wenn die Reihenfolge nicht verändert werden soll. Anstatt der Listenposition markiert dann eine Formatierung wie große Schrift oder Farbe die Qualität der Seiten. Daneben kann die Qualitätsbewertung auch Selbstzweck sein und ihre Ergebnisse können außerhalb des Internet eingesetzt werden. In den folgenden Abschnitten werden die einzelnen Szenarien weiter ausgeführt. Die hohe Dynamik des Internet verhindert eine intellektuelle Kontrolle der Qualität. Viele Anbieter verändern die Struktur und das Design ihrer onlineProdukte. Zwar besteht auch im Internet die Forderung nach einer erkennbaren Corporate Identity, die weitgehend stabil bleiben muss. Trotzdem erfordert die Dynamik des neuen Mediums häufige Änderungen. Die Umstellung vieler Informationsprozesse auf das Internet bzw. die Weiterentwicklung geschieht häufig unter hohem Zeitdruck. Aspekte der Benutzbarkeit spielen daher eine untergeordnete Rolle. Meist werden derartige Überlegungen erst im nachhinein angestellt, so dass es dann wieder zu einem ReDesign kommt. Neue technische Entwicklungen bei der durchschnittlich verfügbaren technischen Bandweite der Benutzer erlauben die Einführung von größeren Datenmengen. In der zweiten Hälfte der 1990er Jahre setzten sich aufgrund der höheren verfügbaren Bandbreite zunehmend grafisch orientierte Seiten durch. Es ist zu erwarten, dass die Fortsetzung dieses Trends zur Übertragung von Video und Audio in größerem Maße führt. Daneben führt auch die Weiterentwicklung der Internet-Darstellungssprachen zu neuen Möglichkeiten und damit zu einem Druck auf die Anbieter, dieses Potenzial für ihre Angebote zu nutzen. Die Dynamik des Internet an sich erfordert häufigere Änderungen. Ein über Jahre hinweg gleichbleibendes Layout widerspräche der normalen Entwicklung des Netzes und könnte den Ruf einer Firma negativ beeinflussen. So weist NIELSEN 2000 darauf hin, dass das Erscheinungsbild der Homepage der Firma SUN häufig geändert wird, um Benutzer wiederholt anzuziehen bzw. um häufigen Benutzern ein abwechslungsreiches Bild zu bieten. 132 Anwendungsszenarien automatischer Qualitätsbewertung Eine noch höhere Veränderungsrate als bei Layout, Design und Struktur der Angebote liegt beim Inhalt vor. Die Aktualität von Wissen ist selbst ein Qualitätsmerkmal. Bei Anbietern von Nachrichten ist dies offensichtlich. Aber auch andere Wissensprodukte, die darauf hoffen, dass Benutzer sie häufiger besuchen, müssen ihre Inhalte ständig aktualisieren. Dieser Überblick verdeutlicht, dass Inhalte, Organisation und Darstellung von Wissen sich häufig ändern können. Verschiedene Menschen mit unterschiedlicher Expertise beteiligen sich an diesen unüberschaubaren Prozessen. Dementsprechend verändert sich auch die Qualität häufig. Eine intellektuelle Kontrolle ist undenkbar. 6.1 Qualitätsfilter Der Einsatz als Filter ist eine offensichtliche Anwendung von Systemen zur Bewertung der Qualität. Dies schlagen mehrere Autoren vor (cf. z.B. ZHU & GAUCH 2000). Ein Qualitäts-Filter bildet meist einen Teil eines RetrievalSystems. Er prüft die Seiten auf der Ranking-Ergebnisliste und positioniert darin die Seiten mit geringer Qualität weiter nach hinten1. Dabei setzt der Filter eine interne Definition von Qualität ein, die evtl. vom Benutzer modifiziert sein kann oder die an den Anwendungsbereich adaptiert ist. Diese Filter in Retrieval-Systemen behandelt der folgende Abschnitt. Die Filterleistung kann aber auch an einer anderen Stelle im Suchprozess einsetzen. So kann von vorneherein nur in bestimmten Angeboten mit nachgewiesen hoher Qualität gesucht werden. Wenn man von vorneherein in qualitativ hohen Angeboten sucht, dann ist die Chance für relevante Treffer natürlich sehr hoch. Dies gilt sowohl für das Suchparadigma als auch für das Browsing-Paradigma, bei dem es für Benutzer günstig ist, nur wenige Sites im Angebot zu haben. Bei einem Browsing-System liegen einem Benutzer nach der Hypertext-Technologie verknüpfte Dokumente vor, aus denen er auswählt. Die Liste von Optionen kann durch einen Qualitätsfilter auf qualitativ gute Angebote reduziert werden. Bisherige Beispiele für Filtersysteme sind etwa Kinderfilter, die pornographische und gewaltverherrlichende Inhalte für minderjährige Benutzer des Internets blockieren sollen. Diese realisieren allerdings nur eine eingeschränkte 1 Der damit verbundene Mehrwert für Suchdienste entsteht durch die Kombination inhaltlicher und anderer, zusätzlicher Kriterien: „Current search engines ignore crucial nontopical dimensions of web resources that could be used to improve the quality of search results“ (GRAVANO 2000:141). 133 Anwendungsszenarien automatischer Qualitätsbewertung Qualitätsdefinition. Sie basieren entweder auf aufwendig manuell erstellten Listen von Internet-Adressen oder auf rein inhaltlichen Kriterien wie das Vorkommen von bestimmten Begriffen in den Seiten. Das Blockieren aufgrund von Wörtern führt dabei zu unerwünschten Effekten. So berichten NEUMANN & WEINSTEIN 1999, ein verbreitetes Filtersystem blockiere teils mehr als 90% der verfügbaren Inhalte während ein anderes die Verfassung der USA und Shakespeares-Stücke als nicht geeignet für Kinder ansah. Derart einfache Verfahren erweisen sich demnach als schlechte Verfahren im Rahmen der automatischen Qualitätskontrolle. Qualitätsfilter sind also auch problematische Anwendungen, welche viele ethische Fragen aufwerfen. Störend wirken qualitativ schlechte Inhalte besonders bei aktiven pushDiensten wie E-Mail. Unerwünschte elektronische Post mit Reklame wird meist als Spam bezeichnet, die durch geeignete Filter gelöscht werden soll. 6.2 Integration in Retrieval-Systeme Der bedeutendste Einsatz als Filter liegt in der Integration von Qualitätsfiltern in einem Retrieval-System. Dabei interagiert der Benutzer mit einem Suchsystem, indem er seine inhaltlichen Suchkriterien angibt. Das System bewertet die Qualität der Dokumente und weist ihnen also neben der inhaltlichen auch eine qualitative Maßzahl zu. Meist umfasst die Formel für den Retrieval Status Value, welche den Grad der Relevanz eines Dokumentes zu einer Anfrage angibt, zusätzliche Faktoren, die eine bestimmte Definition von Qualität mit einfließen lassen. Zu diesen Systemen zählt die Suchmaschine Google1, deren PageRankAlgorithmus die Qualität als Autorität definiert und die Anzahl der Links zwischen Seiten berücksichtigt (PAGE ET AL. 1998). Ein weiteres Beispiel bietet der experimentelle Ansatz von ZHU & GAUCH 2000, die Qualität als komplexe Kombination mehrerer Faktoren auffassen wie Popularität, Autorität, Aktualität, Kohäsion, Anteil ungültiger Links und Verhältnis Information zu Dateigröße. Eine direkte Integration der Qualitätsaspekte in das Ranking einer Suchmaschine strebt das Projekt DESIRE an, bei dem die Qualitätsurteile aber explizit von Experten gefällt werden müssen (cf. BELCHER & PLACE 2000). Der integrative Ansatz erfordert vom Benutzer den geringsten Aufwand. Er interagiert wie mit einem normalen Suchsystem und muss sich der Qualitäts- 1 http://www.google.com bzw. http://www.google.de 134 Anwendungsszenarien automatischer Qualitätsbewertung bewertung nicht einmal bewusst sein. Konsequenterweise erlaubt dieser Ansatz auch i.d.R. kaum Parametrisierungen durch den Benutzer. So ist es bei Google nicht möglich, die Qualitätsbewertung durch Link-Analyse abzustellen. Die direkte Integration der Such- und Bewertungsalgorithmen lässt die einzelnen Anteile am Ergebnis nicht mehr erkennen. Der Einfluss der beiden Komponenten auf das Resultat kann nicht mehr festgestellt werden. Im Rahmen der Evaluierungsstudie TREC wird die Leistung von Information Retrieval-Systemen hinsichtlich der Fähigkeit gemessen, thematisch relevante Dokumente zu identifizieren. Die Wichtigkeit des Internet führte zur Einführung des Web-Track (cf. HAWKING 2001), bei dem nicht Zeitungstexte die Grundlage bilden, sondern Internet-Dokumente und bei dem die Qualität zusammen mit der Relevanz in die Bewertung einfließt. Um das übliche TREC Prozedere beibehalten zu können und den Systemen eine feste Datenmenge und Übungszeit zu bieten, speichern die Veranstalter eine Momentaufnahme eines Teils der im Internet angebotenen Daten. Davon liegen zwei verschieden große Versionen vor1, welche hinreichend groß sein sollen, um die Wirksamkeit von linkbasierten Verfahren wie etwa dem unten besprochenen PageRank-Algorithmus von Google zu testen. Bei der intellektuellen Überprüfung der Ergebnisse der Suchmaschinen achten die Evaluatoren auf thematische Relevanz. Beim Web Track suchen sie außerdem nach den besten Dokumenten zu den Fragestellungen2. Damit wird also auch die Leistung bei der Suche nach qualitativ sehr guten Seiten belohnt. Es ist zu vermuten, dass die hohe Heterogenität der Qualität der Dokumente zu diesem Vorgehen geführt hat. Da im ersten und zweiten Web Track konventionelle Information Retrieval-Systeme gegenüber den ebenfalls getesteten InternetSuchmaschinen besser abschnitten (cf. HAWKING 1999), zielt das neue Design des Tracks eventuell darauf ab, die Stärken der vorhandenen Internet-Suchmaschinen zu berücksichtigen oder zu identifizieren. 6.3 Werkzeuge und Mehrwertdienste für die Internet-Benutzung Für viele Informationsbedürfnisse liegen im Internet unterschiedliche Wissensquellen vor, die ähnliche Inhalte präsentieren. Es ist davon auszugehen, 1 Die kleine Momentaufnahme besteht aus 1,7 Millionen Seiten (10 Gigabyte), während die große 18,5 Millionen Seiten (100 Gigabyte) umfasst (HAWKING 2001:1). 2 „ … assesors were asked to identify best documents for each topic“ (HAWKING 2001:1). 135 Anwendungsszenarien automatischer Qualitätsbewertung dass die Qualität der Präsentation einen entscheidenden Einfluss auf die Nutzung hat1. Für den Benutzer entsteht ein Mehrwert, wenn von mehreren Alternativen, die weitgehend das gleiche Wissen anbieten, ein Angebot mit qualitativ guter Präsentation und Strukturierung hervorgehoben wird. Dies könnte durch Vorschlagssysteme in Verbindung mit Pre-Fetching realisiert werden. Pre-Fetching ist eine Anwendung, die versucht, die Ladezeiten für den Benutzer zu verringern. Dazu versucht das System, ausgehend von der aktuell betrachteten Seite den nächsten Link vorherzusagen, den ein Benutzer verfolgt. Diese Seite wird dann schon geladen, während der Benutzer noch die aktuelle Seite betrachtet und kann bei korrekter Vorhersage nach dem Klick sofort präsentiert werden. Pre-Fetching kann auf der Basis von Log-File Analyse erfolgen. Dabei schließt das System aus dem Verhalten des Benutzers oder vieler Benutzer auf die wahrscheinlichsten Pfade. Ein Beispiel hierfür bietet der Ansatz von LAN ET AL. 2000, der einen Push-Dienst des Web-Servers vorsieht. Die Analyse geschieht dabei auf der Seite des Servers und das vorhergesagte Dokument wird vorab an den Client geliefert. Solche Push-Server erfordern aber erhebliche Eingriffe in die Architektur der Web-Server, so dass kurzfristig nicht mit entsprechenden Lösungen zu rechnen ist. Auch Pre-Fetching ließe sich mit einer Qualitätsbewertung verbinden. Dabei könnten mehrere Seiten geladen werden, die von der aktuellen Seite aus erreicht werden könnten. Diese können verglichen und die qualitativ besten bestimmt werden. Vielversprechende Pfade können dann dem Benutzer angezeigt werden. Andere Ansätze wollen den Benutzer noch stärker unterstützen und heben solche Links optisch hervor, die für den Benutzer besonders interessant sein könnten (TSANDILAS & SCHRAEFEL 2003). Auch diese Idee ließe sich mit den automatischen Qualitätsbewertung verbinden. 6.4 Sammeln von Internet-Dokumenten Die Betreiber einer Suchmaschine müssen zunächst Dokumente aus dem Internet sammeln und in ihren Index integrieren. Anschließend kann darin gesucht werden. Das Sammeln der Dokumente ist keine triviale Aufgabe und 1 „ … it is argued that a site’s information packaging will become increasingly important in gaining users‘ attention and interest” (BUCY ET AL. 1999:1246) 136 Anwendungsszenarien automatischer Qualitätsbewertung die Größe der Sammlung von Dokumente gilt sogar als ein wichtiges Kriterium für die Qualität der Suchmaschinen1. Teilweise können Benutzer ihre Seiten registrieren und der Suchmaschine die Adressen mitteilen. Größtenteils werden die Seiten aber von den Systemen selbständig im Netz gesucht. Dazu werden sogenannte Crawler entwickelt, die das Netz durchwandern2. Ausgehend von einer Grundmenge von URLs analysieren sie die Links in den Seiten und fügen die darin referenzierten Seiten zu der zu bearbeitenden Menge (crawling frontier) hinzu. Da die Größe des Internets nicht bekannt ist, kann der Abdeckungsgrad einer Suchmaschine lediglich geschätzt werden. Allerdings nimmt keine Suchmaschine für sich in Anspruch, 100% zu indexieren. Nach einer Schätzung hatte Google im Jahr 2000 mit 2,5 Milliarden etwa 20% aller Web-Seiten im Index3. Berücksichtigt man allerdings auch die dynamisch generierten Seiten (deep web), dann umfasste Google zu diesem Zeitpunkt lediglich 0,1% des öffentlich zugänglichen Internets. Eine Erhöhung des Abdeckungsgrades ist schwierig. Die Speicherung und Verwaltung von Milliarden von Seiten erfordert einen erheblichen technischen Aufwand. Allein jede Überprüfung, ob eine Seite bereits bekannt und in der Datenbank enthalten ist, erfordert eine Suche in der Datenmenge. Die Dynamik des Internets erfordert das wiederholte Besuchen bereits bekannter Seiten, da sich diese ändern können. Auch das starke Wachstum des Internets hält an. Diese Schwierigkeiten zeigen, wie wichtig Sammel- oder Crawling-Strategien sind. Die Strategien müssen sich an den Zielen der Suchmaschine orientieren, um etwa einen sehr hohen Abdeckungsgrad zu erreichen oder bestimmte Seiten bevorzugt zu erreichen. Diese Frage wird in der wissenschaftlichen Literatur durchaus kontrovers diskutiert. Entscheidend ist dabei, welche der Links in der zu bearbeitenden Menge zuerst abgearbeitet werden. Während NAJORK & WIENER 2001 eine breadth-first Strategie für optimal halten, befürworten MENCZER ET AL. 2001 eine best-first Strategie. Die Suchstrategien ähneln den Suchstrategien in Baumstrukturen aus der Künstlichen Intelligenz (LUGER 2001:123). Dort werden sie bei Optimie- 1 Abschätzungen hierzu finden sich unter: http://searchenginewatch.com/ 2 Ein Beispiel ist etwa der von Google und Altavista benutzte Crawler Mercator. 3 Inzwischen umfasst der Index nach Angaben von Google über acht Milliarden Seiten. 137 Anwendungsszenarien automatischer Qualitätsbewertung rungsproblemen angewandt, die sich als Suche nach einer guten oder optimalen Lösung in einem umfangreichen Suchraum darstellen. Breadth-first und depth-first Strategien durchlaufen den Baum aufgrund topologischer Kriterien. Heuristische Suchen dagegen basieren auf einer Bewertungsfunktion, welche den bisher untersuchten Lösungen Qualitätswerte zuweist. In der best-first Strategie verfolgt der Algorithmus dann zuerst vielversprechende Zweige mit hohen Qualitätswerten. Dadurch kann häufig die Anzahl der zu durchlaufenden Lösungen verringert werden. Darin liegt auch ein Unterschied zum Crawling im Web, bei dem es meist um eine vollständige Analyse des durch Hypertext-Verbindungen vorgegebenen Raumes geht. NAJORK & WIENER 2001 zielen in ihrer Untersuchung zwar auf eine vollständige Abdeckung des Internets ab, räumen aber ein, dass dieses Ziel aufgrund der technischen Restriktionen nur schwer zu erreichen ist. Als Konsequenz sollen zumindest hochwertige Seiten bevorzugt und sehr früh in den Index integriert werden. Somit hätte eine Suchmaschine diese besten und damit wichtigsten Seiten schnell bzw. sehr aktuell zur Verfügung. NAJORK & WIENER 2001 gelangen nach einem Download von 500 Millionen Seiten über 58 Tage zu dem Schluss, dass eine breadth-first-Strategie zum schnellen Erreichen von Seiten mit hohen PageRank-Werten führt. Im Verlauf des Sammelns der Seiten sank der Durchschnitt der PageRank-Werte der gefundenen Seiten stetig. Während der ersten drei Tage lag der Durchschnitt der PageRank-Werte der an diesem Tag durchlaufenen Seiten über eins und ab dann darunter. Am ersten Tag war der Wert mit 7,04 noch mehr als dreimal so hoch wie mit 2,07 am zweiten Tag. Zwar räumen die Autoren ein, dass best-first-Suchen mit PageRank als Bewertungsfunktion noch zur Verstärkung dieses Effekts führt, jedoch rechtfertige der hohe Aufwand der PageRank-Berechnung dieses Vorgehen nicht. Setzt man allerdings PageRank sowohl zur Vorgabe der Richtung des crawls als auch als Maßstab für die Qualität der gefundenen Seiten ein, dann ist das Vorherrschen der hoch gewichteten Seiten zum Beginn keine Überraschung und die Argumentation dreht sich im Kreis. Gleichwohl überrascht die Deutlichkeit des Effekts und sein Auftreten bei einer breadth-first-Strategie. Damit sagt das Experiment von NAJORK & WIENER 2001 sehr viel über die Link-Struktur des Internets aus. Vor allem bestätigt es die Aussagen von DILL ET AL. 2001 über die Existenz eines untereinander stark verknüpften Bereichs, von dem aus sich Seiten untereinander sehr schnell erreichen lassen (siehe Abschnitt 7.7.3). In diesem Nukleus herrschen offensichtlich auch hohe PageRank-Werte vor. MENCZER ET AL. 2001 dagegen suchen eine Richtlinie für das Sammeln von thematisch verwandten Seiten. Ihre crawling-Strategie soll als Grundlage für 138 Anwendungsszenarien automatischer Qualitätsbewertung die Beantwortung von Anfragen dienen oder kann Suchmaschinen bedienen, die auf bestimmte Themen spezialisiert sind. Dies erweist sich allerdings als schwierig, wie etwa die Untersuchungen von CHAKRABARTI ET AL. 2002 zeigen. Die Autoren sammeln Internet-Seiten und folgen zufällig gewählten Links. Die Ausgangspunkte dieser Walks sind thematisch unterschiedliche Seiten, welche die Autoren aus Verzeichnisdiensten gewinnen. Nach einigen Tausend durchlaufener Seiten ähnelten sich die Inhalte der gesammelten Seiten immer stärker. CHAKRABARTI ET AL. 2002 messen die inhaltliche Ähnlichkeit anhand der Distanz im Vektorraum-Modell. Trotz der unterschiedlichen Ausgangspunkte weisen die Seiten nach einigen Tausend Schritten immer weniger Unterschiede auf. Obwohl die meisten Links zwischen thematisch verwandten Seiten verlaufen (siehe Abbildung 7.10), verliert sich diese Ähnlichkeit nach dem Verfolgen vieler Links. MENCZER ET AL. 2001 testen drei Crawling-Strategien, die sie anhand von drei ähnlichen Evaluierungsmethoden vergleichen. Die Evaluierung orientiert sich an der thematischen Nähe der besuchten Seiten. Eine Methode basiert auf Text-Kategorisierung und misst, wie gut ein Klassifizierer Seiten aus dem Internet dem Thema zuordnen kann. Der Klassifizierer wurde vorher mit einer Grundmenge von intellektuell zugeordneten Seiten trainiert. Dazu wurden pro Thema 100 Seiten analysiert bzw. aus einem thematisch gegliederten Web-Katalog entnommen1. Eine weitere Evaluierungsmethode nutzt ein Retrieval-System. Die Anfrage entsteht aus den Seiten, auf die ein thematischer Ast in dem Verzeichnisdienst Yahoo verweist. Diese Anfrage vergleicht das System mit den in einem crawl gesammelten Seiten. Das Ranking entspricht dann der Übereinstimmung der Seiten mit dem Thema und gibt somit ein Maß für die Qualität der crawlingStrategie. Ähnlich wie in der letzten Methode messen MENCZER ET AL. 2001 zuletzt die durchschnittliche Ähnlichkeit der Dokumente zu dem Anfrage-Vektor als Kosinus im Vektor-Raum. Dabei wird als Gewichtung die inverse DokumentHäufigkeit eingesetzt. Die drei Sammelstrategien stellen im Grunde alle best-first-Verfahren dar, deren Bewertungsfunktionen aber unterschiedlich sind. Eine inhaltlich orientierte Strategie benutzt die Ähnlichkeit der Dokumente zu dem AnfrageVektor wie sie in der dritten Evaluierungsstrategie eingesetzt wurde. Eine 1 Ein ähnliches Verfahren zur thematischen Zuordnung benutzt HAVELIWALA 2002. Die Qualität von Text-Kategorisierungsverfahren für die in thematisch gegliederten WebKatalogen enthaltenen Seiten untersuchen KLAS & FUHR 2000 und CHAKRABARTI 1998. 139 Anwendungsszenarien automatischer Qualitätsbewertung weitere crawling-Strategie nutzt PageRank und die dritte eine Kombination aus sich verändernden Anfrage-Vektoren, Agenten und neuronalen Netzen sowie evolutionären Algorithmen. Bei allen Evaluierungsmethoden erweist sich die erste Strategie als die beste. Dies ist nicht überraschend, da ihre richtungsgebende Funktion die gleiche Ähnlichkeit benutzt wie die Evaluierungsverfahren. Auffällig erscheint aber, dass PageRank weit hinter die anderen Verfahren zurückfällt. Die Analyse der thematischen Nähe von Seiten zeigt somit die Grenzen von PageRank auf. PageRank führt beim Experiment von NAJORK & WIENER 2001 noch zu einer erstaunlichen Regelhaftigkeit und erhält somit eine gewisse Rechtfertigung. Das Streben nach inhaltlicher Kohärenz lässt sich mit diesem Instrument der Link-Analyse nicht garantieren, so dass sich für die Anwendung im Information Retrieval aus dieser Perspektive keine Argumente ergeben. Für neue Qualitätsmetriken ergeben sich unterschiedliche Anwendungsszenarien: • Zum einen kann sich ein best-first crawl an den Qualitätswerten der bereits besuchten Seiten orientieren und davon ausgehend weitere untersuchen. So kann gewährleistet werden, dass Seiten, welche nach diesen Qualitätsmetriken als hochwertig gelten, verstärkt in den Index aufgenommen werden. Dabei ist eine schnelle und einfache Berechnung der Qualität entscheidend. Optimalerweise orientiert sich eine Definition der Qualität an Kriterien, welche in der Seite lokal bestimmt werden können. Selbst wenn diese letztendlich zu ähnlichen Ergebnissen führen wie PageRank oder andere Linkmaße, so überwindet die lokale Berechenbarkeit eine Schwelle, die zum praktischen Einsatz von quality-first Strategien führen kann. • Zum anderen kann eine Qualitätsdefinition zur Evaluierung von crawling Strategien dienen. Dabei können die besuchten Seiten ähnlich wie bei NAJORK & WIENER 2001 analysiert werden. Damit lässt sich feststellen, inwieweit sich die jeweilige Strategie dazu eignet, frühzeitig auf qualitativ hochwertige Seiten zu stoßen. 6.5 Evaluation von Institutionen und Personen Der Einsatz von Systemen zur automatischen Bewertung von Qualität von Internet-Seiten kann auch Selbstzweck sein. Die Ergebnisse entsprechender Systeme können wie die Ergebnisse traditioneller szientometrischer Analysen weitergegeben und benutzt werden. Zu den möglichen Einsatzgebieten zählt 140 Anwendungsszenarien automatischer Qualitätsbewertung auch die Evaluierung von Institutionen und Personen, also die Übertragung von Werturteilen über elektronische Objekte auf die Urheber oder diejenigen, die sie ins Netz stellen. So kann sich etwa eine Firma mit ihren Konkurrenten vergleichen. Werbetreibende können versuchen, durch geeignete Maßnahmen die besten Werbeträger für sich im Internet zu finden. So erfolgt die Abrechnung von Werbeleistungen bereits häufig auf Basis der Wirkung, die unter anderem anhand der Zugriffshäufigkeit über den Werbelink abgeschätzt wird (cf. BÜRLIMANN 2001). Scheinbar einfache Maßstäbe, die zu klaren und numerischen Aussagen führen, sind bei Entscheidungsträgern oft beliebt, da sie bei der schwierigen Aufgabe der Evaluation unterstützen. Die Auswertung von Zitationen in wissenschaftlichen Publikationen sollte ursprünglich das Information Retrieval verbessern, heute gelten v.a. die vom Institute for Scientific Information (ISI)1 berechneten Wichtigkeitsfaktoren (impact factors) für unterschiedliche Publikationen als entscheidende Qualitätsmerkmale für z.B. Zeitschriften und die darin enthaltenen Artikel und ihre Autoren (BALL & TUNGER 2005, siehe Abschnitt 7.2). Ein Beispiel dafür bietet etwa die Untersuchung von THELWALL & HARRIES 2003, die starke Korrelationen zwischen der Anzahl von In-Links von Universitätsseiten und einem davon unabhängig erstellten Hochschulranking einer Zeitung erkennt. In den letzten Jahren gewinnen auch Systeme zur Sammlung von ProduktBewertungen im Internet an Bedeutung. Idealerweise kann jeder Benutzer ein Produkt oder einen Partner bewerten und jeder andere Benutzer kann vor einem Kauf die Bewertung des Produkts oder des Verkäufers abrufen. Ein Verfahren zur Sammlung von Produktbewertungen stellen DAVE ET AL. 2003 vor. Die Integration mehrerer Meinungen behandeln LIU ET AL. 2005. Im Konstanzer Lehr- und Lernsystem K3 werden Diskussionsbeiträge von Studierenden bestimmten Rollen (Rechercheur, Zusammenfasser, Präsentator) zugeordnet und nach quantitativen und qualitativen Aspekten automatisch bewertet (SEMAR 2005). Da bereits mehrere Systeme die Qualität automatisch bewerten, sind weitergehende Anwendungen nur eine Frage der Zeit. Gerade deshalb ist die wissenschaftliche Bearbeitung dieses Themas so wichtig. Ausgewogene Systeme, die Grenzen der Ergebnisse und ihre Interpretation müssen gründlich erarbeitet werden. 1 http://www.isinet.com/ 141 Anwendungsszenarien automatischer Qualitätsbewertung Hierin steckt erhebliches Gefahrenpotenzial v.a. durch die Möglichkeiten der Manipulation. Das Wissen über die Funktionsweise von Retrieval-Systemen kann bereits jetzt kommerziell verwertet werden. Berater schlagen Modifikationen von Internet-Seiten vor, die dazu führen sollen, dass die Seiten von Internet-Suchmaschinen höher bewertet werden und so öfter in der Ergebnisliste erscheinen. Davon versprechen sich viele Anbieter einen Wettbewerbsvorteil. 142 Automatische Qualitätsbewertung durch Link-Analyse 7. Automatische Analyse Qualitätsbewertung durch Link- Die automatische Qualitätserkennung oder zumindest die Qualitätsabschätzung hält bereits seit einigen Jahren mehr oder weniger unbemerkt Einzug in zahlreiche experimentelle und auch in einige im Einsatz befindliche Informationssysteme. Dabei haben sich besonders Verfahren zur LinkAnalyse im Internet etabliert. Aufgrund ihrer Bedeutung wird der LinkAnalyse ein eigenes Kapitel gewidmet, während andere Verfahren im folgenden Kapitel vorgestellt werden. In der diskutierten Literatur zur automatischen Qualitätserkennung taucht weder der Qualitätsbegriff immer explizit auf, noch ordnen die Autoren ihre Arbeit immer unter diesem Gesichtspunkt in die Forschung ein1. Die Ansätze stammen vorwiegend aus den folgenden Gebieten: • Information Retrieval: Analyse von Verbesserung des Retrieval im Internet Hypertext-Elementen zur • Web-Structure-Mining: Analysen der Linkstruktur im Internet zur Darstellung von größeren Zusammenhängen und der Erstellung von globalen, quantitativen Modellen • Mensch-Maschine-Interaktion: Automatische oder zumindest formale Analyse und Bewertung der Qualität von Internet-Seiten als Benutzungsoberflächen Die automatische Bewertung von Qualität im Sinne von Autorität ist am weitesten verbreitet und kann bereits als Standard-Verfahren im Bereich des Web Information Retrieval gelten (für einen Überblick cf. BAEZA-YATES & RIBEIRO-NETO 1999:380f., HENZINGER 2000, BORODIN ET AL. 2001). Die Autorität basiert im Wesentlichen auf der Anzahl der Verbindungen, die auf eine Seite verweisen. Die Popularität dieses Ansatzes hat mehrere Gründe: 1 Eine Ausnahme stellt der wegweisende Artikel dar, in dem erstmals der PageRank-Algorithmus vorgestellt wurde. PAGE ET AL. 1998:2 konstatieren die Ausgangssituation für Information Retrieval im Internet wie folgt: „The average web page quality experienced by a user is higher than the quality of the average web page. This is because the simplicity of creating and publishing web pages results in a large fraction of low quality web pages that users are unlikely to read.“ 143 Automatische Qualitätsbewertung durch Link-Analyse • Die Grundidee besitzt Plausibilität und erzeugt durch ihre Einfachheit den Anschein hoher Transparenz1. • Die Verbindungen einer Seite lassen sich technisch relativ einfach extrahieren und analysieren. Damit lässt sich das Informationsverhalten von Autoren von Web-Seiten im großen Umfang beobachten und ihre Präferenzen auswerten. • Ein Link kann vereinfacht wie ein Zitat behandelt werden und somit kann die Untersuchung der Autorität im Internet mit der Bibliometrie auf eine etablierte Wissenschaft und ihre Methoden zugreifen. Die folgenden Abschnitte betonen auch die Nachteile der Link-Analyse, welche dann das Fazit zusammenfasst. Sie beruhen auf vereinfachenden und bedenklichen Annahmen über Benutzerverhalten und Eigenschaften der LinkMatrix und äußern sich in der Evaluierung der Link-Analyse-Verfahren im Information Retrieval. Die Link-Analyse nimmt im Rahmen der oben vorgestellten Taxonomie (MARCHAND 1990) von Qualitätsdefinitionen eine Sonderstellung ein. Oberflächlich betrachtet erscheint sie als ein produkt-orientierter Definitionsansatz. Jedoch stellt die Anzahl der auf eine Seite verweisenden Links lediglich formal eine Eigenschaft der Seite dar. Diese Eigenschaft ist nicht in der Seite selbst angelegt, die Links werden als subjektive Urteile interpretiert, so dass die Link-Analyse damit Merkmale benutzer-orientierter Definitionen aufweist. Die Entscheidungen stammen jedoch von einer sehr kleinen Gruppe von Benutzern - den Autoren von Web-Seiten - und spiegeln deren besondere und untypische Benutzungssituation dar. Die meisten Autoren in diesem Umfeld scheinen transzendente Definitionsansätze zu präferieren. Demnach existiert eine objektive und absolute Qualität, welche durch geeignete Algorithmen der Link-Analyse gemessen wird. Die folgenden Abschnitte stellen die wichtigsten Algorithmen und ihre neueren Varianten vor. Link-Analyse lässt sich auch als Teilgebiet der Graphentheorie einteilen. Die Graphentheorie ist eine Teildisziplin der Algebra, die sich mathematisch mit netzwerkartigen Strukturen befasst (BOSE & LIANG 1996). Das Internet kann als derartiges System interpretiert werden, wobei der Inhalt der Seiten völlig 1 Eingehende Links und häufige Besuche gelten auch in nicht-kommerziellen und nichtwissenschaftlichen Umgebungen als erstrebenswert und werden quasi als Währung akzeptiert: „In the world of weblogs, traffic is currency. ... Links - to and from other sites - are the coin of the realm.“ (BLOOD 2002:XI) 144 Automatische Qualitätsbewertung durch Link-Analyse vernachlässigt wird. Die Dokumente gelten als Knoten (oder units) und die Links als Verbindungen (oder connections). Ein Netzwerk mit Knoten und Verknüpfungen lässt sich auch als Matrix darstellen, wie Abbildung 3.2 zeigt. 7.1 Der PageRank-Algorithmus PageRank benutzt die Anzahl der Links, die auf eine Seite verweisen als Parameter für sein Qualitätsmaß. Laut Aussagen der Betreiber nutzt die Suchmaschine Google den PageRank-Algorithmus1, der aufgrund der hohen Popularität von Google als umfangreichste und erfolgreichste Implementierung automatischer Qualitätsbewertung gelten kann. Der schnelle und große Erfolg von Google lässt sich damit eventuell teilweise auf die Bewertung der Qualität zurückführen. PageRank summiert nicht nur die Links auf eine Seite, sondern gewichtet Links von Seiten mit bereits hoher Qualität stärker. Zunächst erhalten alle Seiten das gleiche Gewicht als Verteiler. Das bedeutet, dass die Autorität, die eine verweisende Seite gewissermaßen vergeben kann, an der Anzahl der ausgehenden Links relativiert wird. Das Gewicht wird also durch die Anzahl der Links dividiert um zu verhindern, dass eine Seite mit vielen Links im Endeffekt stärkeren Einfluss auf das Gesamtergebnis nimmt, (PAGE ET AL. 1998). Darüber hinaus wird der Einfluss einer Seite auch mit deren Autorität relativiert. Je größer die Autorität einer Seite ist, desto höheres Gewicht haben die von ihr ausgehenden Links. Der Algorithmus arbeitet iterativ. Zunächst werden alle Seiten mit dem gleichen Autoritätswert initialisiert und dann berechnet der erste Schritt die neue Autorität aller Seiten aus der Verlinkung. Dabei ergeben sich neue Autoritätswerte, so dass alle Werte nun erneut berechnet werden und das Ergebnis die angestrebte Autorität besser wiedergibt (siehe auch BAUER 2003). Die folgende Abbildung zeigt einen Schritt bei der Berechnung von PageRank. 1 http://www.google.com, http://www.google.de 145 Automatische Qualitätsbewertung durch Link-Analyse 100 53 50 53 50 9 3 50 25 3 25 3 Abb. 7.1: Berechnung von PageRank nach PAGE ET AL. 1998 Die Formel für den PageRank-Algorithmus lautet: R( p) = α n + (1 − α ) • R(q) ∑ outlinks(q) ( q, p) R( p) PageRank von Seite p α (nach HENZINGER 2000:2f.) Parameter ( zwischen 0,1und 0,2) n Zahl der Seiten im Graph (q, p) Seiten q mit Link zu Seite p outlinks (q) Zahl der out − Links von Seite q In der ursprünglichen Formel von PAGE ET AL. 1998:3 ist der Parameter vor der Summe noch nicht abhängig von der Anzahl der Seiten im untersuchten Graph. Die Berechnung kann auch als Funktion der Verbindungsmatrix des Internets (bzw. des untersuchten Ausschnitts) betrachtet werden. Im iterativen Ablauf wird dann bei jedem Schritt der PageRank-Vektor neu aus dem vorherigen PageRank-Vektor sowie der Verbindungsmatrix berechnet. 146 Automatische Qualitätsbewertung durch Link-Analyse r R = f (ℜ) r r R ' = f ( R , ℜ) r R PageRank − Vektor über alle Seiten ℜ Verbindungsmatrix zwischen allen Seiten Laut den Autoren konvergiert der Algorithmus nach einer Anzahl von Schritten (cf. PAGE ET AL. 1998), d.h. bei einem weiteren Berechnungsschritt verändern sich die Autoritätswerte kaum mehr. Der PageRank-Vektor kann also auch durch wiederholtes Multiplizieren mit der Verbindungsmatrix berechnet werden. Der konvergierte PageRank-Vektor bildet also die Lösung zu folgender Gleichung: r r R = R x ℜ (nach HAVELIWALA 2002:3) Dieser Vektor ergibt nach einer Multiplikation mit der Verbindungsmatrix also wieder sich selbst. Einen Vektor mit dieser Eigenschaft bezeichnet man als Eigen-Vektor der Matrix. Der Autoritätswert wird für das Berechnen des Rankings der Dokumente nach einer Anfrage benutzt (cf. PAGE ET AL. 1998). Viele Autoren sprechen von einer Summierung der Link-Maße und der auf Basis des Inhalts berechneten Retrieval Status Value. Der PageRank-Algorithmus benutzt auf den ersten Blick sehr plausible Annahmen, um die Autorität und damit die Qualität einer Seite zu berechnen. Allerdings arbeitet er rein auf der Ebene der Seite und berechnet z.B. keine Autorität für eine gesamte Site. So kann es passieren, dass eine qualitativ sehr gute Site insgesamt hohe Werte erreicht, dass allerdings auf die darin enthaltene Linksammlung wenig verwiesen wird und sie dadurch keine hohe Autorität zugewiesen bekommt. 147 Automatische Qualitätsbewertung durch Link-Analyse PageRank-Wert der Zielseite PageRank-Werte der Ausgangsseiten 100% 0% Anzahl der eingehenden Links Abb. 7.2: Funktionsweise PageRank PAGE ET AL. 1998 bemerken bereits die Bedeutung des PageRank-Wertes für das Browsing und entwickelten das Random Surfer-Modell. Der PageRankWert gibt in diesem Modell die Wahrscheinlichkeit wieder, mit der ein Surfer auf eine Seite trifft, wenn er für lange Zeit Hypertext-Verbindungen verfolgt und nie auf eine bereits besuchte Seite zurückkehrt. Zudem springt er nach einer bestimmten Anzahl von Schritten zufällig auf eine beliebige Seite. Diese Zufallswahrscheinlichkeit wird im ersten Summand der PageRank-Formel angegeben. Sie beträgt einen kleinen Wert α, der durch die Anzahl der Seiten dividiert wird. Dieser sogenannte Teleportations-Parameter gewinnt in Abschnitt 7.7 bei der Vorstellung von Varianten des Algorithmus noch an Bedeutung. Diese Idee des Random Walk basiert auf einem einfachen Modell des Browsing, bei dem ein Benutzer immer zufällig einen Link aus einer Seite auswählt. Seiten, auf die häufig verlinkt wird, haben dabei eine höhere Trefferwahrscheinlichkeit. Und auch diese Wahrscheinlichkeit hängt wiederum davon ab, wie häufig auf diese Seite verlinkt ist. In der Suchmaschine Google wird der PageRank-Wert einer Seite mit der System-Relevanz kombiniert. Die Wahrscheinlichkeit des Treffens auf einer Seite beim Browsing wird also 148 Automatische Qualitätsbewertung durch Link-Analyse auf die Suche übertragen. Das Random Surfer-Modell stellt jedoch ein zu einfaches Modell des Benutzerverhaltens dar. Darüber hinaus beruhen die Algorithmen der Link-Analyse auf weiteren scheinbar plausiblen Annahmen über das Benutzerverhalten, die sich jedoch bei genauerer Betrachtung als problematisch erweisen1. So ist es unwahrscheinlich, dass ein Autor einer Internet-Seite vor dem Setzen eines Links eine eingehende, qualitative Überprüfung der Zielseite vornimmt. Bedenkt man allein die große Anzahl von Seiten und darin enthaltenen Links, so ist eine Qualitätsprüfung zeitlich fast unmöglich. Weiterhin dienen zahllose Links lediglich der Navigation. Für wissenschaftliche Aufsätze weisen NIE ET AL. 2005 auf die unterschiedlichen Rollen von eingehenden Links hin. Links stellen also bei weitem nicht immer eine positive Bewertung dar, vielmehr bietet die Forschung sogar Gegenbeispiele. • AGRAWAL ET AL. 2003 zeigen etwa, dass Links innerhalb von Newsgroups meist eine negative Einschätzung zum Ausdruck bringen. In der sozialen Struktur einer online-Diskussion besteht eine starke Tendenz, dann auf einen Beitrag zu antworten, wenn man nicht mit ihm übereinstimmt. Mit dem Widerspruch verbinden Autoren dann auch meist ein negatives Qualitätsurteil. Der aus einem Beitrag resultierende Link in einer Benutzungsoberfläche im Internet kann also nicht als positives Qualitätsurteil gelten. • XUE ET AL. 2003 stellen ein System zur Verbesserung von LinkAnalyse-Verfahren für kleine Mengen von Web-Seiten vor. Im Rahmen ihrer Studie ließen die Autoren für eine kleine Menge von Seiten aus einer Site die Links intellektuell bewerten. Dabei waren lediglich 39% aller Links als positive Bewertung (recommendation links) zu werten (XUE ET AL. 2003:59). 7.2 Grundlage Bibliometrie Die Grundideen dieser Analysen der Verlinkungsstruktur stammen aus der Biblio- oder Szientometrie, die das Netzwerk der wissenschaftlichen Zitate analysieren und darauf abzielen, Publikationen aufgrund der Häufigkeit der auf sie verweisenden Zitate zu bewerten (BALL & TUNGER 2005). 1 Diese bedenkliche Grundannahme formulieren etwa XUE ET AL. 2003:57 ganz explizit: „For the global Web, the recommendation assumption is generally correct, because hyperlinks encode a considerable amount of author´s judgement.“ 149 Automatische Qualitätsbewertung durch Link-Analyse Komplexere Maße betrachten z.B. die Stellung eines Autors im DiskursNetzwerk und berücksichtigten über die Zitate hinaus die institutionelle Zugehörigkeit und Ko-Autorenschaft (cf. MUTSCHKE 2001). Andere komplexere Analysen errechnen aus den Häufigkeiten von Zitaten Maßzahlen für das Renommee von Zeitschriften, Tagungen oder Fachbereichen (cf. z.B. SCHLÖGL 2000). Der Marktführer für solche Analysen ist das Institute for Scientific Information (ISI1). Vor allem in der nordamerikanischen Hochschullandschaft wirken die bibliometrischen Maßzahlen als wichtiger Faktor in Beschäftigungsverhältnissen von Professoren. In Deutschland werden sie eher kritisch betrachtet und spielen keine so große Rolle. Dies liegt an den unterschiedlichen Werten in den Kulturen. Während die USA stark individualistisch geprägt ist, legen die deutsche und noch stärker einige asiatische Kulturen Wert auf die Gemeinschaft und die Beziehung zwischen Mitgliedern von Gruppen. Dementsprechend bewerten individualistische Kulturen Strategien wie pay for performance als gerecht, während kollektivistische Kulturen solche Management-Ansätze als wenig ausgewogen ablehnen (TROMPENAARS & HAMPDEN-TURNER 1997:4f.). Einige Maße der Bibliometrie entstammen der Netzwerkanalyse (JANSEN 2003). Ein Maß ist etwa die Zentralität, die sich als der Anteil der Knoten berechnet, mit der ein bestimmter Knoten direkt verbunden ist (DHYANI ET AL. 2002). Einen Überblick über die Übertragung von bibliometrischen Maßen und Verfahren auf Internet-Dokumente liefern CHOO ET AL. (2000:142ff). Die technischen Möglichkeiten der online Verfügbarkeit von wissenschaftlicher Literatur führt dazu, dass bibliometrische Analysen heute Teil von kostenlos zugänglichen digitalen Bibliotheken sind2. 7.3 Überblick über Algorithmen zur Link-Analyse Die zahlreichen Algorithmen zur Link-Analyse lassen sich nach folgenden Kriterien einteilen: • Global (query independent) und nachbarschaftsbezogen (query dependent, vincinity oder neighborhood algorithms) 1 http://www.isinet.com/isi/ 2 Entsprechende Kennzahlen sind z.B. in Daffodil (http://www.daffodil.de) und dem CiteSeer Research-Index (http://citeseer.ist.psu.edu/cs, LAWRENCE ET AL. 1999) integriert. 150 Automatische Qualitätsbewertung durch Link-Analyse • Anzahl der Qualitätswerte (meist ein oder zwei Maße, authority und evtl. auch hub) • Behandlung lokaler Links (Verbindungen innerhalb des gleichen Servers) • Art der Kombination mit RSV Globale Ansätze beanspruchen ihre Gültigkeit für das gesamte ihnen bekannte Internet und führen die Link-Analyse offline durch. Dagegen beschränken Neighborhood-Algorithmen ihre Berechnungen auf kleine Ausschnitte des Internets (z.B. erweiterte Suchmaschinen-Ergebnisse) und führen die Analyse nur bei Bedarf durch (etwa bei einer Suchanfrage). In der Regel bestimmen die Link-Analyse-Algorithmen einen Qualitätswert. Der Kleinberg-Algorithmus (KLEINBERG 1998) und seine Varianten unterscheiden zwei Rollen für Internet-Seiten und definieren einen Wert für jede Rolle. Demnach besitzt jede Seite einen Wert für ihre Qualität als Authority oder Inhalt und für ihre Qualität als hub oder Verweisseite (siehe folgender Abschnitt). Die Verknüpfungen zwischen Seiten innerhalb einer Site dienen in erster Linie der Navigation. Selbst wenn es sich um positive Bewertungen handelt, so stammen diese oft vom gleichen Autor oder zumindest der gleichen Institution. Damit scheiden sie als unabhängiges Qualitätsurteil aus und sollten wie Eigen-Zitate in bibliographischen Analysen nicht berücksichtigt werden. Die Erkennung solcher Links ist aber nicht völlig trivial und nicht immer eindeutig möglich, so dass sie nicht jedes Verfahren aussortiert. Dies wird auch nicht immer erwähnt. Der originale PageRank-Algorithmus hat diese Links innerhalb von Sites zugelassen. Die wichtigste Anwendung der Link-Analyse liegt in der Ergänzung von Information Retrieval-Systemen (Suchmaschinen) um Qualitätsaspekte. Dazu wird ein Wert für die Relevanz jedes Dokuments berechnet und ein Wert für die Qualität jedes Dokuments. Im Gesamtergebnis wirken diese beiden Werte je nach Implementierung unterschiedlich zusammen. Die Fusion unterschiedlicher Evidenzwerte für die Relevanz eines Dokuments hat im Information Retrieval bereits Tradition, so dass hier auf umfangreiche Forschungsergebnisse zugegriffen wird (siehe Abschnitt 12.1). Eine andere Art der Integration von Links stellen SUGIYAMA ET AL. 2003 vor. Die Größe des Dokuments, das dem Benutzer präsentiert werden soll, stellt die Entwickler immer wieder vor Fragen. Zwar wird meist das originale Dokument präsentiert, so es wie vom Autor erstellt wurde, jedoch existieren 151 Automatische Qualitätsbewertung durch Link-Analyse auch Systeme, die größere oder kleinere Einheiten liefern. Das sogenannte Passage Retrieval extrahiert kleinere Einheiten aus großen Dokumenten und dient unter anderem der Extraktion einer Antwort auf eine Faktenanfrage wie im Question Answering (cf. HARABAGIU & MOLDOVAN 2003). Im Rahmen der INEX-Initiative geht es gerade um die Extraktion des kleinstmöglichen Teils eines Dokuments, das aber einen hohen Relevanzwert besitzt (cf. FUHR ET AL. 2003). Dagegen zielt der Ansatz von SUGIYAMA ET AL. 2003 zumindest für die Indexierung auf eine Vergrößerung des Dokuments hin. Für die Extraktion der Terme und die Berechnung der Termhäufigkeit sowie der inversen Dokumentfrequenz fügen die Autoren SUGIYAMA ET AL. 2003 dem Ausgangsdokument die mit ihm verlinkten Dokumente hinzu. Dies geschieht in beiden Richtungen in bis zu zwei Schritten, so dass sowohl Seiten, die in der Ausgangsseite als Link enthalten sind, hinzugefügt werden, als auch Seiten, die auf die Ausgangsseite verweisen. Die Linkanalyse definiert in diesem Verfahren also die Größe des Dokuments. 7.4 Maße mit zwei Rollen Der HITS- (Hyperlink Induced Topic Search) oder Kleinberg-Algorithmus gilt als Vorläufer des PageRank-Algorithmus. Kleinberg zielt ebenfalls auf Autorität ab und berücksichtigt nur die Verbindungsstruktur zwischen einer Menge von Seiten. Er führt zwei Rollen ein, um die Autorität zu bewerten (KLEINBERG 1998). Der sogenannte HITS-Algorithmus (Hyperlink Induced Topic Search) spricht von Hubs und Authorities und weist jeder Web-Seite ein Gewicht für beide Rollen zu. Ein Hub entspricht einem Mittelpunkt oder Verteiler, dessen Aufgabe im Wesentlichen in der Bereitstellung von Verbindungen zu anderen Seiten besteht. Dahinter steht die Vorstellung eines Clearinghouses oder in der Wissenschaft der eines guten Überblicksartikels. Ein hoher Hub-Wert kennzeichnet also einen guten Informationsvermittler. Die Authorities dagegen enthalten die eigentliche Information in unterschiedlicher Qualität. Im Gegensatz zum PageRank-Algorithmus findet das Verfahren von Kleinberg nur Anwendung auf eine Menge von ca. 5000 bis 10.000 Seiten, die aus einer Suchanfrage ermittelt werden. Die besten Suchergebnisse eines Suchdienstes werden analysiert und die enthaltenen Verbindungen extrahiert. Die entsprechenden Seiten gelangen bis zu einer bestimmten Tiefe in den Datenbestand. Die Verbindungen innerhalb dieser Menge werden nun iterativ analysiert. Jede Seite besitzt sowohl ein Gewicht als Hub als auch als Authority, die in jedem Durchlauf modifiziert werden. Die Autorität einer Seite steigt mit der Anzahl der ankommenden Verbindungen. Diese Zahl wird 152 Automatische Qualitätsbewertung durch Link-Analyse aber mit dem Hub-Gewicht der Ausgangsseite relativiert. Nur die Links von guten Verteilern wirken sich somit stark auf die Autorität einer Seite und damit auf das Authority-Gewicht aus. Ebenso unterliegt das Hub-Gewicht einer Veränderung, die von der Autorität der Zielseiten abhängt. Auf je bessere Seiten der Verteiler verweist desto besser ist er und desto stärker steigt sein Hub-Gewicht. Ziel ist die Identifikation der Seiten mit der höchsten Autorität innerhalb der Untermenge. erweiterte Menge SuchmaschinenTreffer Abb. 7.3: Ermittlung der Untermenge für den Kleinberg-Algorithmus A( p ) = ∑ H (q ) (q, p) H ( p) = ∑ A(q) (q, p) (nach HENZINGER 2000:4f.) H ( p) hub − Wert von Seite p A( p ) authority − Wert von Seite p Auch der HITS-Algorithmus lässt sich als Funktion der Verbindungsmatrix ausdrücken. 153 Automatische Qualitätsbewertung durch Link-Analyse r r A = f ( H , ℜ) r r H = f ( A, ℜ) ℜ Verbindungsmatrix zwischen allen Seiten Die folgende Abbildung 7.4 zeigt schematisch die Funktionsweise von HITS. 100% authority hub 0% Inhalt link link link Abb. 7.4: Der HITS-Algorithmus als gegenseitige Verstärkung von Hub- und Authority-Gewicht Die Trennung von Hub- und Authority-Werten wirkt sehr plausibel, jedoch besitzt der HITS-Algorithmus einige Schwächen. In dieser Richtung wurden weitere Algorithmen entwickelt. Der Algorithmus birgt die Gefahr der weiten thematischen Entfernung durch die Integration weiterer Seiten neben dem eigentlichen Suchergebnis. Diese können von dem Thema, das mit der Suchanfrage verbunden ist, schon weit entfernt liegen. Sind dies sehr viele oder stark untereinander verlinkte Seiten, dann besteht die Gefahr, dass die Autoritäten für ein anderes Thema als das 154 Automatische Qualitätsbewertung durch Link-Analyse der ursprünglichen Suchanfrage gefunden werden (topic-drift, cf. LEMPEL & MORAN 2000). Der Kleinberg-Algorithmus ist also immer kontextabhängig und somit wirken auch die Besonderheiten der jeweiligen Themen. So unterscheiden sich die Absolutwerte sicherlich abhängig von der Datenmenge und reflektieren damit das unterschiedliche Link-Verhalten der jeweils beteiligten Autoren. Ebenso kennt die Bibliometrie unterschiedliches Zitierverhalten in den Wissenschaften. Allerdings bleiben einige Verteilungen nach den Untersuchungen von DILL ET AL. 2001 eben auch konstant, so etwa die Zahl der Links pro Seiten und die Verteilung von In- und Out-Links über alle Seiten. Übrigens konnte KLEINBERG 1998 beweisen, dass eine Seite weder nach dem ersten noch nach dem letzten Schritt sowohl Hub als auch Authority sein kann. Somit sind die intuitiv einsichtigen Rollen auch formal gerechtfertigt. SALSA (Stochastic Approach for Link-Structure Analysis, LEMPEL & MORAN 2000) analysiert wie HITS die Links einer anfrageabhängigen Menge von Seiten und löscht ebenso die Links innerhalb von Sites. Im Gegensatz zu HITS und auch PageRank berechnen LEMPEL & MORAN 2000 die Werte nicht iterativ. Der Authority-Wert einer Seite im SALSA-Algorithmus ergibt sich lediglich aus der Anzahl der In-Links normalisiert an der Zahl aller In-Links im Graphen. Analog ergibt sich der Hub-Wert als Zahl der ausgehenden Links normalisiert an der Zahl aller ausgehenden Links im root set. B(i ) F (i ) hub(i ) = B F Anzahl In − Links Anzahl ausgehende − Links authority (i ) = B F Eine weitere Modifikation führen BORODIN ET AL. 2001 ein. Sie sehen ein Problem von HITS darin, dass auch sehr schlechte Seiten immer noch einen positiven Beitrag leisten und somit in einem gewissen Maße Quantität mehr zählt als Qualität. Verweisen etwa zwei Hubs A und B auf zehn sehr gute Authorities und Hubs B noch zusätzlich auf zwei sehr schwache AuthoritiySeiten, so gilt intuitiv B als der schlechtere Hub, weil er zusätzlichen Noise einführt und nicht ausschließlich auf beste Seiten verweist wie der Hub A. HITS bewertet aber B als den besseren Hub. Dieses kontra-intuitive Ergebnis vermeiden BORODIN ET AL. 2001 durch die Bildung des Durchschnitts aller Authoritiy-Werte der Seiten, auf welche einen Hub verweist. 155 Automatische Qualitätsbewertung durch Link-Analyse Ein weiterer Verbesserungsvorschlag von BORODIN ET AL. 2001 zielt darauf ab, zu verhindern, dass eine Seite hohe Authoritiy-Werte erhält, obwohl nur viele schlechte Hubs auf sie verweisen. Dazu berücksichtigt das System lediglich die Hubs, die einen bestimmten Schwellenwert überschreiten. Dieser liegt mindestens beim Durchschnitt aller Hub-Werte der Seiten, die auf die aktuelle Seite verweisen. Der Algorithmus berücksichtigt nur diese HubWerte für die Berechnung der Authority. Analog zu dieser Hub-threshold führen BORODIN ET AL. 2001 auch einen Authority-threshold ein. Dabei zählen nur die Authorities, welche mindestens über dem Durchschnitt liegen, für die Berechnung des Hub-Wertes einer Seite. HITS: kontra-intuitiv 0,9 hub authority 100% 0,9 Hub-Wert Faktor 2,7 authority hub authority hub authority 0,9 100% 100% 0,9 hub authority 0,1 100% authority hub hub authority 100% 0% 0,9 DurchHub-Wert schnitt Faktor 0,9 3* 0,9 = 2,7 100% 0% hub authority hub authority 0% 0% 0% Hub-Wert Faktor 2,8 100% 0% 0% hub Lösung von Borodin et al. 2001: Durchschnittbildung hub authority 0% 100% 0,9 hub authority 100% 0% 0% 100% Hub-Wert DurchFaktor schnitt 4* 0,5 = 2,0 0,5 100% 0,1 hub authority 0% 100% 0% Abb. 7.5: Funktionsweise der Algorithmen von BORODIN ET AL. 2001 BORODIN ET AL. 2001 stellen auch eine Evaluierung anhand einiger selbst formulierter Themen vor, für die sie insgesamt neun link-basierte Verfahren testen. Die Ergebnisse zeigen, dass je nach Anfrage unterschiedliche Algorithmen die jeweils besten Ergebnisse liefern. Auch aus anderen Evaluierungen ist bekannt, dass die Abweichung bei den Anfragen meist höher ist als die zwischen den Systemen (cf. z.B. MANDL & WOMSERHACKER 2002). 156 Automatische Qualitätsbewertung durch Link-Analyse Die Trennung von Hubs und Authorities stellt eine plausible Trennung der Rollen von Internet-Seiten dar. Allerdings ist diese Trennung noch sehr grob. Internet-Seiten besitzen viele unterschiedliche Rollen, die abhängig von dem Informationsproblem eines Benutzers verschieden geeignet sein können. Dazu gehören etwa Seiten für die Navigation. Algorithmen wie HITS und SALSA sollten auch von vorneherein die Struktur von Sites mit berücksichtigen. Seiten auf hoher Ebene wie etwa Homepages verfügen in der Regel eher über Hub-Charakter, indem sie auf die anderen Seiten der Site verweisen, während Seiten auf niedriger Ebene tatsächlich Wissen anbieten und somit eher auf einen hohen Authority-Wert abzielen. 7.5 Aspekte der Implementierung Da der PageRank-Algorithmus iterativ ausgeführt wird, stellt er hohe Anforderungen an die benötigten Ressourcen. Suchmaschinen erfordern ohnehin eine umfangreiche Infrastruktur, um die Indizes der analysierten Seiten zu verwalten und leistungsfähige Server, um diese Indizes in angemessener Zeit zu durchsuchen. Die intensive Analyse der Verbindungsstruktur erfordert zusätzliche Rechenleistung. Zwar gehen PAGE ET AL. 1998 davon aus, dass der Aufwand für die Berechnung von PageRank neben der Erstellung des Volltext-Indexes unwesentlich ist, aber mit der steigenden Menge an Seiten erhöht sich der Aufwand erheblich. Neuere Arbeiten befassen sich deshalb auch mit der Optimierung der PageRank-Berechnung. Optimierte Datenstrukturen für die Berechnung und notwendige Modifikationen des Algorithmus stellt BAUER 2003 vor. In der ursprünglichen Version experimentieren PAGE ET AL. 1998 mit einer Menge von 75 Millionen Seiten mit 322 Millionen Links. Eine Workstation benötigte für eine Iteration sechs Minuten und nach 52 Iterationen war der Algorithmus konvergiert. In einem Überblicksartikel hält HENZINGER (2000:3) 100 Iterationen für ausreichend. Dagegen durchlaufen SAVOY & RASOLOFO (2000:585) für die Evaluierung von link-basierten Information Retrieval-Verfahren lediglich fünf Iterationen. Bei einer kleinen Datenmenge von ca. 900 Seiten konvergieren PageRank sowie der Kleinberg-Algorithmus bereits nach fünf bis sechs Schritten (BAUER 2003:75). 157 Automatische Qualitätsbewertung durch Link-Analyse Gegen Ende des Jahres 2001 indexiert Google nach eigenen Angaben ca. 1,6 Milliarden Internet-Seiten. Annäherungsweise kann man also von 16 Milliarden Links ausgehen, die iterativ bearbeitet werden müssen1. Angesichts dieser Größe überrascht das schnelle Konvergieren von iterativen Algorithmen zur Link-Analyse, die das Netz global untersuchen. Es lässt sich möglicherweise durch die starken Gesetzmäßigkeiten erklären, welchen die Verteilung von Links unterliegt. Einen weiteren Erklärungsansatz bieten BRODER ET AL. 2000 in der Analyse eines sehr großen Crawls. Die Autoren untersuchen, ob der hohe Grad der Konnektivität in einem Teil des Internets hauptsächlich auf Seiten mit sehr vielen In-Links zurückzuführen ist. Dazu wurden Seiten mit einer bestimmten Anzahl von In-Links entfernt und anschließend der Umfang der größten, sogenannten Strongly Connected Component (SCC) bestimmt. Als Strongly Connected Component bezeichnet man Untermengen eines Netzwerks, in denen durch das Verfolgen der Verbindungen alle Seiten untereinander erreichbar sind. Verbindungen können dabei immer nur in einer Richtung verfolgt werden. Entspannt man diese Bedingung und lässt das Verfolgen eines Links in beiden Richtungen zu, so erhält man größere Teilmengen, in denen alle Seiten miteinander verbunden sind. Diese Strukturen werden als Weakly Connected Components (WCC) bezeichnet. 1 Es scheint, dass man als Heuristik davon ausgehen kann, dass eine Seite durchschnittlich zehn Links enthält, dass es also zehnmal mehr Hypertext-Verknüpfungen im WWW gibt als Seiten. Die Momentaufnahme des Web Track bei TREC enthält ca. fünfmal mehr Links als Seiten, allerdings wurden hierbei Links nicht gezählt, die nach außerhalb der gespeicherten Seiten verweisen (HAWKING 2001:10). 158 Automatische Qualitätsbewertung durch Link-Analyse Strongly Connected Components (SCC) -jeder Knoten ist von jedem anderen erreichbar Weakly Connected Components (WCC) -wie SCC, aber ohne Berücksichtigung der Richtung von Links Abb. 7.6: Strongly Connected Component und Weakly Connected Component Die größte SSC in einem Netzwerk wie dem Internet ist kleiner als die Gesamtmenge, besteht aber nach wie vor aus einer sehr hohen Zahl von Seiten (siehe Tabelle 7.1). Dies weist auf eine hohe Dichte der Verbindungsmatrix hin. Tabelle 7.1: Größen von Komponenten (aus BRODER ET AL. 2000:8) Anzahl der In-Links der entfernten Seiten 1000 100 10 5 4 3 Seiten in der größten Strongly Connected Component (in Millionen) 177 167 105 59 41 15 Nach Entfernen der Seiten mit mehr als einer festen Anzahl von In-Links entsteht also wiederum ein Netz bzw. ein Graph, der ähnliche Struktur aufweist wie das gesamte Web. Wie bereits DILL ET AL. 2001 festgestellt hatten, ähneln sich auch beliebige Ausschnitte aus dem Internet. Dazu hatten sie die Verteilung verschiedener Größen in unterschiedlichen Crawls untersucht. Die Analyse von BRODER ET AL. 2000 zeigt, dass eine gewisse Ähnlichkeit bestehen bleibt, wenn gezielt Seiten mit bestimmten Eigenschaften eliminiert werden. 159 Automatische Qualitätsbewertung durch Link-Analyse Das Internet unterliegt starken dynamischen Veränderungen (cf. FETTERLY ET AL. 2003, siehe Abschnitt 3.2.2) und so ändert sich auch die Link-Matrix laufend. Im realen Einsatz ändern sich damit ständig die Grundlagen der Link-Analyse. Somit muss für einen Ansatz wie PageRank entweder die komplette Berechnung neu durchgeführt werden oder ein effizientes UpdateVerfahren gefunden werden. Im ersten Fall stellt sich für die Betreiber also die Frage, nach wie vielen Änderungen eine Aktualisierung erforderlich wird. Diese Problematik untersuchen CHIEN ET AL. 2001. Dazu versuchen die Autoren zu analysieren, nach wie vielen Modifikationen in der Link-Matrix realer Web-Daten sowie künstlich erzeugter Daten eine Neuberechnung nötig wird. Die Modifikationen erfolgen zufallsgesteuert, sie basieren aber auf empirisch validierten Modellen über die Wahrscheinlichkeitsverteilung für die Veränderung von Links. Diese Modelle besagen, dass sich die Wahrscheinlichkeit für einen Link auf eine Seite aus zwei Faktoren zusammensetzt. Ein Anteil von etwa 10% der Wahrscheinlichkeit liegt für alle Seiten gleich hoch. Der größere zweite Anteil hängt von der Anzahl der bereits vorliegenden Links ab, so dass Seiten, die im Sinne der Link-Analyse bereits populär sind, eher noch weitere Links anziehen als wenig populäre Seiten. CHIEN ET AL. 2001 schlagen eine Lösung vor, die einen Teilgraphen aus dem gesamten Netz extrahiert, für dessen Seiten die Wahrscheinlichkeit für eine Änderung des PageRank-Wertes sehr hoch ist. Anschließend berechnet das System lediglich für diese kleine Untermenge die Änderungen der PageRankWerte. Dadurch reduziert sich der Rechenaufwand erheblich. Laut CHIEN ET AL. 2001 erreicht der Algorithmus unter den meisten Umständen 99% der Seiten, die auch bei einer vollständigen Analyse aktualisiert werden. Allerdings vernachlässigt der Ansatz von CHIEN ET AL. 2001 den Einsatz von PageRank im Information Retrieval. Die Evaluierung prüft die Änderungen in den absoluten Werten der PageRank-Werte. Für das Retrieval spielt aber letztendlich der absolute Wert keine Rolle, sondern lediglich, an welcher Rangposition ein Dokument aufgrund seines Wertes eingeordnet wird. Um zwei PageRank-Berechungen zu vergleichen, kann etwa die Korrelation zwischen den Rangfolgen bestimmt werden. Dazu eignen sich der Kendallund der Spearman-Koeffizient1. Eine erhebliche Beschleunigung der Berechnung von PageRank stellen KAMVAR ET AL. 2003 vor. Sie fügen nach einigen normalen PageRankIterationen einen Beschleunigungsschritt ein. Dabei werden die nicht 1 Diese statistischen Kennzahlen zum Vergleich von Rangfolgen wurden bereits im Information Retrieval zum Vergleich von Ergebnislisten eingesetzt (cf. MANDL 2001:253 ff.). 160 Automatische Qualitätsbewertung durch Link-Analyse dominanten Dimensionen des Eigenvektors der Matrix gelöscht. Dadurch konvergiert PageRank erheblich schneller, das Ergebnis weicht aber vom originalen Algorithmus etwas ab. Allerdings zeigen die Autoren, dass die Reihenfolge der ersten 100 Treffer bei beiden Verfahren sehr ähnlich ist. Allerdings hängt eine derartige Analyse auch stark von der jeweiligen Integration von Link-Maß und Retrieval-Ergebnis ab. Je nach Fusions-Algorithmus sind die Ergebnisse unterschiedlich. Optionen für diesen Schritt werden in Abschnitt 12.1 vorgestellt. 7.6 Modifikationen des Page-Rank-Algorithmus Inzwischen existieren zahlreiche Varianten von PageRank. Die folgende Darstellung konzentriert sich auf neueste Ansätze zur thematischen und individualisierten Anpassung. Eine Schwäche des PageRank-Algorithmus liegt in der fehlenden thematischen Fokussierung. Zum einen stellt der globale Ansatz natürlich einen Vorteil dar. Die Werte aller Seiten können vorab und ohne Berücksichtigung des Kontexts berechnet werden. Durch die Einbeziehung aller Seiten in die Analyse werden auch alle Links bewertet. Bei einer Einschränkung hinsichtlich der Seiten muss eine Link-Analyse immer bedenken, dass einige Links aus diesem Ausschnitt auf Seiten außerhalb verweisen und dass umgekehrt auch Links von außerhalb auf den Ausschnitt existieren. Der fehlende thematische Bezug von PageRank wird von vielen Autoren bemängelt. Der globale Ansatz, der für jede Seite vor der Anfrage einen Qualitätswert berechnet, bietet natürlich Vorteile für die Implementierung. Darüber hinaus kommt der thematische Bezug durch die Anfrage zur Wirkung. Gleichwohl stellt die themen-unabhängige Bewertung der Seiten ein Problem dar, wie ein Gedankenexperiment schnell zeigt. Angenommen eine „beste“, hochspezialisierte Seite besitzt für ihr Themengebiet die höchste Qualität. Im globalen Ranking von PageRank rangiert sie trotzdem weit abgeschlagen, da aufgrund der hohen Spezialisierung nur wenig potentielle Interessenten existieren und davon einige Links auf das Angebot setzen. Bei einer Anfrage besitzen nun andere weniger spezialisierte Angebote weit höhere PageRank-Werte, so dass die „beste“ Seite im Ergebnis keinen hohen Platz erreicht. Würden aber mehrere Rankings für unterschiedliche Themengebiete existieren, dann könnte sich die „beste“ Seite eher durchsetzen. Ein derartiges System würde auch berücksichtigen, dass beispielsweise z.B. ein Internet-Verzeichnisdienst für manche Themen sehr 161 Automatische Qualitätsbewertung durch Link-Analyse hohe Qualität liefert, für andere Themen dagegen nicht. Mehrere Ansätze gehen in diese Richtung. HAVELIWALA 2002 stellt eine Variante des PageRank-Algorithmus vor, die eine thematische Fokussierung vornimmt. In dem Ansatz werden als Themen die sechzehn obersten Kategorien des Internet-Verzeichnisdienstes Open Directory Project1 gewählt2. Für jede dieser Kategorien wurden die Seiten unterhalb der Kategorie extrahiert, wobei allerdings unklar bleibt, ob die Katalog-Seiten oder die darin verwalteten externen Links gemeint sind. Diese Seiten wurden zu einem Term-Vektor zusammengefasst, so dass für jedes Thema ein Vektor vorliegt, der das Thema in einem Vektor-Raum ansiedelt. Für jede Seite wird die Ähnlichkeit des Term-Vektors der Seite zu den TermVektoren aller Themen bestimmt. Eine Seite wird nicht nur einem Thema zugeschlagen, sondern erhält für jedes Thema ein Gewicht, das diese Ähnlichkeit wiederspiegelt. Zudem erhält jede Seite einen PageRank für alle Themen. Der endgültige PageRank ergibt sich dann als lineare Kombination der einzelnen PageRank-Werte, die mit dem Themen-Gewicht der Seite multipliziert werden. Entscheidend an dem Ansatz von HAVELIWALA 2002 ist die Berechnung der themenspezifischen PageRank-Werte. Die Auswahl der Themen anhand eines Internet-Verzeichnisdienstes führt möglicherweise nicht zur optimalen Definition der Themen, sie bietet aber einen guten Ansatzpunkt und der Ansatz von HAVELIWALA 2002 erlaubt hier andere Themensetzungen. Auch die automatisierte Qualitätsbewertung erfordert sinnvolle thematische oder kategorielle Einteilungen von Internet-Seiten. Besonders Kategorien wie Homepages, E-Commerce-Angebote oder wissenschaftliche Seiten, die „quer“ zu den Themen liegen, scheinen vielversprechend. 1 http://dmoz.org 2 Ansätze zur Gewinnung thematischer Differenzierung anhand von Verzeichnisdiensten treten auch bei anderen Autoren auf (z.B. CHAKRABARTI ET AL. 2002:5) 162 Automatische Qualitätsbewertung durch Link-Analyse PageRank-Werte der Ausgangsseiten Kombination von Gewichtung und PageRank 100% 0% Bewertung des Inhalts Gewichtung der Links Ähnlichkeit zur Anfrage Abb. 7.7: Adaption von PageRank: Gewichtung nach Ähnlichkeit zu einer Anfrage Die Berechnung der themenspezifischen PageRank-Vektoren lässt sich als eine Modifikation der Verbindungsmatrix vor der Bestimmung des EigenVektors interpretieren. r r R = R x ℜ* r r r (nach HAVELIWALA 2002:4) R = (1 − α )ℜ x R + α p Während α nur einen Dämpfungsparameter darstellt, führt der Vektor p zur Modifikation der PageRank-Werte. Die Formel lässt sich im Rahmen des sogenannten Random Surfer-Modells interpretieren. Der PageRank-Wert einer Seite entspricht der relativen Wahrscheinlichkeit, dass ein Benutzer, der für lange Zeit zufällig Links verfolgt, auf diese Seite trifft. Da es im Web viele Sackgassen gibt, springt dieser Benutzer in Random Surfer-Modell nach einer Reihe von Schritten unabhängig von einem Link auf eine zufällig ausgewählte Seite. Um dies zu simulieren, addiert man in der Link-Matrix zu allen Zellen ein sehr kleine positive Zahl (Teleportations-Parameter). Damit 163 Automatische Qualitätsbewertung durch Link-Analyse besteht eine Übergangswahrscheinlichkeit zwischen allen Seiten im betrachteten Graphen. Bei der Berechnung der themen-spezifischen PageRank-Vektoren wird dieser kleine Wert nicht mehr über alle Seiten gleich verteilt, sondern Seiten zu einem Thema werden höher gewichtet und diese gewinnen sodann auf die Berechnung des PageRank höheren Einfluss. Dieses Verfahren kann ebenso auf individuell ausgewählte Seiten begrenzt werden und dient dann der Personalisierung des PageRank. HAVELIWALA 2002 betont, dass sein Verfahren nicht in einer nachträglichen Modifikation des ursprünglichen PageRank-Vektors besteht, sondern dass vielmehr jeder einzelne Berechnungsschritt von dem Gewichtungsvektor beeinflusst wird. Allerdings zeigt er nicht, dass hierdurch ein völlig anderes Ergebnis entsteht. In manchen Fällen mag auch eine nachträgliche Berechnung sinnvoll sein. Sie erlaubt auch den schnellen Wechsel der Themen und sogar das schnelle Berechnen neuer Themen, während HAVELIWALA 2002 auf eine vordefinierte Menge von Themen beschränkt ist. r r r R * (Themai ) = β R pi β r pi Gewichtungsfaktor Themen − Vektor Der Vorschlag von HAVELIWALA 2002 ließe sich für sehr viele Themen bis hin zu individuellen Profilen realisieren und weist somit bereits in Richtung Individualisierung. Ein personalisiertes PageRank stellen JEH & WIDOM 2003 vor. Dabei erstellt das System nicht real für jeden Benutzer ein eigenes Qualitätsranking, jedoch kann bei diesem Verfahren durchaus jeder Benutzer ein anderes Ergebnis erhalten. Den Ansatzpunkt liefern bereits PAGE ET AL. 1998 in ihrer ersten Darstellung des Algorithmus. Im Random Surfer-Modell, auf dem PageRank beruht, verfolgt ein Benutzer immer einen zufällig gewählten Link auf einer Seite (siehe oben). Der PageRank-Wert einer Seite misst dann die Wahrscheinlichkeit, mit der ein Benutzer auf diese Seite trifft. Personalisierte Versionen korrigieren diese stark vereinfachende Annahme etwas. Demnach verfolgen Benutzer eher Links auf Seiten, die sie stärker interessieren. RICHARDSON & DOMINGOS 2002 nennen ihr entsprechendes Modell Intelligent Surfer. Sie gewichten Links stärker, bei denen sowohl die Ausgangsseite als auch die Zielseite den Anfrageterm enthält. Demnach erhalten Links von Seiten mit ähnlicher Thematik höheres Gewicht, während Links von Außenseitern weniger zählen. Das Interesse des Benutzers ermitteln PAGE ET AL. 1998 sowie JEH & WIDOM 2003 aus einer Sammlung von relevanten Seiten. Dieses Verfahren hat den 164 Automatische Qualitätsbewertung durch Link-Analyse Vorteil, dass jede beliebige Menge von Web-Seiten als Ausgangspunkt dienen kann. Meist verwenden die Systeme die Bookmarks des Benutzers, die zwar leicht zu extrahieren sind, jedoch nur ein sehr eingeschränktes Benutzermodell darstellen. Die Menge von Seiten wirkt dann während der Berechnung von PageRank als Bias. Ein Gewichtungsvektor, in dem diese Seiten ein hohes Gewicht haben, beeinflusst jeden Berechnungsschritt. So lässt sich also PageRank auch stärker als Qualitätsmaß parametrisieren, wenn man die Qualitätsdefinition von Clearinghouses und Verzeichnisdiensten ansetzt. Es wird vermutet, dass die Suchmaschine Google auch ein derartiges Verfahren einsetzt und auf diese Weise einen „Yahoo-Bonus“ realisiert. Allerdings profitieren davon nur die wenigen tatsächlich in diesen Diensten referenzierten Angebote, während ähnliche Angebote gleicher Qualität, die noch nicht aufgenommen wurden, dadurch nicht höher gewichtet werden. Die automatische Qualitätsbewertung sollte aber auch solche Seiten erkennen, die in vielen qualitätsrelevanten Eigenschaften mit den explizit positiv bewerteten Seiten übereinstimmen. JEH & WIDOM 2003 berechnen PageRank-Listen für verschiedene Terme. Dieser Ansatz ist möglich, da bei Suchmaschinen häufig gleiche oder sehr ähnliche Anfragen ankommen, so dass sich sogar ein Cache-Speicher von Ergebnisseiten auszahlt (BRODER ET AL. 2003). Für etwa 100 dieser Terme berechnen JEH & WIDOM 2003 PageRank-Vektoren und kombinieren diese zur Laufzeit so, dass das Modell dem des Benutzers entspricht. Allerdings erscheint diese Art der Personalisierung durch Links fragwürdig. Die Links mit stärkeren Gewichten sind Verbindungen, welche der Benutzer von den ihm bekannten Bookmarks aus ohnehin durch Navigieren erreichen kann. Bei der Suche sind aber häufig völlig neue und bisher unbekannte Seiten gefragt. Die vom Benutzer bevorzugten Seiten könnten am besten durch die Integration weiterer Wissensquellen ermittelt werden. Durch Integration von realen Benutzungsdaten lassen sich bei der PageRank-Berechnung die Links stärker gewichten, die häufiger benutzt werden. OZTEKIN ET AL. 2003 stellt ein entsprechendes Usage Aware PageRank vor, in dem häufig verfolgte Links den PageRank der Zielseiten stärker erhöhen. Einen sehr ähnlichen Ansatz verfolgen XUE ET AL. 2003. Ausgangspunkt ihres Verfahrens ist die empirisch nicht weiter belegte Aussage, Link-Analyse liefere gute Ergebnisse bei Suchen im gesamten Web und schlechtere Ergebnisse bei Suchen in kleineren Mengen von Internet-Seiten wie etwa Sites. Innerhalb dieser Menge greifen XUE ET AL. 2003 dann ebenfalls auf Log-Daten der Benutzeraktionen zu. Für die PageRank-Berechung benutzen die Autoren nicht die originale Link-Matrix, sondern ersetzen diese durch eine Matrix sogenannter impliziter 165 Automatische Qualitätsbewertung durch Link-Analyse Verknüpfungen, welche eher den Charakter positiver Empfehlungen tragen sollen1. Diese Links bestehen aus Paaren von Seiten, die häufig gemeinsam in Pfaden von Benutzern vorkommen. Die Evaluierung von XUE ET AL. 2003 weist auf eine Verbesserung der Retrievalergebnisse hin, beruht jedoch nur auf 30 Anfragen. Ansätze zur Integration der Log-Daten in die Link-Analyse erweitern die Grundlage der Qualitätsabschätzung. Allerdings lassen sie sich nicht global im Internet realisieren, da die Benutzungsdaten als Wissensquelle in diesem Umfang nicht zur Verfügung stehen. Solche Verfahren eignen sich also nur für einzelne, große Server oder Intranets (siehe Abschnitt 8.4). Weitere Link-Analyse-Algorithmen wurden u.a. von LEMPEL & MORAN 2000, ABITEBOUL ET AL. 2003 und TOMLIN 2003 vorgeschlagen. 7.7 Globale Link-Struktur des Internets Die Link-Struktur des Internets insgesamt liefert einen wichtigen Beitrag zur Interpretation der Link-Analyse-Verfahren. Dazu zählen die statische Verteilung von eingehenden und ausgehenden Links pro Seite und Site, dynamische Modelle, die das Entstehen der statischen Verteilung erklären sowie die Struktur des globalen Netzes, die unter anderem aufklärt, ob zwischen zwei Seiten immer eine Verbindung über mehrere Links besteht. Einen guten Überblick zu diesen Themen bietet BARABÁSI 2002. 7.7.1 Statische Modelle Wichtig für das Verständnis der Link-Analyse im Internet sind Erkenntnisse über die Wahrscheinlichkeitsverteilung unterschiedlicher Parameter im Zusammenhang mit Links. Die Graphentheorie untersucht vorwiegend zufällige Netzwerke (random networks), in denen alle Knoten die gleiche Wahrscheinlichkeit besitzen, einen Link zu erhalten. Verhält sich nun das Internet bezüglich In-Links wie ein solches Netzwerk oder ergeben sich hier andere Verteilungen? Zunächst ist überraschend, dass in einem auf den ersten Blick völlig chaotischen System wie dem Internet überhaupt Gesetzmäßigkeiten herrschen. Es zeigte sich mehrfach, dass etliche verschiedene Parameter im Inter- 1 „implicit recommendation links“ (XUE ET AL. 2003:57) 166 Automatische Qualitätsbewertung durch Link-Analyse net exponentiellen Wahrscheinlichkeitsverteilungen (Potenzgesetz, power law) folgen, die der Zipf’schen Verteilung ähneln. Die Formel für viele Verteilungen gleicht der für die Beziehung zwischen In-Links und der Anzahl von Seiten mit dieser Anzahl von In-Links: p (i ) = 1 iα bzw. p(i ) = i −α i Anzahl von In − Links p (i ) Wahrscheinlichkeit , dass eine Seite i In − Links erhält α Parameter , der die Verteilung beschreibt (nach BRODER ET AL. 2000:2) Der Parameter α beschreibt den genauen Verlauf der Verteilung. Er beträgt im gesamten Web für In-Links etwa 2,1 (BRODER ET AL. 2000). Aber nicht nur die Anzahl der Links folgt diesen Gesetzen, sondern auch die PageRankWerte zahlreicher Web-Seiten. Diese immer wieder auftretenden Wahrscheinlichkeitsverteilungen scheinen geradezu ein Gesetz des Internet zu bilden. So gibt es z.B. viele Sites mit sehr wenigen Seiten und einige wenige mit Millionen von Seiten, manche Seiten werden selten besucht und andere ziehen einen Großteil des Internet-Verkehrs auf sich, auf die meisten Seiten verweisen sehr wenige Links während auf einige wenige populäre Seiten Millionen von Links zielen (HUBERMAN 2001). Bei Verteilungen nach dem Potenzgesetz überwiegen Elemente mit sehr niedrigen Werten während einige wenige Elemente sehr, sehr hohe Werte erzielen (HUBERMAN 2001). Deswegen werden diese Verteilungen auch manchmal als 80:20-Regel bezeichnet. Denn 20% der Elemente verfügen über 80% der zu verteilenden Werte, während auf die übrigen 80% lediglich 20% entfallen. Der Durchschnitt liegt bei derartigen Verteilungen weit über dem Median. In einer Darstellung mit zwei logarithmischen Achsen erscheint die Kurve als Gerade, deren Steigung dem Parameter α entspricht. Eine beispielhafte Verteilung zeigt die Abbildung 7.8. 167 Automatische Qualitätsbewertung durch Link-Analyse Link-Verteilungen Anzahl Seite aus Broder et al. 2002 Anzahl In-Links einer Seite Abb. 7.8: Verteilung nach dem Potenzgesetz aus BORDER ET AL. 2002 Diese Werteverteilung von PageRank-Werten muss bei der späteren Integration der Qualitätswerte mit der RSV beachtet werden. Zum einen werden bei einer weitgehend linearen Verteilung der RSV im oberen Trefferbereich Dokumente mit hohem Linkwerten stark dominieren. Liegen alle RSVTreffer eher in der unteren Hälfte der Linkwerte, so werden die Links wenig Einfluss auf das Ergebnis haben. Je nachdem, welcher Effekt gewünscht ist, müssen die Linkwerte entsprechend transferiert werden. Die Struktur von Web-Sites besitzt ebenfalls Einfluss auf die Link-Struktur im Internet. So dienen die Links innerhalb von Sites meist primär der Navigation. Die Navigation lässt sich jedoch nicht isoliert betrachten, vielmehr steht sie in engem Zusammenhang mit der thematischen und semantischen Aufteilung von Wissen auf mehrere Seiten eines Web-Angebots. In den meisten Fällen sind Sites nach wie vor hierarchisch aufgebaut. Dabei bieten für detaillierte Fragestellungen und Informationsbedürfnisse eher Seiten auf tiefer Ebene eine Lösung, während Seiten auf oberen Ebenen eher generelle Informationen bieten bzw. nur der Navigation dienen. Über die Interpretation der hierarchischen Struktur als positives bzw. negatives Qualitätsmerkmal besteht wenig Konsens. In einer Studie des IBMIntranets werten FAGIN ET AL. 2003 obere Ebenen der Hierarchie als Qualitätsindikator für das Ranking der Seiten, können dadurch allerdings 168 Automatische Qualitätsbewertung durch Link-Analyse keine Verbesserung des Retrievals erzielen. Der strukturelle Sonderfall der Suche nach einer Homepage, also der obersten Seite der Hierarchie spielt bei der Evaluierung eine Rolle (siehe Abschnitt zur Evaluierung unten). Analysen zeigen, dass die Site-Struktur die Anzahl der In-Links beeinflusst (siehe Teil III). 7.7.2 Dynamische Modelle Dynamische Modelle integrieren die Entwicklungsprozesse von Netzwerken und wollen so erklären, wie die exponentiellen Verteilungen zustande kommen. Derartige Modelle fügen sukzessive Knoten und Links zu einem Netzwerk hinzu und bestimmen die Wahrscheinlichkeit, mit der eine Verbindung zwischen zwei Knoten entsteht. Ein wichtiger Parameter besteht darin, welche Größe Einfluss auf die Wahrscheinlichkeit eines eingehenden Links hat. Die Diskussion kreist unter anderem darum, inwieweit die Wahrscheinlichkeit gleichförmig oder kumulierend ist. Haben alle Knoten die gleiche Wahrscheinlichkeit oder steigt diese Wahrscheinlichkeit mit der Anzahl der bereits vorhandenen eingehenden Links? PENNOCK ET AL. 2002 diskutieren verschiedene andere Modelle und gelangen zu einem hybriden Modell, das beide Versionen integriert. Demnach hat jede Seite die gleiche Basiswahrscheinlichkeit, dass auf sie verlinkt wird. Dazu tritt aber eine Wahrscheinlichkeit, welche von der Anzahl der bereits bestehenden Links abhängt. Π (l (i )) = α lc(i ) 1 + (1 − α ) L K Π (l (i )) Wahrscheinlichkeit , dass neuer Link auf Knoten i zeigt lc(i ) Anzahl der Links auf Knoten i ( Link − Count ) L aktuelle Anzahl der Links im Netz K aktuelle Anzahl der Knoten im Netz α Parameter (nach PENNOCK ET AL. 2002:3) Der Faktor α regelt den Einfluss der beiden Anteile an der gesamten Wahrscheinlichkeit für einen neuen Link. Im Internet liegt dieser etwa bei 0,91 für In-Links und bei 0,58 für Out-Links (PENNOCK ET AL. 2002:9). Dies bedeutet, dass lediglich 10% der Wahrscheinlichkeit eines In-Links gleichmässig verteilt ist und 90% von den bereits erzielten Links abhängt. Unter Web-Autoren bereits bekannte und populäre Seiten wachsen sehr viel stärker 169 Automatische Qualitätsbewertung durch Link-Analyse in ihrer Popularität bzw. in ihrem PageRank als andere Seiten. Dieses Phänomen ist aus der Szientometrie als Matthäus-Effekt bekannt. Diese Bezeichnung geht auf ein Gleichnis im Matthäus Evangelium zurück, in dem es heisst: „Wer hat, dem wird gegeben“1. Abb. 7.9: Wahrscheinlichkeitsverteilung für In-Links innerhalb thematisch eingegrenzter Mengen von Internet-Seiten (aus CHAKRABARTI ET AL. 2002:12) Demnach ist ein In-Link nicht nur das Ergebnis der hohen Qualität einer Seite, sondern auch das Resultat eines dynamischen Prozesses beim Wachsen 1 Der vollständige Vers lautet: „Denn wer hat, dem wird gegeben, und er wird im Überfluss haben; wer aber nicht hat, dem wird auch noch weggenommen, was er hat.“ (Matthäus-Evangelium Kapitel 25, Vers 29, cf. http://alt.bibelwerk.de/bibel/?%20_blank&kbw_ID=7795340). Dabei bezieht sich Jesus nicht auf weltliche Güter, sondern verspricht eine jenseitige Belohnung für die Gläubigen. Manchmal wird der Effekt auch mit „the rich get richer“ umschrieben. 170 Automatische Qualitätsbewertung durch Link-Analyse eines Netzes. Bei kleineren Datenmengen wie etwa thematischen Sammlungen können auch kleinere Werte von α auftreten. Analog konnten CHAKRABARTI ET AL. 2002:12 auch zeigen, dass sich die Wahrscheinlichkeitsverteilung für In-Links in thematisch eingegrenzten Sammlungen nicht mehr so gut durch das Potenzgesetz beschreiben lässt und teilweise starke Fluktuationen aufweist. Dies mag darauf hindeuten, dass Links innerhalb einer Community etwas stärker von Entscheidungen abhängen, die sich nicht mehr mit dem Zuwachs von bereits „reichen“ Seiten erklären lässt. Möglicherweise spielt in engeren Communities Qualität doch eine stärkere Rolle. Leider legen PENNOCK ET AL. 2002 keine Analyse vor, inwieweit Seiten, die erst zu einem späten Zeitpunkt zum Netz hinzugefügt werden, noch eine hohe Anzahl von In-Links und somit einen hohen PageRank-Wert erreichen können. Das Modell scheint nahe zu legen, dass die Anzahl der eingehenden Links auch eine Funktion des Zeitpunkts der Erstellung einer Seite ist. Dagegen spricht eine Analyse von KANOVSKY & MAZOR 2003, laut der keine Beziehung zwischen der Anzahl von In-Links und dem Alter einer Seite besteht. Dies erscheint plausibel, da in einem innovativen Medium wie dem Internet Autoren gerne auf neue Seiten verlinken. Ein Vorteil des hybriden Modells von PENNOCK ET AL. 2002 besteht darin, dass es auch für kleinere Kollektionen von Web-Seiten eine adäquate Lösung liefert. Die Autoren analysieren vier kleinere Datenmengen von jeweils lediglich einigen tausend Seiten damit und zeigen, dass sich diese nicht immer nach den statischen Modellen der exponentiellen Verteilung verhalten. Bei Simulationen mit ihrem Modell erhalten PENNOCK ET AL. 2002 dagegen Werte, die den gemessenen Verhältnissen entsprechen. 7.7.3 Gesamtstruktur des Web Eine weitere, häufig untersuchte Fragestellung in Netzwerken betrifft Pfade. Lässt sich zwischen zwei beliebig gewählten Knoten immer ein Weg über Verbindungen finden? Im Internet ist diese Frage sehr wichtig, da sie entscheidet, ob ein Benutzer einen Weg über Links zwischen zwei Knoten finden kann. Im Web lässt sich keineswegs immer ein Pfad zwischen zwei Knoten finden, wie noch vor wenigen Jahren vermutet wurde. Vielmehr herrscht eine differenziertere Struktur, die zahlreiche Sackgassen kennt. Diese Gesamtstruktur des Internets haben BRODER ET AL. 2000 und DILL ET AL. 2001 bestimmt. Diese unterscheidet die vier etwa gleich große Komponenten Core, In, Out und Unconnected. Im Core sind alle Seiten miteinander 171 Automatische Qualitätsbewertung durch Link-Analyse verbunden. Zwar bestehen nicht direkte Links zwischen allen, jedoch ist jede Seite von jeder über eine Reihe von Links erreichbar. Der Bereich In enthält Seiten, von denen aus der Core erreichbar ist. Dagegen führen in den Bereich Out zwar Links aus dem Core, jedoch weisen keine Links in den Core zurück. Daneben bestehen einige Inseln oder unverbundene Komponenten und in geringem Umfang Tunnels zwischen den Komponenten In und Out. Diese Kontinente im Web werden meist in der folgenden Weise interpretiert. Im Core stehen etablierte Seiten hoher Qualität. In der Komponente In stehen Seiten, die auf bekannte Seiten im Core verweisen, aber deren Aufmerksamkeit noch nicht auf sich ziehen konnten. Der Bereich Out enthält vor allem kommerzielle Sites, die nicht mehr auf andere Angebote verlinken, um die Benutzer auf ihren Seiten zu halten. Die folgende Abbildung zeigt die Strukturen und ihre Größen in der typischen Darstellung als Fliege (bow tie). Tendrils IN Tendrils Strongly Connected Component OUT Disconnected Components Abb. 7.10: Bow-Tie-Struktur des Internets (nach BRODER ET AL. 2000) Diese grundlegende Struktur des Internets konnte für mehrere Ausschnitte nachgewiesen werden, allerdings hängt die Größe der einzelnen Komponenten von der jeweiligen Menge ab. Eine Untersuchung des chilenischen Internet etwa führt zwar zu der gleichen Kontinent-Struktur mit den Komponenten Core, In, Out und Unconnected, jedoch unterscheiden sich die Größen erheblich von denen des gesamten Internet (BAEZA-YATES & POBLETE 2003). 172 Automatische Qualitätsbewertung durch Link-Analyse In einer Untersuchung des IBM-Intranets tauchte eine weitere Struktur auf, die P genannt wurde (FAGIN ET AL. 2003:368). Diese Seiten waren von In aus erreichbar, bildeten aber Sackgassen. Der Core nahm beim IBM-Intranet nur etwa 10% des Gesamtumfangs ein. Die Komponente Core führt zu einem weiteren Aspekt der Struktur. Er stellt die größte Menge von Seiten dar, die alle untereinander erreichbar sind. Natürlich gibt es daneben zahlreiche kleinere Mengen, für welche dies ebenso gilt. Diese Untermengen nennt man Strongly Connected Components (SCC). Vernachlässigt man die Richtung der Links nicht und interpretiert jeden Link als Beziehung zwischen zwei Seiten, so kann man noch eine größere Teilmenge identifizieren, in der alle Seiten untereinander verbunden sind. Auch davon existieren wieder zahlreich kleinere Mengen, die man Weakly Connected Components (WCC) nennt. Die Größen und Häufigkeiten von SCC und WCC verhalten sich im Internet ebenfalls nach dem Potenzgesetz. Die größte Weakly Connected Component umfasst oft einen erheblichen Teil eines Crawls. BRODER ET AL. 2000:2 entdeckten in ihren Daten eine WCC, die über 90% aller Seiten umfasst. Demnach wären fast alle Seiten im Internet von jeder Seite aus zu erreichen, wenn Links in beide Richtungen durchschritten werden könnten. Die Frage, ob jeder Knoten von jedem anderen aus erreichbar ist, spielt in der Netzwerkforschung seit langem eine Rolle. Die intuitive Einsicht, dass selbst in großen Netzwerken wie der Bevölkerung eines Landes alle Mitglieder durch wenige Verknüpfungen verbunden sind, wird als small WorldPhänomen bezeichnet. Durch einige Hubs, die mit weit überdurchschnittlich vielen Objekten in Verbindung stehen, können auch große Netzwerke zu kleinen Welten werden. In einem der ersten sozialwissenschaftlichen Experimente zu diesem Thema ging es z.B. darum, in den 1960er Jahren die Anzahl von Schritten zwischen gemeinsamen Bekannten zu bestimmen, welche vom Mittleren Westen der USA an die Ostküste führt. Aber auch die Verbreitung von Aids, Computer-Viren und das Netzwerk aus Aufsichtsräten in großen Firmen bilden derartige Netze (BARABÁSI 2002). Inzwischen ist also bekannt, dass im Web nicht immer ein Weg von einem beliebigen Knoten zu jedem anderen führt. Die durchschnittliche Entfernung war früher noch mit 19 Klicks berechnet worden (BARABÁSI 2002). Vielmehr führen Verbindungen in die Komponente Out in Sackgassen, während die Komponente In von über 75% aller Seiten aus überhaupt nicht erreichbar ist (BRODER ET AL. 2000). Folgerungen aus der Bow-tie-Struktur für das Information Retrieval sind bisher noch nicht gezogen worden. Konsequenzen wären vor allem unter 173 Automatische Qualitätsbewertung durch Link-Analyse Berücksichtigung des auf die Suche folgenden Browsing des Benutzers denkbar. Die Suchergebnisse werden so gewählt, dass sie untereinander nicht zu „nahe“ sind, denn von einer der Seiten könnten die anderen durch zielgerichtetes Browsing schnell erreicht werden. Erreicht werden kann dies etwa durch das Einbeziehen von Ergebnissen aus allen vier Komponenten. Andererseits kann es der Benutzer aber auch vorziehen, zueinander nahe Seiten ohne Browsing direkt in der Ergebnisliste zu erhalten. Eine strikt formale Qualitätsdefinition könnte etwa nur Seiten aus dem Core liefern. Weitergehende Analysen von inhaltlicher Nähe liefert die automatische CommunityErkennung durch Link-Analyse. 7.8 Anwendungen Erkennung von Link-Analysen zur Community- Die im vorigen Abschnitt untersuchten größeren Einheiten ließen sich formal erkennen. Daneben dient gerade die Link-Analyse von weniger gut fassbaren Einheiten, vor allem den sogenannten Communities (FLAKE ET AL. 2000, TOYODA & KITSUREGAWA 2003). Diese Gemeinschaften stellen thematisch oder anderweitig zusammengehörende Angebote oder Seiten dar, die sehr häufig aufeinander Bezug nehmen. Formale Definitionen basieren auf graphentheoretischen Ansätzen (FLAKE ET AL. 2000, INO ET AL. 2005). „authorities“ „fans“ Hinweis auf WebCommunity Abb. 7.11: Grundstruktur einer Community (nach EFE ET AL. 2000) Auch die Analyse von Communities findet ihre Wurzeln in der traditionellen Szientometrie. Dort geht es um die Erkennung von thematisch eng zusammengehörenden Gruppen, die als eine wissenschaftliche Gemeinschaft 174 Automatische Qualitätsbewertung durch Link-Analyse oder Schule angesehen werden können. In traditionellen Publikationen bieten sich etliche formal erkennbare Hinweise auf solche Beziehungen. • Das gemeinsame Publizieren (als Autoren oder als Herausgeber) • Das Publizieren in gleichen Zeitschriften oder Sammelbänden • Die Arbeit im gleichen Institut • Das gegenseitige Zitieren Das Internet hat die Möglichkeiten für die szientometrische Analyse der Wissenschaftskommunikation erheblich erweitert, da die oben erwähnten Parameter oft automatisch extrahiert werden. Für die Erkennung von Communities im Internet entfallen einige der Parameter, da z.B. das gemeinsame Erstellen einer Seite in der Regel nicht explizit vermerkt ist. Ebenso sind die Beziehungen zwischen den Seiten einer Site wenig interessant. Somit verbleibt lediglich die Verlinkung als mögliches Erkennungsmerkmal. Zusätzlich wird aber oft auch die inhaltliche Ähnlichkeit anhand der vorkommenden Begriffe bewertet. Dazu werden die Seiten mit Verfahren des Information Retrieval inhaltlich erschlossen. Die Indexvektoren über alle vorkommenden Begriffe erlauben dann die Berechnung der semantischen Ähnlichkeit. GIBSON ET AL. 1998 leiten Communities mit Hilfe des HITS-Algorithmus ab (KLEINBERG 1998), der für eine Grundmenge von Seiten die Hub- und Authority-Werte berechnet. Die Grundmenge besteht zunächst aus der Ergebnismenge einer Suchanfrage an eine Internet-Suchmaschine. Diese Menge wird erweitert. Die Links aus der Grundmenge werden extrahiert und diese Seiten aufgenommen. Darüber hinaus kommen die Seiten hinzu, welche auf die Seiten in der Treffermenge verweisen. GIBSON ET AL. 1998 definieren die Community als die zehn Seiten mit dem höchsten Hub-Wert und die zehn Seiten mit dem höchsten Authority-Wert. Dabei untersuchen die Autoren, wie klar und deutlich sich diese Communities ergeben und benutzen dies als Maß für die Robustheit des Themas. Der HITS-Algorithmus arbeitet wie die meisten Autoritätsverfahren iterativ, so dass die Anzahl der Iterationen ein gutes Maß für diese Messung darstellt. Im Detail untersuchen die Autoren, wie groß die Schnittmenge nach einer bestimmten Anzahl von Iterationen mit der endgültig erreichten Menge von 20 Seiten ist. GIBSON ET AL. 1998 betonen die Stabilität ihrer Communities, die sich unabhängig von der benutzten Suchmaschine, der Größe der ursprünglichen Treffermenge vor der Erweiterung, ja sogar unabhängig von der Sprache der Suchanfrage meist unverändert ergeben. In einem Experiment führte eine 175 Automatische Qualitätsbewertung durch Link-Analyse Suchanfrage nach „Astrophysik“ und den entsprechenden englischen und französischen Begriff zu einer fast identischen Menge von Seiten. Diese Robustheit ist erstaunlich, da sich der Ansatz von GIBSON ET AL. 1998 ausschließlich auf Links stützt. Allerdings können zeitliche Einflüsse wie aktuelle Modethemen die Communities beeinflussen. Den umgekehrten Weg geht das System Topic1 (cf. MENDELZON & RAFIEI 2000). Nach Eingabe einer Seite liefert es die Themen, für die diese Seite bekannt ist. Topic kombiniert dazu Link- und Inhaltsanalysen. Zunächst werden mit Hilfe einer Suchmaschine alle Seiten ermittelt, die auf die Seite verweisen. Aus der Kurzfassung der Seiten in der Suchmaschine (snippet) extrahiert das System dann die am häufigsten vorkommenden Schlagwörter und liefert diese als die Themen zurück. Damit kann sich der Benutzer einen Überblick über die Themen der Seite verschaffen, ohne sich auf die Selbstbeschreibung der Autoren verlassen zu müssen. Einen ähnlichen Weg verfolgen Suchmaschinen, welche nicht nur die Seite indexieren, sondern den Text aus den Links auf die Seite extrahieren und diesen Anchor -Text dem Index der Seite hinzufügen (cf. z.B. CRASWELL ET AL. 2001). Lautet der für den Benutzer einer Seite sichtbare Text eines Links z.B. „Tageszeitung“, dann führt dieser Suchbegriff möglicherweise auch zum Erfolg, wenn er in der Seite überhaupt nicht vorkommt. Das Urteil Dritter über den Inhalt gilt als objektiver und damit als bessere Beschreibung eines Objektes. Die Autoren von Internet-Seiten leisten damit gewissermaßen Indexierabeit, wenn sie den Text für einen Link formulieren. Allerdings liefern MENDELZON & RAFIEI 2000 keine Abschätzung der Qualität der Seite. Sobald überhaupt Verbindungen auf die Seite verweisen, welche nicht der Navigation innerhalb der eigenen Site dienen, liefert der Algorithmus ein Ergebnis. Für die automatische Qualitätsabschätzung wäre eventuell interessant, inwieweit die Selbstbeschreibung mit der externen Beschreibung übereinstimmt. Dazu müsste ein System den von MENDELZON & RAFIEI 2000 gewonnenen Term-Vektor mit dem Term-Vektor der Seite oder der Site vergleichen. Hohe Übereinstimmung ließe sich als Ehrlichkeit des Autors oder doch zumindest als dessen Kenntnis des üblichen Jargons interpretieren. Er versucht nicht den Benutzer oder Suchmaschinen mit irreführenden Begriffen zu locken (spamming). Die Qualitätsüberprüfung über Anchor-Texte könnte natürlich auch in der anderen Richtung eingesetzt werden. Dabei würden die Texte der Links einer Seite mit den Inhalten der Zielseite verglichen und geprüft, ob eine hohe 1 http://www.cs.toronto.edu/db/topic 176 Automatische Qualitätsbewertung durch Link-Analyse inhaltliche Ähnlichkeit vorhanden ist (reverse anchor analysis). Dazu bieten sich Distanzmaße im Vektorraum-Modell an. Alternativ könnte auch geprüft werden, inwieweit der Link-Text mit den Link-Texten von anderen Seiten übereinstimmt, die auf die Zielseite verweisen. Bei der Berechnung stellt die sehr unterschiedliche Länge des meist kurzen Anchor-Textes und der Zielseite eine Herausforderung dar. Liegt eine hohe inhaltliche Übereinstimmung vor, dann würde dies als Hinweis dafür gelten, dass der Autor seine Anchor-Texte gewissenhaft erstellt hat und dass sie tatsächlich den Inhalt der Zielseite gut wiedergeben. Andererseits bestehen auch Gefahren bei einem solchen Vorgehen: Benutzt der Ersteller des Links Begriffe aus dem Text der Web-Seite, so belohnt ihn das oben beschriebene Verfahren. Allerdings zeugt dies auch von mangelnder Distanz und wenig eigener Reflexion über die Seite und weist nicht auf eine qualitative Bewertung hin. Stimmt der Anchor-Text zwar nicht mit Begriffen auf der Seite überein, aber mit anderen Anchor-Texten von Links auf die gleiche Seite, so würde dies der obige Algorithmus ebenfalls belohnen. Allerdings kann dies eine Folge von kritiklosem Übernehmen des Links samt Anchor-Text von einer anderen Internet-Seite sein, was sich in der Qualitätsbewertung nicht positiv auswirken sollte. Die Analyse des Anchor-Texts muss die Mehrsprachigkeit berücksichtigen, da der Link-Text natürlich in einer anderen Sprache sein kann als die Seite selbst. Dies darf aber nicht zu einer Abwertung führen. Möglicherweise wären die verschiedenen Anchor-Texte einer Seite, die ja sprachliche Versionen der Inhaltsbeschreibung liefern, sogar eine gute Quelle für maschinelle Wörterbücher. MATSUMURA ET AL. 2001 untersuchen, ob Außenseiter sich auch für die innerhalb einer Community diskutierten Themen interessieren und werten dies als Maß für die Verbreitung des Themas. BUN & ISHIZUKA 2001 interessieren sich für die Änderungen innerhalb einer Gruppe von thematisch zusammengehörigen Web-Abgeboten und analysieren in diesem Korpus die wichtigsten Sätze, die neu entstehende Themen am besten repräsentieren. Community-Erkennung stellt ein derzeit intensiv diskutiertes Thema dar. Die Algorithmen orientieren sich meist jedoch zu sehr an einfachen, formalen Link-Strukturen, um schon als ausgereift gelten zu können. 177 Automatische Qualitätsbewertung durch Link-Analyse 7.9 Integration von Link-Maßen im Information Retrieval Die Qualitätsmaße aus der Link-Analyse stellen eine Evidenzquelle für das Information Retrieval dar, die dann neben die inhaltliche Ähnlichkeit zwischen Anfrage und Dokumenten tritt. Neben die Suchbegriffe treten weitere Aspekte der Bewertung und damit gewissermaßen ein weiterer Standpunkt. Wie bereits in Teil I erwähnt, werten bei der Fusion im Information Retrieval häufig mehrere Retrieval-Algorithmen die Anfrage aus. Jeder leitet dann sein Ergebnis, das auf seiner individuellen RelevanzDefinition beruht, an ein übergeordnetes System weiter, das die unterschiedlichen Standpunkte zusammenfasst. Die theoretischen Grundlagen für diese Mehrfachperspektiven formuliert u.a. INGWERSEN 1994. Beim Qualitäts-Retrieval vertritt eines der Einzelergebnisse den Standpunkt der Qualität bzw. der Linkanalyse. Für die Integration der Werte muss aus den zahllosen Optionen ein Algorithmus ausgewählt werden. Im ursprünglichen Entwurf von PageRank thematisieren BRIN & PAGE 1998 den Aspekt der Kombination mit den unmittelbaren Retrieval-Ergebnissen noch nicht näher1. Teilnehmer am Web Track von TREC legen ihre Implementierungen von Link-Analyse-Algorithmen offen. So multiplizieren KRAAIJ & WESTERVELD 2000:6 den Link-Wert mit dem Retrieval-Wert. Aufgrund der Wahrscheinlichkeitsverteilung von Seiten mit einer bestimmten Anzahl von In-Links bzw. PageRank-Werten kann dieses Vorgehen problematisch sein, da es wenige Seiten bevorzugt, die einen sehr hohen PageRank-Wert haben. Dagegen sind die Unterschiede zwischen den übrigen Seiten in absoluten Werten eher niedrig und tragen wenig zum neuen Ranking bei. Der HITS-Algorithmus ordnet die Dokumente der anfrage-abhängigen Menge nach dem Authority-Wert (KLEINBERG 1998). Andere Implementierungen summieren etwa Authority- und Hub-Wert sowie die Retrieval Status Value. Die Realisierung von SAVOY & RASOLOFO 2000 nutzt wiederum nur den Authority-Wert, der dann mit dem Ergebnis des traditionellen Retrieval kombiniert wird. Dieses Vorgehen besitzt eine hohe Plausibilität für das traditionelle Information Retrieval. Wenn allerdings die direkten Ergebnisse nicht befriedigend sind oder andere Informationsbedürfnisse vorliegen, dann können auch die Hubs für ein Thema interessant sein. Unterschiedliche Verfahren werden u.a. von SILVA ET AL. 2000, PLACHOURAS & OUNIS 2002 und RICHARDSON & DOMINGOS 2004 erprobt. Wie bei der 1 „Finally, the IR score is combined with pageRank to give a final rank to the document“ (BRIN & PAGE 1998, Abschnitt 4.5.1) 178 Automatische Qualitätsbewertung durch Link-Analyse Fusion im Standard-Retrieval hat sich bisher kein eindeutig überlegenes Verfahren herauskristallisiert. Eine sicher häufig genutzte heuristische und effiziente Variante ist ein Zweischritt-Verfahren. Dabei bildet das Ergebnis des inhaltlichen Retrieval die Basis und die besten Treffer werden anhand eines zweiten Maßes wie des PageRank neu geordnet (z.B. bei FAGIN ET AL. 2003). Dieses Re-Ranking Prinzip wird im Teil III erneut aufgegriffen. 7.10 Evaluierung von Link-Analyse Die Qualität von Retrieval-Algorithmen und Komponenten von RetrievalSystemen zeigt sich erst bei der Evaluierung. Die Problematik der Bewertung von Information Retrieval-Systemen und die großen Bewertungsinitiativen wurden bereits in Teil I (siehe Abschnitt 2.4) angesprochen. In der Forschung zur Link-Analyse haben empirische Evaluierungen bisher nur eine untergeordnete Rolle gespielt. Dies mag mehrere Gründe haben. Vergleichende Evaluierungen erfordern eine Standardisierung der Bedingungen für die teilnehmenden Systeme. Dies ist in einem dynamischen Umfeld wie dem Web schwierig zu erreichen. Darüber hinaus zeigen sich die kommerziell orientierten Suchmaschinen wenig interessiert an derartigen Vergleichen und veröffentlichen auch ihre Algorithmen nicht. Die wichtigsten Evaluierungen von link-basierten Verfahren erfolgten bisher im Web Track der TREC Initiative. Einige bemerkenswerte Einzelstudien legte Thelwall vor (THELWALL 2002a, THELWALL 2003). Weitere kleinere Evaluierungen nehmen häufig die Autoren von Link-Analyse-Algorithmen vor. Diese werden jedoch aufgrund der meist eingeschränkten Vergleichbarkeit in diesem Zusammenhang nicht besprochen. Die zwei folgenden Abschnitte stellen die Ergebnisse des Web Track mit der älteren und der neueren Datenmenge vor und nehmen Interpretationen vor. Im Anschluss stellt ein dritter Abschnitt zur Evaluierung einige Studien von Thelwall vor. 7.10.1 Web Track bis 2001 Der Web Track wurde von TREC von 1999 bis 2003 angeboten und hat den sogenannten ad-hoc Track, also das Standard-Retrieval mit Zeitungsdaten 179 Automatische Qualitätsbewertung durch Link-Analyse abgelöst. Die Aufgaben entsprechen den Topics beim ad-hoc-Task, sind jedoch kürzer, um die Realität im Web besser abzubilden1. Zusätzlich kommen einige für das Web typische Aufgabentypen dazu. In den ersten Runden wurde das Finden von Homepages integriert, seit 2002 das Finden von thematisch zusammenhängenden Seiten (topic distillation oder topic identification, siehe folgenden Abschnitt). Um Vergleichbarkeit zu erreichen, wurde ein standardisiertes Korpus erstellt, das allen Teilnehmern zur Verfügung gestellt wurde. Die größere Version umfasste 10 GigaByte und 1,69 Millionen Seiten. Eine kleinere Variante konnte ebenfalls gewählt werden (HAWKING 2001:10). PageRank und andere auf Links basierende Maße wurden von der Universität Neuchatel in TREC eingesetzt (cf. SAVOY & RASOLOFO 2000). Die Ergebnisse des Web Track in TREC mit PageRank und anderen Verfahren weisen nicht darauf hin, dass die Berücksichtigung von HypertextVerknüpfungen die Ergebnisse des Retrievals verbessern kann. PageRank verbessert das Retrieval in TREC also nicht. Dies gilt sowohl für die Experimente einzelner Gruppen (z.B. KRAAIJ & WESTERVELD 2000, SAVOY & RASOLOFO 2000) als auch für die globale Sicht auf die Experimente (HAWKING 2001:10). Auch das beste System in 2001 benutzte keine LinkAnalyse-Algorithmen. Eine Verbesserung der Qualität der Ergebnisse tritt allerdings für die Suche nach Homepages und damit für Suchen nach einer konkreten Seite auf. Dies gilt bereits bei den in TREC verwendeten Momentaufnahmen, die natürlich bei weitem nicht das gesamte Internet umfassen. Damit werden weder alle Links auf die in dem Sample enthaltenen Seiten erfasst, noch können alle in dem Sample vorkommenden Verknüpfungen benutzt werden, weil viele von ihnen auf Seiten außerhalb verweisen. Die Validität der Ergebnisse war der Gegenstand mehrerer Debatten und Untersuchungen. Dabei geht es um Argumente für und gegen die Repräsentativität der Kollektion. SINGHAL & KASZKIEL 2001 verweisen auf Unterschiede zwischen der LinkHäufigkeit in den TREC Web Daten und anderen, größeren Sammlungen von Web-Seiten. Die Autoren verweisen auf das Alter der Daten, die bereits 1997 gesammelt wurden. Nach ihren Analysen weisen die TREC-Daten wesentlich 1 Damit setzt sich ein Trend zur Verkürzung der Aufgaben fort, der bereits während des adhoc tasks vorherrschte. Während die Topics in TREC 1 noch sehr ausführlich und elaboriert waren, formulierten die Veranstalter in den folgenden Jahren wesentlich knappere Topics (cf. WOMSER-HACKER 1997). 180 Automatische Qualitätsbewertung durch Link-Analyse weniger Links auf als aktuellere Web-Dokumente in großen Sammlungen. Während im web track pro Seite durchschnittlich 1,5 ausgehende Links über Sites hinweg vorliegen, so besitzen die Seiten von SINGHAL & KASZKIEL 2001 4,5 derartige Links. Bei den Links innerhalb der Seiten liegt das Verhältnis bei 5,6 zu 11,6. Die Validität der Experimente mit den Daten des TREC Web Track wird auch von SOBOROFF 2002 analysiert. Dazu vergleicht der Autor die große Kollektion des Web Track, welche 10 GigaByte und 1,69 Millionen Seiten umfasst, mit den publizierten Eigenschaften größerer Web-Kollektionen. Insbesondere nimmt der Autor Bezug auf die Untersuchung von BRODER ET AL. 2000, bei der die statistischen Eigenschaften und die Struktur von zwei Sammlungen von Web-Seiten (crawls) der Suchmaschine Altavista erhoben wurden. Diese Eigenschaften wurden bereits oben vorgestellt. SOBOROFF 2002 analysiert die Häufigkeitsverteilung von In- und Out-Links sowie die Verbindungsstruktur. Die Häufigkeit der Links verteilt sich exponentiell auf die Anzahl der Seiten, wobei die Web Track-Kollektion lediglich im Exponenten von der Untersuchung in BRODER ET AL. 2000 abweicht. Der Unterschied beträgt für in- und out-Links aber lediglich etwa 10%. Weiter analysiert SOBOROFF 2002 die verbundenen Komponenten (Strongly and Weakly Connected Components, SCC bzw. WCC). Deren Größe folgt in allen bekannten Untersuchungen ebenfalls einer Exponentialverteilung und auch für den Web Track konnte diese nachgewiesen werden. Letztendlich weist SOBOROFF 2002 auch nach, dass sich die von BRODER ET AL. 2000 entdeckte Struktur mit einem stark verbundenem Kern und vielen Seiten, die nur auf wenigen Pfaden erreichbar sind, auch im TREC-Material widerspiegelt. SOBOROFF 2002 kommt zu dem Schluss, dass die Sammlung des Web Track sich unwesentlich von den anderen etwa zwanzigmal grösseren Sammlungen unterscheidet. Demnach sei sie typisch für das Internet und die dadurch durchgeführten Ergebnisse erbrächten valide Ergebnisse. Allerdings gilt diese lediglich für die tatsächlich untersuchten Eigenschaften. Diese beeinflussen möglicherweise die Resultate von link-basierten Algorithmen. Allerdings ist über ihren konkreten Einfluss und möglicherweise andere Faktoren von WebSeiten, welche für das Retrieval entscheidend sind, noch wenig bekannt. Ob demnach die ähnliche Wahrscheinlichkeitsverteilung (SOBOROFF 2002) oder die unterschiedlichen absoluten Zahlen ausschlaggebend sind, lässt sich zum gegenwärtigen Zeitpunkt nicht entscheiden. Trotz aller Vorbehalte kann die Analyse von SOBOROFF 2002 als ein Argument für die Validität der Ergebnisse des Web-Track gelten, jedoch keineswegs als Beweis dafür. Eines der in Teil III vorgestellten Experimente bietet einen Erklärungsansatz für die guten Ergebnisse bei der Suche nach Homepages. Eine Untersuchung 181 Automatische Qualitätsbewertung durch Link-Analyse von Internet-Katalogen hat gezeigt, dass die Wahrscheinlichkeit eines HyperLinks auf eine Seite mit deren hierarchischer Einbettung in ein Angebot (site) stark abnimmt. Autoren von Web-Seiten setzen Links also häufiger auf die Eingangsseite (homepage) bzw. auf unmittelbar darauf folgende Seiten als etwa auf Seiten der untersten Hierarchiestufe. Wertet ein Algorithmus die Häufigkeit der In-Links einer Seite aus, dann steigt die Wahrscheinlichkeit, dass er eine Seite auf hoher hierarchischer Stufe wie etwa die Homepage liefert. 7.10.2 Web Track 2002 und 2003 Seit 2002 benutzt der Web Track eine neue Datenmenge, da der oben beschriebene Crawl von 1997 bereits zu alt war, um die Realität im Web Retrieval noch abzubilden. Die neue Kollektion besteht aus einem Crawl auf der Domain gov1 (CRASWELL & HAWKING 2002). Die GOV-Kollektion enthält 1,24 Millionen Seiten, darunter 1,05 Millionen HTML- oder TextSeiten. Diese enthalten 11,2 Millionen Links, wovon 2,47 Millionen zwischen den Hosts verlaufen (CRASWELL & HAWKING 2003:2). In 2002 wurde ein Topic Distillation Task eingeführt, bei dem neben der Relevanz auch die Qualität der Seiten eine Rolle spielt. Der Juror sollte neben der thematischen Relevanz prüfen, ob eine Seite qualitativ so gut ist, dass sie in eine kurze Liste von URLs zu dem entsprechenden Thema aufgenommen werden kann. Das Modell für diese Definition stellen Internet-Verzeichnisse dar, auf eine weitergehende Definition wollen sich die Organisatoren des Web Track nicht festlegen2. Die in Yahoo! und DMOZ aufgeführten Seiten weisen laut CRASWELL & HAWKING 2003:3 relativ viele eingehende Links sowie kurze URLs auf, so dass diese Faktoren bei der Qualitätsanalyse berücksichtigt werden sollten. Innerhalb der relevanten und qualitativ guten Seiten, die im Laufe des Tracks intellektuell bewertet wurden, erwiesen sich diese beiden Faktoren als weitaus weniger gute Indikatoren (CRASWELL & HAWKING 2003:5). 1 Diese Domain enthält offizielle Seiten von Behörden in den den USA. 2 „The ´relevant key pages` found by assessors should thus be relevant and possess that special quality which makes pages worthy of inclusion in a short list. We did not go further than this in defining what makes a page list-worthy, since it has not been agreed in the research community what the definition is (quality, authority, definitiveness etc.) and we did not want to bias assessments.“ (CRASWELL & HAWKING 2003:3) 182 Automatische Qualitätsbewertung durch Link-Analyse Im topic distillation task ergab sich wie in den Retrieval tasks der Web Tracks bis 2001 keine Verbesserung durch Link-Analyse. Die drei besten runs zur topic distillation benutzten keine Algorithmen zur Analyse der Link-Struktur, der beste run griff aber auf den Anchor-Text zurück (CRASWELL & HAWKING 2003:6). <title> highway safety <desc> Description: Find documents related to improving highway safety in the U.S. <narr> Narrative: Relevant documents include those related to the improvement of safety of all vehicles driven on highways, including cars, trucks, vans, and tractor trailers. Ways to reduce accidents through legislation, vehicle checks, and drivers education programs are all relevant. Abb.7.12: Beispiel für ein Topic des Web Track 2002 (CRASWELL & HAWKING 2003:3) Bei der Suche nach bestimmten Seiten (früher Homepage finding task, jetzt Named Page Finding Task) nutzten nur drei von 18 Systemen überhaupt Link-Analyse (CRASWELL & HAWKING 2003:7), obwohl diese sich in früheren Jahren als sehr positiv erwiesen hatte (siehe vorigen Abschnitt). Grundsätzlich erwiesen sich die Parametereinstellungen aus anderen Web Tracks nicht als positiv. Die zwei besten Systeme kamen in 2002 ohne Link-Analyse aus, während fast alle Systeme für diese Aufgabe Anchor-Text benutzten. In 2002 zeigte sich jedoch ein anderer Trend, die Dokument-Struktur wurde zunehmend genutzt und zwar besonders von den erfolgreichen Systemen. So nutzten die sieben besten Systeme im Named Page Finding Task in irgendeiner Form die interne Struktur (CRASWELL & HAWKING 2003:7). Es ist allerdings fragwürdig, ob offizielle Seiten der USA die typischen Informationsbedürfnisse der Internet-Benutzer abbilden. Analysen zur Validität stehen derzeit noch aus. 183 Automatische Qualitätsbewertung durch Link-Analyse 7.10.3 Fallstudien In einigen kleineren Fallstudien untersucht Thelwall Link-AnalyseAlgorithmen für Universitäts-Webseiten. In THELWALL 2002a analysiert der Autor die 100 englischen Universitäts-Seiten, auf welche die meisten Links verweisen. Dabei wurden nur Links von anderen englischen Universitäten gewertet. Ziel der Studie war es, zu untersuchen, ob diese Seiten auch als qualitativ hochwertig im Sinne der Domäne bezeichnet werden können. Eine intellektuelle Analyse zeigt, dass nur eine dieser Seiten überhaupt wissenschaftlichen Inhalt aufwies. Bei 45 Seiten handelte es sich um Einstiegsseiten in das Angebot von Hochschulen. Daneben waren noch drei Einstiegsseiten zu Instituten und vier zu Forschungsinstituten vorhanden, so dass diese institutionellen Homepages bereits mehr als die Hälfte der Seiten ausmachen. Ein weiteres Viertel der Seiten entfällt auf Link-Seiten, wobei 15 auf fachspezifische Informationen verweisen. Lediglich eine Seite enthielt selbst wissenschaftlichen Inhalt. Damit zeigt THELWALL 2002a, dass im akademischen Bereich meist auf LinkSammlungen und Homepages verwiesen wird, dass also viele eingehende Links eher auf einen Hub hinweisen als auf ein inhaltlich besonders hervorstechendes Angebot. In einer kleineren Studie analysiert THELWALL 2003 drei Universitäten im Detail und berechnet für alle Seiten in deren Web-Bereich die Anzahl der InLinks von anderen Universitäten sowie den PageRank aller Seiten auf der Basis der Links zwischen Hochschulen (THELWALL 2003:208). Die Ergebnisse zeigen Abweichungen zwischen PageRank und Anzahl der InLinks, die jedoch nicht sehr stark waren. Den höchsten PageRank-Wert wies meist die Homepage der Institution auf. Unter den ersten zehn Seiten mit dem höchsten PageRank befanden sich kaum Seiten mit wissenschaftlichen Inhalten, sondern meist handelte es sich um juristische Anmerkungen wie Copyright-Vermerke, Suchseiten, Sitemaps, Web-Statistiken und Glossare (THELWALL 2003:210ff.). Im Detail zeigt THELWALL 2003 darüber hinaus, wie Design-Entscheidungen und die Auswahl von Technologie die PageRank-Werte beeinflussen. So greift die Homepage der Universität von Wolverhampton auf Active Server Pages1 zu, die nicht indexiert werden können. Dadurch steht diese Homepage nicht an erster Stelle unter den Seiten der Universität von Wolverhampton 1 Active Server Pages (ASP) sind eine Technolgie von Microsoft, mit der dynamische Web-Seiten erzeugt werden. 184 Automatische Qualitätsbewertung durch Link-Analyse (THELWALL 2003:210). Die Verpflichtung zur einheitlichen Gestaltung und entsprechende Navigations-Menüs auf offiziellen Universitäts-Seiten führen bei der Universität La Trobe dazu, dass nur Seiten, auf welche die Homepage verweist, unter den ersten zehn Seiten auftauchen (THELWALL 2003:209f.). Thelwall stellt mit diesen empirisch fundierten Analysen die Effektivität von PageRank in Frage. Zum einen beeinflussen Design-Entscheidungen die PageRank-Berechnung und zum anderen enthalten die am höchsten bewerteten Seiten keinen akademischen Inhalt. Dies mag ein durchaus erwartetes Ergebnis sein, da wissenschaftliche Inhalte sehr fachspezifisch sind und möglicherweise - wenn überhaupt – nur in ihrer Fachgemeinschaft hohe Linkzahlen erzielen können. Somit ist die korrekte Auswahl einer WebCommunity sehr wichtig. Von allgemeinem Interesse ist die Tatsache, dass besonders Link-Sammlungen hohe PageRank-Werte erreichen. Die Aufnahme einer Seite in einen Internet-Verzeichnisdienst (WebDirectory, Subject Gateway) stellt eine intellektuelle und positive Bewertung einer Seite dar. Dies sollte den Bekanntheitsgrad der Seite erhöhen und ihr mittelfristig auch zu verbesserten Werten bei der Link-Analyse verhelfen. THELWALL 2002b zeigt, dass jedoch auch das Gegenteil der Fall sein kann. An einem kleinen Modellbeispiel mit einigen Seiten entwickelt er ein Szenario, bei dem der PageRank von Seiten nach ihrer Aufnahme in einen Internet-Verzeichnisdienst sinkt. Der Effekt ist im Wesentlichen darauf zurückzuführen, dass laut THELWALL 2002b:103f. die Autoren nicht mehr direkt auf gute Seite verlinken, sondern auf den Internet-Verzeichnisdienst. Dies muss jedoch keineswegs der Fall sein. Derartige Modelle mit wenigen Seiten geben die Komplexität von großen Netzwerken nur ungenügend wieder. Gleichwohl zeigt THELWALL 2002b, dass unter bestimmten Umständen auch dieser unerwünschte Effekt eintreten kann. 7.11 Bewertung komplexer Einheiten Die Autoritätsmaße beziehen sich in der Regel auf die Einheiten, zwischen denen die Hyperlinks liegen, den Seiten. Wünschenswert ist in vielen Fällen eine stärkere Abstraktion und die Bewertung von größeren Einheiten, insbesondere die Anwendung auf Web-Sites. Einfache Möglichkeiten, die Link-bezogenen Maße auf Sites zu übertragen, bestehen in der Bildung des Durchschnitts aller Seiten der Sites und der Interpretation der Sites als Einheiten für den Link-Graphen. 185 Automatische Qualitätsbewertung durch Link-Analyse Im Sinne der Graphen-Theorie lassen sich auch die Sites als Einheiten interpretieren. Ein Link zwischen zwei Sites besteht dann, wenn ein Link zwischen zwei Seiten dieser Sites vorliegt. Eine solche Analyse unternehmen DILL ET AL. 2001, die eine umfassende quantitative Studie vornehmen und dabei zahlreiche exponentielle Verteilungen nachweisen. DILL ET AL. 2001 nennen die entstandene Datenstruktur Hostgraph. Sie umfasst 663.700 Knoten und 1.127.900 Links. Die Autoren beobachten dafür Verteilungen, die mit denen für Seiten fast identisch sind. Die Anzahl der in-Links pro Site im Verhältnis zu der Anzahl von Sites, die so viele Links erhalten, folgt einer exponentiellen Verteilung. Der Exponent der Verteilung liegt etwas höher als der für Seiten ermittelte. Während für Seiten ein Exponent von etwa 2,1 vorliegt, weist die Verteilung von Sites einen Exponent von 2,3 auf. Damit verläuft die Funktion etwas steiler. Bei sinkender Zahl von in-Links sinkt die Häufigkeit der Sites schneller als die der Seiten. Auch für die Verteilung der Häufigkeit von stark und schwach verknüpften Komponenten ergeben sich exponentielle Verteilungen mit etwas höheren Exponenten (DILL ET AL. 2001). Komplexere Maße zur Bewertung größerer Einheiten in Netzwerkstrukturen sind auch aus der Bibliometrie bekannt. Sie betrachten z.B. die Stellung eines Autors im Diskurs-Netzwerk und berücksichtigten über die Zitate hinaus die institutionelle Zugehörigkeit und Ko-Autorenschaft. Ziel kann etwa sein, sehr zentrale und wichtige Autoren für bestimmte Themen oder größere Gebiete zu erkennen. (cf. MUTSCHKE 2001). 7.12 Fazit: Link-Analyse Link-Analyse und darauf beruhende Autoritätsmaße wie der PageRankAlgorithmus finden Anwendung und werden in der Forschung derzeit intensiv diskutiert. Zahlreiche Varianten von Link-Analyse-Algorithmen definieren die Qualität von Internet-Angeboten über die Anzahl der darauf verweisenden Links von anderen Seiten. Vorgänger der Link-Analyse finden sich in der bibliometrischen Forschung, in der die Qualität wissenschaftlicher Publikationen bewertet wird und bei der Zitate die Links darstellen. Trotz ihrer Popularität weist die Link-Analyse einige erhebliche Nachteile auf, die in drei Kategorien fallen: • Die Grundannahme über das Benutzerverhalten der Autoren von Internet-Seiten ist fragwürdig. Das Setzen eines Links auf eine Seite basiert keineswegs immer auf einem Qualitätsurteil, sondern kann auf einer Vielzahl von anderen Gründen beruhen. 186 Automatische Qualitätsbewertung durch Link-Analyse • Die Eigenschaften der Link-Matrix im Internet und die Eigenschaften des PageRank-Algorithmus und seiner Ergebnisse führen zu einigen Bedenken an der Adäquatheit von PageRank für die Qualitätsanalyse. • Die bekannten Evaluierungs-Ergebnisse weisen nicht auf eine Verbesserung von Retrieval-Ergebnissen durch Link-Analyse hin. Im weiteren Verlauf werden die einzelnen Argumente innerhalb dieser drei Kategorien zusammengefasst. Die Grundannahme der Link-Analyse besteht darin, dass der Autor einer Internet-Seite seine Links eher auf qualitativ gute Seiten setzt. Demnach müsste der Autor vorab eine Qualitätsüberprüfung vornehmen. Dies ist jedoch eher selten der Fall. Es ist völlig unrealistisch, dass jeder Web-Autor das Ziel seiner Links ständig auf hohe Qualität überprüft. Zum einen verändern sich viele Seiten häufig (cf. BREWINGTON & CYBENKO 2000, FETTERLY ET AL. 2003, siehe Abschnitt 7.2) und zum anderen sind besonders populäre Angebote oft sehr groß. So wird oft auf den Verzeichnisdienst Yahoo verlinkt, obwohl sicher kaum ein Autor vorher den gesamten hierarchischen Baum des Verzeichnisdienstes betrachtet. Verbindungen innerhalb eines Angebots dienen meist nur der Navigation, so dass Entscheidungen über die Navigationsstruktur Einfluss auf das Ergebnis der Link-Analyse haben. THELWALL 2002b zeigt, wie Design-Entscheidungen und technologische Weichenstellungen die Autoritätsmaße verändern. Abbildung 7.13 skizziert Aufgaben für Links. Bereits in ihrem ursprünglichen Einsatzgebiet - der Bibliometrie - stießen Qualitäts-Kennzahlen auf Kritik. Gegner von bibliometrischen Analysen bemängeln, dass die Dynamik und Pragmatik des wissenschaftlichen Publizierens durch einfache Kennzahlen nicht hinreichend abgebildet wird (cf. z.B. FRÖHLICH 2000). Die Eignung solcher Maße für die noch ausgeprägtere Dynamik des Internets muss daher auch bezweifelt werden. Im Gegensatz zum traditionellen Publizieren können Dokumente auch verändert und völlig gelöscht werden. 187 Automatische Qualitätsbewertung durch Link-Analyse Navigations-Links externer Link Querverweis Navigations-Links Abb. 7.13: Links in einer Site-Struktur Gerade für neue Seiten liefern Autoritätsmaße keine befriedigende Lösung. Die Suchmaschinen hinken mit der Aktualisierung der von ihnen indexierten Seiten ohnehin hinterher. Schwerer wiegt aber, dass eine Seite erst von vielen Benutzern entdeckt und positiv bewertet werden muss, bevor einige dieser Benutzer in ihren Seiten einen Link auf die Seite aufnehmen. Damit hinkt der messbare PageRank-Wert auch sehr guter Seiten eine gewisse Zeitspanne dem berechtigten und nach dem Bekanntwerden der Seite erreichten PageRank hinterher. Einige auffällige Eigenschaften der Link-Matrix des Internet erschweren die Anwendung der Link-Analyse und verweisen auf weitere Nachteile. • Der Matthäus-Effekt (cf. Abschnitt 7.8.2) führt dazu, dass bereits bekannte Seiten in ihrer Popularität sehr viel stärker steigen können als weniger populäre Seiten. Dieses Phänomen lässt sich in Simulationen bestätigen und weist darauf hin, dass der PageRank-Wert keineswegs nur auf der Qualität beruht, sondern von zahlreichen pragmatischen Faktoren beeinflußt wird. Die überraschend deutlichen PotenzgesetzMuster in der Verteilung der PageRank-Werte im Web bestätigen die Modelle der Web-Entwicklung. Demnach hängt die Wahrscheinlichkeit für das Entstehen eines Links auf eine Seite hauptsächlich von der Zahl der bereits vorhandenen In-Links ab. 188 Automatische Qualitätsbewertung durch Link-Analyse • Links beruhen meist auf thematischer Ähnlichkeit, wie etwa die Ergebnisse von CHAKRABARTI ET AL. 2002 zeigen. Zwar schließt dies gleichzeitige Qualitätsüberlegungen bei den Autoren von Links nicht aus, jedoch sind diese zumindest überlagert von der Suche nach ähnlichen Seiten. Selbst bei relativ stark qualitätsorientierten Autoren führt der meist eingehaltene thematische Bezug sicher häufig zu Kompromissen. • Web-Seiten werden von Autoritätsmaßen meist unabhängig von ihrem Inhalt und Kontext bewertet. Ebenso wie Wissenschaften unterschiedliches Zitatationsverhalten aufweisen, ist davon auszugehen, dass in verschiedenen Internet-Dokument-Typen unterschiedliche Verlinkungsneigung herrscht. Darauf weisen auch Ergebnisse des Web Mining hin. Zwar ließen sich für thematisch heterogene Seiten keine Differenzen nachweisen, jedoch besteht das Internet nach DILL ET AL. 2001 aus stark verknüpften Kernen und Seiten-Cluster, die darauf verweisen und aus Cluster, auf welches der Kern verknüpft. Algorithmen der Link-Analyse können manipuliert werden. Dies geschieht bereits in hohem Maße, da ein erhebliches wirtschaftliches Interesse daran besteht, eigene Seiten bei möglichst vielen Internet-Suchen an vorderen Ranking-Positionen zu sehen. Beim sogenannten Spamming wird meist versucht, einen Inhalt vorzutäuschen, den die Seiten nicht enthalten1. Link-Spamming bezeichnet das gezielte Erzeugen zahlreicher Links auf eigene Inhalte, die der Algorithmus dann als Qualitätsurteile wertet2. Die Maße beziehen sich auf einzelne Seiten und müssen für komplexe Angebote adaptiert werden. Für die Realisierung in einer Suchmaschine kommen aber lediglich einfache Maße in Frage. Ferner erfordern die LinkAnalyse-Verfahren einen erheblichen Aufwand. Vorab muss die vollständige Verbindungs-Matrix des Internets bekannt sein und dann erfolgt eine iterative Berechnung auf einer sehr großen Matrix. Für einige Anwendungen zur 1 Für einen Überblick siehe THUROW 2003 und HENZINGER ET AL. 2002. 2 Kleinere Anstrengungen des Link-Spamming bestehen lediglich im der Absprache, gegenseitig Links auf die jeweiligen Seiten zu setzen. Teilweise wird als Dienstleisung unter dem Schlagwort Suchmaschinenoptimierung sogar angeboten, durch geeignete Verlinkung und andere Methoden die Position von Angeboten in den Trefferlisten der Suchmaschinen zu erhöhen. Große Versuche erzeugen oft automatisch sogenannte LinkFarmen. Eine riesige, derartige Linkfarm identifizierten z.B. durch FETTERLY ET AL. 2003 innerhalb des deutschen Erotik-Angebots im Web. 189 Automatische Qualitätsbewertung durch Link-Analyse Qualitätsbestimmung ist dieser Aufwand prohibitiv hoch. Trotz einiger Ansätze zur Beschleunigung der Berechnung (KAMVAR ET AL. 2003, TSOI ET AL. 2003) besteht daher nach wie vor ein Bedarf an einer online-Berechnung während des Crawling-Prozesses aus den Eigenschaften der Seite (cf. ABITEBOUL ET AL. 2003). Letztendlich weisen die Resultate von umfangreichen Evaluierungen von Link-Analyse-Algorithmen im Rahmen von Information Retrieval-Systemen nicht auf Verbesserungen bei den Ergebnissen hin. Einschlägig sind hier vor allem die Ergebnisse des Web-Track im Rahmen von TREC, bei dem LinkAnalyse-Verfahren von etlichen Gruppen implementiert und auf einer vergleichbaren Datenmenge angewandt wurden. In keinem Jahr und bei keiner der beiden benutzten Kollektionen führte Link-Analyse zu einer Verbesserung des Retrievals. Die besten Ergebnisse stammten immer von Systemen ohne Link-Analyse (cf. HAWKING 2001, CRASWELL & HAWKING 2003, sowie Abschnitt 7.10). 190 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung 8. Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Neben der Link-Analyse, die lediglich einen – wenn auch wichtigen – Faktor für die Qualitätsabschätzung aufgreift, existieren weitere Ansätze zur Formalisierung von Qualitätsmodellen. Diese Ansätze werden in den folgenden Abschnitten systematisch aus der Perspektive der Qualitätsbewertung dargestellt. Dabei handelt es sich meist um Prototypen, die einzelne Aspekte der Qualität herausgreifen und dafür ein System entwickeln. Sie orientieren sich meist entweder an einfachen Anhaltspunkten für die Gebrauchstauglichkeit von Seiten oder die Verständlichkeit der Texte. Einige Systeme integrieren einfache Qualitäts-Bewertungsverfahren in Information Retrieval-Systeme. Während bei der Link-Analyse zunächst alle Seiten des Internet erhoben werden müssen, um die Link-Struktur zu kennen, erlauben diese Verfahren meist eine sofortige Berechung der Qualitätswerte nach dem Laden der Seite. 8.1 Teilweise formalisierte Modelle Einige Modelle für die Untersuchung von Qualität sind nicht implementiert und nur teilweise formalisiert, bieten aber Anhaltspunkte für wichtige formale Faktoren, die in einem System zur Qualitätsbewertung berücksichtigt werden könnten. In einigen Untersuchungen konnte der Einfluss des Layout nachgewiesen werden. BERLEANT 2000 untersucht den Erfolg von Förderanträgen in Bezug auf verschiedene Eigenschaften. Die Analyse zeigt eine Abhängigkeit der Qualität des Antrags und damit der festgestellten Förderungswürdigkeit zu formalen Eigenschaften auf. Zu den Eigenschaften zählt die Schriftgröße, Schriftart, das Vorhandensein eines Abstracts und das Pronomen, mit dem der Autor auf sich selbst referenziert. Außerdem erkannte BERLEANT 2000, dass auch der Zeitpunkt des Einreichens einen Anhaltspunkt für die Qualität liefert. Förderanträge, die länger vor der deadline eingereicht wurden, hatten größere Chancen auf Förderung als kurz vor Abgabefrist eingegangene. Auch 191 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung für das Internet werden Eigenschaften des Layout und der Gestaltung zunehmend als wichtige Qualitätskriterien erkannt1. Das umfassende Modell von FRITCH & CROMWELL 2001 berücksichtigt größtenteils formale Aspekte von Internet-Angeboten, um deren Glaubwürdigkeit (cognitive authority) zu untersuchen. Das Modell kombiniert die Autorität des Dokuments, des Autors und den offensichtlichen und versteckten Beziehungen des Dokuments oder des Autors zu Institutionen2. Dieses Modells soll den Benutzer anleiten, die Glaubwürdigkeit von Angeboten zu bewerten. Als formales Merkmal dienen die Internet-Adressen (URLs) von Seiten wie auch die von E-Mail-Adressen, welche auf den Seiten zu finden sind. Das Modell baut auf den Kriterienlisten zur Bewertung von InternetDokumenten auf, die oben diskutiert wurden. FRITCH & CROMWELL 2001 skizzieren ein beispielhaftes Szenario für die Bewertung der Glaubwürdigkeit. Der Benutzer analysiert darin mehrere Internet-Angebote mit verschiedenen Domain-Namen über eine islamistische Gruppierung, die scheinbar kaum zusammenhängen und deshalb zunächst als unterschiedliche Meinungsäußerungen wirken. Jedoch deckt die nähere Analyse auf, dass eine gemeinsame Organisation hinter allen Angeboten steckt3. Der Benutzer entdeckt u.a., dass e-mail Adressen und ein Name eines technisch Verantwortlichen auf mehreren der Angebote zu finden sind, während sonst kaum Information über die Betreiber gegeben wird. Nach Meinung des hypothetischen Benutzers bei FRITCH & CROMWELL 2001 geben die Webseiten verschiedene Abstufungen radikaler Einstellungen wieder. Daraus ergibt sich die Folgerung, dass hier versucht wird, den Eindruck zu erwecken, verschiedene unabhängige Anbieter seien alle zu den übereinstimmenden positiven Meinungen über die radikal islamische Organisation gelangt. Dieser Versuch sei als Täuschung und die Angebote daher als wenig glaubhaft einzustufen. Allerdings verbirgt sich hinter der Einschätzung von FRITCH & CROMWELL 2001 eine politische Meinungsäußerung, die von vielen anderen Benutzern 1 „For example, utility indexes may provide access to pages of a given length, pages of a certain importance, or pages with some number of images in them” (ARASU ET AL. 2001:5). 2 „We consider four classes of information significant when ascribing authority – document, author, institution, and affiliation“ (FRITCH & CROMWELL 2001:501) 3 Die Autoren beschreiben die Technik folgendermaßen: „providing seemingly disparate Web sites that share common viewpoints and authorship, although the common authorship is not made obvious to the readers“ (FRITCH & CROMWELL 2001:505) 192 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung möglicherweise nicht geteilt wird. Teilt man die Meinung der Anbieter, dann steht die eingesetzte Technik in einem positiven Licht, nämlich als der Versuch, einer unterdrückten aber gerechten Sache Gehör zu verschaffen. Interessanterweise vermindert die oben geschilderte Technik zur Vortäuschung unabhängiger und wenig verknüpfter Seiten bei einer Linkanalyse zur Bewertung der Autorität die Chancen zu einer guten Bewertung, da ja weniger Links auf alle Seiten verweisen. Eine Automatisierung diskutieren FRITCH & CROMWELL 2001 nicht, sie erscheint auch nur teilweise möglich und lässt sich angesichts des beispielhaften Szenarios auch nur auf Teile des sehr umfassenden theoretischen Modells der cognitve authority anwenden. 8.2 Automatische Zuordnung Qualität bezeichnet primär die Exzellenz oder Güte eines Objekts. Daneben kann Qualität auch als Eigenschaft allgemein interpretiert werden. Die Erkennung von Eigenschaften könnte also auch unter der QualitätsBewertung subsumiert werden. Diese Perspektive steht zwar nicht im Zentrum der Diskussion in dieser Arbeit, soll jedoch auch kurz behandelt werden, da einige Verfahren übertragbar sind. Eigenschaften von Texten erkennen bedeutet meist die inhaltliche Zuordnung zu einem Themenbereich. Die automatische Zuordnung von Texten zu Kategorien ist weit verbreitet und vor allem für folgende Anwendungen wichtig: • Indexierungsunterstützung: Aufgrund einer Volltextanalyse werden Deskriptoren aus einem kontrollierten Vokabular identifiziert, die sich mit hoher Wahrscheinlichkeit zur Indexierung des Dokuments eignen1. Bei dieser Text Categorization werden die Dokumente anhand ihrer Volltexte indexiert und dann erfolgt eine Abbildung von den VolltextTermen auf die kontrollierten Terme mittels eines maschinellen Lernverfahrens (z.B. SEBASTIANI 2002, AAS 1999, HELLWEG ET AL. 2001). • Das automatische Ordnen von Internet-Angeboten erfolgt häufig in Yahoo-ähnliche hierarchische Strukturen (KLAS & FUHR 2000, FROMMHOLZ 2001, CHAKRABARTI ET AL. 1998). 1 Dieser Ansatz wurde etwa mit dem Automatischen Indexier- und Retrievalsystem (AIR) im Kontext des FIZ Karlsruhe verfolgt (cf. LÜCK ET AL. 1992). 193 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung • Einen Sonderfall des Ordnens von Dokumenten stellt das Clustering dar, bei dem keine vorgegebenen Kategorien vorliegen. Diese müssen aus dem Datenmaterial generiert werden1. Bedeutung im Internet haben auch die Self Organizing Maps (SOMs) von Kohonen erlangt, die ähnliche Cluster nebeneinander gruppieren. SOMs erstellen assoziative Karten großer Dokumentmengen und verbinden so Datenanalyse und Benutzungsoberfläche. Filtering (routing) dient dazu, eine Menge von ständig neuen Dokumente wie etwa aus einer Nachrichtenagentur mit langfristigen Anfragen oder Interessensprofilen abzugleichen und dem Benutzer laufend die potentiell relevanten Dokumente zuzuleiten. Eine Untergruppe stellen Empfehlungssysteme (recommender systems) dar, die möglicherweise interessante Objekte vorschlagen2. Diese Zuordnungs-Systeme basieren auf inhaltlichen Kriterien. Daneben spielen auch formale oder sprachliche Aspekte eine Rolle. Dazu gehört etwa die automatische Erkennung der Sprache eines Textes. Ein Mehrwert in der automatischen Kategorisierung kann bereits in der Erkennung von traditionellen Textsorten liegen wie etwa literarische, wissenschaftliche oder technische Texte. Im Internet ergeben sich jedoch neue und für das WWW typische Kategorien. So kann ein Suchbedürfnis und ein entsprechendes Kategorisierungssystem auf Listen von Links, Clearinghouses oder Dokumenten mit bestimmte Medien als Inhalten basieren. Einen interessanten Vergleich zwischen inhaltlichen und linguistischen Kriterien stellen FINN ET AL. 2001 vor. Sie versuchen Internet-Seiten mit Nachrichten danach zu ordnen, ob sie eher Meinungen oder Fakten enthalten. Während traditionelle Zeitungen diese Trennung z.B. durch unterschiedliche Schriftart und gleichbleibendes Layout vornehmen, hat sich bei elektronischen Nachrichtendiensten hier noch kein Standard durchgesetzt, der einem verteilten, auf verschiedene Quellen zugreifenden Dienst eine formale Erkennung erlaubt. Die Unterscheidung zwischen objektiven Nachrichten und subjektiven Kommentaren kann aber bei vielen Benutzerbedürfnissen ein wichtiges Kriterium sein. 1 Ein Beispiel bietet die Suchmaschine Vivisimo, siehe Abbildung 2.14. 2 Ein bekanntes Beispiel hierfür liefert der Online-Buchhändler Amazon (http://www.amazon.de), der seinen Kunden Bücher vorschlägt, die zu bereits gekauften Buechern ähnlich sind. 194 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Der Ansatz von FINN ET AL. 2001 beschränkt sich bei der Klassifizierung auf den Textteil und ignoriert formale Aspekte der Seite wie Layout oder Schriftart. Dazu extrahieren die Autoren den eigentlichen Nachrichtentext mit einer interessanten Heuristik und können so Grafiken, Werbung und Links verwerfen. Die Heuristik beruht ausschließlich auf der Anzahl der HTMLTags in einer Seite, von denen im eigentlich inhaltstragenden Text nur wenig enthalten sind. Dementsprechend wird der Quellcode einer Seite nach Tags durchsucht und so ein Abschnitt identifiziert, in dem keine oder sehr wenige Tags hinzukommen. Steigt die Anzahl der Tags im Quelltext wieder stark an, beschreibt dieser Abschnitt vermutlich wieder einen Bereich außerhalb des Textes, in dem die Navigation oder das Design festgelegt sind. Die Datenmenge für die Untersuchung von FINN ET AL. 2001 besteht aus 350 Artikeln zum Sport und 230 Artikeln zu Politik. Für diese kleine Menge entschieden Menschen, zu welcher Kategorie ein Dokument gehört. Die Autoren trainieren innerhalb jedes Gebietes zwei Klassifikationsalgorithmen. Der erste nutzt wie im Information Retrieval und bei Text Categorization Verfahren üblich die Wörter als Eigenschaften und ist damit stark inhaltlich orientiert. Die Abbildung vom Termraum in den binären Entscheidungsraum lernt ein Naive Bayes-Klassifizierer. Der zweite Ansatz von FINN ET AL. 2001 berücksichtigt auf einfache Weise die grammatische Struktur. Eine Part-of-SpeechAnalyse untersucht den Text und weist allen Wörtern ihre grammatikalische Funktion zu. Die statistische Analyse dieses Ergebnisses dient als Input für einen regelbasierten Klassifizierer, den C4.5-Algorithmus. Letzterer erbrachte in allen Fällen die besseren Ergebnisse. Die trainierten Systeme konnten in beiden Themengebieten über 85% der Dokumente richtig klassifizieren, wenn sie in ihrem Trainingsbereich eingesetzt wurden. Die Autoren testeten auch, wie gut die Systeme im anderen Themenbereich waren, also wie gut das für die Sportdokumente trainierte System politische Texte in meinungs- bzw. faktenorientiert unterscheiden konnte. Dabei sanken die Trefferquoten auf etwa 60% ab. Das Ergebnis beruht zwar auf einer kleinen Menge, aber die hohe Trefferquote zeigt, dass der Ansatz Erfolg haben kann. Unklar bleibt die genaue Herkunft der Dokumente, welche von einem Roboter aus dem Internet geholt wurden. Falls z.B. viele der Meinungsartikel von einem Autor oder einer Site stammen und die Faktentexte weitgehend von einer anderen Quelle, dann könnte die Klassifikation eher individuelle Stilunterschiede als die gewünschten Unterschiede gelernt haben. Eine weitere unberücksichtigte Einflussgröße könnte in den verschiedenen Algorithmen liegen. Für bestimmte Domänen sind verschiedene Klassifikationsverfahren unterschiedlich gut geeignet, so dass es sein kann, dass der 195 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung C4.5-Algorithmus diese Aufgabe zufällig besser löst als das lineare statistische Naive Bayes-Verfahren. Zwar orientiert sich die Wahl der Algorithmen an den Aufgaben und dem Umfang der Eigenschaften, jedoch wären zumindest beide Experimente mit dem Naive Bayes-Verfahren möglich gewesen. Der symbolisch orientierte C4.5-Algorithmus dagegen eignet sich kaum für die erste, inhaltlich orientierte Repräsentation, die sehr viele Eigenschaften erzeugt. Trotz der Schwächen zeigt das Resultat, dass einfache linguistische Analysen für bestimmte Fragestellungen sehr gute Ergebnisse bringen. In diesem Fall scheint sich die Häufigkeit von grammatikalischen Funktionen gut als Indikator für die gewünschte Abbildung zu eignen1. Deshalb sollten einfache linguistische Größen für die automatische Bestimmung der Qualität mit überprüft und getestet werden, soweit nur Inhalte in einer Sprache geprüft werden. Möglicherweise geben sie Hinweise auf den sprachlichen Stil und darauf, wie gründlich ein Text formuliert wurde. Sie haben aber eben den Nachteil, dass sie sprachabhängig sind. Zu den Zuordnungssystemen zählt auch die automatische Expertenidentifikation, die für ein Problem den geeignetsten Menschen finden will. Dabei geht es meist aber nur um die thematische Zuordnung von Experten bzw. der von ihnen erstellten Dokumente zu den Themen der Fragestellung und eben nicht um das Bestimmen der Qualität des Experten etwa anhand der Qualität seiner Dokumente (z.B. MAYBURY 1999). Aufgrund des Verhaltens oder der erstellten Objekte (Texte) von Menschen wird auf deren Expertise geschlossen, die dann wieder auf die Qualität der von ihnen erzeugten Objekte übertragen werden kann. Schlussfolgerungen aus dem Verhalten bergen Gefahren für täuschendes Verhalten. Sobald ein Algorithmus beispielsweise aus der Verweildauer auf einer Seite und dem Verfolgen bestimmter Verbindungen den Grad von Expertise des Benutzers bestimmen könnte, würden sicher schnell Agenten programmiert, die dieses Verhalten automatisieren und somit vortäuschen. 8.3 Qualitätsfilter Die automatische Qualitätsbewertung findet ihre primäre Anwendung als Filter über die Ergebnisse anderer Informationsdienste. Dabei wird die 1 „We conclude that the kind of language used in a document is a better indicator of subjectivity than the content of the document“ (FINN ET AL. 2001:43). 196 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Ergebnisliste nach Objekten mit niedriger Qualität durchsucht und diese werden dem Benutzer dann nicht präsentiert. Das Experiment von AMENTO ET AL. 2000 geht konsequent auf die Anforderungen der Qualitätsbewertung ein. Die Autoren vergleichen ihre Resultate auch mit den bekannten Verfahren der Link-Analyse und stellen so die Beziehung zu etablierten Systemen der Qualitätsabschätzung her. Deshalb soll das Experiment hier ausführlich dargestellt werden. Wie bereits oben diskutiert, trennen AMENTO ET AL. 2000 Qualität explizit von Relevanz (cf. Diskussion in Abschnitt 4.2). Darüber hinaus erkennen sie den subjektiven und vagen Charakter von menschlichen Qualitätsentscheidungen an. Das Ziel des Experiments liegt v.a. darin, die Bewertung von Experten aufgrund einfacher formaler Eigenschaften der Seiten nachzubilden1. Falls dies gelingt, ließe sich ein System mit den Eigenschaften der Seiten und den Entscheidungen der Experten trainieren. Das Experiment basiert auf fünf Mengen von Seiten, die jeweils ein Thema aus dem Bereich populärer Unterhaltung behandeln, darunter etwa die Fernsehserie The Simpsons oder die Musikgruppe Smashing Pumpkins. Daran zeigt sich bereits, dass der Begriff des Experten hier relativiert werden muss, es handelt sich hier nicht um Fachexperten im herkömmlichen Sinn, die sich über Kompetenz in technischen oder wissenschaftlichen Themen definieren, welche sie durch Ausbildung und längere berufliche Tätigkeit erworben haben. Statt dessen besteht die Kompetenz dieser selbsterklärten Experten für alltags- und freizeit-relevante Themen. Die Autoren begründen diese Entscheidung damit, dass 42% aller Anfragen in Internet-Suchmaschinen in das Gebiet populärer Unterhaltung fallen (AMENTO ET AL. 2000:298). Dies ist ein weiterer Hinweis auf die starke Durchdringung der Alltagswelt mit Informationsdiensten. Zum einen müssen dementsprechend die Themen populärer Unterhaltung aufgegriffen werden, zum anderen kann Qualität akzentuierter von Relevanz abgegrenzt werden, da die Nutzung von Informationssystemen zur Unterhaltung die Handlungsrelevanz und Zielgerichtetheit niedriger bewertet und den unterhaltenden Charakter stärker in den Vordergrund rückt. Zu den fünf ausgewählten und sehr breit definierten Themen suchten AMENTO ET AL. 2000 nach Internet-Sites. Dazu bedienten sie sich des Verzeichnisdienstes Yahoo und ließen in einem ersten Schritt von Testpersonen, die sich nicht als Experten auf diesem Gebiet bezeichnet hatten, aus den dort 1 „ … we examine how well the various rankings match human quality judgement“ (AMENTO ET AL. 2000:299). 197 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung präsentierten Angeboten die besten Sites auswählen. Die besten Angebote sollten nützlich und umfassend sein1. Im zweiten Schritt kamen die Experten im oben besprochenen Sinne zum Zuge. Sie bewerteten diese InternetAngebote auf einer Skala mit sieben Stufen nach ihrer Qualität, wobei offensichtlich keine so klare Definition wie bei der Vorauswahl gegeben wurde. Dies ist zwar sehr positiv, da die Qualität ein subjektives und globales, aber dennoch klar verständliches Konzept ist, das in Studien nicht unnötig verzerrt werden soll. Allerdings wirft dies nachträglich ein Problem bei der Vorauswahl auf, bei der Kriterien vorgegeben wurden, die für den Experten möglicherweise nicht relevant sind. So sucht ein Experte nicht mehr nach einem umfassenden Überblick. Zwar schätzt er sicher die Umfassendheit und Vollständigkeit eines Angebots, aber er will sich meist im Detail informieren. Die Vorauswahl kann also zu einer Verfälschung geführt haben. Vermutlich hielten die Autoren sie für nötig, um eine nicht zu heterogene Menge zu erhalten. Die Urteile der Experten wurden untereinander verglichen, um die Übereinstimmung zwischen den Experten zu messen. Trotz der offensichtlichen Vagheit der Qualitätsentscheidungen ergaben sich durchschnittlich Korrelationen von 0,71 zwischen den vergebenen Noten. Dieser relativ hohe Wert zeigt, dass solche Untersuchungen grundsätzlich sinnvoll sind. Die Ergebnisse der Experten wurde mit Rangfolgen verglichen, die sich aus verschiedenen anderen, formal erkennbaren Eigenschaften der Seiten ergeben. Dabei bezogen AMENTO ET AL. 2000 vor allem auf der Verlinkung basierende Größen mit ein, die sich nach Analyse der näheren Umgebung ergab. Dazu wurde aber nur eine sehr kleine Menge von Links verfolgt und in die Analyse einbezogen. Alle Adressen mussten auf dem gleichen Server liegen, um berücksichtigt zu werden. Die Verbindungs-Struktur wurde sowohl anhand der Anzahl von ankommenden sowie ausgehenden Links gemessen als auch mit dem PageRank-Algorithmus und dem hub- und authority-Gewicht von Kleinberg, die oben erläutert wurden. Allerdings wurden die komplexeren Algorithmen von Kleinberg und PageRank für größere Mengen von InternetSeiten entwickelt, als hier behandelt werden. Daneben berechneten AMENTO ET AL. 2000 Größen wie den Umfang der Datei und die Anzahl von Seiten auf der Site sowie die Anzahl von Grafiken und Audio-Dateien. Als weitere komplexe Größe nennen sie die Relevanz, eine thematisch orientierte Größe. Da keine Anfrage vorliegt, ist der Begriff 1 „We defined the ‚best‘ items as those that together gave a useful and comprehensive overview for someone wanting to learn about the topic“ (AMENTO ET AL. 2000:298). 198 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung aber eher irreführend. Tatsächlich wird eine Art Zentralität errechnet, die sich mit der Kohäsion von ZHU & GAUCH 2000 vergleichen lässt. Aus allen Seiten zu einem Thema ergibt sich nach Standard-Indexierung ein durchschnittlicher Zentrumsvektor, der im hochdimensionalen Term-Raum in der Mitte aller Seiten liegt. Die Autoren setzen für die Berechnung die Retrieval-Software Smart (SALTON & LESK 1965) ein. Die Distanz der einzelnen Seite oder der Site davon bildet ein weiteres Maß für den Vergleich mit den menschlichen Urteilen. Auch hier ist anzumerken, dass ein Information Retrieval-System natürlich für andere Anwendungen und andere Datenmengen entwickelt wurde, so dass die hier damit berechnete Größe evtl. nicht das Gewünschte wiedergibt. Andererseits öffnet die Benutzung von Standardverfahren die Möglichkeit, im Erfolgsfall bereits vorliegende Systeme für die Qualitätsbewertung zu verwenden. AMENTO ET AL. 2000 betrachten zunächst die Übereinstimmung der LinkAnalyse-Verfahren untereinander. Dahinter steht die Frage, ob komplexe Algorithmen wie Kleinberg oder PageRank erforderlich sind, oder ob nicht etwa das einfache Zählen der Links ausreicht. Dazu wird die Korrelation zwischen den unterschiedlichen Rangfolgen der Sites berechnet und es zeigt sich, dass die Übereinstimmung höher ist als bei den Experten, wo allerdings ein anderes Korrelationsmaß zur Anwendung kam, da die Daten auf einer Skala lagen. Vor allem die Anzahl der ankommenden Links korrelierten stark mit dem Authority-Maß nach Kleinberg. AMENTO ET AL. 2000 führen dies auf die kleine Anzahl von Sites in ihrem Experiment zurück und folgern, dass in einer bereits vor vorneherein relevanten Menge kein komplexes Maß nötig ist. Dazu ist anzumerken, dass bei einer relativ geringen Anzahl von Seiten auch der Gewinn durch die Verwendung eines einfachen Maßes nicht entscheidend ist. Erst bei großen Datenmengen macht sich die Komplexität von PageRank oder dem Kleinberg-Maß bemerkbar. Das eigentliche Ziel von AMENTO ET AL. 2000 bestand aber in der Messung der Übereinstimmung von menschlichen Urteilen und dem Ranking anhand einfacher formaler Größen. Dazu sollte die Präzision anhand eines typischen Information Retrieval-Maßes überprüft werden, der Frozen Rank-Methode, bei der nur die ersten n Dokumente berücksichtigt werden, eine im Internet sehr realistische Annahme. Grundsätzlich stellt sich natürlich die Frage, inwieweit Information Retrieval-Maße für die Analyse von Qualitätsergebnissen überhaupt geeignet sind. Da die menschlichen Bewerter die Sites anhand einer Siebener-Skala beurteilt haben gilt dies um so mehr, da bei der Evaluierung von Information Retrieval-Ergebnissen binäre Relevanzbewertungen üblich sind. Die sieben Noten wurden in ein binäres Urteil umgeformt, wobei die drei höchsten Klassen als gute Qualität galten und die 199 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung übrigen als schlechte Qualität. Dies willkürliche Grenze ist besonders problematisch, da die Experten bei ihren Urteilen über diese binäre Bewertung ihrer Entscheidungen nicht informiert waren. Während zum Zeitpunkt der Bewertung die Distanz zwischen Note drei und vier also gleich groß ist wie die zwischen vier und fünf, wird durch die Umformung in binäre Urteile die erste Unterscheidung bedeutungslos und die zweite entscheidend. Die Autoren hätten die Ergebnisse zumindest für eine weitere Grenze für die binäre Einordnung berechnen sollen und durch den Vergleich zeigen können, ob der gewählte Schnittpunkt Einfluss auf das qualitative Ergebnis hatte. Dieser Problematik wird in anderer Weise Rechnung getragen, die Ergebnisse werden zusätzlich nach einer Mehrheitsregel analysiert, um zu berücksichtigen, wie viele Experten eine Seite als sehr gut bewertet hatten. Dahinter steht die Annahme, dass eine Qualitätsaussage von mehr Experten ein höheres Gewicht und höhere Zuverlässigkeit hat als die von relativ wenig Experten. Für eine Auswertung wurden die Entscheidungen der Experten mit einer absoluten Mehrheitsentscheidung zu einer wiederum binären Aussage zusammengefasst und in einer zweiten Auswertung wurden den Seiten Qualitätswerte zwischen Null und Eins zugesprochen, abhängig vom Anteil der Experten, die diese Bewertung abgaben. Für diese zweite Größe wurde aber wieder die binäre Entscheidung genutzt, nämlich ob die einzelne Site mit einer der drei besten oder einer der vier schlechteren Noten bewertet wurde. Da ohnehin nur drei bzw. vier Experten zu jedem Thema eingesetzt wurden, erscheint eine Mehrheitsentscheidung ohne Berücksichtigung der Einzelbewertung willkürlich. Die Auswertung zeigt zunächst, dass die Größen immer besser wirkten, wenn sie auf eine komplette Site bezogen waren als bei der Berücksichtigung individueller Pages. Die fünf besten Indikatoren für Qualität lagen in dem Experiment von AMENTO ET AL. 2000 gleich auf. Dazu gehören drei Größen auf der Basis von Verlinkung, die Anzahl eingehender Links, der PageRank und Kleinbergs Authority-Index sowie die Anzahl der Seiten der Site und die Anzahl der Grafiken. Schlechtere Indikatoren dagegen waren die Anzahl der ausgehenden Verbindungen, die Anzahl von Audio-Dateien, die Größe der Startseite, die inhaltliche Größe, welche die Autoren als Relevanz bezeichnen sowie Kleinbergs Hub-Index, der aber ohnehin nicht für die Messung von Qualität gedacht ist. Dieses Ergebnis ergab sich sowohl für die Links zwischen Pages als auch zwischen Sites. 200 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Die Autoren gelangten somit zu der verblüffenden Aussage, dass die Anzahl der Seiten eines Angebots ein ebenso guter Indikator für die Qualität dieses Angebots ist wie die elaborierte Analyse der Verlinkung1. Eine plausible Erklärung dieses Ergebnis sehen die Autoren darin, dass die Anzahl der Seiten einen Indikator für den Aufwand und die Gründlichkeit des Autor bildet und damit für dessen Mühe, die auch die Qualität widerspiegelt. AMENTO ET AL. 2000 untersuchten weiterhin, inwieweit die Unterschiede zwischen den Größen statistisch signifikant sind. Zwischen den fünf besten Größen konnten keine signifikanten Unterschiede mehr erkannt werden. Nur die Anzahl der ankommenden Links konnte gegenüber den anderen Größen eine signifikante Verbesserung erreichen. Alle fünf besten Größen waren signifikant besser als die Relevanz (AMENTO ET AL. 2000:302). Bei der geringen Anzahl von Sites und von Bewertern bei dem Experiment wirft die Analyse aber eher Fragen nach dem zugrunde liegenden statistischen Modell auf. Leider kombinieren AMENTO ET AL. 2000 die einfachen erhobenen Eigenschaften nicht, um so die Ergebnisse einer Fusion von mehreren Evidenzen zu berechnen. Somit sind die Ergebnisse von AMENTO ET AL. 2000 nur zum Teil verwertbar. Sie zeigen zwar das Potential weiterer Indikatoren zur Qualitätsbewertung, welche über die Link-Analyse hinausgehen und diese in diesem Anwendungsfall bereits übertreffen. Jedoch reichen die wenigen und nicht kombinierten Kriterien für größere Datenmengen nicht aus. Dieses Vorgehen führt nicht nur im Information Retrieval allgemein zu guten Ergebnissen. Auch bei dem bereits diskutierten Ansatz von BUCY ET AL. 1999 ergaben sich interessante Zusammenhänge bei zusammengesetzten Strukturvariablen. Der im Folgenden vorgestellte Ansatz von ZHU & GAUCH 2000 kombiniert ebenso einfache Maße zu komplexen Variablen. CARRIÉRE & KAZMAN 1996 stellen mit WebQuery einen Filter für die Ergebnisse einer Suchmaschine vor. WebQuery ordnet die Ergebnisse einer Suchanfrage nach der Häufigkeit der Verknüpfungen, wobei die Summe der Verweise auf die Seite (in-links) und die Anzahl der Verknüpfungen zu anderen Seiten (out-links) addiert wird. Die Seiten mit der höchsten Connectivity werden in einer kreisförmigen Visualisierung zentral angeordnet und sollen so dem Benutzer zuerst ins Auge fallen. 1 „simply counting the number of pages on a site gives as good an estimate of quality as any of the link-based computations“ (AMENTO ET AL. 2000:301). 201 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung 8.3.1 Integration von Qualitätsmetriken in Retrieval-Verfahren Der Ansatz von ZHU & GAUCH 2000 integriert einen Ansatz zur Bewertung von Qualität in ein Information Retrieval-System1. Er stellt einen der wenigen Ansätze vor, die eine komplexe Definition von Qualität realisieren. Die Autoren schlagen sechs Kriterien für Qualität vor: „currency, availability, information–to-noise ratio, authority, popularity, and cohesiveness“ (ZHU & GAUCH 2000:288). Sie begründen die Auswahl mit einer Analyse von Literatur zu der intellektuellen Analyse von Qualität und stellen fest, dass diese Aspekte in den meisten Kriterienlisten vorkommen. Sie stellen konkrete formale Umsetzungen dieser Aspekte vor: • Die Aktualität (concurrency) wird mit Hilfe der letzten Änderung bestimmt, die dem Änderungsdatum der Datei (timestamp) entnommen wird und nicht einem Eintrag in der Datei. • Verfügbarkeit (availability) wird anhand der nicht gültigen Verbindungen (dead links) bestimmt. Der Begriff hierfür wirkt etwas irreführend und scheint zunächst auf einen anderen ebenfalls eher technisch orientierten Aspekt hinzuweisen, nämlich wie gut der Server der Seite erreichbar ist und wie schnell die Seite selbst aufgerufen werden kann. • Die Größe Information-to-Noise Ratio lässt sich am besten mit Informationsgehalt ausdrücken. Die formale Umsetzung berücksichtigt die Anzahl der Tokens im Text und setzt sie in Verhältnis zu der Dateigröße. Damit wird weder Grafiken, Farben noch anderen nicht textuellen Informationsträgern ein Informationsgehalt zugeschrieben. Hinter dieser Größe lassen sich mehrere Intentionen vermuten. Aus eher technischer Sicht ist ein niedriger Informationsgehalt problematisch, da er die Ladezeit erhöht. Aber auch inhaltlich kann diese Größe eine Rolle spielen. Die häufige Wiederholung von Wörtern wirkt sich negativ auf die Größe aus. Damit misst die Information-to-Noise Ratio ebenso stilistische Eigenschaften einer Seite und belohnt prägnanten Ausdruck. • Popularität (popularity) bestimmen ZHU & GAUCH 2000 anhand der Anzahl der Verbindungen, die zu einer Seite führen. Dabei wird die Qualität der referenzierenden Seite nicht berücksichtigt, d.h. jede 1 Die Autoren formulieren ihr Ziel wie folgt: „present an approach that combines similarity-based ranking with quality ranking in distributed search environments“ (ZHU & GAUCH 2000:288). 202 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Verbindung zählt gleich viel. Diese Größe entspricht eher dem, was in anderen Studien als Autorität bezeichnet wird. Popularität betrachten die meisten Autoren als Funktion der Anzahl der Zugriffe auf eine Seite. • Autorität messen die Autoren anhand intellektueller Bewertungen im Rahmen eines Internet-Dienstes von Yahoo1, der auf einer Skala von zwei bis vier liegt. Ob diese Rezensionen sich ausschließlich auf die Autorität beziehen, muss bezweifelt werden. Solche Bewertungen beziehen sich i.d.R. auf umfassendere Aspekte wie etwa globale Qualität. Eine ausschließliche Bewertung der Autorität durch Benutzer ist für diese schwierig und für einen Internet-Dienst wenig sinnvoll. • Die Kohäsion (cohesiveness) von Internet-Seiten beziehen ZHU & GAUCH 2000 auf die enthaltenen Texte und messen den inhaltlichen Zusammenhang einer Seite oder eines gesamten Angebots. Dazu suchen sie die dominantesten Themen der Objekte und messen deren semantischen Abstand. Je größer der Abstand, desto geringer ist die Qualität der Objekte. Realisiert wird die Messung der thematischen Abstände über die Ontologie eines hierarchisch gegliederten InternetKatalogs. Die meist ca. 20 Web-Angebote einer Hierarchie werden zusammengehängt und indexiert. Der entstehende Gewichtsvektor definiert eine Art Cluster-Zentroid, ein exemplarisches Dokument, das diese Kategorie vertritt. Jede betrachtete Internet-Seite wird ebenfalls indexiert und mittels des Kosinus-Ähnlichkeitsmaßes werden die dazu 20 ähnlichsten Konzepte identifiziert. Der Abstand zwischen den 20 passendsten Konzepten gilt als Maßstab für die Kohäsion der Seite. Dazu wird der Abstand über die Länge des zu durchschreitenden Pfades zwischen den Konzepten gemessen und mit dem Maß der Ähnlichkeit zwischen Seite und Konzept relativiert. Ausgehend von diesen Definitionen und ihren Umsetzungen stellen ZHU & GAUCH 2000 ein Modell für verteiltes Information Retrieval vor, das den Fusionsaspekt betont. Sie führen drei Experimente durch: • Verteilte Informationssuche: Die Berechnung der Retrieval Status Value beinhaltet die Qualitätsmerkmale, die jeweils mit einem Gewicht multipliziert werden, das die Wichtigkeit des entsprechenden Merkmals wiedergibt. Die mittels des Produkts aus Term-Frequenz und inverser 1 Yahoo Internet Life: http://www.zdnet.com/yil 203 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Dokument-Frequenz berechnete Ähnlichkeit zwischen Anfrage und Dokument wird mit dem Endergebnis der Qualitätsanalyse multipliziert. Das Gewicht für die Wichtigkeit der Ähnlichkeitsmerkmale wurde folgendermaßen ermittelt: Jedes Qualitätsmerkmal wurde einzeln mit dem Ergebnis des Standard-Retrieval kombiniert. Aus den Ergebnissen wurde die Verbesserung gegenüber einem Versuch ohne Einfluss von Qualitätsaspekten gemessen. Die Verbesserung des RetrievalErgebnisses bestimmt die Wichtigkeit des Merkmals. • Site-Auswahl: Das gleiche Experiment wurde auf der Ebene der gesamten Site durchgeführt. Die Qualitätsmerkmale werden für alle Seiten innerhalb der Site berechnet und daraus bestimmen ZHU & GAUCH 2000 durch Mittelwertbildung die Qualität der gesamten Site. Gewichte für die Wichtigkeit der einzelnen Merkmale werden auf die gleiche Weise wie oben bestimmt und gehen analog ins Ergebnis ein. Das Gesamtergebnis ergibt sich wieder als Produkt der Ähnlichkeit zwischen Anfrage und Dokument und der gewichteten Summe der Qualitätsindikatoren. • Fusion von Retrieval-Ergebnissen: Grundsätzlich versuchen Fusionsansätze, die Qualität eines Gesamtergebnisses durch das Ausnutzen unterschiedlicher Evidenzen zu verbessern (cf. MANDL & WOMSERHACKER 2001). Im maschinellen Lernen (siehe Abschnitt 3.1) werden entsprechende Algorithmen wie Boosting und Bagging als Committee Machines bezeichnet (cf. HAYKIN 1999, siehe Abschnitt 2.3) und werden vorwiegend zur Optimierung in der Klassifikation eingesetzt. Im Information Retrieval stellen meist mehrere Retrieval-Algorithmen die einzelnen zu fusionierenden Ergebnisse dar und diese werden durch gewichtete lineare Kombinationen zusammengefasst. Die Gewichte der linearen Kombination entsprechen der Güte der einzelnen Systeme und ergeben sich aus früheren Erfahrungen. Im vorliegenden Ansatz von ZHU & GAUCH 2000 dagegen stellt jede Web-Site eine Evidenzquelle dar, die mit einem entsprechenden Gewicht für ihre Güte gewichtet wird. Diese Güte entspricht der Qualität nach den oben angeführten Kriterien. Die Gewichte der einzelnen Qualitätsaspekte der auch in diesem Fall linearen Kombination ergeben sich nach dem gleichen Prinzip wie in den vorhergehenden Experimenten, sie entsprechen der Verbesserung gegenüber einem Experiment ohne Berücksichtigung der Qualität. Der Einfluss der Qualität erscheint hier im Vergleich zu inhaltlichen Kriterien sehr hoch. 204 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Die Datenbasis ist nicht sehr umfangreich, für jedes der fünf Anwendungsgebiete1 werden vier Internet-Angebote aus dem kommentierten und bewerteten Yahoo-Internet-Life ausgewählt, wobei die Autoren angeben, dass die Qualität variierte. Die Anfragen spiegeln reale Benutzerbedürfnisse wieder und stammen aus einem Log-File. Der Aufbau des Experiments offenbart einige Schwächen. • Das Bedürfnis, das umfassende System auch zu implementieren, führt zu einigen heuristischen Annahmen, die nur schwer zu begründen sind. Besonders die Definition von Kohäsion enthält etliche problematische Annahmen, wie etwa die Auswahl einer beliebigen Ontologie als alleinige Wissensquelle sowie die Anzahl der ausgewählten dominanten Themen. Da zwischen den Seiten aus der Ontologie und der Testmenge für das Retrieval explizit keine Doppelung ausgeschlossen ist, kann es hierzu zu Problemen kommen. Dokumente, die den Maßstab für Kohäsion mit festlegen, können mit diesen Kriterien bewertet werden und erhalten so notwendigerweise hohe Qualitätswerte. • Auffällig ist auch die Bewertung des Merkmals Kohäsion. Ein Angebot, das in umfassender Weise informiert und so vielleicht einen interessanten Zusammenhang zwischen anscheinend entfernten Themen herstellt, gilt nach dieser Definition als schlecht. Belohnt werden dagegen thematisch sehr enge und eingeschränkte Seiten, was nicht für jedes Benutzerbedürfnis angemessen sein dürfte. • Problematisch ist das Verhältnis der Anzahl von Seiten, die für die Erstellung der Ontologie benutzt wurden, im Vergleich zu der Testmenge für das Retrieval. Für beide Aufgaben wurden ungefähr gleich viele Seiten benutzt, so dass ein Aspekt der Qualität so sorgfältig bearbeitet wurde wie das gesamte Experiment. • Die Autoritäts-Definition von ZHU & GAUCH 2000 basiert auf intellektuellen Urteilen, die sich eher auf globale Qualität beziehen. Dieser Aspekt ist unter den andern fünf der einzige, hinter dem sich eine intellektuelle Einschätzung verbirgt. Dies kann sich als Nachteil erweisen, wenn nicht alle zu betrachtenden Seiten von Menschen bewertet wurden. Alle anderen Faktoten lassen sich vollautomatisch für jede Seite erfassen, so dass die so definierte Autorität eine ernsthafte Einschränkung für die Menge der zu verarbeitenden Seiten darstellt. 1 Kunst, Musik, Computer, Fitness, allgemeine Informationen (cf. ZHU & GAUCH 2000: 291) 205 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Die Ergebnisse der Experimente werden mit Standard-Evaluationsmaßen aus dem Information Retrieval bewertet. Die zurückgelieferten Seiten wurden von menschlichen Evaluatoren betrachtet und als relevant oder nicht relevant eingeordnet. Daraus wurde die durchschnittliche Precision berechnet. Alle drei Experimente liefen zunächst ohne Qualitätsmerkmale und mit allen Qualitätsmerkmalen einzeln. Fast immer ergab sich eine Verbesserung der durchschnittlichen Precision, die dann als Gewicht der Wichtigkeit des Merkmals diente. Durch die Kombination mehrerer Merkmale ergaben sich teilweise bessere Werte als bei einzelnen Qualitätsmerkmalen, aber in keinem Fall basierte das beste Ergebnis auf allen Merkmalen. In allen drei Experimenten ergaben sich unterschiedliche Resultate: • Im ersten Experiment ergaben die Qualitätsmerkmale Verbesserungen von 5% bis 15% wobei die vier besten Merkmale Informationsgehalt, Kohäsion, Erreichbarkeit und Aktualität waren. Die Kombination aller Merkmale konnte die durchschnittliche Precision um 20% erhöhen, während bei der Kombination der vier genannten besten Merkmale die Verbesserung 25% betrug. Interessant daran ist v.a., dass die am häufigsten benutzten Merkmale Autorität und Popularität am schlechtesten abschneiden. Dagegen erbringen die problematischen Merkmale bessere Werte. Die besten Ergebnisse sind wie im folgenden Experiment statistisch signifikant. • Das Experiment mit Qualitätswerten für gesamte Sites ergibt eine Erhöhung der durchschnittlichen Precision um 25% bei Berücksichtigung der Kohäsion. Dahinter liegen fast gleichauf Popularität, eine Kombination aus Erreichbarkeit, Informationsgehalt und Popularität, eine Kombination aller Merkmale, Erreichbarkeit und Informationsgehalt. Dieses Resultat weist darauf hin, dass die Definition von Kohäsion sich für gesamte Sites gut eignet. • Im Fusionsexperiment dagegen führt die Kohäsion zu einer Verschlechterung um 10%. Nur die Popularität erreicht hier eine Verbesserung von 5%, die statistisch signifikant ist. Unklar bleibt, ob die Ergebnisse auch tatsächlich von höherer Qualität waren. Die Seiten wurden offensichtlich nur auf binäre Relevanz überprüft und nicht daraufhin, ob nun bessere Seiten nachgewiesen werden. Dazu hätte sich ein Vergleich der Ergebnisse mit und ohne die Qualitätsmaße angeboten. Eventuell sind Seiten mit niedriger Qualität gefiltert worden oder Seiten mit hoher Qualität erreichten höhere Plätze im Ranking. 206 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Unterschiede bei der Wichtigkeit der Qualitätsaspekte zwischen den verschiedenen Themengebieten der Internet-Angebote werden nicht berichtet. Eine mögliche Optimierung der Gewichte der Qualitätsmerkmale und damit der linearen Kombination mit maschinellen Lernverfahren wird nicht untersucht. Trotz dieser Schwächen verweisen die Ergebnisse auf interessante Tendenzen, die aber für nicht integrative Ansätze nicht ungeprüft übernommen werden sollten: • Je nach Aufgabenstellung und bewerteten Einheiten können völlig andere Qualitätsmerkmale ausschlaggebend sein. • Eine Analyse mehrere Merkmale und ihrer Kombinationen zahlt sich aus. Allerdings können teilweise auch sehr einfache Merkmale eine gute Annäherung von Qualität erreichen. 8.3.2 Zeitliche Aspekte Der Crawler der Suchmaschine Altavista1 setzt auf einfache Weise das Qualitätskriterium Aktualität um. Der automatische Indexierungsagent besucht die Seiten so häufig wie sie sich zu ändern scheinen. Dadurch werden zwar Änderungen registriert und der Index bleibt auf einem aktuellen Stand, d.h. er entspricht dem Zustand der Seiten. Trotzdem schont dieses Vorgehen die Ressourcen, da unnötige Besuche vermieden werden. Auch CHI ET AL. 1998 weisen auf die zeitliche Dimension von Informationsqualität im Internet hin. Ihr Ansatz visualisiert sowohl die strukturelle Entwicklung eines Internet-Angebots als auch die Zugriffshäufigkeit. Basis der Visualisierung ist die Topologie der Verknüpfung der Seiten untereinander, die kreisförmig aufgebaut ist. In der Mitte positioniert sich die Wurzel und in konzentrischen Kreisen erscheinen die Seiten mit gleicher Anzahl von passierenden Links von der Wurzel aus. So lassen sich nicht nur statische Aspekte wie nicht besuchte Bereiche erkennen, sondern auch interessante Entwicklungen verfolgen. Das System erlaubt es, Seiten zu identifizieren, die sich im Lauf der Zeit zu sehr populären Seiten entwickelt haben und entsprechende Beziehungen zu strukturellen Änderungen zu erkennen. CHI ET AL. 1998 zeigen, dass bei ihrem Anwendungsfall, der Website der Firma XEROX, solche Entwicklungen auftraten, dass die Popularität und zumindest die durch sie ausgedrückten Aspekte der Qualität zeitlichen Änderungen 1 http://www.altavista.de bzw. http://www.altavista.com 207 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung unterliegen. Mit diesem Ansatz ließen sich also Änderungen von formalen Eigenschaften erkennen, die erheblichen Einfluss auf die Popularität haben. Dieser Effekt wird natürlich stark von inhaltlichen Aspekten überlagert. CHI ET AL. 2000 verfeinern die entwickelte Methodologie weiter und beachten für eine ähnliche Datenmenge aus der Website der Firma XEROX zudem die interne Verlinkung unter den Seiten, die inhaltliche Ähnlichkeit der Seiten und Pfade, entlang derer sich die Benutzer bewegen. 8.4 Gebrauchstauglichkeit Die Gebrauchstauglichkeit stellt ein entscheidendes Qualitätskriterium für Informationssysteme dar, das sich im Internet kaum von den Inhalten trennen lässt1. Die Bewertung von Gebrauchstauglichkeit ist ein sehr aufwendiger Prozess, zu dem in der Regel Benutzertests nötig sind. Deshalb entstanden auch in diesem Forschungsbereich Ansätze zur Automatisierung dieser Bewertung. Ein frühes Beispiel ist das System EVADIS zur leitfadengestützten Bewertung einer Benutzungsoberfläche. EVADIS unterstützt einen Experten bei seiner Evaluierung durch Vorgabe konkreter Kriterien (OPPERMANN ET AL. 1992). Ein ähnliches System stellt WebScore dar, das sich an Kriterienlisten für die Qualität von Web-Seiten orientiert (HEIDMANN & ZIEGLER 2002). Mit dem Siegeszug des Internets stieg der Bedarf erheblich und so entstanden Systeme mit weitergehender Automatisierung, die sich in einfache und komplexe unterteilen lassen. Grundlage für einige der automatischen Bewertungsfunktionen sind Vorschläge aus Ratgebern (VAN DUYNE ET AL. 2003), Normen (z.B. DIN EN ISO 14915-3 2002, DIN EN ISO 9241-10 2004) oder Regeln und Richtlinien (W3C 2005). Die erste Stufe bilden Systeme, die sich aus HTML-Syntax-Prüfern entwickelten. Sie setzen auf sehr konkreten Forderungen zur Steigerung der Gebrauchstauglichkeit auf wie etwa den Forderungen nach alternativen Texten zu Grafiken und den Anforderungen für sehbehinderte Benutzer (CHAK 2000). Diese einfachen Kriterien repräsentieren aber nur einen Teil der Gebrauchstauglichkeit und vernachlässigen weitgehend die Seitengestaltung und die Navigation, wie der folgende Abschnitt zeigt. Einfache Werkzeuge können Benutzertests auf keinen Fall ersetzen. Ein spezifisch auf Hypertexte ausgerichtetes System stellen BOTAFOGO ET AL. 1993 vor. Sie bewerten die von den Links definierte Struktur von Knoten in 1 Diese Erkenntnis ziehen z.B. SPOOL ET AL. 1999 aus einer empirischen Untersuchung. 208 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung einem Hypertext. Die entwickelten Metriken sollen Autoren bei der Verbesserung oder Analyse von Hypertext-Systemen unterstützen. Einige komplexere Systeme erheben den Anspruch, Ergebnisse zu erzielen, die nahe an denen von Benutzertests liegen. Sie lassen sich unterteilen in Systeme zur Analyse der Struktur von Seiten und zur Analyse der Navigation in Sites. Einen Überblick über automatische Unterstützung bei allen Schritten der Bewertung von Benutzungsoberflächen bieten IVORY & HEARST 2001. 8.4.1 Syntax- und Richtlinienkonformitäts-Prüfung Die Einhaltung vieler Syntax-Vorschriften lässt sich automatisch überprüfen. Jedoch handelt es sich dabei um eine sehr oberflächliche Art der Qualitätsbewertung. Je komplexer oder genereller die Aussagen werden, desto schwieriger ist die Überprüfung auch für Menschen. Die Forderungen der DIN Norm für DialogGestaltung bietet ein Beispiel hierfür. Es werden für einen Einzelfall nicht alle Juroren die gleichen Einschätzungen zur Einhaltung von generellen Forderungen wie Erwartungskonformität oder Aufgabenangemessenheit abgeben. Eines der ersten Werkzeuge für die Bewertung von HTML-Seiten ist Weblint (BOWERS 1996). Es überprüft v.a. folgende Probleme: • Syntax (Z.B.: Sind alle geöffneten Tags wieder geschlossen? Sind Elemente wie etwa die Angabe von Links syntaktisch korrekt?) • HTML-Gebrauch aufeinander?) (Z.B.: Folgen die Überschriftebenen logisch • Struktur der Site (Z.B.: Führen auf jeder Seite Links auf die nächsthöhere Ebene?) • Portabilität (Werden Konstruktionen benutzt, die nicht alle Browser korrekt wiedergeben?) • Stilistische Schwächen (z.B.: kein ALT-Text für Grafiken, Wörter wie „here“ im Link-Text) Das Werkzeug WebSAT1 bildet einen Teil der Suite Web Metrics2 des National Institute of Standards and Technology (NIST). WebSAT beruht auf 1 http://zing.ncsl.nist.gov/WebTools/WebSAT/overview.html 2 http://zing.ncsl.nist.gov/WebTools/ 209 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Richtlinien des IEEE und prüft die Verwendung von Tags für sehbehinderte Benutzer, die richtige Anwendung von Formularen, die Größe von Grafiken sowie die Lesbarkeit anhand des Verhältnisses von Links zu Text. Abb. 8.1: Überblicksseite des WebXACT-Systems Besonders der Zugang für Sehbehinderte (Accessibility) steht im Zentrum einiger Systeme1, da er sich relativ einfach prüfen lässt und die Problematik des barrierefreien Zugangs für Behinderte durch entsprechende Gesetze neue Beachtung fand. Viele der Richtlinien dienen aber generell der besseren Gestaltung, welche nicht nur den Benutzern mit Behinderungen zugute kommen. (W3C 2005). 1 http://www.freewebsiteproviders.com/website-tuneup.htm 210 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Ein weiteres Syntax-System ist WebXACT der Firma Watchfire1, das Abbildungen 8.1, 8.2 und 8.3 zeigt. WebXACT berücksichtigt unter anderem die Accessibility Guidelines des W3C Konsortiums (W3C 2005) und weist auf Verletzungen hin. Die darin aufgestellten Regeln enthalten jedoch häufig Interpretationsspielraum und lassen sich maschinell nicht eindeutig überprüfen. So zeigt die in Abbildung 8.3 festgehaltene Überprüfung lediglich eine sehr allgemeine Aussage zu Grafiken: „If an image conveys important information beyond what is in its alternative text, provide an extended description“ (Abbildung 8.3). Jedoch kann das System weder erkennen, ob die Grafik eine wichtige Information enthält, noch ob eine erweiterte Beschreibung vorhanden ist. Ähnlich verhält es sich mit der Aussage zur Farbe: „If you use color to convey information, make sure the information is also represented in another way“ (Abbildung 8.3). Auch für die Farbe kann weder geprüft werden, ob die Farbgebung Information enthält noch ob die Seite diese Information noch anderweitig repräsentiert. 1 http://www.watchfire.com 211 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Abb. 8.2: Seite mit Quality-Metriken des WebXACT-Systems 212 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Abb. 8.3: WebXACT-System mit Accessibility-Warnungen Einen Überblick über Prüfprogramme liefern BRAJNIK 2000 und CHAK 2000. Diese Programme behandeln zweifellos durch die Überprüfung der Syntax und der Konformität hinsichtlich von Richtlinien einige Aspekte der 213 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Usability. Die gesamte Komplexität der Gebrauchstauglichkeit können sie natürlich nicht abdecken, dies wird durch automatische Verfahren wohl kaum möglich sein. Wünschenswert sind Systeme, die über die einfache Syntaxprüfung hinausgehen, Teilaspekte des menschlichen Informationsverhaltes abbilden und so zu aussagekräftigeren Ergebnissen kommen als einfache Werkzeuge. 8.4.2 Seitenstruktur Eine auf formalen Kriterien beruhende Analyse der Benutzbarkeit legen BUCY ET AL. 1999 vor. Die formalen Eigenschaften, welche in der Studie eine Rolle spielen, wurden zwar intellektuell erfasst, jedoch könnten diese auch automatisch mit befriedigender Qualität erfasst werden. Das Ziel der Studie aus dem Gebiet der Medienwissenschaft bestand darin, zu prüfen inwieweit bestimmte Gestaltungselemente überhaupt eingesetzt werden, inwieweit ihr Einsatz mit den Richtlinien populärer Ratgeber zum Web-Design übereinstimmt1 und inwieweit das Befolgen dieser Ratschläge zu höheren Zugriffsraten führt2. Als Maßstab für letzteres gilt die Zugriffshäufigkeit, also ein Parameter, der häufig als Annäherung der Popularität eines Angebots gewertet wird. Die Popularität muss als eines der wichtigsten Indizien für Qualität im Internet gewertet werden, so dass die Untersuchung von BUCY ET AL. 1999 auch unter dem Gesichtspunkt der Qualität betrachtet werden kann. Ratgeber zum Web-Design schlagen Regeln auf sehr allgemeiner Ebene vor (REISS 2000, VAN DUYNE ET AL. 2003, ROSENFELD & MORVILLE 2002). Sie fordern etwa die Einhaltung von Prinzipien wie Übersichtlichkeit oder Ausgeglichenheit, denen niemand widersprechen würde. Gesunder Menschenverstand bildet die Basis für oberflächlich sinnvolle Richtlinien. Daraus leiten sie aber konkrete Umsetzungen ab, die sich jedoch nicht mehr notwendigerweise aus der allgemeinen Forderung herleiten lassen. Zudem widersprechen sich die einzelnen Autoren in Details. Zwar dienen sie einem Einsteiger sicher als gute Orientierung, als alleiniger Maßstab für die Abschätzung der Qualität von Organisation, Struktur und Benutzbarkeit können sie sicher nicht 1 „Specifically, the study asks if the interactive capabilities of the Web are being exploited by Web page designers to the extent that the popular literature suggests they are“ (BUCY ET AL. 1999:1247). 2 „“is there a relationship between the complexity of Web page design and the amount of trafficc a site receives? Do these relationships vary by domain?“ (BUCY ET AL. 1999:1248). 214 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung dienen. Darauf deuten auch die Ergebnisse einer empirischen Analyse solcher Vorschläge durch SPOOL et al. 1999 hin. BUCY ET AL. 1999 wählen als Maßstab für die Popularität die Zugriffshäufigkeit nach einem Verzeichnisdienst, der vorgibt, qualitativ gute Seiten vorzuhalten. Aus den 5000 am häufigsten von diesem Verzeichnisdienst aus besuchten Sites wählten die Autoren zufällig eine Menge von 500 Angeboten aus. Die untersuchte Stichprobe besteht also bereits aus häufig zugegriffenen Seiten. Mehrere Studierende analysierten alle Angebote intellektuell und kodierten Banner, Reklame, Animationseffekte, dominierende Farbe, Logos, Frames, Grafiken und Links. Die Zuverlässigkeit dieser Methode überprüften die Autoren durch einige Doppelkodierungen von zwei Bewertern. Dabei stellten sie grundsätzlich eine hohe Übereinstimmung fest, die aber stark von dem kodierten Element abhing. Während die Hälfte aller Variablen über 90% Übereinstimmung aufwiesen, zeigte sich bei Banner-Links mit 37% eine große Abweichung zwischen den menschlichen Bewertern. Für die Analyse größerer Mengen von Internet-Angeboten hinsichtlich formaler Details sollten immer automatische Verfahren eingesetzt werden, da sonst die Erhebung zu viele Ressourcen in Anspruch nimmt. Der Mensch sollte lediglich zur Bewertung der Qualität etwa in Form seiner allgemeinen Zufriedenheit herangezogen werden. Trotzdem enthält die von BUCY ET AL. 1999 untersuchte Menge von Parametern interessante Ansatzpunkte. Die Auswertung sucht nach Korrelationen zwischen in den Seiten enthaltenen Gestaltungselementen und der Häufigkeit der Zugriffe darauf. Dazu wurden sechs Variablen untersucht, das Vorkommen grafischer Elemente, dynamische Elemente, asynchrone interaktive Elemente (Links, Kontaktinformation), real-time interaktive Elemente (chat, Video-Links, Web-Kameras) und eine zusammengesetzte Strukturvariable, welche die Anzahl von frames, screens und page maps kombiniert. Eine sechste Variable integriert alle vorherigen fünf (omnibus strucure variable). Eine signifikante, positive Korrelation ergab sich für die Anzahl von asynchronen Interaktionselementen wie e-mail-Adressen. Für kommerzielle Seiten liegt ebenfalls eine signifikante Korrelation zwischen grafischen Elementen und Popularität vor. Starke Korrelationen liegen auch für universitäre Seiten vor, v.a. für die Strukturvariable, asynchrone Interaktionselemente und die omnibus strucure variable. Das Suchen nach dem reinen Vorhandensein von gewissen Elementen weist nur bedingt auf dessen Beitrag zur Benutzbarkeit hin. Vielmehr kommt es auf das Wie an, ein Bedienelement alleine hat keinen Einfluss auf die Benutzbarkeit. Vielmehr kommt es auf die Aufgaben an, die erledigt werden sollen und wie geschickt Bedienelemente dafür kombiniert werden. Eine 215 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung automatische Analyse der Seiten beschränkt sich zunächst natürlich ebenfalls auf das Vorhandensein von Bedienelementen. Trotzdem ist eine solche Untersuchung sinnvoll, wenn sie mit genügend anderen Kriterien zusammen in Beziehung gesetzt werden. Diese können Hinweise auf die Anwendungen enthalten. Die Studie von BUCY ET AL. 1999 schlägt eine interessante Richtung ein, umfasst aber eine kleine Stichprobe eher populärer Seiten. Zwar sollten mehr Eigenschaften von Internet-Seiten evaluiert werden, aber die Ergebnisse zeigen, dass grafische Elemente Einfluss auf die Popularität haben. Die Untersuchung mit den meisten Kriterien für Qualität stammt von IVORY & HEARST 2002, die das System WebTango entwickelt haben. Darin werden aus dem Blickwinkel der Gebrauchstauglichkeit 157 einzelne Maße für Seiten und Sites untersucht. Ziel ist es, statistische Zusammenhänge zwischen Qualitätsurteilen und den untersuchten Kriterien zu finden und die Diskrepanzen in Vorschläge für Modifikationen umzusetzen, um die entsprechenden Seiten zu verbessern. Stoßrichtung der Untersuchung ist die Gebrauchstauglichkeit der Internet-Seiten, so dass keine inhaltlichen Maße wie semantische Kohäsion usw. untersucht werden. Zwar umfasst die Studie Eigenschaften von Text-Elementen, jedoch geht es vorwiegend um die Rezipierbarkeit und nicht den Inhalt. Dementsprechend erfassen IVORY & HEARST 2002 z.B. die Menge an Text, die Größe der Schrift, die Komplexität des Textaufbaus sowie Ergebnisse des Syntax-Prüfers Weblint (siehe Abschnitt 8.4.1). Die Datengrundlage stammt von einem Internetpreis für populäre Seiten (IVORY & HEARST 2002). Die mit diesem webby-award ausgezeichneten Seiten werten die Autoren als qualitativ sehr hochstehend. Insgesamt wurden ca. 5400 Seiten aus 639 Sites ausgewählt. Davon fielen jeweils ungefähr ein Drittel in die Kategorien good, average und poor und für diese Zuordnung wurde ein Klassifizierer trainiert. Ein Klassifikations- und Regressionsbaum mit 14 Regeln konnte 94% der Seiten der Testmenge korrekt zuordnen. Innerhalb der einzelnen Klassen zeigte eine statistische ANOVA-Analyse einige Eigenschaften der Cluster auf. Gute Seiten enthielten zum Beispiel weniger Farbanweisungen, mehr Links, längere Link-Label, mehr Interaktionselemente und verstoßen häufiger gegen Standards. Ferner ergab kmeans Clustering drei Cluster innerhalb der Kategorie good. Zwei der Cluster unterschieden sich vorwiegend in der Menge an Text und der dritte Cluster stach durch die hohe Anzahl von HTML-Tabellen hervor, die meist dem Layout dienten. Zur Analyse der Sites wurden die Seiten einer Site zusammengefasst. Für Sites erzielte ein Klassifizierer eine Trefferquote von 81%. Eine ANOVA-Analyse innerhalb der Kategorien zeigte, dass gut 216 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung bewertete Sites in ihrer Struktur breiter angelegt werden, während schlechtere Sites tiefe Ebenen beinhalteten. Für schlechte Seiten und Sites versuchen die Autoren abschließend, aus den Regeln des Klassifizierers Verbesserungsvorschläge abzuleiten. WebTango ist ein gutes Beispiel für die sich etablierende empirische Forschung zum WebDesign. Aus dem Blickwinkel der Anwendung von Qualitätsfiltern im Information Retrieval wirken die von IVORY & HEARST 2002 gewählten Qualitätsurteile als insgesamt zu positiv. Das Filtern zielt vorwiegend darauf ab, Seiten mit besonders negativer Qualität zu entfernen. Deshalb sollten Seiten, die überhaupt nicht für einen Preis wie den webby-award in Erwägung gezogen wurden, ebenfalls untersucht werden. Interessant an den beiden hier vorgestellten Verfahren sind vor allem die Berücksichigung der grafischen Elemente, welche der Bedeutung des grafischen Eindrucks für die menschlichen Bewertung Rechnung trägt (siehe Kapitel 11). Die Integration von Grafiken und anderen Medien (Film und Audio) fällt in den Bereich Multimedia, für den auch Normen vorliegen. So fordert beispielsweise die ISO-Norm für die Kombination von Medien: „Wo immer es für die Arbeitsaufgabe angebracht ist, sollten unterschiedliche Ansichten zum selben Thema durch Medienkombination bereitgestellt werden“ (DIN EN ISO 14915-3 2002). Die Aussagen zur Auswahl und Kombination der passenden Medientypen je nach Information sind jedoch zu allgemein als dass sie für die automatische Qualitätsbewertung genutzt werden könnten. Optimale Design-Muster für multimediale Systeme zu entwickeln könnte bei der Entwicklung von benutzungsfreundlichen Informationssystemen eine große Hilfe sein (WOLFF 2005). Jedoch sind die Überlegungen hierzu noch am Anfang und für die automatische Qualitätsbewertung noch nicht anwendbar. Den Zusammenhang zwischen der Struktur von Seiten und der Bewertung durch Benutzer untersuchen BUCY ET AL. 1999 sowie das System WebTango von IVORY & HEARST 2002. Während BUCY ET AL. 1999 die Eigenschaften der Web-Seiten intellektuell auswerten, geht WebTango konsequent den Weg der automatischen Qualitätsbewertung anhand von maschinell extrahierten Eigenschaften und deren Korrelationen mit Expertenurteilen. Damit kommt es bereits nah an die in Teil III entwickelten Systeme heran. 8.4.3 Link-und Hypertext-Struktur Die Struktur von Hypertexten und damit von Sites untersuchten und bewerteten BOTAFOGO ET AL. 1992. Die Autoren entwickeln Metriken für die 217 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Bewertung von strukurell unterschiedlichen Hypertexten. Damit übertragen sie als einer der ersten Ansätze die Graphentheorie auf das Internet. Anwendungsfall ihres Systems ist ein Autorensystem für Hypertexte. Die erstellten Sites werden automatisch nach ihrer Strutur bewertet und verglichen. Zunächst definieren BOTAFOGO ET AL. 1992 Zentralität in einem HypertextGraphen (siehe Abschnitt 4.4.2). Den zentralsten Knoten, der zu den meisten Knoten die geringste Distanz besitzt, schlagen sie als Wurzel-Knoten eines Hypertexts vor (BOTAFOGO ET AL. 1992:149). Davon ausgehend schlägt das System eine Hierarchisierung der Struktur vor. Bedeutend sind die Metriken auf der Basis der Struktur, die sich auf einzelne Knoten oder den gesamten Hypertext beziehen können. Für Gesamtstrukturen schlagen die Autoren die Größen Compactness und Stratum vor. Die Kompaktheit gibt an, wie hoch der Verlinkungsgrad ist. Dazu wird die Distanz zwischen allen Knoten bestimmt und ein inverses Maß ermittelt. Dieses wird dann mit der maximal möglichen Distanz normalisiert, um den Einfluss der Größe eines Hypertexts zu eliminieren. Lange oder nicht vorhandene Pfade zwischen Knoten des bewerteten Hypertexts führen zu einer Verringerung der Kompaktheit (BOTAFOGO ET AL. 1992:149f.). Stratum misst die Linearität eines Hypertextes bzw. einer Site im Internet. Je mehr Optionen für das Durchlaufen der Struktur vorliegen, desto niedriger ist das Stratum–Maß. Bei rein linearen Strukturen ist es maximal (1,0). Das Stratum–Maß wird aus der Metapher Firmenhierarchie hergeleitet. In einer organisatorischen Hierarchie kann Prestige als strukturelle Größe definiert werden. Sie hängt davon ab, wie viele Knoten „unter“ und „über“ einem liegen. Die Summe des Prestiges aller Knoten wird wieder an der Größe des Hypertextes und des damit maximal möglichen Prestiges normalisiert (BOTAFOGO ET AL. 1992:163f.). Für jede einzelne Seite lässt sich die Depth bestimmen, welche die hierarchische Position einer Seite wiedergibt. Sie entspricht der Pfadlänge von der Homepage zu der Seite. Als weiteres lokales Maß schlagen die Autoren Imbalance vor, das als mangelnde Ausgewogenheit bezeichnet werden kann. Diese Größe erhebt für jeden Knoten die Länge der Pfade zu den hierarchisch tieferen Knoten (Kinder). Die Standardabweichung dieser Zahlen entspricht der Balance des Hypertextes (BOTAFOGO ET AL. 1992:172f.). Die Autoren setzen kein wünschenswertes Maß als Ziel für Imbalance, Compactness oder Stratum sondern verstehen diese als ein Maß der Struktur, das dem Autor bei der Erstellung als Hilfe und Anhaltspunkt dienen kann. Zwar ist es fragwürdig, ob ein Autor derart abstrakte und schwer zu interpretierende Größen sinnvoll nutzen kann, aber als Maße für sich 218 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung erscheinen diese Größen sinnvoll. Die Metriken von BOTAFOGO ET AL. 1992 sind damit ein früher und vielversprechender Ansatz für die automatische Bewertung von hypertextuellen Dokument-Strukturen. Allerdings ist für den Einsatz der Metriken die Kenntnis der kompletten Site erforderlich. Die hier vorgestellte Suchmaschine AQUAINT (siehe Kapitel 12) misst die Qualität auf der Ebene der Seite. Damit können globale Maße lediglich gemittelt über alle Seiten einer Site eingehen. Der Aufwand für die Erhebung der Maße ist sehr hoch, da die Struktur vorab genau und vollständig ermittelt werden muss. Die Maße sind teilweise stark anfällig für die Veränderung einzelner Links. Somit nimmt AQUAINT lediglich eine heuristische Analyse der Depth vor (siehe Abschnitt 11.2.1). 8.4.4 Navigation Das Projekt Bloodhound untersucht die Navigationsstruktur in Zusammenhang mit dem Inhalt und den Log-Dateien und kombiniert so Usage-, Structure- und Content-Mining (CHI ET AL. 2003). Die Autoren entwickeln eine Theorie für das Informationsverhalten, die auf der Nahrungssuche von Lebewesen aufbaut. Demnach sind Menschen Informationsverarbeiter, die abschätzen, welche Informationsquellen bei möglichst geringem Aufwand einen hohen Ertrag bringen. Dazu evaluieren sie ständig Anhaltspunkte für den Ertrag bzw. Inhalt von Information1. Im Internet bewerten Benutzer vor allem Links anhand des Textes und schätzen den Wert der Ziel-Seiten ab. Bloodhound bewertet nun vor allem die Übereinstimmung von zusammengehörenden Link- und Seiten-Texten. Ausgehend von beispielhaften Benutzeranforderungen in Form einer Anfrage analysiert das System, inwieweit der Benutzer beim Verfolgen von Links, deren Text oder Umfeld seiner Anfrage ähnelt, tatsächlich zu Seiten gelangt, die seinem Problem am ähnlichsten sind. Informationsspuren in und um Links bezeichnen die Autoren als Information Scent (CHI ET AL. 2000). Bloodhound bearbeitet simuliert Log-Files anhand von typischen Informationsbedürfnissen, die der Evaluator als Menge von Suchtermen vorgibt. Das System analysiert die Link-Struktur der Site und berechnet die Ähnlichkeit aller Seiten und Links zu den Anfragen. 1 „Information scent is the imperfect, subjective perception of the value and cost of information sources obtained from proximal cues, such as Web links, or icons representing the content sources” (CHI ET AL. 2001:491). 219 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung In einem Benutzertest mit 240 Benutzern wurde überprüft, inwieweit die plausiblen Annahmen mit dem realen Benutzerverhalten übereinstimmen. Der Test umfasste acht Aufgaben für vier Sites. Die Benutzer navigierten auf der Site und erreichten Seiten mit einer bestimmten Frequenz. Über alle Seiten der Site ergaben die Tests für den Zugriff der Benutzer eine Häufigkeitsverteilung. Als Maßstab wurde diese Verteilung mit der von Bloodhound berechneten verglichen. Die Korrelation war für alle Aufgaben und Sites höher als 0,4 und in einem Drittel der Fälle über 0,8 (CHI ET AL. 2003). Zwar sind diese Ergebnisse sehr positiv, jedoch berücksichtigt das Experiment nicht die Zufriedenheit der Benutzer oder deren Informationserfolg. Gleichwohl ist Bloodhound ein sehr vielversprechender Ansatz, der jedoch aufgrund der Integration von Usage-Daten auf eine Site beschränkt ist. 8.5 Qualität von Texten Die automatische Bewertung von Internet-Seiten umfasst notwendigerweise die Bewertung der Qualität von Texten. Einige Maße zur Bewertung von Sprache und darauf beruhende Systeme diskutiert Abschnitt 8.5.2. Texte werden in unterschiedlichen Kontexten von Menschen auf ihre Qualität hin untersucht, wie etwa in Schulen oder beim Peer Review. Während BERLEANT 2000 in einer kleinen Studie den Zusammenhang zwischen Formatierungen und Qualität analysiert, greifen Ansätze zur automatischen Benotung von Aufsätzen nur auf den Inhalt des Textes zu. Die Untersuchung von BERLEANT 2000 behandelt Peer Review. Der Autor untersuchte die formalen Eigenschaften von Anträgen auf Forschungsförderung. Dabei fand BERLEANT 2000 Korrelationen zwischen den formalen Eigenschaften der Anträge und deren Qualitätsbewertung durch Gutachter. Dabei hatten die Autoren jedoch nicht gegen formale Vorgaben verstoßen, sondern andere Eigenschaften wie Schriftgröße und -typ spielten eine Rolle. Darüber hinaus existieren Untersuchungen für die automatische Qualitätsanalyse von Texten ohne Berücksichtigung von Formatierungen, die sich nur auf den Inhalt beziehen. FOLTZ ET AL. 1999 stellen den Intelligent Essay Assessor vor, der auf Latent Semantic Indexing (LSI) beruht. Dieses System weist einem Aufsatz eine Note zu, indem es seine Ähnlichkeit zu bereits benoteten Aufsätzen bestimmt. Die Ähnlichkeit misst LSI in einem reduziertem Vektorraum, in welchem nicht jeder Term einer Dimension entspricht. Durch ein Eigenwert-Verfahren verdichtet LSI die spärlich besetze TermDokument-Matrix zu einer Matrix zwischen Dokumenten und LSI-Termen. Über verschiedene Mengen von insgesamt über 1200 Essays erreichte das 220 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung System eine Korrelation von 0,7 zu der Bewertung von Lehrern. Die Korrelation zwischen zwei Menschen war ebenso hoch, so dass also die Bewertung des Systems so gut mit einer menschlichen Bewertung übereinstimmt wie die Bewertung eines weiteren Menschen. Die gleiche Qualität erreicht das System von LARKEY 1998, der Verfahren zur Text-Kategorisierung anwendet. LARKEY 1998 benutzt alle Terme als Merkmale ohne eine Reduktion wie bei LSI durchzuführen. Als Lernverfahren setzt sie einen Bayes-Klassifizierer sowie K-nearest neighbour ein. 8.5.1 Lesbarkeitsanalyse Die Lesbarkeit von Texten hängt unter anderem von der Kohärenz innerhalb des Textes und zwischen den einzelnen Sätzen ab. Die Schwierigkeit, mit der ein Text verstanden wird, lässt sich anhand der Erinnerungsleistung eines Lesers messen. FOLTZ ET AL. 1998 messen die Kohärenz von Bedienungsanleitungen und vergleichen die Werte mit den Ergebnissen psychologischer Experimente zur Verständlichkeit dieser Texte. Sie setzen wiederum LSI ein, um die Ähnlichkeit von zwei aufeinander folgenden Sätzen in den Texten zu bestimmen. Der Ähnlichkeitsraum wird aus einer anderen großen TextKollektion vorab aufgespannt. Der Durchschnittswert für alle Sätze ist die Kohärenz des Textes. Dieser korreliert sehr stark und statistisch signifikant mit drei Maßen aus den psychologischen Experimenten. Die mit LSI bestimmte Kohärenz bildet also einen guten Maßstab für die Verständlichkeit. In diesem Experiment liegen keine Trainingsdaten vor, die Werte ergeben sich direkt aus den Texten. Die Verständlichkeit von Texten lässt sich demnach durchaus abschätzen und dies könnte als Qualitätsindikator eingesetzt werden. Allerdings erfüllen Texte im Internet meist eine völlig andere Funktion als Essays oder Bedienungsanleitungen. Zahlreiche Text-Bausteine wie Menü-Einträge oder LinkAnchor-Texte erfordern Kohärenz mit den Inhalten, auf die sie verweisen (information scent, cf. CHI ET AL. 2000). An den Stellen, an denen sie vorkommen, sollen sie oft jedoch gerade gut diskriminieren. Im Gegensatz zu Aufsätzen kommen in Internet-Angeboten sehr häufig strukturierte Texte wie etwa Listen oder Tabelleninhalte vor, die ebenfalls nicht immer Kohärenz als Qualitätskriterium erfordern. Für globale Qualitätsabschätzung bei InternetSeiten erscheinen solche Verfahren als nicht vielversprechend. 221 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung 8.5.2 Syntaxbewertung Ähnlich wie die oben diskutierten Ansätze zur Abschätzung zielen Verfahren zur Bewertung der Syntax meist auf die Analyse der Komplexität und damit der Lesbarkeit ab. Sehr einfache Maße benutzen SPOOL ET AL. 1999 im Rahmen einer Studie zum Web-Design. Diese Maße beruhen auf der Anzahl der Wörter pro Satz sowie auf der Länge der Wörter. KOPPEL ET AL. 2003 untersuchen, inwieweit Elemente in einem Text durch semantisch äquivalente Konstrukte ersetzt werden können. Sie bezeichnen das gewonnene Maß als Stabilität. Das Gegenteil Instabilität bedeutet demnach, dass ein Element häufig durch einen anderes, synonymes ersetzt wird. Stil-Analysen werten teilweise lediglich die Frequenz einiger Wörter aus. Das Häufigkeitsprofil bestimmter, häufiger Wörter dient dann z.B. der Zuordnung eines Textes zu einem Autor (KOPPEL ET AL. 2003). Ein solches Verfahren scheint aber über diesen Anwendungsfall hinaus kaum einsetzbar. Tatsächlich mit Syntax im Sinne der Linguistik befasst sich QUIRK 2004. Er unternimmt den Versuch, Sätze zu parsen und die Komplexität anhand der gewonnenen logischen Form zu bestimmen. Dazu berechnet er deren Größe und Komplexität. Der Anwendungsfall von QUIRK 2004 liegt in der maschinellen Übersetzung. Er versucht, die Zuverlässigkeit der maschinell erstellten Übersetzungen anhand von Konfidenzwerten zu messen. 8.6 Negative Qualität Viele der bisherigen Systeme zielen darauf ab, Dokumente mit hoher und höchster Qualität zu erkennen. Dagegen arbeiten viele Filterlösungen am andern Ende der Skala und versuchen, die schlechtesten Objekte aufzuspüren und eventuell zu löschen oder zu filtern. Dabei sind möglicherweise ganz andere Parameter zu setzen oder sogar andere Eigenschaften der Objekte zu beachten als bei dem Erkennen der besten Objekte. Probleme mangelnder Qualität sind mannigfaltig und heterogen (siehe Abschnitt 5.2). Dazu zählen unerwünschte Inhalte, Vortäuschung von Inhalten, Plagiat und Verletzung von Urheberrechten. Für einige der drängendsten Probleme existieren erste automatische Lösungen. Die Erkennung sogenannter Spam Mail, also unerwünschter elektronischer Post (spam detection, spam recognition) gewinnt zunehmend an Bedeutung. In diesem Anwendungsfall gilt das versehentliche Erkennen von niedriger Qualität als sehr negativ, da dann evtl. erwünschte Mail gelöscht wird. Spam stellt aber auch für Suchmaschinen ein schwerwiegendes Problem dar. Laut 222 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung HENZINGER ET AL. 2002 stellt Spam nach der Qualitätsproblematik das zweitwichtigste Problem dar. Jedoch kann die Vortäuschung anderer Inhalte durchaus als Variante des Qualitätsproblems interpretiert werden, da Seiten, die bestimmte Inhalte nur vortäuschen, für kein Informationsproblem eine befriedigende Lösung darstellen. Wie drängend das Thema Spam für Suchmaschinen ist, zeigt u.a. die Untersuchung der Dynamik im Internet von FETTERLY ET AL. 2003. Darin zeigt sich, dass über eine Million der Seiten unter der Domain de (Deutschland) automatisch erzeugter Spam ist. Diese Seiten kopieren Teile der Inhalte anderer Seiten, um so bei entsprechenden Suchanfragen erreicht zu werden. Zusätzlich streut der Algorithmus zahlreiche Links auf ebenso erzeugte Seiten unter anderen Domains ein, um den PageRank der Seiten zu erhöhen. Solche Praktiken wie etwa auch das Einfügen häufiger Suchbegriffe aus Query-Log-Files in die eigenen Seiten, ohne dass ein inhaltlicher Zusammenhang besteht, dürften in Zukunft noch weiter zunehmen. Das Erkennen der auffälligen Linkmuster ist zwar möglich, aber sehr aufwendig, zumal diese Seiten auch sehr häufig neu erzeugt werden. Dagegen scheint hier die automatische Qualitätskontrolle auf der Basis der Seitenstruktur aber evtl. auch der Kohärenz des Inhalts möglich und effizient. Systeme zur Spam-Erkennung bei E-Mail arbeiten weitgehend inhaltlich orientiert und suchen nach typischen Signalwörtern. Teilweise filtern sie auch anhand der verwendeten Adressen. Ein ähnliches Anwendungsgebiet besteht im Blockieren von Internet-Inhalten, das v.a. dafür eingesetzt wird, um unbeaufsichtigten Kindern oder Jugendlichen den Zugang zu gewaltverherrlichenden und pornographischen Angeboten zu erschweren. In diesem Fall geht es um das Erkennen von niedriger Qualität im Sinne von mangelnder Eignung für die Zielgruppe, allerdings sind die Kosten unterschiedlich als bei Spam oder Junk Mail. Die Zuschreibung von niedriger Qualität für eine Seite, die an sich für Kinder geeignet ist, wird als weniger schlimm betrachtet als die Zugriffsmöglichkeit auf ungeeignete Inhalte. Auch diese Verfahren basieren weitgehend auf inhaltlichen Verfahren. Bestimmte Begriffe dürfen auf den Seiten nicht vorkommen, ansonsten werden sie blockiert. Dementsprechend kommen Verfahren der Text Categorization zum Einsatz. Die unterschiedlichen Kosten führen offensichtlich zum häufigen Überreagieren dieser Blockiersysteme. Nach einer Untersuchung von NEUMANN & WEINSTEIN 1999 (siehe auch oben) führten diese Filter zum Ausblenden zahlreicher Angebote, die gerade für Kinder sinnvoll sind. Die einfachen inhaltsorientierten Qualitätsfilter bergen demnach gewisse Risiken. Andere Autoren gehen sogar noch weiter und behaupten, die Forderung des Gesetzgebers in der Vereinigen Staaten nach der Installation von 223 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung Filtersoftware z.B. in öffentlichen Bibliotheken verlange dem Internet höhere ethische Standards ab als anderen Medien oder alltäglicher zwischenmenschlicher Kommunikation. Deshalb berge die Benutzung des Internet größere Risiken hinsichtlich potenzieller Strafverfolgung und schränke damit bürgerliche Freiheiten zu stark ein (cf. ROSENBERG 2001). Ein Sonderproblem niedriger Qualität ist Plagiat. Das Erkennen kopierter Inhalte, die ohne Verweis auf die Quelle übernommen wurden, und damit das Vortäuschen eigener Leistungen stellt häufig schon ein juristisches Problem dar. Häufig geht es um die Erkennung von aus dem Internet kopierten Inhalten bespielsweise in studentischen Arbeiten, wofür bereits einige Systeme existieren (MONOSTORI ET AL. 2000). Die Autoren stellen ein automatisches System für die Erkennung von gestohlenem geistigen Eigentum in Form von Texten vor. Als Eingabe erfordert ihr System den Originaltext und eine Menge von URLs, unter denen Kopien vermutet werden. Das System führt einen Partial Match durch und erkennt somit auch geringfügig veränderte Versionen des Originals. Jedoch soll die Sonderproblematik des Plagiats hier ebenso wenig vertieft werden wie andere juristisch relevante Aspekte. Dazu zählen etwa die Sicherheit von Systemen (cf. z.B. DUSTIN ET AL. 2002:59 ff.), um auf sicherheitsverletzende Attacken zu reagieren. Hierfür existieren besondere Systeme, die Log-Dateien analysieren1. Um Missbrauch entgegenzuwirken, werden zahlreiche Anstrengungen unternommen. Die juristische Auseinandersetzung zwischen der Musiktauschbörse Napster und Musikagenturen als Vertreter der Rechte der Urheber sorgte für ein großes Echo in der Öffentlichkeit. Auch Bilder und Fotos erfordern Schutz. Teilweise setzen Anbieter digitale Wasserzeichen ein, die diesen Objekten für den Laien unsichtbar hinzugefügt werden. Taucht das Bild später in einem verdächtigen Kontext auf, kann anhand des Wasserzeichens überprüft werden, ob es rechtmäßig verwendet wurde. Ein derartiges System für eine dänische Bibliothek stellt MEHRABI 2001 vor. 8.7 Technische Qualität Der Vollständigkeit halber sollten hier kurz technische Aspekte erwähnt werden. Wichtig sind aus Sicht der Benutzer vor allem die Verfügbarkeit und 1 Das Information Exploration Shootout Project (cf. GRINSTEIN ET AL. 1997) stellt eine große Menge von realen Log-Daten eines WebServers bereit, an dem Teilnehmer versuchen, Anomalitäten zu finden und so sicherheitsrelevante Angriffe zu entdecken. 224 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung die Antwortzeit von Servern. Beim Entwurf von Web-Systemen müssen die Entwickler die Performanz optimieren und die Systeme auch für Spitzenzeiten vorbereiten (cf. z.B. DUSTIN ET AL. 2002:115 ff.). Der momentane Stand bei Internetverbindungen führt nach wie vor zu Problemen bei der Verfügbarkeit von Servern. Besonders bei größeren Dateitransfers macht sich dies bemerkbar. Wird die gleiche Datei von verschiedenen Servern angeboten, ist die Bandbreite und Verfügbarkeit der Rechner ein wichtiges Qualitätskriterium. Einige zentrale Verwalter von größeren Downloads zeigen die Qualität im Sinne der Verfügbarkeit an1. Die Beziehung zwischen inhaltlicher und technischer Qualität ist aber keineswegs eindeutig. So geht man davon aus, dass lange Ladezeiten zu Unzufriedenheit führen und natürlicherweise auch dazu führen, dass der Benutzer für eine Aufgabe länger braucht. Eine Untersuchung von MCCRICKARD 2001 verweist in eine andere Richtung und relativiert diese naive Annahme. Das Experiment bestätigt zwar andere Studien, nach denen kaum ein Benutzer eine Wartezeit von mehr als zehn Sekunden toleriert, dann meist den Versuch abbricht und einen anderen Link verfolgt. Allerdings wichen bei stark unterschiedlichen Wartezeiten unter zehn Sekunden die durchschnittlichen Zeiten für die Lösung einer Aufgabe praktisch nicht voneinander ab. Ob ein Benutzer durchschnittlich zwei oder acht Sekunden warten musste, spielte keine Rolle für seine Lösungszeit. MCCRICKARD 2001 fand heraus, dass Benutzer, die länger warten mussten, dafür ihr Ziel mit weniger Links ansteuerten. Vermutlich befassen Benutzer sich länger mit einer Seite und lesen den Inhalt genauer, wenn die Download-Zeit für die Seite lang war, während sie bei einer schnell erscheinenden Seite ohne eingehende Prüfung den ersten interessant erscheinenden Links wählen. Auch SPOOL ET AL. 1999 stellten in ihrem empirischen Vergleich von acht Internet-Angeboten keine Auswirkungen der Ladezeit auf die Zufriedenheit der Benutzer fest (SPOOL ET AL. 1999:86f.). Für die Qualitätswahrnehmung kann sich eine schnelle Ladezeit also auch negativ auswirken. Falls der Benutzer den nächstbesten Link anwählt und damit nicht den gewünschten Erfolg erzielt, ist er sicher unzufrieden. Wird er 1 Z.B. die Tauschbörse Napster oder http://sourceforge.net, eine Plattform für open source Software. 225 Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung dagegen durch eine etwas längere Ladezeit gezwungen, mehr Zeit auf die sich aufbauende Seite zu verwenden, dann wählt er möglicherweise einen besseren Link und schätzt danach die Qualität der Seite sehr viel höher ein. 226 Fazit: Stand der Forschung zur automatischen Qualitätsbewertung 9. Fazit: Stand der Forschung zur automatischen Qualitätsbewertung Die Versuche, für Internet-Seiten Qualitätskriterien festzuschreiben, haben zu zahlreichen, mehr oder weniger detaillierten Listen geführt, welche teilweise unterschiedliche Kriterien anführen. Diese enthalten zwar durchaus plausible und nachvollziehbare Qualitätskriterien, gleichwohl eignen sie sich selten für die intellektuelle Bewertung. Sie erfordern teilweise erhebliches Wissen und immensen Aufwand und trotzdem würde intellektuell häufig kein Konsens über die Qualität von Dokumenten erzielt werden können. Für eine Automatisierung eignen sich diese Kriterien noch weit weniger. Daneben existieren Ansätze für die automatische Qualitätsbewertung. Im Vordergrund stehen dabei Algorithmen zur Link-Analyse, welche die Anzahl der Links auf eine Seite als wichtigstes Kriterium für die Qualität dieser Seite werten. Sowohl analytisch als auch empirisch zeigen sich viele Schwächen dieser Ansätze, so dass der Bewertung der ehemaligen Forschungsleiterin der Suchmaschine Google weitgehend zugestimmt werden kann: „These techniques are a good start and work well in practice, but there is still ample room for improvement“ (HENZINGER ET AL. 2002:6). Das gute Funktionieren bezieht sich in diesem Fall auf die relativ einfache Implementierbarkeit der Link-Analyse. Das weite Feld für die Verbesserung der Qualitätsanalyse ist also bei weitem noch nicht ausgeschöpft, wie der Überblick über die Verfahren gezeigt hat. Der letzte Teil zeigt jetzt, wie sich die bestehenden Verfahren verbessern lassen. Darüber hinaus werden neue Ansätze entworfen und realisiert. 227 Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT „Das Edle zu erkennen, ist Gewinst, Der nimmer uns entrissen werden kann.“ (Johann Wolfgang von Goethe: Torquato Tasso, Dritter Aufzug, Zweyter Auftritt1) „›Was will man machen? Er trifft es immer aufs schönste.‹“ (Thomas Mann: Lotte in Weimar2) Der obige Überblick über existierende Systeme und verschiedene Theorien zeigt, dass die automatische Qualitätsbewertung noch am Beginn ihrer Entwicklung steht. Die dargestellten Stärken und Schwächen verweisen auf mögliche Entwicklungslinien für weiterführende Systeme. Diese Tendenzen verfolgt nun der dritte Teil. Dabei werden zahlreiche Verbesserungen hergeleitet, von denen die wichtigsten im Rahmen des Projektes AQUAINT (Automatic Quality Assessment for Internet Resources, Automatische Qualitätsabschätzung für Internet Ressourcen) und der darin erstellten Quality Workbench (QuWob) realisiert wurden. Ferner wurde die Evaluierungsmethodologie im Information Retrieval für die Qualitätsbewertung weiterentwickelt. Kapitel 11 greift zunächst einige Schwächen der Linkanalyse auf. Daraus werden einige differenziertere Formen der Linkanalyse entwickelt. Die automatische Qualitätsbewertung erfordert jedoch die Integration weiterer Wissensquellen. Den Maßstab für die Qualitätsbewertung setzt der Mensch durch 1 http://gutenberg.spiegel.de/goethe/tasso/tasso31.htm 2 Ausgabe Fischer Taschenbuch Verlag, 1993. S. 353 229 Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT sein Urteil. Die Linkanalyse verengt die Perspektive auf Autoren von WebSeiten und etliche weitere Nachteile der Linkanalyse wurden ausführlich in Kapitel 7 diskutiert. Die Häufigkeit, mit der sie Verbindungen auf andere Seiten setzen, bildet die Grundlage für Qualitätsbewertung der Linkanalyse. Darüber hinaus existieren weitere Wissensquellen, die Auskunft über die Qualität von Internet-Seiten geben. In Kapitel 7 wurden bereits die Wissensquellen für Qualitätsurteile identifiziert. Ihre Vor- und Nachteile zeigt nochmals die folgende Übersicht: Wissensquelle Vorteile Nachteile Log-Dateien Reale Benutzersicht Kommt der Popularität am nächsten Leicht zu extrahieren Hohe Plausibilität Weit verstreut Kaum auszunutzen Links Aufnahme in Verzeichnisdienst Leicht zu extrahieren Explizites Qualitätsurteil Eingeschränkte Perspektive Link nicht immer Hinweis auf Qualität Negative Entscheidungen liegen nicht vor Nur in relativ geringem Umfang vorhanden Tabelle 9.1: Übersicht über die Wissensquellen für Qualitätsentscheidungen Darüber hinaus stehen die Internet-Angebote selbst zur Verfügung. Ihr Format sowie ihr Inhalt können extrahiert und bewertet werden. Die automatische Bewertung des Inhalts etwa durch die Analyse der Kohärenz (siehe oben) ist schwierig und erfordert erheblichen Rechenaufwand. Daher bietet sich das Format an, in dem sich zahlreiche der produkt-orientierten Definitionen widerspiegeln. Abbildung 9.1 stellt diese Wissensquellen schematisch nach den Parametern Umfang, nötigem Aufwand für die Analyse sowie Aussagekraft gegenüber. Die Qualitätsauswahl oder Qualitätsauszeichnung betrifft jedoch immer nur eine eingeschränkte Anzahl von Angeboten, da sie menschliche Informationsarbeit erfordert. Entscheidend für die automatische Qualitätsbewertung ist nun die Übertragung auf nicht bewertete Angebote. Welche Eigenschaften von Web-Seiten haben zu der positiven Bewertung geführt? Können solche Eigenschaften in anderen Seiten nachgewiesen werden? Aus der Literatur ergeben sich einige gute Kandidaten für zu berücksichtigende Eigenschaften (v.a. IVORY & HEARST 2001 und ZHU & GAUCH 2000). Daneben sollen weitere Eigenschaften identifiziert werden, die sich auto230 Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT matisch extrahieren lassen. Wünschenswert wäre ein Bezug zu Prüflisten für die intellektuelle Bewertung der Seiten. Dies könnte die Qualitäts-Entscheidung nachvollziehbar machen. Gleichwohl ist dieser Bezug zu den produktorientierten Qualitätsdefinitionen nicht unbedingt erforderlich. Diese Eigenschaften sollen hauptsächlich in den Seiten selbst liegen und nicht wie bei der Link-Analyse außerhalb. Da der Inhalt der Seiten schon bei der Suche bewertet wird, bieten sich die Struktur der Seite und ihr Aufbau an, also die Art der Präsentation der Information. Die HTML-Syntax gibt demnach Aufschluss über Aspekte wie Grad und Form der Strukturierung, Übersichtlichkeit, Ausgewogenheit der Informationsmenge und Ausgewogenheit der Darstellung. Die Qualität der Präsentation taucht auch immer wieder in den Kriterienlisten auf. hoch Wissensquellen für Qualität Rezensionen Zuverlässigkeit, Aussagekraft Inhalt Qualitätsorientierte Sammlungen Log- Format Links Daten Komplexität der Analyse hoch Abb. 9.1: Vergleich von Wissensquellen für Qualität Der visuelle Eindruck einer Seite spielt in den Kriterienlisten zwar eine geringe Rolle, jedoch beeinflusst sie die Bewertung durch den Menschen sehr stark (cf. FOGG ET AL. 2001, 2002). Die visuelle Gestaltung spiegelt sich in den verwendeten Elementen, deren Größe, Position und Farbe wieder. Diese 231 Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT bisher kaum benutzten, aber leicht zu extrahierenden formalen Eigenschaften bilden somit die besten Kandidaten für das Erkennen von Qualität. Die folgende Abbildung 9.2 zeigt, welche Wissensquellen von welchen Ansätzen zur Modellierung von Informationsverhalten eingesetzt werden. Die Ansätze wurden in Teil II beschrieben. Theorien des Informationsverhaltens Berücksichtigte Parameter hoch Realitätsgrad Bisheriger Verlauf des Informationsprozesses Information Foraging Seiten-Struktur Benutzer Zufall Inhalt der Seite Link-Struktur Directed Surfer Random Surfer Exaktheit hoch Abb. 9.2: Wissensquellen in unterschiedlichen Ansätzen zur Modellierung des Informationsverhalten Exakte Zusammenhänge zwischen der Qualität der Seiten und den formalen Eigenschaften sind nicht zu erwarten. Wo diese Beziehungen existieren, sind sie sicher vage und mehrdimensional. Somit eignen sich für die Erstellung von Qualitätsmodellen sicher keine regelbasierten Ansätze, sondern induktive Lernverfahren des maschinellen Lernens, die unsicheres Wissen verarbeiten können. Kapitel 12 zeigt die Realisierung der Qualitätsmodelle von der Extraktion der Daten aus den Web-Seiten bis hin zum maschinellen Lernen. Der praktische Einsatz der Qualitätsmodelle steht im Mittelpunkt von Kapitel 13. Da Qualität vor allem als Zusatzfaktor im Information Retrieval wichtig ist, entstand eine Suchmaschine, welche Ergebnisse anderer Suchmaschinen anhand der Qualitätsmodelle aufwertet. 232 Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT hoch Grad der Automatisierung und Umfang Ansätze für die Qualitätsabschätzung Link-Analyse: PageRank Link-Analyse: HITS AQUAINT Amento et al. 2000 Ivory & Hearst 2002 Zhu & Gauch 2000 Bucy et al. 1999 Anzahl der Parameter hoch Abb. 9.3: Einordnung von AQUAINT in den state of the art Ein wichtiger Faktor ist die Kontextabhängigkeit von Qualität. Ihr wird in der Realisierung unterschiedlicher Modelle und im Ausblick Rechnung getragen, wobei besonders auf die Unterschiede zwischen Fachgebieten sowie Kulturen verwiesen wird. Das System AQUAINT führt mit der Analyse von formalen Eigenschaften und deren Verknüpfung mit expliziten Qualitätsurteilen durch maschinelles Lernen die bisherigen Arbeiten weiter. Abbildung 9.3 stellt das System AQUAINT in den Kontext der wichtigsten bisherigen Forschungsergebnisse, die in Teil II diskutiert wurden. Wie die Abbildung zeigt, erreicht die Implementierung von AQUAINT noch nicht den Reifegrad der Link-Analyse. Allerdings besitzt auch diese eine eingeschränkte Perspektive auf das Qualitätsproblem, da mehrere fortgeschrittene Ansätze bereits mehr Parameter einbeziehen. 233 234 Differenzierte Link-Analyse 10. Differenzierte Link-Analyse Die Nachteile von Link-Analyse zur Qualitätsbewertung wurden bereits ausführlich besprochen. Die einfache Gleichsetzung jedes Links mit einem Qualitätsurteil wirkt sehr zweifelhaft. Links müssen je nach ihrer Position und Funktion differenziert betrachtet werden und entsprechend in die Berechnung der Qualität anhand der Link-Analyse eingehen. Ein einfaches Beispiel hierfür, das auch bereits seit dem Beginn der LinkAnalyse diskutiert wird, stellen Links innerhalb einer Site dar. Solche Verbindungen, die der Navigation dienen, gelten meist nicht als Qualitätsindikator. Da die Seiten einer Site häufig vom gleichen Autor erstellt werden, stellen sie im besten Falle ein sehr subjektives Urteil dar. Neuere Ansätze haben versucht, Links von thematisch ähnlichen Seiten stärker zu gewichten (siehe oben, u.a. HAVELIWALA 2002 und RICHARDSON & DOMINGOS 2002). Dieser Abschnitt diskutiert die thematische Ähnlichkeit in der Linkanalyse und zeigt anhand von empirischen Ergebnissen, dass auch die Struktur der Site mit einbezogen werden muss. 10.1 Strukturelle Einflüsse auf die Link-Analyse Dieser Abschnitt weist anhand empirischer Untersuchungen nach, dass die Struktur von Web-Sites erheblichen Einfluss auf die Link-Struktur im Internet besitzt. Darüber hinaus beeinflusst die Site-Struktur auch die Struktur der Seiten. Je nach ihrer hierarchischen Position unterscheiden sich die Seiten in ihren internen Struktur-Eigenschaften. Die Links innerhalb von Sites dienen meist primär der Navigation. Die Navigation lässt sich jedoch nicht isoliert betrachten, vielmehr steht sie in engem Zusammenhang mit der thematischen und semantischen Aufteilung von Wissen in unterschiedliche Seiten. Meist besitzen Internet-Angebote eine hierarchische Struktur. Dabei enthalten die obersten Seiten eher generelle oder Überblicks-Information und Navigationselemente, während die eigentlichen Inhalte auf tieferen hierarchischen Ebenen liegen. Erfolgt vor dem Setzen eines Links eine intellektuelle Qualitätskontrolle, so sind häufiger Links auf tiefere Seiten zu erwarten. Dort muss nur weniger Information überprüft werden und diese ist thematisch fokussiert. 235 Differenzierte Link-Analyse Links: Autorität WEB Hierarchische Struktur Selektive Links: Redaktionelle Qualiätskontrolle Abb. 10.1: Links auf hierarchische Verzeichnisdienste Die Bewertung von Verzeichnisdiensten anhand von Linkanalysen bietet einen Einblick in die Benutzung von Verzeichnisdiensten allgemein. Die Analyse zeigt an einigen Parametern, wann Verbindungen auf Seiten in Verzeichnisdiensten gelegt werden. Jedoch zeigte eine eigene Untersuchung, dass die Zahl der Verbindungen auf einen Verzeichnisdienst sehr stark abnimmt, je tiefer die Seite in der hierarchischen Struktur steht. Dazu wurden die Dienste Google-Directory sowie Yahoo.de untersucht. Trägt man die Abhängigkeit in einer logarithmischen Skala ein, dann ergibt sich ein fast linearer Zusammenhang (siehe Abb.). Die Ebene Null entspricht dabei der Einstiegsseite1, während die folgende Adresse ein Beispiel für eine Seite der vierten Ebene darstellt: Computer/Software/ Spezialsoftware/Sport2. Analysiert wurden ca. 3000 1 http://directory.google.com/Top/World/Deutsch/ 2 http://directory.google.com/Top/World/Deutsch/Computer/Software/Spezialsoftware/ Sport 236 Differenzierte Link-Analyse Seiten des Internet-Katalogs von Google und ca. 500 Seiten der deutschen Version von Yahoo. Die Anzahl der eingehenden Links für jede Seite wurde bei den Suchmaschinen Google und Altavista abgefragt. Obwohl die Ergebnisse von Google und Altavista oft sehr stark voneinander abweichen, gilt der oben vorgestellte Zusammenhang bei beiden Suchmaschinen. 100000 10000 In-Links 1000 100 10 1 Hierarchie-Ebene 0 0 1 2 3 4 Google lt. Google 248000 1538 51,9 41,3 4,38 Google lt Altavista 64786 2081 80,9 0,6 0,06 Yahoo lt. Google 848 15,9 1,1 Yahoo lt Altavista 1446 29,3 1,6 Google lt. Google Google lt Altavista Yahoo lt. Google Yahoo lt Altavista 0,78 Abb. 10.2: Zahl der durchschnittlichen In-Links pro Ebene Die Autoren von Internet-Seiten verweisen also grundsätzlich eher auf generelle Seiten in Verzeichnisdiensten und weniger auf Seiten zu spezifischen Themen. Offensichtlich wollen sie dem Benutzer die Suche nach für ihn interessanten Abgeboten durch Browsing selbst überlassen. Möglicherweise bewerten die Autoren Seiten der Verzeichniseinträge als gut geeignet für thematisch breite Informationsbedürfnisse oder für Informationsbedürfnisse, die noch vage sind und bei denen der Benutzer sich zunächst einen Überblick verschaffen will. Eine Interpretation, dass die redaktionelle Arbeit für die Dienste nicht gewürdigt wird, ginge wohl zu weit. 237 Differenzierte Link-Analyse Der Trend zu einfachen Links auf obersten Ebenen speist sich vermutlich auch aus Überlegungen zur Mensch-Maschine-Interaktion. Web-Autoren scheuen davor zurück, ihre Benutzer auf tiefere Ebenen zu schicken, weil sie dort möglicherweise eher die Orientierung verlieren. Ein weiterer Einflussfaktor liegt in der Dynamik von Seiten. Die Autoren gehen sicher auch davon aus, dass Adressen auf höherer Ebene stabiler sind als bei Seiten tiefer in der Hierarchie. Nach einer neuen Gliederung einer Site sind tiefere Adressen möglicherweise nicht mehr gültig. Daneben sind diese Adressen auch kürzer und schneller einzugeben. Die rechtliche Problematik des sog. Deep Linking dürfte hierbei kaum eine Rolle spielen. Von diesem erst jüngst wieder in den Schlagzeilen erscheinenden Phänomen spricht man, wenn Hyperlinks nicht auf die Homepage eines Web-Auftritt verweisen, sondern auf tiefer gelegene Seiten. Problematisch erscheinen solche Links, wenn der entsprechende Anbieter ein Geschäftsmodell verfolgt, nach dem er auf der Homepage Werbung platziert und auf den tieferen Seiten einen informationellen Mehrwert bietet (cf. SPINELLO 2001). Die Internetkataloge werben wenn überhaupt auch auf hierarchisch tieferen Seiten. Die Abhängigkeit, die sich hier für eine Untermenge der Google- und YahooSeiten ergibt, wurde auch für andere hierarchisch aufgebaute Seiten analysiert. Dazu wurde eine Menge von Seiten aus Suchmaschinen-Ergebnissen erstellt. Diese Seiten sollten thematisch ähnlich zu den Katalogseiten sein, um Einflüsse des Themas auf das Link-Verhalten auszublenden. Dazu wurden intellektuell wichtige Schlagwörter aus den Katalogseiten extrahiert und diese unterschiedlich zu Suchanfragen kombiniert. Diese Suchanfragen wurden dann automatisch an zwei Suchmaschinen geschickt und aus den Ergebnisseiten wurden die Treffer gefiltert. Adressen wurden auf den Hostnamen reduziert und alle Links verfolgt. Die Reihenfolge, in der die Seiten angetroffen wurden (crawl order), wurde der hierarchischen Ebene gleichgesetzt, was in einigen Fällen sicher problematisch ist. Dabei ergab sich eine flachere, weniger stark abfallende Verteilung. Die folgende Abbildung zeigt für diese Seiten, die nicht Teil des Verzeichnisdienstes sind, eine zusätzliche Analyse. Dazu wurde die kumulative Verteilung der In-Links auf die Seiten dargestellt. Für die Ebenen zwei und drei nähert sich die Verteilung sehr schnell 100%, d.h. es existieren sehr wenige Seiten mit mehr als einigen wenigen In-Links. 238 Differenzierte Link-Analyse 1,2 Page Percentage 1 0,8 0,6 level 0 level 1 0,4 level 2 0,2 73 69 65 61 57 53 49 45 41 37 33 29 25 21 17 13 9 5 1 0 Number of In-Links Abb. 10.3: Kumulative Verteilung der In-Links auf Seiten Eine Belohnung von tiefen Seiten mit relativ vielen In-Links scheint auch aus Perspektive der Link-Erstellung plausibel. Verweist ein Link auf eine sehr detaillierte Seite, dann ist eher davon auszugehen, dass der Autor der Seite tatsächlich eine Qualitätsprüfung vorgenommen hat. Bei Links auf generelle Seiten auf hoher Ebene dagegen ist die Wahrscheinlichkeit höher, dass keine vollständige Überprüfung der darunter liegenden Seiten erfolgte, sondern dass diese aus anderen Gründen referenziert wird. Bestätigt wird dies durch die bereits erwähnten Untersuchungen zur Dynamik von Links. So zeigen PENNOCK ET AL. 2002, dass die Wahrscheinlichkeit, dass ein Autor einen Link auf eine Seite setzt, zum größten Teil von der Anzahl der bereits auf diese Seite verweisenden Links abhängt (siehe Abschnitt 7.8.2). 239 Differenzierte Link-Analyse „hoher Link“ „tiefer Link“ Abb. 10.4: „Hohe“ und „tiefe“ Links Der starke Einfluss der Hierachie-Ebene, der sich in der weitgehend exponentiell verlaufenden Verteilung äußert, könnte durch eine Potenzierung ausgeglichen werden. Dazu gibt es mehrere Möglichkeiten. Am sinnvollsten erscheint es, ein bestehendes Link-Maß (z.B. PageRank) zu benutzen und den berechneten Wert zu bearbeiten. L( Seite) Struktur = L( Seite) origHierachie− Ebene( Seite ) Eine weitere Analyse untersucht den Einfluss der hierarchischen Position einer Seite auf deren interne Struktur. Dadurch sollte geklärt werden, ob die Seiten auf verschiedenen Ebenen sich auch strukturell unterscheiden. Es zeigte sich, dass Seiten auf hoher Ebene im Durchschnitt mehr Elemente in der DOM-Struktur besitzen. Allerdings ergaben sich keine starken Korrelationen der gemessenen Parameter zu der Anzahl der In-Links oder der Hierarchie-Ebene. 240 Differenzierte Link-Analyse Tabelle 10.2: Struktur-Unterschiede von Seiten auf verschiedenen Ebenen Hierarchie Ebene 0 1 2 Durchschnitt Anzahl Anzahl HTML DOM Elemente MetaTags 295,2 8,7 292,8 11,9 252,5 9,1 Hierarchie Ebene 0 1 2 Standard-Abweichung Anzahl Anzahl Anzahl HTML HTML DOM Elemente MetaTags Tables 382,2 10,1 23,4 429,3 11,7 17,9 470,3 8,1 28,3 Anzahl HTML Tables 13,6 10,9 9,5 Interessant wäre nicht nur, auf welche Ebenen Links ankommen, sondern auch, von welchen hierarchischen Ebenen sie ausgehen. Dazu müsste eine Cross-Link Matrix für Hierarchie-Ebenen erstellt werden (analog zur thematischen Cross-Link-Matrix von CHAKRABARTI ET AL. 2002). Die in diesem Abschnitt vorgestellten Ergebnisse liefern einen Erklärungsansatz für die Resultate des Web Tracks von TREC in 2001 (siehe Abschnitt 7.10). In TREC zeigte sich, dass Link-Analyse-Verfahren bei inhaltlichen Suchen zu keinen Verbesserungen des Retrievals führten, sondern lediglich bei der Suche nach Homepages (homepage finding tasks). Die hier vorgestellte Untersuchung von Internet-Katalogen zeigte, dass die in der Hierarchie oben stehenden Seiten in der Regel wesentlich mehr eingehende Links besitzen als Seiten auf tieferen Ebenen. Die Wahrscheinlichkeit für einen Link fällt sehr stark ab und verhält sich annähernd exponentiell. Damit erhalten Homepages, also die Einstiegsseiten in ein Web-Angebot, vermutlich meist sehr viel höhere PageRank-Werte als andere Seiten. Dies erleichtert vermutlich das Finden von Homepages unter Berücksichtigung der Verlinkung. Würde dies zutreffen, dann könnte eine einfache Heuristik möglicherweise einen ähnlichen Effekt erzielen wie die aufwendige Berechnung des PageRank-Algorithmus. Diese Heuristik könnte darin bestehen, bei allen URLs der Suchergebnisse die Datei-Information zu streichen und nur den Host-Teil zu melden. Für inhaltliche Suchen ist diese Heuristik dagegen sicherlich kaum geeignet. Tatsächlich scheinen Suchma- 241 Differenzierte Link-Analyse schinen zu versuchen, durch den Einsatz von Heuristiken unter den ersten Treffern Homepages zu platzieren. Dies könnte verschiedene Gründe haben: • Die Betreiber nehmen an, dass homepage finding tasks sehr häufig vorkommende Informationsbedürfnisse darstellen und wollen diese bedienen. • Die Betreiber gehen davon aus, dass Benutzer Homepages als Ergebnisse präferieren und zwar auch bei inhaltlichen Suchanfragen. • Aufgrund des oben dargestellten Zusammenhangs zwischen Struktur von Sites und der Link-Häufigkeit ergibt sich die hohe Platzierung von Homepages von selbst. 10.2 Inkonsistenzen der Link-Analyse Der Ansatz von AQUAINT zielt auf die Extraktion von Qualitätsmodellen aus qualitativ überprüften Listen von Seiten. Aus der Perspektive der LinkAnalyse mag dies als überflüssig gelten, da ja die Qualität anhand der LinkVerteilung erkannt werden kann. Im Endeffekt könnte das Ergebnis der beiden Verfahren ja gleich sein. Die empirisch zwar kaum gestützten, aber doch plausiblen und häufig vertretenen Annahmen der Link-Analyse müssen vor diesem Hintergrund überprüft werden. Deshalb wurde untersucht, inwieweit die Link-Qualität von Seiten in Verzeichnisdiensten mit der Anzahl der Links für die darin enthaltenen Angebote übereinstimmt. Korreliert also die Zahl der Verbindungen auf eine Seite eines Verzeichnisdienstes mit der Autorität der Seiten, auf die der Dienst verweist, gemessen an den Verweisen auf diese Seiten? Finden die Redakteure der Dienste solche Web-Angebote, die auch laut Linkanalyse eine hohe Autorität besitzen? Um dies näher untersuchen zu können, wurden bei der oben bereits erwähnten Stichprobe von ca. 4000 Seiten aus Yahoo neben den Links auf diese Seiten auch die dort verzeichneten Seiten untersucht. Für jeden Eintrag in diesen Yahoo-Seiten wurde eine Anfrage sowohl an Google als auch an Altavista geschickt, um die Anzahl der In-Links dieser Angebote zu erhalten. Für jede Yahoo-Seite wurde der Durchschnitt jeweils für die Google- und die Altavista-Ergebnisse gebildet. Zunächst zeigt sich, dass eine sehr große Streuung besteht. Bei einem Mittelwert von 426 eingehenden Verbindungen weisen die Ergebnisse von Google eine Standardabweichung von 1346 Verbindungen auf. Altavista liefert als Mittelwert 79 und mit 209 ebenfalls eine sehr hohe Standardabweichung. Die Autorität und damit die vermutete Qualität der referenzierten Seiten wäre demnach sehr unterschiedlich. 242 Differenzierte Link-Analyse Interessanterweise ergibt sich für die Stichprobe keinerlei Korrelation zwischen den In-Links der Verzeichnisdienst-Seite und den In-Links der dort genannten Web-Angebote. Der Betrag der berechneten Korrelation liegt unter 0,1. Angesichts der obigen Ergebnisse, nach denen auf in der Hierarchie tiefer liegende Seiten kaum verwiesen wird, sollte man aber Seiten auf unterschiedlichen Ebenen getrennt betrachten. Möglicherweise überlagert der Einfluss der Hierarchie-Ebene der Seiten die gesuchte Korrelation. Daher wurden die Korrelationen auch für die Seiten nur einer Ebene berechnet, allerdings ergab sich auch hier keine nennenswerte Korrelation. Die LinkQualitätsmaße liefern also kein einheitliches Bild. Von einigen anderen untersuchten Parametern ergab sich lediglich für die Anzahl von Unterkategorien einer Seite eine positive Korrelation mit einem Betrag von mehr als 0,5. Demnach steigt die Wahrscheinlichkeit für Verbindungen auf eine Seite eines Verzeichnisdienstes leicht an, wenn die Seite viele Unterkategorien enthält. Quantität wird also hoch bewertet und führt zu mehr In-Links. Dagegen wirkt sich die Anzahl der enthaltenen Verweise auf externe Angebote weder positiv noch negativ aus. Dies konnte so nicht unbedingt erwartet werden, da die Leistung der Dienste gerade in der Bewertung externer Links liegt. 10.3 Berücksichtigung von thematischer Zentralität Einige Autoren beziehen den Inhalt der verweisenden Seite in die LinkAnalyse mit ein (HAVELIWALA 2002 und RICHARDSON & DOMINGOS 2002). Ziel ist es, die Links aus der gleichen Community stärker zu gewichten. Dies mag jedoch nicht bei allen Informationsbedürfnissen sinnvoll sein. Vielmehr können auch Links von Outsidern Qualitätshinweise sein. So verweisen Autoren, die nicht sehr stark in einer Materie verwurzelt sind, möglicherweise nicht auf die größte Autorität, aber auf ein für Laien verständlicheres Dokument. 243 Differenzierte Link-Analyse Thematische Cluster „non-community Link“ „Community Link“ Abb. 10.5: Community- und Outsider-Links Sobald also Communities und thematische Ähnlichkeiten zwischen Seiten erkannt sind, sollte der Einfluss von Community- und Outsider-Links parametrisierbar sein. Im Ansatz von HAVELIWALA 2002 besitzt jede Seite eine Ähnlichkeit zu einer Menge von Themen. Für jedes Thema beeinflusst ein Gewichtungsvektor über alle Seiten die PageRank-Berechnung. Für eine parametrisierbare Bewertung der Community- und Outsider-Links ist das Verfahrens von HAVELIWALA 2002 allerdings nur bedingt geeignet. Es müssten für jedes Thema nun zwei PageRank-Rankings für alle Seiten erzeugt werden. Das Insider-Modell wird vom Vektor p bestimmt, der die Ähnlichkeit der Seite zu der Thematik widerspiegelt. Das zweite Outsider-Ranking müsste mit einer Art inversen Vektor p erzeugt werden, in dem alle Seiten einen Wert von Eins minus den Wert in p besitzen. Dadurch werden Links von Seiten belohnt, die sich an sich mit einer anderen Thematik beschäftigen. 10.4 Fazit Die oben vorgestellten empirischen Ergebnisse und die daraus resultierenden Überlegungen verweisen auf mögliche Verfeinerungen der Link-Analyse. Die Algorithmen können und müssen weiter entwickelt werden. 244 Differenzierte Link-Analyse Über die hier diskutierten Modifikationen der Link-Analyse hinaus sind noch weitere denkbar. Teilweise wird bereits die Position von Links in einer Seite berücksichtigt. Ist etwa erkennbar, dass ein Link sehr zentral liegt und möglicherweise noch hervorgehoben ist, dann kann er höheres Gewicht erhalten. Eine interessante Ergänzung wäre auch die Veränderung über die Zeit. Seiten, die sehr viele In-Links in kurzer Zeit erhalten, könnten stärker belohnt werden. Ein derartiges Verfahren würde also die Änderung in den Popularitätsmustern bewerten. Allerdings ist dies sehr aufwendig zu berechnen. 245 246 Entwicklung von Qualitätsmodellen 11. Entwicklung von Qualitätsmodellen Trotz aller denkbaren Differenzierungen und Verfeinerungen, wie sie im letzten Kapitel anklangen, bleibt die Link-Analyse mit ihrer eindimensionalen Qualitätsdefinition problematisch. Eine breitere Definition auf der Basis mehrerer Parameter ist notwendig. Die Strukturierung und Art der Präsentation taucht immer wieder in den Prüflisten für die Qualität im Internet auf und hat somit einen großen Einfluss. Aus der Mensch-Maschine-Interaktion ist bekannt, dass einfache, klare und harmonische Formen und symmetrische Ausrichtung von Gestaltungselementen gut wahrgenommen werden. Allerdings erzeugen solche Benutzungsoberflächen wenig Spannung und wirken schnell langweilig (FRIES 2002). Dagegen zielen viele Gestalter auf die Erzeugung von Spannung und Aufmerksamkeit ab und erreichen dies durch Komplexität bei den Figuren, deren Ausrichtung und Farbgebung. In diesem Spannungsfeld liegt die Qualität der Benutzungsoberflächen mit begründet. Das visuelle Erscheinungsbild scheint zunächst wenig über die Qualität einer Seite auszusagen, da doch der Informationswert im Vordergrund steht. Dementsprechend nennen die Kriterienlisten zur Qualitätsprüfung die Gestaltung kaum oder werten grafische Gestaltungselemente sogar negativ. Jedoch orientieren sich Menschen bei der Qualitätsbewertung sehr stark an der grafischen Gestaltung (TRACTINSKY 1997, BOUCH ET AL. 2000). Für den Aspekt der Vertrauenswürdigkeit konnten FOGG ET AL. 2001 und 2002 eine starke Korrelation zwischen Design und wahrgenommenem Vertrauen zeigen. Blickverfolgungsstudien zeigen, dass sich der Mensch zunächst sehr an Bildern orientiert. Nach wenigen Sekunden verlagert sich der Fokus auf andere großflächige Elemente wie Texte und Navigationsstrukturen (OLLERMANN ET AL. 2004). Jedoch auch bei diesen Bewegungen orientiert sich das Auge an den großen Strukturen und folgt der Aufteilung der Seite. Dieser primäre Eindruck spielt sicher auch bei der weiteren Qualitätsbewertung eine Rolle. Für die automatische Qualitätsbewertung können daher neben der internen Struktur und formalen Eigenschaften auch grafische Gestaltungsaspekte herangezogen werden. Alle diese formalen Eigenschaften schlagen sich im HTML-Code einer Seite nieder. Aufgrund der mangelnden Standardisierung für die formale Darstellung semantischer Zusammenhänge und damit zu dem semantischen Aufbau und der Gliederung von Seiten, können Wissen und Bezüge formal sehr heterogen dargestellt werden. So können etwa Über247 Entwicklung von Qualitätsmodellen schriften in HTML als Überschriften gekennzeichnet sein oder durch die Formatierung im Kontext hervorgehoben werden. Tabellen werden zur Aufteilung der Fläche oder zur Darstellung tabellarischer Zusammenhänge benutzt. Der heterogene Einsatz von HTML-Elementen und die große Anzahl von Eigenschaften macht es schwer, eindeutige Beziehungen zwischen Qualität und diesen Eigenschaften zu formulieren (Etwa im Sinne von: „je mehr Tabellen, desto besser“). Die Qualitätsmodelle zielen daher in erster Linie auf die Qualität der Vorhersage ab. Die Transparenz und Nachvollziehbarkeit der Entscheidungen dagegen steht im Hintergrund. Als Maßstab für die Qualitätsmodelle dienen Lerndaten mit menschlichen Urteilen über die Qualität von Seiten. Diese werden aus Internet-Verzeichnisdiensten gewonnen, in denen menschliche Redakteure Seiten bewerten und in den Katalog aufnehmen oder verwerfen. Im ersten Fall erfolgt noch eine thematische Einordnung in eine hierarchische Ontologie. Entscheidend ist jedoch die menschliche Qualitätsentscheidung durch den Redakteur. Ziel der Web-Kataloge ist die Auswahl der besten Angebote zu einem Thema und nicht die vollständige Sammlung aller Quellen. Aus der Praxis der Erstellung von DMOZ berichtet HAMDORF 2004. Als Heuristik für die Aufnahme dient demnach die Leitlinie: „good enough quality“. Wenn auch die zahlreichen Redakteure dies sicher unterschiedlich auslegen, so werden durch das menschliche Urteil sicher zahlreiche unseriöse Angebote aussortiert. Aufgrund der vielen Urteile, welche die Redakteure zu fällen haben, spielen grafische Aspekte auch bei der Aufnahme in den Katalog eine wichtige Rolle. Die Auswertung der Informationsarbeit von Redakteuren der Web-Kataloge erfolgt auch in vielen anderen Forschungsarbeiten. So übertragen manche Klassifikationssysteme die thematische Einordnung von Seiten in InternetKatalogen auf andere Seiten. Damit werten sie die darin vorgenommenen Entscheidungen als qualitativ hochwertig genug, um sie als Maßstab für ihr System zu benutzen. Ein Beispiel für die Qualität der intellektuellen Arbeit im Rahmen von Internet-Verzeichnisdiensten liefern CHOWDHURY & SOBROFF 2002. Sie benutzen die Einträge im Dienst Open Directory Project als optimale Ergebnisse für Suchdienste. Die Einträge im Katalog für bestimmte Themen gelten als relevant für entsprechende Suchanfragen und die Autoren bewerten Retrieval-Systeme danach, wie sie diese bekannten Seiten im Ranking einordnen. 248 Entwicklung von Qualitätsmodellen 11.1 Überblick Im Zentrum der Entwicklung von Qualitätsmodellen steht die in JAVA implementierte Software AQUAINT Quality Workbench, welche auf Basis eines open-source crawling Programms1 entwickelt wurde. Die Erstellung der Vergleichsdaten für die Qualitätsmodelle läuft in mehreren Schritten ab, welche Abbildung 11.1 veranschaulicht. Dabei werden zunächst die Seiten eines Internet-Katalogs analysiert und die darin enthaltenen Links auf externe und positiv bewertete Seiten extrahiert. Diese Seiten werden anschließend auf ihre Eigenschaften hin untersucht. Ferner extrahiert das System Seiten ohne Qualitätsurteile, indem es häufig in den Katalog-Seiten vorkommende Begriffe als Suchanfrage an Suchmaschinen sendet. Aus den Ergebnis-Listen werden die Treffer extrahiert und ebenfalls auf ihre Eigenschaften hin untersucht. Als Vergleichsdaten dienen beliebige Seiten, die mit Hilfe einer Suchmaschine gesucht werden. In der Vergleichsmenge können natürlich auch qualitativ gute Seiten enthalten sein, die den Redakteuren aber nicht bekannt sind. Die Evaluierung darf sich deshalb nicht in der Approximation der Aufnahmeentscheidungen erschöpfen. Somit stellt für ein automatisches Qualitäts-Bewertungsverfahren die Qualität der Approximation in der Lernmenge (Trainings- und Testmenge) nur ein bedingt brauchbares Kriterium dar. Internet-Katalog Katalog-Listen Internet-Suchmaschine WEB Ergebnis-Listen Katalog-Einträge Ergebnis-Seiten Seiten in Bezug zu KatalogEinträgen Seiten in Bezug zu Ergebnis-Seiten Analyse der Eigenschaften Analyse der Eigenschaften DE KR BR Seiten-Eigenschaften Seiten-Eigenschaften Abb.11.1: Sammlung der Daten für die Qualitätsmodelle 1 http://www.matuschek.net 249 Entwicklung von Qualitätsmodellen Nach mehreren Testläufen zum Sammeln von Seiten aus Internet-Katalogen fiel die Entscheidung auf Yahoo, wodurch auch eine spätere Erweiterung auf internationale Seiten möglich ist. Das erste System basiert auf einem umfangreichen Crawl von Seiten aus dem Unterpunkt Gesundheit von Yahoo erstellt. Das Sammeln der Seiten erfolgt mit dem Werkzeug PageCollector, während der PageProfiler die Analyse der gesammelten Seiten vornimmt. Beide Werkzeuge wurden im Rahmen des Projektes AQUAINT implementiert. Der PageProfiler erstellt zunächst ein Document Object Model jeder Seite, aus dem dann die Eigenschaften gelesen werden. Repräsentation Autoren Erstellen Web Dokument Korpus Indexierung DokumentTermMatrix Redakteure aly se S n ru e i t or g Qualitätsmodell Qualitätsbewertung Überprüfung An g se aly rtu n Strategie Be we An Qu ali tät sb ew er tu ng Crawling Ein r lt e Fi flus s Ähnlichkeitsberechnung ErgebnisDokumente Formulierung Benutzer Anfrage Indexierung AnfrageRepräsentation Abb.11.2: Qualitätsretrieval: Wissensquellen für und Einsatzmöglichkeiten von Qualitätsmodellen im Information Retrieval-Prozess 250 Entwicklung von Qualitätsmodellen 11.2 Untersuchte Parameter Zur Auswahl der Eigenschaften wurde der state-of-the-art-Bericht in Kapitel 8 ausgewertet und zahlreiche der in der Literatur erwähnten Maßzahlen implementiert. Besonders die Ideen von AMENTO ET AL. 2000, ZHU & GAUCH 2000 sowie IVORY & HEARST 2002 gingen dabei ein. Ferner wurden weitere Maßzahlen entwickelt, welche das grafische Erscheinungsbild einer Seite beeinflussen. Vor allem einfach zu implementierende Maßzahlen auf der Basis der Anzahl von verschiedenen Tags wurden realisiert. Insgesamt wurden ca. 113 Eigenschaften der Internet-Seiten für die Erstellung des Qualitäts-Modells für das AQUAINT-System extrahiert. Dazu zählen Eigenschaften der Datei, der enthaltenen Links, die Häufigkeit von bestimmten Tags, Listen, Tabellen, Farben, sprachliche Eigenschaften sowie berechnete Größen wie das Verhältnis einzelner Eigenschaften. 11.2.1 Datei-Maße Zunächst sind Parameter zur Dateigröße sinnvoll. Derartige quantitative Parameter kommen in fast allen Untersuchungen vor. Die reine Dateigröße kann als rein technischer Parameter leicht erhoben werden und wird auch genutzt. Allerdings bietet sie nur einen Anhaltspunkt dafür, wie die Größe der Seite vom Benutzer wahrgenommen wird, da sie auch nicht sichtbare Teile berücksichtigt. Zusätzlich wurden daher die Größe bzw. Komplexität anhand der Anzahl der DOM-Elemente erfasst. Darüber hinaus spielt für den Benutzer die Länge des sichtbaren Textes eine Rolle für die Wahrnehmung. Der reine Text ohne Tags wird also extrahiert und seine Länge erfasst. Dieser reine Text bildet auch noch die Grundlage für die Bestimmung der sprachlichen Eigenschaften. Auch die Länge der URL und die Länge des Titels wurden erfasst. Die Länge des Titels hat sich in einer anderen Klassifikationsaufgabe bewährt (MLADENIC & GROBELNIK 1998) und Länge Null würde auf ein wenig professionelles Vorgehen hinweisen. Die Länge URL gibt oberflächlichen Aufschluss über den Host-Namen. Kurze URLs sind leichter zu merken und Firmen bevorzugen kürzere Host-Namen. Die Position einer Seite innerhalb einer Site hat ebenfalls Einfluss auf die Länge der URL. Je nach Position in einer hierarchischen Site hat eine Seite auch andere strukturelle Eigenschaften und die Anzahl der eingehenden Links ist höher bei Seiten, die strukturell nahe der Homepage liegen (siehe Abschnitt 10.1). Damit verändert sich der von der Linkanalyse zugewiesene Qualitätswert und möglicherweise auch die Wahrnehmung durch Redakteure und Benutzer. Die Integration dieser strukturellen Position als Merkmal in die Qualitätsmodelle erlaubt es 251 Entwicklung von Qualitätsmodellen den maschinellen Lernverfahren die Position zu berücksichtigen und abhängig von dem Positionswert andere Ergebnisse zu liefern. Dieses Maß entspricht dem Depth-Strukturmerkmal von BOTAFOGO ET AL. 1993:170f. Allerdings setzt dieses Maß die vollständige Kenntnis der Site und aller Links voraus, die AQUAINT aus Effizienzgründen nicht anstrebt. Die Hierarchie-Ebene der Seite innerhalb der Site wird statt dessen anhand von heuristischen Regeln bestimmt. Dazu zählt etwa die Anzahl der in der ULR erkennbaren Unterverzeichnisse. Somit wurden folgende Datei-Maße erfasst: • Datei-Größe • Länge der URL-Adresse • Länge des HTML-Titels • Anzahl DOM-Elemente • Hierarchie-Ebene der Seite innerhalb der Site (heuristische Regeln) 11.2.2 Link-Maße Auch Links spielen eine große Rolle bei der Wahrnehmung einer Seite und sind etwa entscheidend dafür, ob eine Seite eher einen Hub oder eine Authority darstellt. Zwischen diesen von Kleinberg eingeführten und sinnvollen Rollen wird in den Verzeichnisdiensten allerdings nicht unterschieden. Das AQUAINT-System, das auf der Wissensquelle Verzeichnisdienste beruht, behandelt daher auch beide Seitentypen gleich. Für die Bewertung von Hub und Authority mögen aber unterschiedliche Eigenschaften in die menschliche Bewertung einfließen. Deshalb werden als Anhaltspunkt für die primäre Rolle einer Seite Link-Maße mit erfasst. Zunächst erfasst AQUAINT die Anzahl der ausgehenden Links insgesamt und die Anzahl der Links auf den gleichen Host. Diese dienen vermutlich voraussichtlich der Navigation und spielen somit auch eine Rolle für die Qualität. Ebenso wird die Anzahl der Links auf PDF-Dateien und Grafiken ermittelt. Als Link-Label bezeichnet man den Text, der mit dem Link verbunden ist und der für den Benutzer sichtbar ist. Dieser hat sich im System WebTango als guter Indikator für die Qualität erwiesen (siehe Abschnitt 8.4.2, IVORY & HEARST 2002). Deshalb wurden für AQUAINT die Länge aller auftretenden Labels ermittelt und als Größe für die Seite sowohl der Durchschnitt, der Median als auch die Standardabweichung genutzt. Diese Größen weisen auch auf die Ausgewogenheit und Gleichmäßigkeit der Gestaltung der Labels. Die Link-Labels verweisen bereits auf die sprachliche Gestaltung der Seite. 252 Entwicklung von Qualitätsmodellen Wie etliche andere Größen sind absolute Zahlen für die Anzahl der ausgehenden Links wenig sinnvoll. Deshalb wird das Verhältnis von ausgehenden Links zur Größe der Datei bestimmt und für das Qualitätsmodell gespeichert. Damit ergeben sich folgende Link-Maße: • Zahl der ausgehenden Links • Zahl der ausgehenden Links zum gleichen Host • Zahl der Links auf PDF-Dateien • Länge der Link-Label (Durchschnitt, Median, Standardabweichung) • Zahl der ausgehenden Links im Verhältnis zur Größe • Anzahl und Anteil der Links auf Bilder 11.2.3 Häufigkeit von Tags Die Tags in HTML bilden die Grundlage für die Formatierung und damit das Erscheinungsbild einer Seite. Die Bedeutung des graphischen Erscheinungsbildes wurde schon in der Einleitung zu diesem Kapitel diskutiert. Nach der Erstellung des Document Object Models (siehe Abschnitt 11.3) können die Tags leicht automatisch ermittelt werden. Konsequenterweise werden für das Training der AQUAINT-Qualitätsmodelle zahlreiche Tags erfasst und ihre Anzahl gespeichert. Dazu zählen Tabellen-Tags wie table, td und tr, die aber unter den TabellenMaßen nochmals auftauchen und weitere Tags, die noch unter den ListenMaßen auftauchen. Für das Aussehen einer Seite sind die folgenden Tags relevant und werden extrahiert: Layer, Img, Frameset, Col und ColGroup. Erfasst werden Meta-Tags, die häufig auch Syntax-Prüfprogramme zählen. Script-Tags sind für die Interaktivität wichtig und werden gezählt. An TextTags werden H1, H1 und H3 für Überschriften sowie Style, HR und Font extrahiert. Eine Reihe weiterer seltener Textformatierungstags werden gesammelt und als eine Summe gespeichert. 11.2.4 Farb-Maße Besonders relevant für das Aussehen und die Wahrnehmng einer Seite durch den Benutzer sind Farben. Erfasst werden können Farben als Werte einiger HTML-Tags. Diese bestimmen keineswegs das gesamte Erscheinungsbild. Dazu müsste das System noch die Größe der einzelnen Objekte, ihre Lage 253 Entwicklung von Qualitätsmodellen und Überlappungen bestimmen. Bedeutend für die Farbe der im Browser gezeigten Fläche sind natürlich auch Grafiken und die darin enthaltenen Farben. Die Farbextraktion daraus ist aber technisch aufwendiger. AQUAINT beschränkt sich aus technischen Gründen und zu gunsten der Effizienz auf die HTML-Farben. Die folgenden Farb-Eigenschaften werden erfasst, die RGBWerte werden bestimmt und für jede Farbe werden drei Werte für Rot, Grün und Blau gespeichert. Symbolische Farbfestlegungen werden in die RGBWerte umgerechnet. • Hintergrundfarbe • Hintergrundfarbe der ersten Spalte der ersten Tabelle • Text-Farbe • Anzahl der HTML-Farb-Angaben • Anzahl der einmaligen HTML-Farb-Angaben • Am häufigsten vorkommende Farbe Diese erfassten wichtigen Farben bestimmen zum großen Teil das Erscheinungsbild der Seite. Aus diesen Farben können Kontraste, günstige Farbkombinationen und Überladenheit bestimmt werden. Explizite Aussagen zu günstigen Kombinationen trifft AQUAINT nicht, die positiven Beispiele müssen aus den Lerndaten bestimmt werden. 11.2.5 Tabellen-Maße Tabellen sind in HTML ein wichtiges Mittel für die Formatierung einer Seite. Vor allem die Gesamtstruktur legen Designer häufig mit Tabellen fest. Die Analyse der Tabellen trägt zur Bestimmung des Designs bei. Bei der Betrachtung des Gesamtbilds wird die Bedeutung der Gestaltgesetze und der Gegensatz zwischen den Prinzipien Einfachheit und Komplexität bedeutsam (siehe Abschnitt 1.4). Die Wahrnehmung der Komplexität der Struktur und der Symmetrie steuern nicht zuletzt die Tabellen. Dies gilt auch für die Ausgewogenheit der Zeilen und Spalten der einzelnen Tabellen. Ausgewogenheit fordern auch viele Richtlinien und Ratgeber. Ein analoges Maß stellen Botafogo et al. 1993:172 mit den Imbalance Metrics für die Hypertext-Strukturen zwischen Seiten vor (siehe Abschnitt 8.4.3). Für jede Seite summieren die Autoren die mögliche Pfadlänge, die von dieser Seite noch beschritten werden kann. Die Standardabweichung dieser Pfadlängen stellt einen absoluten Ausgewogenheitswert für die aktuelle Seite dar. Die Standard254 Entwicklung von Qualitätsmodellen abweichung misst daher in AQUAINT die Ausgewogenheit der Tabellen sowie der Link-Label und der HTML-Listen. AQUAINT versucht Gestaltungsentscheidungen zu Tabellen mit folgenden Größen zu erfassen: • Median, Durchschnitt und Standardabweichung (td-tags pro Tabelle) • Median, Durchschnitt und Standardabweichung (tr-tags pro Tabelle) • Verhältnis Anzahl Tabellen zur Datei-Größe • Verhältnis Anzahl der Wörter zur Anzahl Tabellen • Verhältnis Anzahl eingebetteter Tabellen zur Anzahl Tabellen 11.2.6 Listen-Maße Die Ausgewogenheit einer Seite zeigt sich auch bei der Gestaltung von Listen. Die Anzahl der Einträge pro Liste sollte bei mehreren Listen ausgewogen sein und auch sollten die Einträge nicht zu unterschiedlich lang sein. Erfasst werden die folgenden Eigenschaften: • Anzahl von Listen • Median, Durchschnitt und Standardabweichung Einträge pro Liste (Litags pro List-Tag) • Anzahl Listen durch Anzahl der Wörter 11.2.7 Sprachliche Eigenschaften In AQUAINT wurden nur wenige und einfache quantitative sprachliche Eigenschaften erfasst. Dadurch soll die Sprachabhängigkeit begrenzt werden. Durch den Verzicht auf syntaktische Analysen erhöht sich auch die Robustheit des Systems. Zudem treten in Internet-Seiten keineswegs immer syntaktisch korrekte Zeichenfolgen auf, da zahlreiche Listen und Menü-Einträge vorkommen. Grundeigenschaften sind die Anzahl der Wörter und Sätze. Daraus werden einige Größen wie das Verhältnis von Sätzen zur Anzahl der Zeichen, das Verhältnis von Leerzeichen zur Anzahl der Zeichen und das Verhältnis von Anzahl der Zeichen zur Dateigröße. Ähnliche Merkmale haben RAUBER & MÜLLER-KÖGLER 2001 erfolgreich für Text-Kategorisierung verwendet. 255 Entwicklung von Qualitätsmodellen Einige Größen berücksichtigen die Anzahl der Stoppwörter und deren Verhältnis zu der gesamten Anzahl von Wörtern. Dieses Maß ist von der Information-to-Noise Ratio von ZHU & GAUCH 2000 (siehe Abschnitt 8.3.1) inspiriert. Den Informationsgehalt misst auch die Anzahl und der Anteil von einmalig benutzten Wörtern. Somit werden folgende sprachliche Eigenschaften erfasst: • Anzahl der Satztrennzeichen (Hinweis auf Anzahl von Sätzen) • Anzahl der Leerzeichen (Hinweis auf Anzahl der Wörter) • Anzahl und Anteil von Stoppwörtern (sprachabhängig für Deutsch) • Anzahl und Anteil einmalig benutzter Wörter 11.2.8 Berechnete Größen Wie bereits erwähnt, sagen einige der Maßzahlen als absolute Werte voraussichtlich wenig aus. Neben den bisher schon angesprochenen berechneten Größen wurden noch folgende bestimmt: • Anzahl ausgehende Links zur Dateigröße • Anzahl der Grafiken zur Anzahl der DOM-Elemente • Anzahl der Grafiken zur Textlänge • Verhältnis Anzahl der Satzzeichen zur Anzahl der DOM-Elemente Damit kann nicht für jeden Einzelfall das häufig optimale Verhältnis von Text zu Bild oder der jeweils angemessene Einsatz des Medien abgeleitet werden. Dazu bieten die Normen und andere Richtlinien zur Kombination von Medien zu wenig umsetzbare Regeln (DIN EN ISO 14915-3 2002). Jedoch sind diese Größen leicht zu berechnen und ergeben je nach Gestaltung der Seiten andere Werte. Zusammengesetzte Größen setzen mehrere Ansätze ein. Eine komplexe Sturkurvariable tritt bei BUCY ET AL. 1999 auf, komplexe Variablen setzen ZHU & GAUCH 2000 ein und IVORY & HEARST 2002 berechnen mehrere Verhältnisse zwischen Größen. 11.2.9 Fazit Eigenschaften Keiner der genannten Parameter gibt für sich Auskunft über die Gestaltung einer Seite. In ihrem Zusammenspiel bieten sie aber einen Maßstab für die 256 Entwicklung von Qualitätsmodellen Präsentation und die Darstellung. Diese Parameter versuchen, u.a. den Grad der Strukturiertheit und Komplexität der Seite zu messen. Im Web-Design konkurrieren die Prinzipien Komplexität und Ordnung. Ordnung steht für Einfachheit, klare Formen und Symmetrie. Im Übermaß wirkt Ordnung langweilig. Dagegen steht Komplexität für Überraschungen und Verstöße gegen Ordnungs-Prinzipien wie Symmetrie und Einfachheit. Zu viel Komplexität in der Gestaltung wirkt überladen und unstrukturiert. Gutes Design muss sich in einem engen Rahmen zwischen den beiden Extremen bewegen (siehe Abschnitt 1.4). Die obigen Parameter versuchen, einfache Maße für diese Design-Prinzipien zu sammeln und dem maschinellen Lernsystem so Anhaltspunkte für die menschlichen Entscheidungen zu bieten. So soll letztendlich das Erkennen „guter“ Seiten möglich werden. Auch die Professionalität des Autors oder die Verwendung eines Content Management Systems haben sicher Einfluss auf die gemessenen Parameter. Eine analytische Bewertung der Parameter auf ihre Plausibilität bildet aber nur einen ersten notwendigen Schritt. Nur die Evaluierung im Anwendungskontext kann zeigen, ob diese Parameter zu einer erfolgreichen Implementierung eines Qualitätsmodells führen (siehe folgenden Abschnitt 11.4) und ob ein derartiges Modell zum erfolgreichen Qualitäts-Retrieval führt (siehe Kapitel 13). Nicht betrachtet wurden Eigenschaften der HTML-Syntax, da diese wenig Auswirkung auf die wahrgenommene Qualität haben. Diese meist von Syntax-Prüfprogrammen erhobenen Eigenschaften (siehe Abschnitt 8.4.1) besitzen eher normativen Charakter. Einige Parameter können aus Gründen der Performanz nicht erhoben werden. Die gleichen Parameter müssen beim Einsatz des Modells zur Verbesserung von Retrieval-Ergebnissen zur Laufzeit erfasst werden. Die Anzahl der InLinks könnte zwar von einer Suchmaschine abgefragt werden, jedoch würde dies zu viel Zeit beanspruchen um das System noch interaktiv bedienen zu können. Die Reaktion der Suchmaschine soll möglichst schnell erfolgen. Einige Maßzahlen wurden nicht integriert, da sie im Anwendungsszenario zur Laufzeit zu einer erheblichen Verzögerung geführt hätten und das System beim Benutzertest nicht mehr interaktiv bedienbar gewesen wäre. Dazu zählt die Abfrage der Anzahl der eingehenden Links bei einer Suchmaschine, wie sie für die Analyse in Kapitel 10 realisiert wurde. Zusätzlich wurden für die in Kapitel 10 vorgestellten Analysen Wrapper für Verzeichnisdienste bzw. Internet-Kataloge entwickelt, welche zusätzliche Informationen aus Katalog-Seiten extrahieren. Dazu gehören HierarchieEbene, enthaltene Unterkategorien und die eigentlichen Verweise auf andere 257 Entwicklung von Qualitätsmodellen Web-Angebote. Auch quantitative Aspekte wie die Anzahl der Unterkategorien und die Anzahl der Verweise oder Einträge erfasst das System. 11.3 Realisierungsaspekte Für diese Untersuchung wurde eine Quality Workbench (QuWob) entwickelt, die im Kern ein Web-Mining-System in JAVA 1.4 darstellt und auf mehreren frei im Internet verfügbaren Komponenten aufbaut. Die Seiten werden mit einem Roboter aus dem Netz übertragen. Dazu wurde ein open-source-Roboter an die Bedürfnisse der Anwendung angepasst1. Die HTML-Seiten werden mit dem Tidy-Parser von W3C analysiert und in ein Document Object Model (DOM) überführt2. Online Analyse Online Analyse Search Result Reader Page Profiler Anfrage Anfrage SeitenEigenschaften Ergebnis URL-Liste BOF InformationsSuchender Ergebnis FusionKomponente Qualitätswerte Qualitätsmodell Offline Knowledge Aquisition Maschinelles Lernen Abb. 11.3: Schematischer Überblick über die wichtigsten Komponenten 1 http://www.matuschek.net/software/jobo/index.html 2 http://w3c.org 258 Entwicklung von Qualitätsmodellen WEB Fragt Suchmaschinen ab BOF -HTML -Servlet Extrahiert Ergebnisse Search Result Reader (SRR) -Sammelt Seiten -aus Suchergebnissen Verfolgt Links Page Collector (PC) -nutzt Start-Seiten -sammelt Seiten -Basiert auf WebMiner von Matuschek Download und Analyse Page Profiler (SPA) -download von Seiten -Erstellt DOM -Extrahiert Eigenschaften -Bereitet Trainings-Dateien vor Maschinelles Lernen -Klassifikation -WEKA Qualitätsmodell AQUAINT Kernkomponenten JAVA Komponenten Abb. 11.4: Schematischer Überblick über den Extraktions-Prozess Im Rahmen von QuWob stehen folgende Werkzeuge zur Verfügung, die auch von der Kommandozeile aus bedient werden können und meist über Parameter gesteuert werden: • PageCollector (PC, sammelt Seiten im Internet, geht von einer Seite aus oder arbeitet eine Liste von URLs ab) • SimpleResultReader (SRR, parst Ergebnis-Seiten von Suchmaschinen und extrahiert die Zielseiten, Wrapper für fünf Suchmaschinen wurden implementiert) • PageProfiler (SPA, parst Seiten und extrahiert die Parameter) • SimplePageLinkAnalyzer (SPLA, parst eine einzelne Seite und extrahiert die Links) Diese Werkzeuge sind als Web-Clients in JAVA realisiert. Der PageCollector implementiert einen Crawler und erlaubt z.B. folgende Parameter: • Sollen die Seiten von dem gegebenen Host oder von beliebigen Hosts gesammelt werden? 259 Entwicklung von Qualitätsmodellen • Startet der Crawler nur von der gegebenen Seite oder zusätzlich noch von der Homepage dieses Hosts, falls diese nicht identisch sind? • Wie viele Schritte in die Tiefe soll der Crawler maximal auf einem Host sammeln? • Wie lange soll das System zwischen den Zugriffen warten? Für die Internet-Kataloge existieren Modifikationen der oben genannten Werkzeuge. Diese realisieren Wrapper für die Kataloge, welche z.B. lediglich die Katalog-Seiten sammeln oder Katalog-Seiten bewerten und dabei die für Kataloge spezifischen Eigenschaften wie Thema, hierarchische Ebene im Katalog, Anzahl der Einträge und Unterebenen zusätzlich mit erfassen. Der SimpleResultReader liest Ergebnisse einer Suchmaschine und stellt einen Wrapper für die Seiten der Suchmaschine dar. Eine Implementierung mit einem API wie etwa dem Google API (cf. MUELLER 2004) war hier nicht sinnvoll, da dieses nur eine sehr beschränkte Anzahl von Suchen pro Tag erlaubt. Demnach muss zunächst die Syntax der Suchmaschine bekannt sein. Die meisten Suchmaschinen stellen die Suchbegriffe und Parameter transparent in der URL der Ergebnisseite dar1. Diese URLs lassen sich leicht erzeugen und aufrufen. Innerhalb der Seite müssen dann die URLs der ErgebnisSeiten in der richtigen Reihenfolge extrahiert werden und anschließend wird die nächste Ergebnis-Seite aufgerufen. Die Abbildung 11.5 zeigt, welche Schritte der SimpleResultReader beim Aufruf einer Seite durchläuft. Eine ähnliche Funktion wie der SimpleResultReader kann bei jedem Aufruf des PageProfiler integriert werden. Diese Funktion schickt dann eine Anfrage an eine Suchmaschine, die alle Seiten mit Links auf die URL der analysierten Seite abfragt. In der Ergebnisliste wird lediglich die Anzahl der Links ausgelesen. Im Benutzertest konnte diese Funktion nicht aufgerufen werden, da die Bearbeitung zu lange gedauert hätte. 1 Die Suche dem Begriff Retrieval etwa führt in Lyocs zu einer Ergebnis-Seite mit folgender URL: http://suche.lycos.de/cgi-bin/pursuit?query=Retrieval 260 Entwicklung von Qualitätsmodellen JAVA Client: •Aufruf einer Suchmaschinen-Seite •Transparente Syntax •Einfügen der Suchbegriffe •Analyse der Seitenstruktur •Anzahl der Treffer •Ergebnis-Links •Weitere Ergebnisseiten •Aufzeichnen der Ergebnis-Links JAVA Programm: •Weiterverarbeitung •Analyse der Ergebnis-Seiten <?xml version="1.0" encoding="UTF8"?> <html><!-- ysx:2025869239 --><!-020513:0014 --><head> <meta content="HTML Tidy, see www.w3.org" name="generator"/> <title>Yahoo! Nachschlagewerke>Statistiken</title> <base href="http://de.dir.yahoo.com/Nachschlage werke/Statistiken/"/> </head> <body bgcolor="ffffff"> Abb.11.5: SearchResultReader als Web-Client Das maschinelle Lernen der Qualitätsmodelle erfolgt mit dem WEKA-System (Waikato Environment for Knowledge Analysis1, WITTEN & FRANK 2000). WEKA ist ein Data-Mining System, das zahlreiche Lernalgorithmen sowie Analyse- und Bewertungsverfahren als JAVA-Quellcode zur Verfügung stellt. Die Verbindung zwischen dem Output des PageProfilers und WEKA stellt das Werkzeug WekaFilePreparator (WFP) her. Es formt die Dateien aus dem Format des PageProfilers in das für WEKA nötige Format ARFF um. Die folgende Abbildung zeigt die graphische, interaktive Benutzungsoberfläche von WEKA, für umfangreiche und größere Lernaufgaben wie in diesem Projekt erwies sich aber die Steuerung per Kommandozeile als stabiler. 1 http://www.cs.waikato.ac.nz/ml/weka 261 Entwicklung von Qualitätsmodellen Screenshot WEKA Abb. 11.6. WEKA-Benutzungsoberfläche Im Realbetrieb müssten die Eigenschaften oder zumindest der Qualitätswert vorab abgespeichert sein und wie z.B. der PageRank bei Google (cf. PAGE ET AL. 1998) zur Laufzeit nur noch abgefragt werden. Dann kann die Fusion mit dem inhaltlichen Ähnlichkeitswert schneller erfolgen. 11.4 Qualitäts-Modelle Die Realisierung der Qualitätsmodelle läuft in mehreren Schritten ab, in denen die im vorigen Abschnitt eingeführten Systeme eingesetzt werden: • Aus einem Internet-Verzeichnisdienst bzw. Katalog werden zunächst Listen von Katalog-Seiten erzeugt • Aus diesen Seiten werden die Links extrahiert und Listen mit von dem Katalog referenzierten Seiten erzeugt • Diese Katalog-Einträge werden analysiert und die oben genannten Parameter extrahiert 262 Entwicklung von Qualitätsmodellen • Aus den Einträgen werden die häufigsten Terme extrahiert und diese in verschiedenen Kombinationen an Suchmaschinen geschickt • Aus den Suchergebnis-Seiten werden Listen von Seiten erzeugt, die nicht in dem Katalog enthalten sind • Diese Nicht-Katalog-Seiten werden analysiert und die oben genannten Parameter extrahiert. Sie dienen als Vergleichsdaten zu den KatalogSeiten • Die Daten werden zusammengeführt und als positive und negative Beispiele an ein maschinelles Lernsystem übergeben • Nach dem erfolgreichen Lernen wird das Modell mit der Abbildung von Seiten-Eigenschaften auf den Qualitätswert gespeichert und kann nun auf andere Seiten übertragen werden Die wichtigen Parameter für die Modelle sind die Datengrundlage und das verwendete maschinelle Lernverfahren. Als Zielwert für die Lernverfahren muss enweder die Klassenzugehörigkeit oder ein numerischer Wert vorgegeben werden. Für alle Modelle, die im Folgenden vorgestellt werden, gelten die Vorgaben von Tabelle 11.1: Tabelle 11.1: Vorgaben für Lernverfahren Web-Seiten Qualitätsbewertung Zielwert bzw. Klassenbezeichnung Aus WebKatalog Gut + 1,0 Aus Suchmaschinen Neutral 0 Aus Spam-Liste Schlecht -1,0 Die weiteren Abschnitte beschreiben die Erstellung und die Trefferquoten von Modellen auf der Basis verschiedener Datenquellen und Lernmodelle. Sämtliche Modelle wurden mit dem WEKA-Paket für maschinelles Lernverfahren erstellt. Alle Ergebnisse basieren auf zehnfacher Cross-Validierung. Das bedeutet, dass der Klassifizierer zehnmal trainiert wird und dabei jeweils 90% der Daten zum Training und 10% für den Test benutzt werden. Die durchschnittliche Performanz des Verfahrens aus diesen zehn Testmengen gilt als Gesamtleistung. 263 Entwicklung von Qualitätsmodellen 11.4.1 Qualitätsmodelle auf der Basis von Yahoo Für den Prototyp der Qualitäts-Suchmaschine wurde in AQUAINT ein umfangreiches Modell anhand des Unterpunktes Gesundheit des Internet-Verzeichnisdienstes Yahoo erstellt. Das Modell basiert auf einem Crawl im Unterpunktes Gesundheit des Katalogs Yahoo, der 15.000 Seiten extrahierte. Diese Seiten stellen die qualitativ hochwertigen Beispiele dar. Daneben wurden zu ähnlichen Themen ca. 15.000 beliebige Seiten mit der Hilfe von Suchmaschinen identifiziert, die als qualitativ neutrale Beispiele dienten. Dazu wurden häufige und wichtige Schlagwörter in den Yahoo-Seiten identifiziert und in verschiedenen Kombinationen als Suchanfragen an Suchmaschinen geschickt. Das System stützt sich dabei vor allem auf die Suchmaschine Lycos und den Suchdienst von abacho.de. Für die Erstellung der Modelle wurden automatische Lernverfahren benutzt, die sehr unterschiedlich arbeiten. Dabei kamen sowohl lineare als auch nichtlineare Verfahren zum Einsatz. Die folgenden Tabelle 11.2 und 11.3 zeigen die Vorhersage-Genauigkeit, welche die Lernalgorithmen bei dieser Datenbasis erzielen. Tabelle 11.2: Klassifikationsverfahren für Yahoo- und Suchmaschinen-Seiten (Klassen 0 und 1) Lernverfahren für Klassifikation Zero Rule (Mehrheit) One Rule Naive Bayes Ibk (instanz-basierter Klassifizierer, drei nearest neighbour) Trefferquote 39 % 75 % 96 % 99,8 % Eine Trefferquote von 75% bedeutet, dass bei 70% aller Seiten der Lernalgorithmus erkennen konnte, ob es sich um eine Verzeichnisdienst-Seite oder eine beliebige Seite handelte. 264 Entwicklung von Qualitätsmodellen Tabelle 11.3: Ergebnisse von numerischen Lernverfahren für Yahoo- und Suchmaschinen-Seiten (Klassen 0 und 1) Lernverfahren für numerische Vorhersage Lineare Regression Support Vector Machine Regression (nicht linearer Kernel) Korrelation 0,97 0,98 Diese Ergebnisse erscheinen durchaus befriedigend. Eine Trefferquote von 100% wäre sogar problematisch. Denn qualitativ hochwertige Seiten können auch zusätzlich zu den explizit positiv bewerteten und in Kataloge aufgenommenen Seiten vorkommen. Diese Seiten sollte das Lernverfahren dann auch mit hohen Qualitätswerten versehen und die Seiten sollten folgerichtig in einer Qualitäts-Suchmaschine höher gerankt werden. Für den Benutzertest (siehe Kapitel 13) wurde das Modell auf der Basis der linearen Regression genutzt. Dieses Verfahren liefert numerische Vorhersagen und ist damit für ein Ranking-System geeignet. Das Modell ist als Datei sehr klein und die Integration in eine experimentelle Qualitäts-Suchmaschine sehr effizient. 11.4.2 Qualitäts-Modelle für die Spam-Erkennung Die Ergebnisse des Projektes lassen sich in Internet-Suchmaschinen oder anderen Mehrwertdiensten nutzen. Eine offensichtliche und kurzfristig realisierbare Anwendung liegt in der Erkennung von Spam, also von Seiten, die aus wirtschaftlichen Gründen Inhalte vortäuschen, welche sie nicht enthalten (siehe Abschnitt 5.3). Spam-Seiten stellen ein erhebliches und umfangreiches Problem für Suchmaschinen dar. Bei ihrer Analyse der Veränderungsraten von Seiten im Web erkannten FETTERLY ET AL. 2003, dass sich die Seiten der Top Level Domain „de“ häufiger ändern. Dies lag an einem großangelegten Spam-Versuch, der auf die Erhöhung des PageRank von zahlreichen automatisch erzeugten Pornographie-Seiten abzielt. An diesem Link-Spam waren mehr als eine Million Seiten mit 100.000 Host-Namen beteiligt, die alle unter einer URL lagen. Diese Seiten kopierten automatisch Teile anderer Seiten, um so die Suchmaschinen auf sich zu lenken. Es ist davon auszugehen, dass solche massenhaft automatisch erzeugten Seiten bestimmte Gemeinsamkeiten aufweisen und so automatisch aufgrund formaler Eigenschaften leichter erkennbar sind. Die für das Suchsystem 265 Entwicklung von Qualitätsmodellen AQUAINT entwickelte Technologie bietet sich demnach für die SpamErkennung an. Bei der Suchmaschine Lycos Europe werden von Mitarbeitern Seiten intellektuell überprüft und aus verschiedenen Gründen als unerwünscht deklariert. Zu den Gründen zählen vor allem unerwünschte Inhalte und Täuschungsversuche. Die Mitarbeiter erstellen eine Black-List mit den unerwünschten Adressen, die nicht in den Index aufgenommen werden. Eine Liste mit ca. 10.000 Seiten stand zur Verfügung und wurde genutzt. Die Liste enthält explizit als negativ bewertete Seiten, die für das Training eines Lernverfahrens zur Verfügung stehen. Diese Seiten wurden in die Datengrundlage für das Qualitätsmodell integriert. Die Trefferquote liegt bei einem Naive Bayes-Modell bei 76% insgesamt und damit niedriger als für die Unterscheidung zwischen Suchmaschinen-Seiten und Internet-Katalog-Seiten. Möglicherweise liegt dies mit daran, dass die Spam-Seiten inhaltlich nicht spezifisch für das Thema Gesundheit sein, sondern beliebige Themen abdecken. Tabelle 11.4: Ergebnisse für einzelne Klassen klassifiziert als Spam (-1) Suchmaschinen-Ergebnisse (0) Spam (-1) 4464 253 SuchmaschinenErgebnisse (0) 6529 17532 insgesamt 10993 17785 Betrachtet man die Ergebnisse für die einzelnen Klassen in Tabelle 11.4, so zeigt sich, dass die Fehler des Klassifizierers überwiegend darin bestehen, dass Spam-Seiten als normale Seiten klassifiziert werden. Dagegen werden normale Seiten aus Suchmaschinen-Ergebnissen kaum als Spam eingeordnet. Das bedeutet, dass das Modell recht gut als Spam-Erkenner geeignet ist. Denn die Klassifizierung von normalen Seiten als Spam ist ein unerwünschter Fehlertyp. 11.4.3 Modelle auf der Basis von drei Klassen Weitere Modelle wurden auf der Basis aller drei Datenbestände erstellt. Die beste Trefferquote erzielte ein nearest neighbour-Modell im Rahmen eines instanzbasierten Klassifizierers wie Tabelle 11.5 zeigt. 266 Entwicklung von Qualitätsmodellen Tabelle 11.5: Klassifikationsverfahren für drei Klassen Lernverfahren für Klassifikation Zero Rule (Mehrheit) One Rule Naive Bayes Support Vector Machine (Radial Basis Function Kernel) Support Vector Machine (linearer Kernel) Logistic Regression Ibk (instanz-basierter Klassifizierer, drei nearest neighbour) Ibk (instanz-basierter Klassifizierer, ein nearest neighbour) Trefferquote 39% 75% 78% 82% 86% 87% 89% 94% Bei den numerischen Verfahren bot die lineare Regression gute Ergebnisse wie Tabelle 11.6 verdeutlicht. Eine weitaus höhere Korrelation mit den Lerndaten erzielte ein Decision Table. Allerdings ist fragwürdig, ob das Verfahren eine gute Generalisierung bietet. Tabelle 11.6: Ergebnisse von numerischen Lernverfahren für drei Klassen Lernverfahren für numerische Vorhersage Least Median Square Support Vector Machine Regression (linearer Kernel) Pace Regression Lineare Regression Decision Table Korrelation 0,29 0,31 0,46 0,48 0,93 Bei der Erkennungsrate für die einzelnen Klassen fiel besonders auf, dass besonders die Klassen Spam und Yahoo Probleme bereiteten. Als beispielhaftes Ergebnis ist in Tabelle 11.7 die Erkennungsmatrix des Naive BayesLernalgorithmus angeführt, der insgesamt eine Erkennungsrate von 78% erreichte. 267 Entwicklung von Qualitätsmodellen Tabelle 11.7: Ergebnisse für einzelne Klassen klassifiziert als Spam (-1) Suchmaschinen-Ergebnisse (0) Yahoo-Seiten (+1) Spam (-1) 2164 13 121 SuchmaschinenErgebnisse (0) 744 17647 752 Yahoo (+1) 8085 125 15688 insgesamt 10993 17785 16561 Noch deutlicher fällt das Ergebnis beim Support Vektor Machine-Verfahren aus, das bei diesem Datensatz insgesamt 86% Trefferquote erreicht wie Tabelle 11.8 zeigt. Tabelle 11.8: Ergebnisse für einzelne Klassen bei Support Vector Machine klassifiziert als Spam (-1) Suchmaschinen-Ergebnisse (0) Yahoo-Seiten (+1) Spam (-1) 7881 0 2933 SuchmaschinenErgebnisse (0) 0 17785 0 Yahoo (+1) 3112 0 13628 insgesamt 10993 17785 16561 Es fällt auf, dass die Erkennungsrate für Spam-Seiten hier sehr schlecht ist und dass jeweils mehr als 70% aller Spam-Seiten als Yahoo-Seiten klassifiziert wurden. Dagegen werden die Suchmaschinen-Ergebnisse kaum mit anderen Klassen verwechselt. Während also die als sehr gut und sehr schlecht vorgegebenen Seiten nicht gut unterschieden werden, werden die als neutral interpretierten Seiten sehr gut diskriminiert. 11.4.4 Reduzierte Modelle Das maschinelle Lernen stellt Verfahren für die Erkennung der wichtigsten Eigenschaften innerhalb einer Datenmenge zur Verfügung. Durch diese Feature Selection können zum einen die wichtigsten Eigenschaften erkannt werden und darauf aufbauend die Datenmenge und damit die Qualitätsmodelle auf diese wichtigsten Faktoren reduziert werden. Der erste Aspekt wird in Abschnitt 11.5 erläutert. An dieser Stelle folgt die Performanz von Lernverfahren auf einer reduzierten Datenmenge. WEKA stellt unterschiedliche Verfahren für die Feature Selection zur Verfügung. Ausgewählt wurde das Verfahren cfssubset, welches verschiedene Kombinationen der Eigenschaften in einem heuristischen Suchalgorithmus 268 Entwicklung von Qualitätsmodellen durchläuft und die beste Kombination auswählt. Als Bewertungsfunktion dient die Erfolgsquote des Klassifizierers und der Suchbaum wird nach einer best first Strategie durchsucht (WITTEN & FRANK 2000). Cfssubset wählt aus der Datenmenge mit 113 Eigenschaften neun aus. Mit den ausgewählten Eigenschaften wurde weitere Lernverfahren trainiert. Die folgenden Tabellen 11.9 und 11.10 geben die Trefferquoten wieder. Tabelle 11.9: Klassifikationsverfahren für drei Klassen Lernverfahren für Klassifikation Zero Rule (Mehrheit) Support Vector Machine (linearer Kernel) Naive Bayes Naive Bayes K Ibk (instanz-basierter Klassifizierer, ein nearest neighbour) Trefferquote 39% 48% 50% 51% 86% Tabelle 11.10: Ergebnisse von numerischen Lernverfahren für drei Klassen Lernverfahren für numerische Vorhersage Zero Rule Lineare Regression Locally Weighted Learning (LWL) Support Vector Machine Regression (linearer Kernel) Korrelation -0,01 0,45 0,27 0,28 Die Ergebnisse liegen unter den Werten für die oben gezeigten Modelle. Trotzdem erscheinen sie noch befriedigend. Das bedeutet, dass die reduzierten Modelle mit einem gewissen Präzisionsverlust die vollständigen Modelle ersetzen können. Für den Realbetrieb einer Qualitäts-Suchmaschine kann dies relevant sein, da dann wesentlich weniger Eigenschaften pro Seite erhoben, gespeichert und verarbeitet werden müssen und somit die Effizienz gesteigert wird. 11.4.5 Modelle auf der Basis des Benutzertests Kapitel 13 behandelt die Durchführung eines Benutzertests mit der entwickelten Qualitäts-Suchmaschine. Dabei mussten die Testpersonen die ErgebnisSeiten hinsichtlich ihrer Qualität bewerten. Die Trainingsmenge für die Qualitätsmodelle überschnitt sich nicht mit den präsentierten und bewerteten Sei- 269 Entwicklung von Qualitätsmodellen ten. Alle im Benutzertest gezeigten und bewerteten Seiten bieten daher eine weitere Quelle für ein Qualitätsmodell. Beim Benutzertest wurden Schulnoten für die Seiten vergeben. Diese wurden in Punkte umgerechnet, so dass gut bewertete Seiten mit hohen Werten belohnt wurden. Insgesamt wurden 900 Seiten angezeigt und 215 positiv bewertet. Tabelle 11.11: Klassifikationsverfahren für Benutzertest-Seiten Lernverfahren für Klassifikation Trefferquote Zero Rule (Mehrheit) One Rule Naive Bayes Ibk (instanz-basierter Klassifizierer, ein nearest neighbour) Ibk (instanz-basierter Klassifizierer, vier nearest neighbour) Locally Weighted Learning (LWL) Support Vector Machine (linearer Kernel) Radial Basis Function Network Support Vector Machine (Radial Basis Function Kernel) 76% 72% 50% 67% 72% 76% 76% 76% 76% Tabelle 11.12: Numerische Lernverfahren für Benutzertest-Seiten Lernverfahren für numerische Vorhersage Zero Rule Lineare Regression Least Median Square Pace Regression Support Vector Machine Regression (linearer Kernel) Support Vector Machine Regression (Radial Basis Function Kernel) Korrelation -0,08 0,11 0,0 0,0 0,05 0,04 Die Ergebnisse in den Tabellen 11.11 und 11.12 zeigen, dass die Trefferquote für diese Modelle eher niedrig liegt. Kein Klassifikationsverfahren übertrifft das Ergebnis der naive Annahme des ZeroRule-Verfahrens, nach dem alle Objekte zur häufigsten Klasse gehören. Möglicherweise liegen nicht genügend Lerndaten vor. Eine andere Interpretationsmöglichkeit besteht darin, dass die Testpersonen unterschiedliche Aspekte bei ihren Qualitätsurteilen berücksichtigten. 270 Entwicklung von Qualitätsmodellen 11.5 Analyse der Qualitätsmodelle Sowohl die Daten als auch die Modelle können über das Qualitätsretrieval als Wissensquellen dienen. Eine Möglichkeit der Analyse besteht darin, Verteilungen und Häufigkeiten sowie Abhängigkeiten zwischen den gemessenen Eigenschaften der Seiten zu betrachten. Diese Möglichkeit wird als WebDesign Mining in Kapitel 14 noch aufgegriffen. Darüber hinaus können die gefundenen Modelle weiter analysiert werden. Vor allem ist interessant, welche der Parameter den größten Einfluss auf das Ergebnis haben. Welche Eigenschaften sind also für die Qualität besonders wichtig? Für die Erkennung der wichtigsten Eigenschaften gibt es unterschiedliche Ansätze. In Abschnitt 11.4.4 wurden bereits die Verfahren zur Identifikation der wichtigsten Eigenschaften angesprochen. Daneben wurden aus linearen Regressionsmodellen die Eigenschaften mit den höchsten Faktoren ausgewählt. Zwar müssen diese nicht notwendigerweise den höchsten Einfluss auf das Ergebnis besitzen, als Näherung und in Kombination mit anderen Methoden kann dieses einfache Verfahren aber angewandt werden. Diese Verfahren wurden sowohl auf die Trainingsmenge aus Yahoo- und Suchmaschinen-Ergebnis-Seiten als auch auf die Seiten aus dem Benutzertest angewandt. In der Literatur gingen diesen Schritt zur Auswertung der Eigenschaften bisher lediglich IVORY & HEARST 2002. Hier sei schon vorweggenommen, dass sich dabei völlig andere Parameter als relevant erwiesen (siehe Abschnitt 8.4.2), als die im Folgenden für AQUAINT genannten. 11.5.1 Wichtige Eigenschaften in den Trainingsdaten Die stärksten Korrelationen zwischen einzelnen Eigenschaften und der Qualität ergaben sich für die in Tabelle 11.13 aufgeführten Eigenschaften. Insgesamt sind alle positiven und negativen Korrelationen nur schwach. Tabelle 11.13: Eigenschaften mit der stärksten Korrelation zur Qualität -0,1754 -0,1632 -0,1632 -0,1577 -0,1167 nrOutLinks relationOutLinksToSize relationNrOutLinksFileSize lengthTitle nrDOMElems -0,1052 0,0673 0,0884 -0,0885 nrTagCursBold lengthAddress nrTagFrameset linkLabelLengthAve 271 Entwicklung von Qualitätsmodellen Das Feature Selection-Verfahren cfssubst wählte die in Tabelle 11.14 genannten Eigenschaften aus. Die fett hervorgehobenen Eigenschaften kommen bereits in Tabelle 11.13 vor und haben somit auch eine hohe Korrelation zur Qualität. Tabelle 11.14: Durch die Feature Selection ausgewählte Eigenschaften uniqueWordsRatio graphicsWordsRatio relationNrOutLinksFileSize relationOutLinksToSize relationNrDOMElemsFileSize stopwordsToTextRatio stopwordsWordsRatio Es ist überraschend, dass vor allem Eigenschaften, welche den Text betreffen, als wichtig ausgewählt wurden. Die grafische Darstellung und die Ausgewogenheit sowie einzelne HTML-Tags haben offensichtlich weniger Bedeutung für die Qualität. Die stärksten Einflussfaktoren im linearen Regressionsmodell, das auch im Benutzertest eingesetzt wurde, zeigt Tabelle 11.15 mit den Werten. Die hervorgehobenen Eigenschaften traten bereits in einer der beiden vorherigen Tabellen hervor. Damit gibt es für die Relevanz dieser Eigenschaften für die Qualität eine stärkere Evidenz. Tabelle 11.15: Eigenschaften mit den stärksten Faktoren im linearen Regressionsmodell 0,0268 0,0496 0,0594 0,978 1,07 1,081 12,752 -3,745 -0,791 tableWordsRatio stopwordsWordsRatio blanksToTextRatio imgLinksToSizeRatio relationOutLinksToSize relationNrOutLinksFileSize graphicsToSizeRatio tableToSizeRatio stopwordsToTextRatio -0,6499 -0,196 -0,103 -0,0961 -0,082 -0,0555 -0,0126 -0,0121 -0,0107 relationNrDOMElemsFileSize relationImgDomElems relationTableDomElems listWordRatio textToSizeRatio uniqueWordsRatio nrtagColGroup graphicsWordsRatio imgLinksRatio Das vollständige lineare Regressionsmodell, ein lineares Regressionsmodell auf der Basis der im Benutzertest bewerteten Seiten und das Ergebnis eines Support Vector-Maschinen-Modells mit linearen Kernel, das in der CrossValidierung eine Trefferquote von 86% erzielte, sind im Anhang abgedruckt. 272 Entwicklung von Qualitätsmodellen 11.5.2 Wichtige Eigenschaften im Benutzertest Neben den Trainingsdaten lieferten auch die im Benutzertest (siehe Kapitel 13) betrachteten und bewerteten Seiten eine Grundlage für das Training von Qualitätsmodellen (siehe Abschnitt 11.4.5). Diese Benutzertest-Daten bieten sich auch für das Erkennen wichtiger Eigenschaften an. Damit lassen sich die Ergebnisse aus dem vorigen Abschnitt ergänzen. Das auch oben angewandte Verfahren cfssubset aus WEKA wählt die Eigenschaften in Tabelle 11.16 als wichtig aus, wenn die Zielklasse in der Qualitätsbewertung im Benutzertest besteht. Wie in den folgenden Tabellen sind die Eigenschaften kursiv markiert, die auch schon im vorherigen Abschnitt zu den Trainingsdaten durch Feature Selection oder relativ starke Korrelation auffielen. Tabelle 11.16: Durch Feature Selection ausgewählte Eigenschaften aus den Benutzertest-Daten blanksToTextRatio graphicsToSizeRatio uniqueWordsRatio graphicsWordsRatio stopwordsToTextRatio stopwordsWordsRatio tableToSizeRatio nrPdf nrTagStyle relationTableDomElems Bildet das Relevanz-Urteil die Zielklasse, selektiert der Algorithmus die in Tabelle 11.17 aufgeführten Eigenschaften. Die relevanten Eigenschaften für das Qualitätsurteil und das Relevanzurteil unterscheiden sich stark und lediglich die fett markierte Eigenschaft kommt in beiden Mengen vor. Tabelle 11.17: Durch Feature Selection ausgewählte Eigenschaften aus den Benutzertest-Daten für das Relevanz-Urteil entriesPerListAve imgLinksRatio imgLinksToImgRatio lengthAddress listWordRatio nrLists nrPdf nrTagForm nrTagUL nrTextLayoutTags nrUniqueHTMLColors relationTableDomElems stopwordsWordsRatio trPerTableDev trPerTableMedian nrTagH1 nrTagH2 nrTagH3 nrTagHr nrTagMeta nrTagOl nrTagTable 273 Entwicklung von Qualitätsmodellen Ebenso lässt sich die Korrelation zwischen dem expliziten Qualitätsurteil sowie dem Relevanzurteil der Benutzer und den einzelnen Eigenschaften berechnen. Die höchsten Korrelationen fassen die Tabellen 11.18 und 11.19 zusammen. Fett markierte Eigenschaften sind bereits in den vorherigen selektierten Mengen aus den Benutzertestdaten enthalten. Tabelle 11.18: Korrelation zwischen Eigenschaften und Qualitäts-Urteilen lengthAddress firstTableRowBGCOLOR nrTagTd trPerTableDev nrDOMElems tdPerTableDev -0.091 -0.080 -0.073 -0.070 -0.064 -0.062 nrTagMeta stopwordsWordsRatio firstTableColorRed nrTagTr uniqueWordsRatio nrPdf 0.069 0.069 0.080 -0.067 0.084 0.131 Die Korrelationen sind insgesamt schwach. In Tabelle 11.18 und besonders in Tabelle 11.19 treten stärker grafische Eigenschaften in den Vordergrund. Dies kann als Hinweis dafür gewertet werden, dass grafische Aspekte bei der Bewertung doch eine große Rolle spielen. Tabelle 11.19: Korrelation zwischen Eigenschaften und Relevanz-Urteilen lengthAddress firstTableRowBGCOLOR BGCOLOR textColor sentenceToTextRatio firstTableColorBlue nrUniqueHTMLColors -0,159 -0,078 -0,035 -0,035 -0,031 0,078 0,145 nrPdf imgLinksToImgRatio blanksInText nrWordsPureText uniqueWordsPureText lengthPureText 0,083 0,092 0,103 0,108 0,120 0,120 Das lineare Regressions-Modell auf Basis der Daten des Benutzertest erzielte nur eine geringe Korrelation mit den Qualitätswerten (siehe vorherigen Abschnitt). Einige Eigenschaften erreichen sehr hohe Einflusswerte, die Tabelle 11.20 auflistet. 274 Entwicklung von Qualitätsmodellen Tabelle 11.20: Eigenschaften mit den stärksten Faktoren im linearen Regressionsmodell 0,175 -434,35 0,558 0,376 -0,386 entriesPerListAve graphicsToSizeRatio imgLinksToImgRatio nrtagColGroup nrTagStyle -18,391 -165,086 12,541 -1,041 -94,948 relationTableDomElems stopwordsToTextRatio stopwordsWordsRatio textToSizeRatio relationOutLinksToSize Zwar treten bei den Benutzertestdaten stärker die grafischen Aspekte in den Vordergrund, jedoch taucht kaum eine Eigenschaften mehrfach auf. Überraschenderweise erachten mehrere Verfahren das Verhältnis der Anzahl von Stoppwörtern zur Anzahl der Wörter insgesamt bzw. zur Dateigröße für wichtig. 11.6 Fazit Qualitätsmodelle Ein Clearinghouse oder ein Internet-Katalog bietet für einen Themenbereich eine Sammlung von Links, deren Qualität intellektuell kontrolliert wurde. Eine derartige Liste basiert also sowohl auf einem inhaltlichen Urteil als auch auf einer Aussage zur Qualität. Die Aufnahme entspricht einem Güteurteil und meist einer Einordnung in eine bestimmte Kategorie von Sites. Zwar kann dieses noch heterogen sein, jedoch sind zumindest bestimmte Typen ausgeschlossen. Ein wissenschaftliches Clearinghouse enthält z.B. keine Nachrichtentexte und keine unterhaltenden Seiten. Diese Urteile resultieren aus der subjektiven Einstellung der Bewerter und den pragmatischen Einflussfaktoren zum Zeitpunkt der Bewertung. Ein Qualitätsbewertungssystem soll möglichst aus einer Menge von Internet-Seiten diejenigen erkennen, die zu einem Clearinghouse gehören oder gehören könnten. Dazu braucht es formale Kriterien für die Einordnung von Seiten in ein Clearinghouse. Die Nutzung von Daten aus dem Bestand eines qualitätssichernden Dienstes ist sinnvoll, da dadurch menschliche Informationsarbeit ausgenutzt wird. Diesen Ansatz verfolgen z.B. ZHU & GAUCH 2000 und BUCY ET AL. 1999. Allerdings vergleichen diese Studien diese Dokumente nur untereinander, um innerhalb eines homogenen Korpus zu arbeiten. Durchaus sinnvoll wäre aber die Mischung mit beliebigen anderen Internet-Angeboten, um zu sehen, ob die innerhalb des Angebots gewonnenen Ergebnisse auf andere Dokumente übertragbar sind. Das anhand eines Ausschnittes von Yahoo entwickelte Qualitätsmodell zeigt, dass mittels der extrahierten Parameter eine zufriedenstellende Performanz 275 Entwicklung von Qualitätsmodellen der Klassifizierung erreicht werden kann. Das bereits mehrfach angewandte Prinzip der Wissensextraktion aus Internet-Verzeichnisdiensten wird von AQUAINT aufgegriffen. Während es bisher der Kategorisierung von Angeboten diente, überträgt AQUAINT es auf die Qualitätsbewertung. Die folgende Abbildung 11.7 verdeutlicht dieses Vorgehen. Extraktion von Wissen Thematische Zuordnung Übertragung auf weitere Seiten Qualitätsdefinition Abb. 11.7: Web-Mining in Verzeichnisdiensten Die Qualitätsdefinitionen sollten sich nicht nur in Kriterien niederschlagen, die von einem maschinellen Lernsystem optimal verarbeitet werden. Sinnvoll ist die ergänzende inhaltliche Interpretation der erfassten Eigenschaften auf höheren Abstraktionsebenen. Die Erstellung von Qualitätsmodellen und deren Auswertung ist also möglich, im nächsten Schritt sollen diese für das Information Retrieval nutzbar gemacht werden. Das Qualitätsmodell wird in einem Meta-Suchdienst für Benutzer zugänglich. 276 Vom Information Retrieval zum Qualitäts-Retrieval 12. Vom Information Retrieval zum Qualitäts-Retrieval Die Qualitätsmodelle wurden in eine prototypische Suchmaschine integriert, welche die Ergebnisse verschiedener Internet-Suchmaschinen abfragt, die Ergebnis-Seiten mit dem Qualitätsmodell bewertet und nach Qualität sortiert wieder präsentiert (siehe Abb. 12.1). Das System wurde als Servlet in JAVA implementiert und wird von einer HTML-Benutzerschnittstelle aufgerufen. Die Query wird an eine Suchmaschine weitergeleitet und die Ergebnis-Seiten werden zur Laufzeit mit dem PageProfiler analysiert und an das WEKA-Qualitätsmodell weiter gereicht. Je nach den Qualitätswerten und der gewählten Re-Ranking-Strategie werden die Ergebnis-Seiten dem Benutzer präsentiert. Anfrage Ergebnis InformationsSuchender AQUAINT Suchmaschine -Qualitätsbewertung - Re-ranking Anfrage Kowledge Engineering WEB Ergebnis -URL-Liste -primäres Ranking Suchmaschine -Indexierung -Retrieval Abb. 12.1: AQUAINT Suchmaschine als Meta-Suchdienst Nur die längerfristige Nutzung kann Aufschluss über den erzielten Mehrwert eines Qualitätssystems geben. Deshalb müssen die in kontrollierten Experimente gewonnenen Ergebnisse auf reale Situationen übertragen werden, in denen die Datenmenge nicht eingeschränkt ist. Dies bedeutet für AQUAINT, dass die Evaluierung nicht auf Basis der Trainingsmenge erfolgen, sondern beliebige Internet-Seiten mit einbeziehen sollte. Der Aufwand für die Implementierung eines kompletten Internet-Suchdienstes mit Crawler und Indexierer erfordert einen erheblichen Aufwand an Ressourcen. Deshalb bie277 Vom Information Retrieval zum Qualitäts-Retrieval tet sich die Umsetzung der Qualitätsbewertung im Rahmen eines Filtersystems an, das auf einer bestehenden Suchmaschine aufsetzt. Dabei können die Ergebnisse einer Suchmaschine analysiert werden und die Seiten mit den in anderen Experimenten gewonnenen Verfahren auf Qualität hin untersucht werden. Die von der Suchmaschine gefundenen Seiten sollen anhand eines Qualitätsmodells bewertet und das Ranking der Suchmaschine abhängig von diesem Ergebnis modifiziert werden. Diesen Prozess soll der Benutzer mit Parametern steuern können, so dass die Anwendung und Parametrisierung untersucht werden kann. Der Qualitätsfilter präsentiert nach der Prüfung nur die qualitativ guten Seiten aus dem ursprünglichen Ergebnis einer Suchmaschine. 12.1 Fusion im Information Retrieval Die Parameter einer Qualitätsdefinition sind aus der Sicht des Benutzers unterschiedlich gut geeignet. Die optimale Kombination ist a priori nicht bekannt und zudem vermutlich individuell unterschiedlich. Die Kombination der einzelnen Werte sollte daher flexibel, adaptiv und individualisierbar sein. Die beste Möglichkeit zur Realisierung eines derartigen Systems besteht in einer lernenden Fusion. Bereits beim Einsatz von Autoritätsmaßen tritt dieses Problem auf. Wie lässt sich etwa der PageRank-Wert einer Seite mit der inhaltlichen Ähnlichkeit, also der Retrieval Status Value verschmelzen? Beim Standard-Retrieval dient die Fusion der Integration verschiedener Retrieval Status Values unterschiedlicher Suchalgorithmen. Diese basieren dann meist auf sehr unterschiedlichen Ansätzen, wie etwa einer wort- und einer n-gram-basierten Indexierung. Im XML-Retrieval verschmilzt die Fusion die inhaltliche RSV mit einer Struktur-Bewertung (FUHR & GROßJOHANN 2001). Fusion gewinnt auch im Internet mit dem Aufkommen zahlreicher MetaSuchmaschinen1 wieder an Bedeutung. Dort dient die Fusion in erster Linie der Verbreiterung des Grundbestandes an Dokumenten. Da einzelne Suchmaschinen nur einen Teil der Gesamtheit aller Dokumente im Internet indexieren, hoffen die Betreiber von Metasuchmaschinen durch das Fusionieren mehrerer Ergebnislisten unterschiedlicher search engines eine höhere Abdeckung zu erreichen. Diese Situation simulieren mehrere Ansätze aus dem traditionellen Retrieval, indem sie die Grundmenge oder Kollektion künstlich aufteilen und in jedem Teilkorpus einzeln suchen. Dann fügen sich die 1 http://www.google.com/Top/Computers/Internet/Searching/Metasearch/ 278 Vom Information Retrieval zum Qualitäts-Retrieval Einzelergebnisse nach einem Fusionsansatz wieder zusammen (cf. SAVOY & RASOLOFO 2000). Der Ansatz von OZTEKIN ET AL. 2002 zielt dagegen wie Fusionsansätze im klassischen Retrieval auf eine Verbesserung der Retrieval-Qualität durch die Integration mehrerer Suchmaschinen ab. Neben Interleave oder Round Robin und einem Agreement-Maß, das neben dem Rang auch die Anzahl der Vorkommen eines Dokuments in mehreren Ergebnislisten belohnt, experimentieren die Autoren auch mit inhaltlich definierten Fusionsansätzen. Mit vier Ähnlichkeitsmaßen berechnen die Autoren die inhaltliche Kohärenz der Ergebnislisten. Dadurch erhoffen sie sich vor allem, dass inhaltliche outlier einen niedrigeren Rang erhalten oder gar nicht erst erscheinen. Dazu fassen die Autoren zunächst die zwanzig besten Treffer der einzelnen Suchmaschinen zusammen und berechnen aus den enthaltenen Termen dieser Seiten einen Mittelpunktvektor für diese Menge. Dieser Centroid stellt gewissermaßen das optimale Ergebnis dar. Die endgültige Ergebnisliste enthält die Dokumente in der Rangfolge ihrer Ähnlichkeit zu dem Mittelpunkt-Vektor. Die Ergebnisse von RORVIG 1994 lassen dieses Vorgehen problematisch erscheinen. Demnach liegt die Anfrage etwas von dem Centroid-Vektor der relevantesten Dokumente entfernt. Trotz dieses Einwands und der eher starren Fusion, die den Erfolg einer Maschine nicht langfristig speicherte und auswertete, ergab die Evaluierung, dass diese inhaltlich basierten Fusionsansätze sehr gut abschnitten. Die Evaluierung beruht auf der Suchmaschine Mearf1 und 17000 darin im Realbetrieb gestellten Anfragen. OZTEKIN ET AL. 2002 bewerten die Dokumente als relevant, auf die der Benutzer klickt. Als wichtigstes Maß setzen die Autoren die Position der relevanten Dokumente in der Rangliste. Je weiter oben diese relevanten Dokumente zu liegen kommen, desto besser arbeitet der Fusions- oder Reranking-Ansatz. Dabei erwiesen sich die inhaltlichen Verfahren sowohl gegenüber dem interleave und dem agreement-Maß als überlegen, als auch gegenüber dem unveränderten Ergebnis der Suchmaschine Google. Problematisch stellt sich die rein quantitative Berücksichtigung der Links dar. Möglicherweise stellt ein Klick auf ein Dokument den Benutzer zufrieden und er verlässt die Suche. Dieses Verhalten kann aber auch signalisieren, dass der Benutzer mit diesem Dokument unzufrieden ist, von den weiteren Treffern aufgrund der Kurzanzeige wenig hält und die Suche unzufrieden verlässt. Ebenso kann das Klicken auf mehrere Dokumente verschiedene Gründe haben. Entweder die relevante Information verteilt sich auf mehrere Dokumente 1 http://www-users.cs.umn.edu/~oztekin/mearf/ 279 Vom Information Retrieval zum Qualitäts-Retrieval oder der Benutzer durchsucht vergeblich mehrere Treffer. Zufriedenheit könnte dadurch modelliert werden, ob im Anschluss noch eine weitere, inhaltlich ähnliche Suche gestartet wird oder nicht. Die Verteilung der Relevanz auf ein oder mehrere Dokumente sollte zumindest testweise dadurch modelliert werden, dass der Einfluss jedes Klicks an den Suchen normalisiert wird. Damit hätte jede Suche unabhängig von der Anzahl der bewerteten Dokumente den gleichen Einfluss. Komplexe Fusionsalgorithmen benutzen lineare Kombinationen der Ergebnislisten, wobei jedes Retrieval-System ein Gewicht erhält, oder nicht-lineare Algorithmen aus dem maschinellen Lernen wie etwa boosting. Modelle für adaptive und individualisierbare Information Retrieval-Systeme liegen u.a. mit dem MIMOR-Ansatz (cf. WOMSER-HACKER 1996, siehe Abschnitt 2.3) und dem COSIMIR-Modell (cf. MANDL 2001) vor. Eine lineare Kombination wäre für AQUAINT nur auf heuristische Weise zu erzielen gewesen. Die Suchmaschinen liefern lediglich die Reihenfolge der Treffer zurück und nicht die Ähnlichkeitswerte zwischen Anfrage und Dokument (Retrieval Status Value). Somit konnten lediglich Fusionsverfahren auf Basis der Ränge der Dokumente realisiert werden. Da im Fokus der Entwicklung der Benutzertest zur Evaluierung der Qualitätsbewertung stand, wurde nur das Fusionsverfahren round robin realisiert. Die Ergebnisse der AQUAINT-Qualitäts-Suchmaschine können nach Qualität, in umgekehrter Reihenfolge nach Qualität, im originalen von der Suchmaschine zurückgegebenen Ranking sowie nach round robin fusioniert angezeigt werden. Für einen Einsatz über den Benutzertest hinaus sollte evaluiert werden, inwieweit sich die Benutzer wünschen, den Einfluss der Relevanz- und der Qualitätsbewertung erkennen zu können. Dann wären transparente Fusions-Verfahren angebracht, wie sie der folgende Abschnitt diskutiert. 12.2 Weitere Überlegungen: Transparente Fusion im Qualitäts-Retrieval Die Fusion von mehreren Evidenzen zu einem Endergebnis für den Benutzer muss vor dem Hintergrund des Qualitätsretrieval neu überdacht werden. Das Ranking in AQUAINT basiert auf folgenden Überlegungen, die auch nicht realisierte Aspekte beinhalten. Qualitäts-Retrieval sollte die Funktion von inhaltlicher Ähnlichkeit (Retrieval Status Value, RSV) sowie einer Quality Status Value (QSV) sein. FinalStatusValue(doc, query ) = f ( RSV (doc, query ), QSV (doc, query )) 280 Vom Information Retrieval zum Qualitäts-Retrieval Die Bedeutung von strukturellen Informationen (hier Structure Value, SV) wie etwa im XML-Retrieval soll hier ebenfalls berücksichtigt werden. Diese Bewertung ist enger an die RSV geknüpft, während die Qualitätsbewertung eher selten auf einzelne Teile eines Dokuments angewandt werden wird. Die inhaltliche Ähnlichkeit wird im Folgenden in Abgrenzung zur RSV Similarity (Sim) genannt. Die bedeutende Rolle der Link-Analyse muss in der QSV berücksichtigt werden. Das Qualitätsmodell (Quality Model Value, QMV) kann in realistischen Anwendungen momentan nur mit der Link-Bewertung (Link Model Value, QMV) zusammenwirken. Vereinfacht ergibt sich somit: FiSV = f ( RSV , QSV ) = f ( f ( Sim, SV ), f (QMV , LMV )) Für die QSV bietet sich beispielsweise eine lineare Kombination mit parametrisierbaren Gewichten an: QSV = qmp QMV + lmp LMV qmp Quality Model Parameter lmp Link Model Parameter Interne Strukturinformationen der Dokumente werden in AQUAINT nicht berücksichtigt. Die RSV ergibt sich somit lediglich als die Ähnlichkeit zwischen Anfrage und Dokument. Allerdings sollen diese Ergebnisse von einer Suchmaschine abgefragt werden. Somit ist nicht bekannt, ob etwa schon LinkInformationen in das Ergebnis eingehen. Der Aufbau einer vollständigen Link-Datenbank ist in AQUAINT auch nicht vorgesehen, so dass das endgültige Ergebnis eine Funktion der RSV der Suchmaschine und der für das Dokument relevanten Quality Model Value ist. FiSV AQUAINT = f ( RSVengine , QMV ) Die meisten bisher für die Fusion eingesetzten Verfahren sind wenig transparent. In AQUAINT sollen daher neben der häufig angewandten linearen Kombination, bei der jedes einzelne Ergebnis ein eigenes Gewicht besitzt, zwei transparente Verfahren realisiert werden. Der transparente Filter oder Booster belässt das originale Ergebnis weitgehend. Nach der Qualitätsanalyse und -bewertung wird in der Filter-Funktion ein festgelegter Anteil von Ergebnis-Seiten ausgeblendet, die einen bestimmten Schwellenwert unterschreiten. In der Booster-Funktion werden Dokumente aus den unteren, nicht sichtbaren Positionen auf obere Plätze gehoben, wenn sie bestimmte Qualitätswerte erzielen. 281 Vom Information Retrieval zum Qualitäts-Retrieval RSV QSV 0,91 1 2. Treffer 0,86 1 3. Treffer 0,79 0,2 4. Treffer 0,78 1 5. Treffer 0,73 1 6. Treffer 0,70 1 7. Treffer 0,66 0,1 8. Treffer 0,65 1 9. Treffer 0,59 1 10. Treffer 11. Treffer 0,53 0,51 1 1 Treffer Qualitätsfilter Trefferliste Trefferliste Treffer 1. Treffer RSV QSV 1. Treffer 0,91 0 2. Treffer 0,86 0 31. Treffer 0,43 0,9 4. Treffer 0,78 0 5. Treffer 0,73 0 6. Treffer 0,70 0 7. Treffer 0,34 0 38. Treffer 9. Treffer 0,65 0,59 0,8 0 10. Treffer 11. Treffer 0,53 0,51 0 0 Qualitätsaufwertung Abb. 12.2: Transparenter Filter oder Booster Der zweite transparente Fusions-Ansatz basiert auf dem Round Robin-Verfahren, das schlicht von jeder Liste abwechselnd jeweils ein Dokument in die endgültige Ergebnisliste aufnimmt. Zum einen soll das einfache Prinzip behalten werden, zum anderen sollen aber auch Gewichtungen einzelner Verfahren möglich sein. Dazu tragen stärker gewichtete Verfahren weitere Listen für Round Robin bei. Diese Ergebnislisten können entweder Kopien der ursprünglichen Listen darstellen oder als Variationen mit anderen Parametern erzeugt werden. Anschließend liefert wieder jede Liste abwechselnd ein Dokument an das Endergebnis. Dabei müssen allerdings Regeln für den Umgang mit Doppelungen getroffen werden. 12.3 Systembeschreibung Die AQUAINT-Qualitätssuchmaschine wurde als prototypische Meta-Suchmaschine mit HTML-Benutzungsoberfläche realisiert. Dieses System setzt auf einer Internet-Suchmaschine auf und extrahiert deren Ergebnisse. Die Seiten werden dann mit der QuWob analysiert. Mit dem Eigenschaftsprofil und dem vorab bestimmten Qualitätsmodell als WEKA-Modell-Datei kann dann die Qualität jeder Seite bestimmt werden. Anschließend findet ein ReRanking statt und die Ergebnisse werden in der Qualitäts-Suchmaschine in einer neuen Reihenfolge präsentiert. 282 Vom Information Retrieval zum Qualitäts-Retrieval WEB Suchmaschine Search Result Reader Page Profiler Fusion Qualitätsmodell Internet-Verzeichnisdienst Such-Extraktion von maschine Qualitätsurteilen BOF InformationsSuchender AQUAINT Maschinelles Lernen -Klassifikation -Auswerten des Qualitätswissens Abb. 12.3: Mining der Daten für die Qualitätsmodelle im Rahmen von AQUAINT Die Benutzungsoberfläche wurde in JAVA als Servlet realisiert. Die für den Benutzer sichtbare Maske für die Eingabe lässt sich dann als HTML-Seite implementieren, in der ein Formular integriert ist. Dieses Formular ruft nach Klick auf den Button eine JAVA-Klasse auf und übergibt an diese den eingegebenen Suchbegriff als Parameter. Nach Aufruf der JAVA-Klasse erzeugt diese Output über einen Writer, welcher von den JAVA-Servlet-Klassen über den Web-Server an den WebClient geschickt wird. Enthält dieser Output HTML Code, dann wird dieser im Client dargestellt. Die AQUAINT-Suchmaschine führt zunächst die Suche durch und ruft dazu eine JAVA-Klasse QualitySearch auf und übergibt mehrere Parameter an diese. Dazu zählen der Suchstring, die Datei mit dem zu verwendenden Qualitätsmodell und die Fusions-Methode. Diese Klasse führt die Suche durch, bewertet die gefundenen Seiten anhand des Qualitätsmodells und ordnet sie neu an. Die Qualitätsbewertung der HTML-Seiten erfolgt auf der Basis der durch den PageProfiler extrahierten Eigenschaften der Seiten. Diese werden an das trainierte WEKA-Modell übergeben, das als Datei gespeichert ist. WEKA 283 Vom Information Retrieval zum Qualitäts-Retrieval klassifiziert die Seite mit dem Modell und übergibt einen Wert zwischen Null und Eins. Während des Trainings wurde für die qualitativ guten Seiten Eins als Zielwert gelernt und für die übrigen Seiten Null. Screenshot Qualitätssuchmaschine Abb. 12.4: Benutzungsoberfläche der AQUAINT-Suchmaschine Als Rückgabewert liefert QualitySearch einen geordneten Vektor mit den Ergebnisseiten an die Servlet-Klasse zurück. Diese formatiert die Ergebnisse in wohlgeformtem HTML als Liste, welche dann auf dem Client dargestellt wird (siehe Abbildung 13.1). Die Realisierung als JAVA-Servlet bringt einige Vorteile mit sich: • Das System funktioniert für den Benutzer wie die meisten Web-Anwendungen im Browser und erfordert keinerlei vorherige Konfiguration oder gar Installation. • Das System konnte vollständig in JAVA entwickelt werden und nur die Ausgabe des Ergebnisses erfolgt in einer HTML-Seite. 284 Vom Information Retrieval zum Qualitäts-Retrieval • Die Interaktion zwischen QuWob und der Ausgabe im Servlet ist gekapselt und kann so leicht durch andere Darstellungen ersetzt werden. Die eigentliche Suche wird von einer JAVA-Klasse kontrolliert. Dabei wird eine Ergebnisseite einer Suchmaschine durch Konstruktion einer URL, deren Donwload und Übergabe des Inhalts an ein HTTP-Objekt erzeugt. Die weitere Funktionsweise des SimpleResultReader wurde bereits erläutert (siehe Abschnitt 11.5). Nach Erstellung eines Vektors mit URLs von Ergebnis-Seiten erfolgt ein Download dieser Seiten, die Analyse ihrer Eigenschaften mit dem PageProfiler und anschließend die Bewertung mit dem Qualitätsmodell. Für diese drei Prozesse wird für jede URL ein eigener Thread gestartet, so dass die Downloads parallel erfolgen können und sich die Wartezeit auf die Http-Anfragen nicht summiert. Nach Ablauf des Threads meldet dieser sein Ergebnis an ein Reporting-Objekt. Der Prozess kann nach zwei Bedingungen abgebrochen werden: • Eine parametrisierbare Anzahl von Seiten wurde erfolgreich bewertet. Im Benutzertest wurden 40 Seiten von der Suchmaschine ausgelesen und nach erfolgreicher Bearbeitung von 30 Seiten wurde der Prozess fortgesetzt. • Wird eine maximale Wartezeit überschritten, ohne dass die Mindestzahl von Seiten erfolgreich geladen und bearbeitet wurden, so fährt das System fort. Im Benutzertest waren hier 40 Sekunden eingestellt. In einer Datenstruktur sind nun die URLs, ihre ursprüngliche Position in der Ergebnisliste sowie ihre Qualitätswerte gespeichert. Je nach Fusions- bzw. Sortierkriterium wird die Liste der URLs in einer veränderten Reihenfolge zurückgegeben. Im Testbetrieb und im Benutzertest erwies sich diese Realisierung als stabil und effizient. 12.4 Fazit Qualitäts-Retrieval Das Qualitäts-Retrieval bringt die in Kapitel 11 entwickelten Qualitätsmodelle in einen Anwendungskontext. Die Implementierung der prototypischen Suchmaschine zeigt, dass ein Qualitäts-Retrieval nach dem in AQUAINT ent- 285 Vom Information Retrieval zum Qualitäts-Retrieval wickelten Modell als Meta-Suchmaschine möglich ist und stabil läuft. Nach dem beschriebenen Vorgehen können weitere Dienste neu entwickelt werden. Internet AQUAINT Wissensaquisition Modellerstellung Suchmaschine InternetVerzeichnis Search Result Reader (SRR) Page Collector (PC) Page Profiler (PP) Maschinelles Lernen Qualitätsmodell AQUAINT Suchservice Search Result Reader Page Profiler Fusion Qualitätsmodell BOF Abb. 12.5: Systemübersicht AQUAINT 286 Evaluierung 13. Evaluierung Die Bewertung der Qualität orientiert sich weitgehend an der Evaluierung im Information Retrieval. Abhängig vom Ziel und der Intention des Benutzers müssen kontext- und benutzerabhängig weitere Aspekte der Qualitäts-Definitionen herangezogen werden. Die Vorüberlegungen sowie die Durchführung der Evaluierung zeigte, dass das Qualitätsretrieval auch bei der Evaluierung neue Wege erfordert. 13.1 Vorüberlegungen zur Evaluierung Die aktuellen Evaluierungsstudien gehen weitgehend vom traditionellen Modell einer homogenen Dokumentkollektion aus und bewerten vorwiegend den Vergleich zwischen Dokument und Anfrage. Sie blenden pragmatische Faktoren aus, indem sie einen idealisierten Benutzer einsetzen, der durch die Entscheidungen von Evaluatoren modelliert wird. Zunehmend spielen aber Szenarien mit heterogener Qualität eine Rolle. So gibt es im Rahmen der Text Retrieval Conference (TREC) seit 1999 einen Web Track, bei dem Retrieval aus Internet-Seiten bewertet wird. Dadurch entstehen neue Herausforderungen an die Evaluierungsmethodik. Einige Aspekte des Internets wie die Flüchtigkeit und Dynamik werden ausgeblendet. Wie bereits oben diskutiert, hat der Web Track zu einigen Veränderungen an der TREC Methodologie geführt. Im Web Track werden Dokumente nicht nur binär, sondern dreistufig bewertet und zwar als not relevant, relevant und highly relevant. Darüber hinaus sollen die besten Dokumente genannt werden. Die Entscheidungen über relevant und highly relevant überprüfen zwei weitere Bewerter, die wiederum die besten Dokumente aussuchen (HAWKING 2001:2). Dieser erhebliche Zusatzaufwand zeigt, wie wichtig das Thema Qualität für das Retrieval im Internet ist. Es stellt sich die Frage, ob Systeme bei der Berücksichtigung der Qualität besser abschnitten als bei der reinen Bewertung der Relevanz. Welche Chancen gibt es darüber hinaus, die Leistung von Systemen zur Bewertung von Qualität in Evaluierungsstudien zu integrieren und getrennt von der Relevanz mit zu bewerten? Zunächst müsste analysiert werden, ob Qualitätsaspekte bewusst oder unbewusst bereits eine Rolle bei der Suche oder bei der Bewertung der Ergebnisse spielen. Es ist zu vermuten, dass die relevanten Seiten alle über eine Mindestqualität verfügen, also keine sehr schlechten Seiten als relevant bewertet werden. Eine Stichprobe von Ergeb287 Evaluierung nisseiten könnte mit einem Qualitätsfilter bearbeitet werden. Dann könnte zum einen intellektuell geprüft werden, ob die ausgefilterten Seiten tatsächlich schlechter Qualität sind und weiterhin kann berechnet werden, ob die verbleibenden Seiten eine höhere Precision aufweisen. Ebenso muss überprüft werden, ob bei unterschiedlichen Informationsbedürfnissen unterschiedlich auf hohe oder niedrige Qualität geachtet wird. Für durchzuführende Experimente lassen vor allem die Analysen über die fraktalen Eigenschaften des Internets wichtige Schlüsse zu. So berichten u.a. HUBERMAN ET AL. 1998 und DILL ET AL. 2001, dass zahlreiche quantitative Effekte wie die Verteilung der Anzahl von in- und out-Links nicht nur bei sehr großen Mengen von Webseiten gelten, sondern sich fast identisch auch wesentlich kleineren Umfängen nachweisen lassen. Das bedeutet, dass Experimente auch mit weniger Seiten (etwa 1000 bis 100.000) durchaus sinnvoll sind. Die entwickelte Qualitätssuchmaschine AQUAINT wurde in einem Benutzertest evaluiert. Dabei sollte keine absolute Qualität als Maßstab gesetzt werden, da diese sich als problematisches Konzept erwiesen hat (siehe Abschnitt 4.5). Vielmehr stand die individuelle und subjektive Entscheidung einzelner Benutzer im Zentrum. Somit wurde die Evaluierung als Benutzertest mit Testpersonen angesetzt. Empirisches Vorgehen gilt für die pragmatische Bewertung der Qualität in Informationssystemen als die Methode der Wahl. Diesen Weg gehen einige der bereits vorgestellten fortgeschrittenen Systeme (siehe Kapitel 8) und auch theoretische Überlegungen führen zu dieser Methodenwahl (PRICE & SHANKS 2004). Damit weicht diese Evaluierung vom Cranfield-Paradigma und damit vom Standard-Verfahren im Information Retrieval ab. Eine sinnvolle Bewertung der Qualitätsleistung scheint jedoch im Cranfield-Paradigma nicht möglich. Der Test maß die Leistung der Qualitätssuchmaschine im Vergleich zu anderen Suchmaschinen hinsichtlich der Fähigkeit, qualitativ hochwertige Seiten zu identifizieren. Auch die Retrieval-Leistung wurde mit bewertet. 13.2 Testaufbau und -durchführung Die Benutzungsoberfläche von AQUAINT für den Benutzertest bietet eine Eingabezeile und liefert die Ergebnisse als Liste, wobei für jedes Dokument dessen Position, der HTML-Titel sowie die URL angegeben werden (siehe Abbildung 13.1). Damit ähnelt das System bekannten Suchmaschinen und erfüllt die Erwartungen der Testbenutzer. Diese Gestaltung ermöglicht den Prozess der Qualitätsentscheidung wie ihn RIEH 2002 postuliert (siehe Abschnitt 288 Evaluierung 5.4). Danach geben die Benutzer vorab nach Blick auf die Liste ein vorhersagendes Urteil ab, rufen dann ausgewählte Seiten aus und bewerten diese explizit. Die Testpersonen sollten in Anwesenheit von Testleitern mit der QualitätsSuchmaschine arbeiten und die Ergebnisse mündlich hinsichtlich Relevanz und Qualität bewerten. Die Anfragen, die Ergebnisse sowie die verschiedenen Ranking-Listen wurden vom System in einer Log-Datei gesammelt. Die Testleiter notierten die Bemerkungen und Bewertungen und stellten sie anschließend in Beziehung zu den URLs in der Log-Datei. Somit konnten die Bewertungen und Bemerkungen den Internet-Seiten zugeordnet werden. Abb. 13.1: AQUAINT-Suchmaschine mit Ergebnisanzeige Ein Pre-Test diente der Überprüfung des Testaufbaus und führte zu folgenden Veränderungen: • Die einfache Aufforderung zur Bewertung führte im Pre-Test zu vagen Äußerungen der Benutzer. Als Konsequenz wurde ein Notenschema mit sechs Stufen vorgegeben, um die Benutzer zu konkreten Entscheidungen zu bringen. 289 Evaluierung • Die Unterscheidung zwischen Relevanz und Qualität musste konkretisiert werden. Eine entsprechende Formulierung wurde in den VorabInformationen für die Testpersonen eingefügt. • Für die Qualitätsentscheidung musste mehr Kontext geschaffen, sonst fiel sie den Benutzern schwer. Dazu wurde den Testpersonen mitgeteilt, es ginge in dem Test um die Messung der durchschnittlichen Qualität von Seiten im Internet und dass die besten gefundenen Seiten in einer Linksammlung zusammengefasst werden sollten. Zudem erhielten die Benutzer keine vorgefertigen Anfragen, sondern mussten alle Anfragen selbst erstellen. Durch den kognitiven Aufwand bei der Formulierung hatten sie eher Erwartungen an die Qualität. • Im Pre-Test zeigte sich, dass die extrahierten Titel teilweise wenig aussagekräftig waren und häufig http-Header Status-Informationen enthielten wie „301 Permanently Moved“ Diese wurden durch den Standard „kein Titel“ ersetzt. • Der Umbruch bei Titeln und URLs wurde verbessert. • Bei Nullantworten wurde eine Meldung ergänzt. Im Benutzertest arbeiteten dann 19 Testpersonen mit der Qualitäts-Suchmaschine und stellten jeweils fünf Anfragen. Die Testpersonen waren Studierende der Universität Hildesheim aus den Studiengängen Internationales Informationsmanagement und Informationsmanagement und Informationstechnologie, die über Grundkenntnisse im Information Retrieval verfügten. Die Testpersonen wurden über einen Mailverteiler, Werbung in einer Vorlesung sowie durch persönliche Ansprache gewonnen. Der tatsächliche Grund für den Test und der Hintergrund des Systems AQUAINT war ihnen nicht bekannt. Durchschnittlich verbrachten sie ca. 25 Minuten mit der Qualitäts-Suchmaschine. Als Dank für die Teilnahme erhielten sie ein Fachbuch. Die Testleiter waren studentische Hilfskräfte, welche mit den Hintergründen des Projekts vertraut waren. Die Testpersonen sollten nicht durch die Kenntnis über die verwendeten Algorithmen und Suchmaschinen beeinflusst werden. Der Testaufbau verdeckte daher die zugrunde liegenden Systeme und präsentierte alle Suchergebnisse immer in der gleichen Benutzungsoberfläche. Die Qualitäts-Suchmaschine für den Benutzertest wählte für jede Anfrage zufällig eine Konfiguration aus, welche auch den Testleitern nicht bekannt war. Die Konfigurationen variierten in mehreren Aspekten wie der Basis-Suchmaschine, dem verwendeten Qualitätsmodell sowie dem Ranking-Verfahren. Zufällig 290 Evaluierung wechselte das modifizierte System zwischen dem ursprünglichen Ranking und einer Sortierung nach der Qualitätsbewertung. Auch in den Fällen, in denen das ursprüngliche Ranking der Basis-Suchmaschine angezeigt wurde, bewertete die Qualitäts-Suchmaschine alle Seiten mit dem Qualitätsmodell und erstellte ein Qualitäts-Ranking für die Logdatei. Dadurch eigneten sich auch Anfragen ohne Darstellung des Qualitäts-Ranking für die Auswertung, da sowohl die Benutzerentscheidungen als auch das Qualitäts-Ranking zum Vergleich vorlagen. Zudem dauerten alle Anfragen dadurch ungefähr gleich lang, so dass auch so nicht zu erkennen war, ob ein Qualitäts-Ranking erstellt oder ein einfaches Ranking wiedergegeben wurde. Durch diese Maßnahmen konnte eine Voreingenommenheit der Testpersonen gegenüber irgendeinem System ausgeschlossen werden. Die folgende Tabelle 13.1 zeigt die Ranking-Modelle und Basis-Suchmaschinen, welche im Benutzertest zum Einsatz kamen. Tabelle 13.1: Aufbau Benutzertest Basis-Suchmaschinen Re-Rank-Algorithmen • Lycos.de • Qualitäts-Ranking • Round Robin • Altavista.de • Original-Ranking • Negatives Qualitäts-Ranking 13.3 Ergebnisse: Qualitätsbewertung durch Testpersonen Insgesamt wurden während des Benutzertests 1747 Seiten angezeigt. Davon wurden 404 und damit ca. ein Viertel aller präsentierten Seiten von den Benutzern geöffnet und bewertet. Bei weiteren zwanzig Seiten traten Fehler auf. Bei 95 Anfragen wurden zwischen zwei und neun Seiten bewertet. Im Durchschnitt vergaben die Testpersonen ähnliche Noten für Relevanz und Ähnlichkeit. Der Notendurchschnitt betrug 2,69 beziehungsweise 2,68. Die Standardabweichung war bei der Qualität mit 1,40 etwas niedriger als bei der Relevanz, wo sie 1,64 betrug. Die Noten für die Relevanz streuten also etwas stärker. Die folgenden Tabellen 13.2 und 13.3 zeigen die Häufigkeit der vergebenen Noten für Qualität sowie Relevanz. 291 Evaluierung Tabelle 13.2: Vergebene Qualitätsbewertungen (Schulnoten) 1 2 3 4 5 6 Durchschnitt 87 122 93 50 31 20 2,69 22% 30% 23% 12% 8% 5% Tabelle 13.3: Vergebene Relevanzbewertungen (Schulnoten) 1 2 3 4 5 6 Durchschnitt 60 33 34 18 17 15 2,68 34% 19% 19% 10% 10% 8% Die Verteilung der Noten für Relevanz und Qualität unterscheiden sich, wenn auch nicht entscheidend. Interessanterweise wird die Note 1 Qualität für 50% häufiger vergeben als für Relevanz. Bei Note 2 ist das Verhältnis umgekehrt, wie Abbildung 13.2 zeigt. 40% 35% 30% 25% Qualität Relevanz 20% 15% 10% 5% 0% 1 2 3 4 5 6 Noten Abb. 13.2: Vergleich der Noten für Qualität und Relevanz Die Bewertungen der Qualität und die der Relevanz weisen eine Korrelation mittlerer Stärke von 0,47 auf. 292 Evaluierung Die Testpersonen verhalten sich unterschiedlich sowohl hinsichtlich der Anzahl der Seiten, die sie betrachten, als auch hinsichtlich der vergebenen Noten. Die folgende Tabelle 13.4 weist die Extremwerte in jeder Spalte aus. Die Buchstaben für die Testpersonen verweisen auf zwei Tage, an denen die Tests durchgeführt wurden. Innerhalb der Tage wurden die Personen nummeriert. Tabelle 13.4: Verhalten einzelner Benutzer beim Test Benutzer K1 K2 K4 K5 K6 K7 K8 K9 S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 Durchschnitt Summe Seiten Geöffnet, Nicht Anteil Durchschnittspräsentiert bewertet geöffnet geöffneter note Qualität Seiten 106 87 73 101 118 89 119 88 52 127 93 94 71 69 84 117 71 83 80 19 26 15 25 25 20 23 25 9 25 24 14 19 22 20 23 21 24 25 87 61 58 76 93 69 96 63 43 102 69 80 52 47 64 94 50 59 55 0,18 0,30 0,21 0,25 0,21 0,22 0,19 0,28 0,17 0,20 0,26 0,15 0,27 0,32 0,24 0,20 0,30 0,29 0,31 2,42 2,69 2,50 3,12 2,76 2,80 2,48 2,12 1,78 3,00 2,58 2,07 2,95 3,00 3,05 2,43 3,10 2,46 3,04 90,6 21,3 69,4 0,24 2,42 1722 404 1318 Zwischen dem Anteil der geöffneten Seiten und der durchschnittlich vergebenen Note besteht eine positive Korrelation von 0,54. Diese mittlere Korrelation weist darauf hin, dass Testpersonen, welche mehr der präsentierten Seiten öffnen, auch zu besseren Noten tendieren. Diese Testpersonen scheinen insgesamt gewissermaßen kulanter zu sein. Sie öffnen mehr Seiten und bewerten diese besser. Dies bestätigt die Annahme, dass Qualitätsurteile 293 Evaluierung stark subjektiv geprägt sind. Bei weiteren Tests nach diesem Modell sollte geprüft werden, ob einzelne Benutzer nicht zu sehr abweichen und eventuell die Ergebnisse stark beeinflussen. 100% 90% 80% 70% 6 5 60% 4 50% 3 2 1 40% 30% 20% 10% 0% K1 K2 K4 K5 K6 K7 K8 K9 S1 S10 S11 S2 S3 S4 S5 S6 S7 S8 S9 Testpersonen Abb. 13:4: Qualitätsnoten einzelner Benutzer Der Überblick über die Bewertung durch einzelne Benutzer zeigt, dass schlechte Noten eher selten vergeben werden. Die Noten 1 bis 3 werden von fast allen Testpersonen für über 50% der betrachteten Seiten vergeben. Sehr schlechte Seiten werden also kaum geöffnet. Die folgenden Tabellen 13.5. und 13.6 zeigen die Benotung durch einzelne Benutzer sowie die Benotung für einzelne Aufgaben. Die Standardabweichung der Durchschnittsnoten ist für die Aufgaben mit 0,24 wesentlich geringer als für die Testpersonen, wo sie 0,38 beträgt. Tabelle 13.5: Vergebene Noten für einzelne Aufgaben Aufgabe 1 2 3 4 5 Summe 294 Durchschnittsnote Qualität 3,12 2,60 2,38 2,73 2,53 Qualitätsnoten 1 2 3 4 5 6 13 16 16 18 24 87 20 17 27 31 27 122 27 12 12 18 24 93 13 6 12 8 11 50 7 8 2 10 4 31 10 1 5 4 20 Anzahl geöffneter Seiten 90 60 69 90 94 403 Evaluierung Tabelle 13.6: Vergebene Noten einzelner Benutzer beim Test Benutzer K1 K2 K4 K5 K6 K7 K8 K9 S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 Summe Durchschnittsnote Qualität 2,42 2,69 2,50 3,12 2,76 2,80 2,48 2,12 1,78 3,00 2,58 2,07 2,95 3,00 3,05 2,43 3,10 2,46 3,04 Vergebene Qualitätsnoten 1 2 3 4 5 1 1 3 4 5 9 8 7 7 9 9 11 2 6 7 5 7 5 13 3 5 6 8 5 6 1 5 5 4 3 1 6 7 1 5 3 7 3 4 2 8 4 93 2 3 2 3 6 4 7 5 6 7 7 3 7 6 6 6 4 5 87 3 8 2 10 7 122 5 1 2 1 2 6 2 1 1 1 2 3 50 4 2 4 4 2 5 1 3 31 3 3 2 2 1 2 1 3 20 Anzahl geöffneter Seiten 19 26 14 25 25 20 23 25 9 25 24 14 19 22 20 23 21 24 25 403 13.4 Ergebnisse: Mehrfach angebotene Ergebnis-Seiten Zahlreiche Dokumente wurden mehrfach präsentiert, da die Suchaufgaben für die Testpersonen vorgegeben waren. Dies erlaubt die Analyse des Verhaltens unterschiedlicher Benutzer bei der Präsentation der gleichen Seite. Werden die gleichen Seiten geöffnet und werden ähnliche Bewertungen vergeben? Tatsächlich weichen die Entscheidungen durchaus voneinander ab. Dies rechtfertigt die Betonung der Subjektivität bei der Evaluierung. Durchschnittlich wurde jede vierte der präsentierten Ergebnisseiten geöffnet. Auch bei den Seiten, die mindestens dreimal präsentiert wurden, beträgt der durchschnittliche Anteil 27%. Die Liste der Anteile der geöffneten Seiten weist eine Standardabweichung von 0,25 auf. Die Anteile weichen also stark voneinander ab. Auffällig ist, dass unter den mindestens achtmal präsentierten Seiten 21% von keiner Testperson geöffnet wurden, während die zwei am häufigsten gezeigten Links von einer Mehrheit der Benutzer betrachtet und bewertet wurden. 295 Evaluierung Zwanzig Dokumente wurden mindestens viermal bewertet. Dabei wurden unterschiedliche subjektive Bewertungen abgegeben. Von den zehn mindestens fünfmal bewerteten Dokumenten wurden keines von allen Testpersonen gleich bewertet. Von den zehn viermal bewerteten wurden immerhin drei Dokumente immer gleich bewertet und zwar mit Note 1 oder 2. Die durchschnittliche Standardabweichung zwischen den Bewertungen beträgt etwa eine Notenstufe. Damit sind die Abweichungen in der Qualitätsbewertung in diesem Experiment etwas höher als in der Evaluierung von AMENTO ET AL. 2000, bei der lediglich Seiten aus einem Internet Katalog benutzt wurden. Das Zulassen beliebiger und damit teils möglicherweise qualitativ sehr schlechter Seiten verändert das Ergebnis sehr. 13.5 Qualitative Auswertung der Bemerkungen Die Benutzer waren aufgefordert, während des Tests ihre Bewertungen zu kommentieren. Diese Bemerkungen wurden dann von den Testleitern festgehalten. Dabei ergaben sich insgesamt ca. 250 Äußerungen. Wie aus der theoretischen Diskussion zu erwarten war, bezogen sich die meisten Äußerungen erstens auf die Bereich Design und Layout und zweitens auf den Inhalt. Insgesamt überwogen die Bemerkungen zum ersten Komplex. Dies rechtfertigt auch die Betonung von Design-Aspekten in AQUAINT. Die häufigsten Anmerkungen waren „übersichtlich“ bzw. „unübersichtlich“. In die gleiche Kategorie fallen auch Bemerkungen wie „gutes Layout“, „überfüllt“, „überladen“ oder „zu viel Information“. Neben diesen allgemeinen Aussagen gab es auch etliche Anmerkungen zu einzelnen Gestaltungsdetails. Oft fielen den Benutzern auch Farben und Buntheit auf, was meist negativ bewertet wurde. Gute Farbgestaltung scheint dagegen eher weniger aufzufallen. Lediglich die Anmerkung „dezente Farben“ bewertete die Farbgebung explizit positiv. Auch fehlende Überschriften wurden moniert. Bei den Bemerkungen zum Inhalt fiel besonders auf, dass einige Male gute Linksammlungen positiv bewertet wurden. Die Benutzer ordnen also einer Seite automatisch die Rolle Hub zu und bewerten die Seite positiv, ohne die Links zu überprüfen. Die Quelle einer Seite wurde kaum explizit bewertet. In anderen Tests war dies den Benutzern wichtiger (RIEH 2002). Dementsprechend betrafen auch wenig Äußerungen das Thema Trust: „wirkt vertrauenswürdig“, „Glaubwürdigkeit?“, „seriös?“ In einigen Fällen wurden Seiten mit Werbung negativ bewertet. Auch die Vermutung, es handle sich um subjektiv geprägte Seiten, 296 Evaluierung wurde in Einzelfällen moniert. Dies geschah beispielsweise bei der Seite einer Krankenkasse. 13.6 Ergebnisse: Evaluierung der AQUAINT-Ranking-Funktion Das wichtigste Ziel des Benutzertests bestand in der Bewertung des AQUAINT-Ranking-Verfahrens. Um eine Evaluierung zu ermöglichen, wurde das AQUAINT-Ranking-Verfahren mit einem zufällig erzeugten Ranking und dem ursprünglichen Ranking der jeweiligen Suchmaschine verglichen. Diese drei Varianten wurden für jede Anfrage erzeugt und bewertet. Dies erfolgte unabhängig davon, welches Ranking dem Benutzer präsentiert wurde. Anhand der erfolgten Bewertung konnte berechnet werden, auf welchen Positionen die positiv bewerteten Dokumente in jedem Ranking liegen. Dem Benutzer wurde zusätzlich noch in zufällig ausgewählten Anfragen ein aufsteigendes Ranking nach Qualität präsentiert (negative quality ranking). Dadurch sollte verhindert werden, dass das Qualitäts-Ranking fälschlicherweise zu positiv bewertet wurde. Benutzer öffnen eher Dokumente, welche im Ranking weit vorne stehen. Durch die Umkehrung der Reihenfolge nach der Qualität (negative quality ranking) sollte dieser Effekt abgeschwächt werden. Tatsächlich öffneten die Benutzer tendenziell eher Seiten, die weit vorne im Ranking standen. Bei durchschnittlich 18,4 präsentierten Seiten pro Suche, liegt der durchschnittliche Rang der geöffneten Seiten bei 9,2. Dagegen besteht nur eine sehr schwache Korrelation (0,28) zwischen der Reihenfolge, in der die Seiten betrachtet wurden und dem Qualitätsurteil. Eine Korrelation zwischen der Position einer Seite im Ergebnis und dem Qualitätsurteil besteht nicht. Dies mag zu einem Teil auf das oben beschriebene Verfahren des umgekehrten Qualitäts-Rankings für einige zufällige Suchen zurückzuführen sein. Zur Bewertung der drei Ranking-Verfahren werden in Tabelle 13.7. zunächst die Entscheidungen zum Öffnen einer Seite und die Vergabe der Note 1 für Qualität sowie Relevanz herangezogen. Tabelle 13.7: Vergleich der Ranking-Funktionen Ranking-Verfahren Geöffnet Nach drei Original-Ranking Dokumenten Qualitäts-Ranking Zufälliges Ranking 75 85 34 Qualitätsnote 1 Relevanznote 1 14 13 6 36 33 11 297 Evaluierung Nach fünf Original-Ranking Dokumenten Qualitäts-Ranking Zufälliges Ranking Nach zehn Original-Ranking Dokumenten Qualitäts-Ranking Zufälliges Ranking 112 133 61 183 226 141 23 20 12 29 32 20 48 51 24 71 81 49 Nach zehn Dokumenten ist das Qualitäts-Ranking dem ursprünglichen und dem zufälligen Ranking nach allen drei Maßstäben überlegen. Dagegen ist die Situation bei der Betrachtung weniger Dokumente nicht eindeutig. So zeigt sich das originale Ranking der Suchmaschine nach drei Dokumenten bei zwei Maßstäben überlegen und nach fünf Dokumenten bei einem Maßstab, der Häufigkeit der Vergabe der Qualitätsnote 1. Ein ähnliches Bild ergibt sich bei der weniger strikten Bewertung, die auch die Qualitäts- bzw. Relevanznoten 2 und 3 berücksichtigt. Zählt man die Dokumente mit Mindestnote 1, 2 bzw. 3 für jedes Ergebnis-Ranking, so schneidet das Qualitäts-Ranking nach zehn Dokumenten immer besser ab als das Original-Ranking. Nach fünf Dokumenten ist in manchen Fällen das OriginalRanking überlegen, während das zufällige Ranking nie zu dem besten Ergebnis führt. 298 Evaluierung Tabelle 13.8: Positive Bewertungen für verschiedene Mindestnoten RankingVerfahren Nach fünf Dokumenten OriginalRanking QualitätsRanking Zufälliges Ranking Nach zehn Dokumenten OriginalRanking QualitätsRanking Zufälliges Ranking Bewertung Qualitätsbewertung Relevanzbewertung Note 1 Note 1 bis 2 Note 1 bis 3 Note 1 Note 1 bis 2 Note 1 bis 3 Note 1 Note 1 bis 2 Note 1 bis 3 Note 1 Note 1 bis 2 Note 1 bis 3 Note 1 Note 1 bis 2 Note 1 bis 3 Note 1 Note 1 bis 2 Note 1 bis 3 23 65 94 20 71 110 12 29 47 29 101 154 32 119 185 20 68 114 48 79 92 51 74 96 24 37 47 71 114 143 81 129 167 49 81 109 Die folgende Tabelle 13.9. sortiert die Ergebnisse nach Mindestnote und damit nach der Strenge der Auswertung. Die Ranking-Verfahren sind nach ihrem Abschneiden sortiert. Maßstab ist hier nicht die Anzahl der positiv bewerteten Dokumente insgesamt wie in Tabelle 13.8 sondern die durchschnittliche Präzision über alle Anfragen. Auch hier wird deutlich, dass das Qualitäts-Ranking nach zehn Dokumenten immer zum besten Ergebnis führt. 299 Evaluierung Tabelle 13.9: Durchschnittliche Präzision in den Ergebnismengen Ranking-Verfahren Nach fünf Original-Ranking DokuQualitäts-Ranking menten Note 1 Zufälliges Ranking Note Qualitäts-Ranking 1 bis 2 Original-Ranking Zufälliges Ranking Note Qualitäts-Ranking 1 bis 3 Original-Ranking Zufälliges Ranking Nach zehn Qualitäts-Ranking Doku- Note 1 Original-Ranking menten Zufälliges Ranking Note Qualitäts-Ranking 1 bis 2 Original-Ranking Zufälliges Ranking Note Qualitäts-Ranking 1 bis 3 Original-Ranking Zufälliges Ranking Durchschnittliche Präzision bzgl. Qualität 0,024 0,021 0,013 0,075 0,068 0,031 0,116 0,099 0,049 0,034 0,031 0,021 0,125 0,106 0,072 0,195 0,162 0,120 Ranking-Verfahren Original-Ranking Qualitäts-Ranking Zufälliges Ranking Original-Ranking Qualitäts-Ranking Zufälliges Ranking Qualitäts-Ranking Original-Ranking Zufälliges Ranking Qualitäts-Ranking Original-Ranking Zufälliges Ranking Qualitäts-Ranking Original-Ranking Zufälliges Ranking Qualitäts-Ranking Original-Ranking Zufälliges Ranking Durchschnittliche Präzision bzgl. Relevanz 0,054 0,051 0,025 0,083 0,078 0,039 0,101 0,097 0,049 0,085 0,075 0,052 0,136 0,120 0,085 0,176 0,151 0,115 Vermutlich sind drei bis fünf Dokumente zu wenig für eine statistisch zuverlässig Auswertung. Ein Grund für das bessere Abschneiden des Original-Rankings könnten Heuristiken sein, welche bestimmte Seiten auf vorderste Plätze setzen. Dazu zählt etwa die Kürze der URL. In Suchmaschinen erscheinen häufig Homepages auf dem ersten Platz. Möglicherweise wurde dies in dem Test belohnt. Die Ergebnisse zeigen, dass gestufte Bewertungen kaum zu neuen Erkenntnissen führen und meist nur die Ergebnisse der binären Urteile bestätigen. So schneidet das Qualitäts-Ranking nach zehn Dokumenten bei jeder Mindestnote am besten ab. Binäre Urteile werden seit langem kritisiert. Folglich wurden zum Beispiel in der Evaluierungsinitiative INEX für XML-Retrieval eine vierstufige Bewertung der Relevanz und eine vierstufige Bewertung der Abdeckung eingeführt. Unterschiedliche binäre Betrachtungen der Auswertung fassten einmal die Schnittmenge der höchsten Bewertungen und einmal 300 Evaluierung die zwei höchsten Stufen zusammen (cf. FUHR ET AL. 2003, GÖVERT & KAZAI 2002). Dabei ergaben sich fast identische Ergebnisse für den Systemvergleich. Auch AQUAINT bestätigt, dass der hohe kognitive Aufwand für abgestufte Bewertungen durch die Juroren kaum gerechtfertigt ist. 13.7 Fazit Evaluierung Das vorgestellte System AQUAINT berücksichtigt alle Aspekte des QualitätsRetrieval: die Erstellung der Modelle, die Einbindung in einen Anwendungskontext sowie die Evaluierung. Ziel der Evaluierung der AQUAINT Qualitäts-Suchmaschine war es, die subjektive Wahrnehmung der Qualität der Ergebnis-Seiten eines Retrieval-Prozesses zu untersuchen. Die StandardEvaluierungsmethoden des Information Retrieval stammen aus den ersten Retrieval-Tests mit der Cranfield-Kollektion. Somit spricht man vom Cranfield-Paradigma der Evaluierung, das in den heute veranstalteten Evaluierungsinitiativen angewandt wird (siehe Abschnitt 2.4). Für die Evaluierung des Qualitäts-Retrieval wurden die Methoden der Evaluierung im Information Retrieval aufgegriffen und an einigen Stellen weiterentwickelt. • Die Auswertung berücksichtigt die subjektive Perspektive der individuellen Testperson, da die Wahrnehmung von Qualität sehr stark subjektiv geprägt ist. Diese bereits aus der Forschungsliteratur entwickelte Annahme wurde durch die unterschiedliche Bewertung der Testpersonen bestätigt. Im Gegensatz dazu gehen alle Evaluierungsinitiativen von einer absoluten Relevanz aus, die selbst beim Einsatz von Testpersonen für alle gleich gilt1. • Demnach muss die Bewertung mit Testpersonen während der Interaktion erfolgen und kann nicht nachträglich von Juroren vorgenommen werden. • Die Auswertung beschränkte sich auf sehr kurze Antwortmengen, wie für das Verhalten der Testpersonen im Internet typisch und in Evaluierungen von Web-Retrieval bereits üblich sind (CRASWELL & HAWKING 2002, GRIESBAUM ET AL. 2002, SIGURBJÖRNSSON ET AL. 2005b). Dage- 1 Im Interactive Track von CLEF (iCLEF) werden Experimente mit Benutzungsoberflächen und Testpersonen durchgeführt. Dabei werden jedoch die Relevanz-Bewertungen der Juroren aus dem CLEF ad-hod Track herangezogen (OARD & GONZALO 2004). 301 Evaluierung gen gehen die Evaluierungsinitiativen nach wie vor von Benutzern aus, welche längere Antwortmengen durchsehen1. Die hier dargestellte Adaption der Evaluierungsmethodik für das Qualitätsretrieval hat auch Nachteile. Durch die Berücksichtigung der Subjektivität und die Abkehr von der absoluten Relevanz leidet aus methodischer Sicht die Zuverlässigkeit der statistischen Auswertung. Die quantitative Evaluierung im Information Retrieval rückt angesichts der Betonung der Subjektivität näher zu einer qualitativen Evaluierung. Gleichwohl bleibt die statistische Auswertung nach wie vor möglich und notwendig. Entscheidend ist, dass die theoretischen Überlegungen und die empirischen Ergebnisse keine andere Option lassen und das Beibehalten der Standard-Evaluierung zu unzuverlässigen Ergebnissen führt. Auch gegenüber den im state-of-the-art vorgestellten Ansätzen zur automatischen Qualitätsbewertung (siehe Kapitel 7 und 8) erbringt das System AQUAINT eine methodische Weiterentwicklung. Wichtige Ansätze aus dem state-of-the-art werden in Tabelle 13.10 AQUAINT gegenübergestellt. Tabelle 13.10: Überblick über Ansätze zur Qualitätsbewertung Ansatz BUCY ET AL 1999 ZHU & GAUCH 2000 AMENTO ET AL. 2000 IVORY & HEARST 2002 AQUAINT 1 Korpus Qualitätsurteile Verzeichnisdienst YahooInternetLife Testpersonen Webby Award Umfang Korpus Yahoo, Spam-Liste 32000 Seiten 500 Seiten 20 Sites Qualitätsurteile Usage Daten Experten ca. 1000 Experten Seiten 5400 Experten Seiten Experten, Benutzer Anzahl Parameter 6 6 4 157 120 Korpus für Evaluierung Evaluierung Identisch mit Urteil-Korpus Identisch mit Urteil-Korpus Korrelation Retrieval Identisch mit Retrieval Urteil-Korpus Teils identisch Treffermit Urteilquote Korpus maschnelles Lernen Web Qualität im Kontext Zu Beginn von TREC ging man davon aus, dass bis zu 1000 Dokumente betrachtet werden müssen (cf. WOMSER-HACKER 1997). In CLEF beträgt die sogenannte PoolTiefe, also die Anzahl der Dokumente aus Runs, welche letztendlich intellektuell bewertet werden, dagegen nur noch 60 (BRASCHLER & PETERS 2004). 302 Evaluierung Die wichtigsten innovativen Aspekte von AQUAINT sind folgende: • Die Modell-Erstellung sowie die Evaluierung basieren auf dem gesamten Qualitätsspektrum und nicht nur auf qualitativ hochwertigen Seiten. • Die Modell-Erstellung und die Evaluierung erfolgen mit unterschiedlichen Seiten. • AQUAINT stellt das Information Retrieval im Internet als Anwendungsfall in den Mittelpunkt der Evaluierung. • Primäres Ziel ist nicht die Erhöhung der Relevanz der Such-Ergebnisse, sondern deren qualitative Verbesserung in der subjektiven Wahrnehmung. Damit stellen sowohl das System AQUAINT als auch die hier entwickelte Evaluierungsmethodik eine Weiterentwicklung dar. 303 304 Web Design Mining 14. Web Design Mining Die im Rahmen von AQUAINT extrahierten Eigenschaften von Web-Seiten stellen gewissermaßen „Fingerabdrücke“ des Web-Designs der Seiten dar. Dieses können auch anderweitig genutzt werden. Sowohl die einzelnen Eigenschaften als auch Mengen daraus geben Aufschluss über die Gestaltung, das Design und Layout von Web-Seiten. Die Mensch-Maschine-Interaktion stellt meist Vorschriften für die Gestaltung von Benutzungsoberflächen und bewertet dann einzelne Design-Entwürfe in Benutzertests. Dagegen kann mit den in AQUAINT und anderen Projekten zur automatischen Qualitätsbewertung entwickelten Methoden ein deskriptiver Ansatz für große Mengen von Realisierungen von Design erhoben werden. Bisherige Analysen zum Design beschränken sich meist auf formale Aspekte wie die Verwendung von verschiedenen HTML Versionen und den Anteil von JAVA Script im Web (EVANS & WALKER 2004:377). Structure Mining: Usage Mining: Web Benutzer Site Site Links Site Site Text, pure text, text, pure text, pure text, pure text, text, text, besuchte Links Site Content Mining: Site Design Mining: Site Site Design, Layout, Farben, Schriften, Balance Abb. 14.1: Web Design Mining als Teilbereich des Web Mining 305 Web Design Mining In ersten Web-Design Analysen wurden die Farbverteilung zwischen Seiten aus verschiedenen thematischen Domänen (MANDL & EIBL 2005), die Komplexität von Seiten auf verschiedenen hierarchischen Ebenen von Sites (MANDL 2003) sowie die Struktur von Internet-Katalogen untersucht (MANDL 2002). Damit tritt Web Design Mining als weiterer Aspekt des Web Mining neben Content, Structure und Usage Mining, wie Abbildung 14.1 zeigt. Web-Design-Mining dient der empirischen Analyse der real im Web verwendeten Gestaltungselemente und Designs. Damit können Standards erkannt werden. Interessant ist auch die Verteilung der Design-Parameter im Internet. Folgen auch sie der Potenzgesetz-Verteilung oder liegen hier andere Wahrscheinlichkeitsverteilungen wie etwa die Normalverteilung vor? Diese Analysen können sowohl für thematische Cluster als auch für einzelne Kulturen betrieben werden. Dadurch lassen sich Unterschiede zwischen Themen und Kulturen im Web-Design untersuchen. Ebenso können die Design-Parameter der Visualisierung zugeführt werden und so dem Vergleich von unterschiedlichen Designs dienen. Zum Beispiel können in einem Design-Vektor-Raum aus den extrahierten Eigenschaften die Zentroiden als typischste Web-Designs bestimmt werden. Durch die Darstellung von Sites in 2-D-Karten (EIBL & MANDL 2004), die einen Design-Raum aufspannen, kann der Prozess des kreativen und künstlerischen Web-Design unterstützt werden. Die Auswirkungen der Veränderungen am Code einer Site können in einer 2-D-Karte in Beziehung zu anderen Sites verfolgt werden. Unter Einbeziehung von historischen Daten wie etwa dem Internet-Archive1 lassen sich durch die Analyse von Bewegungen der typischen Vektoren im Design-Raum Tendenzen im Web-Design erkennen. 1 http://www.archive.org 306 Web Design Mining Klassifizierung Autoren Erstellung Indexierung Suchmaschine WEB Extraktion und Anwendung von Wissen zur Qualitätsbewertung Qualitätsbewertung Redakteure Extraktion und Anwendung von KlassifizierungWissen InternetVerzeichnis AQUAINT Qualitätssuchmaschine Interaktion mit Mehrwertdiensten InformationsSuchender Abb. 14.2: AQUAINT im Kontext der Benutzung von Informations-Diensten Einen ersten Ansatz für die Analyse bietet wiederum das WEKA-Paket zum maschinellen Lernen, das einfache Analyse der Daten erlaubt. Wie Abbildung 14.3 zeigt, kann die Häufigkeitsverteilung einer Größe angezeigt werden. Diese Darstellung lässt sich durch Auswahl einer weiteren Größe als Klasse noch verfeinern. 307 Web Design Mining Abb. 14.3: Häufigkeitsverteilung einer Größe (blanksToTextRatio) in WEKA Die Abbildung 14.4 verdeutlicht die Häufigkeitsverteilung des Verhältnisses von Textumfang einer Seite gemessen anhand der Anzahl der Zeichen zu der Dateigröße. Als Klasse wird die Qualität angezeigt (also Spam, Internet-Katalog-Seite oder Suchmaschinen-Ergebnis-Seite). Dabei zeigt sich, dass die Verteilung für die einzelnen Klassen unterschiedlich ist. Wie bereits in Abschnitt 11.5 angesprochen, dienen sowohl die Qualitätsmodelle als auch die Trainingsdaten als Wissensquelle. 308 Web Design Mining Abb. 14.4: Häufigkeitsverteilung einer Größe (textToSizeRatio) abhängig von den Qualitätsklassen –1, 0 und 1 in WEKA Beispielhaft folgen in Tabelle 14.1 hier noch einige Mittelwerte von Eigenschaften für die unterschiedlichen Klassen der Web-Seiten aus dem Datenbestand des AQUAINT-Systems. 309 Web Design Mining Tabelle 14.1: Mittelwerte für unterschiedliche Eigenschaften innerhalb verschiedener Qualitätsklassen Eigenschaft graphicsToSizeRatio imgLinksToSizeRatio stopwordsToTextRatio stopwordsWordsRatio sentenceToTextRatio relationTableDomElems graphicsWordsRatio sentenceDomElemsRatio outLinksWordsRatio imgToTableRatio tdPerTableMedian nrTagTable linkLabelLengthAve nrOutLinks uniqueWordsPureText nrWordsPureText fileSize 0 0,00054 0,00141 0,00510 0,0863 0,01573 0,0275 0,0636 0,219 0,691 2,019 4,778 10,691 8,225 56,43 86,89 150,8 18010 1 0,00038 0,00117 0,00586 0,0974 0,01832 0,01755 0,0366 0,362 0,510 2,359 5,015 4,620 7,194 38,70 93,15 165,1 11860 -1 0,00057 0,00120 0,00375 0,0631 0,0204 0,0160 0,0629 0,334 0,682 3,278 4,741 5,791 9,853 98,82 99,34 215,4 16586 gesamt 0,00049 0,00127 0,00505 0,0847 0,0178 0,0211 0,0536 0,299 0,622 2,448 4,856 7,285 8,243 60,23 92,20 171,6 15418 Es zeigt sich, dass gerade die Klassen teils sehr unterschiedliche Mittelwerte aufweisen. So treten HTML-Tabellen sowohl in den Spam- als auch den Internet-Katalog-Seiten nur etwa halb so häufig auf wie in den Suchmaschinen-Seiten. Auffällig ist auch, dass Spam-Seiten zwar hinsichtlich ihrer Dateigröße nicht größer sind als andere Seiten, aber im Durchschnitt deutlich mehr Text und anteilig weniger Stoppwörter enthalten. Möglicherwiese kann dies auf Täuschungsversuche zurückgeführt werden, bei denen der Betreiber der Seite zahlreiche inhaltstragende Wörter hinzufügt, die an sich nichts mit der Thematik der Seite zu tun haben. Tabelle 14.2: Beziehungen zwischen Eigenschaften Korrelation zwischen Datei Größe Anzahl DOM Elemente nrUnique- nrHTML- lengthuniqueHTMLColors Colors PureText WordsRatio 0,250 0,263 0,353 -0,306 0,522 0,559 0,642 -0,383 nrOutLinks 0,387 0,830 Ein Blick auf die Korrelationen zwischen den Eigenschaften führt auch zu interessanten Einsichten. Die Größe der HTML-Datei korreliert schwach (0,353) mit der Länge des Textes. Dies war zu erwarten, unerwarteterweise 310 Web Design Mining allerdings ist die Korrelation zwischen Textlänge und der Anzahl der DOMElemente mit 0,642 mittelstark und damit höher als die zur Dateigröße. Ebenso ist die positive Korrelation zwischen Dateigröße und der Anzahl der HTML-Tags mit Farbangaben und der Anzahl der ausgehenden Links schwächer als die jeweils positive Korrelation zur Anzahl der DOMElemente. Dieses Strukturmerkmal scheint also bedeutender zu sein als die reine Dateigröße. 311 312 Ausblick 15. Ausblick Mit der Evaluierung des ersten Prototypen von AQUAINT öffnen sich zahlreiche Perspektiven für die weitere Entwicklung des Qualitäts-Retrieval und dessen Evaluierung. Eine zuverlässige Definition von Qualität kann nur durch die Kombination mehrerer Kriterien sowie durch die Berücksichtigung von Kontext hinsichtlich Domäne und Kultur erreicht werden. Weitere Eigenschaften sollten in Zukunft entwickelt und hinzugezogen werden. Ebenso sind die Erstellung weiterer Modelle in anderen Domänen und deren Evaluierung sinnvoll. Die Qualität hängt letztendlich vom Benutzer ab. Wie in Abschnitt 5.5 erläutert, stehen dafür verschiedene Wissensquellen zur Verfügung. Dazu zählen die Auswahl für ein qualitätskontrolliertes Angebot wie ein Clearinghouse, das Setzen von Links und Nutzungsdaten. Weitere Anstrengungen zur Integration weiterer Wissensquellen als der in AQUAINT genutzten sind erforderlich. Das Qualitätsmodell kann neben der Verbesserung des Ranking noch anderweitig im Information Retrieval-Prozess eingesetzt werden wie bereits oben in Abbildung 11.2 gezeigt. • Steuerung des Crawling • Bewertung von Quellen • Überprüfung von menschlicher Qualitätsbewertung • Einfluss auf die Ähnlichkeitsberechnung beim Retrieval • Filter während des Retrieval Dabei geht es nicht ausschließlich um das Suchen von drei Modellen, von denen jedes eines der gemessenen Phänomene möglichst optimal wiedergeben kann. Vielmehr gibt jede der drei wichtigen messbaren Größen ein eingeschränktes Bild von der tatsächlich wahrgenommenen Qualität. Deshalb muss ein Modell gesucht werden, das alle Aspekte möglichst gut wiedergibt und das damit eine höhere Validität besitzt. 313 Ausblick Dabei handelt es sich nicht um eine Fusion wie im Information Retrieval (siehe Abschnitt 2.3), da nicht mehrere Verfahren kombiniert werden, sondern gleichzeitig mehrere Lernziele in Einklang gebracht werden müssen. Trotzdem sollten in diesem Zusammenhang Strategien für das Trainieren von sogenannten Committee Machines beachtet werden. Bei kombinierten Lernverfahren werden die einzelnen Algorithmen nicht in höchstem Maße optimiert, sondern der Lernprozess wird nach einer ersten Konvergenz früh abgebrochen. In der Kombination erzielen solche weniger optimierten Systeme insgesamt ein besseres Ergebnis (cf. HAYKIN 1999:351 ff.). Die Evaluierung von AQUAINT hat bereits gezeigt, dass sich die Methodik weiter entwickeln muss. Ebenso muss sich die Evaluierung auf weitere Aspekte des Informationsprozesses beziehen. Das Informationsverhalten vor dem Hintergrund der automatischen Qualitätsabschätzung sollte holistisch analysiert werden, wobei folgende Fragestellungen exemplarisch sind: • Wie verhalten sich Benutzer gegenüber der Qualität von Information und Qualitäts-Suchdiensten? • Verlaufen Informationsprozesse bei qualitativ hochwertigen Seiten anders? • Werden Qualitäts-Suchdienste akzeptiert und wird ihnen Vertrauen entgegen gebracht? Die Kultur eines Benutzers spielt beim Einsatz von Informationssystemen eine erhebliche Rolle. Gerade die Bewertung von Qualität unterliegt kulturellen Einflüssen. So zeigt etwa eine Analyse von Kriterienlisten sowie eine Benutzerbefragung nach für sie wichtigen Produkt-Eigenschaften bei InternetSeiten starke kulturelle Unterschiede (DE LA CRUZ 2003). Der folgende Überblick zeigt einige der in AQUAINT behandelten Themen und dazu die jeweils interessanten interkulturellen Aspekte. Besonders vielversprechend ist der Vergleich von Qualitätsmodellen aus unterschiedlichen Kulturen. Die dunkel hinterlegten Aspekte sind bisher noch nicht bearbeitet worden. 314 Ausblick Tabelle 15.1: Forschungsfelder im Bereich Qualität und Interkulturalität Gegenstand Qualitäts-Aspekte Interkulturelle Aspekte Web-Mining Link-Analyse Verteilungen von Eigenschaften Internet-Kataloge Aufbau und Struktur Internet-Kataloge Aufbau und Struktur Konsistenz von Qualitätsdefinitionen In-Links und InternetKataloge Unterschiedliche Abweichungen? (Machtdistanz) Übertragung von Qualtätsdefinitionen Mehrdimensionale Kriterien auf hoher Abstraktionsebene Integration mehrerer Perspektiven Unterschiedliche Qualitätskriterien? QualitätsSuchmaschine Implementierung QualitätsSuchmaschine Unterschiedliche Bedürfnisse und unterschiedliches Nutzungsverhalten? Architektur von Qualitätsdiensten In geringem Umfang ist sogar die zeitliche Entwicklung der Qualitätsaspekte möglich, da einige frei zugänglich Services Internet-Seiten archivieren1. Weiterhin wäre es interessant, die Verteilung von Internet-Angeboten auf qualitativ gute und weniger gute zu messen. Als wichtiges Thema im Web-Mining gilt Resource Discovery, womit meist das zielgerichtete Crawling nach thematisch zusammenhängenden Seiten gemeint ist. Mit Hilfe der Qualitätsbewertung von AQUAINT können so gewonnene Seiten überprüft und nur bei hinreichender Qualität aufgenommen werden. Somit entstehen Qualitätsressourcen zu bestimmten Themen, die durch inhaltliches Clustering noch zusätzlich thematisch geordnet werden können. 1 http://www.archive.org 315 Fazit 316 Fazit 16. Fazit Die automatische Bewertung der Qualität von Dokumenten stellt ein relativ neues Forschungsgebiet dar, das von Benutzern bisher kaum als Problem betrachtet wird. Das starke Wachstum des Internet und die große Heterogenität der darin enthaltenen Daten gibt der Forschung in diesem Bereich starke Impulse. Diese Entwicklungstendenzen werden auch dazu führen, dass die automatische Bewertung der Qualität von Internet-Seiten auf mittlere Sicht entscheidende Wichtigkeit gewinnen wird. Die für automatische Bewertung der Qualität eingesetzten Technologien müssen die Vagheit und Kontextabhängigkeit des Qualitätsbegriffs berücksichtigen, wenn sie Erfolg haben wollen. Qualität kann sehr unterschiedlich definiert werden. Abhängig vom Anwendungsgebiet der Seite, dem Interesse des Benutzers und des aktuellen Kontexts eignen sich verschiedene formale Eigenschaften der Seiten für die Vorhersage der Qualität. AQUAINT greift experimentelle Verfahren der letzten Jahre zur Qualitätsbewertung im Internet auf und führt die Entwicklungslinie konsequent weiter. Das vorrangige Ziel besteht in der Erstellung eines Modells für Qualität, das auf menschlichen Urteilen beruht und diese weitgehend wiedergibt. Ein derartiges Modell muss mehrere Aspekte von Qualität integrieren und zumindest sowohl auf die Autorität als auch die Gebrauchstauglichkeit abzielen. Wie in anderen Projekten erfolgt eine formale Analyse der Seiten nach insgesamt ca. 110 unterschiedlichen Kriterien, die sich automatisch erkennen lassen. Dabei wurden sowohl aus der Literatur bekannte Kriterien mit einbezogen als auch eigene, komplexe Kriterien entwickelt. Eine geringe Rolle spielte der Inhalt einer Seite, während die Analyse des HTMLQuellcodes im Zentrum stand. Diese Fokussierung hatte mehrere Gründe: • Inhalt und Darstellung sind im Internet sehr eng verbunden. Die Bewertung des Inhalts kann daher selten von dessen Darstellung getrennt werden. • Die subjektive Bewertung von Internet-Seiten durch den Benutzer hängt in hohem Maße von visuellen Eindrücken ab. Diese lassen sich aus der Struktur der Seite ableiten. • Der gleiche Inhalt kann bei unterschiedlicher Darstellung und Präsentation stark unterschiedlich gut benutzbar sein. Die Gebrauchstauglichkeit oder Benutzbarkeit stellt einen wichtigen Faktor 317 Fazit der Qualität dar und zu dessen automatischer Bewertung liegen erste Ansätze vor, die oben erläutert wurden. Die Benutzbarkeit offenbart sich zu einem Teil in der Präsentation. Die Anteile graphischer Inhalte, die Ausgewogenheit sowie die Überladenheit oder Klarheit und Einfachheit einer Seite lassen sich an dem HTML-Quellcode ablesen. Zu einem Teil gelingt dies auch automatisch. Anders als in anderen Projekten (AMENTO ET AL. 2000, CHI ET A. 2003, IVORY & HEARST 2002, ZHU & GAUCH 2000), stehen in AQUAINT sowohl als Ausgangsdaten als auch in der Evaluierung subjektive, menschliche Qualitätsurteile im Zentrum. In AQUAINT besteht der Test-Korpus nicht nur aus einer bereits qualitativ vorbewerteten Menge von Seiten, sondern auch zufällig gewählte, möglicherweise sehr schlechte Seiten werden sowohl bei der Modell-Erstellung als auch beim Benutzertest integriert. Als erstes System stellt AQUAINT Information Retrieval im Internet als Anwendungsfall in den Mittelpunkt und will vor allem die subjektive Qualitätswahrnehmung untersuchen und die Such-Ergebnisse qualitativ verbessern. Damit leistet AQUAINT auch eine methodische Weiterentwicklung. Aus der Perspektive der Evaluierungsmethodik im Information Retrieval beschreitet AQUAINT mit der entwickelten Methode ebenso neue Wege. Im Information Retrieval herrscht das sogenannte Cranfield-Paradigma vor, wonach die Relevanzbewertung objektivierbar ist und von Experten übernommen werden kann (PETERS ET AL. 2004, VOORHEES & HARMAN 2000, WOMSER-HACKER 1997). Dagegen geht AQUAINT davon aus, dass die Qualitätsbewertung stark subjektiv geprägt ist und die Evaluierung dementsprechend aufgrund der individuellen Bewertungen erfolgen muss. Systeme zur automatischen Qualitätsbewertung sollen keineswegs eine digitale Zensur realisieren, welche den Benutzern einen von den Entwicklern vertretenen Qualitätsbegriff aufzwingt. Vielmehr dienen sie v.a. dazu, Suchdienste zu verbessern, die momentan die Übereinstimmung zwischen Anfrage und Dokumenten fast ausschließlich auf inhaltlicher Ebene prüfen. Einbeziehung der Güte und die Beschränkung auf adäquate Kategorien kann die Orientierung für Benutzer eventuell erheblich erleichtern. Gleichwohl entstehen durch die automatische Qualitätsbewertung ethische Probleme, die heute noch nicht alle absehbar sind. Die letztendliche Qualitätsentscheidung bleibt alleine dem Menschen überlassen, oder anders formuliert, vor dieser Aufgabe kann sich der Benutzer nicht drücken. Er muss Wissensobjekte kritisch rezipieren und Texte im Internet lesen, bevor er sie möglicherweise für weitreichende Entscheidungen 318 Fazit einsetzt. Der durchschnittliche Benutzer wird sich mit den Details der Qualitätsbewertung nie befassen, auch wenn sie für ihn erhebliche Auswirkungen hat. Bereits wesentlich einfachere Funktionsweisen wie linguistische Vorverarbeitung versteht die Mehrzahl der Anwender nicht oder interpretiert sie völlig falsch. Dies zeigen etwa Untersuchungen zu mentalen Modellen, welche Benutzer von Suchmaschinen bilden (MURAMATSU & PRATT 2001)1. Trotzdem vertrauen Benutzer den Internet-Suchmaschinen und ihren Ergebnissen in hohem Maße, ja viele stehen ihnen völlig unkritisch gegenüber (GRAHAM & METAXAS 2003). Um so wichtiger ist der verantwortungsvolle Einsatz von derartigen Technologien bzw. die Konkurrenz zwischen den Anbietern von Suchdienstleistungen, so dass Benutzer auch in Zukunft auswählen können. 1 Sehr drastisch formuliert dies Chris Sherman: „The vast majority of searchers say they are confident about their searching skills and are successful at finding what they're looking for far more often than not, yet most don't understand how search engines work or present results.“ (http://searchenginewatch.com/searchday/article.php/3462911) 319 320 Literaturverzeichnis 17. Literaturverzeichnis AAS, K.; EIKVIL, L. (1999): Text Categorization: a Survey. Report Nr. 941. Norwegian Computing Center. Juni 1999. http://citeseer.nj.nec.com/aas99text.html (verifiziert am 15.06.2004) ABITEBOUL, Serge; PREDA, Mihai; COBENA, Gregory (2003): Adaptive On-Line Page Importance Computation. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 280-290. http://www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html (verifiziert am 09.09.2003) ADAMIC, Lada; HUBERMAN, Bernardo (2001): The Web’s Hidden Order. In: Communications of the ACM, vol. 44 (9) S. 55-59. AGICHTEIN, Eugene; GRAVANO, Luis (2000): Snowball: Extracting Relations from Large Plain-Text Collections. In: Proceedings of the ACM Conference on Digital Libraries 2000, San Antonio, USA. S. 85-94. AGICHTEIN, Eugene; LAWRENCE, Steve; GRAVANO, Luis (2001): Learning Search Engine Specific Query Transformations for Question Answering. In: Proceedings of the Tenth International World Wide Web Conference (WWW10), Hong Kong. 1-5.Mai. http://www.cs.columbia.edu/~eugene/papers/www10.pdf (verifiziert am 28.04.2004) AGRAWAL, Rakesh; RAJAGOPALAN, Sridhar; RAMAKRISHNAN, Srikant; XU, Yirong (2003): Mining Newsgroups Using Networks Arising From Social Behavior. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 529-535. http://www2003.org/cdrom/papers/refereed/p688/688-agrawal/index.html (verifiziert am 09.09.2003) AMENTO, Brian; TERVEEN, Loren; HILL, Will (2000): Does ”Authority” Mean Quality? Predicting Expert Quality Ratings of Web Documents. In: Proceedings of the Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR 2000), Athen. S. 296-303. ARASU, Arvind; CHO, Junghoo; GARCIA-MOLINA, Hector; PAEPCKE, Andreas; RAGHAVAN, Sriram (2001): Searching the Web. In: ACM Transactions on Internet Technology vol. 1 (1) S. 2–43. ARTEMENKO, Olga; SHRAMKO, Margaryta (2005): Implementierung eines Sprachidentifikations-Systems für mono- und multi-linguale Dokumente. Erscheint in: MANDL, Thomas; WOMSER-HACKER, Christa (Hrsg.) Proceedings Vierter Hildesheimer Information Retrieval und Evaluierungsworkshop (HIER 2005) Hildesheim, 20.7.2005. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft] BAEZA-YATES, Ricardo; POBLETE Barbara (2003): Evolution of the Web Structure. In: Poster Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. http://www2003.org/cdrom/papers/poster/p103/p103-baeza-yates/p103-baezayates.html (verifiziert am 09.09.2003) 321 Literaturverzeichnis BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier (Hrsg.)(1999): Modern Information Retrieval. Addison-Wesley. BAIER, Tobias; WEINREICH, Harald; WOLLENWEBER, Frank (2004): Verbesserung von Social Navigation durch Identitätsmanagement. In: KEIL-SLAWIK, Reinhard ; SELKE, Harald; SZWILLUS, Gerd (Hrsg.): Mensch & Computer 2004: Allgegenwärtige Interaktion. München & Wien: Oldenbourg. S. 189-198. BALL, Rafael; TUNGER, Dirk (2005): Bibliometrische Analysen – Daten, Fakten und Methoden. Schriften des Forschungszentrums Jülich [Bibliothek, Library 12] BARABÁSI, Albert-László (2002): Linked: The New Science of Networks. Cambridge: Perseus. BARTEL, Torsten (2002): Verbesserung der Usability von WebSites auf der Basis von Web Styleguides, Usability Testing und Logfile-Analysen. Magisterarbeit, Universität Hildesheim. WiKu-Verlag. BAUER, Ingmar (2003): Linkbasierte Rankingverfahren in Internet-Suchmaschinen. Diplomarbeit Universität Leipzig. BECK, Susan (1997): Evaluation Criteria: The Good, The Bad & The Ugly: or, Why It’s a Good Idea to Evaluate Web Sources. http://lib.nmsu.edu/instruction/evalcrit.html (verifiziert am 15.06.2004) BELCHER, Martin; PLACE, Emma (2000): People Power and the Semantic Web: Building Quality Controlled Portals. In: Proceedings on the Ninth International World Wide Web Conference (WWW9). http://www9.org/final-posters/poster64.html (verifiziert am 09.09.2003) BELKIN, Rik (2000): Finding out about: a Cognitive Perspective on Search Engine Technology and the WWW. Cambridge et al.: Cambridge University Press. BERLEANT, Daniel (2000): Does Typography Affect Proposal Assessment? In: Communications of the ACM, vol.43 (8) S. 24-25. http://tc.eserver.org/19908.html (verifiziert am 15.06.2004) BERNERS-LEE, Tim (1998): Semantic Web Road Map, September 1998. http://www.w3.org/DesignIssues/Semantic.html (verifiziert am 16.08.2004) BERRY, Michael (2004) (Hrsg.): Survey of Text Mining: Clustering, Classification and Retrieval. New York et al: Springer. BHATTI, Nina; BOUCH, Anna; KUCHINSKY, Allan (2000): Integrating User-Perceived Quality into Web Server Design. In: Proceedings on the Ninth International World Wide Web Conference (WWW9). http://www9.org/w9cdrom/92/92.html (verifiziert am 23.10.2000) BLOOD, Rebecca (2002): Introduction. In: PERSEUS PUBLISHING (ed.): We `ve got blog: how weblogs are changing our culture. BORGES, José; LEVENE, Mark (2000): Data Mining of User Navigation Patterns. In: MASAND & SPILIOPOULOU 2000. S. 92-111. BORODIN, Allan; ROBERTS, Gareth; ROSENDAHL, Jeffrey; TSAPARES, Panyiotis (2001): Finding Authorities and Hubs from Link Structure on the World Wide Web. In: Proceedings of the Tenth International World Wide Web Conference (WWW 10). http://www.www10.org/cdrom/papers/314 (verifiziert am 20.8.2002) BOSE, Nirmal; LIANG, Ping (1996): Neural Network Fundamentals with Graphs, Algorithms, and Applications. New York et al.: McGraw-Hill. 322 Literaturverzeichnis BOTAFOGO, Rodrigo; RIVLIN, Ehud; SHNEIDERMAN, Ben (1992): Structural Analysis of Hypertexts: Identifying Hierarchies and Useful Metrics. In: ACM Transactions on Information Systems, vol. 10 (2) S. 142-180. BOUCH, Anna; KUCHINSKY, Allan; BHATTI, Nina (2000): Quality is in the Eye of the Beholder: Meeting Users’ Requirements for Internet Quality Service. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘00), Amsterdam, Niederlande. April 2000. S.297-304. BOWERS; Neil (1996): Weblint: Quality Assurance for the World-Wide Web. In: Proc. of the Fifth International World Wide Web Conference (WWW5). http://www5conf.inria.fr/fich_html/papers/P34/Overview.html (verifiziert am 20.08.2002) BRAJNIK, Giorgio (2000): Towards Valid Quality Models for Websites. In: Proceedings of the Sixth Conference on Human Factors and the Web (HFWEB), Austin, USA. http://www.tri.sbc.com/hfweb/brajnik/hfweb-brajnik.html (verifiziert am 09.09.2003) BRAJNIK, Giorgio (2001): Towards Valid Quality Models for Websites. In: Proceedings of the Seventh Conference on Human Factors and the Web (HFWEB). http://www.dimi.uniud.it/~giorgio/papers/hfweb01.html (verifiziert am 09.09.2003) BRASCHLER, Martin; PETERS, Carol (2004): CLEF 2003 Methodology and Metrics. In: PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.): Comparative Evaluation of Multilingual Information Access Systems: 4th Workshop of the Cross-Language Evaluation Forum, CLEF 2003, Trondheim, Norway, August 21-22, 2003, Revised Selected Papers. Berlin et al.: Springer [LNCS 3237] S. 7-20 BREWINGTON, Brian; CYBENKO, George (2000): How Dynamic is the Web? In: Proceedings of the Ninth International World Wide Web Conference (WWW 9). http://www9.org/w9cdrom/92/92.html (verifiziert am 13.8.2002) BRIN, Sergey; PAGE, Lawrence (1998): The Anatonomy of a Large-Scale Hypertextual Web Search Engine. In: Proceedings on the Seventh International World Wide Web Conference (WWW 7). http://decweb.ethz.ch/WWW7/00/ (verifiziert am 04.03. 2004) BRINCK, Tom; GERGLE, Darren; WOOD, Scott (2002): Designing Web Sites that Work. Usability for the Web. Morgan Kaufman: San Francisco. BRODER, Andrei; KUMAR, Ravi; MAGHOUL, Farzin; RAGHAVAN, Prabhakar; RAJAGOPALAN, Sridhar; STATA, Raymie; TOMKINS, Andrew; WIENER, Janet (2000): Graph Structure of the Web. In: Proceedings of the Ninth International World Wide Web Conference (WWW 9). http://www9.org/w9cdrom/160/160.html (verifiziert am 09. 09.2003) BRODER, Andrei; NAJORK, Marc; WIENER, Janet (2003): Efficient URL Caching for World Wide Web Crawling. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 679-689. http://www2003.org/cdrom/papers/refereed/p096/p96-broder.html (verifiziert am 09.09.2003) BUCKLEY, Chris; VOORHEES, Ellen (2002): The Effect of Topic Set Size on Retrieval Experiment Error. In Proceedings of the Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR ‘02) Tampere, Finland, Aug. 11-15. S. 316-323. 323 Literaturverzeichnis BUCY, Erik P.; LANG, Annie; POTTER, Robert F.; GRABE, Maria E. (1999): Formal Features of Cyberspace: Relationships between Web Page Complexity and Site Traffic. In: Journal of the American Society for Information Science, vol. 50 (13) S. 1246-1256. BÜRLIMANN, Martin (2001): Web Promotion: Professionelle Werbung im Internet. St Gallen & Zürich: Midas BUN, Khoo Khyou; ISHIZUKA, Mitsuru (2001): Emerging Topic Tracking System. In: ZHONG ET AL. 2001. S. 125-130. CAPPIELLO, Cinzia; FRANCALANCI, Chiara; PERNICI, Barbara (2004): Data quality assessment from the user´s perspective. In: Proceedings Workshop on Information Quality in Information Systems (IQIS). Paris, Frankreich. S. 68-73. CHAFFEY, Dave; MAYER, Richard; JOHNSTON, Kevin; ELLIS-CHADWICK, Fiona (2000): Internet Marketing; Strategy, Implementation and Practice. München: Pearson Studium. CHAK, Andrew (2000): Usability Tools: A Useful Start. In: New Architect, Nr. 8. http://www.newarchitectmag.com/archives/2000/08/stratrevu/ (verifiziert am 04.03.2004) CHAKRABARTI, Soumen; DOM, Byron; RAGHAVAN, Prabhakar; RAJAGOPALAN, Sridhar; GIBSON, David; KLEINBERG, Jon (1997): Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text. In: Proceedings of the Seventh International World Wide Web Conference (WWW7). http://decweb.ethz.ch/WWW7/1898/com1898.htm (verifiziert am 20.11.2001) CHAKRABARTI, Soumen; DOM, Byron; AGRAWAL, Rakesh; RAGHAVAN, Prabhakar (1998): Scalable Feature Selection, Classification and Signature Generation for Organizing Large Text Databases into Hierarchical Topic Taxonomies. In: The VLDB Journal, vol. 7. S. 163–178. CHAKRABARTI, Soumen; JOSHI, Mukul; PUNERA, Kunal; PENNOCK, David (2002): The Structure of Broad Topics on the Web. In: Proceedings of the Eleventh International World Wide Web Conference (WWW 2002), Honolulu, Hawaii. 7.-11.Mai. http://www2002.org/CDROM/refereed/338/ (verifiziert am 15.06.2004) CHAN, Philip (2000): Constructing Web User Profiles: A Non-invasive Learning Approach. In: MASAND & SPILIOPOULOU 2000. S. 39-55. CHEN, Zheng; LIU, Shengping; WEBYIN, Liu; PU, Geguang; MA, Wei-Ying (2003): Building a Web Thesaurus from Web Link Structure. In: Proceedings of the 26th Annual International ACM SIGIR Conference (SIGIR 2003) Toronto. Juli 2003. S. 48-55. http://research.microsoft.com/~zhengc/papers/p14325-chen.pdf (verifiziert am 11.05.2004) CHI, Ed H.; PITKOW, James; MACKINLAY, Jock; PIROLLI, Peter, GOSSWEILER, Rich; CARD, Stuart K. (1998): Visualizing the Evolution of Web Ecologies. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘ 98), Los Angeles, USA. S. 400-407 CHI Ed H.; PIROLLI, Peter; PITKOW, James (2000): The Scent of a Site: A System for Analyzing and Predicting Information Scent, Usage, and Usability of a Web Site. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘00), Amsterdam. April 2000. S. 161-168. CHI, Ed. H.; ROSIEN, Adam; SUPATTANASIRI, Gesara; WILIAMS, Amanda; ROYER, Christiaan; CHOW, Celia; ROBLES, Erics; DALAL, Brinda; CHEN, Julie; COUSINS, 324 Literaturverzeichnis Steve (2003): The Bloodhound Project: Usability Issues Using the InfoScentTM Simulator. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ´03), Ft. Lauderdale, USA. S. 505-512. CHIEN, Steve; DWORK, Cynthia; KUMAR, Ravi; SIVAKUMAR, D. (2001): Towards Exploiting Link Evolution. In: Proceedings of the Workshop on Algorithms and Models for the Web Graph. http://citeseer.ist.psu.edu/chien01towards.html (verifiziert am 21.05.2004). CHOO, Chun Wei; DETLOR, Brian; TURNBULL, Don (2000): Web Work: Information Seeking and Knowledge Work on the World Wide Web. Kluwer: Dordrecht et al. CONSTANTOPOULOS, Panos; SOLVBERG, Ingeborg (Hrsg.): Fifth European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001), Darmstadt, Sept. 4.-8. Berlin et al.: Springer [Lecture Notes in Computer Science 2163]. COOKE, Alison (1999): Authoritative Guide to Evaluating Information on the Internet. New York & London: Neal-Schuman. COOLEY, R.; MOBASHER, B.; SRIVASTAVA, J. (1997): Web Mining: Information and Pattern Discovery on the World Wide Web. In: Proceedings of the Ninth IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97). http://maya.cs.depaul.edu/~mobasher/webminer/survey/survey.html (verifiziert am 21.05.2004) COOLEY, Robert; TAN, Pang-Ning; SRIVASTAVA, Jaideep (2000): Discovery of Interesting usage Patterns from Web Data. In: MASAND & SPILIOPOULOU 2000. S. 163-182. CRASWELL, Nick; HAWKING, David (2002): Overview of the TREC-2002 Web Track. In: VOORHEES & BUCKLAND 2002. DE LA CRUZ, Tatiana (2003): Kulturelle Unterschiede bei der Bewertung von InternetAngeboten. Magisterarbeit, Universität Hildesheim. DAVE, Kushal; LAWRENCE, Steve; PENNOCK, David (2003): Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 519-528. http://www2003.org/cdrom/papers/refereed/p451/package/p451-dave.html (verifiziert am 09.09.2003) DAVENPORT, Elisabeth; BUCKNER, Kathy (1998): SO-grams: a personal visualisation toolkit for intranet users. In: ZIMMERMANN, HARALD; SCHRAMM, Volker (Hrsg.): Knowledge Management und Kommunikationssysteme: Workflow Management, Multimedia, Knowledge Transfer. Proceedings 6. Intl. Symposium für Informationswissenschaft. (ISI ´98). 3.-7.11.98, Karlsuniversität Prag. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft Bd. 34]. S. 67-79. DAVISON, B. (1999): Adaptive Web Prefetching. In: Proceedings of the Second Workshop on Adaptive Systems and User Modeling on the World Wide Web, Toronto. S. 105106. http://citeseer.nj.nec.com/davison99adaptive.html (verifiziert am 24.10.2001) DAVISON, Brian (2000): Recognizing Nepotistic Links on the Web. In: Proceedings of the AAAI 2000 Workshop on Artificial Intelligence for Web Search, Austin, TX. 30. Juli. S.23-28. http://citeseer.nj.nec.com/davison00recognizing.html (verifiziert am 19.10.2001) DAVISON, Brian (2003): Toward a Unification of Text and Link Analysis. In: Proceedings of the 26th Annual International ACM SIGIR Conference, Toronto. Juli, 2003. S. 325 Literaturverzeichnis 367-368. http://www.cse.lehigh.edu/~brian/pubs/2003/sigir/poster.pdf (verifiziert am 11.05.2004) DEAN, Jeffrey; HENZINGER, Monika (1999): Finding Related Pages in the World Wide Web. In: Computer Networks vol. 31 (11-16). S. 1467-1479. DHYANI, Devanshu; NG, Wee; BHOWMICK, Sourav (2002): A Survey of Web Metrics. In: ACM Coumputing Surveys, vol. 34 (4) S. 469-503. DILL, Stephan; KUMAR, Ravi; MCCURLEY, Kevin; RAJAGOPALAN, Sridhar; SIVAKUMAR, D.; TOMKINS, Andrew (2001): Self-Similarity in the Web. In: Proceedings of the 27th International Conference on Very Large Databases (VLDB 2001) DIN 66272 (1994): Informationstechnik - Bewertung von Software-Produkten – Qualitätsmerkmale und Leitfaden zu ihrer Verwendung. Deutsches Institut für Normung. DIN EN ISO 14915-3 (2002): Software-Ergonomie für Multimedia-Benutzungsschnittstellen. Teil 3: Auswahl und Kombination von Medien. April 2003. Deutsches Institut für Normung. DIN EN ISO 9241-10 (2004): Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten. Teil 10: Grundsätze der Dialoggestaltung. Deutsches Institut für Normung. DUSTIN, Elfriede; RASHKA, Jeff; MCDIARMID, Douglas (2002): Quality Web Systems: Performance, Security, and Usability. Addison-Wesley: Boston et al. VAN DUYNE, Douglas; LANDAY, James; HONG, Jason (2003): The Design of Sites. Boston et al.: Addison-Wesley. EDELMANN, Walter (20006): Lernpsychologie. Weinheim: Beltz. EFE, Kemal; RAGHAVAN, Vijay; CHU, Henry; BROADWATER, Adrienne; BOLELLI, Levent; ERTEKIN, Seyda (2000): The Shape of the Web and Its Implications for Searching the Web. In: Proceedings of the International Conference on Advances in Infrastructure for Electronic Business, Science, and Education on the Internet. http://citeseer.nj.nec.com/efe00shape.html (verifiziert am 15.06.2004) EIBL, Maximilian; MANDL, Thomas (2004): Die Qualität von Visualisierungen: Eine Methode zum Vergleich zweidimensionaler Karten. In: LEHNER, Christoph; OHLY, H. Peter; RAHMSDORF, Gerhard. Wissensorganisation und Edutainment: Wissen im Spannungsfeld von Gesellschaft, Gestaltung und Industrie. Proceedings der 7. Tagung der Deutschen Sektion der Internationalen Gesellschaft für Wissensorganisation (ISKO), Berlin, 21.-23. März 2001. ERGON: Würzburg [Fortschritte in der Wissensorganisation 7] S. 89-115. ETGEN, Michael; CANTOR, Judy (1999): What Does Getting WET (Web Event-logging Tool) Mean for Web Usability? In: Proceedings of the fifth Conference on Human Factors & the Web (HFWEB), Maryland. 3. Juni. http://zing.ncsl.nist.gov/hfweb/proceedings/etgen-cantor/index.html (verifiziert am 06.07.2001) EVANS, Michael; WALKER, Andrew (2004): Using the Web Graph to influcene application behaviour. In: Internet Research vol. 14 (5). S. 372-378. FACHGRUPPE IR (1996): Fachgruppe Information Retrieval. http://www.is.informatik.uni-duisburg.de/fgir/mitgliedschaft/brochure2.html (verifiziert am 17.08.2004) FAGIN, Ronald; KUMAR, Ravi; MCCURLEY, Kevin; NOVAK, Jasmine; SIVAKUMAR, D.; TOMLIN, John, WILLIAMSON, David (2003): Searching the Worksplace Web. In: 326 Literaturverzeichnis Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 366-375. http://www2003.org/cdrom/papers/refereed/p641/xhtml/p641-mccurley.html (verifiziert am 09.09. 2003) FAYYAD, Usama; UTHURUSAMY, Ramasamy (1996): Data Mining and Knowledge Discovery in Databases. In: Communications of the ACM, Vol. 39, Nr.11. S. 24. FAYYAD, Usama (1997): Editorial. In: Data Mining and Knowledge Discovery, Vol. 1, Nr. 1. S. 5-10. FETTERLY, Dennis; MANASSE, Mark; NAJORK, Marc; WIENER, Janet (2003): A Large-Scale Study of the Evolution of Web Pages. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 669-678. http://www2003.org/cdrom/papers/refereed/p097/P97%20sources/p97-fetterly.html (verifiziert am 09.09.2003) FINN, Aidan; KUSHMERICK, Nicholas; SMYTH, Barry (2001): Fact or Fiction: Content Classification for Digital Libraries. In: Second DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin City University, Ireland. 18.-20. Juni 2001. http://www.ercim.org/publication/ws-proceedings/DelNoe02/AidanFinn.pdf (verifiziert am 02.11. 2001) FLAKE, G.W.; LAWRENCE, Steve; GILES, C. Lee (2000): Efficient Identification of Web Communities. In: Proceedings of the Sixth International Conference on Knowledge Discovery and Data Mining, Boston. 20.-23. August 2000. S. 150-160. FOGG, B.J.; SWANI, Preeti; TREINEN, Marissa; MARSHALL, Jonathan; LARAKI, Othman; OSIPOVICH, Alex; VARMA, Chris; FANG, Nicholas; PAUL, Jyoti; RANGNEKAR, Akshay; SHON, John (2001): What Makes Web Sites Credible? A Report on A Large Quantitative Study. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘01). S. 61-68. FOGG, B.J.; MARABLE, Leslie; STANFORD, Julianne; TAUBER, Ellen R. (2002): How Do People Evaluate A Web Site’s Credibility? Results From A Large Study. In: Consumer Web Watch. http://www.consumerwebwatch.org/news/report3_credibilityresearch/stanfordPTL_T OC.htm (verifiziert am 11.05.2004) FOLTZ, P.W.; KLINTSCH, W.; LANDAUER, T.K. (1998): The Measurement of Textual Coherence with Latent Semantic Analysis. In: Discourse Processes, Vol. 25, Nr. 2&3. S. 285-307. FOLTZ, P.W.; LAHAM, Darrell; LANDAUER, Thomas K. (1999): The Intelligent Essay Assessor: Applications to Educational Technology. In: Interactive Multimedia Electronic Journal of Computer-Enhanced Learning, Oct.1999, Vol. 1, Nr. 2. Wake Forest University. http://imej.wfu.edu/articles/1999/2/04/printver.asp (verifiziert am 02.10.2001) FRANCO, Adrienne; PALLADINO, Richard (1999): Finding Quality Information on the World Wide Web. In: Proceedings of the Tenth Annual Conference on the International Information Management Association. http://www.iona.edu/faculty/afranco/iima/webliog.htm (verifiziert am 15.06.2004) FRIES, Christian (2002): Mediengestaltung. Leipzig: Fachbuchverlag. 327 Literaturverzeichnis FRITCH, John W.; CROMWELL, Robert L. (2001): Evaluating Internet Resources: Identity, Affiliation, and Cognitive Authority in a Networked World. In: Journal of the American Society for Information Science and Technology, vol. 52 (6) S.499-507. FRÖHLICH, Gerhard (2000): Online Informationsvorenthaltung als Strategem wissenschaftlicher Kommunikation. In: ZIMMERMANN, Harald; SCHRAMM, Volker (Hrsg.): Knowledge Management und Kommunikationssysteme: Workflow Management, Multimedia, Knowledge Transfer. Proc. des sechsten Internationalen Symposiums für Informationswissenschaft. (ISI ´98), Prag. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 34] S. S. 535-549. FROKJAER, Erik; HERTZUM, Morten; HORNBÆK, Kasper (2000): Measuring Usability. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘00), Amsterdam. S. 345-352. FROMMHOLZ, Ingo (2001): Categorizing Web Documents in Hierarchical Catalogues. In. Proceedings of the 23rd Colloquium on Information Retrieval Research, Darmstadt. http://www.ipsi.fraunhofer.de/~frommhol/frommholz_ecir01.pdf (verifiziert am 15.06.2004) FUHR, Norbert (2005): Information Retrieval Skriptum zur Vorlesung im Sommersemester 2005. http://www.is.informatik.uni-duisburg.de/courses/ir_ss05/folien/irskall.pdf (verifiziert am 28.08.2005) FUHR, Norbert; GROßJOHANN, Kai (2001): XIRQL: A Query Language for Information Retrieval in XML Documents. In: Proceedings of the 24th Annual International Conference on Research and Development in Information Retrieval (SIGIR `01). S. 172-180. FUHR, Norbert; HANSEN, Preben; MABE, Michael; MICSIK, Andras; SØLVBERG, Ingeborg (2001): Digital Libraries: A Generic Classfication and Evaluation Scheme. In: CONSTANTOPOULOS & SØLVBERG 2001. S. 187-199. FUHR, Norbert; MALIK, Saadia; LALMAS, Mounia (2003): Overview of the INitiative for the Evaluation of XML Retrieval (INEX 2003) In: INEX 2003 Workshop Proceedings. http://inex.is.informatik.uni-duisburg.de:2003/workshop.html (verifiziert am 17.02.2005) FUJII, Atsushi; ISHIKAWA, Tetsuya (2000): Utilizing the World Wide Web as an Encyclopedia: Extracting Term Descriptions from Semi-Structured Texts. In: Proceedings 38th Conference of the Association for Computational Linguistics (ACL 2000). GIBSON, David; KLEINBERG, Jon; RAGHAVAN, Prabhakar (1998): Inferring Web Communities from Link Topology. In: Proceedings of the Ninth ACM Conference on Hypertext and Hypermedia. http://citeseer.nj.nec.com/gibson98inferring.html (verifiziert am 22.04.2004) GÖVERT, Norbert (1995): Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion. In: FUHR, Norbert; DITTRICH, Gisbert; TOCHTERMANN, Klaus (Hrsg.): Hypertext - Information Retrieval - Multimedia '97: Theorien, Modelle und Implementierungen integrierter elektronischer Informationssysteme (HIM'97) Dortmund, 29.9.-2.10.1997, Proceedings. Konstanz: Universitätsverlag. S. 135-146. GÖVERT, Norbert; KAZAI, Gabriella (2002): Overview of the Initiative for the Evaluation of XML retrieval (INEX) 2002 In: Proceedings of the First Workshop of the INitiative for the Evaluation of XML Retrieval (INEX). http://qmir.dcs.qmul.ac.uk/inex/ (verifiziert am 17.02.2005) 328 Literaturverzeichnis GRAHAM, Leah; METAXAS, Panagiotis Takis (2003): “OF COURSE IT’S TRUE; I SAW IT ON THE INTERNET!”: Critical Thinking in the Internet Era. In: Communications of the ACM 46 (5). S. 71-75. GRAVANO, Luis (2000): Characterizing Web Resources for Improved Search. In: Proceedings of the First DELOS Network of Excellence Workshop. Information Seeking, Searching and Querying in Digital Libraries, Zürich. 11.-12. Dezember. http://citeseer.ist.psu.edu/gravano00characterizing.html (verifiziert am 21.05.2004) GRIESBAUM, Joachim (2003): Unbeschränkter Zugang zu Wissen? Leistungsfähigkeit und Grenzen von Suchdiensten im Web: Zwischen informationeller Absicherung und manipulierter Information. In: SCHMIDT, Ralph (Hrsg.): Competence in Content: Proceedings 25. Online-Tagung der DGI. Frankfurt, M., S. 37-50. GRIESBAUM, Joachim; RITTBERGER, Marc; BEKAVAC, Bernard (2002): Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de. In: HAMMWÖHNER, Rainer; WOLFF, Christian; WOMSER-HACKER, Christa (Hrsg.): Information und Mobilität: Optimierung und Vermeidung von Mobilität durch Information. Proceedings 8. Intl. Symposium für Informationswissenschaft. (ISI 2002). 7.10.10.2002, Regensburg. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 40] S. 201-224 GUAN, Tao; WONG, Kam Fai (1999): KPS – A Web Information Mining Algorithm. In: Proceedings of the Eighth International World Wide Web Conference (WWW8). http://www8.org./w8-papers/4a-search-mining/kps/kps.html (verifiziert am 13.02.2001) GUDIVADA, Venkat; RAGHAVAN, Vilay; GROSKY, Wiliam; KASANAGOTTU, Rajesh (1997): Information Retrieval on the World Wide Web. In: IEEE Internet Computing. Sept./Okt. S. 58-68. GÜDLER, Jürgen (1996): Dynamik der Medienforschung. Bonn: Informationszentrum Sozialwissenschaften [Forschungsberichte 1]. GURRIN, C.; SMEATON, Alan (2001): Dublin City University Experiments in Connectivity Analysis for TREC-9. In: VOORHEES & HARMAN 2001. HAM, Fredric; KOSTANIC, Ivica (2001): Principles of Neurocomputing for Science & Engineering. McGraw-Hill: New York et al. HAMDORF, Kai (2004): Jenseits von Google: Erschließung und Recherche von InternetAngeboten durch Webkataloge. In: Information - Wissenschaft und Praxis vol. 55(4) S. 221-224. HAMMWÖHNER, Rainer (2000): Transrouter Revisited – Decision Support in the Routing of Translation Projects. In: KNORZ & KUHLEN 2000. S. 49-70. HARABAGIU, Sanda; MOLDOVAN, Dan (2003): Question Answering. In: The Oxford Handbook of Computational Linguistics. Oxford; New York: Oxford University Press. HAVELIWALA, Taher (2002): Topic-Sensitive PageRank. In: Proceedings of the Eleventh International World Wide Web Conference 2002 (WWW 2002), Honolulu, Hawaii. 7.-11.Mai. http://www2002.org/CDROM/refereed/127/ (verifiziert am 15.06.2004) HAWKING, David (2000): Overview of the TREC-9 Web Track. In: VOORHEES & HARMAN 2000. HAYKIN, Simon (1999): Neural Networks: A Comprehensive Foundation. London et al. 329 Literaturverzeichnis HEIDMANN, Frank; ZIEGLER, Jürgen (2002): WebSCORE – A Structured Method for Evaluating Web Applications. In: Proceedings Work With Display Units (WWDU). http://www.hci.iao.fraunhofer.de/fileadmin/user_upload/HeidmannZiegler2002_Web Score.pdf (verifiziert am 09.09.2003) HELLWEG, Heiko; KRAUSE, Jürgen; MANDL, Thomas; MARX, Jutta; MÜLLER, Matthias N.O.; MUTSCHKE, Peter; STRÖTGEN, Robert (2001): Treatment of Semantic Heterogeneity in Information Retrieval. IZ-Arbeitsbericht, Nr. 23, IZ Sozialwissenschaften, Bonn. http://www.gesis.org/Publikationen/Berichte/IZ_Arbeitsberichte/index.htm#ab23 (verifiziert am 15.06.2004) HENZINGER, Monika (2000): Link Analysis in Web Information Retrieval. In: Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, Vol. 23, Nr.3. S. 3-8. HENZINGER, Monika; MOTWANI, R.; SILVERSTEIN, C. (2002): Challenges in Web Search Engines. In: ACM SIGIR Forum 36 (2) S. 11-22. HOFSTEDE, Geert; HOFSTEDE, G.J. (2005): Cultures and Organizations: Software of the Mind. 2., erw. und überarb. Aufl. New York: McGraw-Hill. HOTHO, Andreas; NÜRNBERGER, Andreas; PAAß, Gerhard (2005): A Brief Survey of Text Mining. In: LDV Forum, vol. 20. S. 19-62. HUANG, Kuan-Tsae; LEE, Yang; WANG, Richard (1999): Quality Information and Knowledge. Upper Saddle River, NJ.: Prentice Hall. HUBERMAN, Bernardo (2001): The Laws of the Web: Patterns in the Ecology of Information. Cambridge, London: MIT Press. HUBERMAN, Bernardo; PIROLLI, Peter; PITKOW, James; LUKOSE, Rajan (1998): Strong Regularities in World Wide Web Surfing. In: Science 280 (3. April). S. 95-97. INGWERSEN, Peter (1994): Polyrepresentation of Information Needs and Semantic Entities. Elements of a Cognitive Theory for Information Retrieval Interaction. In: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, USA. S. 101-110. INO, Hidehiko; KUDO, Mineichi; NAKAMURA, Atsuyoshi (2005): Partitioning of Web Graphs by Community Topology. In: Proceedings International World Wide Web Conference (WWW 2005) Chiba, Japan. 10.-14. Mai. S. 661-669. ISO 8402 (1986): Qualitätsmanagement und Qualitätssicherung; Begriffe. International Oranization for Standardization. IVORY, Melody; SINHA, Rashmi (2000): Empirically Validated Web Page Design Metrics. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘00), Amsterdam. http://citeseer.nj.nec.com/381858.html (verifiziert am 19.10.2001) IVORY, Melody; HEARST, Marti (2001): State of the Art in Automatic Usability Evaluation of User Interfaces. In: ACM Computing Surveys, vol. 33 (4) S. 470-516. IVORY, Melody; HEARST, Marti (2002): Statistical Profiles of Highly-Rated Sites. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI 2002), Mineapolis, USA. 20.-25. April. JANSEN, Dorothea (2003): Einführung in die Netzwerkanalyse : Grundlagen, Methoden, Forschungsbeispiele. Opladen: Leske + Budrich. 2., erw. Aufl. 330 Literaturverzeichnis JARDINE, Serena (1997): Information Quality: Is the Truth Out There? Fenton University of North Carolina. http://www.ils.unc.edu/~fents/310/ (verifiziert am 05.03.2004) JÄRVELIN, Kalervo; KEKÄLÄINEN, Jaana (2002): Cumulated Gain-Based Evaluation of IR Techniques. In: ACM Transactions on Information Systems (ACM TOIS), Vol. 20, Nr. 4, S.422-446. http://www.info.uta.fi/tutkimus/fire/archive/KJJK-nDCG.pdf (verifiziert am 11.05.2004) JEH, Glen; WIDOM, Jennifer (2003): Scaling Personalized Web Search. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 271-279. http://www2003.org/cdrom/papers/refereed/p185/html/p185-jeh.html (verifiziert am 09.09.2003) JOACHIMS, Thorsten (2002): Optimizing Search Engines Using Clickthrough Data. In: Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Edmonton, Alberta, Kanada. Juli 2002. http://www.cs.cornell.edu/People/tj/publications/joachims_02c.pdf (verifiziert am 11.05.2004) KAMVAR, Sepandar; HAVELIWALA, Taher; MANNING, Christopher; GOLUB, Gene (2003): Extrapolation Methods for Accelerating PageRank Computations. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 261-270. http://www2003.org/cdrom/papers/refereed/p270/kamvar-270-xhtml/index.html (verifiziert am 09.09. 2003) KANOVSKY, Igor; MAZOR, Shaul (2003): Stochastic Processes for Web-like Graph Generation. In: Poster Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. http://www2003.org/cdrom/papers/poster/p125/P125-kanovsky.htm (verifiziert am 05.03. 2004) [CDROM] KARLGREN, Jussi; BRETAN, Ivan; DEWE, Johan; HALBERG, Anders; WOLKERT, Niklas (1998): Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres. In: Proceedings of the Eighth DELOS Workshop on User Interfaces in Digital Libraries, Långholmen. Oktober 1998. S. 85-92. http://www.sics.se/~jussi/Papers/1998_Delos_Laangholmen/dropjaw_delos.pdf (verifiziert am 02.11.2001) KARLGREN, Jussi; BRETAN, Ivan; DEWE, Johan; HALBERG, Anders; WOLKERT, Niklas (1998): Web-Specific Genre Visualization: In: WebNet '98, Orlando, Florida. November 1998. http://www.sics.se/~jussi/Papers/1998_WebNet_DropJaw/dropjaw_webnet98.pdf (verifiziert am 02.11.2001) KATZ, David (19694): Gestaltpsychologie. Basel & Stuttgart: Schwabe. KAZAI, Gabriella; GÖVERT, Norbert ; LALMAS, Mounia; FUHR, Norbert (2003): The INEX Evaluation Initiative. In: BLANKEN, Henk; GRABS, Torsten; SCHEK, Hans-Jörg; SCHENKEL, Ralph; WEIKUM, Gerhard (Hrsg.): Intelligent Search on XML Data. Berlin: Springer [LNCS 2818] S. 279-293. KESSLER, Brett; NUNBERG, Geoffrey; SCHÜTZE, Hinrich (1997): Automatic Detection of Text Genre. In: Proceedings of the 35th ACL/ 8th EACL Conference, Madrid. 7.-12. Juli. S. 32-38. http://arxiv.org/PS_cache/cmp-lg/pdf/9707/9707002.pdf (verifiziert am 28.04.2004) 331 Literaturverzeichnis KIM, Sea Woo; CHUNG, Chin-Wan (2001): Web Document Ranking by Differentiated Expert Group Evaluation. In: Proceedings HCI 9th International Conference on Human-Computer Interaction, New Orleans. August 2001. Mahwah, NJ; London: Lawrence Erlbaum Associates. KLAS, Claus-Peter; FUHR, Norbert (2000): A New Effective Approach for Categorizing Web Documents. In: Proceedings of the 22nd BCS-IRSG Colloquium on IR Research (ECIR). http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/Klas_Fuhr:00.ps.gz (verifiziert am 28.08.2005) KLEINBERG, Jon (1998): Authoritative Sources in a Hyperlinked Environment. In: Proceedings of the Ninth ACM-SIAM Symposium on Discrete Algorithms, San Francisco, USA. Jan 1998. S. 668-677. http://citeseer.ist.psu.edu/kleinberg99authoritative.html (verifiziert am 05.05.2004) KLUCK, Michael; MANDL, Thomas; WOMSER-HACKER, Christa (2002): CLEF: Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren. In: nfd Information – Wissenschaft und Praxis, vol. 53 (2) S. 82-89. KNORZ, Gerhard; KUHLEN, Rainer (Hrsg.): Informationskompetenz - Basiskompetenz in der Informationsgesellschaft. Proceedings des siebten Internationalen Symposiums für Informationswissenschaft. (ISI 2000), Darmstadt. 8.-10.11.2000. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft Bd. 38] KOBAYASHI, Mei; TAKEDA, Koishi (2000): Information Retrieval on the Web. In: ACM Computing Surveys (CSUR), vol. 32 (2) S. 144-173. http://citeseer.ist.psu.edu/kobayashi00information.html (verifiziert am 13.09.2004) KOHRS, Arnd; MERIALDO, Bernard (1999): Improving Collaborative Filtering with Multimedia Indexing Techniques to Create User-Adapting Web Sites. In: Proceedings of the Seventh ACM International Conference on Multimedia (Part 1), Orlando, Florida, USA. 30. Oktober - 5. November. S. 27-36. http://www.kom.etechnik.tu-darmstadt.de/acmmm99/ep/kohrs/ (verifiziert am 15.06.2004) KOIVUNEN, Marja-Riitta; MILLER, Eric (2001): W3C Semantic Web Activity. In: Proceedings of the Semantic Web Kick-off Seminar Finland Nov 2, 2001. preprint http://www.w3.org/2001/12/semweb-fin/w3csw KÖLLE, Ralph; MANDL, Thomas; SCHNEIDER, René; STRÖTGEN, Robert (2004): Weiterentwicklung des virtuellen Bibliotheksregal MyShelf mit semantic web Technologie: Erste Erfahrungen mit informationswissenschaftlichen Inhalten. In: OCKENFELD, Marlies (Hrsg.): Information Professional 2011: Strategien – Allianzen – Netzwerke. Proceedings 26. DGI Online-Tagung. Frankfurt a.M. 15.-17. Juni. S. 111-124. KOPPEL, Moshe; AKIVA, Navot; DAGAN, Ido (2003): A Corpus-Independent Feature Set for Style-Based Text Categorization. In: Workshop Doing It With Style im Rahmen der International Joint Conference on Artificial Intelligence (IJCAI) http://ir.iit.edu/~argamon/style2003/StyleWorkshop2003.pdf (verifiziert am 21.02.2005) S. 61-67. KRAAIJ, Wessel; WESTERVELD, Thijs (2000): TNO/UT at TREC-9: How Different are Web Documents? In: VOORHEES & HARMAN (2000): TREC 9, S. 665-671. http://trec.nist.gov/pubs/trec9/papers/tno-ut.pdf (verifiziert am 09.03.2004) KRALISCH, Annett; BERENDT, Bettina (2004): Cultural Determinants of Search Behaviour Websites. In: EVERS, Vanessa; DEL GALDO, Elisa; CYR, Dianne; BONANNI, Carole (eds.): Designing for Global Markets 6: Proceedings Sixth International Workshop 332 Literaturverzeichnis on Internationalization of Products and Systems (IWIPS 2004) 8-10 July, Vancouver. S. 61-74. KRUSCHWITZ, Udo (2001): Exploiting Structure for Intelligent Web Search. In: Proceedings of the 34th Annual Hawaii International Conference on System Sciences (HICSS 34), Maui, Hawaii. 03.-06 Januar 2001. vol. 4. http://citeseer.ist.psu.edu/kruschwitz01exploiting.html (verifiziert am 21.05. 2004) KUHLEN, Rainer (1999): Die Konsequenzen von Informationsassistenten: Was bedeutet informationelle Autonomie oder wie kann Vertrauen in elektronische Dienste in offenen Informationsmärkten gesichert werden? Frankfurt a.M.: Suhrkamp. KUHLEN, Rainer (2000): Ambivalenz von Filter-, Abblock- und Rating-Verfahren. In: KUBICEK ET AL. (Hrsg): Global @home. Informations- und Dienstleistungsstrukturen der Zukunft. Jahrbuch Telekommunikation und Gesellschaft 2000. Hüthig Verlag Heidelberg. S. 371-384. KUHLEN, Rainer; HESS, Michael (1993): Passagen-Retrieval - auch eine Möglichkeit der automatischen Verknüpfung in Hypertexten. In: KNORZ, Gerhard; KRAUSE, Jürgen; WOMSER-HACKER, Christa (Hrsg.): Information Retrieval '93: Von der Modellierung zur Anwendung, Proceedings der 1. Tagung Information Retrieval '93, Regensburg, 13.-15. September 1993. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 12] S. 100-115. LAN, Bin; BRESSAN, Stéphane; OOI, Beng Chin; TAY, Y. (2000): Making Web Servers Pushier. In: MASAND & SPILIOPOULOU 2000. S. 112-125. LARKEY, Leah (1998): Automatic Essay Grading Using Text Categorization Techniques. In: Proceedings of the 21st Annual Intl ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australien. S. 90-95. LAWRENCE, Steve; GILES, C. Lee; BOLLACKER, Kurt (1999): Digital Libraries and Autonomous Citation Indexing. In: IEEE Computer 32 (6) S. 67-71. LEE, Jungwon; KIM, Jinwoo; MOON, Jae Yun (2000): What Makes Internet Users Visit Cyber Stores Again? Key Design Factors for Customer Loyalty. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ’00), Amsterdam. S. 305-312. LEE, Chung-Hong; YANG, Hsin-Chang (1999): A Web Text Mining Approach Based on Self-Organizing Map. In: Proceedings of the Second International Workshop on Web Information and Data Management (WIDM ’99), Kansas City, USA. S. 59-62. LEE, Yong-Bae; MYAENG, Sung Hyon (2002): Text Genre Classification with GenreRevealing and Subject-Revealing Features. In: Proceedings of the Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR 2002), Tampere, Finnland. S. 145-150. LEFFORD, Nyssim; OZKAR, Mine (2003): Modal Relationships as Stylistic Features. In: Workshop Doing It With Style im Rahmen der International Joint Conference on Artificial Intelligence (IJCAI) http://ir.iit.edu/~argamon/style2003/StyleWorkshop2003.pdf (verifiziert am 21.02.2005) S. 11-18. LEMPEL, R.; MORAN, S. (2000): The Stochastic Approach for Link-Structure Analysis (SALSA) and the TKC Effect. In: Proceedings of the Ninth International WWW Conference. http://www9.org/w9cdrom/175/175.html (verifiziert am 09.03.2004) 333 Literaturverzeichnis LEWANDOWSKI, Dirk (2004a): Technologie-Trends im Bereich der WWW-Suchmaschinen. In: OCKENFELD, Marlies (Hrsg.): Information Professional 2011: Strategien – Allianzen – Netzwerke. Proceedings 26. DGI Online-Tagung Frankfurt a.M. 15.-17.6. S. 183-196. LEWANDOWSKI, Dirk (2004b): Zeitlich beschränkte Abfragen WWW-Suchmaschinen. In: BEKAVAC, Bernard; HERGET, Josef; RITTBERGER, Marc (Hrsg.): Proceedings 9. Intl. Symposium für Informationswissenschaft. (ISI 2004). Chur, Schweiz. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 42]. S. 301-316. LIN, Shian-Hua; SHIH, Chi-Sheng; CHEN, Meng Chang; HO, Jan-Ming (1998): Extracting Classification Knowledge of Internet Documents with Mining Term Associations: A Semantic Approach. In: Proceedings of the Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR ’98), Melbourne, Australien. S. 241-249. LIU, Bing; HU, Minqing; CHENG, Junsheng (2005): Opinion Observer: Analyzing and Comparing Opinions on the Web. In: Proceedings International World Wide Web Conference (WWW 2005) Chiba, Japan. 10.-14. Mai. S. 342-351. LÜCK, Wolfgang; RITTBERGER, Werner; SCHWANTNER, Michael (1992): Der Einsatz des Automatischen Indexierungs- und Retrievalsystems (AIR) im Fachinformationszentrum Karlsruhe. In: KUHLEN, Rainer (Hrsg.): Experimentelles und praktisches Information Retrieval. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 39]. S. 141-170. LUGER, George (2001): Künstliche Intelligenz: Strategien zur Lösung komplexer Probleme. München: Pearson Education. LUTZ, J.; SCHMID-LUTZ, V. (1993): Getriebediagnose mit Neuronalen Netzen. In: SCHÖNEBURG, E. (Hrsg): Industrielle Anwendungen Neuronaler Netze. Bonn, Paris et. al. S. 43-56. LYNCH, Patrick; HORTON, Sarah (1999): Web Style Guide - Basic Design Principles for Creating Web Sites.http://info.med.yale.edu/caim/manual (verifiziert am 15.06.2004) MANDL, Thomas (2001): Tolerantes Information Retrieval: Neuronale Netze zur Erhöhung der Adaptivität und Flexibilität bei der Informationssuche. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 39]. MANDL, Thomas (2002): Evaluierung von Internet-Verzeichnisdiensten mit Methoden des Web-Mining. In: HAMMWÖHNER, Rainer; WOLFF, Christian; WOMSER-HACKER, Christa (Hrsg.): Information und Mobilität: Optimierung und Vermeidung von Mobilität durch Information. Proceedings 8. Intl. Symposium für Informationswissenschaft. (ISI 2002). 7.-10.10.2002, Regensburg. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 40] S. 239-257. MANDL, Thomas (2003): Link Analysis and Site Structure in Information Retrieval. In: DITTRICH, Klaus; KÖNIG, Wolfgang; OBERWEIS, Andreas; RANNENBERG, Kai; WAHLSTER, Wolfgang (Hrsg.): Informatik 2003: Innovative Informatikanwendungen. Beiträge der 33. Jahrestagung der Gesellschaft für Informatik. 29.September – 2.Oktober in Frankfurt am Main. Bonn: Köllen [Lecture Notes in Informatics P-35] S. 262-267. MANDL, Thomas; Eibl, Maximilian (2005): An Empirical Assessment of Color Use on the WWW. In: Human-Computer Interaction: Proceedings 11th International Conference on Human-Computer Interaction (HCI Intl.): Las Vegas, 22.-27. Juli. Mahwah, NJ; London: Lawrence Erlbaum Associates. 334 Literaturverzeichnis MANDL, Thomas; WOMSER-HACKER, Christa (2000): Ein adaptives Information Retrieval Modell für Digitale Bibliotheken. In: KNORZ, Gerhard; KUHLEN, Rainer (Hrsg.): Informationskompetenz - Basiskompetenz in der Informationsgesellschaft. Proc. 7. Intl. Symposium für Informationswissenschaft. (ISI 00). 8.-10.11., Darmstadt. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 38] S. 1-16. MANDL, Thomas; WOMSER-HACKER, Christa (2001): Fusion Approaches for Mappings Between Heterogeneous Ontologies. In: CONSTANTOPOULOS & SØLVBERG 2001. S. 83-94. MANDL, Thomas; WOMSER-HACKER, Christa (2003): Ontology Switching as Interaction Technique for the Semantic Web. In: Stephanidis, Constantine (ed.) Universal Access in HCI: Inclusive Design in the Information Society. Proceedings of the 2nd Intl. Conf. on Universal Access in Human-Computer Interaction (UAHCI), Crete, 22-27 June 2003. Mahwah, NJ; London: Lawrence Erlbaum Associates. S. 567-571. MANDL, Thomas; WOMSER-HACKER, Christa (2004): Proper Names in the Multilingual CLEF Topic Set. In: PETERS ET AL. 2004. http://clef.iei.pi.cnr.it:2002/2003/WN_web/53.pdf (verifiziert am 17.06.2004) MARCHAND, Donald (1990): Managing Information Quality. In: WORMELL, Irene (Hrsg.): Information Quality. Definitions and Dimensions. Proceedings of a NORDINFO Seminar. Copenhagen. Los Angeles, USA: Taylor Graham. S. 7-17. MASANÈS, Julien; RAUBER, Andreas (2004) (Hrsg.): 4th International Web Archiving Workshop (IWAW'04). Bath (UK) http://www.iwaw.net/04/index.html MASAND, Brij; SPILIOPOULOU, Myra (Hrsg.) (2000): Web Usage Analysis and User Profiling. WEBKDD ´99 [Lecture Notes in Artificial Intelligence 1836] Springer: Berlin et al. MATHEWS, Robert A.J.; MERRIAM, Thomas V.N. (1993): Neural Computation in Stylometry I: An Application to the Works of Shakespeare and Fletcher. Literary an Linguistic Computing, Vol. 8, No. 4, 1993, Oxford University Press. MATSUDA, Katsushi; FUKUSHIMA, Toshikazu (1999): Task-Oriented World Wide Web Retrieval by Document Type Classification. In: Proceedings of the Eighth International Conference on Information and Knowledge Management (CIKM ’99), Kansas City, Missouri, USA. November 1999. S. 109-113. MATSUMURA, Naohiro; OHSAWA, Yukio; ISHIZUKA, Mitsuru (2001): Discovery of Emerging Topics between Communities on WWW. In: ZHONG ET AL. 2001. S. 473-482. MATTOX, David; MAYBURY, Mark T.; MOREY, Daryl (1999): Enterprise expert and knowledge discovery. In: BULLINGER, Hans-Jörg; ZIEGLER, Jürgen (Hrsg.): HumanComputer Interaction: Communication, Cooperation and Application Design. Proceedings of the HCI International ´99 (Eighth International. Conference on Human-Computer Interaction), vol. 2, München. 22-27. August 1999. Mahwah, NJ; London: Lawrence Erlbaum Associates. MCCABE, Catherine; CHOWDHURY, Abdur; GROSSMANN, David; FRIEDER, Ophir (1999): A Unified Framework for Fusion of Information Retrieval Approaches. In: Eigth ACM Conference on Information and Knowledge Management (CIKM). Kansas City, Missouri. S. 330-334. MCCRICKARD, Scott (2001): The Effect of Changes in Information Access Times on Hypertext Choices. In: SMITH, Michael; SALVENDY, Gavriel; HARRIS, Don; KOUBEK, Richard (Hrsg.): Usability Design and Interface Evaluation: Cognitive Engineering, 335 Literaturverzeichnis Intelligent Agents and Virtual Reality. Proceedings of the HCI International 2001 (Ninth International. Conference on Human-Computer Interaction), New Orleans, Louisiana, USA. August 2001. Vol 1. S. 1086-1090. MCNAMEE, Paul; MAYFIELD, James (2004): Character N-Gram Tokenization for European Text Retrieval. In: Information Retrieval, vol. 7 (1,2) S. 73-98. MEADOW, Charles; YUAN, Weijing (1997): Measuring the Impact of Information: Defining the Concepts. In: Information Processing & Management, vol. 33 (6). S. 697-714. MEGHABGHAB, George (2002): Discovering Authorities and Hubs in Different Topological Web Graph Structures. In: Information Processing and Management, 38. S. 111-140. MEHLER, Alexander; WOLFF, Christian (2005): Einleitung: Perspektiven und Positionen des Text Mining. In: LDV Forum, vol. 20. S. 1-18. MEHRABI (2001): Digital Watermark. In: CONSTANTOPOULOS & SOLVBERG 2001. S. 49-58. MENCZER, Filippo; PANT, Gautam; SRINIVASAN, Padmini; RUIZ, Miguel (2001): Evaluating Topic-Driven Web Crawlers. In: Proceedings 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 01), New Orleans, Louisiana, USA. S. 241-249. http://informatics.buffalo.edu/faculty/ruiz/publications/p241-menczer.pdf (verifiziert am 16.06.2004) MENDELZON, Alberto; RAFIEI, Davood (2000): What Do the Neighbours Think? Computing Web Page Reputations. In: IEEE Data Engineering Bulletin, Vol.23, Nr.3. S. 9-16. http://www.cs.ualberta.ca/~drafiei/papers/bull00.pdf (verifiziert am 16.06.2004) MICHALSKI, R. S.; KODRATOFF, Y. (1990): Machine Learning. An Artificial Intelligence Approach. Vol. 3. Morgan & Kaufmann Publishers. MITCHELL, Tom (1997): Machine Learning. WCB McGraw-Hill: Boston et al. MIZZARO, Stefano (1997): Relevance: The Whole History. In: JASIS, Vol. 48, Nr. 9. S. 810-832. MLADENIC, Dunja; GROBELNIK, Marko (1998) Feature selection for clasification based on text hierarchy. In: Working notes of Learning from Text and the Web, Conference on Automated Learning and Discovery (CONALD-98) http://www-ai.ijs.si/MarkoGrobelnik/MarkoGrobelnik.html MOBASHER, Bamshad; COOLEY, Robert; SRIVASTAVA, Jaideep (2000): Automatic Personalization Based on Web Usage Mining. In: Communication of the ACM, vol. 43 (8) S. 142-151 . MONOSTORI, Krisztián; ZASLAVSKY; Arkady; SCHMIDT, Heinz (2000): Document Overlap Detection System for Distributed Digital Libraries. In: Proceedings of the ACM Conference on Digital Libraries 2000, San Antonio, USA. S. 226-227. MUELLER, John Paul (2004): Mining Google Web Services: Building Applications with Google API. Sybex. MURAMATSU, Jack; PRATT, Wanda (2001): Transparent Queries: Investigation Users' Mental Models of Search Engines. In: Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ´01), New Orleans, USA. S. 217-224. MUTSCHKE, Peter (2001): Enhancing Information Retrieval in Federated Bibliographic Data Sources Using Author Network Based Stratagems. In: CONSTANTOPOULOS & SOLVBERG 2001. S. 287-299. 336 Literaturverzeichnis NAJORK, Marc; WIENER, Janet (2001): Breadth-First Search Crawling Yields High-Quality Pages. In: Proceedings of the Tenth International Conference on World Wide Web (WWW10), Hong Kong, Hong Kong. S. 114-118. http://www10.org/cdrom/papers/208/ (verifiziert am 16.06.2004) NAVARRO-PRIETO, Raquel ; SCAIFE, Mike; ROGERS, Yvonne (1999): Cognitive Strategies in Web Searching. In: Proceedings of the Fifth Conference on Human Factors And the Web, Gaithersburg, Maryland. 3.Juni. http://zing.ncsl.nist.gov/hfweb/proceedings/navarro-prieto/index.html (verifiziert am 28.04. 2004) NEUMANN, Peter; WEINSTEIN, Lauren (1999): Risks of Content Filtering. In: Communication of the ACM, vol. 42 (11) S. 152. NIE, Jian-Yun; SIMARD, Michel; ISABELLE, Pierre; DURAND, Richard (1999): CrossLanguage Information Retrieval Based on Parallel Texts And Automatic Mining of Parallel Texts from The Web. In: Proceedings of the Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR ’99), Berkeley, USA. S. 74-81. NIE, Jian-Yun; SIMARD, Michael; FOSTER, George (2001): Multilingual Information Retrieval Based on Parallel Texts from The Web. In: PETERS, Carol (Hrsg.): CrossLanguage Information Retrieval and Evaluation. Workshop of the Cross-Language Information Evaluation Forum (CLEF 2000), Lissabon, Portugal. 21.-22. Sept. 2000. Berlin et al.: Springer [Lecture Notes in Computer Science 2069]. S. 188-201. NIE, Zaiqing; ZHANG, Yuanzhi; WEN, Ji-Rong; MA, Wei-ying (2005): Object Level Ranking: Bringing Order to Web Objects. In: Proceedings International World Wide Web Conference (WWW 2005) Chiba, Japan. 10.-14. Mai. S. 567-574. NIEDERST, Jennifer (1999): Web Design in a Nutshell. Peking et al.: O’Reilly. NOTTELMANN, Henrik; FUHR, Norbert (2003): Evaluating Different Methods of Estimating Retrieval Quality for Resource Selection. In: Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2003), New York. S. 290-297. http://www.is.informatik.uniduisburg.de/bib/fulltext/ir/Nottelmann_Fuhr:03a.pdf (verifiziert am 16.08.2004) OARD, Douglas W.; GONZALO, Julio (2004): The CLEF 2003 Interactive Track. In: PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.): Comparative Evaluation of Multilingual Information Access Systems: 4th Workshop of the Cross-Language Evaluation Forum, CLEF 2003, Trondheim, Norway, August 21-22, Revised Selected Papers. Berlin et al.: Springer [LNCS 3237] S. 425-434 OLIVER, Kevin; WILKINSON, G.; BENNETT, L. (1997): Evaluating the Quality of Internet Information Sources. http://it2.coe.uga.edu/Faculty/gwilkinson/webeval.html (verifiziert am 13.9.2004) OLLERMANN, Frank; HAMBORG, Kai-Christoph; REINECKE, Stefan (2004): Visuelles Orientierungsverhalten bei der Betrachtung von Internetseiten. In: KEIL-SLAWIK, Reinhard ; SELKE, Harald; SZWILLUS, Gerd (Hrsg.): Mensch & Computer 2004: Allgegenwärtige Interaktion. München & Wien: Oldenbourg. S. 85-94. http://mc.informatik.uni-hamburg.de/konferenzbaende/mc2001/index.html (verifiziert am 9.3.2005) OLSINA SANTOS, L. (1999): Web-Site Quality Evaluation Method: a Case Study on Museums. In: Second Workshop on Software Engineering over the Internet (ICSE`99). 337 Literaturverzeichnis http://gidis.ing.unlpam.edu.ar/downloads/pdfs/Olsina_Mus_icse.pdf (verifiziert am 9.3.2005) OLSINA, L.; GODOY, D.; LAFUENTE, G.J.; ROSSI, G. (2001): Specifying Quality Characteristics and Attributes for Websites. In: MURUGESAN, San; DESHPANDE, Yogesh (Hrsg.): Web Engineering, Software Engineering and Web Application Development. Berlin et al.: Springer [Lecture Notes in Computer Science 2016]. S. 266-278. OPPERMANN R., MURCHNER B., REITERER H., KOCH M. (1992): Software-ergonomische Evaluation - Der Leitfaden EVADIS II. Berlin: Walter de Gruyter. OZTEKIN, Uygar; KARYPIS, George; KUMAR, Vipin (2002): Expert Agreement and Content Based Reranking in a Meta Search Environment Using Mearf. In: Proceedings of the Eleventh International World Wide Web Conference 2002 (WWW 2002), Honolulu, Hawaii. 7.-11.Mai. http://www2002.org/CDROM/refereed/520/ (verifiziert am 09.03.2004) OZTEKIN, B. Uygar; ERTÖZ, Levent; KUMAR, Vipin (2003): Usage Aware PageRank. In: Poster Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. http://www2003.org/cdrom/papers/poster/p219/p219-oztekin.html (verifiziert am 16.06.2004) PAGE, Larry; BRIN, Sergey; MOTWANI, R.; WINOGRAD; T. (1998): The PageRank Citation Ranking: Bringing Order to the Web. Manuscript. http://citeseer.nj.nec.com/page98pagerank.html (verifiziert am 21.02.2005) PANTELIC, Martina; PAYER, Sybille (2001): Segen oder Fluch – über Quantität und Qualität von Informationen: In: nfd Information – Wissenschaft und Praxis, Vol.52, Nr.6. S. 321-326. PAZZANI, Michael; MURAMATSU, Jack; BILLSUS, Daniel (1996): Syskill & Webert: Identifying Interesting Web Sites. In: Proceeding of the National Conference on Artificial Intellgience (AAAI96). Portland, USA. http://www.ics.uci.edu/~pazzani/RTF/AAAI.html (verifiziert am 11.02.2000) PAZZANI, Michael; BILLSUS, Daniel (1997): Learning and Revising User Profiles: The Identification of Interesting Web Sites. In: Machine Learning, Vol.27, Nr.3. S. 313331. http://citeseer.nj.nec.com/pazzani97learning.html (verifiziert am 24.10.2001) PENNOCK, David; FLAKE, Gary; LAWRENCE, Steve; GLOVER, Eric; GILES, Lee (2002): Winners Don’t Take All: Characterizing the Competition for Links on the Web. In: Proceedings of the National Academy of Sciences, April. vol.99 (8). S. 5207-5211. http://modelingtheweb.com/modelingtheweb.pdf (verifiziert am 09.03.2004) PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.) (2003): Evaluation of Cross-Language Information Retrieval Systems. Third Workshop of the Cross Language Evaluation Forum 2002, Rome. Berlin et al.: Springer [Lecture Notes in Computer Science 2785]. PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.) (2004): Evaluation of Cross-Language Information Retrieval Systems. Third Workshop of the Cross Language Evaluation Forum 2003, Trondheim. Berlin et al.: Springer [Lecture Notes in Computer Science 3237] Preprint: http://clef.iei.pi.cnr.it:2002/publications.html (verifiziert am 17.06.2004) 338 Literaturverzeichnis PIROLLI, Peter; CARD, Stuart (1995): Information Foraging in Information Access Environments. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ´95). S. 51-58. PIROLLI, Peter; PITKOW, James; RAO, Ramana (1996): Silk from a Sow’s Ear: Extracting Usable Structures from the Web. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ´96). http://www.acm.org/pubs/articles/proceedings/238386/p118-pirolli/118-pirolli.html (verifiziert am 13.02.2001) PIROLLI, Peter; GOSSWEILER, Rich; CARD, Stuart; CHI, Ed. H; MACKINLAY, Jock (1998): Visualizing the Evolution of Web Ecologies. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ´98), Los Angeles, USA. S. 400-407. http://citeseer.ist.psu.edu/chi98visualizing.html (verifiziert am 16.06.2004) PITKOW, James (1997): In Search of Reliable Usage Data on the WWW. In: Proceedings of the Sixth International World Wide Web Conference (WWW6), Santa Clara, USA. http://decweb.ethz.ch/WWW6/Technical/Paper126/Paper126.html (verifiziert am 09.03.2004) PLACHOURAS, Vassilis; OUNIS, Iadh (2002): Query-Based Combination of Evidence on the Web. In: Workshop on Mathematical/Formal Methods in Information Retrieval, ACM SIGIR Conference, Tampere, Finland. http://ir.dcs.gla.ac.uk/terrier/publications/query-scope.pdf (verifiziert am 17.05.2003) PREECE; Jennifer, ROGERS, Yvonne; SHARP, Helen (2002): Interaction Design: beyond human-computer Interaction. Wiley: Heidelberg. PRICE, Rosanne; SHANKS, Graeme (2004): A Semiotic Information Quality Framework. In: IFIP WG 8.3 International Conference on Decision Support Systems (DSS) Prato, Italien. S. 658-672. PRICE, Rosanne; SHANKS, Graeme (2005): Empirical Refinement of a Semiotic Information Quality Framework. In: Proceesings 38th Hawaii International Conference on System Sciences (HICSS). Track 8 - Volume 08. S. 216.1. PUNTER, Teade; LAMI, Giuseppe (1998): Factors of Software Quality Evaluation - Results of Two European Surveys. In: ESCOM-ENCRS ’98. http://citeseer.nj.nec.com/242488.html (verifiziert am 19.10.2001) QUIRK, Christopher (2004): Training a Sentence-Level Machine Translation Confidence Measure. In: 4th International Conference on Language Resources and Evaluation (LREC) Lisbon, Portugal, May 24-30 S. 825-828. RADFORD, Marie L.; BARNES, Susan B.; BARR, Linda R. (2002): Web Research: Selecting, Evaluating, and Citing. Boston, MA: Allyn and Bacon. RAFTER, Rachel; SMYTH, Barry (2001): Towards a Domain Analysis Methodology for Collaborative Filtering. In: 23rd European Annual Colloquium on Information Retrieval Research (ECIR) Darmstadt. März 2001. S. 172-185. RAHM, Erhard (2002): Kurt erklärt: Web Usage Mining. In: Datenbank-Spektrum: Zeitschrift für Datenbanktechnologie vol. 2 (Heft 3). S. 75-76 RASKUTTI, Bhavani; LECKIE, Christopher (1999): The Evaluation of Criteria for Measuring the Quality of Clusters. In: Proceedings of the 16th International Joint Conference on Artificial Intelligence (IJCAI 1999). S. 905-910. 339 Literaturverzeichnis RAUBER, Andreas; MÜLLER-KÖGLER, Alexander (2001): Integrating Automatic Genre Analysis into Digital Libraries. In: Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL`01), Roanoke, USA. 24-28. Juni. S. 1-10. REGAN, David (2000): Human Perception of Objects. Sunderland, MA, USA: Sinauer. REISS, Eric (2000): Practical Information Architecture: a hands-on approach to structuring successful websites. Harlow, England et al.: Addison-Wesley. RIBEIRO, António; LOPES, Gabriel; MEXIA, João (2000): Using Confidence Bands for Parallel Texts Alignment. In: Proceedings of the 38th Conference of the Association for Computational Linguistics (ACL 2000). RICHARDSON, Matthew; DOMINGOS, Pedro (2002): The Intelligent Surfer: Probabilistic Combination of Link and Content Information in PageRank. In: Advances in Neural Information Processing Systems 14. Cambridge, MA: MIT Press. S. 1441-1448. RICHARDSON, Matthew; DOMINGOS, Pedro (2004): Combining Link and Content Information in Web Search. In: LEVENE, Mark; POULOVASSILIS, Alexandra (Hrsg.): Web Dynamics. Berlin et al.: Springer. RIEH, Soo Young (2002): Judgement of Information Quality and Cognitive Authority in the Web. In: Journal of the American Society for Information Science and Technology, vol. 52 (2) S. 145-161. RITTBERGER, Marc (1994): Selektion von Online-Datenbanken in einem offenen Hypertextsystem. In: Rauch, Wolf. (Hrsg.): Mehrwert von Information – Professionalisierung der Informationsarbeit. Proc. des 4. Intl Symposiums für Informationswissenschaft (ISI '94). Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 16] S. 227-237. RITTBERGER, Marc (1998): Qualität in Elektronischen Marktplätzen. In: First European Half-Day Conference on Information Quality and Knowledge, 3rd of December 1998, mcm institute, St. Gallen, Switzerland. HSG Universität St. Gallen, S.26-28. RITTBERGER, Marc (1999): Qualität von Informationsdienstleistungen als Marketinginstrument. In: SCHMIDT, Ralph (Hrsg.): 21. Online-Tagung der DGI. Aufbruch ins Wissensmanagement. S. 341-354. http://marc.rittberger.de/pubs/olbg99.html (verifiziert am 16.08.2004) RITTBERGER, Marc (2000): Quality Evaluation of Electronic Communication Fora with EvalYOUate. In: KLEIN, B. D.; ROSSIN, D. (Hrsg.): Proceedings of the 2000 Conference on Information Quality. M.I.T., S. 137-147. http://marc.rittberger.ch/pubs/iq2000/iq2000_rittberger.pdf (verifiziert am 16.08.2004) RITTBERGER, Marc (2001): Quality Measuring with Respect to Electronic Information Markets and Particularly Online Databases. In: KENT, Alan (Hrsg.): Encyclopedia of Library and Information Science, Vol. 69, Kapitel 68. S. 274-295. New York, NY: Marcel Dekker. http://marc.rittberger.de/pubs/elis_rittberger.pdf (verifiziert am 09.03.2004) ROBERTSON, S.; WALKER, S.; BEAULIEU, M.; GATFORD, M.; PAYNE, A. (1996): Okapi et TREC–4. In: HARMAN, Donna (Hrsg.): The Fourth Text Retrieval Conference (TREC-4) NIST Special Publication. S. 182-191. ROCHA, Luis M. (1999): Talkmine and the Adaptive Recommendation Project. In: Proceedings of the Fourth ACM Conference on Digital Libraries (DL ’99), Berkeley, 340 Literaturverzeichnis USA. 11.-14. August. S. 242-243. http://www.c3.lanl.gov/~rocha/ps/dl99.pdf (verifiziert am 21.05.2004) ROSENBERG, Richard (2001): Filtering the Internet in the USA: Free Speech Denied. In: SPINELLO & TAVANI 2001. S. 163-169. ROSENFELD, Louis; MORVILLE, Peter (2002): Information Architecture for the World Wide Web. Peking et al.: O’Reilly. 2. Auflage ROSSON, Mary Beth; CARROLL, John (2002): Usability Engineering: Scenario-Based Development of Human-Computer Interaction. San Francisco et al.: MorganKaufman. RUBIN, Jeffrey (1994): Handbook of Usability Testing. John Wiley: New York et al. SALTON, Gerard; LESK, Michael (1965): The SMART automatic document retrieval systems - an illustration. Communications of the ACM 8 (6). S. 391 – 398. SALTON, Gerard; MCGILL, Micheal J. (1983): Introduction to Modern Information Retrieval. McGraw-Hill, New York, NY SAVOY, Jacques; RASOLOFO, Yves (2000): Report on the TREC-9 Experiment: Link-Based Retrieval and Distributed Collections. In: VOORHEES & HARMAN 2000. S. 579. SCHEUCH, Karin (1997): Ermittlung von Methoden für die automatische Erkennung von Firmensrukturen in WWW-Hypertexten. Diplomarbeit, Informationswissenschaft Universität Konstanz. SCHILDT, Herbert (2001): JAVA 2. Bonn: Mitp SCHLÖGL, Christian (2000): Informationskompetenz am Beispiel einer szionometrischen Untersuchung zum Informationsmanagement. In: KNORZ & KUHLEN 2000. S. 89112. SHNEIDERMAN, Ben (2000): Designing Trust into Online Experiences. In: Communications of the ACM, vol. 43 (12) S. 57-59. SEBASTIANI, Fabrizio (2002): Machine Learning in Automated Text Categorization. In: ACM Computing Surveys, vol. 34 (1) S. 1-47. SEMAR, Wolfgang (2005): Development of a benchmark system for analyzing collaborative group performance as part of an educational online knowledge management system. In: Proceedings of the 2005 International Conference on Information and Knowledge Engineering (IKE'05). Las Vegas: CSREA Press. S. 5359. http://www.inf-wiss.uni-konstanz.de/People/WS/ike05-cc.pdf SIGURBJÖRNSSON, Börkur; KAMPS, Jaap; DE RIJKE, Maarten (2005a): Blueprint of a CrossLingual Web Retrieval Collection. In: Journal of Digital Information Management, vol. 3 (1) S. 9-13. SIGURBJÖRNSSON, Börkur; KAMPS, Jaap; DE RIJKE, Maarten (2005b): Overview of WebCLEF 2005. Erscheint in: Working Notes Cross Language Evaluation Forum (CLEF) Workshop. Sept. 2005, Wien. http://www.clef-campaign.org SILVA, Ilmério; RIBEIRO-NETO, Berthier; CALADO, Pável; MOURA, Edleno; ZIVIANI, Nívio (2000): Link-Based and Content-Based Evidential Information in a Belief Network Model. In: Proceedings 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Athen. S. 96-103. http://www.dcc.ufmg.br/~berthier/conference_papers/sigir_2000.pdf (verifiziert am 02.06.2004) 341 Literaturverzeichnis SINGHAL, Amit; KASZKIEL, Marcin (2001): A Case Study in Web Search Using TREC Algorithms. In: Proceeedings of the Tenth World Wide Web Conference (WWW 10). Hong Kong. http://www10.org/cdrom/papers/317/ (verifiziert am 09.03.2004) SNAPPER, John (2001): On the Web, Plagiarism Matters More than Copyright. In: SPINELLO & TAVANI 2001. S. 280-294. SOBOROFF, Ian (2002): Does WT10g Look Like the Web? In: Proceedings 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finnland. S. 423 f. SOTO, Rudolfo (1999): Learning and Performing by Exploration: Label Quality Measured by Latent Semantic Analysis. In: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ’99), Pittsburgh, USA. S.418-425. SPILIOPOULOU, Myra ; FAULSTICH, Lukas C. ; WINKLER, Karsten (1999): A Data Miner Analyzing the Navigational Behaviour of Web Users. In: Proceedings of the Workshop on Machine Learning in User Modelling of the ACAI'99 International Conference, Kreta, Griechenland. Juli 1999. SPILIOPOULOU, Myra; POHLE, Carsten; FAULSTICH, Lukas (2000): Improving the Effectiveness of a Web Site with Web Usage Mining. In: MASAND & SPILIOPOULOU 2000 S. 142-162. SPINELLO, Richard (2001): An Ethical Evaluation of Web-Site Linking. In: SPINELLO & TAVANI 2001. S. 295-308. SPINELLO, Richard; TAVANI, Herman (Hrsg.) (2001): Readings in CyberEthics. Sudbury, MA et al.: Jones and Bartlett. SPINK, Amanda; JANSEN, Bernard (2004): Web Search: Public Searching of the Web. Springer. SPOOL, Jared; SCANLON, Tara; SCHROEDER, Will; SNYDER, Carolyn; DEANGELO, Terri (1999): Web Site Usability: A Designer´s Guide. Morgan Kaufman: San Francisco. SRIKANT, Ramakrishnan; YANG, Yinghui (2001): Mining Web Logs to Improve Website Organization. In: Proceeedings of the Tenth World Wide Web Conference (WWW 10). Hong Kong. http://www10.org/cdrom/papers/345/index.html (verifiziert am 24.02.2005) STRÖTGEN, Robert (2002): Treatment of Semantic Heterogeneity using MetaData Extraction and Query Translation. In: Proceedings of CRIS 2002: Gaining Insight from Research Information (Current Research Information Systems) Kassel, 29. - 31. August S. 41-49. http://www.uni-kassel.de/CRIS2002/files/pdf/Stroetgen.pdf (verifiziert am 28.01.2005) SULLIVAN, Terry (1997): Reading Reader Reaction: A Proposal for Inferential Analysis of Web Server Log Files. In: Proceedings of the Third Conference on Human Factors and the Web (HFWEB). http://www.pantos.org/ts/papers/rrr.html (verifiziert am 28.04.2004) SUNDARESAN, Neel; YI, Jeonghee (2000): Mining the Web for Relations. In: Proceedings of the Ninth International World Wide Web Conference on Computer Networks (WWW 9), Amsterdam. Juni 2000. S. 699-711. http://www9.org/w9cdrom/363/363.html (verifiziert am 04.08.2001) THELWALL, Mike (2002): The Top 100 Linked-to Pages on UK University Web Sites: High Inlink Counts Are Not Usually Associated with Quality Scholarly Content. In: Journal of Information Science, vol. 28 (6) S. 483-491. 342 Literaturverzeichnis THELWALL, Mike (2002): Subject Gateway Sites and Search Engine Ranking. In: Online Information Review, vol.26 (2) S. 101-107. THELWALL, Mike (2002): Can Google’s PageRank Be Used to Finds the Most Important Academic Web Pages? In: Journal of Documentation, vol. 59 (2) S.205-217. THELWALL, Mike; WILKINSON, David (2003): Graph Structure in Three National Academic Webs: Power Laws with Anomalies. In: Journal of the American Society for Information Science and Technology (JASIST), vol. 54 (8) S. 706-712. THELWALL, Mike; HARRIES, Gareth (2003): The Connection between the Research of University and Counts of Links to its Web Pages: An Investigation Based upon a Classification of the Relationship of Pages to the Research of the Host University. In: Journal of the American Society for Information Science and Technology (JASIST), vol. 54 (7) S. 594-602. THISSEN, Frank (2000): Screen Design Handbuch. Berlin et al.. Springer. THUROW, Shari (2003): Search Engine Visibility. Boston et al.: New Riders. TOMLIN, John (2003): A New Paradigm for Ranking Pages on the World Wide Web. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 350-355. http://www2003.org/cdrom/papers/refereed/p042/paper42_html/p42-tomlin.htm (verifiziert am 09.09.2003) TOYODA, Masashi; KITSUREGAWA, Masaru (2003): Extracting Evolution of Web Communities from a Series of Web Archives. In: Proceedings of the Fourteenth ACM Conference on Hypertext and Hypermedia (HT’03), Nottingham, UK. 26.-30. August. S. 28-37. http://www.ht03.org/papers/pdfs/4.pdf (verifiziert am 11.05.2004) TRACTINSKY, Noam (1997): Aesthetics and Apparent Usability: Empirically Assessing Cultural and Methodological Issues. In: Proc of the ACM Conference on Human Factors in Computing Systems (CHI ´97) Atlanta, 22.-27. März 1997. S. 115-122. TROMPENAARS, Fons; HAMPDEN-TURNER, Charles (1997): Riding the Waves of Culture: Understanding Cultural Diversity in Business. London: Nicholas Brealey. TSOI, Ah Chung; MORINI, Gianni; SCARSELLI, Franco; HAGENBUCHNER, Markus; MAGGINI, Marco (2003): Adaptive Ranking of Web Pages. In: Proceedings of the Twelfth International World Wide Web Conference (WWW 2003) Budapest. 20.-24. Mai. S. 356-365. http://www2003.org/cdrom/papers/refereed/p820/820-tsoi/820tsoi.html (verifiziert am 09.09.2003) VEDEER, Anton (2001): KDD, Privacy, Individuality, and Fairness. In: SPINELLO & TAVANI 2001. S. 404-412. VOORHEES, Ellen; HARMAN, Donna (2000) (Hrsg.): The Ninth Text Retrieval Conference (TREC-9). NIST Special Publication 500-249. National Institute of Standards and Technology. Gaithersburg, Maryland. November 2000. http://trec.nist.gov/pubs/trec9/t9_proceedings.html (verifiziert am 11.06. 2003) VOORHEES, (2000): Variations in Relevance Judgements and the Measurement of Retrieval Effectiveness. In: Information Processing & Management, Vol.36. S. 679-716. VOORHEES, Ellen; HARMAN, Donna (2001) (Hrsg.): The Tenth Text Retrieval Conference (TREC 10). NIST Special Publication 500-250. National Institute of Standards and Technology. Gaithersburg, Maryland. November 2001. http://trec.nist.gov/pubs/trec10/t10_proceedings.html (verifiziert am 11.06.2003) 343 Literaturverzeichnis VOORHEES, Ellen; BUCKLAND, Lori (2002) (Hrsg.): The Eleventh Text Retrieval Conference (TREC 2002). NIST Special Publication 500-251. National Institute of Standards and Technology. Gaithersburg, Maryland. November 2002. http://trec.nist.gov/pubs/trec11/t11_proceedings.html (verifiziert am 11.06.2003) VOORHEES, Ellen; BUCKLEY, Chris (2002): The Effect of Topic Set Size on Retrieval Experiment Error. In: Proc. of the Annual Intl ACM Conference on Research and Development in Information Retrieval (SIGIR ‘02), Tampere, Finland. S. 316-323. W3C (2005): Web Content Accessibilty Guidelines 2.0 (W3C Working Draft 30 June 2005) http://www.w3.org/TR/WCAG20/ WALTHER, Ralf (2001): Web Mining. In: Informatik Spektrum, vol. 24 (1). S.16-18. WANG, Yalin; HU, Jianying (2002): A Machine Learning Based Approach for Table Detection on the Web. In: Proceedings of the Eleventh International World Wide Web Conference 2002 (WWW 2002), Honolulu, Hawaii. 7.-11. Mai. http://www2002.org/CDROM/refereed/199/ (verifiziert am 06.04. 2004) WEICHSELBAUM, Michael (2003): PHP. Rowohlt Taschenbuch. WEINMAN, LYNDA (2000): WebDesign.2. Zürich: Midas. WESTRA, R.; SHIPPEN, J.; FREEAR, N. (1999): Printing Quality Control Using Template Independent NeuroFuzzy Defect Classification. In: ZIMMERMANN, Hans-Jürgen (Hrsg.): Proceedings of the Seventh European Congress on Intelligent Techniques and Soft Computing (EUFIT ’99), Aachen. 13.-16. September 1999. WILKINSON, Gene; OLIVER, Kevin; BENNETT, Lisa (1998): Internet Information Evaluation Form. University of Georgia. http://it2.coe.uga.edu/Faculty/gwilkinson/EvalForm.pdf (verifiziert am 06.04.2004) WITTEN, Ian; FRANK, Eibe (2000): Data Mining: Practical Machine Learning Tools and Techniques with JAVA Implementations. Morgan Kaufman: San Francisco et al. WOLFF, Christian (2005): Media Design Patterns: Überlegungen zum Multimedia Engineering. In: EIBL, Maximilian; WOLFF, Christian; WOMSER-HACKER, Christa (eds.): Designing Information Systems: Festschrift für Jürgen Krause. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft] S. 209-217. WOMSER-HACKER, Christa (1997): Das MIMOR-Modell. Mehrfachindexierung zur dynamischen Methoden-Objekt-Relationierung im Information Retrieval. Habilitationsschrift. Universität Regensburg, Informationswissenschaft. XUE, Gui-Rong; ZENG, Hua-Jun; CHEN, Zheng; MA, Wei-Ying; ZHANG, Hong-Jiang; LU, Chao-Jun (2003): Implicit Link Analysis for Small Web Search. In: Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR 03), Toronto, Canada. 28. Juli – 1. August. S. 56-63. http://research.microsoft.com/users/hjzeng/p31261-xue.pdf (verifiziert am 11.05.2004) YANG, K. (2001): Combining Text- and Link-Based Retrieval Methods for Web IR. In: VOORHEES & HARMAN 2001. ZADEH, Lofti (1965): Fuzzy Sets. In: Information and Control vol.8. S. 338-353. ZHONG, Ning; YAo, Yiyu; LIU, Jiming; OHSUGA, Setsuo (Hrsg.): Web Intelligence: Research and Development. Proceedings First Asia-Pacific Conference (WI 2001) Maebashi City, Japan. Oktober 2001. Springer: Berlin et al. [Lecture Notes in Artificial Intelligence 2198] 344 Literaturverzeichnis ZHU, Xiaolan; GAUCH, Susan (2000): Incorporating Quality Metrics in Centralized/Distributed Information Retrieval on the World Wide Web. In: Proceedings of the Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), Athens, Greece. S. 288-295. ZIMMERMANN, Hans-Jürgen (1999): Valedictory Editorial. In: Fuzzy Sets and Systems, vol. 100. S. 5-7. 345 346 Anhang Anhang Anhang A: Lineares Regressionsmodell für Benutzertest QUALITY = -0.0002 * nrOutLinks + -0.0002 * nrOutLinksSameHost + -0.3398 * crawlOrder + -0.0019 * heuristicHierachyLevel + 0.0003 * lengthAddress + 0 * nrDOMElems + -0.001 * nrPdf + 0.0002 * nrTagTable + 0.0002 * nrTagTd + -0.0005 * nrTagTr + 0.001 * nrTagH1 + 0.0009 * nrTagH2 + -0.0019 * nrTagScript + -0.008 * nrTagStyle + -0.0002 * nrTextLayoutTags + 0 * nrTagFont + -0.0004 * linkLabelLengthDev + -0.0004 * linkLabelLengthMedian + 0.001 * linkLabelLengthAve + -0.0042 * nrTagFrameset + 0.0013 * nrTagForm + 0 * blanksInText + 0 * lengthPureText + 0.007 * nrtagCol + -0.0126 * nrtagColGroup + 1.07 * relationOutLinksToSize + -0.0007 * tdPerTableMedian + -0.0002 * trPerTableAve + 0.0008 * tdPerTableAve + -0.0013 * tdPerTableDev + 0.0033 * trPerTableDev + 0.0017 * nrTagUL + 0.0042 * nrTagOl + -0.001 * nrLists + -0.103 * relationTableDomElems + -0.6499 * relationNrDOMElemsFileSize + 1.0812 * relationNrOutLinksFileSize + -0.196 * relationImgDomElems + -0.082 * textToSizeRatio + 0.0594 * blanksToTextRatio + 12.7519 * graphicsToSizeRatio + -3.7451 * tableToSizeRatio + 0.0001 * nrTagImg + 0.0001 * textColorGreen + 0 * textColorBlue + 0.0001 * BGColorRed + -0.0003 * BGColorGreen + 0.0002 * BGColorBlue + 0.0001 * firstTableColorRed + 0.0001 * firstTableColorGreen + 0.0001 * firstTableColorBlue + -0.0021 * nrUniqueHTMLColors + -0.0555 * uniqueWordsRatio + -0.0002 * uniqueWordsToSentenceRatio + -0.0961 * listWordRatio + 0.0001 * uniqueWordsPureText + 0 * nrWordsPureText + -0.0002 * nrStopwordsPureText + 0.0496 * stopwordsWordsRatio + 0.0042 * sentenceDomElemsRatio + 0.0268 * tableWordsRatio + -0.0121 * graphicsWordsRatio + 0.0137 * ageDays + 0.0002 * nrImgLinks + -0.0107 * imgLinksRatio + 0.0023 * imgLinksToImgRatio + 0.9799 * imgLinksToSizeRatio + -0.0018 * outLinksWordsRatio + -0.0004 * imgToTableRatio + -0.7911 * stopwordsToTextRatio + 0.6152 347 Anhang Anhang B: Support Vektor Maschinen Modell Ein Support Vektor Maschinen Modell mit linearen Kernel, das in der CrossValidierung eine Trefferquote von 86% erzielte, lieferte folgende Eigenschaften: Unterscheidung Klassen –1 und 1 -3,486 -3,213 -3,045 -3,018 -2,854 -2,526 -2,276 -2,184 -1,752 -1,716 -1,428 -1,249 -1,206 -1,1228 -1,12 -1,109 -1,109 -12,795 -10,231 -6,009 -5,997 -5,301 -4,747 -4,594 -4,452 -4,006 0,898 348 stopwordsToTextRatio graphicsToSizeRatio nrTagH1 nrTagScript sentenceToTextRatio trPerTableMedian nrTextLayoutTags stopwordsToSentenceRatio uniqueWordsPureText nrTagTable nrtagCol nrTagForm textToSizeRatio nrDOMElems imgLinksToSizeRatio linkLabelLengthDev linkLabelLengthMedian nrOutLinks lengthTitle heuristicHierachyLevel tableToSizeRatio uniqueWordsToSentenceRatio nrTagMeta nrHTMLColors graphicsWordsRatio nrWordsPureText textToTableRatio 1,052 1,243 1,249 1,318 1,400 1,489 1,651 1,715 1,802 1,961 1,991 2,051 2,103 2,112 2,191 2,520 2,983 3,205 3,796 3,847 4,276 4,359 4,613 5,160 11,789 19,748 ageDays nrLists nrTagCursBold lengthPureText tdPerTableAve tdPerTableDev nrTagStyle imgLinksRatio stopwordsWordsRatio blanksToTextRatio nrTagUL nrTagLi relationImgDomElems nrTagH3 nrTagFrameset nrTagTd nrImgLinks nrTagImg nrSentenceMarkers listWordRatio relationTableDomElems nrTagOl nrStopwordsPureText nrPdf nrOutLinksSameHost lengthAddress Anhang Klassen –1 und 0 0,0117 -0,0156 -0,0106 -0,0088 -0,0083 -0,0072 -0,0057 -0,0051 -0,0049 -0,0047 -0,0044 -0,004 -0,0037 -0,0035 -0,0032 -0,0031 -0,0024 -0,0023 -0,0023 -0,0021 -0,0021 -0,0019 -0,0017 0,0008 0,0008 nrTagImg lengthTitle nrWordsPureText sentenceDomElemsRatio nrOutLinks nrTagH1 relationNrDOMElemsFileSize uniqueWordsToSentenceRatio tdPerTableAve nrTagH3 graphicsToSizeRatio tdPerTableDev nrDOMElems linkLabelLengthAve sentenceToTextRatio nrtagCol imgLinksToSizeRatio nrLists nrHTMLColors nrTagH2 blanksInText tableWordsRatio nrTagHr entriesPerListAve nrUniqueHTMLColors 0,0009 0,0012 0,0015 0,0016 0,0016 0,0017 0,0017 0,0017 0,0018 0,0021 0,0022 0,0026 0,0026 0,0034 0,0037 0,0038 0,0047 0,0051 0,0055 0,0058 0,0061 0,0074 0,0074 0,01 tdPerTableMedian trPerTableAve imgToTableRatio nrTagStyle trPerTableDev linkLabelLengthDev linkLabelLengthMedian relationImgDomElems nrTagLi listWordRatio nrTextLayoutTags nrOutLinksSameHost trPerTableMedian nrTagCursBold nrTagUL nrTagTd lengthAddress textToTableRatio nrTagTable uniqueWordsPureText heuristicHierachyLevel nrTagFont nrStopwordsPureText nrPdf 349 Anhang Klassen 1 und 0 0,0077 0,0083 -0,0151 -0,0137 -0,0099 -0,0085 -0,0085 -0,0064 -0,0054 -0,005 -0,005 -0,0042 -0,0041 -0,0041 -0,0035 -0,0031 -0,003 -0,0028 -0,0027 -0,0026 -0,0024 -0,0023 -0,0023 -0,0022 -0,0021 350 linkLabelLengthAve tdPerTableDev nrTagH1 nrTagLi relationNrDOMElemsFileSize trPerTableDev graphicsToSizeRatio nrTagH2 nrTagTr linkLabelLengthDev linkLabelLengthMedian nrTagHr nrSentenceMarkers nrImgLinks textToTableRatio stopwordsToSentenceRatio lengthPureText tdPerTableAve nrTagImg nrDOMElems entriesPerListDev uniqueWordsPureText imgToTableRatio nrTagOl nrTagScript 0,0004 0,0004 0,0005 0,0006 0,0007 0,0009 0,0009 0,001 0,001 0,0011 0,0011 0,0016 0,0017 0,0019 0,0024 0,0025 0,0025 0,0028 0,0032 0,0045 0,0046 0,005 0,0051 0,0061 0,0068 nrPdf BGColorGreen nrOutLinksSameHost nrHTMLColors nrTagMeta lengthAddress sentenceToTextRatio trPerTableAve stopwordsWordsRatio tdPerTableMedian imgLinksToSizeRatio tableToSizeRatio nrTagH3 graphicsWordsRatio nrTagTd relationImgDomElems outLinksWordsRatio nrOutLinks fileSize nrTagForm nrTagFont nrTagCursBold nrLists nrTagTable blanksInText Anhang Anhang C: Benutzertest-Vorab-Information Vorab Informationen für Benutzertest zur Qualität von Web-Seiten Immer häufiger wird die geringe Qualität von Internet-Angeboten bemängelt. Die Palette reicht von Spam, über schlecht gestaltete Seiten bis hin zu falschen Informationen von dubiosen Anbietern. Suchmaschinen versuchen zunehmend, die Qualität der Ergebnisse zu bewerten und dem Benutzer nicht nur die relevantesten, sondern auch die besten Seiten anzubieten. In diesem Benutzertest soll die Qualität von Internet-Seiten bewertet werden, um die durchschnittliche Qualität von Angeboten zu messen. Qualität kann aber viel bedeuten und jeder Benutzer hat seine eigenen Vorstellungen. Qualität kann sowohl das Design und/oder den Inhalt betreffen. Wichtig ist Ihre eigene Bewertung. Bitte finden Sie die qualitativ besten Seiten in den Trefferlisten, wenn solche vorhanden sind. Die allerbesten Seiten sollen dann in einer Sammlung von Links zusammengefasst werden. Bewerten Sie bitte die auch Relevanz, also inwieweit die Seiten in der Trefferliste zu den Anfragen passen. 351 Anhang Vergeben Sie dazu Schulnoten von 1 bis 6: Qualität (sehr gute Seiten, eignen sich für ein Linksammlung) Relevanz (passt zur Anfrage) 1 Hervorragende Seite, weiterempfehlen man 1 Passt ganz genau zur Anfrage 2 Gute Seite, noch für Linksammlung geeignet 2 Passt gut zur Anfrage 3 Mittelmäßig 3 Hat entfernt mit Anfrage zu tun 4 Eher schlechte Seite 4 Hat sehr entfernt Anfrage zu tun 5 Sehr schlechte Seite 5 Hat nichts mit Anfrage zu tun 6 Zumutung, Keinen Klick wert 6 Hat überhaupt nichts mit Anfrage oder deren Thema zu tun kann Dazu sehen Sie den Titel der Seite und dessen URL. Sie können die Seite auch aufrufen, sollten von dort aber nicht mehr weiter als einen Klick browsen. Bewerten Sie möglichst die gesamte Trefferliste, die nur aus einer Seite besteht. Verlassen Sie sich auf Ihre intuitive Einschätzung von Qualität. Gründe können Sie gerne angeben, die Versuchsleiter werden sie notieren. 352 Anhang Anhang D: Beispielseiten Die folgenden Seiten wurden alle mit dem linearen Regressionsmodel bewertet. Niedrig bewertete Yahoo-Seiten http://www.f23.parsimony.net/forum46830/ http://www.knabberfische.de/ http://www.hbo-leipzig.de/ http://www.schmerz.com http://www.swr.de/machfit/ http://beisshaus.de http://www.igmbh.de/shari-hilfe/ http://www.augenarzt-hoffmann.de/ http://www.ninas.de/ http://www.mannpharma.de/ http://www.knabberfische.de/ http://www.rueckenleiden.de/ http://www.ernaehrung24.com/ http://www.heilkraeuter.de/lexikon/index.htm http://www.rehadrmarx.de http://www.polyneuropathie.com/ http://www.psoriasis-netz.de/kangal.html http://www.tinto.de/xxl/ http://www.diabetesring.de/ http://www.rokitta-online.de/index3.htm Hoch bewertete Yahoo-Seiten http://www.shiatsu-therapie.de http://www.synvisc.de/ http://www.ahnrw.de/ http://www.gestaltkritik.de/ http://www.mum.org/neues5.htm http://www.uni-saarland.de/fak5/krause/kkol/dsm1.htm http://home.t-online.de/home/t.wischmann/jung.htm http://www.hyperthermie-tagesklinik.de http://www.krebsinfo.de/ki/empfehlung/bc/ http://www.kompetenznetz-schizophrenie.de/ http://www.hypnosehttp://www.blue-sky-project.com/ gesundheitspraxis.de/phobienliste.htm http://www.axion-consult.com/ http://www.wunschkinder.de/gesetze/ESchG.html http://www.aktivmesse.com http://www.wunschkinder.de/gesetze/ESchG.html http://nt1.chir.med.tumuenchen.de/HNPCC/AuszugausVerbundprojekt.h http://www.sbk.org tm http://www.krebsinfo.de/ki/empfehlung/melanom/ http://www.krebsinfo.de/ki/empfehlung/mm/ http://www.uni-duesseldorf.de/WWW/AWMF/ll/dermp02.htm 353 Anhang Hoch bewertete Suchmaschinen Seiten (Klasse 0) http://focus.msn.de/WAVE/w_link_trc.htm?link_trc_rubrik=4&link_trc_story=119720&link_ trc_title=Zeit+f_FCr+ein+Grillfest&link_trc_url=http_3A_2F_2Fshopping.msn.de_2Fft s_2Fftsresults.aspx_3Fpt_3D0_26pa1_3D0_26pa2_3D0_26searchtext_3DGrills_26pt_3 D17_26pa1_3D0_26pa2_3D0_26searchtext_3D http://www.evkirchebadlippspringe.de/gbrief0300/gbrief03-2000.htm http://www.f-n-saul.de/staubsauger/prinzip.htm http://www.fabi-ibbenbueren.de/programm/familie.htm http://www.fabi-ibbenbueren.de/programm/gesundheit.htm http://www.fachbuchprofi.de/Buch/Altwuerttembergische_Lagerbuecher_III_aus_der_oesterreichischen_Zeit _1520_-_1534_Texte_der_Lagerbuecher_der_Stadt_Stuttgart_Erschienen_1997.html http://www.fachbuch-profi.de/Buch/Ausbildungs_und_Beschaeftigungsprojekte_in_der_Jugend_und_Sozialhilfe_Erfahrungen_aus_der_Projektarbeit_und_der_Fortbildung_Erschiene n_1997.html http://www.fh-trier.de/presse/presseinfos/ http://www.film.de/ http://www.fischer-zim.ch/auszuege-drg-pflege/AP-DRG-CH-0110.htm http://www.fischer-zim.ch/temp/ZIM--GDRG-Antraege-DPR-InEK-v1_02--0304.htm http://www.fischer-zim.ch/text-pcssa/t-ga-C-Grundlagen-PCS-0003.htm http://www.fitness-center.at/wissen/schlanke_figur/themenverzeichnis.htm http://www.fitness-plus.ch/fppreise/fppreise.html http://www.fitnesstreff-lindemann.de/kurse/kurse.htm http://www.fitnesstreff-lindemann.de/studio/rundgang/rundgang.htm http://www.flexible-unternehmen.de/kv0404_04.htm http://www.flugplatzzeitung.de/2-Ausgabe2002/schlafstudio.html http://www.flugplatzzeitung.de/2-Ausgabe2002/tierfreund.html http://www.fnweb.de/etc/druckversion/druck.html?visiblePath=_2Farchiv_2F2001_2Fm11_2 F20_2Fta_2Frundschau_2F20011120_0040918000_31901.html http://www.focus.at/artikel/wha_meta.html http://www.focusonline.de/D/DB/DBX/DBX19/dbx19.htm?&icp_t_statistic_extern_obj_statu s=external_link&icp_t_statistic_extern_obj_link_text=Familie+_26+Job_3CBR_3E&ic p_t_statistic_extern_obj_externe_url=http_3A_2F_2Fwww.amica.de_2Fjob_money_2F karriere_2Ffamilie_job http://www.focusonline.de/D/DB/DBX/DBX29/dbx29.htm?&icp_t_statistic_extern_obj_statu s=external_link&icp_t_statistic_extern_obj_link_text=Sex+on+the+Job_3CBR_3E&icp _t_statistic_extern_obj_externe_url=http_3A_2F_2Fwww.amica.de_2Fjob_money_2Fk arriere_2Fsex_job Niedrig bewertete Suchmaschinen Seiten (Klasse 0) http://www.evkirchebadlippspringe.de/gbrief2003-3/inhaltsverzeichnis.htm http://www.flex-fitnesspark.de/index6.html http://www.fachbuch-profi.de/lipage/kuestenklick.html 354 Anhang http://www.evkirchebadlippspringe.de/gbrief2003-1/inhaltsverzeichnis.htm http://www.foucault.de/Frame6840081.htm http://www.eyf.de/verzeichnis.htm http://www.fitnessworld-number1.de/fitness/aerplan.htm http://www.fqn.de/webtipps.htm http://www.fosf.ch/ecoleenf.htm http://www.flex-fitnesspark.de/index11.html http://www.eyf.de/suchdienste.htm http://www.flex-fitnesspark.de/index13.html http://www.eyw.de/verzeichnis.htm http://www.foucault.de/listen/s.htm http://www.foucault.de/Frame6840081.htm http://www.flex-fitnesspark.de/index15.html http://www.foucault.de/listen/b.htm http://www.fitnessworld-number1.de/fitness/aerplan.htm Niedrig bewertete Spam Seiten http://www.hochschulportal.de/ http://www.hotel-booking-service.net/ http://www.fantasyman.org/ http://www.mittelrhein.net/ http://www.seminare-online.de/ http://www.sexzillachat.de/ http://www.stripmeile.com/ http://www.erodom.at/ http://www.mitwohnagentur.info/ http://www.sexvilla.net/ http://www.sexzillaclub.de/ http://www.sexzillamember.de/ http://www.buchen-reise.de/ http://www.fetischabo.de/ http://www.reisen-urlaub-ferien.de/ http://www.bravoo.de/ http://www.xiwaa.de/ http://www.speedstart.de/ http://www.shop-fuehrer.at/ http://www.shop-fuehrer.ch/ Hoch bewertete Spam Seiten http://www.topliste.com/ http://www.gigaherz.ch/ http://www.compnet.at/ http://www.geocities.com/Nationale_Aktion/ 355 Anhang http://www.private-nacktfotos-aktfotos.de/ http://zerozero.ch/ http://www.barmer.de/external/themenwelten/jugend/ego/artikel/ http://www.europa-park.de/ http://www.aktiv-gesund.de/external/themenwelten/jugend/ego/artikel/ http://teen-stream.de/ http://www.film.de/ http://www.go2city.de/ http://www.filmshop.de/ http://www.liebster.de/ http://www.top-sicherheit.de/ http://www.hacker-world.de/ http://www.fortunecity.de/kunterbunt/gartenhaeuschen/331/ http://www.boyshaus.de/ http://www.rubenstelefongirl.de/ http://www.reisecenter.com/ Hoch bewerte Seiten im Benutzertest http://www.die-gesundheitsreform.de/ http://www.rats-apotheke-hildesheim.de/f3.htm http://www.apotheke-sommer.de/johanniskraut.htm http://www.schwan-apo.de/info/archiv/johannis.htm http://www.meine-gesundheit.de/krank/texte/muskelka.htm http://www.erickson.de/gesundheitstipps_muskelkater.htm http://www.zeiss-apotheke.de/Johanniskraut.htm http://www.4lindenapotheke.de/ndk.htm http://www.apo4u.com/notdienst/pph_notplan/www.sonnen-apohi.de.php3?file=www.sonnen-apo-hi.de http://www.apotheke-hildesheim.de/ http://www.andreas-apo.de/Notdienst.html http://www.sportunterricht.de/lksport/muskelkater.html http://forum.myphorum.de/read.php?f=2965&i=607&t=584 http://private-krankenversicherung.epkv.de/krankenversicherung_info_ratgeber_p_details.asp?id=10159 http://www.gesundheitsreform-2004.de/ http://www.webofdiabetes.net/aktuelles/gesundheitspolitik/news/2003/031215.html http://www.klettertraum.de/Arzt/Muskelkater.Powerbar.htm http://www.muskelkatersport.de/ http://www.praxis-wiesbaden.de/patinfo/gesundheitsreform.html http://www.wala.de/pflanze/archiv/johannis.htm http://www.waldapotheke-schoenberg.de/Archiv/johanniskraut.htm http://www.aerzteblatt.de/v4/archiv/artikel.asp?id=30395 http://www.gesundheit.nrw.de/content/e16/e427/e1938/e2052/e2122/index_ger.html http://www.mdr.de/exakt/1044186-hintergrund-790322.html http://www.muskelkater-online.de/ 356 Anhang http://www.phytotherapie-komitee.de/johanniskraut.htm http://www.stada.de/gesundheitundmehr/GesundheitsInfos/Ratgeber_Gesundheit/m/ Muskelkater.asp Geöffnet, aber schlecht bewertet wurden: http://h11.gesundheit.nu/html/pressematerial200007/rhkurz.txt http://www.abda.de/ http://www.allesnursex.de/gynaekologen.htm http://www.apotheke-holzgerlingen.de/ala/intern.htm http://www.beepworld.de/members3/marianne2142/schwedenkraeuter.htm http://www.bodybuilding-power.de/muskelauf.html http://www.bodybuilding-szene.de/638.html http://www.dreienberg-apotheke.de/Service/Offnungszeiten/offnungszeiten.html http://www.elefanten-apotheke-mm.de/portrait/oeffnung.html http://www.fc-straberg.de/hp-seiten/muskelkater.html http://www.ironsport.de/bodybuilding/vorbeugen.html http://www.isselhorster-apotheke.de/dienst.htm http://www.mydrg.de/ http://www.rtl.de/style/807052.html http://www.sport-muskelkater.de/ http://www.uni-protokolle.de/buecher/isbn/3720522768 http://www.verbrauchernews.de/gesundheit/versicherungen/0000004646.html http://www.vitalapotheke.com/ http://www.vitamehr-promotion.com/2599217/neue_gesundheitsreform.htm http://www.walterpuhl.de/3.%20Der%20Muskelkater.htm http://www.bfarm.de/de/Arzneimittel/bes_therap/am_pflanzl/int_Literatur.pdf http://www.fibro-heidelberg.de/Web-Info-B.html http://www.hyperaktivitaet-ads.de/ADS-Hochbegabung-Hyperaktivitaet-LegasthenieDyskalkulie.htm http://www.hyperarchiv.de/arcsos/D/D0000140.htm http://www.muskelkater.com/muskelkater/modules.php?op=modload&name=My_eG allery&file=index&do=showgall&gid=15 http://www.ndr.de/radiomv/service/experten/gesundheitsreform http://www.physio.de/php/meldung.php3?id=4673 http://www.stammelbach.de/apotheke.htm 357