Dokument_1.

Transcrição

Dokument_1.

Thomas Mandl
Die automatische
Bewertung der
Qualität von InternetSeiten im Information
Retrieval
Habilitationsschrift
2006
II
Inhaltsverzeichnis
Inhaltsverzeichnis
0. EINLEITUNG..................................................................................1
0.1
Problemstellung ................................................................................................... 2
0.2
Überblick .............................................................................................................. 4
0.3
Definitionsansätze für Qualität im Internet...................................................... 6
0.4
Bibliothekswissenschaftliche Qualitätskriterien............................................... 7
0.5
Gebrauchstauglichkeit (Usability) ...................................................................... 8
0.6
Realisierungsansätze automatischer Qualitätsbewertung ............................... 8
0.7
Link-Analyse ........................................................................................................ 9
0.8
Fortgeschrittene Modelle .................................................................................. 12
0.9
Automatische Bewertung der Gebrauchstauglichkeit ................................... 14
0.10
Fazit: Realisierungsansätze automatischer Qualitätsbewertung .................. 18
0.11
AQUAINT – Entwicklung, Implementierung und Evaluierung ................... 19
TEIL I: GRUNDLAGEN DER
QUALITÄTSBEWERTUNG IM INTERNET ...............23
1. MENSCH-MASCHINE INTERAKTION IM INTERNET ................25
1.1
Formen der Mensch-Maschine-Interaktion.................................................... 26
1.2
Richtlinien für die Gestaltung .......................................................................... 27
1.3
Gestaltungsprinzipien ....................................................................................... 28
1.4
Ästhetische Gestaltung...................................................................................... 29
1.5
Evaluierung und Messung ................................................................................ 33
1.6
Hindernisse für die Mensch-Maschine-Interaktion ....................................... 35
1.7
Realisierung von Benutzungsoberflächen im Internet................................... 37
2. INFORMATION RETRIEVAL IM INTERNET ...............................39
............................................................................................................39
2.1
Linguistische Vorverarbeitung......................................................................... 41
2.2
Gewichtung und Ähnlichkeitsberechnung ...................................................... 44
III
2.3
Optimierungsansätze ........................................................................................ 47
2.4
Evaluierung........................................................................................................ 51
2.5
Semantische Heterogenität und Semantic Web............................................... 55
2.6
Benutzungsoberflächen und Browsing als Suchstrategie .............................. 57
2.7
Mehrwertkomponenten .................................................................................... 59
3. WEB MINING UND TEXT MINING .............................................. 63
3.1
Maschinelles Lernen ......................................................................................... 66
3.1.1
Neuronales Backpropagation-Netzwerk ......................................................... 67
3.1.2
Data Mining..................................................................................................... 69
3.2
Web Structure Mining ...................................................................................... 70
3.2.1
Autoritätsmaße ................................................................................................ 71
3.2.2
Quantitative Untersuchungen.......................................................................... 72
3.3
Web Usage Mining ............................................................................................ 74
3.3.1
Methodische Probleme.................................................................................... 74
3.3.2
Aufzeichnung der Interaktionsdaten ............................................................... 76
3.3.3
Log-Daten in der Mensch-Maschine-Interaktion............................................ 77
3.4
Web Content Mining......................................................................................... 80
3.4.1
Lexikalisches Wissen ...................................................................................... 80
3.4.2
Web Knowledge Mining ................................................................................. 81
3.5
Text Mining........................................................................................................ 82
3.6
Fazit: Web Mining und Text Mining............................................................... 83
4. QUALITÄT VON INTERNET-ANGEBOTEN ............................... 85
4.1
Rahmen für Qualitätsdefinitionen................................................................... 85
4.2
Qualität vs. Relevanz......................................................................................... 90
4.3
Bezugsgröße von Qualität................................................................................. 93
4.4
Facetten von Qualitätsdefinitionen.................................................................. 94
4.4.1
Kriterien für Qualität....................................................................................... 96
4.4.2
Autorität .......................................................................................................... 98
4.4.3
Zeitliche Aspekte........................................................................................... 101
4.4.4
Gebrauchstauglichkeit................................................................................... 103
4.4.5
Wirtschaftliche Aspekte ................................................................................ 104
4.4.6
Technische und Software-Qualität ................................................................ 105
4.4.7
Interkulturelle Unterschiede.......................................................................... 109
4.5
IV
Fazit: Qualität von Internet-Angeboten........................................................ 111
Inhaltsverzeichnis
5. QUALITÄT IM KONTEXT ..........................................................115
5.1
Arbeitsteilung zwischen Mensch und Maschine ........................................... 115
5.2
Negative Qualität ............................................................................................. 117
5.3
Erkennen von Eigenschaften (Qualitäten) .................................................... 118
5.4
Prozess der Qualitätsbewertung .................................................................... 120
5.5
Wissensquellen für Qualitätsurteile............................................................... 121
5.5.1
Benutzungsdaten............................................................................................ 121
5.5.2
Informationsarbeit durch Setzen von Links................................................... 123
5.5.3
Explizite Qualitätsentscheidungen ................................................................ 125
TEIL II: STAND DER FORSCHUNG ZUR
AUTOMATISCHEN QUALITÄTSBEWERTUNG ....129
6. ANWENDUNGSSZENARIEN AUTOMATISCHER
QUALITÄTSBEWERTUNG..............................................................131
6.1
Qualitätsfilter ................................................................................................... 133
6.2
Integration in Retrieval-Systeme ................................................................... 134
6.3
Werkzeuge und Mehrwertdienste für die Internet-Benutzung................... 135
6.4
Sammeln von Internet-Dokumenten.............................................................. 136
6.5
Evaluation von Institutionen und Personen.................................................. 140
7. AUTOMATISCHE QUALITÄTSBEWERTUNG DURCH LINKANALYSE.........................................................................................143
7.1
Der PageRank-Algorithmus ........................................................................... 145
7.2
Grundlage Bibliometrie .................................................................................. 149
7.3
Überblick über Algorithmen zur Link-Analyse ........................................... 150
7.4
Maße mit zwei Rollen ...................................................................................... 152
7.5
Aspekte der Implementierung........................................................................ 157
7.6
Modifikationen des Page-Rank-Algorithmus ............................................... 161
7.7
Globale Link-Struktur des Internets ............................................................. 166
7.7.1
Statische Modelle .......................................................................................... 166
7.7.2
Dynamische Modelle..................................................................................... 169
7.7.3
Gesamtstruktur des Web................................................................................ 171
7.8
Anwendungen von Link-Analysen zur Community-Erkennung ................. 174
7.9
Integration von Link-Maßen im Information Retrieval .............................. 178
V
7.10
Evaluierung von Link-Analyse ...................................................................... 179
7.10.1
Web Track bis 2001 .................................................................................. 179
7.10.2
Web Track 2002 und 2003 ........................................................................ 182
7.10.3
Fallstudien ................................................................................................. 184
7.11
Bewertung komplexer Einheiten.................................................................... 185
7.12
Fazit: Link-Analyse......................................................................................... 186
8. WEITERFÜHRENDE SYSTEME UND MODELLE FÜR DIE
AUTOMATISCHE QUALITÄTSBEWERTUNG ............................... 191
8.1
Teilweise formalisierte Modelle ..................................................................... 191
8.2
Automatische Zuordnung............................................................................... 193
8.3
Qualitätsfilter................................................................................................... 196
8.3.1
Integration von Qualitätsmetriken in Retrieval-Verfahren ........................... 202
8.3.2
Zeitliche Aspekte........................................................................................... 207
8.4
Gebrauchstauglichkeit .................................................................................... 208
8.4.1
Syntax- und Richtlinienkonformitäts-Prüfung .............................................. 209
8.4.2
Seitenstruktur ................................................................................................ 214
8.4.3
Link-und Hypertext-Struktur......................................................................... 217
8.4.4
Navigation ..................................................................................................... 219
8.5
Qualität von Texten......................................................................................... 220
8.5.1
Lesbarkeitsanalyse ........................................................................................ 221
8.5.2
Syntaxbewertung........................................................................................... 222
8.6
Negative Qualität............................................................................................. 222
8.7
Technische Qualität......................................................................................... 224
9. FAZIT: STAND DER FORSCHUNG ZUR AUTOMATISCHEN
QUALITÄTSBEWERTUNG ............................................................. 227
TEIL III: WEITERENTWICKLUNG AUTOMATISCHER
QUALITÄTSBEWERTUNG: AQUAINT ..................229
10.
DIFFERENZIERTE LINK-ANALYSE...................................... 235
10.1
Strukturelle Einflüsse auf die Link-Analyse................................................. 235
10.2
Inkonsistenzen der Link-Analyse .................................................................. 242
10.3
Berücksichtigung von thematischer Zentralität........................................... 243
10.4
Fazit .................................................................................................................. 244
VI
Inhaltsverzeichnis
11.
ENTWICKLUNG VON QUALITÄTSMODELLEN ...................247
11.1
Überblick .......................................................................................................... 249
11.2
Untersuchte Parameter ................................................................................... 251
11.2.1
Datei-Maße ................................................................................................ 251
11.2.2
Link-Maße ................................................................................................. 252
11.2.3
Häufigkeit von Tags .................................................................................. 253
11.2.4
Farb-Maße ................................................................................................. 253
11.2.5
Tabellen-Maße........................................................................................... 254
11.2.6
Listen-Maße............................................................................................... 255
11.2.7
Sprachliche Eigenschaften......................................................................... 255
11.2.8
Berechnete Größen .................................................................................... 256
11.2.9
Fazit Eigenschaften.................................................................................... 256
11.3
Realisierungsaspekte ....................................................................................... 258
11.4
Qualitäts-Modelle ............................................................................................ 262
11.4.1
Qualitätsmodelle auf der Basis von Yahoo ............................................... 264
11.4.2
Qualitäts-Modelle für die Spam-Erkennung.............................................. 265
11.4.3
Modelle auf der Basis von drei Klassen .................................................... 266
11.4.4
Reduzierte Modelle.................................................................................... 268
11.4.5
Modelle auf der Basis des Benutzertests ................................................... 269
11.5
Analyse der Qualitätsmodelle......................................................................... 271
11.5.1
Wichtige Eigenschaften in den Trainingsdaten ......................................... 271
11.5.2
Wichtige Eigenschaften im Benutzertest................................................... 273
11.6
Fazit Qualitätsmodelle .................................................................................... 275
12. VOM INFORMATION RETRIEVAL ZUM QUALITÄTSRETRIEVAL .....................................................................................277
12.1
Fusion im Information Retrieval ................................................................... 278
12.2
Weitere Überlegungen: Transparente Fusion im Qualitäts-Retrieval ....... 280
12.3
Systembeschreibung ........................................................................................ 282
12.4
Fazit Qualitäts-Retrieval................................................................................. 285
13.
EVALUIERUNG ......................................................................287
13.1
Vorüberlegungen zur Evaluierung ................................................................ 287
13.2
Testaufbau und -durchführung...................................................................... 288
13.3
Ergebnisse: Qualitätsbewertung durch Testpersonen ................................. 291
13.4
Ergebnisse: Mehrfach angebotene Ergebnis-Seiten..................................... 295
VII
13.5
Qualitative Auswertung der Bemerkungen .................................................. 296
13.6
Ergebnisse: Evaluierung der AQUAINT-Ranking-Funktion ..................... 297
13.7
Fazit Evaluierung ............................................................................................ 301
14.
WEB DESIGN MINING ........................................................... 305
15.
AUSBLICK.............................................................................. 313
16.
FAZIT ...................................................................................... 317
17.
LITERATURVERZEICHNIS.................................................... 321
ANHANG.......................................................................................... 347
Anhang A: Lineares Regressionsmodell für Benutzertest....................................... 347
Anhang B: Support Vektor Maschinen Modell........................................................ 348
Anhang C: Benutzertest-Vorab-Information ........................................................... 351
Anhang D: Beispielseiten ............................................................................................ 353
VIII
Einleitung
0. Einleitung
Internet-Suchmaschinen gehören für viele Menschen bereits zum Alltag. So
werden nach Schätzungen pro Tag mehr als 500 Millionen Anfragen an
Suchmaschinen gestellt1. Eine der wichtigsten Herausforderungen des Web
Information Retrieval besteht in der großen Heterogenität der Qualität der
Dokumente. Seit einigen Jahren setzen Suchmaschinen daher link-basierte
Verfahren ein, um von der Häufigkeit der Verweise auf eine Seite auf deren
Qualität zu schließen. Derartige eindimensionale Verfahren versagen allerdings angesichts der Komplexität des Qualitätsbegriffs. Dementsprechend
entstanden in den letzten Jahren erste komplexe Verfahren zur Abschätzung
der Qualität von Internet-Angeboten.
Die vorliegende Arbeit greift diese Tendenz in der Forschung auf und führt
sie weiter. In Teil I erfolgt eine Einführung in das Web Information Retrieval
sowie einige Technologien, die dabei eine Rolle spielen. Teil II stellt den
Stand der Forschung und Technik zur automatischen Qualitätsbewertung im
Internet dar. Dazu erläutern einige einführende Kapitel die Komplexität des
Qualitätsbegriffs im Kontext Internet. Anschließend fasst ein Kapitel den
Stand der Forschung zur Link-Analyse zusammen und weist auf die Schwächen dieses Ansatzes hin. Das folgende Kapitel stellt weitere Ansätze zur
automatischen Qualitätsbewertung vor. Diese werden erstmals aus der Perspektive der automatischen Qualitätsbewertung diskutiert und kategorisiert.
Teil III zieht die Konsequenzen aus den bestehenden Ansätzen. Die
vorliegende Arbeit schlägt zunächst einige Ansätze zur Differenzierung und
Verfeinerung der Link-Analyse vor. Im Anschluss wird ein Qualitätsmodell
entwickelt und implementiert, das zahlreiche Parameter berücksichtigt und in
eine Qualitäts-Suchmaschine integriert. Diese Monographie stellt die Ergebnisse bei der Implementierung und Evaluierung des Systems AQUAINT2
(Automatic Quality Assessment for Internet Resources, Automatische Quali-
1
http://searchenginewatch.com/reports/article.php/2156461 (alle in den Fußnoten aufgeführten Internet-Adressen wurden am 29.08.2005 verifiziert)
AQUAINT wurde von der Deutschen Forschungsgemeinschaft (DFG) unter dem Kennzeichen MA 2411/3-1 gefördert.
1
Einleitung
tätsabschätzung für Internet Ressourcen) vor, in dem die innovativen Qualitätsbewertungs-Verfahren für das Web Retrieval entwickelt wurden.
0.1
Problemstellung
Eine der wichtigsten Herausforderungen des Web Information Retrieval
besteht in der großen Heterogenität der Qualität der Dokumente. Seit einigen
Jahren gilt besonders die niedrige Qualität vieler Internet-Angebote als
Herausforderung für die Forschung1. Die Automatisierung dieser Aufgabe
mag zunächst als überzogene Forderung eines Anhängers der Künstlichen
Intelligenz gelten. Jedoch bewerten Suchmaschinen längst auch die Qualität
von Seiten. Somit ist eine Analyse dieses Forschungsfeldes zur Schaffung von
Transparenz und zur Darstellung der Möglichkeiten und Schwächen dieser
Verfahren sehr wichtig.
Die Bewertung von Wissen nach seiner Qualität stellt einen existentiellen
Prozess für den Nutzer dieser Information dar. Menschen erledigen dies tagtäglich. Diese Aufgabe wird jedoch zunehmend – und zunächst weitgehend
unbemerkt – an Maschinen übertragen. Diese Vorstellung mag so manchen
abschrecken oder zumindest als unrealistisch erscheinen, da die Bewertung
von Qualität als eine intelligente und dem Menschen ureigenste Aufgabe gilt.
Schließlich stehen hinter den Informationsobjekten wiederum Menschen, die
diese erstellt haben. Bei der automatischen Qualitätskontrolle bewertet demnach ein Computer indirekt einen Menschen.
Aber die stark anwachsende Menge von Wissen, das weltweit zur Verfügung
steht, erfordert eine teilweise Übertragung auf Maschinen, oder doch zumindest eine weitgehende Unterstützung des Menschen durch Computer.
Zugleich schafft die weltweite Vernetzung technische Grundlagen zur
Analyse, zum Vergleich und zur Verknüpfung sehr vieler Wissensangebote.
Die Internet-Technologie bietet Möglichkeiten, das Verhalten zahlreicher
Benutzer zu beobachten. Systeme zur Bearbeitung gemeinsamer Informationsräume eröffnen darüber hinaus ein Potential zu computer-unterstützter
Bewertung von Qualität.
1
2
In einem aktuellen Überblicksartikel stellt die Forschungsleiterin von Google das Qualitätsproblem als zweitwichtigste Herausforderung für das Web Information Retrieval dar
(cf. HENZINGER ET AL. 2002). Das in ihren Augen drängendste Problem spamming, also
Täuschungsversuche zum Inhalt, kann ebenfalls als Sonderfall des Qualitätsproblems
interpretiert werden.
Einleitung
Vor allem aber ist die Automatisierung der Qualitätsbewertung bereits
Realität. Im Einsatz befindliche Systeme nutzen zur Zeit einzelne und
begrenzte Facetten von Qualität. Experimentelle Systeme gehen darüber
schon hinaus und basieren auf zahlreichen Facetten von Qualität.
Die Bewertung von Informationsangeboten erfordert die Analyse heterogener
Objekte anhand unterschiedlicher Kriterien. Dabei können die Inhalte ebenso
wie ihre Präsentation, ihre Anordnung und ihre technische Umsetzung ins
Spiel kommen.
Je nach Objekt der Bewertung sind unterschiedliche Aspekte für die Qualität
entscheidend. Während bei der technischen Umsetzung die Ladezeit eine
Rolle spielt, kommt es bei der Präsentation etwa auf die Lesbarkeit und Übersichtlichkeit an, um einige einfache Beispiele zu nennen. Problematischer ist
die inhaltliche Bewertung von Text-Dokumenten, ein Bereich, bei dem automatischen Verfahren eine große Skepsis entgegengebracht wird. Diese Skepsis ist sicher auch weitgehend berechtigt. Andererseits setzt die Szientometrie
gerade in diesem Bereich schon seit langem automatisierbare Verfahren ein.
Entscheidend für die Einschätzung der Möglichkeiten und Grenzen automatischer Verfahren zur Qualitätsbewertung ist die Kenntnis der verwendeten
Verfahren und ihrer Entwicklungsperspektiven. Inhaltliche Faktoren für eine
Abschätzung der Qualität können der Wahrheitsgehalt, der wissenschaftliche
Neuigkeitswert, Aktualität, stilistische Qualität, Grad der Adaptierung an den
Adressatenkreis ebenso sein wie der Verlauf einer Diskussion. An diesen Beispielen wird bereits deutlich, dass Qualität nicht nur im Sinne von Güte
sondern auch als Eigenschaft oder Beschaffenheit verstanden werden muss.
Die Bewertung hängt stark vom Benutzerbedürfnis ab. Demnach ist das
Erkennen einer Eigenschaft Grundvoraussetzung für eine adäquate Bewertung
im Hinblick auf die konkreten Anforderungen einer Benutzungssituation. So
ist das Erkennen journalistischer Texte und ihre Bevorzugung oder Ausblendung für viele Benutzungsbedürfnisse bereits ein entscheidender Mehrwert.
Kern automatischer Verfahren zur Abschätzung von Qualität ist das formale
Erkennen von Eigenschaften. Dies gilt sowohl für die Beschaffenheit als auch
die Güte. Die entscheidende Frage besteht darin, welche Eigenschaften sich
gut hierfür eignen und welche überhaupt formal erkannt werden. Die meisten
automatischen Verfahren, die realisiert sind oder als wissenschaftliche Entwicklungen vorgestellt wurden, greifen auf Verfahren zur Zitationsanalyse in
der Infometrie zurück und übertragen diese von Zitaten auf die im Internet
verwendeten Hypertext-Verknüpfungen oder Links. Hier setzen Verfahren
des Web-Mining und des Web-Measurement an.
3
Einleitung
Trotz der Suche nach automatischen Verfahren sollte dem menschlichen
Urteil immer das Primat eingeräumt werden. Dementsprechend soll es auch
die Richtschnur für Algorithmen vorgeben. So vage das menschliche Qualitätsurteil auch sein mag und so schwierig es zu erfassen ist, es gibt das Lernziel für den Computer vor.
Erfolgreich realisierte Verfahren zur automatischen Qualitätsbewertung
können vielfach eingesetzt werden. Immer wieder genannt wird die Funktion
eines Qualitätsfilters, der in Suchmaschinen als zweiter Schritt nach den
Standard Retrieval-Verfahren aus dem Ergebnis Dokumente mit sehr
niedriger Qualität tilgt. Ein solches System beschreibt auch Teil III dieser
Arbeit.
0.2
Überblick
Die vorliegende Arbeit befasst sich mit der automatischen Abschätzung der
Qualität von Internet-Angeboten. Zunächst muss daher der Qualitätsbegriff
geklärt werden. Anschließend werden automatische Verfahren zur Abschätzung der Qualität diskutiert. Erste Ansätze und Systeme zur Delegation von
Qualitätseinschätzungen an Maschinen existieren bereits. Diese werden hier
erstmals in einem umfassenden state-of-the-art Bericht systematisch dargestellt und bewertet. Darauf aufbauend wird ein neuartiges System zur
automatischen Abschätzung der Qualität von Internet-Angeboten entworfen,
implementiert und evaluiert.
Die Bewertung von Dokumenten nach ihrer Qualität wird im Zeitalter verteilten und in großen Mengen vorliegenden Wissens zunehmend an Software
delegiert. Dies gilt besonders bei der Suche nach Informationen etwa mit
Internet-Suchmaschinen, bei der Qualitätsbewertungssysteme als Filter einsetzbar sind. Aufgrund der hohen Heterogenität der Qualität von InternetDokumenten ist hier ein deutlicher Mehrwert zu erwarten.
Experimentelle Systeme behandeln verschiedene Aspekte und nutzen unterschiedliche Definitionen von Qualität. Im Einsatz befindliche Systeme greifen
zur Zeit noch auf sehr enge Definitionen von Qualität zurück. Die Analyse
der Verlinkungsstruktur im Internet stellt den Prototyp für derartige Systeme
dar.
Die Mehrschichtigkeit des Qualitätskonzepts und der Dokumente erfordert
jedoch auf mehreren Aspekten beruhende Definitionen. Die vorliegende
Arbeit interpretiert die bisherige Forschung unter dem Qualitätsaspekt und
leitet komplexe Qualitätsdefinitionen aus menschlichen Urteilen ab. Formale
Eigenschaften von Internet-Seiten sollen automatisch extrahiert werden.
4
Einleitung
Menschliche Qualitätsurteile unterschiedlichen Ursprungs bilden die Grundlage für Verfahren des maschinellen Lernens. So entstehen Klassifikationssysteme, welche die menschlichen Urteile so weit wie möglich simulieren.
Diese sollen in prototypischen Such- und Filtersystemen integriert werden.
Wichtige Herausforderungen stellen dabei das Auswerten vorliegender Qualitätsurteile und die Evaluierung der Qualitätsfilter dar.
Die stark anwachsende Menge von Wissen, das weltweit zur Verfügung steht,
erfordert eine teilweise Übertragung auf Maschinen, oder doch zumindest
eine weitgehende Unterstützung des Menschen durch Computer. Zugleich
schafft die weltweite Vernetzung technische Grundlagen zur Analyse, zum
Vergleich und zur Verknüpfung sehr vieler Wissensangebote.
Trotz möglicher Bedenken ist die Automatisierung von Qualitätsbewertung
bereits teilweise Realität. Experimentelle Systeme werden in der Forschung
intensiv diskutiert und etliche Systeme befinden sich bereits im realen
Einsatz. Problematisch ist die inhaltliche Bewertung von Text-Dokumenten,
ein Bereich, bei dem automatischen Verfahren eine große Skepsis entgegengebracht wird. Diese Skepsis ist sicher auch weitgehend berechtigt. Andererseits setzen die Szientometrie und die Bibliometrie gerade in diesem Bereich
schon seit langem mathematische und damit automatisierbare Verfahren ein.
Die meisten automatischen Verfahren für Internet-Seiten, die realisiert oder
als wissenschaftliche Entwicklungen vorgestellt wurden, greifen auf Verfahren zur Zitationsanalyse zurück und übertragen diese von Zitaten auf die im
Internet verwendeten Hypertext-Verknüpfungen oder Links.
Für die automatisierte Qualitätsbewertung im Internet ist eine wissenschaftliche Analyse der Möglichkeiten und Grenzen überfällig. Entscheidend für die
Einschätzung der Möglichkeiten und Grenzen automatischer Verfahren zur
Qualitätsbewertung ist deren gründliche Kenntnis. Mit dem hier beschriebenen System AQUAINT wurde ein komplexer Qualitätsfilter entwickelt, der
auf weit mehr Eigenschaften zugreift als Hypertext-Verknüpfungen.
Trotz der Suche nach automatischen Verfahren wird dem menschlichen Urteil
immer das Primat eingeräumt. Dementsprechend soll es auch die Richtschnur
für Algorithmen vorgeben. Menschliche Qualitätsurteile unterschiedlichster
Art werden analysiert und dienen als Ziel für Verfahren des maschinellen
Lernens. Welche Lernverfahren hierfür besonders gut geeignet sind und
welche der formal identifizierbaren Eigenschaften wichtig sind, zeigen die
Experimente. Diese Evaluierung wurde im Rahmen des hier vorgestellten
Habilitationsvorhabens mit dem System AQUAINT (Automatic Quality
Assessment for Internet Resources, Automatische Qualitätsabschätzung für
Internet Ressourcen) durchgeführt.
5
Einleitung
0.3
Definitionsansätze für Qualität im Internet
Qualität bezeichnet meist die Güte oder das Maß der Exzellenz von etwas.
Qualität im Bereich Information ist eine Eigenschaft von Informationsobjekten, die diesen von Menschen zugeordnet wird und ein Maß für die Güte
der Informationsobjekte darstellt. Hinter dieser Zuordnung steht die Hoffnung
oder Überzeugung, dass dieses Objekt ein bestimmtes akutes oder potenzielles Bedürfnis wie etwa ein Informationsproblem oder einen Unterhaltungswunsch in besonderer Weise löst. Dies kann bedeuten besonders vollständig
oder umfassend, besonders schnell, besonders überzeugend, didaktisch gut
aufbereitet oder in Verbindung mit positiven subjektiven Emotionen. Gut
bewertbar wird die Qualität, wenn mehrere Angebote mit weitgehend gleichen Inhalten vorliegen und diese verglichen werden können.
Die Qualität von Information und Informationssystemen stellt ein häufig bearbeitetes Forschungsfeld dar. Die Diskussion erstreckt sich von ISO-Normen
für die technische Qualität von Software über die Qualität von Online-Diensten, die Qualität der Darstellung und Interaktion bis hin zur Qualität des Inhalts.
Qualität lässt sich schwer definieren. Die Definitionsversuche liegen
zwischen zwei extremen Positionen, die verkürzt als objektive und subjektive
Perspektive bezeichnet werden. Eine objektive Position bezieht sich auf
absolute Werte. Demnach existiert genau ein Qualitätswert, den es zu erkennen gilt. Dagegen verwirft die subjektive Position den Glauben an eine absolute Wahrheit und ersetzt ihn durch die Meinung des Betrachters in einem
bestimmten Augenblick. Damit akzeptiert eine subjektive Perspektive die
Existenz mehrerer und möglicherweise unterschiedlicher Qualitätswerte.
Die Unzufriedenheit mit Definitionen von Qualität stammt aus der Unvereinbarkeit der subjektiven und der objektiven Perspektive sowie deren
inhärenter Schwächen.
Reale Definitionen liegen meist zwischen diesen Extremen und führen
produkt-orientierte Ansätze mit ein. Diese produkt-orientierten Definitionen
greifen einzelne Eigenschaften der Produkte auf und legen fest, welche
Ausprägungen dieser Eigenschaften auf einen Grad von Qualität hinweisen.
Produkt-orientierte Definitionen versuchen, die objektiven Ansätze instrumentalisierbar zu machen, indem sie Anhaltspunkte für das Erkennen des
absoluten Qualitätswerts geben. Andererseits verstehen sie sich auch als Versuch der Objektivierung von rein subjektiven Ansätzen. Durch das Vorgeben
von Eigenschaften und Kriterien für Qualität machen sie die Beliebigkeit der
6
Einleitung
subjektiven Entscheidung besser nachvollziehbar. Auf der Ebene der einzelnen Eigenschaft und der Entscheidung, wie ein bestimmter Wert auf Qualität
verweist, unterliegen produkt-orientierte Definitionen jedoch dem gleichen
Dilemma zwischen objektiven und subjektiven Ansätzen. Die Entscheidung
kann einer absoluten Wahrheit folgen oder im Einzelfall dem Benutzer überlassen bleiben. Zufriedenstellende globale Definitionen zur Informationsqualität sind daher nicht zu erwarten.
0.4
Bibliothekswissenschaftliche Qualitätskriterien
Im Internet existieren zahlreiche Kriterienlisten, die produkt-orientierte Qualitätsdefinitionen enthalten. Sie stammen häufig aus der angloamerikanischen
Bibliothekswissenschaft und unterstützen den Benutzer vor allem bei der Einschätzung der Zuverlässigkeit und Glaubwürdigkeit von Internet-Quellen.
Darin tauchen am häufigsten Autorität und Korrektheit als Kriterien für Qualität auf. Ein typisches Beispiel bietet BECK 1997. Die Liste beinhaltet die
Kriterien „Accuracy, Authority, Objectivity, Currency, Coverage“ und bezieht sich damit ausschließlich auf den Inhalt. Eine kurze Liste von Kriterien
legen WILKINSON ET AL. 1998 in einem Fragebogen vor, der zur Bewertung
von Dokumenten im Internet eingesetzt werden soll. Er sieht vier umfassende
Kriterien vor: Credibility, Organization, Links und Graphics. Damit tragen
WILKINSON ET AL. 1998 der Realität des Internets Rechnung, integrieren
Kriterien für die Darstellung und legen wenig Wert auf intrinsische Faktoren.
Diese kurzen Beispiele verdeutlichen schon einige der Schwierigkeiten bei
der Anwendung dieser Listen. Bewertet ein Juror die Objektivität einer Information, so wird diese Entscheidung von seiner subjektiven Einstellung stark
mit beeinflusst. Der Umfang (coverage) stellt ein ambivalentes Kriterium dar.
In einer konkreten Situation und vor dem Hintergrund eines realen Informationsbedarfs kann eine Informationseinheit in einer bestimmen Situation zu
wenig und in einer anderen Situation zu viel Information bieten. Eine objektive Bewertung fällt schwer. Ähnliches gilt für die Kriterien zur Präsentation
von WILKINSON ET AL. 1998. Seiten mit vielen graphischen Elementen und
die ästhetische Gestaltung sprechen die subjektive Wahrnehmung an und lassen sich nur in engen Grenzen objektivieren. Diese Schwierigkeiten treten bei
allen Kriterienlisten auf. Die Anwendung solcher Kriterien ist für Laien
schwierig und wenig sinnvoll. In der Praxis der Benutzung des Internet spielen diese Ansätze keine Rolle. Sie liefern jedoch Ansatzpunkte für die Entwicklung automatischer Verfahren.
7
Einleitung
0.5
Gebrauchstauglichkeit (Usability)
Die Gebrauchstauglichkeit von Internet-Angeboten erweist sich sehr häufig
als mangelhaft, so dass sie als Qualitätskriterium entscheidend ist. Gebrauchstauglichkeit lässt sich schwer in konkrete Definitionen fassen und nur aufwendig erheben. Sie beinhaltet die benutzer- und aufgabengerechte
Gestaltung, wobei sich die subjektive Zufriedenheit sowie die Qualität der
Aufgabenbearbeitung messen lassen.
Die Analyse und Messung von Gebrauchstauglichkeit geschieht in der Regel
durch Benutzertests, in denen die Qualität der Aufgabenbearbeitung in einem
kontrollierten Experiment überprüft wird. Zusätzlich erfolgt die Erhebung der
subjektiven Zufriedenheit, wobei diese beide Aspekte zu unterschiedlichen
Einschätzungen führen können.
Deshalb entstanden auch in diesem Forschungsbereich Kriterien zur Bewertung. Dazu zählen etwa Styleguides mit expliziten Regeln für die Gestaltung 1.
Derartige Kriterienlisten für die Qualität von Web-Seiten sind aber ähnlich
wie die bibliothekswissenschaftlichen Kriterien schwer anzuwenden und unterliegen sehr unterschiedlichen Interpretationen.
0.6
Realisierungsansätze automatischer Qualitätsbewertung
Qualitätsdefinitionen im Internet sind also bereits sehr problematisch. Für
mehrere Aspekte stehen Kriterienlisten zur Verfügung, so etwa für die
bibliothekswissenschaftliche Einschätzung sowie für die Gebrauchstauglichkeit. Jedoch gestaltet sich die Anwendung dieser Kriterien durch den Menschen problematisch. Für automatische Verfahren liefern die Kriterienlisten
somit nur einzelne Eigenschaften, deren Analyse sinnvoll sein kann. Als
Ausgangspunkt für eine Realisierung bietet sich keine Zusammenstellung von
Kriterien an.
Die Automatisierung der Qualitätsabschätzung stellt die Forschung vor noch
größere Probleme. Trotzdem ist der Bedarf an automatischer Qualitätsbewertung aufgrund der Informationsflut und der Heterogenität der Qualität gerade
im Internet so hoch, dass längst Systeme im Einsatz sind, die den Menschen
bei der Qualitätsbewertung unterstützen.
1
8
http://www.uni-koblenz.de/FB4/Institutes/ICV/AGKrause/Materialien/Style%20Guides
Einleitung
0.7
Link-Analyse
Die automatische Bewertung von Qualität im Sinne von Autorität ist am
weitesten verbreitet und kann bereits als Standard-Verfahren im Bereich des
Web Information Retrieval gelten (für einen Überblick cf. BAEZA-YATES &
RIBEIRO-NETO 1999:380f., HENZINGER 2000). Die Autorität basiert im
Wesentlichen auf der Anzahl der Verbindungen, die auf eine Seite verweisen
(in-links). Die Popularität dieses Ansatzes hat mehrere Gründe:
Die Verbindungen einer Seite lassen sich technisch relativ einfach extrahieren
und analysieren. Damit kann das Informationsverhalten von Autoren von
Web-Seiten im großen Umfang beobachtet und ausgewertet werden.
Ein Link kann vereinfacht wie ein Zitat behandelt werden und unter dieser
Prämisse greift die Untersuchung der Autorität im Internet auf die etablierte
Wissenschaft Bibliometrie und ihre Methoden zu. Die Grundidee besitzt eine
hohe Plausibilität und erzeugt durch ihre Einfachheit den Anschein hoher
Transparenz.
PageRank ist in der Suchmaschine Google1 realisiert, die als umfangreichste
und erfolgreichste Implementierung einer automatischen Qualitätsbewertung
gelten kann. PageRank benutzt die Anzahl der Links, die auf eine Seite verweisen, als Parameter für sein Qualitätsmaß, er nutzt aber nicht einfach die
Summe der in-links. Der Einfluss einer Seite auf andere Seiten wächst mit
ihrer Autorität. Je größer die Autorität einer Seite ist, desto höheres Gewicht
haben die von ihr ausgehenden Links. Der Algorithmus arbeitet iterativ.
Zunächst werden alle Seiten mit dem gleichen Autoritätswert initialisiert und
dann berechnet der erste Schritt die neue Autorität aller Seiten aus der Verlinkung. Dabei ergeben sich neue Autoritätswerte, so dass alle Werte nun erneut
berechnet werden und das Ergebnis die angestrebte Autorität besser
wiedergibt. Laut den Autoren konvergiert der Algorithmus nach einer Anzahl
von Schritten (cf. PAGE ET AL. 1998), d.h. bei einem weiteren Berechnungsschritt verändern sich die Autoritätswerte kaum mehr.
Neben PageRank existieren zahlreiche andere Algorithmen zur Link-Analyse,
die sich nach folgenden Kriterien einteilen lassen:
• Global (query independent) und nachbarschaftsbezogen (query
dependent, vincinity oder neighborhood algorithms)
• Anzahl der Qualitätswerte (meist ein oder zwei Maße, authority und
evtl. auch hub)
1
http://www.google.com, http://www.google.de
9
Einleitung
• Behandlung lokaler Links (Verbindungen innerhalb des gleichen
Servers)
• Art der Kombination mit Retrieval Status Value (RSV)
Beim sogenannten HITS- (Hyperlink Induced Topic Search) oder KleinbergAlgorithmus wird deutlich, dass die ersten beiden Parameter anders gesetzt
sind als bei PageRank. Der PageRank-Algorithmus kann als eine vereinfachte
Version des Algorithmus von Kleinberg gelten. Kleinberg zielt ebenfalls auf
Autorität ab und berücksichtigt nur die Verbindungsstruktur zwischen einer
Menge von Seiten. Er führt zwei Rollen ein, um die Autorität zu bewerten
(KLEINBERG 1998). Der HITS-Algorithmus spricht von hubs und authorities
und weist jeder Web-Seite ein Gewicht für beide Rollen zu. Ein hub entspricht einem Mittelpunkt oder Verteiler, dessen Aufgabe im Wesentlichen in
der Bereitstellung von Verbindungen zu anderen Seiten besteht. Dahinter
steht die Vorstellung eines Clearinghouse oder eines guten wissenschaftlichen
Überblickartikels mit vielen Referenzen. Ein hoher hub-Wert kennzeichnet
also einen guten Informationsvermittler. Die authorities dagegen enthalten die
eigentliche Information in unterschiedlicher Qualität.
Der fehlende thematische Bezug von PageRank wird von vielen Autoren bemängelt. Der globale Ansatz, der für jede Seite vor der Anfrage einen Qualitätswert berechnet, bietet natürlich Vorteile für die Implementierung. Darüber
hinaus kommt der thematische Bezug durch die Anfrage zur Wirkung.
Gleichwohl wurden themenabhängige PageRank-Modelle entwickelt, welche
den Seiten abhängig von der Thematik (z.B. HAVELIWALA 2002) oder auch
abhängig vom Benutzer (z.B. JEH & WIDOM 2003) unterschiedliche Qualität
zuweisen.
Für die Bewertung von Hypertext-Links als Qualitätskriterium sind Kenntnisse über deren globale Verteilung im Internet erforderlich. In mehreren aufwendigen Analysen ergaben sich überraschend klare Muster für die Verteilung der Häufigkeit von in-links pro Seite, die für die Qualitätsbewertung in
der Linkanalyse entscheidend sind. Es handelt sich dabei um Verteilungen
nach dem Potenzgesetz. In derartigen Verteilungen überwiegen Elemente mit
sehr niedrigen Werten während einige wenige Elemente sehr hohe Werte
erzielen (HUBERMAN 2001). Für die Qualitätsbewertung bedeutet dies, dass
sehr unterschiedliche Werte verarbeitet werden müssen. Die weitaus meisten
Seiten liegen im niedrigen Bereich und unterscheiden sich nicht sehr stark
voneinander.
Dynamische Modelle versuchen das Entstehen einer derart ungleichen Verteilung zu erklären. Die Ergebnisse von PENNOCK ET AL. 2002 zeigen, dass
10
Einleitung
solche Verteilungen durch das Zusammenwirken zweier Einflussfaktoren
erklärbar sind. Ob ein neuer Link im Internet auf eine bestimmte Seite
verweist, hängt zu 10% vom Zufall ab und zu 90% von der Anzahl der Links,
die bereits auf diese Seite zeigen. Unter Web-Autoren bereits bekannte und
populäre Seiten wachsen sehr viel stärker in ihrer Popularität bzw. in ihrem
PageRank als andere Seiten. Demnach ist ein In-Link nicht nur das Ergebnis
der hohen Qualität einer Seite, sondern auch das Resultat eines dynamischen,
sozialen Prozesses.
PageRank und andere auf Links basierenden Qualitätsmaße wurden im Rahmen großer Evaluierungsstudien zum Information Retrieval bewertet. Die
Ergebnisse des web track in TREC weisen darauf hin, dass die Berücksichtigung von Hypertext-Verknüpfungen die Ergebnisse des Retrieval nicht verbessern. Lediglich bei der Suche nach homepages zeigten sich positive
Effekte. Dies gilt sowohl für die Experimente einzelner Gruppen (z.B. KRAAIJ
& WESTERVELD 2000, SAVOY & RASOLOFO 2000) als auch für die globale
Sicht auf die Experimente (HAWKING 2000:10).
Die Qualitäts- bzw. Autoritätsmaße wie der PageRank-Algorithmus weisen
weitere Nachteile auf:
Kritiker von bibliometrischen Maßzahlen bemängeln seit langem, dass sich
die Qualität wissenschaftlichen Publizierens durch einfache Kennzahlen nicht
messen lässt. Web-Seiten werden von Autoritätsmaßen meist unabhängig von
ihrem Inhalt und Kontext bewertet. Ebenso wie Wissenschaften ein unterschiedliches Zitatationsverhalten aufweisen, ist davon auszugehen, dass je
nach Internet-Dokument-Typ unterschiedliche Verlinkungsneigung herrscht.
Gerade für neue Seiten liefern Autoritätsmaße keine befriedigende Lösung.
Die Suchmaschinen hinken mit der Aktualisierung der von ihnen indexierten
Seiten ohnehin hinterher. Schwerer wiegt aber, dass eine Seite erst von vielen
Benutzern entdeckt und positiv bewertet werden muss, bevor einige dieser
Benutzer in ihren Seiten einen Link auf die Seite aufnehmen. Damit erreicht
PageRank erst nach einer gewissen Zeitspanne seinen endgültigen Wert.
Die Algorithmen für Autoritätsmaße können manipuliert werden. Dies geschieht sicher bereits in hohem Maße, da ein erhebliches wirtschaftliches
Interesse daran besteht, eigene Seiten bei vielen Internet-Suchen auf den
vorderen Ranking-Positionen zu sehen.
Während die Annahme von PageRank auf den ersten Blick plausibel wirkt, ist
es unrealistisch, dass jeder Web-Autor das Ziel seiner Links ständig auf hohe
Qualität untersucht. Zum einen verändern sich viele Seiten sehr häufig und
zum anderen sind besonders populäre Angebote oft sehr groß. So wird oft auf
11
Einleitung
den Verzeichnisdienst Yahoo verlinkt, obwohl sicher kaum ein Autor vorher
den gesamten hierarchischen Baum des Verzeichnisdienstes betrachtet.
Somit sprechen zahlreiche Argumente gegen die Linkanalyse. Zudem hat sie
sich in der Evaluierung nicht zur Verbesserung des Information Retrieval
bewährt. Aus all diesen Gründen eignet sich die Linkanalyse zumindest nicht
als alleiniges Qualitätskriterium. Dieses Manko haben bereits viele Autoren
erkannt, so dass mehrere Qualitätsmodelle über die Linkanalyse hinausgehen
und weitere Kriterien integrieren.
0.8
Fortgeschrittene Modelle
Für das Information Retrieval wurden bereits einige experimentelle
Qualitätsfilter entwickelt, die über die Linkanalyse hinausgehen. Besonders
interessant sind die Ansätze von ZHU & GAUCH 2000 sowie von AMENTO ET
AL. 2000, auf die hier etwas ausführlicher eingegangen wird. AMENTO ET AL.
2000 trennen Qualität explizit von Relevanz und betonen den subjektiven und
vagen Charakter von menschlichen Qualitätsentscheidungen. Das Ziel des
Experiments liegt v.a. darin, die Bewertung von Experten aufgrund einfacher
formaler Eigenschaften der Seiten nachzubilden1. Falls dies gelingt, ließe sich
ein System mit den Eigenschaften der Seiten und den Entscheidungen der
Experten trainieren.
Zu fünf sehr breit definierten Themen suchten AMENTO ET AL. 2000 nach
Internet-Sites. Dazu bedienten sie sich des Verzeichnisdienstes Yahoo und
ließen in einem ersten Schritt von Testpersonen aus den dort präsentierten
Angeboten die besten Sites auswählen. Die besten Angeboten sollten nützlich
und umfassend sein2. Im zweiten Schritt kamen Experten zum Zuge und bewerteten diese Internet-Angebote auf einer Skala mit sieben Stufen nach ihrer
Qualität. Die Ergebnisse wurden mit Rangfolgen verglichen, die sich aus verschiedenen anderen, formal erkennbaren Eigenschaften der Seiten ergeben.
Dabei bezogen AMENTO ET AL. 2000 vor allem auf der Verlinkung basierende
Größen mit ein, die sich nach Analyse der näheren Umgebung ergab. Die
Verbindungs-Struktur wurde sowohl anhand der Anzahl von ankommenden
sowie ausgehenden Links gemessen als auch mit dem PageRank-Algorithmus
und dem hub- und authority- Gewicht von Kleinberg, die oben erläutert
1
“ … we examine how well the various rankings match human quality judgement“
(AMENTO ET AL. 2000:299).
2
“We defined the ‚best‘ items as those that together gave a useful and comprehensive
overview for someone wanting to learn about the topic“ (AMENTO ET AL. 2000:298).
12
Einleitung
wurden. Daneben berechneten AMENTO ET AL. 2000 Größen wie den Umfang
der Datei und die Anzahl von Seiten auf der Site als auch die Anzahl von
Grafiken und Audio-Dateien. Als weitere komplexe Größe bestimmen sie die
Relevanz.
Das Ziel von AMENTO ET AL. 2000 bestand aber in der Messung der
Übereinstimmung von menschlichen Urteilen und dem Ranking anhand
einfacher formaler Größen. Dazu sollte die Präzision anhand eines typischen
Information Retrieval-Maßes überprüft werden. Die fünf besten Indikatoren
für die Vorhersage der Qualitätsaussage der Experten lagen in dem Experiment von AMENTO ET AL. 2000 gleich auf. Dazu gehören drei Größen aus der
Linkanalyse, die Anzahl eingehender Links, der PageRank und Kleinbergs
authority-Index sowie die Anzahl der Seiten der Site und die Anzahl der
Grafiken. Schlechtere Indikatoren dagegen waren die Anzahl der ausgehenden Verbindungen, die Anzahl von Audio-Dateien, die Größe der Startseite
und die inhaltliche Ähnlichkeit. Die Autoren folgerten also, dass die Anzahl
der Seiten eines Angebots ein ebenso guter Indikator für die Qualität dieses
Angebots ist wie die aufwendige Analyse der Verlinkung.
Der Ansatz von ZHU & GAUCH 2000 integriert die Bewertung von Qualität in
ein Information Retrieval-System. Er stellt einen der wenigen Ansätze dar,
welche eine komplexe Definition von Qualität realisieren. Die Autoren schlagen sechs Kriterien für Qualität vor: „currency, availability, information–tonoise ratio, authority, popularity, and cohesiveness“ (ZHU & GAUCH
2000:288). Sie begründen die Auswahl mit einer Analyse von Literatur zu der
intellektuellen Analyse von Qualität und stellen fest, dass diese Aspekte in
den meisten Kriterienlisten vorkommen. Die Aktualität (concurrency) ergibt
sich aus dem Datum der letzten Änderung. Die Größe Information-to-Noise
Ratio lässt sich besten mit Informationsgehalt ausdrücken. Die formale
Umsetzung berücksichtigt die Anzahl der Tokens im Text und setzt sie ins
Verhältnis zu der Dateigröße. Damit wird weder Grafiken und Farben noch
anderen nicht textuellen Informationsträgern ein Informationsgehalt zugeschrieben. Popularität (popularity) bestimmen ZHU & GAUCH 2000 anhand
der Anzahl der Verbindungen, die zu einer Seite führen. Dabei wird die
Qualität der referenzierenden Seite nicht berücksichtigt, d.h. jede Verbindung
zählt gleich viel. Diese Größe entspricht eher dem, was in anderen Studien als
Autorität bezeichnet wird. Autorität messen die Autoren anhand intellektueller Bewertungen im Rahmen eines Internet-Dienstes von Yahoo. Ausgehend
von diesen Definitionen und ihren Umsetzungen stellen ZHU & GAUCH 2000
ein Modell für verteiltes Information Retrieval vor, mit dem sie mehrere
Experimente durchführen. Die Ergebnisse werden mit Standard-Evaluationsmaßen aus dem Information Retrieval bewertet. Die zurückgelieferten Seiten
13
Einleitung
wurden von menschlichen Juroren betrachtet und als relevant oder nicht
relevant eingeordnet. Daraus wurde die durchschnittliche Precision berechnet.
Alle Experimente liefen zunächst ohne Qualitätsmerkmale und mit allen
Qualitätsmerkmalen einzeln. Fast immer ergab sich eine Verbesserung der
durchschnittlichen Precision, die dann als Gewicht der Wichtigkeit des Merkmals diente. Durch die Kombination mehrerer Merkmale ergaben sich teilweise bessere Werte als bei einzelnen Qualitätsmerkmalen, aber in keinem
Fall basierte das beste Ergebnis auf allen Merkmalen. Unklar bleibt, ob die
Ergebnisse auch tatsächlich von höherer Qualität waren oder ob nur mehr
relevante Seiten gefunden wurden.
Die Studien von AMENTO ET AL. 2000 und ZHU & GAUCH 2000 weisen noch
zahlreiche methodische Schwächen auf. Sie greifen auf nur wenige automatisch extrahierbare Kriterien zu und sind auf Seiten zu bestimmten Themen
beschränkt. Trotz dieser Schwächen verweisen die Ergebnisse auf interessante
Tendenzen, die aber für nicht integrative Ansätze nicht ungeprüft übernommen werden sollten:
Je nach Aufgabenstellung und bewerteten Einheiten können völlig andere
Qualitätsmerkmale ausschlaggebend sein. Eine Analyse mehrerer Merkmale
und ihrer Kombinationen zahlt sich aus. Allerdings können teilweise auch
sehr einfache Merkmale eine gute Annäherung von Qualität erreichen.
0.9
Automatische Bewertung der Gebrauchstauglichkeit
Die Gebrauchstauglichkeit stellt ein entscheidendes Qualitätskriterium für
Informationssysteme dar, das sich im Internet kaum von den Inhalten trennen
lässt. Die Bewertung von Gebrauchstauglichkeit ist ein sehr aufwendiger Prozess, welcher in der Regel Benutzertests erfordert. Deshalb entstanden auch in
diesem Forschungsbereich Ansätze zur Automatisierung dieser Bewertung.
Die erste Stufe bilden Systeme, die sich aus HTML-Syntax-Prüfern entwickelten. Sie basieren auf sehr konkreten Forderungen zur Steigerung der
Gebrauchstauglichkeit wie beispielsweise den Forderungen nach alternativen
Texten zu Grafiken und den Anforderungen für sehbehinderte Benutzer
(CHAK 2000). Auch konkrete Gestaltungshinweise, wie sie sich etwa in
Styleguides finden, lassen sich teilweise durchaus automatisch abprüfen.
Diese einfachen Kriterien repräsentieren aber nur einen Teil der
Gebrauchstauglichkeit und vernachlässigen weitgehend die Seitengestaltung
und die Navigation, wie der folgende Abschnitt zeigt. Einfache Werkzeuge
können Benutzertests auf keinen Fall ersetzen.
14
Einleitung
Einige komplexe Ansätze versuchen, weitergehende Ergebnisse zu erzielen.
Sie lassen sich unterteilen in Systeme zur Analyse der Struktur von Seiten
und zur Analyse der Navigation in Sites.
Eine auf formalen Kriterien beruhende Analyse der Benutzbarkeit legen BUCY
ET AL. 1999 vor. Die Autoren betrachten das Internet als neues Medium,
dessen Gestalter noch nach den besten Ausdrucksmöglichkeiten suchen. Die
formalen Eigenschaften, welche in der Studie eine Rolle spielen, wurden zwar
intellektuell erfasst, jedoch könnten diese auch automatisch mit befriedigender Qualität bestimmt werden. Das Ziel der Studie aus dem Gebiet der
Medienwissenschaft bestand darin, zu prüfen, inwieweit bestimmte Gestaltungselemente überhaupt eingesetzt werden, inwieweit ihr Einsatz mit den
Richtlinien populärer Ratgeber zum Web-Design übereinstimmt1 und
inwieweit das Befolgen dieser Ratschläge zu höheren Zugriffsraten führt2. Als
Maßstab für letzteres gilt die Zugriffshäufigkeit, also ein Parameter, der
häufig als Annäherung der Popularität eines Angebots gewertet wird. Die
Popularität muss als eines der wichtigsten Indizien für Qualität im Internet
gewertet werden, so dass die Untersuchung von BUCY ET AL. 1999 auch unter
dem Gesichtspunkt der Qualität betrachtet werden kann.
Die Vorschläge populärer Ratgeber zum Web-Design liegen auf einer sehr
allgemeinen Ebene (REISS 2000, VAN DUYNE ET AL. 2003, ROSENFELD &
MORVILLE 2002). Sie fordern beispielsweise Übersichtlichkeit. Dabei würde
niemand widersprechen. Der sogenannte gesunde Menschenverstand bildet
die Grundlage für scheinbar sinnvolle Richtlinien. Daraus leiten populäre
Ratgeber aber konkrete Umsetzungen ab, die sich jedoch nicht mehr
notwendigerweise aus der allgemeinen Forderung herleiten lassen. Zudem
widersprechen sich die Regeln häufig. Zwar dienen sie einem Einsteiger
sicher als gute Orientierung, als alleiniger Maßstab für die Abschätzung der
Qualität von Organisation, Struktur und Benutzbarkeit können sie sicher nicht
dienen. Darauf deuten auch die Ergebnisse einer empirischen Analyse solcher
Vorschläge durch SPOOL et al. 1999 hin.
BUCY ET AL. 1999 wählen als Maßstab für die Popularität die Zugriffshäufigkeit nach einem Verzeichnisdienst, der vorgibt, qualitativ gute Seiten vor-
1
“Specifically, the study asks if the interactive capabilities of the Web are being exploited
by Web page designers to the extent that the popular literature suggests they are“ (BUCY
ET AL. 1999:1247).
2
“ … is there a relationship between the complexity of Web page design and the amount
of traffic a site receives? Do these relationships vary by domain?“ (BUCY ET AL.
1999:1248).
15
Einleitung
zuhalten. Aus den 5000 am häufigsten von diesem Verzeichnisdienst aus
besuchten Sites wählten die Autoren zufällig eine Menge von 500 Angeboten
aus. Die untersuchte Stichprobe besteht also bereits aus häufig zugegriffenen
Seiten. Mehrere Studierende analysierten alle Angebote intellektuell und
kodierten Banner, Reklame, Animationseffekte, dominierende Farbe, Logos,
Frames, Grafiken und Links. Die Zuverlässigkeit dieser Methode überprüften
die Autoren durch einige Doppelkodierungen von zwei Bewertern. Dabei
stellten sie grundsätzlich eine hohe Übereinstimmung fest, die aber stark von
dem kodierten Element abhing. Während die Hälfte aller Variablen über 90%
Übereinstimmung aufwiesen, zeigte sich bei Banner-Links mit 37% eine
große Abweichung zwischen den menschlichen Bewertern. Für die Analyse
größerer Mengen von Internet-Angeboten hinsichtlich formaler Details sollten
immer automatische Verfahren eingesetzt werden, da sonst die Erhebung zu
viele Ressourcen in Anspruch nimmt. Der Mensch sollte lediglich zur
Bewertung der Qualität etwa in Form seiner allgemeinen Zufriedenheit
herangezogen werden. Trotzdem enthält die von BUCY ET AL. 1999
untersuchte Menge von Parametern interessante Ansatzpunkte.
Die Auswertung sucht nach Korrelationen zwischen den in den Seiten enthaltenen Gestaltungselementen und der Häufigkeit des Zugriffs darauf. Dazu
wurden sechs Variablen untersucht: das Vorkommen grafischer Elemente,
dynamischer Elemente, asynchroner interaktiver Elemente (Links, Kontaktinformation), real-time interaktiver Elemente (Chat, Video-Links, WebKameras) und die Verteilung einer zusammengesetzten Strukturvariable,
welche die Anzahl von Frames, Screens und Page Maps kombiniert. Eine
sechste Variable integriert alle vorherigen fünf (omnibus strucure variable).
Eine signifikante, positive Korrelation ergab sich für die Anzahl von asynchronen Interaktionselementen wie e-mail Adressen. Für kommerzielle Seiten
liegt ebenfalls eine signifikante Korrelation zwischen grafischen Elementen
und Popularität vor. Starke Korrelationen bestehen auch bei UniversitätsSeiten.
Die Studie von BUCY ET AL. 1999 weist in die richtige Richtung, umfasst aber
eine kleine Stichprobe eher populärer Seiten. Zwar sollten mehr Eigenschaften von Internet-Seiten evaluiert werden, aber die Ergebnisse zeigen,
dass grafische Elemente Einfluss auf die Popularität haben.
Die Untersuchung mit den meisten Kriterien für Qualität stammt von IVORY
& HEARST 2002, die das System WebTango entwickelt haben. Darin werden
aus dem Blickwinkel der Gebrauchstauglichkeit 157 einzelne Maße für Seiten
und Sites untersucht. Ziel ist es, statistische Zusammenhänge zwischen Qualitätsurteilen und den untersuchten Kriterien zu finden und die Diskrepanzen in
Vorschläge für Modifikationen umzusetzen, um die entsprechenden Seiten zu
16
Einleitung
verbessern. Stoßrichtung der Untersuchung ist die Gebrauchstauglichkeit der
Internet-Seiten, was zur Folge hat, dass keine inhaltlichen Maße wie
semantische Kohäsion usw. untersucht werden. Zwar umfasst die Studie
Eigenschaften von Text-Elementen, jedoch geht es vorwiegend um die Rezipierbarkeit und nicht den Inhalt. Dementsprechend erfassen IVORY & HEARST
2002 z.B. die Menge an Text, die Größe der Schrift sowie die Komplexität
des Textaufbaus.
Die Datengrundlage der Analyse von IVORY & HEARST 2002 liefert ein
Internetpreis für populäre Seiten. Die mit diesem Webby-Award ausgezeichneten Seiten gelten als qualitativ sehr hochstehend und sie werden analysiert.
Insgesamt erzielen die Autoren sehr hohe Korrelationen zwischen ihrem
Klassifizierer auf der Basis der einfachen Eigenschaften und den Urteilen der
Evaluatoren.
Aus dem Blickwinkel der Anwendung von Qualitätsfiltern im Information
Retrieval wirken die von IVORY & HEARST 2002 gewählten Qualitätsurteile
insgesamt zu positiv. Das Filtern zielt vorwiegend darauf ab, Seiten mit
besonders negativer Qualität zu entfernen. Deshalb sollten Seiten, die überhaupt nicht für einen Preis wie den webby-award in Erwägung gezogen wurden, ebenfalls untersucht werden.
Das Projekt Bloodhound bearbeitet die Navigationsstruktur (CHI ET AL. 2003).
Ausgehend von beispielhaften Benutzeranforderungen in Form einer Anfrage
analysiert das System, inwieweit der Benutzer beim Verfolgen von Links,
deren Text oder Umfeld seiner Anfrage ähnelt, tatsächlich zu Seiten gelangt,
die für sein Problem relevant sind. CHI ET AL. 2000 bezeichnen die textuellen
Informationsspuren in und um Links als Information Scent. Das System
Bloodhound simuliert Log-Files anhand von typischen Informationsbedürfnissen, die der Evaluator als Menge von Suchtermen vorgibt. Das System
analysiert die Link-Struktur der Site und berechnet die Ähnlichkeit aller
Seiten und Links zu den Anfragen. Im Projekt Bloodhound werden Struktur
und Inhalt auf sehr spezifische Weise kombiniert, um zu Qualitätsaussagen zu
gelangen. Dieser sehr interessante Ansatz bleibt aber notwendigerweise auf
kleinere Mengen von Seiten beschränkt.
Die automatische Bewertung von Internet-Seiten umfasst notwendigerweise
die Bewertung der Qualität von Texten. Texte werden in unterschiedlichen
Kontexten von Menschen auf ihre Qualität hin untersucht, wie etwa in
Schulen oder beim Peer Review. Während BERLEANT 2000 in einer kleinen
Studie Zusammenhänge zwischen Formatierungen und der Qualität von
Förderanträgen analysiert, greifen Ansätze zur automatischen Benotung von
Aufsätzen nur auf den Inhalt des Textes zu.
17
Einleitung
Darüber hinaus existieren Untersuchungen für die automatische Qualitätsanalyse von Texten ohne Berücksichtigung von Formatierungen, die sich nur
auf den Inhalt beziehen. FOLTZ ET AL. 1999 stellen den Intelligent Essay
Assessor vor, der auf Latent Semantic Indexing (LSI) beruht. Dieses System
weist einem Aufsatz eine Note zu, indem es seine Ähnlichkeit zu bereits
benoteten Aufsätzen bestimmt. Über verschiedene Mengen von insgesamt
über 1200 Essays erreichte das System eine Korrelation von 0,7 zu der Bewertung von Lehrern. Die Korrelation zwischen zwei Menschen war ebenso
hoch, so dass also die Bewertung des Systems so gut mit einer menschlichen
Bewertung übereinstimmt wie die Bewertung eines weiteren Menschen.
Ähnliche Qualität erreicht das System von LARKEY 1998, der Verfahren zur
Text-Kategorisierung anwendet. LARKEY 1998 benutzt alle Terme als
Merkmale und setzt als Lernverfahren einen Bayes-Klassifizierer sowie Knearest neighbour ein. Die entworfenen Maße wiesen eine Korrelation zu den
Ergebnissen aus psychologischen Experimenten zur Lesbarkeit auf. Die Verständlichkeit von Texten lässt sich demnach durchaus abschätzen und dies
könnte als Qualitätsindikator eingesetzt werden.
Allerdings erfüllen Texte im Internet meist eine völlig andere Funktion als
Essays oder Bedienungsanleitungen. Im Gegensatz zu Aufsätzen kommen in
Internet-Angeboten sehr häufig strukturierte Texte wie etwa Listen oder
Tabelleninhalte vor, die ebenfalls nicht immer Kohärenz als Qualitätskriterium erfordern. Für globale Qualitätsabschätzung bei Internet-Seiten
erscheinen solche Verfahren nicht vielversprechend.
0.10 Fazit: Realisierungsansätze automatischer Qualitätsbewertung
Qualität ist ein mehrschichtiges Phänomen, das kontext- und benutzerabhängig bewertet werden muss. Der obige Überblick über die existierenden
Systeme und verschiedenen Theorien zeigt, dass die automatische Qualitätsbewertung noch am Beginn ihrer Entwicklung steht.
Qualitätskriterien für Internet-Seiten enthalten teilweise plausible und nachvollziehbare Qualitätskriterien, die sich aber nur sehr eingeschränkt für die
automatische Bewertung eignen.
Die am meisten eingesetzten Verfahren zur automatischen Qualitätsbewertung kommen aus der Link-Analyse. Im Vordergrund stehen dabei Algorithmen, welche die Anzahl der Links auf eine Seite als wichtigstes Kriterium für
die Qualität dieser Seite werten. Sie werden im großen Umfang und in realen
Kontexten eingesetzt. Ihr Wert ist aber unklar. Sie weisen zahlreiche
18
Einleitung
Nachteile auf und zeigten sich in keiner bekannten Evaluierung als überlegen.
Die Link-Analyse stellt somit lediglich eine Heuristik zur automatischen
Qualitätsbewertung dar.
Experimentelle Systeme haben erste erfolgversprechende Ergebnisse erzielt.
Sie sind jedoch sowohl beim Input als auch beim Output noch stark eingeschränkt. Diese Ansätze verwenden meist wenige Kriterien als Anhaltspunkte
für die automatische Erkennung der Qualität. Dabei werden die im Information Retrieval stark vernachlässigten formalen und strukturellen Eigenschaften
von Seiten benutzt. Beim Output beschränken sich die meisten Ansätze auf
eine eng definierte Menge von Seiten sowie auf einen einzelnen Aspekt der
Qualität.
Das Potential für die Verbesserung der Qualitätsanalyse ist also bei weitem
noch nicht ausgeschöpft. Die dargestellten Stärken und Schwächen verweisen
auf mögliche Entwicklungslinien für weiterführende Systeme. Das hier vorgestellte Habilitationsvorhaben verfolgte diese Entwicklungstendenzen und
führte zur Realisierung des Qualität-Suchsystems AQUAINT (Automatic
Quality Assessment for Internet Ressources, Automatische Qualitätsabschätzung für Internet Resourcen) und einer Quality Workbench (QuWob).
0.11 AQUAINT – Entwicklung, Implementierung und Evaluierung
Das vorrangige Ziel der Arbeit besteht in der Erstellung eines Modells für
Qualität, das auf menschlichen Urteilen beruht und diese weitgehend wiedergibt. Ein derartiges Modell muss mehrere Aspekte von Qualität integrieren
und zumindest sowohl auf die Autorität als auch die Gebrauchstauglichkeit
abzielen.
Zunächst müssen dazu Qualitätsentscheidungen erfasst werden. Besonders
ergiebig hierfür sind von Redakteuren erstellte Internet-Kataloge und
Clearinghouses. Die Aufnahme in einen oder mehrere solcher Dienste spiegelt ein Qualitätsurteil wieder. Als Vergleichsdaten sollen beliebige Seiten
dienen, die etwa mit Hilfe einer Suchmaschine gesucht werden. In der Vergleichsmenge können natürlich auch qualitativ gute Seiten enthalten sein, die
den Redakteuren aber nicht bekannt sind. Die Evaluierung darf sich deshalb
nicht in der Approximation der Aufnahmeentscheidungen erschöpfen. Auch
das Setzen von Links und Nutzungsdaten soll als Qualitätsentscheidung interpretiert werden.
Nach Erfassen der Qualitätsdaten erfolgt die formale Analyse der Seiten nach
unterschiedlichen Kriterien, die sich automatisch erkennen lassen. Zunächst
19
Einleitung
sollen vor allem die aus der Literatur bekannten Kriterien untersucht werden.
Möglich ist die Einbeziehung des Inhalts einer Seite, die Link-Struktur sowie
die Analyse des HTML-Quellcodes, die Analyse der Site und ihrer Struktur.
In AQUAINT liegt der Schwerpunkt auf der Struktur der Seite. Dabei werden
bereits in anderen Studien verwendete Kriterien benutzt und darüber hinaus
weitere Kriterien entwickelt. Inhalt und Darstellung sind im Internet sehr eng
verbunden. Die Bewertung des Inhalts kann daher selten von dessen Darstellung getrennt werden.
Die Linkanalyse bewertet die Qualität ebenfalls ohne Berücksichtigung des
Inhalts. Sie hat sich in der Praxis etabliert. Aufgrund ihrer Nachteile bedarf
sie der Ergänzung durch andere Verfahren.
Der gleiche Inhalt kann bei unterschiedlicher Darstellung und Präsentation
stark unterschiedlich gut benutzbar sein. Die Gebrauchstauglichkeit oder
Benutzbarkeit stellt einen wichtigen Aspekt von Qualität dar und zu dessen
automatischer Bewertung liegen erste Ansätze vor, die oben erläutert wurden.
Die Benutzbarkeit offenbart sich zu einem Teil in der Präsentation. Die
Anteile grafischer Inhalte, die Ausgewogenheit sowie die Überladenheit oder
Klarheit und Einfachheit einer Seite lassen sich an dem HTML-Quellcode
ablesen. Zu einem Teil gelingt dies auch automatisch. Dieser Ansatz kann auf
der Forschung zur automatischen Bewertung von Benutzungsoberflächen
aufbauen.
Die subjektive Bewertung von Internet-Seiten durch den Benutzer hängt in
hohem Maße von visuellen Eindrücken ab. Diese lassen sich aus der Struktur
der Seite ableiten.
Die experimentellen Ansätze für die Bewertung der Qualität haben mit
verschiedenen formalen Kriterien experimentiert. Dabei haben sich einige
einzelne Kriterien in experimentellen Systemen zum Information Retrieval
und zur Gebrauchstauglichkeit bewährt. Ein umfassender Ansatz ist daher
überfällig.
Eine zuverlässige Definition von Qualität kann sicher nur durch eine
Kombination zahlreicher Kriterien erreicht werden. Zwischen den Qualitätsurteilen und den erfassten Kriterien sollen Verfahren des maschinellen
Lernens Korrelationen und Abbildungen finden. Entsprechende Algorithmen
sowohl für lineare als auch nicht lineare Beziehungen stehen zur Verfügung.
Die Evaluierung erfolgte im Kontext einer Anwendung der Qualitätsabschätzung. Eine abgehobene Bewertung ohne Anwendungsbezug verspricht
bei der Komplexität des Qualitätsbegriffs keine validen Ergebnisse. Als Anwendungsbezug soll die Suche im Internet dienen. Deshalb wird das von
einem Lernverfahren gefundene Modell als Filter in eine Meta-Suchmaschine
20
Einleitung
integriert, welche die Ergebnisse einer Suchmaschine bewertet und in einer
neu sortierten Liste wieder ausgibt. In Retrievaltests mit Studierenden konnte
die Qualität des originalen Suchergebnisses mit der Qualitäts-Liste verglichen
werden.
Durch die Evaluierung ließ sich zeigen, dass das entwickelte Modell
tatsächlich auch zu einer Verbesserung von Suchergebnissen hinsichtlich der
Qualität führt und so für einen Mehrwert sorgt.
Da die Thematik relativ neu und nicht jedem Leser das Potential
automatischer Qualitätsbewertung präsent ist, sollen hier einige
Untersuchungen überblicksartig vorgestellt werden, die in den Hauptteilen
dieser Monographie systematisch aufgearbeitet werden.
BERLEANT 2000 berichtet von einer Untersuchung der formalen Eigenschaften von Anträgen auf Forschungsförderung. Er stellt fest, dass Ablehnung oder Annahme der Anträge mit formalen Eigenschaften korreliert. Nun
denkt man zunächst an Verstöße gegen die formalen Vorschriften der
fördernden Institution. Aber BERLEANT 2000 fand ganz andere Eigenschaften,
die nicht vorgegeben waren, wie Schriftgröße, dem Verwenden von serifenlosen und Serifenschriften und den Pronomen, mit dem der Autor auf sich
selbst referenziert. Im einem Fall führte sogar ein Verstoß gegen die Richtlinien zu höheren Chancen eines Antrags. Teilweise hatten Autoren eine
zusätzliche Zusammenfassung an einer Stelle eingefügt, wo zwar keine
vorgesehen war, wo es aber inhaltlich Sinn machte, eine Zusammenfassung
zu ergänzen.
Eine verblüffend einfache Korrelation zwischen dem wirtschaftlichen Erfolg
und dem Bericht einer Aktiengesellschaft fand die Investmentbank Merill
Lynch. Demnach ist der Umfang des Berichts ein sehr guter Indikator für die
Entwicklung1. Fällt ein bestimmter Pflichtbericht für die Börse größer als 400
KB aus, weist dies auf eine negative Tendenz hin. Dagegen lässt ein
knapperer Bericht auf steigende Kurse schließen. Möglicherweise deutet ein
längerer Text auf einen erhöhten Erklärungsbedarf für negative Entwicklungen hin.
Die Untersuchungen zur Qualität zeigen die Wichtigkeit von formalen Eigenschaften. Da die Hauptanwendung von Qualitätsfiltern im Information
Retrieval liegt, müssen diese in dem größeren Kontext Web Information
Retrieval eingeordnet werden. Bisher war das Information Retrieval fast ausschließlich auf den Inhalt von Dokumenten fixiert. Zunehmend treten jedoch
1
cf. Computerwoche 21/2001
21
Einleitung
weitere Aspekte in den Fokus des Interesses. Formale Eigenschaften, welche
die Qualität erkennen lassen oder der besseren Adaption an Benutzerinteressen dienen, gewinnen Einfluss auf Retrieval-Systeme und beeinflussen das
Ranking der Ergebnisse.
Bereits in den Anfangszeiten des Retrieval konnten Benutzer nach formalen
Eigenschaften recherchieren. Dazu zählt etwa der Autor eines Dokuments, die
Sprache oder das Erscheinungsjahr. Im Internet hat sich die Situation aber
verändert. Wie bereits diskutiert, sind die Dokumente im Web von stark
unterschiedlicher Qualität, während in klassischen Retrieval Kontexten wie
etwa bei Fachdatenbanken eine konsistent hohe Qualität der Dokumente
angestrebt wurde. Diese erzielen die Datenbankbetreiber etwa durch die
Beschränkung auf Fachzeitschriften mit hohen Qualitätsstandards, die durch
peer review gesichert sind. Entsprechende Mechanismen fehlen im Internet
weitestgehend.
Darüber hinaus eröffnet das Internet die Chance zu einer automatischen
Erkennung zahlreicher formaler Eigenschaften, die in klassischen Fachdatenbanken1 nicht zur Analyse zur Verfügung stehen. Dort gilt aber die Qualität
meist als gesichert. Bei der Aufnahme in die Datenbank oder schon bei der
Aufnahme in die Quellen einer Datenbank findet häufig eine Qualitätskontrolle statt, wie z.B. durch Annahme einer Publikation durch ein Herausgebergremium.
1
Beispiele hierfür sind etwa die Fachdatenbanken des Fachinformationszentrums Karlsruhe (FIZ, http://www.fiz-karlsruhe.de).
22
Teil I: Grundlagen der Qualitätsbewertung im Internet
Betrachten wir aber dieses, insofern uns Fähigkeit
gegeben ist, mit vollem Geiste und aus allen Kräften,
so erkennen wir, dass Quantität und Qualität
als die zwei Pole des erscheinenden Daseins gelten müssen
(Johann Wolfgang von Goethe:
Maximen und Reflektionen, Allgemeines, Ethisches, Literarisches, 10121)
Die folgenden Kapitel führen in Grundlagen ein, die im weiteren Verlauf eine
wichtige Rolle spielen. Der damit bereits vertraute Leser kann natürlich sofort
zu deren Anwendung auf die Problematik der Qualitätsbewertung springen
und mit Teil II fortfahren.
Das Internet hat seit dem Anfang der 1990er Jahre eine rasante Entwicklung
durchlaufen, die längst noch nicht abgeschlossen ist. Diese Entwicklung
bedeutet meist ein mehr an Quantität und wird häufig quantiativ beschrieben.
Die Entwicklung der Qualität als zweiter Pol, um das obige Zitat
aufzugreifen, kommt langsamer voran. Sie wird am Ende dieses ersten Teils
und in Teil II und III ausführlich behandelt.
Inzwischen dient das Internet als Informationsmedium für ein breites
Spektrum von Informationsbedürfnissen und gehört für immer mehr
Menschen nicht nur zur beruflichen Tätigkeit, sondern durchdringt den
gesamten Alltag. Gleichwohl besteht nach wie vor die Problematik der
mangelnden Gebrauchstauglichkeit von Internet-Angeboten, die vom
Benutzer aufgrund der mangelhaften Gestaltung der Mensch-Maschine
1
http://www.wissen-im-netz.info/literatur/goethe/maximen/1-16.htm
23
Interaktion kaum genutzt werden können. Diese Thematik behandelt das
folgende Kapitel.
Schon seit langem bietet das Internet eine unübersichtliche Fülle von Angeboten, die nur über Information Retrieval-Systeme zugänglich sind. Eine kurze
Einführung in diese Suchsysteme bietet Kapitel 2.
Der Erfolg des Internets basiert nicht zuletzt auf seinen einfachen Technologien und den offenen Standards, die eine kostenlose oder zumindest
kostengünstige Art der Publikation erlauben. Dadurch entstehen zahllose
Angebote mit zweifelhaften Inhalten oder Benutzungsoberflächen von fragwürdiger Qualität. Insbesondere Internet-Suchmaschinen reagieren
zunehmend auf diese Herausforderung und bewerten die Qualität von
Angeboten, um fragwürdige Seiten zu filtern.
Kapitel 4 und 5 beleuchten das Konzept Qualität aus unterschiedlichen Blickwinkeln und stellen Ansätze für Definitionen vor. Teil II und III greifen dann
das Problem der automatischen Qualitätsbewertung auf.
24
Mensch-Maschine Interaktion im Internet
1. Mensch-Maschine Interaktion im Internet
Informationssysteme sollen die Bedürfnisse von Benutzern erfüllen. Neben
technischen Aspekten wie der Zuverlässigkeit und Schnelligkeit kommt dabei
der sinnvollen Gestaltung der Informationsprozesse und der Benutzungsoberfläche besondere Bedeutung zu. Mit diesen Themen befassen sich die
Mensch-Maschine Interaktion und die Software-Ergonomie, die den
Gebrauch von Informationssystemen für den Benutzer optimieren wollen (als
Einführung siehe PREECE ET AL. 2002).
Allgemein gesprochen muss dazu die Software dem menschlichen Benutzer
angepasst werden und nicht umgekehrt, der Benutzer sich in langwierigen
Lernprozessen dem Informationssystem anpassen1. Somit lässt sich die
Software-Ergonomie als eine Weiterführung der traditionellen Ergonomie
auffassen. Während die traditionelle Ergonomie Werkzeuge an den Menschen
anpasste, bearbeitet die Software-Ergonomie diese Aufgabe für Werkzeuge,
welche die mentalen Fähigkeiten des Menschen unterstützen. Jedoch greift
diese Auffassung noch zu kurz. Die Informationstechnologie durchdringt heute die gesamte Gesellschaft und zahlreiche Lebensbereiche auch außerhalb
der Erwerbstätigkeit. Moderne Definitionen müssen daher auch die damit
verbundenen Aspekte berücksichtigen, wobei das subjektive Empfinden des
Benutzers eine wichtige Rolle spielt2.
Die Gestaltung von Informationssystemen für den Menschen erfordert die
Kenntnis des wahrnehmungspsychologischen Apparats und der kognitiven
Fähigkeiten. Die Struktur, die Leistungsfähigkeit und Einschränkungen des
Gedächtnisses etwa entscheiden über die grundlegenden Formen der Mensch-
1
„Die Software-Ergonomie hat das Ziel, die Software eines Computersystems, mit dem die
Benutzer arbeiten, an die Eigenschaften und Bedürfnisse dieser Benutzer anzupassen, um
ihnen einen hohen Nutzen möglichst vieler relevanter Fähigkeiten und Fertigkeiten zu
ermöglichen.“ (BALZERT ET AL. 1996)
2
„Die Gebrauchstauglichkeit der neuen Technik wird zu einem zentralen Qualitätsmerkmal. Erfolgreiche Geräte und Systeme müssen gleichzeitig nützlich für die zu
erledigenden Aufgaben, benutzbar im Sinne einer intuitiven Verständlichkeit und
möglichst geringen Ablenkung von der Aufgabe und ansprechend im Sinne von Ästhetik
und Spaß an der Nutzung gestaltet sein. Gebrauchstaugliche Software eröffnet dann auch
neue Potentiale zur Reorganisation von menschlicher Arbeit, von Lernen und Freizeit.“
(Memorandum Initiative Mensch und Computer
http://mc.informatik.uni-hamburg.de/memorandum.html)
25
Maschine-Interaktion sowie zahlreiche Design-Entscheidungen. Wissen über
die Aufmerksamkeitsleistung des Menschen hilft bei der Gestaltung von
Arbeitsprozessen.
So ist etwa bekannt, dass Menschen häufig durch Analogien lernen und ein
bereits gelerntes Muster auf eine neue Situation anwenden. Diese kognitive
Strategie nutzen viele Programme zum einen durch den Bezug auf Altwissen
und zum anderen durch Metaphern aus. Altwissen umfasst Kenntnisse zur
Interaktion, welche Benutzer von anderen Benutzungsoberflächen kennen.
Durch die Konstruktion ähnlicher Elemente oder Befehle können Benutzer,
welche bereits damit vertraut sind, sich schneller in eine neue Benutzungsoberfläche einarbeiten. Metaphern nutzen Kenntnisse des Menschen aus
anderen Lebensbereichen aus und erlauben dem Benutzer die Übertragung auf
die Computer-Welt.
1.1
Formen der Mensch-Maschine-Interaktion
Die Interaktion zwischen Mensch und Maschine kann in unterschiedlichen
Formen ablaufen. Bis in die 1970er Jahre interagierte der Mensch
ausschließlich über formale Sprachen mit dem Computer. In den folgenden
Jahrzehnten wuchs das Bewusstsein für die Bedeutung einer einfachen
Interaktion und es entwickelten sich zwei weitere sogenannte natürliche
Formen, die natürlichsprachliche Interaktion und die grafisch-direktmanipulativen Benutzungsoberflächen (BOF).
Die formalsprachliche Interaktion eignet sich für beliebig komplexe Aufgaben
und kann von der Maschine leicht verarbeitet werden. In der Effizienz
überragt sie für viele routinemäßige Aufgaben die anderen Formen nach wie
vor und ist vor allem in der Programmierung nicht zu ersetzen. Allerdings
führt sie zu einer hohen kognitiven Belastung beim Erlernen und Erinnern.
Kleine syntaktische Fehler des Benutzers können zudem große Auswirkungen
haben.
Von den natürlichen Formen der Interaktion verspricht man sich eine
Entlastung des kognitiven Apparats und versucht den Lern- und Erinnerungsaufwand zu reduzieren. Die natürlichsprachliche Interaktion scheint zunächst
völlig ohne Lernaufwand auszukommen, da jeder Benutzer als Altwissen die
Kenntnis einer natürlichen Sprache einbringt, mit der er ebenfalls äußerst
komplexe Anweisungen geben kann. Jedoch können natürliche Sprachen
heute noch nicht vollständig algorithmisch analysiert werden. Bei der gesprochenen Sprache kommt als zusätzliche Hürde die Spracherkennung ins
Spiel. Somit muss der Benutzer meist doch lernen, welche Untermenge der
26
natürlichen Sprache seine Benutzungsoberfläche interpretieren kann, und er
muss sich auf diese beschränken. Zudem findet die zwischenmenschliche
Kommunikation bei weitem nicht nur über die Sprache statt, sondern zum
Beispiel deiktische Gesten klären unter anderem Mehrdeutigkeiten. Die reine
natürlichsprachliche Interaktion hat sich aus diesen Gründen nicht etabliert.
Ein weiterer wichtiger Grund für das Nischendasein der natürlichsprachlichen
Interaktion liegt darin, dass der Benutzer alle Interaktionsbefehle selbst
produzieren muss.
Bei der heute marktbeherrschenden grafisch-direktmanipulativen Interaktion
dagegen repräsentieren grafische Darstellungen die Objekte und bieten
Aktionen zur Auswahl an. Aufgrund des Vorlagecharakters muss der
Benutzer lediglich erkennen und nicht selbst produzieren. Als wichtiges
Interaktionsverfahren dienen Zeigegesten mit spezieller Hardware wie der
Maus. Die Zeigegesten ermöglichen die Manipulation von Objekten wie
Fenster, Buttons, Menüs, Listen oder andere Flächen, die ein Bildschirm
darstellt. Nach der Manipulation liefert die Grafik sofortiges Feedback, das
den Benutzer über die Konsequenzen seiner Aktion informiert. So setzen
grafisch-direktmanipulative Benutzungsoberflächen eine niedrige Einstiegshürde und fördern einen explorativen Lernstil, bei dem der Benutzer ohne
Trainingsmaßnahmen selbst lernt.
Im Internet ist diese Form am bedeutendsten. Genau betrachtet handelt es sich
bei den grafisch-direktmanipulativen Benutzungsoberflächen um eine Mischform, bei der auch die Sprache eine große Rolle spielt. Sprachliche Elemente
sind im Internet und in grafischen Benutzungsoberflächen überall präsent, sei
es in Menüs, als Beschriftung von Aktionselementen oder als Vermittler der
eigentlichen Inhalte. Daneben treten grafische Elemente wie kleine Sinnbilder
(Icons) und Primitive wie Striche oder Punkte auf. Somit tragen sowohl die
Graphik als auch die Sprache zur Bedeutung bei. Die Position eines Begriffs
unterstützt die Semantik der Benutzungsoberflächen ebenso wie der Begriff
selbst. Im Gegensatz zu natürlichsprachlichen Benutzungsoberflächen
vermeiden die grafisch-direktmanipulativen Systeme jedoch Eingaben des
Benutzers, die syntaktisch aufwendig analysiert werden müssen.
1.2
Richtlinien für die Gestaltung
Aufgrund des gestiegenen Bewusstseins für gut gestaltete Benutzungsoberflächen entstanden zahlreiche Wissensquellen für die optimale Gestaltung von
grafisch-direktmanipulativen Systemen. Zum einen handelt es sich dabei um
Normen und Richtlinien auf hoher Ebene, die aus Eigenschaften der
menschlichen Kognition und Perzeption abgeleitet sind. Daneben existieren
27
detaillierte Regeln, die von den technischen Möglichkeiten ausgehen und die
Anwendung vorhandener Interaktionselemente kommentieren.
Für die Qualität der Mensch-Maschine-Interaktion formuliert die ISO-Norm
folgende Grundsätze für Dialoggestaltung (DIN EN ISO 9241-10 2004):
• Aufgabenangemessenheit
• Selbstbeschreibungsfähigkeit
• Steuerbarkeit
• Erwartungskonformität
• Fehlertoleranz
• Individualisierbarkeit
• Lernförderlichkeit
Stärker auf die Anforderungen des Internet gehen Gestaltungsrichtlinien zur
Accessibility des W3C ein (W3C 2005). Neben den Gestaltungsrichtlinien,
die sehr generelle Hilfestellung geben, existieren auch sehr konkrete und
detaillierte Vorschläge für das Design, die meist als Styleguides bezeichnet
werden.
Dazu gehören etwa die Vorschrift, dass jeder Web-Browser einen BackButton besitzen sollte. Eine weitere Vorschrift für Formulare und DialogBoxen besagt, dass eine Eingabe-Möglichkeit durch eine weiße Zeile auf der
Grundfarbe gekennzeichnet sein soll.
Styleguides sorgen vor allem für Konsistenz beim Einsatz von Interaktionselementen und spielen so eine wichtige Rolle. Zahlreiche Firmen formulieren
eigene Styleguides für ihre Anwendungen, um ein einheitliches Design zu
erreichen. Allerdings decken die Styleguides nicht alle möglichen Einsatzgebiete ab und garantieren allein keineswegs eine gute Gebrauchstauglichkeit.
Durch die Regelung vieler Einzelfälle geraten die einzelnen Vorschläge leicht
zueinander in Widerspruch, so dass eine Abwägung erfolgen muss.
Andererseits führen Verstöße gegen die Styleguides oft zu großen Problemen
bei der Gebrauchstauglichkeit.
1.3
Gestaltungsprinzipien
Bei den grafisch-direktmanipulativen Benutzungsoberflächen gelten einige
Prinzipien, bei denen der Gestalter eine Entscheidung treffen muss. Ein
Beispiel hierfür ist die Platzaufteilung auf dem Bildschirm. Sobald mehrere
28
Programme oder Dokumente geöffnet sind, muss der Platz für diese Flächen
aufgeteilt werden. Die dominierenden grafischen Betriebssysteme1 haben sich
für das Fenster-Prinzip entschieden, bei dem sich die einzelnen Flächen
(Fenster) überlappen und überdecken, so dass manche zwar möglicherweise
nicht oder nur teilweise sichtbar sind. Dafür bleibt die Größe immer gleich.
Das Fenster-Prinzip nutzt gewissermaßen eine Metapher aus der realen Welt,
in der Papierdokumente auch übereinander liegen können.
Dagegen teilt das Frames-Prinzip den vorhandenen Platz auf alle Dokumente
auf. Dabei bleiben alle Dokumente sichtbar, der ihnen zur Verfügung stehende Raum schrumpft aber mit der Anzahl der geöffneten Dokumente.
Dieses Prinzip hat teilweise im Internet Verbreitung gefunden, wo Frames als
Gestaltungselement in HTML integriert wurden.
Die dominierenden grafischen Benutzungsoberflächen veranschaulichen auch
die Übertragung eines Prinzips der Objekt-Orientierung aus der Programmierung auf Benutzungsoberflächen. Dokumente werden zu Objekten, in
denen die Methoden gekapselt sind. Innerhalb von Anwendungsprogrammen
wirken Objekte wie Stift, Pinsel, Drucker oder Kopierer. Objekte werden
parametrisiert und können dazu geöffnet werden. Dies erfolgt typischerweise
in einer Dialogbox, die mit einem OK-Button geschlossen wird. Das gegenläufige Prinzip ist die Funktions-Orientierung, bei welcher der Fokus auf
Programmen und Menüs steht. Auch dieses Prinzip ist weit verbreitet.
1.4
Ästhetische Gestaltung
Die zunehmende Benutzung von Informationssystemen im Alltag2 öffnet den
Blick für die ästhetischen Aspekte der Gestaltung von Benutzungsoberflächen. Gefallen und Geschmack sind sehr subjektiv, jedoch wirken auch hier
universale Regeln, die in den Fähigkeiten zur Wahrnehmung und dem Erfahrungswissen des Menschen angelegt sind.
Einen Ausgangspunkt für diese Darstellung bieten die sogenannten Gestaltgesetze. Diese gehen von der Grundannahme aus, dass der Mensch immer
ganzheitlich wahrnimmt. Eine Wahrnehmung kann nicht nur als Summe aller
1
Dazu zählt vor allem Microsoft Windows, jedoch wirken die gleichen Gestaltungsprinzipien auch bei anderen Systemen wie den Windows-Managern unter Linux.
2
So nennt eine Universitäts-Bibliothek auf einer Liste von sieben Gründen für das Erstellen von Web-Seiten neben „Inform“ auch „Personal Enjoyment“, „Share Information“
sowie „Entertain“ (http://lib.colostate.edu/howto/evalweb2.html)
29
Pixel erklärt werden, vielmehr interpretiert der Mensch visuelle Daten bereits
auf einer sehr niedrigen Ebene. Die Gestaltgesetze sind ökonomische Prinzipien, die es dem Menschen erlauben aus der Unmenge von atomaren visuellen Eindrücken sehr schnell zusammenhängende Objekte zu erkennen.
Als Beispiel sei hier das Gesetz der Nähe genannt, dessen Prinzip Abbildung
1.1 zeigt. Die Wahrnehmung fasst nahe zusammenliegende Objekte sofort zu
Einheiten zusammen. Im linken Bereich der Abbildung erkennt der Beobachter vertikale Linien, obwohl die Punkte auch horizontale Linien bilden. Im
rechten Bereich fasst der Beobachter sofort die näher aneinander liegenden
Linien als Einheiten auf.
Abb. 1.1: Gestaltgesetz der Nähe (nach KATZ 1969:34)
Während der Mensch sich der Geltung der Gestaltgesetze nicht entziehen
kann, besitzen die ästhetischen Regeln einen eher vagen Charakter. Sie stehen
damit in einem Spannungsfeld zwischen Geschmack und Universalia. Als
Beispiel seien hier der Gegensatz zwischen schwerer und leichter Gestaltung
sowie die Symmetrie genannt.
30
Abb. 1.2: „Schwere“ vs. „leichte“ Gestaltung (nach FRIES 2002:28)
Abbildung 1.2 zeigt eine an einer Horizontal-Achse gespiegelte Abbildung,
die für sich keinen ästhetischen Wert beansprucht. Fragt man Testpersonen
aber nach der besseren oder angenehmeren Darstellung, so spricht sich meist
eine deutliche Mehrheit für die rechte Variante aus. Dieses Ergebnis überrascht zunächst, da es sich ja im Prinzip um die gleiche Abbildung handelt.
Trotzdem wirken Darstellungen mit größeren und damit schwerer wirkenden
Objekten weiter „oben“ weniger angenehm. Dies liegt wohl an der Erfahrung
des Menschen, wonach schwere Gegenstände häufiger auf dem Boden liegen
oder stehen, während nur leichte Objekte weiter oben zu finden sind. So
befindet sich beispielsweise bei einem Baum der schwere und dicke Stamm
unten, während leichte Blätter auch oben hängen. Der Mensch bevorzugt
offensichtlich Abbildungen, welche diesem Muster folgen. Diesem Prinzip
folgen auch zahlreiche Web-Sites (als Beispiel siehe Abbildung 1.3)
31
Abb. 1.3: Beispiel für „leichte“ Gestaltung (freier Platz oben)
Ebenso empfindet der Mensch meist Abbildungen angenehmer, die an einer
vertikalen Symmetrie-Achse gespiegelt sind, als an einer horizontalen Achse
ausgerichtete Darstellungen. Auch hier bevorzugt der Mensch bekannte
Darstellungsmuster. Dieses Prinzip gilt keineswegs nur für Benutzungsoberflächen, auch Kleidung ist meist vertikal symmetrisch. Die Ästhetik orientiert
sich also an bekannten Mustern und dadurch entstehen Gesetze für die Gestaltung. Jedoch besitzen diese Gesetze einen anderen Charakter als etwa die
Gestaltgesetze. Sie sind weitaus vager und dürfen nicht zu extrem ausgelegt
werden.
Gerade Symmetrie bildet ein gutes Beispiel für den Gegensatz zwischen
Ordnung und Komplexität. Stark symmetrisch ausgerichtete Designs wirken
klar und einfach, sie erscheinen aber auch als reizarm und langweilig. Dagegen erzeugen komplexe Designs ohne symmetrische Ordnung Spannung, führen aber leicht zu einer Reizüberflutung. Je nach Anforderung kann die Lösung stärker in Richtung Ordnung oder in Richtung Komplexität liegen (cf.
EIBL 2000:110 und BÜRDEK 1994:188). Dieses Thema wird auch unter den
Begriffen Reduction und Balance diskutiert (BRINCK ET AL. 2002:185 ff.). Die
Kunst des Designers besteht zu einem Teil darin, die optimale Balance zwi-
32
schen Komplexität und Ordnung zu finden. Ein aktuelles und umfassendes
Lehrbuch der Mensch-Maschine-Interaktion, das den Prozesscharakter des
Designs betont, liegt mit ROSSON & CARROLL 2002 vor.
Abb. 1.4: Beispiel für eine stark symmetrisch gestaltete Seite
1.5
Evaluierung und Messung
Die Vielschichtigkeit der Mensch-Maschine-Interaktion erlaubt keine a-priori
Bestimmung der Qualität. Die Auswirkungen von Interaktionsmechanismen
oder Designalternativen auf den Prozess der Benutzung lassen sich nicht
kognitiv bestimmen, sondern können nur im Einsatz gemessen oder beobachtet werden. Der empirischen Evaluierung der Mensch-Maschine-Interaktion
kommt daher entscheidende Bedeutung zu. Die wichtigsten Methoden sind
die objektiven Testmethoden wie Benutzertests und Log-Analyse. Reichen
die Ressourcen dafür nicht aus, können die Entwickler auch auf subjektive
33
Methoden zurückgreifen. Dazu zählen vor allem Fragebogen, Interviews und
Inspektionsmethoden.
Vor einer Evaluierung sollte für die Anwendung festgelegt werden, was
benutzerorientiert im konkreten Fall bedeuten soll. Drei Facetten wirken hier
zusammen:
• Effektivität: Wie wirkungsvoll ist die Benutzungsoberfläche? Kann der
Benutzer damit Lösungen in bester Qualität erreichen? Dies kann je
nach Anwendung eine besonders fehlerfreie oder vollständige Lösung
sein.
• Effizienz: Wie wirksam und wirtschaftlich ist die Benutzungsoberfläche? Wie steht die Qualität der erreichten Lösungen in Beziehung zu
den eingesetzten Ressourcen? Die wichtigste Kategorie ist dabei die
Zeit, die für die Erarbeitung der Lösung anfällt.
• Zufriedenheit: Wie zufrieden ist der Benutzer mit der Benutzungsoberfläche? Hierbei zählt ausschließlich das subjektive Gefühl des Benutzers.
Die besten Ergebnisse für die Evaluierung hinsichtlich der Effizienz und der
Effektivität liefern die objektiven Methoden. Dabei wird nach messbaren
Faktoren gesucht und subjektive Einflüsse werden vermieden (siehe auch
Evaluierung im Information Retrieval in Kapitel 2). Die Beobachtung der
Benutzer erfolgt meist in einem Benutzertest. Dazu gehört die Beobachtung
und Befragung einiger repräsentativer Testbenutzer während der Erledigung
von Testaufgaben. Alle Interaktionsschritte sollten aufgezeichnet und der Benutzer gefilmt werden (RUBIN 1994). Der Testleiter soll sich dabei möglichst
passiv verhalten. Die Aufgaben müssen aus der Praxis gewonnen werden und
realistische Tätigkeiten abbilden sowie möglichst viel Funktionalität der
Benutzungsoberfläche abdecken. Während des Benutzertests bearbeitet die
Testperson Aufgaben möglichst ohne Unterstützung und erhält nur vorab
meist eine kurze Einführung in das System. Die Auswertung erfolgt je nach
Schwerpunkt. Am häufigsten werden die Korrektheit oder Vollständigkeit der
Lösungen sowie die Zeit erfasst.
Die Log-File-Analyse als objektives Evaluierungsverfahren bespricht
Abschnitt 3.3. Objektive Verfahren besitzen auch Schwächen. Sie können die
subjektive Zufriedenheit nicht erheben und sie liefern bei ihren Ergebnissen
keine Erklärung mit. So kann aus der gemessenen Effektivität nicht gefolgert
werden, warum dieses Ergebnis erzielt wurde. Zum Beispiel können mentale
Modelle nicht entdeckt werden.
34
Dieses Wissen können subjektive Verfahren liefern, bei welchen Benutzer
oder Experten ihre Einschätzung schriftlich oder mündlich abgeben. Bei
Benutzern erfolgen meist Interviews oder Fragebogenaktionen, während
Experten Inspektionsmethoden aufgreifen. Die Einbeziehung der Benutzer
führt nicht nur zu dem Wissensgewinn bei der Evaluierung, sondern sorgt
auch für positive Effekte bei der späteren Akzeptanz. Eine weitere Variante
ist das „laute Denken“ während eines Benutzertests, durch das die internen
Vorgänge aufgedeckt werden sollen. Hier liegt also eine Kombination subjektiver und objektiver Verfahren vor.
Die Inspektionsverfahren können nur als heuristische Methoden gelten. Trotz
aller Richtlinien und Verfahren überwiegen die Subjektivität des Evaluators
und dessen Ausbildung und Erfahrung.
Für Interviews oder Befragungen gelten in der Mensch-Maschine-Interaktion
die gleichen Regeln wie bei anderen Fachgebieten wie etwa der Sozialwissenschaft. Nur bei angemessen gestalteten Fragen und Antwortoptionen kann ein
verlässliches Ergebnis erzielt werden.
1.6
Hindernisse für die Mensch-Maschine-Interaktion
Das plausible und auch häufig formulierte Ziel der Mensch-MaschineInteraktion erreichen Informationssysteme aber nur selten, da dem einige
schwerwiegende Hindernisse im Weg stehen:
• Die Entwicklung für den Benutzer erfordert vom Entwickler oder
Entscheidungsträger das Verlassen des eigenen Standpunktes und das
Einnehmen der Perspektive des Benutzers. Der Entwickler muss das
mentale Modell des Benutzers über das System berücksichtigen. Für
den Entwickler ist es aber äußerst schwierig, das eigene Wissen und
damit das eigene mentale Modell zurückzustellen.
• Die benutzungsgerechte Gestaltung erfordert das Wissen aus mehreren
Disziplinen wie etwa der Informationswissenschaft, der Informatik, der
Psychologie, der Arbeitswissenschaft (Ergonomie) und dem künstlerischen Design. Die traditionellen Ausbildungswege behindern aber
diese Interdisziplinarität.
• Wissen über die benutzergerechte Gestaltung war bereits bei
traditionellen Softwareentwicklern nur wenig verbreitet. Durch die
Einfachheit der Entwicklung von Internet-Angeboten wurden sehr viel
mehr Personen zu Gestaltern, so dass dieses Wissen nun noch weit
weniger verbreitet ist.
35
• Die Anwendungsszenarien von Informationssystemen sind so komplex,
dass es keine Möglichkeit gibt, a priori oder durch das Verfolgen
konkreter Handlungsanweisungen zu gebrauchstauglichen Benutzungsoberflächen zu gelangen.
• Gleichzeitig erweisen sich die Ergebnisse von Prüfungen der
Gebrauchstauglichkeit als sehr vieldimensional und schwer zu
interpretieren. Dem gegenüber steht der subjektive und unmittelbare
Eindruck des Entwicklers oder des Entscheidungsträgers, der sich im
Entscheidungsprozess somit leichter durchsetzt.
• Die Überprüfung der Gebrauchstauglichkeit sollte bereits früh im
Entwicklungsprozess einsetzen. Gleichwohl bleibt sie ein nachgeordneter Prozess, der bei den häufigen Störungen des Entwicklungsprozesses
etwa durch wirtschaftliche Zwänge oder durch Verzögerungen stärker
leidet als andere Phasen.
• Kommt es in einem Entwicklungsprozess trotz aller bisher genannten
Hemmnisse dennoch zu einer Überprüfung der Gebrauchstauglichkeit,
dann erhalten die Entwickler idealer weise eine Rückmeldung von einer
von ihnen unabhängigen Gruppe. Zumindest sollten die Testpersonen
nicht zu dem Entwicklungspersonal zählen. Damit fasst die soziale
Gruppe dieses in einem iterativen Prozess wertvolle Feedback eher als
eine externe und negative Kritik auf, welche man als Gruppe nicht
akzeptiert.
Diese Hindernisse erklären, weshalb trotz des wachsenden Bewusstseins nach
wie vor schlecht gestaltete Benutzungsoberflächen überwiegen.
Die Gebrauchstauglichkeit stellt demnach ein schwer zu fassendes Qualitätsmerkmal von Informationssystemen dar. Sie stellt sich jedoch zunehmend als
entscheidendes Kriterium dar, da zunehmend viele Anbieter ähnliche Bedürfnisse bedienen. Während sich also die Inhalte weitgehend ähneln, versuchen
die Anbieter sich durch das Design zu positionieren und für eine Wiedererkennung zu sorgen. Dann wird das Design und die damit einhergehende
Gebrauchstauglichkeit zum einzigen Selektionskriterium. Dies ist für ECommerce besonders kritisch, da der Wechsel zu einem Konkurrenten sehr
einfach ist. Die Qualität muss also keineswegs als absoluter Wert definiert
werden, sondern die vergleichende Analyse entscheidet.
36
1.7
Realisierung von Benutzungsoberflächen im Internet
Basis des Internet bildet die Auszeichnungssprache (Markup Language)
HTML (Hypertext Markup Language). Darauf aufbauend wurden komplexere
und mächtigere Sprachen und Technologien geschaffen, aber HTML überwiegt nach wie vor. HTML ist eine einfache Auszeichnungssprache, in der
sogenannte Tags das Layout des darin eingeschlossenen Textes bestimmen.
Einen Überblick bietet NIEDERST 1999. Die einfachen Gestaltungsanweisungen erlauben neben dem Layout von Text auch das Einbinden multimedialer Objekte. Viele Gestaltungselemente werden vielfältig verwendet. So
bilden die HTML-Tabellen nicht nur Daten-Tabellen im relationalen Stil.
Aufgrund der eingeschränkten Formatiermöglichkeiten stellen HTML-Tabellen ein wichtiges Formatierelement dar, das erfahrene Web-Designer intensiv
einsetzen. Die automatische Unterscheidung zwischen den Einsatzarten von
Tabellen ist nicht trivial (cf. WANG & HU 2002). Inzwischen werden HTML
Seiten mit Editoren erstellt oder aus Content-Management-Systemen generiert, so dass für Autoren Kenntnisse von HTML Grundlagen nicht mehr
erforderlich sind.
Wichtige Erweiterungen von HTML stellen Skriptsprachen dar, die einfach
im HTML Quellcode eingefügt werden können. JAVA-Script bietet einfache
Interaktionselemente wie Eingabenfelder, Auswahllisten und Buttons. Die
Skriptsprache PHP erlaubt das Einbinden von Datenbank-Abfragen (WEICHSELBAUM 2003). Neuere Entwicklungen der Auszeichnungssprachen hin zu
flexiblen und konfigurierbaren Werkzeugen wie der Extensible Markup
Language XML greift Abschnitt 2.5 auf.
Insbesondere die Programmiersprache JAVA bietet seit einigen Jahren neue
Möglichkeiten im Internet. JAVA ist eine vollwertige, interpretierte
Programmiersprache, mit der sich jedes beliebige Programm schreiben lässt.
In Internet-Browser sind Interpreter eingebaut, welche die Ausführung des
Programms erlauben. Das Programm wird vom Server übertragen und auf
dem Client ausgeführt, so dass nun sämtliche Inhalte und jede Funktionalität
im Internet zur Verfügung steht. Zwar verhindern derzeit noch Sicherheitsbedenken einen breiten Einsatz von JAVA, doch die Entwicklung wird in
dieser Richtung weitergehen. Mit JAVA lassen sich innerhalb und außerhalb
eines Internet-Browser beliebige Gestaltungselemente in Benutzungsoberflächen einbinden. (SCHILDT 2001) Noch häufiger als JAVA werden
Werkzeuge für die dynamische Gestaltung von Web-Seiten eingesetzt. Dazu
zählen vor allem Flash und Shockwave, mit denen bewegbare Elemente und
Animationen erstellt werden können (WEINMAN 2000).
37
Information Retrieval im Internet
2. Information Retrieval im Internet
Information Retrieval (IR) beschäftigt sich mit der Suche nach Information
und mit der Repräsentation, Speicherung und Organisation von Wissen.
Information Retrieval modelliert Informationsprozesse, während derer
Benutzer in einer großen Menge von Wissen die für ihre Problemstellung
relevante Teilmenge identifizieren. Dabei entsteht Information, die im
Gegensatz zum gespeicherten Wissen problembezogen und an den Kontext
angepasst ist.
Die Fachgruppe Information Retrieval der Gesellschaft für Informatik
definiert Information Retrieval in Abgrenzung zu Datenbank-Abfragen als
vagen Prozess der Interaktion des Benutzers mit dem System, bei welchem
das Ergebnis vor dem Prozess nicht eindeutig bestimmt werden kann.
Demnach beschäftigt sich Information Retrieval
„schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage
Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht
eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen
Kriterien insbesondere auch solche, die nur im Dialog iterativ durch
Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können: häufig müssen zudem mehrere
Datenbasen zur Beantwortung einer einzelnen Anfrage durchsucht
werden. Die Darstellungsform des in einem IR-System gespeichertem
Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale
Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit
(oder die Unvollständigkeit) dieses Wissens resultiert meist aus der
begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder
multimedialen Dokumenten); darüber hinaus werden auch solche
Anwendungen betrachtet, bei denen die gespeicherten Daten selbst
unsicher oder unvollständig sind (wie z.B. bei vielen technisch
naturwissenschaftlichen Datensammlungen). Aus dieser Problematik
ergibt sich die Notwendigkeit zur Bewertung der Qualität der
Antworten eines Informationssystems, wobei in einem weiteren Sinne
die Effektivität des Systems in Bezug auf die Unterstützung des
Benutzers bei der Lösung seines Anwendungsproblems beurteilt
werden sollte.“ (FACHGRUPPE IR 1996)
39
Andere Definitionen fokussieren stärker auf die Verarbeitung einer Anfrage
durch entsprechende Algorithmen (cf. BAEZA-YATES & RIBEIRO-NETO
1999:3).
Information Retrieval gewinnt im Zeitalter des Internet neue Bedeutung. Der
großen Menge gespeicherten und online zugänglichen Wissens stehen
zahlreiche frei nutzbare Internet-Suchmaschinen gegenüber. Damit steigt auch
der Bedarf für die Evaluierung von Information Retrieval-Systemen.
Information Retrieval muss im Rahmen der Behandlung von Qualität intensiv
betrachtet werden. Information Retrieval hat das Ziel, einem Benutzer zu
einer Problemstellung inhaltlich relevante Objekte anzubieten. Wie die Diskussion des Qualitätsbegriffs zeigen wird, unterscheidet sich Relevanz von
der Qualität, jedoch stehen die Begriffe in enger Verbindung und überlappen
sich teilweise. Information Retrieval stellt technologisch zahlreiche Verfahren
bereit, um v.a. Texte zu analysieren und ihren Inhalt effizient zu repräsentieren. Verfahren aus dem Information Retrieval können auch die semantische
Ähnlichkeit zwischen verschiedenen Objekten berechnen.
Im Zentrum des Information Retrieval-Prozesses steht der Benutzer mit einem
Informationsbedürfnis. Im Verlauf des Prozesses führt der Benutzer einen
Dialogs mit einem Information Retrieval-System und formuliert dabei sein
Informationsbedürfnis im Rahmen der Möglichkeiten der Benutzungsoberfläche des Systems. Das System vergleicht die Anfrage mit den im System
vorhandenen Dokumenten bzw. deren Repräsentationen, die vorab in der
Indexierungsphase erstellt wurden. Eine Teilmenge der Dokumente wird dem
Benutzer als Ergebnis vorgelegt. Dabei sucht das System solche Dokumente,
die zu der Anfrage ähnlich sind. Das Information Retrieval-System berechnet
für alle Dokumente eine System-Relevanz oder Retrieval Status Value (RSV)
in bezug auf die Anfrage. Der Benutzer bewertet, ob die gefundenen
Ergebnis-Dokumente für das Informationsbedürfnis relevant sind und
unternimmt möglicherweise weitere Interaktionsschritte innerhalb des Information Retrieval-Systems (für einen Überblick über Information Retrieval cf.
FUHR 2005, BELKIN 2000, BAEZA-YATES & RIBEIRO-NETO 1999)
40
Gesamtumfang
unklar und
schwer zu
erfassen
Stark
heterogene
Inhalte und
Darstellung
Wissen über Beziehungen,
Ähnlichkeiten und
Verteilungen
Skalierbarkeit
erfordert
Heuristiken
WEB
Autoren
Erstellung
Fortsetzung des
Informationsprozesses
durch Browsing
möglich
Dokumente
(Objekte)
InformationsSuchender
Indexierung
ObjektEigenschaftMatrix
Skalierbarkeit
erfordert
Heuristiken
ErgebnisDokumente
häufig kurz
Formulierung
Repräsentation
Anfrage
Ähnlichkeitsberechnung
Kommerzielle Interessen
(Reklame)
Indexierung
AnfrageRepräsentation
Abb. 2.1: Der Information Retrieval-Prozess und Herausforderungen im Web
Die folgenden Abschnitte zeigen skizzenhaft die Funktionsweise von automatischen Information Retrieval-Systemen1. Die folgenden drei Abschnitte
befassen sich mit der Erstellung der Repräsentation der Dokumente. Daran
schließen sich Abschnitte zur Rolle und Unterstützung des Benutzers. Ein
eigener Abschnitt ist der Evaluierung gewidmet.
2.1
Linguistische Vorverarbeitung
Information Retrieval behandelt primär Dokumente in natürlichen Sprachen,
da Wissen meist in Form von Sprache aufgezeichnet wird. Auch im Internet
1
Die intellektuelle Indexierung, bei der Menschen die beschreibenden Begriffe für ein Dokument vergeben wird in diesem Kapitel nicht thematisiert. Sie spielt im Internet nur eine
untergeordnete Rolle: „In the future, human indexing will only be applied to relatively
small and static (or nearly static) or highly specialized data bases, e.g., internal corporate
Web pages" (KOBAYASHI & TAKEDA 2000:153)
41
überwiegt nach wie vor die natürliche Sprache als Wissensträger, auch wenn
visuelle Medien und strukturierte Daten1 stark an Bedeutung gewinnen.
Damit steht die Verarbeitung natürlicher Sprachen am Beginn des Arbeitsprozesses im Information Retrieval. Die linguistische Verarbeitung beschränkt
sich dabei auf die Ebene der Lexik und der Morphologie. Syntax und
Semantik analysieren die Systeme nicht, da Technologie für solch tiefgehendes Verstehen für den Einsatz bei Massendaten noch nicht vorhanden ist.
Dementsprechend bildet das Lexem den Kern für die Repräsentation des
Inhalts eines Dokuments im Information Retrieval-System. Die Bedeutung
eines Textes erfasst das System also nur als Reihung der Grundformen aller
darin vorkommenden Wörter. Jedes Wort besitzt zwar per se eine Bedeutung,
seine konkrete Bedeutung innerhalb eines Satzes oder Textes kann jedoch
davon abweichen. Das offensichtlichste Beispiel hierfür sind Homonyme, also
Wörter, die mehrere Bedeutungen besitzen.
Für zahlreiche, besonders häufige Wörter gilt dies aber nur eingeschränkt. Sie
dienen der Syntax und besitzen selbst keine Bedeutung, welche im Rahmen
des Retrieval-Prozesses wichtig ist. Diese sogenannten Stoppwörter eliminieren Retrieval-Systeme vor den folgenden Schritten.
Die wichtigsten Operationen im Rahmen der linguistischen Vorverarbeitung
sind die Grundform-Reduktion und die Komposita-Zerlegung. Die Grundform-Reduktion führt konjugierte und deklinierte Wortformen auf eine
definierte einheitliche Form zurück. Da die Syntax der verarbeiteten Texte
nicht weiter analysiert wird, wäre es sinnlos, die morphologischen Variationen als Ausdruck der syntaktischen Funktionen zur Repräsentation zu behalten. Zudem verringert sich so der Umfang der Repräsentation, da lediglich
das Vorkommen der Grundform vermerkt wird und nicht jede einzelne morphologisch markierte Form.
Die Komposita-Zerlegung spielt in Sprachen mit häufiger Komposita-Bildung
wie dem Deutschen eine wichtige Rolle. Dabei werden die Bestandteile von
Komposita analysiert. Ziel ist meist die Repräsentation des Textes durch die
einzelnen Bestandteile. Teilweise geht zusätzlich das Kompositum in die
Repräsentation ein.
1
Über datenbankähnliche Abfragen sind zahlreiche Datensammlungen im Internet zugänglich. Diese nur über spezielle Suchmasken ansprechbaren Daten werden als Deep Web
bezeichnet, da sie anders als öffentlich zugängliche HTML Dateien nicht in InternetSuchmaschinen auffindbar sind (cf. GRIESBAUM 2003).
42
Häuser -> haus
vorziehen -> zieh
Abb. 2.2 Beispiele für Stammform-Reduktion
Hilfreich kann als weiterer Verarbeitungsschritt die Erkennung von Eigennamen sein. Diese können in Variationen, als Abkürzung oder als Mehrwortgruppe auftauchen1. Die Erkennung und Vereinheitlichung kann die Genauigkeit des Indexierung verbessern.
Neben der oben vorgestellten linguistischen Vorverarbeitung gewinnt in den
letzten Jahren auch der N-gram-Ansatz wieder an Bedeutung. Hier nimmt
nicht das Wort die Rolle des Atoms der Repräsentation ein, sondern eine
Folge von n Buchstaben. Der Wert von n schwankt üblicherweise zwischen
drei und fünf. Jedes Text wird in die darin vorkommenden Buchstaben-Tupel
der Länge n zerlegt. Dieses effektive Verfahren erfordert keinerlei sprachspezifisches Wissen und keine linguistischen Komponenten2.
Beispieltext:
Analyse der Wörter
Zerlegung in Trigramme:
_an ana nal aly lys yse se_ _de
der er_ _wö wör ört rte ter er_
Zerlegung in Viergramme:
_ana anal naly alys lyse yse_ _der
der_ _wör wört örte rter ter_
Abb. 2.3: N-gram Analyse
Mehrsprachige Dokument-Kollektionen erfordern sprachspezifische Werkzeuge für die Indexierung und weitere Verarbeitung.
1
z.B. Deutsches Rotes Kreuz, Rotes Kreuz, DRK
2
In einigen vergleichenden Analysen erwiesen sich n-gram-Ansätze für einige Sprachen
gegenüber der traditionellen Stammform-Reduktion als überlegen (cf. MCNAMEE &
MAYFIELD 2004).
43
Sprache A Sprache B Sprache C
Korpus
Indexierung
ErstellungMultilinguales
Dokumente
Indexierung
Autoren
Indexierung
Dokumente Dokumente
Sprachspezifische Resourcen
SprachIdentifikationRepräsentation
Dokument-Term- Matrix
Indexierung
Erkenung von
Eigenschaften
Maschinelle Übersetzung
Anfrage
Ü
b
er
se
t
zu
ng
Übersetzung
g
Abstract
Erstellung
n
zu
et
rs
InformationsSuchende
e
Üb
Stemming
ErgebnisDokumente
Maschinelle Sprachverarbeitung
Abb. 2.4: Linguistische Werkzeuge im Information Retrieval
Abbildung 2.4 zeigt, wie linguistische Komponenten an den verschiedenen
Stellen im Information Retrieval-Prozess wirken.
2.2
Gewichtung und Ähnlichkeitsberechnung
Nach der linguistischen Vorverarbeitung erfolgt als nächster Schritt die Gewichtung. Zunächst erfasst das System die Häufigkeit des Vorkommens der
Grundformen in allen Dokumenten1. Die Gewichtung basiert auf der Annahme, dass das mehrfache Auftreten eines Worts oder nun Deskriptors2 in einem
Dokument ein Hinweis darauf ist, dass dieses Wort den Inhalt besser repräsentiert als bei einem einfachen Vorkommen. Diese Beziehung verläuft jedoch nicht linear, sondern wird von einer logarithmischen Funktion gesteuert.
1
Die intellektuelle Indexierung, bei der menschliche Experten die Repräsentation als Menge von Begriffen erstellen, wird an dieser Stelle vernachlässigt.
2
Die Grundformen oder Deskriptoren werden auch als Terme bezeichnet.
44
Die zweite wichtige Annahme der Gewichtung besteht darin, dass auch die
Häufigkeit der Wörter im gesamten Korpus wichtig ist. Sehr häufige Wörter
tragen wenig zur Bedeutung eines einzelnen Dokuments im Gesamtkorpus
bei. Bei der Unterscheidung von anderen Dokumenten sollen daher diese
Deskriptoren weniger beitragen als seltene Begriffe. In ihrer Reinform finden
sich diese Annahmen in der Gewichtungsformel der Inversen DokumentFreuquenz (IDF). Eine sehr erfolgreiche Weiterentwicklung stellt z.B. die
OKAPI Gewichtungsformel dar.
Tab. 2.1: Beispiele für Gewichtungsformeln
Term − Frequenz
TF-IDF idf i = log
Anzahl der Dokumente mit Term i
Term − Frequenz
Längen- w = log
ji
Anzahl der Terme in Dok . × Anzahl der Dok .
normalisierung
OKAPI
(k1 + 1)tf (k 3 + 1)qtf
( r + 0,5)( N − n − R + r + 0,5)
log 2
( R − r + 0,5)(n − r + 0,5)
t∈Q
3 + qtf )
∑ ( K + tf ) x (k
(cf. ROBERTSON ET AL. 1996)
Der Einsatz im Internet stellt neue Anforderungen an das Retrieval. Die
enormen Datenmengen stellen nicht nur große Anforderungen an Hardware,
sie führen auch zu neuen Heuristiken. So speichert z.B. die Suchmaschine
Lycos1 nur die 100 am höchsten gewichteten Terme (cf. GUDIVADA ET AL.
1997), um effizienter zu arbeiten.
Ein wichtiges Erfolgskriterium für Suchmaschinen im Internet stellt die
Indexierungstiefe dar, die ausdrückt wie viele Seiten im Index enthalten sind
und wie aktuell der Index ist. Für Information Retrieval-Systeme im Internet
ist es schon schwierig, überhaupt alle Dokumente zu finden, die es dann der
Indexierung unterwirft (siehe Abschnitt 6.4 zum Crawling).
Die Gewichtung jedes Deskriptors für alle Dokumente stellt nun die
Repräsentation der Dokumente dar. Je nach Retrieval-Modell berechnen die
Systeme daraus die Retrieval Status Value (RSV) oder System-Relevanz des
1
http://www.lycos.de bzw. http://www.lycos.com
45
Dokuments zu einer Anfrage. Die Anfrage wird meist ähnlich behandelt wie
ein Dokument, so dass sie als eine Sammlung von Deskriptoren betrachtet
werden kann. Ranking-Modelle berechnen für eine Anfrage jedem Dokument
eine Relevanz, welche die Grundlage des Ranking bildet. Nach dieser Relevanz ordnet das System die Dokumente und der Benutzer findet so die relevantesten Dokumente zu Beginn der Ergebnisliste.
Das Vektorraum-Modell beschreiben SALTON & MCGILL 1983 ausführlich.
Es bildet zugleich auch ein Meta-Modell für das Information Retrieval, da die
meisten anderen Modelle damit kompatibel sind und sich im Kontext des
Vektorraum-Modells formulieren lassen.
Das Vektorraum-Modell ist ein geometrisches Modell. Darin sind die Dokumente Punkte in einem viel-dimensionalen Koordinaten-System, dessen Achsen die Deskriptoren repräsentieren. Formal kann ein Punkt in einem Koordinaten-System immer auch als ein Vektor vom Nullpunkt zu diesem Punkt
interpretiert werden. Auch die Anfragen interpretiert das Vektorraum-Modell
als Vektoren oder Punkte im Deskriptoren-Raum. Dokumente, die zu einer
Anfrage passen, sind im Vektorraum-Modell Punkte, welche nahe nebeneinander liegen. Die Ähnlichkeit ergibt sich also aus der räumlichen Nähe
bzw. Distanz der Punkte. Einige Ähnlichkeitsfunktionen messen die
unterschiedliche Richtung der Vektoren anhand des Winkels zwischen ihnen1.
Abbildung 2.5 veranschaulicht das Prinzip des Vektorraum-Modells für ein
Modell mit zwei Dimensionen. Die zwei Terme A und B formen ein Koordinatensystem mit zwei Dimensionen. Darin liegen die beiden Dokumente als
Punkte, die sich auch als Vektoren vom Ursprung des Koordinatensystems zu
den Punkten betrachten lassen. Jedes Dokument und jede Anfrage erhält an
den Term-Achsen das Gewicht für diesen Term zugewiesen. In dem Beispiel
in Abbildung 2.5 liegt die Anfrage näher bei Dokument 2, das damit ähnlicher
zur Anfrage ist als Dokument 1.
Innerhalb des Vektorraum-Modells lassen sich Strategien zur Modellierung
der Interaktivität des Retrieval-Prozesses integrieren.
1
Verbreitet ist die Kosinus-Funktion, aber auch das Innere Maß oder Dice werden diskutiert (cf. MANDL 2001).
46
Gewicht von
Term B
Term Term
A
B
Dokument 1
2,5
5
Dokument 2
6
3,5
Dokument 1
Dokument 2
Anfrage
Anfrage
7
2,5
Gewicht von Term A
Abb. 2.5: Deskriptor-Dokument-Matrix und zugehöriges Vektorraum-Modell
Eine wichtige und erfolgreiche Strategie, um die Qualität eines RetrievalErgebnisses zu erhöhen, ist Relevanz-Feedback. Dabei beurteilt der Benutzer
eine Teilmenge von Dokumenten und weist ihnen einen Relevanz-Wert zu.
Das System nutzt diese Einschätzung, indem es die beurteilten Dokumente
analysiert und davon ausgehend die Anfrage modifiziert. Die Terme der
positiv eingeschätzten Dokumente werden stärker gewichtet bzw. kommen
zur Anfrage hinzu. Die Terme der negativ beurteilten Dokumente werden entsprechend schwächer gewichtet. Auch Relevanz-Feedback kann mit der
räumlichen Metapher des Vektorraum-Modells interpretiert werden. Die
Anfrage wird im Raum in Richtung der relevanten Dokumente verschoben.
2.3
Optimierungsansätze
Relevanz-Feedback hat sich als derart erfolgreiche Strategie bei der
Verbesserung von Retrieval-Ergebnissen gezeigt, dass es auch ohne reale
Benutzerbewertungen angewandt wird. Beim sogenannten Blind RelevanzFeedback nimmt der Entwickler an, die ersten Treffer auf der Liste seien
relevant und führt dann einen Relevanz-Feedback-Schritt durch. Dadurch
47
werden die häufigsten Deskriptoren aus den ersten Treffern zu der Anfrage
hinzugefügt. Daneben existieren andere Verfahren zur Modifikation der Anfrage. Die Anfrage-Erweiterung (query expansion) fügt zu der vom Benutzer
formulierten Anfrage ebenfalls einige Deskriptoren hinzu. Diese gewinnt das
System meist aus einem Thesaurus, der auch automatisch kreiert sein kann.
Automatische Thesauri basieren auf dem gemeinsamen Vorkommen von
Deskriptoren in Dokumenten. Häufig gemeinsam auftretende Begriffe erhalten einen Thesaurus-Eintrag.
Zahlreiche Evaluierungen haben ergeben, dass die Qualität guter Information
Retrieval-Systeme häufig sehr ähnlich ist und die Ergebnismengen sich trotzdem stark in ihrer Zusammensetzung unterscheiden (cf. WOMSER-HACKER
1997). Oft liefert jedes Verfahren einige relevante Dokumente, die von den
anderen als kaum relevant eingestuft und so dem Benutzer nicht präsentiert
werden. Als Konsequenz daraus gewinnen sogenannte Fusionsverfahren an
Bedeutung, die mehrere Verfahren kombinieren und so versuchen, im Gesamtergebnis insgesamt eine höhere Qualität zu erreichen (cf. BARTELL ET AL.
1994, LEE 1995, MCCABE ET AL. 1999).
Das MIMOR-Modell zur Fusion integriert Fusion mit Relevanz-Feedback
und kann als eine zusätzliche Schicht in einem Information Retrieval-System
betrachtet werden, welche die Kombination verschiedener Ergebnisse verwaltet. Zu Beginn erhalten alle Verfahren das gleiche Gewicht. Damit beeinflussen alle Verfahren das Ergebnis gleich stark. Im Lauf des Lernprozesses
adaptiert MIMOR die Gewichte so, dass Verfahren, die das Ergebnis positiv
beeinflussen, gestärkt werden. Die Entscheidung, welche Dokumente im
Ergebnis besonders relevant sind, trifft der Benutzer durch das RelevanzFeedback. Die Verfahren, die den positiv bewerteten Dokumenten hohe
System-Relevanz zuweisen, erhalten höheres Gewicht (cf. MANDL &
WOMSER-HACKER 2000). Jedoch ergeben sich Schwierigkeiten am Beginn der
Benutzung, wenn noch wenig Urteile vorliegen, die Vorteile der Individualisierung noch nicht offensichtlich sind und hoher Arbeitsaufwand erforderlich
wäre. Dies löst das MIMOR Modell durch die gleichzeitige Pflege eines
privaten und eines öffentlichen Modells, die beide zum Gesamtergebnis
beitragen (cf. MANDL & WOMSER-HACKER 2000). Beide Modelle bestehen
aus einem Vektor von Gewichten, die den Einfluss der einzelnen Verfahren in
dem jeweiligen Modell beschreiben. Der Einfluss jedes Modells wird
ebenfalls durch ein Gewicht bestimmt. Das private Modell trägt mit dem
Gewicht p zum Gesamtergebnis bei und das öffentliche Modell mit dem
Gewicht (1 – p). Im Zeitraum der Benutzung des Systems kann sich p
verändern. Zu Beginn der Arbeit mit dem System steht das private Modell auf
der Basis weniger Relevanz-Bewertungen und ist damit noch unzuverlässig.
48
Daher ist es sinnvoll, p und damit den Einfluss des privaten Modells niedrig
zu halten und sich mehr auf das bereits ausgewogene öffentliche Modell zu
verlassen. Je mehr Bewertungen ein Benutzer im Lauf der Arbeit mit dem
System vornimmt, desto größer kann der Einfluss des privaten Modells
werden. Das Gewicht p könnte auch mit steigender Sättigung des privaten
Modells wachsen. Ändert sich das private Modell nur noch wenig, so kann es
als weitgehend vollständig und stabil gelten. Das Gewicht könnte für
fortgeschrittene Benutzer auch manipulierbar sein (cf. MANDL & WOMSERHACKER 2000).
Im maschinellen Lernen wird die Kombination mehrerer überwachter Lernverfahren als Committee Machine bezeichnet. Diese Metapher verweist auf
menschliche Komitees, in denen mehrere Experten ebenfalls gemeinsam ein
Ergebnis finden. Die folgenden Architekturen sind verbreitet (cf. HAYKIN
1999:351 f.):
• Statische Methoden: Das Ergebnis von einzelnen Experten hat keinen
Einfluss auf die Fusion.
• Ensemble averaging: Das Ergebnis von verschiedenen Experten wird
linear kombiniert.
• Boosting: Ein schwaches Lernverfahren wird durch erneutes Training
mit falsch klassifizierten Beispielen anhand eines anderen Algorithmus
verbessert.
Dynamische Methoden: Der Output einzelner Experten steuert den
Integrationsprozess.
• Mixture of experts: Der Output einzelner Experten wird mit nichtlinearen Verfahren kombiniert.
• Hierarchical mixture of experts: Die Kombination erfolgt in hierarchischer Weise.
49
Extraktion von
Eigenschaften
Korpus
Indexierung
Erstellung
Dokumente
Intellektuelle
Indexierung
Indexierung
Autoren
Fusion von Ansätzen
zur Indexierung
z.B. N-Gram & Wörter
Optimierung der
Gewichtung,
z.B OKAPI
Repräsentation
Benutzer
Relevanz
Feedback
Ergebnis Menge
Pseudo
Relevanz
Feedback
Formulierung
Optimierte
Ähnlichkeitsfunktionen
Anfrage
Erweiterung
Anfrage
Indexierung
Abb. 2.6: Ansätze zur Optimierung im Information Retrieval
Im Internet entwickelte sich parallel zu den Fusionsverfahren das Phänomen
der Meta-Suchmaschinen1, welche wie Fusionsverfahren die Ergebnisse mehrerer Information Retrieval-Systeme kombinieren. Allerdings verfolgen MetaSuchmaschinen einen anderen Ansatz der Optimierung. Jede Internet-Suchmaschine erfasst und indexiert lediglich einen kleinen Teil aller Web-Dokumente. Meta-Suchmaschinen versuchen durch die Kombination mehrerer
Suchmaschinen eine größere Abdeckung zu erreichen.
Neben dem Inhalt von Dokumenten geben Datenformate im Internet auch die
Struktur wieder. Bei HTML ist die Möglichkeit zur Strukturierung lediglich
auf das Format der Darstellung beschränkt. Das XML-Format dagegen erlaubt
die flexible semantische Strukturierung von Dokumenten. Dies erlaubt die
Integration von strukturellen Bedingungen in das Retrieval. Ein entsprechendes System stellen etwa FUHR & GROßJOHANN 2002 vor. Die Problematik der
Integration von strukturellen und inhaltlichen Bedingungen diskutiert FUHR
2005.
1
z:B. http://www.metager.de/ oder http://www.zapmeta.com/
50
2.4
Evaluierung
Für das Information Retrieval existieren zahlreiche Modelle und Optimierungsansätze. Das Zusammenspiel mehrerer Komponenten in einem System
und ihre Effektivität für ein bestimmtes Korpus lassen sich nicht vorhersagen.
Eine grundlegende Überlegenheit eines Modells oder bestimmter Komponenten ließ sich bisher nicht feststellen. Somit kommt der Evaluierung der Effektivität des Retrievals entscheidende Bedeutung bei. Eine holistische Evaluierung von Suchprozessen ist schwierig und muss den Erfolg und die
Zufriedenheit der Benutzer als Maßstab setzen. Ein Benutzer ist erfolgreich
und zufrieden, wenn die nachgewiesenen Dokumente helfen, sein Informationsbedürfnis zu stillen. Möglichst alle Aspekte des Suchprozesses sollten
daher berücksichtigt werden wie etwa Benutzungsoberfläche, die Geschwindigkeit der Suche und ihre Adaptivität.
Die benutzerorientierte Evaluierung ist jedoch sehr aufwendig und schwierig.
Beim Suchprozess wirken individuelle und subjektive Einflüsse, die
eigentlich berücksichtigt werden müssten. Jedoch bevorzugen die Entwickler
eine Bewertung ihrer Algorithmen unabhängig von diesen subjektiven Einflüssen und so beschränkt sich die Evaluierung meist auf die Wirkung des
Retrieval-Systems. Der Benutzer wird sozusagen als Konstante angenommen
und in der Evaluierung durch einen prototypischen Benutzer ersetzt. Dessen
Relevanz-Bewertungen übernehmen in den meisten Fällen Experten. Dieses
Vorgehen bezeichnet man nach eine der ersten größeren Studien als das
Cranfield-Paradigma der Evaluierung.
Meist beschränkt sich die Evaluierung auf die Effektivität der Suche.
Evaluiert wird, wie gut das System relevante Dokumente findet und wie viel
Ballast es dabei präsentiert. Dies messen die Größen Recall und Precision, die
im Verhältnis zueinander graphisch dargestellt werden.
Tab. 2.2: Recall und Precision
Recall
Precision
R=
Anzahl gefundender relevanter Dokumente
Anzahl relevanter Dokumente
P=
Anzahl gefundender relevanter Dokumente
Anzahl gefundener Dokumente
51
Die binären Relevanz-Entscheidungen1 werden immer wieder kritisiert und
neue Maße für mehrstufige Relevanz-Einschätzungen werden diskutiert,
konnten sich bisher jedoch nie durchsetzen.
Zuverlässige Evaluierungen sind aufwendig und erfordern mindestens etwa
50 Aufgaben, um statistisch zuverlässig zu sein (BUCKLEY & VOORHEES
2002). Besonders aufwendig ist die Durchsicht der Ergebnis-Dokumente und
die Prüfung auf Relevanz. Wenn einzelne Forschungsgruppen diesen
Aufwand betrieben, dann blieben die Ergebnisse aufgrund der unterschiedlichen, verwendeten Textkollektionen unvergleichbar. Als Reaktion
darauf etablierten sich mehrere Evaluierungsinitiativen, welche einen Teil des
Aufwands zentral leisteten und so für die Vergleichbarkeit sorgten. Die erste
wichtige Initiative, die Text Retrieval Conference2 (TREC) des National
Institute of Standards and Technology (NIST) in Gaithersburg (Maryland,
USA) findet seit 1989 jährlich statt. TREC stellt eine Infrastruktur für die
Evaluierung von Systemen mit Massendaten zur Verfügung, welche Dokumenten-Korpora, Aufgaben für die Systeme (Topics), intellektuelle RelevanzBewertungen und die statistische Auswertung umfasst. Als Trainingsdaten
stehen den teilnehmenden Systemen die Korpora der Vorjahre zur Verfügung,
die Relevanzurteile enthalten (VOORHEES & HARMAN 2001, VOORHEES &
BUCKLAND 2002). TREC hat im Lauf seiner Geschichte zu einer erheblichen
Verbesserung der Systeme beigetragen, die sich an den Ergebnissen über die
Jahre hinweg ablesen lässt. Diese Weiterentwicklung gelang durch den regen
Austausch von Ideen und Verfahren unter den Teilnehmern.
Um den Realitätsgrad der TREC-Experimente zu erhöhen und eine Teilnahme
für die Forscher attraktiv zu halten, reagieren die Veranstalter auf zahlreiche
Anregungen aus der Community. So entstanden neben dem Standard
Retrieval (ad-hoc) weitere Tracks. Diese greifen aus der Fülle an potentiellen
Anforderungen in der Praxis einzelne Aufgabenbereiche heraus und entwickeln dafür eine Evaluierungsmethodik. So gibt es Routing-Aufgaben, die
einem automatisierten Filter entsprechen. Feststehende Routing-Aufgaben begegnen dabei einem konstanten Strom von Dokumenten, aus dem das System
die relevanten filtert. Statt dem Ranking muss also eine binäre Entscheidung
erzielt werden. Weitere Tracks in TREC befassen sich mit dem Retrieval
gesprochener Sprache, dem Beantworten von Fragen, dem Retrieval von
Video-Sequenzen, Genom-Informationen sowie der Interaktion des Benutzers
mit dem System (cf. VOORHEES & HARMAN 2000, 2001). Dem Web-Track
1
Eine ausführliche Diskussion des Relevanz-Begriffs erfolgt in Abschnitt 4.2.
2
http://trec.nist.gov, cf. VOORHEES & HARMAN (2000, 2001)
52
von TREC widmet sich Abschnitt 7.10 noch ausführlich, da dieser Track für
das Thema dieser Arbeit besonders wichtig ist.
Den Besonderheiten des mehrsprachigen Retrieval widmet sich seit dem Jahr
2000 das Cross-Language Evaluation Forum (CLEF1, cf. PETERS ET AL. 2003,
PETERS ET AL. 2004). CLEF führt den von TREC eingeführten CrossLanguage Track für europäische Sprachen fort und orientiert sich dabei weitgehend am Ablauf des Ad-hoc-Retrieval Track. Im CLEF-Projekt arbeiten
Gruppen aus verschiedenen europäischen Ländern (und damit auch Sprachräumen) mit dem NIST zusammen2. Die CLEF-Organisatoren bieten ein
mehrsprachiges Korpus, mehrsprachige Topics und leisten die intellektuelle
Relevanz-Bewertung in allen beteiligten Sprachen.
relevant(+)
nicht
relevant
(-)
Ergebnis
A
C
B
D
Im
Ergebnis
Nicht im
Ergebnis
Relevant
A
B
Nicht
relevant
C
D
Trefferliste RSV Relevanz
1. Treffer
0,91
-
2. Treffer
0,86
+
3. Treffer
0,79
-
4. Treffer
0,78
+
5. Treffer
0,73
+
6. Treffer
0,70
-
7. Treffer
0,66
-
8. Treffer
0,65
-
9. Treffer
0,59
-
Abb. 2.7: Vorgehen der Evaluierungsinitiativen
1
http://www.clef-campaign.org
2
IEI-CNR (Pisa, Italien) als Koordinator, Eurospider (Zürich, Schweiz), ELRA (Paris,
Frankreich), IZ (Bonn, Deutschland), UNED (Madrid, Spanien), NIST (Gaithersburg,
USA)
53
Parallel entstand in Japan das NTCIR1 Projekt für multilinguales Retrieval in
asiatischen Sprachen (cf. KANDO ET AL. 2001). Die besonderen Anforderungen für Retrieval aus strukturierten Daten am Beispiel von XML untersucht
die INEX Initiative (KAZAI ET AL. 2003).
Benutzungsoberfläche zur
Bewertung
• Intellektuelle Bewertung
– relevant oder nicht relevant
• statistische Auswertung
Abb. 2.8: Software für intellektuelle Bewertung und Auswertung
Die Subjektivität der Relevanz-Bewertungen von Juroren hat bereits mehrfach
zu Zweifeln an der Zuverlässigkeit von Experimenten geführt. Binäre
Relevanz-Urteile sind offensichtlich subjektiv geprägt und trotz aller
Richtlinien lässt sich keine Vereinheitlichung der Maßstäbe herbeiführen. Da
diese Urteile die Basis der Ergebnisse liefern, könnte die Subjektivität die
Ergebnisse verfälschen. Eine aktuelle Studie bestätigt zwar die Subjektivität
der Urteile, zeigt aber, dass die Folgerung nicht zutrifft. Bei der Untersuchung
wurden für mehrere Topics der TREC-Initiative zusätzliche Relevanz-Urteile
von unterschiedlichen Juroren erhoben. Es zeigte sich, dass diese tatsächlich
unterschiedlicher Meinung über die Relevanz waren. Allerdings wirkte sich
1
http://research.nii.ac.jp/ntcir/
54
dies nicht auf die Reihenfolge der Systeme aus. Zwar war die absolute
Qualität der Systeme abhängig vom Juror unterschiedlich, allerdings zielt
TREC auf ein Ranking der Systeme ab, um vergleichende Aussagen treffen
zu können. Die Reihenfolge blieb weitgehend unverändert (VOORHEES 2000).
Solange also eine Person konsequent ihren Standpunkt auf die ErgebnisDokumente anwendet, ergeben sich keine Verfälschungen im Endergebnis.
2.5
Semantische Heterogenität und Semantic Web
Semantische Heterogenität bedeutet im Information Retrieval, dass die
Repräsentation eines Dokuments kontextabhängig ist und je nach System und
Szenario unterschiedliche Semantik besitzen kann. Dieses Problem tritt vor
allem bei intellektueller Indexierung auf und gewinnt im Kontext der Vision
eines Semantic Web neue Bedeutung.
Das Semantic Web versucht, neue Standards zur Wissensrepräsentation und
Wissensverarbeitung im Internet zu setzen. Während bisherige Standards wie
HTML Wissen so darstellen, dass der Mensch sie wahrnehmen kann, so
sollen neue Standards das Wissen im Internet für Maschinen lesbar und verstehbar machen (BERNERS LEE 1998). Während zum Beispiel auf einer
HTML-Seite eines Buchverlags nur für den Menschen klar wird, welche Zahl
der Preis und welche die Seitenzahl ist, so soll im Semantic Web auch für
Software erkennbar sein, welche Zahl der Preis ist. Dies geschieht primär
durch Semantic Tagging, also semantisches Auszeichnen, während in HTML
das Tagging lediglich das Layout festlegt. Das Layout wird im Semantic Web
wiederum nach eigenen Standards getrennt von den Daten verwaltet. Durch
die Trennung von Inhalt und Layout lassen sich die gleichen Daten wesentlich
flexibler unterschiedlich darstellen.
Grundlage des Semantic Web bildet die Beschreibungssprache XML1, in der
die Daten kodiert werden. Das Layout wird meist mit XSL (Extensible
Stylesheet Language) beschrieben, das einer ähnlichen Syntax folgt wie
XML.
1
Extensible Markup Language. In XML sind beliebige, benutzerdefinierte Tags erlaubt.
XML ist ein Standard des W3C Konsortiums (cf. http://www.w3.org/xml).
55
Abb. 2.9: Pyramide Semantisches Web (Semantic Web Layer)
(KOIVUNEN & MILLER 2001)
Die semantische Heterogenität entsteht durch die Vielzahl von Perspektiven
und daraus entwickelten Ontologien und Einteilungen der Welt. So sind für
sehr spezialisierte Themenbereiche auch entsprechende Thesauri nötig, die
sich bei weniger spezialisierten Datensammlungen als ungeeignet erweisen.
Semantische Probleme treten auch bei Wortlisten aus der automatischen
Indexierung auf. Ein Term tritt in verschiedenen Korpora mit unterschiedlichen Verteilungshäufigkeiten auf. Aus Sicht des Information Retrieval, in
denen sich Bedeutung auf Vorkommenshäufigkeit reduziert, ändert sich
dadurch die Bedeutung. Die Bedeutung eines Terms konstituiert sich aus den
Dokumenten, auf die er verweist. Bei einer Integration von online bereitgestellten Wissensbeständen verschiedener Anbieter, die für den Benutzer an
sich vorteilhaft ist, ergibt sich nun das Problem der semantischen Heterogenität. Der gleiche Begriff kann völlig unterschiedliche Bedeutung haben.
Wichtig sind also Transfer-Verfahren, welche Anfrage-Begriffe semantisch in
die jeweiligen Deskriptoren der befragten Korpora überführen (cf. HELLWEG
ET AL. 2001).
56
In f o r m a tio n s w is s e n s c h a f t
In f o r m a tio n s w is s e n s c h a f t
In f o r m a tio n
R e tr ie v a l
M e n s c h -M a s c h in e
In te r a k tio n
G r u n d la g e n
E v a lu ie r u n g
E v a lu ie r u n g
G r u n d la g e n
G r u n d la g e n
E v a lu ie r u n g
In f o r m a tio n
R e tr ie v a l
M e n s c h -M a s c h in e
In te r a k tio n
Abb. 2.10: Beispiele für semantische Heterogenität
2.6
Benutzungsoberflächen und Browsing als Suchstrategie
Die Benutzungsoberflächen für Internet-Suchmaschinen und andere
Information Retrieval-Systeme sind meist sehr einfach und bestehen aus der
Eingabezeile für die Formulierung von Suchanfragen. Da syntaktische
Beziehungen zwischen Wörtern nicht analysiert werden, kann der Benutzer
auch nicht danach suchen. Eine Anfrage besteht daher meist nur aus einer
Reihe von Begriffen1. Die Unterstützung des Benutzers erfolgt eher im
Rahmen einer Sitzung und bei der Unterstützung von Suchstrategien wie dem
iterativen Retrieval oder dem Wechsel zu einer anderen Strategie wie etwa
der Ähnlichkeitssuche.
Das Informationsbedürfnis verändert sich während der Interaktion mit einem
Suchsystem, da der Benutzer aus den Antworten und den betrachteten Ergebnissen neue Erkenntnisse gewinnt, die sein Wissen ergänzen. Dies geschieht
beispielsweise, wenn gefundene Seiten Begriffe enthalten, die dem Benutzer
nicht bekannt waren und diese sein Informationsproblem besser beschreiben.
Darüber hinaus kann sogar ein Wechsel des Suchparadigmas zu einem
1
Die Anfragen bei Internet-Suchmaschinen sind sogar sehr kurz und umfassen zwischen
zwei und drei Anfrage-Terme (SPINK & JANSEN 2004).
57
Browsing-System erfolgen, wenn der Benutzer auf relevante Verknüpfungen
stößt.
Ein einfaches Beispiel zeigt die folgende Abbildung der Suchmaschine
Google, die in dieser Ergebnisansicht die Suchanfrage manipulierbar anzeigt
und anbietet, von jedem Ergebnisdokument aus eine Ähnlichkeitssuche zu
starten.
Abb. 2.11: Google mit Möglichkeiten zum iterativen Retrieval (v.a. manipulierbare Anfrage und Ähnlichkeitssuche)
Neben der gezielten Suche mit einer Anfrage stellt das Browsing die
wichtigste Suchstrategie dar. Browsing kommt bei vagen Informationsbedürfnissen zum Einsatz, bei denen es dem Benutzer schwer fällt, eine Anfrage zu
formulieren. Browsing bezeichnet das assoziative Verfolgen von Verbindungen. Dadurch kann es auch zu starken Abweichungen von der ursprünglichen
Thematik kommen (serendipity-Effekt), die jedoch auch gewinnbringend verlaufen können. Browsing durch das Verfolgen von Hyperlinks ist eine sehr
wichtige Strategie für die Orientierung (MARCHIONINI 1995), die häufig
58
unterschätzt wird. Eine Untersuchung von MAHOUI & CUNNINGHAM 2001
zeigt, dass in der untersuchten digitalen Bibliothek lediglich ca. 50% der
Benutzer eine Suchanfrage stellen. Vermutlich wünschen viele der übrigen
Besucher die Möglichkeit, ihr Informationsbedürfnis durch effiziente Browsing-Angebote zu lösen.
Browsing wird zum Beispiel durch Internet-Kataloge unterstützt, welche
fremde Internet-Angebote in eine Ontologie einordnen, welche dem Benutzer
in der Benutzungsoberfläche präsentiert wird (siehe Abschnitt 10.3).
2.7
Mehrwertkomponenten
Information Retrieval-Systeme bieten häufig Mehrwertkomponenten an, um
den Benutzer besser zu unterstützen.
Mehrsprachiges und insbesondere sprachübergreifendes Information Retrieval
erfordert weitere linguistische Komponenten. Cross Language Information
Retrieval (CLIR) geht von der Annahme aus, dass Benutzer eine Fremdsprache zwar häufig passiv beherrschen und die Relevanz von Dokumenten in
dieser Sprache zumindest abschätzen können, dass sich aber Probleme bei der
Erstellung von Anfragen ergeben können. In diesem Benutzungskontext
entsteht ein Mehrwert, wenn eine einsprachige Anfrage zu Dokumenten in
mehreren Sprachen führt und diese ausschließlich nach Relevanz anordnet.
Dazu werden vor allem Komponenten zur maschinellen Übersetzung in Information Retrieval-Systeme eingebunden.
Viele Mehrwertkomponenten setzen bei der Darstellung des Ergebnisses an.
Üblicherweise stellen Systeme ihre Ergebnisse in einer geordneten Liste an
(siehe Abbildung 2.11). Visualisierungen versuchen unter anderem, die
Beziehungen der Dokumente untereinander darzustellen. Ein Beispiel sind
zweidimensionale Karten, welche ähnliche Dokumente näher zueinander
positionieren (cf. EIBL & MANDL 2004). Die semantische Ähnlichkeit wird
hier direkt auf die Anordnung übertragen. Das System Kartoo ist ein Beispiel
hierfür, welches über das Grundprinzip noch hinausgeht (Abbildung 2.12).
Kartoo ermittelt die Art der Beziehungen zwischen den Dokumenten und
hängt den Verbindungen die entsprechenden Begriffe an.
59
Abb. 2.12 Visualisierung in Kartoo
Über die einzelnen Beziehungen der Dokumente untereinander enthält eine
Ergebnisliste möglicherweise Gruppen von Dokumenten, welche zueinander
in inhaltlicher Beziehung stehen. Solche Beziehungen können für den Benutzer von Interesse sein und manche Information Retrieval-Systeme versuchen,
diese zu erkennen und darzustellen. Ein Beispiel für derartige ClusteringSysteme ist etwa Vivisimo, welches Abbildung 2.13 zeigt.
60
Abb. 2.13: Clustering in Vivisimo
Die Beziehungen semantischer Ähnlichkeit und Cluster-Zugehörigkeit sind
vager Natur. Eine eindeutige Art Beziehung stellt beispielsweise die zwischen
Autor und Dokument dar. Die Analyse von anderen bibliographischen
Relationen wie Ko-Autorenschaft führt hin zu dem Erkennen sozialer Netzwerke, die für den Benutzer einen Mehrwert darstellen können. Ein Beispiel
hierfür ist das Autorennetzwerk in der digitalen Bibliothek Daffodil1. Wie
Abbildung 2.14 zeigt, erlaubt Daffodil damit das Explorieren der Beziehungen zwischen Autoren über mehrere digitale Bibliotheken.
1
http://www.daffodil.de
61
Abb. 2.14: Autorennetzwerk in Daffodil
Zunehmend tauchen weitere Mehrwerte auf wie Personalisierung oder die
geographische Einschränkung von Suchergebnissen. Mehrwertkomponenten
werden zwar im Web häufig angeboten, haben sich jedoch nicht etabliert.
Ganz im Gegenteil, im Internet zeigt sich ein deutlicher Trend zur „Primitivisierung“ der Suchsysteme. Die Benutzer widersetzen sich allem, was über
eine Eingabezeile und eine Ergebnisliste hinausgeht. So mancher Mehrwertdienst wird schlicht nicht wahrgenommen und einige innovative Funktionen
entfernen die Anbieter sogar wieder. Dazu zählt etwa die Cluster-Analyse in
der Suchmaschine Northern Light.
62
Web Mining und Text Mining
3. Web Mining und Text Mining
Die Begriffe Web Mining und Text Mining entstanden in Analogie zu Data
Mining. Zwar besteht weder für Text Mining noch für Web Mining eine
anerkannte Definition, jedoch berufen sich beide auf Data Mining als
Grundlage und benutzen die gleichen bzw. sehr ähnliche Verfahren. Web
Mining bedeutet die Anwendung von Verfahren des maschinellen Lernens
und des Data Mining auf Daten aus dem Internet: „treat the information in the
web as a large knowledge base from which we can extract new, never-before
encountered information“ (HEARST 1999)
Text Mining „refers generally to the process of extracting interesting
information and knowledge from unstructured text“ (HOTHO ET AL. 2005:19).
Sowohl im Web als auch offline stehen riesige Datenmengen zur Verfügung.
Die Kombination unterschiedlicher Wissensquellen kann zu neuem Wissen
führen, das in dieser Form explizit nicht in der Wissensquelle bereitsteht. Die
Suche nach Wissensobjekten, die explizit eine Lösung für ein Suchproblem
liefern, ist Aufgabe des Information Retrieval. Mining dagegen leitet neues
Wissen aus bereits bekanntem Wissen ab. Die Ziele können im Einzelnen sehr
unterschiedlich sein.
Definitionen von Text Mining subsumieren Web Mining oft als Teilgebiet und
integrieren sogar Web Usage und Web Structure Mining (MEHLER & WOLFF
2005:7). Diese Definition dehnt den Text-Begriff über rein natürlichsprachlichen Text hinaus und integriert ergänzende und strukturierende formale Anteile wie etwa Markup-Sprachen. Dazu zählen Links, Meta-Informationen und
strukturelle Eigenschaften von Hypertexten, die keine notwendigen Voraussetzungen für Text-Dokumente sind.
Aus der Perspekive des Web Mining ließe sich Text Mining als Teildisziplin
des Web Content Mining interpretieren, da die textuellen Teile dem Inhaltsbegriff am nächsten kommen. Dagegen verstellt der Begriff Web Mining den
Blick auf offline-Dokumente, die sich teils mit den gleichen Verfahren
analysieren lassen.
Der entscheidende Unterschied zwischen Text- und Web-Mining liegt in der
Datengrundlage. Text Mining bearbeitet textuelle Dokumente und beruft sich
stärker auf Grundlagen aus der Computer-Linguistik. Web Mining setzt als
Grundlage die online im Web bereit stehenden Dokumente und Daten. Text
Mining bearbeitet auch Texte, die nicht im Web online zur Verfügung stehen.
63
Wie groß die auf Web Mining gesetzten Hoffnungen sind, spiegelt sich in dem
neuen Begriff Web-Intelligence. Eine erste wissenschaftliche Tagung mit
diesem Titel fand im Jahr 2001 statt (ZHONG ET AL. 2001). Web-Intelligence
greift die Debatte über die Möglichkeiten intelligenten Verhaltens von
Maschinen auf und knüpft an Artificial Intelligence und Computational
Intelligence an.
Artificial Intelligence entstand in den 50er Jahren und institutionalisierte als
Disziplin den Glauben, innerhalb kurzer Zeit die Fähigkeiten des Menschen
mit Computer-Software simulieren oder gar kopieren zu können. Die kommenden Jahrzehnte brachten Fortschritte im Bereich logisches Schlussfolgerns, jedoch stellte sich immer wieder die Frage, was denn menschliche
Intelligenz überhaupt bedeutet. Zahlreiche Fähigkeiten des Menschen wie
Wahrnehmung und Erkennen von Objekten konnten mit der Entwicklung
mächtiger Hardware mit datenintensiven Verfahren, wie sie im Kapitel zu
maschinellen Lernen vorgestellt werden, besser implementiert werden als mit
klassischen Artificial Intelligence-Methoden.
Web Intelligence hebt das Element der datengetriebenen Entwicklung auf
eine neue Stufe. Im Stil des Data Mining soll aus den Datenmengen im
Internet Wissen gewonnen werden, das nicht in einzelnen Seiten gespeichert
ist. Vielmehr wird dieses Wissen aus der Gesamtsicht auf sehr viele einzelne
Wissenselemente destilliert. Folgende Teilaspekte von Web Mining sind nach
WALTHER 2001 relevant. Diese Einteilung orientiert sich an der Datengrundlage für das Suchen nach nicht offensichtlichem Wissen, die in Klammern angegeben wird.
• Web Content Mining (Inhalt von Internet-Seiten)
• Web Structure Mining (Internet-Links)
• Web Usage Mining (Web-Log-Dateien)
In Kapitel 14 wird dieses Spektrum noch um das Web Design Mining
erweitert.
Zahlreiche Web Mining-Untersuchungen zeigen, dass zwar die Ausprägung
einer einzelnen Seite oder eines einzelnen Links unvorhersehbar bleibt, dass
aber die Betrachtung größerer Mengen von Objekten im Netz oft zu sehr
klaren und konsistenten Mustern führt. Manche Autoren sprechen daher nicht
zu Unrecht von den versteckten Gesetzen oder der verborgenen Ordnung des
64
Internet1. Beispiele für solche Muster bei Verteilungen von Links werden
noch in Abschnitt 7.8 besprochen.
Für die Diskussion um Qualität im Internet können alle diese Aspekte eine
wichtige Rolle spielen. Der momentan erreichte Diskussionsstand berücksichtigt vor allem Structure und Usage Mining. Usage Mining liefert Daten
darüber, wie oft auf bestimmte Wissensobjekte im Internet zugegriffen wird.
Diese Popularität kann als Hinweis für die Qualität dienen. Structure Mining
befasst sich vorwiegend mit der Struktur, die durch die Hyperlinks entsteht.
Hyperlinks, die auf eine Seite zeigen, sind wiederum Ausdruck einer
gewissen Popularität. Im Vergleich zur flüchtigen Popularität, die sich aus
dem Zugriff ergibt und die nur mit einem Klick verbunden ist, geht die
Popularität, die sich in Links ausdrückt, weiter. Sie erfordert die Veränderung
einer Seite durch einen Autor und drückt meist eine Zustimmung oder ein
positives Urteil über die Zielseite aus. Diese Popularität manifestiert sich
stärker als die flüchtige Zugriffs-Popularität, die sich auf einer globalen
Ebene auch kaum messen lässt. Dementsprechend bilden Qualitätsmaße auf
der Basis der Hyperlinks derzeit den wichtigsten Ansatzpunkt für Systeme mit
automatischer Bewertung der Qualität. Diese Systeme werden weiter unten
ausführlich beschrieben, dieses Kapitel bietet lediglich einen Überblick und
diskutiert Aspekte des Web Structure Mining, welche bisher nicht explizit für
die Qualitätsabschätzung benutzt wurden.
Content Mining bietet momentan weniger Ansatzpunkte für die automatische
Qualitätsabschätzung. Denkbar wäre natürlich, die Qualität der enthaltenen
Information selbst abzuschätzen, wie etwa deren Glaubwürdigkeit. Dies ist
bei dem heutigen Stand der semantischen Analyse von Texten kaum möglich.
Nach einem kurzen Überblick über maschinelles Lernen als Grundlage stellen
drei weitere Abschnitte Anwendungsgebiete des Web Mining dar. Der
Schwerpunkt liegt dabei auf beispielhaften Anwendungen. Während die
Anwendungen des Usage Mining schwerpunktmäßig bei der Verbesserung
der Mensch-Maschine-Interaktion liegen, unterstützen das Structure Mining
und das Content Mining vor allem das Information Retrieval.
1
Dies ist z.B. in den Buchtiteln The Web’s Hidden Order (ADAMIC & HUBERMANN 2001)
oder The Laws of the Web (HUBERMAN 2001) der Fall.
65
3.1
Maschinelles Lernen
Maschinelles Lernen bildet die Grundlage für das Data Mining. Maschinelles
Lernen beschäftigt sich mit Computer-Programmen, die fähig sind, nach
entsprechenden Eingaben neues Wissen zu formulieren.
Menschliches Lernen geht über die Speicherung von Wissen und Anpassung
an die Umwelt hinaus. Es besteht aus einer „Auseinandersetzung mit der
Umwelt“ (EDELMANN 2000:278) und es kommt dabei „zur Bildung von
Erfahrungen, die in der Zukunft neue Aktivitäten beeinflussen“ (EDELMANN
2000:278). Holistische Perspektiven begreifen das Lernen als Persönlichkeitsbildung. Dagegen geht es beim maschinellen Lernen in weit stärkerem Maße
um die Anpassung von Verhalten an die Umwelt. Maschinelles Lernen
versucht diesen Prozess dadurch nachzubilden, dass der Output eines Programms an den Input angepasst wird. Wichtig ist dabei das schrittweise
Lernen. Das System soll beim nächsten Auftreten des gleichen Inputs besser
reagieren als vor dem Lernen1.
Das maschinelle Lernen kennt u.a. folgende wichtigen Lernstrategien:
• Eine Vorstufe des Lernens stellt das Speichern direkter Eingaben dar.
Genau das abgespeicherte Wissen kann dann abgerufen werden.
• Lernen durch Deduktion: Dabei konstruiert das System Mengen von
Regeln und prüft, welche den präsentierten Daten am besten entsprechen.
• Induktion: Aus positiven (und negativen) Beispielen berechnet ein
System einfache statistische Korrelationen und Regression oder komplexe nicht lineare Modelle, welche die Einteilung in positive und
negative Beispiele nachvollziehen. Einen derzeit sehr populären Ansatz
für induktives Lernen stellen Support Vector-Maschinen dar (MITCHELL 1997). Beispielhaft wird im Abschnitt 3.1.2 das neuronale Backpropagation-Netzwerk vorgestellt.
Symbolische Verfahren betonen Regeln und die logische Nachvollziehbarkeit
des gelernten Wissens. Eine wichtige Ausprägung dieser Algorithmen sind
beispielsweise Entscheidungsbäume und Klassifikationsregeln (cf. z.B.
WITTEN & FRANK 2000). Manche Ansätze versehen die Regeln noch mit einer
1
“The field of machine learning is concerned with the question of how to construct
computer programs that automatically improve with experience” (MITCHELL 1997:XV)
66
Gewichtung, welche ihre Korrektheit oder Zuverlässigkeit angibt. Im Folgenden wird ein induktiver Ansatz kurz skizziert.
3.1.1 Neuronales Backpropagation-Netzwerk
Ein typischer Vertreter induktiv lernender Verfahren sind BackpropagationNetzwerke (BOSE & LIANG 1996, HAM & KOSTANIC 2001). Sie lernen anhand
von Beispielen komplexe Funktionen und können dabei ähnlich wie Experten
ihr Wissen nicht in Form von Wenn-dann-Regeln ausgeben. Der Benutzer
eines Netzwerks weiss also in den meisten Fällen nicht, warum ein Netzwerk
eine Entscheidung trifft. Diesen Nachteil nimmt man aber in Kauf, wenn
ansonsten keine Modellierung möglich erscheint.
Wie alle neuronalen Netzwerke bestehen Backpropagation-Netzwerke aus
zahlreichen, sehr einfachen Neuronen, die in Schichten angeordnet sind.
Neuronen wirken als Prozessoren, welche über Verbindungen Input in Form
von nummerischer Akivierung empfangen, daraus ihre eigene Aktivierung
berechnen und anschließend diese Aktivierung an andere Neuronen
weitermelden.
Eine Schicht dient dem Input, dann folgen Schichten für die Berechnung von
Zwischenstufen und schließlich gelangt die Aktivierung in eine OutputSchicht. Input und Output bilden definierte Schnittstellen zur Welt, dort
werden Daten angelegt und abgelesen. Welches Wissen hier eingeht, hängt
vom Anwendungsfall ab. Oft entscheiden Experten, welche Daten für das
Abbildungsproblem erforderlich sind. Der Output steht für das gewünschte
Ergebnis.
Zwischen den Neuronen der verschiedenen Schichten befinden sich gewichtete Verbindungen. Sie bilden die Parameter des Netzes, die anfangs zufallsgesteuert initialisiert und beim Lernen richtig eingestellt werden. Das Lernen
verläuft in zwei Schritten. Zunächst berechnet das Netz nach Eingabe der
Daten ein Ergebnis im Output. Da noch nichts gelernt wurde, ist dieses Ergebnis sicher falsch, d.h., es stimmt nicht mit dem Wert überein, den ein Experte
als Beispiel vorgegeben hat. Die Differenz zwischen Ergebnis und Vorgabe
misst den Fehler des Netzes.
67
gsa
usb
reitu
n
0,9
Berechnung des
Fehlers
Verändern der
Gewichte
Akti
v
ieru
n
Das Netz
errechnet die
Aktivierung der
Output-Schicht
g
Der für dieses Beispiel
gewünschte
0,6
Output (= Teacher)
Input wird angelegt
Das Netz lernt bei jedem Schritt ein Beispiel
Abb. 3.1: Funktionsweise Backprogapation-Netzwerk
Im zweiten Schritt wird dieser Fehler vom Output in Richtung Input, also
gewissermaßen rückwärts ins Netz gespeist. Nun verändern sich die Werte
der Verbindungen. Sie stellen sich so ein, dass sich der Fehler für dieses
Trainingsbeispiel etwas verringert. Dies wird nun für alle Beispiele häufig
wiederholt. Bei Erfolg zeigt sich, dass der Fehler immer kleiner wird und das
Netz schließlich die gewünschte Funktion lernt.
Ein Backpropagation-Netzwerk ist demnach eine Funktion mit sehr vielen
Parametern, die aus einem Input einen Output berechnet. Diese Parameter
werden zu Beginn zufallsgesteuert eingestellt. Anders als bei einem
Schachprogramm ist weder die Anzahl, die Bedeutung noch der richtige Wert
dieser Parameter bekannt. Durch die kontinuierliche Präsentation von Beispielen stellt das Netz die Parameter so ein, dass sich aus den Input-Daten der
richtige Output ergibt. Jede Verbindung kann als eine Mikro-Regel betrachtet
werden, die jedoch für sich alleine keinen Sinn ergibt. Nur im Zusammenspiel
aller Verbindungen entsteht die richtige Funktion. Die Rolle neuronaler Netze
im Information Retrieval beleuchtet MANDL 2001.
Genetische Algorithmen greifen wie neuronale Netze auf eine Analogie zu
biologischen Prozessen zurück und versuchen, diese abzubilden (MITCHELL
1997:249 ff.).
68
3.1.2 Data Mining
Data Mining entwickelte sich aus dem maschinellen Lernen und befasst sich
mit Lernen aus großen Datenmengen und stellt das Lernen in den größeren
Kontext des Prozesses der Entdeckung von neuem Wissen.
Die Basis für Data Mining entstand mit den zunehmenden Datenmengen, die
mit fallenden Preisen für Massenspeicher in vielen Bereichen vorlagen: "Now
that we have gathered so much data, what do we do with it?" (FAYYAD &
UTHURUSAMY 1996:24). Die Definition eines Algorithmus erinnert noch stark
an das maschinelle Lernen: "Any algorithm that enumerates patterns from, or
fits models to, data is a data mining algorithm" (FAYYAD 1997:5). Data
Mining umfasst neben dem eigentlichen Lernen den gesamten Prozess der
Sammlung und Pflege der Daten, über ihre Auswertung bis hin zur
Anwendung der Ergebnisse1.
Data Mining betont die Anwendung induktiver Lernverfahren, bei denen
datengetrieben neue Erkenntnisse gewonnen werden. Andere Verfahren wie
Lernen aus Analogie und Schlußfolgern spielen eine untergeordnete Rolle.
Dabei kommen v.a. die folgenden beiden Methoden zum Einsatz:
• Klassifikation: Lernen von Zugehörigkeiten aus positiven (und negativen) Beispielen, Einordnen der Objekte in bekannte Klassen
• Clustering: Ordnen der Objekte durch Beobachtung und Entdeckung,
Organisieren in bisher unbekannten Mengen
Wodurch entsteht aber die neue Qualität gegenüber anderen wissenschaftlichen Disziplinen, die sich mit genau der gleichen Frage seit langem befassen,
wie allen voran die Statistik?
Der wachsende Umfang der Daten erfordert teilweise völlig neue Ansätze:
• Der Data Mining Prozess umfasst mehr als eine statistische Analyse, er
beinhaltet Datenhaltung (DBMS-Techniken), Benutzung der Daten und
Datenvisualisierung.
• Data Mining stellt den Anspruch, sowohl ein natürlicheres Interface zu
großen Datenmengen zu bieten als auch traditionelle Ansätze zur
Abfrage von Datenbanken2. Fayyad verdeutlicht dies an einem Benut-
1
"various steps of the process which include data warehousing, target data selection (or
combination), evaluation and interpretation and finally consolidation and use of the
extracted ‚knowledge'" (FAYYAD 1997:6)
2
"much more natural interface between human and databases" (FAYYAD 1997:6).
69
zerinteresse, das auf alle Transaktionen abzielt, die mit einer
Wahrscheinlichkeit von 75% oder mehr auf betrügerische Absichten
hinweisen (FAYYAD 1997). Eine entsprechende SQL-Anfrage wäre in
einer großen Datenbank sehr komplex. Data Mining-Algorithmen
dagegen trainieren ein Modell auf der Basis bekannter Transaktionen,
das dann betrügerische Transaktionen erkennt1.
• Data Mining bietet nicht nur ungeahnte Möglichkeiten für innovative
Anwendungen, es wirft ethisch neue Fragen zur Wahrung der Privatsphäre auf. Daten über Personen, die für sich alleine betrachtet keine
Probleme für den Datenschutz darstellen, gewinnen durch ihre Verknüpfung völlig neue Aussagekraft (cf. z.B. VEDEER 2001). Das Individuum kann die Auswirkungen der Preisgabe einzelner Daten nicht
mehr absehen. In komplexen Modellen führen bestimmte Daten möglicherweise zur Einordnung in problematische oder risikobehaftete Gruppen (cf. WITTEN & FRANK 2000). Dies kann zur Sperrung von Krediten
oder der Verweigerung von Versicherungen führen, aber selbst vitale
Interessen können davon betroffen sein, wenn etwa bei Risikogruppen
Behandlungsmethoden aufgrund schlechter Aussichten nicht angewandt werden oder gezielt Eizellen für eine Befruchtung ausgewählt
werden.
3.2
Web Structure Mining
Web Structure Mining nutzt als Datengrundlage vor allem die HypertextLinks zwischen Internet-Seiten. Dazu wird das Web aus der Perspektive der
Graphen-Theorie betrachtet und als großer Graph interpretiert. Dabei sind die
Seiten Elemente und die Links Kanten in dem formalen Graph (Jansen 2003,
BOSE & LIANG 1996). Dies lässt sich auch als Matrix über alle Seiten
darstellen, wobei die Zellen die Information enthalten, ob ein Link vorliegt
oder nicht. Die beiden Darstellungen in Abbildung 3.2 sind also äquivalent.
1
"construct a training sample for a data mining algorithm, let the algorithm build a
predictive model, and then retrieve records that the model triggers on" (FAYYAD 1997:6)
70
A
A
B
B
C
D
A
B
1
1
C 1
C
D
D
1
1
1
Abb. 3.2: Netz- und Matrix-Darstellung eines kleinen Graphen
Die folgenreichsten Methoden des Web Structure Mining für die Qualitätsbewertung sind die Autoritätsmaße wie der PageRank-Algorithmus, die
weiter unten diskutiert werden (siehe Abschnitt 7.1).
Wichtige Erkenntnisse des Web Structure Mining sind Aussagen über exponentielle Verteilungen zahlreicher Parameter. So zeigte sich mehrfach, dass
viele verschiedene Verteilungen im Internet sehr ähnlichen exponentiellen
Wahrscheinlichkeitsverteilungen folgen. Dabei gibt es sehr wenige Elemente,
die hohe Werte erzielen und viele Seiten, die äußerst niedrige Werte haben.
Dies gilt etwa für die Anzahl der Seiten in Bezug zu eingehenden Links, in
Bezug zu ausgehenden Links aber auch für die Anzahl von Seiten pro WebSite (cf. ADAMIC & HUBERMAN 2001, siehe Abschnitt 7.8).
3.2.1 Autoritätsmaße
Autoritätsmaße basieren auf der einfachen Annahme, dass häufig zitierte
Seiten besonders gut sein müssen. Je mehr Links auf eine Seite verweisen,
desto höher ist deren Autorität. Die Grundannahme wird aber weiter verfeinert. Nicht jeder Link zählt gleich viel. Vielmehr sollen Links von Seiten mit
großer Autorität höher bewertet werden. Ein Link von einer Seite mit hoher
Autorität trägt also mehr zur Autorität der Zielseite bei. Diese Grundannahme
bildet den Kern der Algorithmen PageRank (cf. PAGE ET AL. 1998), SALSA
(cf. LEMPEL & MORAN 2000) oder HITS (cf. KLEINBERG 1998).
Autoritätsmaße stellen die am weitesten verbreitete Methode zur automatisierten Qualitätsabschätzung dar und sie werden daher ausführlich im Kapitel 7
71
zu existierenden Systemen diskutiert. Neben den Autoritätsmaßen macht das
Web Structure Mining zahlreiche Aussagen über die quantitativen Beziehungen zwischen den Elementen des Internet, die im Folgenden vorgestellt
werden.
3.2.2 Quantitative Untersuchungen
Die Update-Zeit von Internet-Seiten folgt ebenfalls weitgehend einer exponentiellen Verteilung. In einer Untersuchung von BREWINGTON & CYBENKO
2000 änderten sich 56% der Seiten nie, während ein geringer Anteil von 4%
sehr stark dynamisch ist und häufig modifiziert wird. Etwa 20% der Seiten
sind weniger als elf Tage alt. Der Median der Verteilung liegt bei 100 Tagen,
so dass ca. 50% der Inhalte weniger als drei Monate alt sind. Die Angaben
beziehen sich auf ein Korpus von zwei Millionen Seiten (ca. 200 Gigabyte),
das über einen Zeitraum von über einem Jahr beobachtet wurde. Die Zeitspanne zwischen den Updates für eine einzelne Seite ließ sich mit einer WeibullWahrscheinlichkeitsverteilung modellieren (BREWINGTON & CYBENKO 2000).
Diese Ergebnisse konnte eine Analyse von FETTERLY ET AL. 2003 noch differenzieren, welche umfassend die Dynamik des Internets untersuchte.
FETTERLY ET AL. 2003 berücksichtigten auch den Umfang der Änderung
(siehe Abbildung 3.3). Die Studie zeigt, dass sich lange Seiten häufiger und
stärker ändern als kurze und dass die Dynamik einer Seite weitgehend stabil
ist. Tritt in einer Woche eine Veränderung ein, so ist die Wahrscheinlichkeit
hoch, dass diese Seiten auch in der nächsten Woche wieder modifiziert
werden. Dies ist wichtig für das Crawling, also das Sammeln von WebSeiten, bei dem die Aktualität eine wichtige Rolle spielt. Die Frequenz, mit
der eine Seite von einem Crawler besucht wird, sollte von der Änderungshäufigkeit abhängig sein. Dies ist eine Heuristik, die viele Crawler benutzen.
Die Arbeit von FETTERLY ET AL. 2003 zeigt nun, dass die Frequenz der
Veränderungen stabil ist und die einmal erkannte Rate nicht so schnell wieder
überprüft werden muss.
72
Abb. 3.3: Änderungsfrequenz von Internet-Seiten (aus FETTERLY ET AL. 2003)
Die Veränderungsrate ist schwierig zu messen, da das Alter einer Seite sich
kaum exakt bestimmen lässt (cf. LEWANDOWSKI 2004b). Das Hypertext
Transfer-Protokoll (HTTP) übermittelt im Header lediglich die letzte
Änderung einer Seite und bereits diese Information gilt als sehr unsicher. Je
nach Konfiguration des Web-Servers kann diese Information auch völlig
falsch sein. Häufig finden sich im Text Angaben zur letzten Änderung, die
redaktionell vorgenommen werden und ebenfalls falsch sein können. Das
reale Alter einer Seite lässt sich nur mit umfassenden Archivierungen
feststellen, die erst langsam beginnen (cf. MASANÈS & RAUBER 2004).
Daneben kann eine Änderung von sehr unterschiedlichem Umfang sein und
von kleinen Korrekturen bis hin zu einem kompletten Austausch des Inhalts
reichen.
Der Ansatz von FETTERLY ET AL. 2003 versucht, dieses Problem zu
berücksichtigen und überprüft selbst, ob und wie stark sich eine Seite
verändert hat. Dazu wurden 330 Millionen Internet-Seiten an vierzehn
aufeinander folgenden Wochen geladen und untersucht. Eine komplette
Speicherung aller Seiten war nicht möglich, so dass ein Näherungsverfahren
bestimmte, ob und wie stark sich die Seiten verändert hatten. Aus den Seiten
wurden Codes (sogenannte Shingles) generiert, aus denen sich mit hoher
Wahrscheinlichkeit die Änderungsrate ableiten lässt. Diese Codes wurden
gespeichert und über die Wochen hinweg verglichen.
73
3.3
Web Usage Mining
Web Usage Mining stellt einen Sonderfall des Web Mining dar, da die
Basisdaten nicht im Web zur Verfügung stehen, sondern erst bei der
Benutzung entstehen und auf Web-Servern in nicht öffentlich zugänglichen
Bereichen gespeichert sind. Web Usage Mining untersucht das
Informationsverhalten von Benutzern und analysiert es für verschiedene
Anwendungen (RAHM 2002).
wpbfl2-45.gate.net
[29:23:55:01]
/docs/browner/cbpress.gif HTTP/1.0" 200 51661
"GET
wpbfl2-45.gate.net [29:23:55:29] "GET /docs/Access HTTP/1.0"
302 140.112.68.165
[29:23:55:33]
HTTP/1.0" 200 2788
"GET
/logos/us-flag.gif
wpbfl2-45.gate.net
HTTP/1.0" 200 617
[29:23:55:46]
"GET
/information.html
wpbfl2-45.gate.net
HTTP/1.0" 200 224
[29:23:55:47]
"GET
/icons/people.gif
Abb. 3.4: Auszug aus einem Log-File1
Öffentlich zugängliche Log-Dateien für Forschungszwecke finden sich auch
im Internet2. Für die Analyse von Log-Dateien sind zahlreiche Produkte
lieferbar3.
3.3.1 Methodische Probleme
Die Log-Files von Web-Servern enthalten für jede Anforderung einer Datei
durch einen Browser einen Eintrag. Jedoch entspricht keineswegs jede
1
http://ita.ee.lbl.gov/html/contrib/EPA-HTTP.html
2
Ein Angebot liefert das Internet Traffic Archive: http://www.acm.org/sigcomm/ITA
3
Z.B. ClickTracks (http://www.clicktracks.com/) oder WebTRends
http://www.webtrends.com
74
Anforderung1 einer Internet-Seite, sondern eine Seite erfordert meist mehrere
Anforderungen etwa zur Übermittlung eingebetteter Grafiken. Ein Klick kann
daher mehrere Einträge zur Folge haben. Der einzelne Eintrag wird als Hit
bezeichnet, während der Aufruf einer Seite aus Benutzerperspektive
PageView heißt.
Sites zeichnen
Aktionen auf
WWW
Benutzer
Site
Site
Usage
Mining:
Suche
nach
Mustern
LogDatei
Site
Site
Benutzte Links
Site
Site
LogDatei
Site
Site
Abb. 3.5: Funktionsweise des Web Usage Mining
Zahlreiche Anforderungen führen dagegen nicht zu Einträgen im Log-File, da
sie von Proxy-Servern bearbeitet werden. Proxy-Server und Daten im Proxy
des Browsers speichern häufig abgefragte Daten ab und liefern sie an den
anfordernden Browser, ohne den Web-Server zu kontaktieren, von dem sie
ursprünglich stammten. Das beschleunigt die Interaktion, führt jedoch zu
unvollständigen Daten bei den Log-Dateien. Die Kontrolle darüber liegt nicht
vollständig bei den Autoren der jeweiligen Angebote. Ein ähnliches Problem
entsteht bei der Benutzung des Back-Button eines Browsers, bei dem die Seite
ebenfalls von dem Client erneut gezeigt wird und dabei lediglich aus dem
Cache gelesen wird (SULLIVAN 1997:1). Gerade solche Aktionen sind natürlich sehr wichtig für die Mensch-Maschine-Interaktion.
1
Im Hypertext Transport Protocol (HTTP) entspricht die Anforderung einem GET Befehl.
75
Darüber hinaus geben Log-Dateien nur unzureichend darüber Aufschluss, wie
lang sich ein Benutzer eine Web-Seite betrachtet. Zwar wird für jeden Hit der
Zeitpunkt festgehalten, jedoch gehen kurze oder lange Unterbrechungen der
Interaktion nicht in die Log-Datei ein.
Die oben geschilderten Probleme sind besonders für Anwendungen wichtig,
bei denen Interaktion finanziell vergütet werden oder die Häufigkeit der
Nutzung sehr genau überwacht werden soll wie vor allem bei Werbung. In
diesem Zusammenhang wird häufig der Sammelbegriff Web-Measurement für
die Erfassung und Messung von Internet-Inhalten und Zugriffen genutzt. Der
Begriff Web-Measurement wird also v.a. in dem Bereich der Werbewirksamkeitsforschung für das Internet gebraucht1 (cf. BÜRLIMANN 2001).
3.3.2 Aufzeichnung der Interaktionsdaten
Die Sammlung und Auswertung von Interaktionsdaten kann auf mehreren
Ebenen erfolgen. Lokale Daten wie der Cache, die History und die
Bookmark-Dateien des Web-Clients erlauben eine Verfolgung der Interaktion
und eine Analyse des Interessensspektrum des Benutzers. Aus solchem
Wissen ziehen viele adaptive Systeme Inferenzen über das Interesse des
Benutzers und versuchen, es auf andere Internet-Seiten zu übertragen. Andere
Systeme zur Navigationsunterstützung konzentrieren sich auf die Visualisierung des Interaktionsverlaufs. Teilweise fassen diese Systeme auch die
Dialog-Geschichte mehrerer Benutzer zusammen und gelangen so zu einem
sozialen Modell der Interaktion (cf. DAVENPORT & BUCKNER 1998).
Anders als die lokalen Daten, welche die Interaktionen eines Benutzers auf
allen von ihm besuchten Seiten speichern, repräsentieren die Server-LogDateien die Anbieter-Perspektive. Diese Dateien vereinigen die Aufrufe aller
Benutzer von Seiten eines Web-Angebots und stehen den Betreibern des
entsprechenden Web-Servers zur Verfügung. Die Analyse dieser Daten ist am
weitesten verbreitet, liefert jedoch nur Daten für das jeweilige Angebot. Ein
Vergleich mit anderen Sites für ähnliche Anwendungen (wie zum Beispiel der
Vergleich zweier Online-Geschäfte für Bücher) ist dadurch nicht möglich.
1
Bei der Werbewirksamkeitsforschung wird geprüft, inwieweit Werbebotschaften die Benutzer erreichen und inwieweit sich damit aus der Sicht der werbenden Firmen die Investitionen lohnen. Aus der Perspektive des Angebots, das an der Integration von Werbung in die eigenen Seiten verdienen will, geht es darum, nachzuweisen, dass das eigene
Angebot qualitativ so interessant ist, dass es einen lohnenden Werbeträger darstellt.
76
Aus Sicht des Web-Usage-Mining wären Daten zu Interaktionen vieler
Benutzer mit vielen Internet-Angeboten wünschenswert. Die Einschränkung
auf einzelne Benutzer oder einzelne Angebote könnte aber nur durch eine
globale Perspektive überwunden werden. Diese Perspektive wird am ehesten
durch die Proxy-Server großer Internet Service Provider (ISP) erreicht, welche die Interaktionen vieler Benutzer aufzeichnen können. Solche Daten
wären für die Qualitätsbewertung sehr interessant, da sie ein besseres Bild der
Popularität wiedergeben als die Link-Analyse. Während die Links lediglich
die Popularität einer Internet-Seite bei der kleinen Gruppe der Web-Autoren
zeigen, würden globale Log-Dateien die Popularität bei den Benutzern
wiederspiegeln1.
Die Werbewirksamkeitsforschung versucht durch neue Methoden Vergleichbarkeit zu schaffen. Dazu zählt der Standard der Informationsgemeinschaft
zur Feststellung der Verbreitung von Werbeträgern e. V. (IVW), bei dem
jeder teilnehmende Anbieter auf jeder Seite ein kleines Skript einfügt, das zu
einem Aufruf bei einer Zentrale führt2. Die dort gesammelten Daten erlauben
zum Beispiel den Vergleich mehrerer Online-Zeitungen.
3.3.3 Log-Daten in der Mensch-Maschine-Interaktion
Die Analyse von Nutzungsdaten aus dem Internet gilt auch als eine große
Chance für die empirische Forschung zur Mensch-Maschine-Interaktion
(siehe Abschnitt 1.5). Die Evaluierung von Benutzungsschnittstellen ist
äußerst wichtig. Solche Untersuchungen3 erfordern einen großen Einsatz von
Ressourcen und sind sehr teuer. Dagegen entstehen die Daten in Logfiles
durch tatsächliche reale Aktionen von Internetnutzern. Alle Benutzer werden
gewissermaßen zu Testbenutzern, es gibt keine Probleme bei der Auswahl,
Motivation, Bezahlung und Formulierung von Testaufgaben. Verfahren für
die Auswertung von Log-Files gelten als „‘discount‘ usability assessment
methods“ (SULLIVAN 1997:2). Allerdings enthalten die Log-Files nur sehr
wenig Information und sind daher keineswegs so aussagekräftig wie
Benutzertests. Manche Kompromisse setzen daher auf die Sammlung von
Daten auf der Seite des Clients, also des Browsers:
1
Eine Analyse der Wissensquellen für die Qualitätsbewertung folgt in Abschnitt 5.5.
2
Die Anwendung und Funktionsweise des sogenannten SZM-Tags wird erläutert unter:
http://www.ivwonline.de/messverfahren/szm-tag.php
3
Ein Beispiel für eine umfangreiche, vergleichende Untersuchung von verschiedenen Internetangeboten bieten SPOOL ET AL. 1999.
77
• Benutzertests:
Erkenntnissen
intensivste
Form
mit
den
aussagekräftigsten
• WebVip (NIST) erstellt eine Kopie einer Site und fügt dabei den Links
mehr Informationen hinzu. Dadurch werden die Standard-Logfiles
wesentlich aussagekräftiger, da dort verfolgte Links mit zusätzlichen
Daten kodiert werden (ETGEN & CANTOR 1999). Für die Auswertung
ist nicht unbedingt Zugang zu dem Client-Browser des Benutzers
erforderlich, was die Methode flexibel macht. Allerdings erlaubt
WebVip nur die Evaluierung von vorher definierten und kopierten
Sites, so dass die freie Interaktion im Netz nicht bewertet werden kann.
Der Benutzer muss also bewusst an dem Test teilnehmen und diszipliniert nur auf eine spezielle Version der getesteten Seite zugreifen.
• WET (Web Event Logging Tool, ETGEN & CANTOR 1999): WET ist die
Erweiterung eines Browsers, der damit konfigurierbar alle Events bei
der Bedienung aufzeichnen kann. Unter Event versteht man atomare
Ereignisse in einer Benutzungsoberfläche, wie das Drücken des MouseButtons, das Drücken einer Taste oder das Anklicken einer Checkbox.
Die aufgezeichneten Ereignisse spiegeln die Aktionen des Benutzers
wider und werden automatisch an die Auswertenden verschickt. WET
muss allerdings installiert und je nach Untersuchungsinteresse konfiguriert werden. Es liefert alle Ereignisse aus Sicht eines Benutzers, der
viele Sites ansteuert, während Log-Files die Sicht eines einzelnen
Servers liefern, auf den viele Benutzer zugreifen.
• Log-Datei-Analyse: kostengünstigste Evaluierung, die aber nur wenige
Informationen bietet, dafür auf sehr vielen Benutzern basiert
Abschließend sollen einige Beispiele die typischen Anwendungsszenarien
illustrieren.
Häufig suchen Benutzer in einer hierarchischen Struktur nach einer Seite und
schlagen Pfade ein, unter denen sie diese Seite vermuten. Wenn sie diese dann
nicht finden, gehen sie zurück und suchen unter anderen Pfaden, bis sie
schließlich erfolgreich sind. Sobald mehrere Benutzer dieses Ziel zunächst
unter einem anderen Pfad vermuten, so weist dies darauf hin, dass dieser erste
Pfad der bessere Ort für das Ziel ist. Ein System zur Optimierung einer WebSite nach diesem Prinzip entwickeln SRIKANT & YANG 2001.
Mit Pfaden befassen sich auch BORGES & LEVENE 2000. Sie entwerfen eine
probabilistische Grammatik, in der ein Satz ein n-Gram von Seiten und damit
einen vom Benutzer verfolgten Pfad in einem Hypertext darstellt. Aus den
78
Log-Dateien eines Servers extrahieren die Autoren quasi syntaktische Regeln,
die das wahrscheinliche Verhalten des Benutzers auf diesem Server
wiedergeben. Bei über 10.000 Regeln sinkt der Fehler unter 20%. Je kleiner
und handlicher die Grammatik allerdings gestaltet wird, desto mehr steigt
dieser Fehler an.
Aus den Pfaden lassen sich auch häufig gemeinsam aufgerufene Seiten erkennen (COOLEY ET AL. 2000). Bestehen zwischen Seiten mit hohen Assoziationswerten dann keine strukturelle Beziehung durch Hypertext-Verknüpfungen, dann sind diese besonders interessant für die weitere Analyse.
Die Bedeutung der Analyse von typischen Pfaden führte zur Entwicklung
flexibler Abfragesprachen. Ein System extrahiert Pfade aus den Log-Dateien
und macht diese dem Benutzer mit einer Abfragesprache im relationalen Stil
zugänglich (SPILIOPOULOU ET AL. 2000). Die Intelligenz liegt hier also
weitgehend beim Benutzer des Web Mining-Systems, der häufig genutzte
Pfade identifizieren kann. Diese werden in der vorgestellten Lösung adaptiv
verkürzt, indem zusätzliche Verknüpfungen eingefügt werden. Schlagen also
Benutzer mit ähnlichen Eigenschaften häufig einen langen Pfad ein, so erlaubt
ein automatisch eingefügter Link einen schnelleren Zugriff auf das wahrscheinliche Ziel (SPILIOPOULOU ET AL. 2000).
Manche der Erkenntnisse aus der Log-Datei-Analyse können durch andere
Evaluierungsverfahren nur schwer gewonnen werden. Die Evaluierung einer
Site zur Reservierung von Ferienwohnungen durch Usage-Mining sowie
durch Benutzertests zeigte, dass jedes Testverfahren zu anderen Verbesserungsvorschlägen führte (BARTEL 2002).
Aus einem Vergleich der Log-Datei-Einträge und den Top-Level-Domains
der zugreifenden Benutzer, die Rückschlüsse auf das Herkunftsland der
Benutzer zulassen, konnten KRALISCH & BERENDT 2004 sogar kulturelle Präferenzen beim Suchverhalten erkennen. Die Studie zeigte, dass Benutzer aus
Kulturen mit stärkerer Unsicherheitsvermeidung als auch Benutzer aus Kulturen mit niedriger Kontextvermittlung eher Suchmasken benutzen als Links.
Der Ansatz von CHI ET AL. 1998, 2000, und 2003 analysiert sowohl die
Usage-Daten als auch Links und die Inhalte der besuchten Seiten (siehe
Abschnitt 8.4.4). Auch CHAKRABARTI ET AL. 1997 greifen auf mehrere
Wissensquellen zurück um eine Sammlung von Ressourcen zu einem Thema
zu erstellen. Diese Systeme verweisen bereits auf das Web Content Mining.
79
3.4
Web Content Mining
Content Mining zieht Wissen aus dem Inhalt der Internet-Seiten. Häufig bildet
der lesbare Text einer Seite die Grundlage und dementsprechend wird Content
Mining auch als Text-Mining bezeichnet (BERRY 2004). Content Mining
extrahiert aus mehreren Seiten Wissen, das explizit nicht vorhanden ist. Die
direkte Extraktion von vorhandenem Wissen aus Internet-Seiten bezeichnet
man dagegen häufig als Information Extraction. Dabei geht es vor allem um
die Überführung von nicht strukturiertem Wissen aus Texten in strukturierte
Formate, die von Computern leicht bearbeitet werden können. Die Übergänge
sind fließend und die Terminologie wird in der Literatur auch nicht einheitlich
benutzt.
3.4.1 Lexikalisches Wissen
Viele Anwendungen bemühen sich, die Bedeutung von Begriffen durch das
Wissen im Internet zu erkennen. Die Ansätze arbeiten benutzer-orientiert oder
extrahieren vages Wissen.
Benutzer-orientierte Verfahren präsentieren mehrere Varianten und überlassen die Erkennung guter Definitionen dem Benutzer. Ein System sucht zunächst mit einer Suchmaschine nach dem fraglichen Begriff. Aus den Antwort-Dokumenten werden dann Passagen extrahiert, welche typisch für
Definitionen sind. Zum einen vergleicht das System den Text mit
syntaktischen Mustern für Definitionssätze („Y ist ein X“) und zum zweiten
prüft es, ob die HTML-Formatierung um die Fundstelle des Begriffs auf eine
Definition hinweist. Die typische Formatierung sowie die typischen syntaktischen Muster wurden vorab von den Autoren identifiziert (FUJII & ISHIKAWA
2000).
Die Bedeutung von Wörtern lässt sich nicht nur in Definitionen erkennen,
sondern auch durch vages Wissen beschreiben. Diese Beschreibung erfolgt in
der Regel durch einen Vektor mit gewichteten Termen. Diese Terme stellen in
dieser Kombination oder einzeln dann mit dem jeweiligen Gewicht Synonyme des Begriffs dar. Je nach Anwendung können die Terme aus der gleichen oder einer anderen Sprache stammen. Neben einer anderen Sprache
können auch Terme einer anderen Ontologie die Beschreibung liefern, was
vor allem bei semantischer Heterogenität wichtig ist (cf. KÖLLE ET AL. 2004,
MANDL & WOMSER-HACKER 2003, siehe Abschnitt 2.5). Eine Anwendung
hierfür wurde im Rahmen des Projekts CARMEN entwickelt. Dabei wurden
aus dem Internet sozialwissenschaftliche Texte extrahiert, die zur Erstellung
von statistischen Transfermodulen dienten (STRÖTGEN 2002). Diese
80
Transferverfahren erlauben den Überstieg von den Termen einer sozialwissenschaftlichen Ontologie zu einer anderen. Weitere Ansätze versuchen,
ganze Ontologien aus dem Internet zu gewinnen. Diese werden im folgenden
Abschnitt diskutiert.
Ein interessanter Aspekt der Wissensgewinnung aus dem Internet liegt im
Bereich multilingualer Informationssysteme. Dabei stammen die Terme zur
Beschreibung eines Begriffs aus einer anderen Sprache. Ziel dieser Verfahren
ist letztendlich eine Form der Übersetzung zwischen natürlichen Sprachen.
Das Internet enthält überwiegend Text-Dokumente und diese in zahlreichen
Sprachen1. Eine wichtige Wissensquelle für Information Retrieval in
mehrsprachigen Kontexten, bei dem eine Anfrage auf Dokumente in anderen
Sprachen abzielt, sind mehrsprachige Korpora, die synchronisiert (aligned)
vorliegen. Das bedeutet, dass zu einem Satz oder Dokument sein Pendant in
einer anderen Sprache bekannt ist. Solche Doppelkorpora können dann für die
automatische, statistisch basierte Übersetzung von Anfragen oder Dokumenten benutzt werden. Solche Korpora lagen bisher meist nur für begrenzte
Datenmengen vor und stammten meist aus mehrsprachigen Ländern wie der
Schweiz, wo offizielle Dokumente übersetzt werden müssen. Im Rahmen des
Cross Language Evaluation Forum (CLEF, siehe Abschnitt 2.4) werden
mehrere Ansätze evaluiert, die solche Datenmengen für ihr konkretes Sprachenpaar aus dem Internet erstellen. Da sehr viele Internet-Angebote sich an
ein internationales Publikum richten, müssen sie übersetzt werden und die
gleiche Information wird parallel präsentiert. Inzwischen existieren relativ zuverlässige Sprachidentifikationssysteme, die dann im Zusammenspiel mit
heuristischen Regeln die jeweiligen Versionen der Dokumente in verschiedenen Sprachen erkennen und synchronisieren. Diese Regeln berücksichtigen
z.B. die Verzeichnisstruktur und Dateinamen, aus denen die Sprachversion erkennbar ist. Die Aufgabe des Web-Mining besteht also in der Bereitstellung
der Parallelkorpora (cf. NIE ET AL. 1999, NIE ET AL. 2001). Schwierig ist dabei
die Erkennung der Übereinstimmung zwischen den Texten. Manche Ansätze
erlauben vage Werte für die Übereinstimmung (RIBEIRO ET AL. 2000).
3.4.2 Web Knowledge Mining
Neben den auf Sprachressourcen ausgerichteten Verfahren im letzten
Abschnitt versuchen andere Algorithmen symbolisches Wissen unterschied-
1
Eine Übersicht über die Anteile der einzelnen Sprachen siehe unter
http://global-reach.biz/globstats/index.php3.
81
licher Art aus dem Web zu extrahieren. Beispielhaft seien hier nur zwei
Systeme genannt.
Ein Ansatz mit sehr generellem Anspruch versucht aus einer Menge von
Seiten, einer vorgegebenen Ontologie und einigen vorgegebenen Beispielen
zu lernen. Ein wichtiger Schritt dabei ist das Lernen aufgrund eines Links, der
eine Beziehung zwischen zwei Objekten einer Ontologie repräsentiert. So
bedeutet ein Link von der Seite eines Professors auf einen Kurs „unterrichtet“.
Einen weiteren wichtigen Anhaltspunkt stellt die Text-Kategorisierung dar,
die Web-Seiten den Ontologie-Objekten zuordnet. Durch dieses Verfahren
werden typische Begriffe für die Web-Seite eines Objekts aus einer Lernmenge erkannt (CRAVEN ET AL. 1997).
Ein spezifischer Ansatz zur Erkennung von Firmenstrukturen aus dem Web
greift auf wenige Kriterien zurück, die empirisch ermittelt wurden. Ziel ist die
Extraktion der Firmenstruktur aus den Web-Seiten. Um die Seiten zu
erkennen, die zum Unternehmen gehören und die potentiell interessant für die
Firmenstruktur sind, extrahiert das Verfahren alle Seiten, auf welche die
Homepage des Unternehmens verweist. Zusätzlich wird geprüft, ob die Seiten
auf dem gleichen Server liegen, den Firmennamen in der URL und im Titel
enthalten, einen Link zurück zur Homepage besitzen oder gleiche Bilder wie
die Homepage zeigen (SCHEUCH 1997).
3.5
Text Mining
Die Grundidee des Text Mining lässt sich wie folgt umschreiben: „Text
Mining aims at disclosing the concealed information by means of methods
which on the one hand are able to cope with the large number of words and
structures in natural language and on the other hand allow to handle
vagueness, uncertainty and fuzziness“ (HOTHO ET AL. 2005:19).
Text Mining hat Bezüge zum Information Retrieval, der Sprachtechnologie
und der Information Extraction. Neben Technologien aus diesen Bereichen
sind Klassifikationsverfahren und auch Visualisierungsansätze wichtige
Methoden des Text Mining.
Die Verfahren für das Erkennen unterschiedlicher Muster ähneln denen aus
dem Data Mining. Text Mining fokussiert auf Text-Daten und grenzt sich
somit vom Data Mining ab, das die Bearbeitung von numerischen Daten
betont. Spezifisch für Text Mining sind dabei die Verfahren zur Erzeugung
von Repräsentationen natürlichsprachlicher Texte. Zum Web Mining besteht
eine Schnittmenge wie auch der obige Abschnitt zeigt, eine Abgrenzung kann
heuristisch über die Datengrundlage erfolgen.
82
Anwendungsbeispiele für Text Mining sind etwa Text-Kategorisierung
(SEBASTIANI 2002), Patent-Analyse, die visuelle Darstellung von Strukturen
in großen Textmengen (siehe auch Abbildung 2.12 EIBL & MANDL 2004,
HOTHO ET AL. 2005). Auch die Erkennung der Qualität von Texten lässt sich
unter Text Mining fassen, womit sich der Bogen zur Thematik Qualität
schließt. So ist die Spam-Erkennung bei E-Mails ein Anwendungsbeispiel für
das Text Mining und auch die automatische Benotung von Texten lässt sich
darunter fassen (siehe Abschnitt 8.5).
3.6
Fazit: Web Mining und Text Mining
Die obigen Beispiele zeigen, wie groß die Chancen und wie breitgefächert die
Anwendungen des Text- und Web-Mining bereits sind. Die Ansätze greifen
auf eine Fülle von Wissensquellen zu. Deutlich wurden auch einige Einschränkungen. Mit der Qualität des gewonnenen Wissens steigt häufig auch
der vorab nötige Aufwand etwa bezüglich Auswahl der Seiten und Erstellung
von Heuristiken zur Auswertung. Je nach Anwendung kann dieser Aufwand
durchaus lohnend sein. Jedoch sind damit die meisten Ansätze nicht
generalisierbar und nicht für die generelle Qualitätsbewertung einsetzbar.
Trotzdem bieten viele der Beispiele Anregungen für Qualitätssysteme ebenso
wie für andere Informationssysteme.
83
84
Qualität von Internet-Angeboten
4. Qualität von Internet-Angeboten
Qualität bezeichnet die Güte oder das Maß der Exzellenz von etwas. Intuitiv
ist die Bedeutung von Qualität meist klar. Abstrakte Definitionen gehen meist
kaum über den Güte-Begriff hinaus. Im konkreten Anwendungsfall lässt sich
Qualität meist nur sehr schwer definieren. Die ISO-Norm definiert die
Qualität eines Produktes wie folgt: "Die Gesamtheit der Merkmale eines
Produktes oder einer Dienstleistung, die sich auf deren Eignung beziehen,
festgelegte oder vorausgesetzte Erfordernisse zu erfüllen" (ISO 8402 1986).
Im Folgenden geht es um die Qualität von Information, von InformationsProdukten und insbesondere um Internet-Angebote. Kapitel 4 und 5 führen in
den Forschungsstand zur Informationsqualität im weiteren Sinne ein. Der
nächste Abschnitt stellt drei Rahmen für Definitionen von Informationsqualität vor. Abschnitt 4.2 thematisiert die Abgrenzung zwischen Qualität und
Relevanz. Anschließend diskutiert Abschnitt 4.3 ausführlich unterschiedliche
Facetten und Eigenschaften von Qualitätsdefinitionen. Nach diesem statischen
Blick auf die Thematik ergänzt Kapitel 5 weitere Aspekte wie Arbeitsteilung,
Bezugsgrößen von Qualitätsdefinitionen im Internet, negative Qualität, Eigenschaftserkennung, Wissensquellen sowie den Prozess der Qualitätsbestimmung.
4.1
Rahmen für Qualitätsdefinitionen
Qualität ist damit ein schwer zu fassendes Konzept1. Darin ähnelt es dem
verwandten Begriff der Relevanz. Möglicherweise haben wir es analog zu
dem Relevanz-Paradox auch mit einem Qualitäts-Paradox zu tun. Je mehr wir
uns der „wirklichen“ Qualität nähern wollen, desto weniger können wir sie
messen bzw. überhaupt erfassen. Diese Meinung vertreten auch die Entwickler der meisten Prototypen zur automatischen Qualitätsbewertung, die sich mit
1
„Mit Qualität wird oft etwas durchgängig Hochwertiges bezeichnet. Man spricht von
einer 'guten Qualität' bzw. generell von Qualität, Qualitätsarbeit, Qualitätsprodukt, und
so weiter. ... Umgangssprachlich und in Redewendungen spricht man von ’ausgezeichneter Qualität’ oder von ’schlechter Qualität’. In dieser Hinsicht ist Qualität ein mit
Wertungen verbundener Begriff, der die Zweckangemessenheit eines Ergebnisses
menschlicher Arbeitstätigkeit bzw. der Beschaffenheit eines Produktes oder einer Dienstleistung zum Ausdruck bringt. ... Ein Produkt hat eine exzellente Qualität, wenn die
Ansprüche des Kunden mit der Leistung des Produkts möglichst genau übereinstimmen.
Die Qualitätsansprüche eines jeden Verbrauchers können hier allerdings völlig verschieden sein.“ (http://de.wikipedia.org/wiki/Qualit%C3%A4t)
85
der Bestimmung der Qualität von Informationsobjekten im Internet befassen1.
Dieser Abschnitt stellt drei Rahmen für Qualitätsdefinitionen für Information
vor, die auf unterschiedlichen Ebenen ansetzen.
Der Ansatz von PRICE & SHANKS 2004 und PRICE & SHANKS 2005 stellt
einen theoretischen Rahmen dar, der auf der Semiotik aufsetzt und Qualität
auf die drei Ebenen Syntax, Semantik und Pragmatik bezieht. Vor allem die
Pragmatik ist bedeutsam für die weitere Diskussion. Die Orientierung einer
Definition zwischen den Polen objektiv, subjektiv, Produkt, Produktion sowie
Wert lässt sich mit dem Rahmen von MARCHAND 1990 beschreiben. Der Bezug von Informationsqualität und entsprechenden Kategorien wird an dem
komprimierten und für Web-Angebote gut geeigneten Rahmen von HUANG ET
AL. 1999 sichtbar.
Einen theoretischen Rahmen für Informationsqualität aus der Perspektive der
Entscheidungsunterstützung mit Fokus auf numerischen Daten und Datenbankmodellen stellen PRICE & SHANKS 2004 und PRICE & SHANKS 2005 vor.
Sie bauen ihr Modell auf der Theorie der Semiotik auf, nach dem ein Zeichen
eine syntaktische, eine semantische und eine pragmatische Ebene bezieht. Die
Syntax beschreibt Beziehungen zwischen den Daten, die Semantik betrifft die
Übereinstimmung zwischen realer Welt und den repräsentierten Informationen, während die pragmatische Ebene die Information in ihrer Anwendung
behandelt. Die pragmatische Qualitätsdefinition fragt, ob Information für eine
gewünschte Anwendung geeignet ist und diese Anwendung unterstützt. Auf
den Ebenen der Syntax und der Semantik erfordert die Qualität eine hohe
Übereinstimmung zwischen definierten Anwendungen und den Daten, welche
sich für Stichproben genau messen lässt. Auf der Ebene der Pragmatik wird
die Qualität nur aus Sicht des Benutzers bestimmt. Das Ziel des Qualitätsmanagement besteht in der Verringerung der Kluft zwischen erwarteter und
wahrgenommener Qualität durch den Benutzer. Dieser aus der Theorie der
Semiotik entwickelte Rahmen für die Betrachtung der Qualität geht konform
1
So bezweifeln z.B. AMENTO ET AL. für den Bereich des Internet, „whether a shared notion
of quality even exists“ (AMENTO ET AL. 2000:296) und glauben, es sei „difficult to give a
precise definition“ (AMENTO ET AL. 2000:296). Die Vielschichtigkeit betonen Capiello et
al. 2004: „Data quality is a multidimensional concept and it can be evaluated through
different criteria“ (CAPIELLO ET AL. 2004:69). KUHLEN 2000 führt aus: „Rating ist die
Einschätzung und Bewertung von Informationsobjekten bezüglich der Qualität ihrer
Inhalte und somit die Basis für Filtern und Blocken. Im Rating, sei es intellektuell oder
maschinell durchgeführt, liegt der Sprengstoff, da die zum Einsatz kommenden Bewertungsverfahren zwangsläufig, implizit oder explizit, subjektive Interessenslagen oder
bestimmte Wertesysteme widerspiegeln, die kaum intersubjektiv gültig sein können.“
(KUHLEN 2000:371f)
86
mit der pragmatischen Perspektive der Informationswissenschaft, welche auch
die Anwendung des Systems und dessen Benutzer in das Zentrum stellt (KUHLEN 1999). Auf die Schwierigkeiten der Messung der Wahrnehmung weisen
PRICE & SHANKS 2004 ebenfalls hin. Während Qualität auf den Ebenen
Syntax und Semantik auf der Basis theoretischer Modelle zum Teil nach
objektiven Maßstäben erfasst werden kann, erfolgt die Messung auf der pragmatischen Ebene empirisch und hängt völlig vom subjektiven Urteil des
Benutzers ab (PRICE & SHANKS 2004:664). Diesen Forderungen trägt die
Evaluierung des hier vorgestellten Systems AQUAINT Rechnung, indem dort
das Urteil des Benutzers in einer konkreten Anwendungssituation erfasst wird
(siehe Kapitel 13).
Die detaillierten Kriterien und PRICE & SHANKS 2005 orientieren sich stark
am Anwendungsfall Management-Informationssysteme zur Entscheidungsunterstützung. Für allgemeine Ansätze im Internet sind sie weniger geeignet.
Aus informationswissenschaftlicher Sicht und für die weitere Diskussion ist
die pragmatische Ebene bedeutsam. Die syntaktische und semantische
Qualität bilden das Fundament für Informationsprodukte. Sie sind meist die
notwendige Voraussetzung für die positive Wahrnehmung durch den
Benutzer. Für die weitere Diskussion ist vor allem die pragmatische Ebene
bedeutsam.
Einen tragfähigen Rahmen für die Analyse der Orientierung unterschiedlicher
Qualitätsdefinitionen liefert MARCHAND 1990. Er erkennt fünf typische
Ansätze für die Definition von Informationsqualität:
• Transzendent: Dieser Ansatz setzt eine objektive und absolute Qualität
voraus, die universell gültig ist.
• Benutzer-orientiert: Dieser Ansatz betont die Subjektivität der Qualität
und stellt sie in den Kontext der jeweiligen Situation des Benutzers.
• Produkt-orientiert: Das Informationsprodukt und seine Eigenschaften
stehen im Fokus dieser Ansätze, die davon ausgehen, dass Qualität
weitgehend messbar und quantifizierbar ist.
• Produktions-orientiert: Im Mittelpunkt steht hier der Prozess der
Erstellung des Produktes. Qualität besteht in der Abdeckung des vorab
festgelegten Pflichtenhefts.
• Wert-orientiert: Neben die positiven Eigenschaften treten hier die
Kosten des Informationsprodukts. Qualität ist die Suche nach einer
optimalen Balance zwischen den beiden Forderungen.
87
Diese obigen fünf Ansätze rekurrieren laut MARCHAND 1990 unterschiedlich
stark auf die folgenden Dimensionen der Qualität von Information:
• Tatsächlicher Wert (beim Treffen einer Entscheidung)
• Wahrgenommener Wert
• Zuverlässigkeit (vor allem der Quelle)
• Validität (der präsentierten Informationen und der benutzten Methoden)
• Bedeutung über die Zeit hinweg
• Relevanz (für die vom Benutzer vorgegebenen Kriterien)
• Ästhetik (subjektive Wahrnehmung des Produkts)
Im Zentrum der aktuellen Diskussion zur Qualitätsbewertung im Internet
stehen vor allem benutzer-orientierte und produkt-orientierte Ansätze. Wenig
Definitionsversuche fußen auf transzendenten, produktions- und wertorientierten Vorstellungen. Die in der Einleitung zu diesem Kapitel zitierte
ISO-Norm stellt eine produkt-orientierte Definition dar (ISO 8402 1986).
Produktions-orientierte Definitionen besitzen für die interne Betrachtung der
Entwicklung eines Informationsproduktes einen Wert. Bei der Qualität im
Internet, um die es hier vorwiegend geht, spielen solche Überlegungen aber
aus pragmatischer Perspektive kaum eine Rolle. Informationsqualität bezieht
sich angesichts des Informationsüberflusses im Internet auf die Wahrnehmung
konkurrierender Angebote durch den Benutzer. Ebenso spielt der wertorientierte Ansatz im weitgehend kostenfreien Internet lediglich auf die Zeit
bezogen eine Rolle.
Unter dem Schlagwort Informations-Qualität wird häufig die Qualität von
firmeninternen Informationen und Datenbanken diskutiert. HUANG ET AL.
1999 legen eine systematische Zusammenstellung von vier Kategorien und
dazugehörigen Dimensionen der Informations-Qualität vor. Diese bietet sich
auch für die Diskussion der Qualität von Internet-Angeboten an.
88
Tabelle 4.1: Die vier Kategorien der Informationsqualität: intrinsische
Qualität, Kontext, Darstellung und Zugang (HUANG ET AL. 1999:43)
IQ Category
IQ Dimensions
Intrinsic IQ
Accuracy, objectivity, believability, reputation
Contextual IQ
Relevancy, value-added, timeliness, completeness,
amount of information
Representational IQ
Interpretability, ease of understanding,
representation, consistent representation
Accessibility IQ
Access, security
concise
In der informationswissenschaftlichen Perspektive steht der Benutzer im
Zentrum der Qualitätsdefinitionen. Damit gewinnen die kontextuellen Faktoren Gewicht und die Qualität rückt stärker in Richtung Relevanz. Der folgende Abschnitt diskutiert die Abgrenzung zwischen Relevanz und Qualität und
zeichnet den Verlauf der Grenze zwischen der intrinsischen und der kontextuellen Kategorie der Qualität.
Die meisten Autoren, die im weiteren Verlauf noch diskutiert werden, stellen
produkt-orientierte Ansätze vor und identifizieren unterschiedliche Eigenschaften von Angeboten, die bei der Bewertung der Qualität eine Rolle spielen. Jedoch stellen die Autoren oft als Maßstab oder gewissermaßen als Präambel eine benutzer-orientierte Perspektive in das Zentrum, die sich bei der
Definition einzelner Produkt-Eigenschaften wiederspiegelt.
Im Internet kann sich die Qualität sowohl auf den Inhalt eines Informationsobjektes beziehen, als auch auf ein Informationssystem welches Informationsobjekte (andere Internet-Seiten) dynamisch erzeugt (dynamische Website)
oder das dynamisch (Suchmaschine) oder statisch (Linksammlung) auf andere
Informationsobjekte verweist. Demnach kann Qualität im Internet sowohl die
Güte des Inhalts als auch die Güte eines Informationssystems etwa hinsichtlich Funktionalität, Geschwindigkeit oder Gebrauchstauglichkeit meinen
(siehe Abschnitt 4.4.4).
Die obigen Definitionen betrachten Qualität als sehr vielschichtiges Phänomen, das sich dynamisch verändert, kontextabhängig ist und subjektiv geprägt
89
ist1. Dies wirkt sich in der vorliegenden Arbeit vor allem auf die Evaluierungsmethodik aus. Die Vielschichtigkeit drückt sich in der Forschungsliteratur auch darin aus, dass der Begriff Qualität nicht immer explizit genannt
wird, wenn er oder einer seiner Facetten untersucht wird. Häufig ist auch von
der Wichtigkeit oder der generellen Bewertung die Rede. Die Begriffe Wichtigkeit und Qualität werden sogar als Synonyme betrachtet2. Auch wenn von
Autorität oder Reputation die Rede ist, bleibt unklar, ob hier lediglich dieser
Aspekt von Qualität gemeint ist oder ob globale Qualität lediglich durch diese
Begriffe ersetzt wurde.
Das Ziel bildet also nicht eine ohnehin nicht zu erreichende Objektivität, sondern gewissermaßen Intersubjektivität und somit eine möglichst hohe Übereinstimmung zwischen individuellen, subjektiven Urteilen. Weitgehende
Übereinstimmung wird jedoch häufig verfehlt. Dies gilt selbst für intensiv
bearbeitete Bereiche wie etwa die Bewertung wissenschaftlicher Forschungsanträge, bei dem eine gründliche Analyse und eine möglichst objektive Entscheidung angestrebt wird3. Die Umsetzung dieser Definitionsrahmen in konkrete Kriterienlisten stellt Abschnitt 4.4 vor. Der folgende Abschnitt vertieft
die Differenzierung zwischen Qualität und Relevanz, welche auch bei pragmatischen Qualitätsdefinitionen bestehen bleibt.
4.2
Qualität vs. Relevanz
Die benutzer-orientierten Ansätze der Informationsqualität ähneln dem
Relevanzbegriff der Informationswissenschaft. Deshalb erscheint zunächst die
Abgrenzung des Qualitätsbegriffs vom Konzept der Relevanz besonders
wichtig. Diese Unterscheidung wird auch in der Literatur häufig vorgenommen, es werden jedoch nicht immer Gründe angegeben4. Teilweise werden
die Relevanz oder synonyme Begriffe mit Qualität gleichgesetzt. DHYANI ET
1
„The quality of a web site inherently is a matter of human judgement“ (AMENTO ET AL.
2000:296). „different factors will affect different users’ perception of the quality of an
internet source” (COOKE 1999:15).
2
„ ... higher quality or more important pages“ (PAGE ET AL. 1998:2)
3
Der Biologe Regan stellt fest, dass auch bei dieser Form der Bewertung die intellektuelle
Qualitätskontrolle einen Zufallsfaktor beinhaltet. „Very good applications are turned
down at one meeting of a committee that might well be recommended for funding at
another meeting. There is a random element“ (REGAN 2000:507)
4
„We treat quality and relevance as distinct notions, rather than viewing quality just as an
aspect of relevance judgements“ (AMENTO ET AL. 2000:296).
90
AL.
2002 diskutieren Relevanz und Qualität unter dem gemeinsamen
Oberbegriff Signifikanz1. Die Abgrenzung von Qualität zur Relevanz ist
problematisch und sicher nicht immer eindeutig. Beide Konzepte vermischen
sich im Sprachgebrauch.
Als relevant wird ein Informationsobjekt bezeichnet, wenn es für die Lösung
eines akuten Informationsproblems gebraucht werden kann. Dies ist aber nur
eine mögliche Definition. Mizzaro merkt in einem Überblicksartikel zur
Geschichte der Forschung über Relevanz an: „There are many kinds of
relevance, not just one“ (MIZZARO 1997:811). Zur Stützung dieser These baut
Mizzaro mehrere Skalen auf, welche mehrere Arten von Relevanz
beschreiben. Die wichtigste Dimension bestimmt, ob Relevanz system- oder
benutzerorientiert erfasst wird. Die in der realen Situation entscheidende Stufe
ist die des Problems des Benutzers, für das eine Lösung gesucht wird.
Daneben kann Relevanz aber auch auf der Stufe des Informationsbedürfnisses
erfasst werden, die eine mentale Repräsentation des Problems darstellt. Als
die Anforderung beschreibt Mizzaro die natürlichsprachliche Formulierung
des Informationsbedürfnisses, während die Anfrage die Umsetzung der
Formulierung in die Sprache und Syntax des Systems meint2. Während eine
Bewertung der Relevanz auf der Problem-Stufe sehr stark pragmatische
Faktoren berücksichtigen muss, ist eine Analyse auf Ebene der Anfrage eher
formal orientiert. Empirische Studien, die den Vergleich von Information
Retrieval-Systemen zum Ziel haben, setzen meist auf der letzten Stufe der
Anforderung ein, indem sie formulierte Anforderungen zu fiktiven Informationsproblemen vorgeben3.
Der Ausgangspunkt für die Zuordnung von Relevanz ist demnach ein
Informationsprozess aufgrund eines Informationsproblems. Dagegen lässt
sich Qualität unabhängig von einem konkreten Informationsproblem und
einer damit verbundenen Suche zuweisen. Diese Zuordnung gelingt zwar
sicher nicht objektiv, aber jedes Subjekt kann von einem konkreten
Informationsbedarf abstrahieren und die Qualität von Wissen aus ihrem
Blickwinkel bewerten.
1
„The significance of a web page can be viewed from two perspectives – its relevance to a
specific information need, such as a user query, and its absolute quality irrespective of
particular user requirements.” (DHYANI ET AL. 2002:476)
2
Im Original bezeichnet der Autor die vier Stufen wie folgt: problem, information need,
request und query (MIZZARO 1997:811).
3
So gehen die drei großen internationalen Evaluierungsstudien zum Information Retrieval
vor, nämlich TREC, CLEF und NTCIR (siehe KLUCK ET AL. 2002, siehe Anschnitt 2.4).
91
Pragmatische Faktoren verlieren für die Qualitätsbewertung gegenüber der
Relevanzbewertung etwas an Gewicht. So wird ein bereits bekanntes
Dokument meist als nicht relevant eingestuft, da es keine neuen Erkenntnisse
bringt. Dagegen verändert sich die Qualität eines Dokuments nicht bei einem
häufigeren Zugriff, wenn auch der Neuigkeitswert sicher häufig einen Aspekt
einer Qualitätsdefinition darstellt.
Diese Abkoppelung von Relevanz und Qualität verstärkt sich bei der alltäglichen Nutzung von Informationssystemen. Der Benutzer von elektronischen
Umgebungen in der Freizeit sucht sowohl nach Unterhaltung als auch nach
handlungsrelevanter Information. Mit zunehmender Nutzung von Informationssystemen im Alltag gewinnt der Aspekt der Unterhaltung an Bedeutung.
Nicht zuletzt deshalb untersuchen AMENTO ET AL. 2000 in ihrer Studie zur
Qualität von Internet-Angeboten Seiten aus dem Unterhaltungsbereich, insbesondere Sites über populäre Musik und Fernsehprogramme.
Gleichwohl besitzt auch die Qualität pragmatische Aspekte. Eine Seite oder
ein Angebot ist dann von guter Qualität für einen Benutzer, wenn es für die
spezifischen Bedürfnisse angepasst ist. Manche Qualitätsdefinitionen ähneln
den Relevanz-Definitionen1 und andere Publikationen umgehen den Qualitätsbegriff und sprechen von den wirklich relevanten Seiten2.
Die Abgrenzung von Relevanz und Qualität wird bei der Bewertung von
Prozessen und Informationssystemen im Internet deutlich schwieriger.
Die Schwierigkeit zur klaren Trennung von Relevanz und Qualität ist bei der
Planung von Experimenten bedeutend. Für den Benutzer ist die Unterscheidung zwischen Relevanz und Qualität sehr schwierig, wenn er InternetAngebote bewerten soll. Werden von einem Benutzer nur Relevanzurteile
verlangt, dann ist zu erwarten, dass diese Relevanzurteile bei großen
Qualitätsunterschieden, wie sie im Internet vorkommen, von der Qualität mit
beeinflusst werden. Benutzertests sollten daher eine heuristische Definition
vorsehen, welche die Unabhängigkeit der Qualität von einer Anfrage mit
einbezieht.
1
„How well does this document/site address your problem or meet your information
need?“ (WILKINSON ET AL. 1998)
2
„to better identify the truly relevant pages” (ARASU ET AL. 2001:3)
92
4.3
Bezugsgröße von Qualität
Weiterhin unterscheiden sich Relevanz und Qualität in den bewerteten
Objekten. Relevant kann ein kleiner Teil eines Dokuments sein. Diese
Sichtweise wird in den Ansätzen des Passage Retrieval (KUHLEN & HESS
1993) und des Question Answering (HARABAGIU & MOLDOVAN 2003)
deutlich, welche sich mit der Extraktion von kleinen und kleinsten Einheiten
aus Dokumenten befassen. In der Regel und meist aus heuristischen Gründen
wird die Eigenschaft aber einem vollständigen Dokument oder einer Zusammenfassung zugeschrieben. Im Internet entspräche dem Dokument die Seite
(Page). Entscheidend ist natürlich wiederum der Kontext des Informationsprozesses. Im Verlauf des Prozesses muss sich die Handlungsrelevanz für den
Benutzer ergeben1. Dagegen erscheint Qualität als ein übergreifenderes
Konzept, das größeren Einheiten zugewiesen werden kann. Man spricht
seltener von der Qualität eines Abschnitts und von der Relevanz eines Angebots als umgekehrt. Die Qualität eines vollständigen Angebots wird nach
anderen Kriterien bewertet als die Qualität einer einzelnen Seite. Aspekte der
Interaktion spielen bei der Qualität eine größere Rolle.
Seite und Site sind beides rein technisch definierte Größen. Eine sinnvolle
Informationseinheit kann technisch kaum erfasst werden. Diesen Versuch
unternehmen NIE ET AL. 2005. Sie weisen darauf hin, dass Organisationen,
Forschungsaufsätze oder Konferenzen sinnvolle Einheiten sind, die aus
unterschiedlich vielen Seiten zusammengesetzt sein können und die über Sites
verteilt sein können. Allerdings erweist sich die Erfassung als sehr schwierig.
Wie oben bereits erwähnt, berücksichtigt die Qualitätsbewertung im Internet
sowohl die Qualität eines Informationsobjektes, als auch die von Informationssystemen, die nach einer Interaktion neue Seiten erzeugen oder Informationssysteme, die auf andere Seiten verweisen. Solche Seiten, die hauptsächlich der Informationsvermittlung dienen, bezeichnet man häufig als Hubs
(Knotenpunkte). Mit der Bewertung von Hubs tritt die Qualitätsbewertung in
die Nähe der Informationsressourcen-Bewertung, die sowohl aus der Perspektive des Information Retrieval (cf. GÖVERT 1995, NOTTELMANN & FUHR
1
Mizzaro sieht drei Ebenen als potentielle Ziele einer Aussage über Relevanz: „Document,
the physical entity“, „Surrogate, a representation of a document“ und „Information, what
the user receives when reading a document“ (MIZZARO 1997:811). Den letzten
entscheidenden Aspekt beschreiben Meadow & Yuan als den Zeitpunkt, „ … when a
reader ingests the content into his or her own knowledge structure“ (MEADOW & YUAN
1997:697)
93
2005) als auch aus Sicht des Informationsmanagement (cf. RITTBERGER 1994)
untersucht wird.
Damit kann sich das Konzept Qualität auch auf Prozesse beziehen. Die
Qualität einer Diskussionsgruppe oder einer kollaborativen Umgebung lässt
sich sinnvoll nur unter Berücksichtigung des Prozesscharakters bewerten.
Ebenso kann die Qualität von Abbildungsprozessen analysiert werden, wie
etwa die der Repräsentation oder Surrogat-Bildung1 oder die Qualität der
Inhaltserschließung in Form einer Indexierung. Eine weitere Form der
Inhaltserschließung stellt das Clustering dar, das auch Gegenstand einer
Qualitätsaussage sein kann2. Damit zählt auch die Bewertung von RetrievalProzessen zur Qualitätsbewertung im Internet. Suchmaschinen lassen sich in
diesem Kontext als dynamische Hubs interpretieren.
Die vorliegende Arbeit beschränkt sich in der Diskussion und Implementierung im Wesentlichen auf die statische Qualität einzelner Seiten, da dies
momentan für ein umfassendes System den einzig gangbaren Weg darstellt.
Zwar wäre die Identifiktation von sinnvollen Objekten vorteilhaft (NIE ET AL.
2005), jedoch sind die Verfahren dafür noch kaum erprobt.
4.4
Facetten von Qualitätsdefinitionen
Neben der benutzer-orientierten Qualität mit ihrer Nähe zur Relevanz
erscheinen in der Forschungsliteratur besonders produkt-orientierte Ansätze.
Dieser Abschnitt referiert einige Ansätze, die sich auf das Internet und
Eigenschaften von Web-Seiten beziehen. Produkt-orientierte Definitionen
versuchen, Eigenschaften von Informationsprodukten aufzulisten, welche die
Qualität besonders beeinflussen. Alle Definitionen von Qualität umfassen
mehrere Facetten, um das Phänomen adäquat zu beschreiben. In unterschiedlichen Anwendungsgebieten werden manche dieser Facetten mehr oder weniger wichtig sein3. Als Rahmen für die Vorstellung der Facetten unterschied-
1
Damit ist v.a. die Abbildung des Inhalts eines vollständigen Dokuments (häufig der
Volltext) auf eine kurze Fassung gemeint.
2
Die Qualität von Clustern kann über z.B. durch das Berechnen der cluster utility automatisch berechnet werden. Die cluster utility gibt an, inwieweit Objekte mit ähnlichen
Eigenschaften in gemeinsamen Clustern liegen. Dazu wird die Wahrscheinlichkeit berechnet, mit er sich aufgrund der Clusterzugehörigkeit eine Objekts eine Aussage über
seine Attributwerte machen lässt (WITTEN & FRANK 2000:236 ff.)
3
„The critical issue in evaluating quality of a Web page is to select the quality criteria“
(ZHU & GAUCH 2000:289).
94
licher Definitionen dienen die vier oben vorgestellten Kategorien für Informations-Qualität von HUANG ET AL. 1999:43: intrinsische Qualität, Kontext,
Darstellung und Zugang.
Als Ausgangspunkt für ihre Überlegungen bemängeln die Autoren meist die
niedrige Qualität von Internet-Dokumenten1. Ein wichtiges Kriterium, das
häufig aufscheint, ist die Richtigkeit der veröffentlichten Informationen2.
Zahlreiche Checklisten für die intellektuelle Prüfung der Qualität von Internet-Quellen stammen aus der Bibliothekswissenschaft3. Darin kommen am
häufigsten Kriterien zur intrinsischen Qualitätsbestimmung wie Autorität und
Korrektheit vor. Ein typisches Beispiel legt Beck 1997 vor: Die Liste umfasst
“criteria of Accuracy, Authority, Objectivity, Currency, Coverage“4
Neben wissenschaftlichen Definitionen finden sich auch Hinweise von Praktikern. Zahlreiche Internet-Verzeichnisdienste nehmen für sich in Anspruch,
aus dem umfangreichen Angebot an Seiten die qualitativ besten auszuwählen.
Die verwendeten Kriterien bleiben aber meist vage5 und die Definitionen verweisen eher auf transzendente Ansätze.
1
Die schlechte Qualität von Internet-Dokumenten bemängeln etwa BAEZA-YATES &
RIBEIRO-NETO 1999:368. Sie weisen auf ein Spektrum von Problemen hin, das von
zahlreichen Rechtschreibfehlern über stilistische Schwächen bis zu unwahren Aussagen
reicht.
2
WEINSTEIN & NEUMANN 2000 werten falsche Informationen als ein großes Risiko im
Internet und halten fest: „False infomation abounds, either accidentally or with evil
intent“
3
Eine Liste legt etwa Laura Boyer vor:
http://wwwlibrary.csustan.edu/lboyer/webeval/webeval.htm
4
http://lib.nmsu.edu/instruction/evalcrit.html
5
So heißt es zum Beispiel bei Yahoo-Deutschland lediglich: Das Internet-Verzeichnis
„wird erstellt von unserem Redaktionsteam, welches deutsche Web-Sites sichtet, die
Besten auswählt und thematisch sortiert in Kategorien einträgt. Die Yahoo! Redakteure
berücksichtigen dabei eine ganze Anzahl von Faktoren.“ (cf.
http://eur.help.yahoo.com/help/de/dir/dir-01.html). Der Dienst DMoz schreibt über seine
freiwilligen Redakteure: „These citizens can each organize a small portion of the web
and present it back to the rest of the population, culling out the bad and useless and
keeping only the best content.“ (http://dmoz.org/about.html). Trotz der unklaren Qualitätsdefinitionen gilt es als weitgehend akzeptiert, dass Seiten aus Web-Verzeichnissen
qualitativ hochwertig sind (cf. z.B. CRASWELL & HAWKING 2003:3).
95
4.4.1 Kriterien für Qualität
Dieser Abschnitt behandelt Kriterien innerhalb von Qualitätsdefinitionen und
deren Problematik. Das folgende typische Beispiel zeigt zunächst, dass
intrinsische Aspekte die Kriterien-Listen dominieren.
Die Betreiber eines Clearinghouse für Asian Studies schlagen folgende
Kriterien für die Bewertung von Quellen durch Benutzer vor:
•
•
•
•
•
•
„current
factually accurate
clearly attributed to a particular author and his/her institution
annotated
supported by adequate references, and
ample“1
Interessant an dieser Liste ist vor allem der Aspekt der eindeutigen
Zuordnung zu einem Autor und dessen Institution. Dahinter verbirgt sich die
plausible Annahme, dass ein Autor sich mehr um Qualität bemüht, wenn er
später klar als Autor erkennbar ist und dass innerhalb einer Institution eine
Form der Qualitätskontrolle stattfindet.
Die folgende Definition für Informationsqualität enthält dagegen zunächst
kontextabhängige Kriterien und erst an dritter und vierter Stelle erscheinen
intrinsische Aspekte.
•
•
•
•
•
•
1
„Aktualität
Relevanz
Richtigkeit/Wahrheit
Sachlichkeit
Verständlichkeit
Überprüfbarkeit“ (PANTELIC & PAYER 2001:323)
CIOLEK, Matthew (2001): Content rating of sites listed by the Asian Studies WWW
Virtual Library. http://coombs.anu.edu.au/WWWVLAsian/VLRating.html (verifiziert am
8.11.2001)
96
An einigen Beispielen soll im Folgenden die Problematik der Kriterienlisten
dargestellt werden. Die Kriterien lassen sich intellektuell kaum anwenden und
sind stark kontextabhängig.
Eine umfangreiche Liste von Kriterien legen OLIVER ET AL. 1997 vor, merken
aber an, dass eine Liste mit 125 Indikatoren kaum zu handhaben ist. Deshalb
führten sie eine Untersuchung mit erfahrenen Internet-Benutzern durch und
forderten diese auf, die wichtigsten Indikatoren zu nennen und diese den
Kategorien information quality und site quality zuzuordnen. Das Ergebnis löst
die Widersprüche und Schwächen der Prüflisten für die intellektuelle Bewertung der Qualität nicht auf. Die wichtigsten Indikatoren für information
quality sind organizational scheme, Aktualität, errors or misleading
omissions, Verknüpfungen und Name des Autors. Als relativ unwichtig gilt
dagegen: „Is the document designed to meet individual audience needs“. Der
Name des Autors ist natürlich nur ein sinnvolles Kriterium, wenn der Name
dem Benutzer bekannt ist und seine Kompetenz bereits evaluiert wurde. Dies
kann aber nur von einem Experten in dem Gebiet erwartet werden. Zahlreiche
weitere Definitionen in Form von Checklisten liegen vor allem aus dem
Umfeld der angloamerikanischen Bibliotheks- und Informationswissenschaft
vor1.
Eine kurze Liste von Kriterien legen WILKINSON ET AL. 1998 mit einem
einseitigen Fragebogen vor, der zur Bewertung von Dokumenten im Internet
eingesetzt werden soll. Er sieht vier umfassende Kriterien vor, für die
Umsetzung jedes einzelnen liegen vier Fragen vor. Die generellen Kriterien
lauten: credibility, organization, links und graphics. Hypertext-Verknüpfungen spielen in anderen Kriterienlisten eine untergeordnete Rolle, bei der automatischen Bewertung stellen sie jedoch das aktuell am meisten verwendete
Kriterium dar. Deshalb sollen die detaillierten Fragen zu Links aus der Liste
von WILKINSON ET AL. 1998 hier aufgeführt werden.
• „Do the links show evidence of careful selection and/or evaluation?
• Are the links relevant and appropriate to the topic of the document?
• Are links described so that you know what you are linking to?
1
COOKE 1999, JARDINE 1997, FRANCO & PALLADINO 1999, sowie
http://lii.org/search/file/pubcriteria,
http://wwwlibrary.csustan.edu/lboyer/webeval/webeval.htm,
http://jimmy.qmuc.ac.uk/jisew/ewv24n3/,
http://lernundenter.com/interaktion/qualitaet/homepage/startseite.htm
97
• How reliable are the links (are there inactive links)?“ (WILKINSON
AL. 1998)
ET
Auf diese Fragen kann der Benutzer an sich nur sinnvoll antworten, wenn er
alle Links verfolgt und die Ziel-Seiten wiederum bewertet. Nach den vier
Fragen soll der Benutzer daraus abschließend sein overall rating ableiten,
dessen einzige Frage stark an die oben diskutierten Definitionen von Relevanz
erinnert: „How well does this document/site address your problem or meet
your information need?“ (WILKINSON ET AL. 1998). Dazu soll eine
Abschätzung auf einer Skala von eins bis fünf abgegeben werden. WILKINSON
ET AL. 1998 offenbaren hier eine sehr kontextabhängige Perspektive bezüglich
der Qualität. Diese Frage ähnelt aufgrund der Erwähnung der besonderen
Weise der Erfüllung eines Informationsbedürfnisses der Arbeitsdefinition am
Beginn dieses Kapitels.
4.4.2 Autorität
Die Autorität stellt in den meisten Definitionen und Checklisten das zentrale
Qualitätsmerkmal eines Internet-Angebots dar. Autorität ist häufig geradezu
ein Synonym für die intrinsische Qualität eines Angebots. Die Autorität wird
häufig mit Objektivität assoziiert, welche in vielen Definitionen vorkommt.
Allerdings kann auch Subjektivität positiv belegt sein. Als Beispiele nennen
PRICE & SHANKS 2004 die subjektiv geprägte Texte von Managern, welche
Prioritäten festlegen (PRICE & SHANKS 2004:659).
Autorität oder Zentralität ist ein Konzept, das aus der Szientometrie stammt.
Formal bedeutet Zentralität die Anzahl der Knoten, zu denen Links bestehen.
Obwohl der Qualitätsbegriff bezogen auf Forschungsleistungen schwer zu
fassen ist (cf. z.B. GÜDLER 1996:6) versucht die Szientometrie bzw. die
Bibliometrie zentrale, von vielen anderen anerkannte wissenschaftliche
Leistungen und deren Verfasser zu identifizieren (BALL & TUNGER 2005,
siehe Abschnitt 7.2). Die Anerkennung drückt sich in erster Linie in Zitaten
aus und lässt sich somit nicht völlig von der Popularität trennen. Eine große
Schwäche dieses Ansatzes besteht darin, dass nur historisch akzeptierte Qualität gemessen wird. Qualitativ hochstehende, innovative Ansätze, die in den
ersten Jahren nach ihrer Entstehung kaum beachtet werden1, kann die Biblio-
1
Als Beispiel kann etwa die Fuzzy Logic dienen, die von Lofti Zadeh bereits in den 60er
Jahren formuliert wurde (cf. ZADEH 1965), sich aber erst in den 80er Jahren etablieren
98
metrie nicht angemessen würdigen. Neuere Ansätze in der Szientometrie
zielen darauf ab, den Vernetzungsgrad und die Entwicklung von Disziplinen
transparent zu machen1.
Zahlreiche Autoren übertragen den Begriff Autorität auf das Internet2. Das
Konzept Authority aus der weitgehend englischsprachigen Literatur beinhaltet
Konnotationen wie Ansehen, Einfluss und wissenschaftliches Renommee.
Auch der PageRank-Algorithmus der Suchmaschine Google basiert auf der
Annahme, dass Seiten mit hoher Autorität für den Informationssuchenden
sinnvoller sind. PageRank weist daher den Seiten höhere Relevanz zu, auf die
viele Links verweisen.
MEADOW & YUAN 1997 nennen einige Attribute von Information, die
qualitative Aspekte beinhalten: „Reliability of content. Synonyms or nearsynonyms [of] reliability include: accuracy, veracity, credibility, correctness,
and validity“ (MEADOW & YUAN 1997:707f.). Als konkreten Maßstab für
Zuverlässigkeit nennen sie weiter frühere Erfahrungen mit dem Anbieter3.
Diese Auflistung zeigt, dass Autorität auch mehrere Aspekte umfasst.
Eine umfassende semantische Analyse von authority legen FRITCH & CROM4
WELL 2001 vor. Zunächst sehen sie drei Typen von Autorität :
• Kognitive Autorität
• Administrative Autorität
• Institutionelle Autorität
Cognitive Authority steht nach FRITCH & CROMWELL 2001 in einem engen
Zusammenhang mit Glaubwürdigkeit, die sich wiederum aus Kompetenz und
Vertrauenswürdigkeit zusammensetzt. Um Quellen aus dem Internet zu
bewerten, entwerfen die Autoren ein Modell, welches das Dokument, den Aukonnte, um dann ab 1992 einen regelrechten Boom zu erleben (cf. ZIMMERMANN
1999:6).
1
So zeichnet beispielsweise eine Studie von GÜDLER 1996 die Entwicklung der deutschen
Medienwissenschaft über acht Jahre hin nach.
2
Einen Überblick über die Diskussion zu Authority und Quality bietet RIEH 2002.
3
„Reliability of source. ... This may be actually a rating of the previous conent reliability
from this source“ (MEADOW & YUAN 1997:708).
4
„ … different basic types of authority, such as cognitive authority (influence on
thoughts), administrative authority (influence on actions), and institutional authority
(influence derived from institutional affiliation)“ (FRITCH & CROMWELL 2001:499).
99
tor, die Institution und deren Verbindungen und Beziehungen kombiniert
(FRITCH & CROMWELL 2001:502).
Um dies bereits hier vorweg zu nehmen, die verschiedenen Typen von
Autorität werden in den Systemen zur Linkanalyse nicht unterschieden, dort
wird versucht, eine globale Form der Autorität zu erfassen. Lediglich der
Ansatz von KLEINBERG 1998 kennt neben der Authority noch einen Hub-Wert
eines Dokuments, der die Autorität als Wegweiser für andere Seiten misst.
Der Hub-Wert entspricht gewissermaßen der Qualität der Seite als Vermittler
oder Bibliothekar. Der Anspruch, der sich in diesem Wert ausdrückt, liegt
nicht in den eigenen Inhalten, sondern der Kenntnis qualitativ guter Quellen
(siehe auch oben). Diese Vermittler-Autorität lässt sich in obiges Schema von
FRITCH & CROMWELL 2001 nicht einordnen, sie stellt eine Facette dar, die in
allen drei Typen vorliegen kann. Aufgrund der technischen Grundlagen im
Internet kommt ihr hohe Bedeutung zu, sie ist durch die formal leicht erkennbaren Links einfach zu messen.
Häufig oder laufend nachgewiesene Autorität führt zu einem guten Ruf, einer
hohen Reputation. Diese Reputation überträgt sich nach KEAST ET AL. 2001
auch auf Angebote im Internet und ihre Wahrnehmung liefert für Suchprozesse einen erheblichen Mehrwert1. Sie definieren den Erwerb von
Reputation aber nicht als einen anhaltenden Prozess, sondern sehen darin
lediglich Autorität und Vertrauenswürdigkeit (KEAST ET AL. 2001:77). Ihr
Experiment vergleicht mehrere Suchdienste daraufhin, ob Versuchspersonen
den Treffern hohe Reputation zuschreiben2. Dazu bewerten 22 Testpersonen
die Ergebnisse von fünf Suchdiensten hinsichtlich Vertrauen, Autorität und
zusätzlich der thematischen Relevanz. Darunter waren der intellektuell
erstellte Katalog von Yahoo, AltaVista und Lycos als Standard-Suchmaschinen sowie die Systeme Google und Topic, welche Linkanalysen integrieren.
Die Studie umfasst aber das Thema Film-Besprechungen, zu dem lediglich
siebzehn Angebote verglichen wurden. Dabei ergaben sich fast keine Unterschiede zwischen der Bewertung von Vertrauenswürdigkeit und Autorität,
jedoch erhebliche Differenzen zur thematischen Relevanz (aboutness). Insgesamt zeigte sich kein Unterschied zwischen Diensten mit menschlicher Beteiligung und rein maschinell arbeitenden Systemen. Zwischen den Typen von
Diensten konnten ebenfalls keine Unterschiede erkannt werden, Topic und
1
„To date the evaluation of results has been based primarily on the relevance and
‘aboutness‘ of a site to a query. Equally valuable to the user is the perceived reputation or
trustworthisness of the content.“ (KEAST ET AL. 2001:77).
2
„Do certain types of tools yield sites that are perceived more reputable – authoritative and
trustworthy – than others? (KEAST ET AL. 2001:77).
100
AltaVista erzielten hohe Glaubwürdigkeit, Lycos und mit Google wieder ein
link-basierter Ansatz dagegen niedrigere Trust-Werte. Nur ca. ein Drittel der
betrachteten Angebote insgesamt wirkt so gut auf die Testpersonen, dass sie
diese weiterempfehlen würden. Dies deckt sich mit den Ergebnissen einer
völlig anders angesetzten Studie, bei denen die Testpersonen ebenfalls nur
einem Drittel der Angebote hohe Qualität zusprachen (AMENTO ET AL.
2000:301), während beim TREC Web Track ein verschwindend geringer
Anteil als qualitativ hochwertig eingestuft wurde1.
Wie dieses Experiment und die Definition von FRITCH & CROMWELL 2001
zeigen, ist die Autorität eng mit der Vertrauensproblematik verknüpft. Autorität kann als eine Facette von Vertrauen (trust) betrachtet werden. Die
Aussage eines Nobelpreisträgers wirkt auf viele Menschen sehr glaubwürdig
(face committment). Interessanterweise überträgt sich diese Glaubwürdigkeit
auch auf andere Bereiche und so wird von Trägern herausragender Preise oft
auch besonderes gesellschaftliches Engagement erwartet. Hier wird die
Glaubwürdigkeit instrumentalisiert und auf Fragen ausgedehnt, an denen
Menschen eigenes Interesse haben. Dahinter steht möglicherweise ein ökonomisches Prinzip der menschlichen Kognition. Da jeder Mensch nur eine
begrenzte Anzahl von Autoritäten intensiv kennen lernen und sich von ihrem
hohen Kenntnisstand überzeugen kann, traut man solchen Menschen auch in
anderen Gebieten viel zu. Die Werbung nutzt solche Übertragungsmechanismen gezielt und transformiert die Fähigkeiten populärer Werbeträger aus
deren Kompetenzfeldern auf die Kompetenz zur Produktauswahl.
Im Internet finden ebenfalls Übertragungsprozesse statt. Kennt man Institutionen oder Personen bereits außerhalb des Internet und vertraut ihnen, so
wird man auch ihren Internet-Angeboten Vertrauen entgegenbringen.
4.4.3 Zeitliche Aspekte
Zeitliche Kriterien tauchen sehr häufig als Qualitäts-Kriterium auf. Besonders
die Aktualität und der Neuigkeitswert werden genannt2. Gerade Nachrichten
oder auch wissenschaftliche Publikationen veralten schnell und die aktuel-
1
Die Relevanz- und Qualitätsbewertung für den Web Track erbrachte lediglich einen sehr
geringen Anteil an sehr guten Angeboten (cf. CRASWELL & HAWKING 2002, siehe auch
Abschnitt 7.10).
2
Zhu und Gauch schlagen sechs Kriterien für Qualität vor und stellen die Aktualität an den
erste Stelle: „currency, availability, information–to-noise ratio, authority, popularity,
and cohesiveness“ (ZHU & GAUCH 2000:288)
101
leren Texte gelten als relevanter oder als qualitativ hochwertiger1. Teilweise
wird bemängelt, dass sich viele Internet-Seiten nicht verändern. Daneben gilt
jedoch auch gerade das Gegenteil als erstrebenswert. Allgemeingültigkeit und
Konstanz werden ebenfalls genannt2.
Hier tritt das Dilemma der Checklisten also auch deutlich zu Tage. Soll die
Dauerhaftigkeit positiv oder negativ für eine Seite gewertet werden? Sicher
soll eine Site nicht verschwinden, aber wenn sich eine Nachrichtenseite nicht
verändert, dann wird Konstanz zu einem erheblichen Nachteil.
Im Sinne unserer Arbeitsdefinition lässt sich die Zeit als Qualitätskriterium
besser fassen. Demnach bedeutet Qualität eines Internet-Dokuments, dass es
ein Informationsproblem in besonderer Weise löst. Für zeitliche Aspekte kann
dies konkretisiert werden und bedeutet die Lösung eines Informationsproblems mit möglichst wenig Zeitaufwand.
Nachteil dieser Perspektive besteht darin, dass sich dieser Zeitaufwand kaum
erfassen lässt, während das Alter eines Dokuments sich relativ einfach
automatisch bestimmen lässt.
Eine frühe Publikation kann aber auch auf Qualität hinweisen, wenn ein Text
einen Fachbegriff zum ersten Mal benutzt und ihn damit prägt. Solche
klassischen Artikel wie etwa der erste Artikel über Hypertext gelten als sehr
relevant und werden häufig zitiert. Die Benutzung eines zur Zeit sehr häufig
benutzten Modebegriffs kann dagegen als Mitreiten auf einer Welle
interpretiert werden. BERLEANT 2000 stellt fest, dass Förderanträge, die vor
der deadline eingereicht wurden, eine höhere Förderungswürdigkeit aufwiesen, als in letzter Minute eingereichte.
Das Parallelerscheinen eines elektronischen Wissensprodukts als traditionelles Printprodukt kann ebenfalls als ein starker Hinweis auf hohe Qualität
betrachtet werden. Zwar mag dahinter auch der Wunsch nach hoher Verbreitung stehen, der besonders bei politischen oder agitatorischen Texten aber
auch bei Dokumenten allgemeinen Interesses wie Gesetzestexten im Mittelpunkt steht. Besonders jedoch bei Büchern in Fachverlagen findet Qualitätskontrolle statt, hinter der ökonomische Interessen stehen. Gerade dieses
wirtschaftliche Gewinnstreben verhindert aber häufig die Bereitstellung von
1
Viele Suchsysteme nutzen das Alter eines Dokuments als Kriterium für das Ranking und
präsentieren dem Benutzer zuerst die aktuellsten Ergebnisse (z.B. ACM Digital Library,
http://www.acm.org/dl).
2
So nennen HUANG ET AL. 1999:43 „timeliness“ explizit als Beispiel eines kontextabhängigen Kriteriums.
102
bereits gedruckten und damit teueren Wissensprodukten in freien
Internetdiensten, auf die uneingeschränkte Qualitätsbewertungen i.d.R. zugreifen. Sämtliche kommerziellen und kostenpflichtigen Angebote können
von einer auf das gesamte Internet abzielenden Qualitätsbewertung nicht einbezogen werden. Die kostenpflichtigen Angebote begründen die Kosten
natürlich v.a. mit ihrer hohen Qualität, was in einem gewissen Umfang auch
sicher zutrifft, so dass sich hier eine Möglichkeit zur Sammlung von Trainingsdaten mit bekannt guter Qualität ergibt. Mit hoher Sicherheit liefern
kostenpflichtige Dienste eine gute Kategorisierung, da sie vom Dokumenttyp
meist sehr homogen sind.
Das Parallelerscheinen eines elektronischen Wissensprodukts als traditionelles Printprodukt kann zwar auf hohe Qualität hinweisen, es wirft aber für
ein automatisch funktionierendes System einige Hürden auf. Die Anzahl von
entsprechenden Dokumenten dürfte eher niedrig sein und das Erkennen durch
automatisierte Verfahren ist schwierig.
Einen anderen Wege geht die Internet-Computerzeitschrift Tecchannel, die
i.d.R. nur online erscheint. Eine Auswahl von Beiträgen, hinter der sicher v.a.
von Qualitätskriterien für diesen Anwendungsfall stehen, erscheint mehrmals
jährlich als gedruckte Zeitschrift.
4.4.4 Gebrauchstauglichkeit
Neben der intrinsischen Qualität und der kontextabhängigen Qualität spielt
die Darstellung und Präsentation der Information eine wichtige Rolle. Im
Mittelpunkt dieser Kategorie steht die Gebrauchstauglichkeit, die schon in
Kapitel 1 ausführlich erläutert wurde und hier nur kurz aufgegriffen wird. Die
zentrale Frage lautet: Lässt sich die enthaltene Information überhaupt rezipieren und aufnehmen? In der Kategorisierung von HUANG ET AL. 1999:43
erscheint dieser Aspekt als representation. Diese Aspekte spielen gerade im
Internet eine wichtige Rolle. Konkretere Ausprägungen nennen AMENTO ET
AL.: „Major factors influencing quality judgements include site organisation
and layout, as well as quantity and uniqueness of information“ (AMENTO ET
AL. 2000:296).
Die sinnvolle Einteilung von Wissen in einzelne Teile und deren zusammenhängende Darbietung ist sicherlich ein entscheidender Faktor für die Qualität,
der im Internet wichtig ist und teils durch automatische Verfahren analysiert
1
http://www.tecchannel.de
103
werden kann. Eng mit Organisation und Strukturierung hängt die Navigation
zwischen unterschiedlichen Wissenseinheiten zusammen.
Verstöße gegen Erkenntnisse aus der Mensch-Maschine-Interaktion können
dazu führen, dass Information kaum oder nur sehr schlecht wahrgenommen
werden kann. So werden etwa zu kleine Schriften eingesetzt oder Farbkombinationen für Hinter- und Vordergrund verwendet, die aufgrund der
Eigenschaften der menschlichen Wahrnehmung kaum erkannt werden.
Erstaunlicherweise kommen solche Verstöße noch relativ häufig vor, obwohl
entsprechende einfache Richtlinien vorliegen.
Eher selten werden sprachliche Eigenschaften wie klare Formulierungen
genannt, ein möglicher Grund liegt in der stark individuellen Einschätzung
vermutet: „Clarity. Comprehensibility. This is clearly an attribute that will
vary with the individual reader“ (MEADOW & YUAN 1997:708). Allerdings
gilt dies ebenso für viele andere Aspekte.
4.4.5 Wirtschaftliche Aspekte
In den 1990er Jahren vollzog sich eine Kommerzialisierung des Internet.
Somit beeinflussen auch wirtschaftliche Überlegungen die Qualitätsdiskussion und zwar auf sehr unterschiedliche Weise.
Zum einen mag der wirtschaftliche Erfolg als Qualitätskriterium dienen. Die
Definition von Qualität bei SPILIOPOULOU ET AL. basiert auf wirtschaftlichen
Faktoren aus der Perspektive des E-Commerce: „we propose a methodology
of assessing the quality of a web site in turning its users into customers“
(SPILIOPOULOU ET AL. 2000:142). Dahinter verbirgt sich zunächst die Sichtweise des Anbieters, der wirtschaftlichen Erfolg erzielen will. Es ist jedoch zu
vermuten, dass dieser Erfolg auch mit der subjektiven Einschätzung des
Benutzers korreliert, da er die Qualität – aufgrund welcher Faktoren auch
immer – so hoch einschätzt, dass er dem Angebot vertraut und sogar in eine
Geschäftsbeziehung mit dem Anbieter eintritt und somit zum Kunden wird.
Wichtiger Maßstab ist also die Benutzungshäufigkeit. Die Analyse der
entsprechenden Anforderungen an E-Commerce-Angebote im Internet
berücksichtigt vor allem das Rückkehr-Verhalten von Benutzern1. Zwar
1
„Retaining customer loyalty is crucial in electronic commerce because the value of an Internet store is largely determined by the number of its loyal customers“ (LEE ET AL.
2000:305).
104
setzen sich am Markt bestimmte Produkte aus den verschiedensten Gründen
durch, gleichwohl spielt bei dem hohen Maß von Transparenz im Internet
auch die Qualität eine Rolle. Die wirtschaftliche Qualität von InternetAngeboten bewerten auch Ansätze des Web Measurement, welche sich
bemühen, den Erfolg von Internet-Werbung durch die Anzahl der Rezipienten
dieser Werbung zu messen (cf. BÜRLIMANN 2001).
Daneben kann auch der finanzielle Aufwand für die Erstellung eines Angebot
ein Maßstab sein. Finanzielle Mittel werden in Organisationen meist erst nach
Kontrolle der Qualität gewährt. Indikator für einen hohen finanziellen Aufwand eines Angebotes könnte hohe technische Professionalität sein.
Zwar ist der Aufwand für die Erstellung von vielen Internet-Angeboten sehr
hoch, dies bedeutet aber keineswegs, dass für ein Angebot eine
Benutzungsgebühr zu entrichten ist oder dass damit überhaupt kommerzielle
Interessen verfolgt werden. Kommerzielle Interessen gelten für viele Kriterienlisten als Hinweis für mangelnde Objektivität1.
Auch das Browsing interpretieren manche Autoren aus wirtschaftlicher
Perspektive. Dabei stellt jede Aktion einen Aufwand oder Preis dar, den der
Benutzer mit dem Wert der Seite vergleicht. Je nach Höhe des vermuteten
Wertes weiterer Seiten bricht der Benutzer die Aktion ab oder verfolgt
weitere Verbindungen (cf. HUBERMAN ET AL. 1998:95, CHI ET AL. 1998, siehe
auch Abschnitt 5.4).
4.4.6 Technische und Software-Qualität
Die Diskussion zur Qualität von Informationssystemen setzt auch oft auf der
Ebene der Programmierung an2. Diese Ebene deckt sich weitgehend mit der
syntaktischen und teils mit der semantischen Ebene des in Abschnitt 4.1
vorgestellten Rahmens von PRICE & SHANKS 2004. Auch derartige Definitionen sollen hier vorgestellt werden.
Die DIN-Norm stellt folgende Qualitäts-Teilmerkmale für Software-Produkte
vor (DIN 66272 1994:Anhang 1):
• Funktionalität
• Zuverlässigkeit
1
In der Kriterienliste des Dienstes Librarians‘ Index to the Internet heißt es: „We do not
include sites that are purely commercial with no informational content“
(http://lii.org/search/about).
2
Einen Überblick bieten PUNTER & LAMI 1998.
105
•
•
•
•
Benutzbarkeit
Effizienz
Änderbarkeit
Übertragbarkeit
BRAJNIK 2001 stellt eine Studie vor, in der er die Qualität von WebAngeboten aus der Definition der Qualität von Software allgemein herleitet.
Dabei stehen technische Aspekte der Qualität des Quellcodes der InternetSeiten im Mittelpunkt, während inhaltliche Aspekte eine nachgeordnete Rolle
spielen. Der Autor sieht die Anwendung einer Internet-Seite als den entscheidenden Faktor für mögliche Definitionen von Qualität, er interpretiert die
Anwendung aber sehr breit und betrachtet auch die Warte des Entwicklers als
eine Sichtweise1. Insgesamt stellt BRAJNIK 2001 drei mögliche Perspektiven
für die Erfassung der Qualität vor:
• Task-related Factors (Inhalt, Präsentation, Funktionalität, Navigation
und Wirkung)
• Performance-related Factors (response time, transaction throughput,
reliability and robustness)
• Development-related factors
Die ersten Faktoren stehen im Zentrum der in den vorigen Abshcnitten
angestellten Überlegungen, während die zweite Gruppe von Faktoren typisch
für diesen Abschnitt ist. Die dritte Gruppe leitet BRAJNIK 2001 aus der
Forschung zur Qualität von Software allgemein ab und behandelt sie in seiner
praktischen Untersuchung:
•
•
•
•
•
•
1
„code complexity
code reliability
code flexibility
portability
page coupling
modifiability“ (BRAJNIK 2001:2)
„In fact, for a website there can be as many views of its quality as there are usages“
(BRAJNIK 2001:2).
106
Bei Definitionen der Qualität von Software steht häufig die produktionsorientierte Perspektive im Sinne von MARCHAND 1990 im Zentrum. Die ISO
9126 Definition für die Qualität von Software ist sehr allgemein gehalten. Sie
besteht in der „totality of features an characteristics of a software product that
bear on its ability to satisfy stated or implied needs“ (BRAJNIK 2001:2). In
dieser Allgemeinheit lässt sie sich natürlich auch auf mit der hier
vorgestellten Ansicht in Einklang bringen, die nächste Ebene der
Spezifizierung zeigt jedoch die Intentionen dieser Definition. Folgende
Faktoren konstituieren die technische Komponente der Qualität:
• Reliability
• Efficiency
• Maintainability
• Portability (BRAJNIK 2001:2)
Auch den Aspekt der Entwicklung berücksichtigt Brajnik. Er entwickelt
„quality models in the development and maintenance processes“ (BRAJNIK
2001:1) und untersucht dazu den Quellcode von Internet-Seiten auf Mängel
bei der korrekten Anwendung von HTML. Die erarbeiteten Maßzahlen
ermöglichen Anbietern die Bewertung ihrer Seiten und können zu der
Einsicht führen, dass die Prozesse bei Erstellung und Pflege verbessert
werden müssen.
Aus der Perspektive des Benutzers kommt diesen Aspekten der Qualität
Bedeutung zu. Wie bereits erwähnt, bilden die semantische und syntaktische
Ebene die Grundlage, ohne die eine pragmatische Bewertung der Qualität
nicht möglich wird. Die Qualität und Korrektheit einer Information kann ein
Benutzer nur bewerten, wenn ein System nicht aufgrund mangelhafter Programmierung Schwächen aufweist. Faktoren des Software Engineering bilden
nur die Basis für die Qualität von Internet-Angeboten aus Perspektive des
Benutzers.
Bedeutend sind für den Benutzer im Internet auch technische Faktoren, die
eher die Hardware betreffen. Lange Download-Zeiten sind ein häufig genanntes Manko. Noch ist nicht klar, ob dieses Problem durch die stark anwachsenden Bandbreiten unerheblich wird oder ob dieser positive Effekt durch
eine noch erheblich stärker steigende Nutzung aufgehoben wird
Die Sicherheit und Zuverlässigkeit von Servern (DUSTIN ET AL. 2002) und
anderen Netzwerkkomponenten, die Diskussion über Quality of Services bei
Netzwerkdiensten bis hin zur Zuverlässigkeit von Telekommunikations107
Unternehmen spielen hier eine Rolle. So bieten viele Download-Angebote,
bei denen eine Datei von mehreren Servern geladen werden kann, einen
Mehrwert an, indem sie die Erreichbarkeit und die technische Leistungsfähigkeit der Server anzeigen. Für den Benutzer kann dies eine kürzere Zeit
für den Download bedeuten. Dies ist ein Beispiel für die automatische Qualitätsbewertung, die in diesem Fall einfach realisierbar ist.
In HTML gibt es Vorgaben, die nicht unbedingt eingehalten werden müssen,
um eine interpretierbare und damit darstellbare Seite zu erzeugen. Dazu
gehört etwa die Größenangabe für Grafiken oder das Einfügen von MetaDaten1. Diese Robustheit der Sprache HTML und der darstellenden Browser
ist eine der Stärken des Internet. Trotzdem existieren Werkzeuge, welche
Seiten auf solche Probleme überprüfen. In einer Pilotuntersuchung testet
BRAJNIK 2001 fast 9000 Seiten mit einem Prüfprogramm, das zwölf Regeln
überprüfte2. Dabei fanden sich in über 6500 Seiten Probleme dieser Art,
wobei das Fehlen von Meta-Daten mit über 73% der häufigste Fehler war3.
Nach einer automatisch von dem Prüfprogramm erzeugten Meldung an die
Webmaster wurden viele der Probleme behoben, wie sich in einem zweiten
Test der Seiten zeigte.
Nach der Studie sehen die Seiten aus Sicht des Benutzers im Wesentlichen
gleich aus, so dass sich die Frage stellt, inwieweit die Qualität tatsächlich
erhöht wurde. Solche leichten Fehler lassen auf einen wenig professionellen
Umgang mit HTML schließen, der sich nicht auf die Qualität aus Benutzersicht auswirken muss, aber kann:
• Direkte Wirkung: Die zusätzlichen, aber nicht unbedingt erforderlichen
Angaben können für den Benutzer einen Mehrwert bilden, wenn etwa eine
Grafik nicht schnell genug geladen wird, aber an einem Text erkannt
werden kann, was erscheinen soll und ob es sich demnach lohnt darauf zu
warten. Ähnliches gilt für die nicht unbedingt erforderliche Angabe der
Größe einer GIF-Datei.
1
Weitere Beispiele sind ein korrekter String für die Angabe der Farben für Hintergrund
und Schrift, Links auf die Seite selbst, Vorhandensein des „NOFRAMES“ Tags und die
Verwendung anderer als der Standard-Farben für besuchte und noch nicht besuchte Links
(BRAJNIK 2001:8).
2
LIFT, erhältlich unter http://www.usableweb.com
3
Eine Untersuchung von STROETGEN 2002 für sozialwissenschaftliche Fachliteratur im Internet ergab einen ähnlich niedrigen Anteil von ca. 30%. Demnach vergeben auch die
Autoren wissenschaftlicher Internet-Seiten nicht häufiger Meta-Daten als andere
Autoren.
108
• Indirekte Wirkung: Fehler im Quellcode verweisen auf Probleme im Entwicklungsprozess, die sich zwar momentan noch nicht auf die Darstellbarkeit auswirken, aber bald dazu führen können. Durch die Übernahme
durch einen anderen Entwickler oder den Umstieg auf einen anderen
Editor können aus den bisher verzeihbaren Mängeln schnell ernste Probleme erwachsen.
Damit ist die Untersuchung von BRAJNIK 2001 für die Diskussion um die
Qualität durchaus relevant, allerdings wirkt sich mangelnde Qualität im
Entwicklungsprozess nur geringfügig auf die vom Benutzer wahrgenommene
Qualität aus. Von den untersuchten Regeln hat das Fehlen von Meta-Daten,
also vom Autor selbst vergebener Schlagwörter noch den stärksten inhaltlichen Bezug. Es wirkt sich aber wenn überhaupt höchstens auf die Auffindbarkeit der Seite aus und nicht auf die vom Benutzer wahrgenommene
Qualität.
Abschließend bleibt festzuhalten, dass Internet-Angebote zwar unter den
Begriff Software eingeordnet werden können, dass dafür aber andere Qualitätsmerkmale angebracht sind. Diese bewegen sich meist auf der syntaktischen und semantischen Ebene, während die pragmatische Ebene hier im
Mittelpunkt steht.
4.4.7 Interkulturelle Unterschiede
Die Kriterien, ihre Gewichtung und allein die Häufigkeit ihres Vorkommens
hängt von der Kultur ab. Kulturen lassen sich anhand von Kulturdimensionen
einordnen (HOFSTEDE & HOFSTEDE 2005, TROMPENAARS & HAMPDENTURNER 1997), die auch in diesem Fall einen guten Ausgangspunkt darstellen.
So erfordern besonders Kulturen mit niedrigem Kontext und hoher Unsicherheitsvermeidung konkrete Checklisten. Beides trifft in hohem Maße für die
USA zu. Dagegen kommunizieren Kulturen mit hohem Kontext zu einem Teil
implizit und vermitteln Bedeutung durch in der Kultur bekannte Signale wie
Verhalten, Status oder Kleidung. In solchen Kulturen suchen die Benutzer
auch in Informationssystemen in stärkerem Maße nach Anhaltspunkten für
die eigene Bewertung, während Mitglieder einer Kultur mit niedrigem
Kontext explizite Anleitung bevorzugen. Mit aus diesem Grund stammen die
mit Abstand meisten der Kriterienlisten aus den USA. Die Tabelle 4.2 zeigt
eine Sammlung von Qualitätskriterien und deutet an, wie unterschiedlich
diese bewertet werden.
109
Tabelle 4.2: Qualitätskriterien aus dem anglo-amerikanischen
Raum (aus RADFORD ET AL. 2002:48)
Rang Kriterium
1
2
3
3
4
4
5
6
7
7
7
8
8
8
9
9
9
9
9
9
10
10
10
10
10
10
10
10
Bias/purpose/objectivity
Currency
Author
Publisher
Credibility
Accuracy
Documentation
Relevance to user
Scope/ coverage
Author´s authority
Aesthetics / visual content
Authority
Intended Audience
Clarity
Appropiateness of format
Navigation
Site access and usability
Validity
Learning environment
Information structure and design
Academic credibility
Content design and technical feature
Date of creation
Link to local pages
Quality of links
Reading levels
Relation to other works
Spelling
Wichtigkeit des Kriteriums
17
13
12
12
10
10
6
5
4
4
4
3
3
3
2
2
2
2
2
2
1
1
1
1
1
1
1
1
Zwischen den Qualitätsdefinitionen in verschiedenen Kulturen bestehen
ebenfalls erhebliche Unterschiede. DE LA CRUZ 2003 analysiert zahlreiche
Quellen für Listen mit Kriterien zur Qualitätsbewertung von InternetAngeboten und fasst 17 Kriterienlisten aus den USA und 15 weitere Quellen
aus dem deutschen, französischen und spanischsprachigen Raum zusammen.
Diese umfangreiche Datensammlung zeigt die unterschiedliche Gewichtung
der einzelnen Aspekte in Tabelle 4.3 und macht deutlich, dass Qualität im
Internet von Autoren aus verschiedenen Kulturen ganz anders definiert wird.
110
4.5
Fazit: Qualität von Internet-Angeboten
Die Bedeutung von Qualität leisten Benutzer im Alltag ständig und häufig
intuitiv. Jedoch zeigen die oben diskutierten Ansätze, dass Qualität ein sehr
schwer zu definierendes und inhärent subjektives Konzept ist, das stark
kontextabhängig ist. Für die qualitative Bewertung von Internet-Seiten liegen
sowohl detaillierte Kriterienlisten vor als auch generelle und abstrakte
Definitionen. Die einzelnen Kriterien in den Definitionen lassen sich in die
vier Kategorien intrinsische Qualität, Kontext, Darstellung und Zugang (cf.
HUANG ET AL. 1999:43) einordnen.
Besonders schwierig ist die Abgrenzung zwischen intrinsischen und kontextabhängigen Faktoren. In engen Definitionen erscheint Qualität allein als
intrinsische Eigenschaft, während andere Autoren die Kontextabhängigkeit
und damit den Benutzer und seine Situation in das Zentrum rücken. Die
Kontextabhängigkeit tritt häufig als Relevanz auf und somit dient die
Diskussion über die Abgrenzung von Qualität und Relevanz als Modell für
die Balance zwischen intrinsischen und kontext-abhängigen Faktoren. Dagegen erscheinen Darstellung und Zugang in den meisten Definitionen als sekundäre Aspekte. Bei ihnen bleibt jedoch die Ausprägung sehr umstritten und
bei den konkreten Kriterien zu diesen Kategorien unterscheiden sich die
Definitionen stark.
111
Tabelle 4.3: Kriterien aus verschiedenen Kulturen (aus DE LA CRUZ 2003:72)
Zusammenstellung der
Evaluierungskriterien
aus verschiedenen
deutschen Quellen
Evaluierungskriterien aus
verschiedenen
französischen Quellen
1. Abdeckung des Themas 1. Autorität
(Coverage)
2. Korrektheit (Accuracy) 1. Abdeckung des Themas
(Coverage)
3. Navigation
2. Aktualität
4. Angabe Zielgruppe
4. Aktualität
2. Struktur u. Design der
Information
2. Objektivität
5. Hilfreiche Links
5. Objektivität
5. Autorität
2. Korrektheit (Accuracy)
3. Navigation
4. Verständlichkeit
5. Struktur u. Design der 4. Angabe Zielgruppe
Information
5. Ästhetik der Web-Seite 5. Kosten der Information
6. Usability
5. Herkunftsland und
Sprache der Information
6. Kontaktmöglichkeiten 6. Werbung getrennt von
(Gästebuch, Foren,
Information
Chatroom, etc.)
6. Einmaligkeit
6. Lokale Suchfunktion in
/Primärinformation
Web-Site
6. Zugang
6. Peer Review (Experten
Revision)
6. Kontaktmöglichkeiten
6. Übersichtlichkeit
6. Zugang
6. Peer Review (Experten
Revision)
6. Service (schnelle
Antwort nach Anfragen)
6. Kurze Ladezeiten
6. Metainformation
112
Evaluierungskriterien aus
versch. Quellen Spanisch
sprechender Ländern
1. Autorität
1. Navigation
1. Struktur u. Design der
Information
2. Aktualität
2. Kontaktmöglichkeiten (Chatroom, Videoconference, etc.)
2. Zugang
3. Korrektheit (Accuracy)
3. Abdeckung des Themas
(Coverage)
3. Multimedialität (Videos,
Musik, Photos, etc)
3. Ästhetik
4. Service für den Nutzer
(Hilfestellung)
4. Unterhaltungsmöglichkeiten
4. Interaktivität
4. Objektivität
6. Ästhetik
5. Sprache der Information
6. Lokale Suchfunktion in WebSite
7. Usability
6. Einmaligkeit
7. Einmaligkeit
7. Kosten der Information
7. Hilfreiche Links
7. Wenig Werbung
7. Angabe Zielgruppe
7. Wap Access
Eine intellektuelle Überprüfung nach den Kriterien ist meist nicht einfach.
Eine ernsthafte Prüfung erfordert einen erheblichen Arbeitsaufwand, der einer
Qualitätskontrolle im nachhinein gleichkommt. Gerade Laien in dem entsprechenden Fachgebiet können diese Aufgabe oft überhaupt nicht leisten. So
gilt in vielen Prüflisten der Name des Autors als bedeutend. In einem völlig
fremden Gebiet wird einem der Name des Autors bei der Bewertung nicht
weiterhelfen, da man niemand kennt, der auf diesem Gebiet überhaupt tätig
ist. Selbstverständlich nehmen Benutzer, die das Wissen an entscheidender
Stelle einsetzen, darauf eine wichtige Entscheidung begründen oder ein
Angebot häufiger besuchen wollen, diesen Aufwand zumindest teilweise auf
sich. Andererseits wird niemand, der das Internet täglich nutzt, auf jede bisher
unbekannte Seite einen umfangreichen Fragekatalog anwenden. Dieses
Dilemma zeigt, wie hilfreich die automatische Qualitätsabschätzung ist. Eine
weitere entscheidende Schwäche der zahlreichen Prüflisten liegt wie oben
diskutiert darin, dass bei vielen Fragen nicht klar ist, welche Ausprägung
positiv oder negativ ist. Für beides lassen sich Szenarien finden, was
wiederum die mangelnde Kontextabhängigkeit der Regeln verdeutlicht.
Ein wichtiger Aspekt in den meisten Qualitätsdefinitionen ist die Subjektivität
der Qualität (PRICE & SHANKS 2005). Dies führt natürlich zu sehr heterogenen
Ergebnissen über mehrere Benutzer hinweg1. Daneben zeigt sich häufig, dass
die subjektive Zufriedenheit der Benutzer und die objektiv gemessene
Leistung nicht immer übereinstimmen (z.B. FROKJAER ET AL. 2000). Auch bei
der Qualitätsbewertung werden die Einschätzungen nicht immer mit objektiven Kriterien übereinstimmen.
Die meisten Prüflisten und Definitionen zielen darauf ab, sehr gute Sites zu
erkennen. Angebote mit sehr niedriger Qualität könnten teilweise sehr viel
leichter und anhand weniger Regeln erkannt werden (siehe Abschnitt 5.2).
Allerdings liegt bereits darin ein großer Mehrwert und die Chancen für eine
automatische Erkennbarkeit liegen besser.
Interessant ist nun die Umsetzung dieser Kriterien in den existierenden
Systemen zur automatischen Bewertung von Internet-Quellen. Es wird sich
zeigen, dass momentan meist nur sehr wenige Aspekte untersucht werden und
einige der Facetten von Qualität überdurchschnittlich stark berücksichtigt
werden. Besonders die Autorität wird aus der Tradition der Bibliometrie
übernommen und angesichts ihrer zumindest oberflächlich betrachtet leichten
Erkennbarkeit durch das Parsen von Hypertext-Verknüpfungen stark über-
1
"Many kinds of human judgement are intrinsically inconsistent" (MIZZARO 1997:814).
113
gewichtet. Wie Kapitel 7 noch zeigen wird, nutzt die Linkanalyse die Verfahren der Bibliometrie wenig kritisch und kaum differenziert.
Das folgende Kapitel behandelt nun weitere Aspekte der Qualitätsthematik,
bevor Teil II automatische Verfahren zur Qualitätsbewertung vorstellt.
114
Qualität im Kontext
5. Qualität im Kontext
Nach den Qualitätsdefinitionen und den weitgehend statischen Aspekten der
Qualitätsthematik rundet dieses Kapitel die Diskussion ab. Neben der
Arbeitsteilung bei der Qualitätsbewertung wird vor allem der Prozess der
Qualitätsbewertung und Wissensquellen behandelt.
5.1
Arbeitsteilung zwischen Mensch und Maschine
Die Qualitätskontrolle übernahm bis vor kurzem ausschließlich der Mensch
und ihm bleibt auch nach wie vor die endgültige Entscheidung vorbehalten.
Vor allem aufgrund der großen zu bewertenden Mengen von Dokumenten ist
kompetente und weitgehende maschinelle Unterstützung sinnvoll und wünschenswert. Zwischen menschlicher und maschineller Bewertung von Qualität
liegen Mischformen. Die Bewertung kann zwischen Menschen und Computer
aufgeteilt werden, wobei dem Computer zunehmend komplexere Teilaufgaben übertragen werden.
Trivialerweise erweitert die weltweite Vernetzung durch den leichten Zugriff
auf Wissensobjekte die individuellen Zugangsmöglichkeiten und damit die
Chancen zur Bewertung. Bei kooperativen Qualitätsentscheidungen erhöht
sich das Potential zur Verbesserung weiter. Bereits die weit verbreiteten
Werkzeuge wie E-Mail ermöglichen schnellere Kommunikation und damit
effizientere Kooperation.
Ein Beispiel hierfür sind die Verbesserung und Erleichterung von wissenschaftlichen Review Prozessen1 oder von Communities getragene Diensten
wie Wörterbücher. Daneben erleichtern Elemente von E-Commerce-Angeboten den Austausch von Qualitätsurteilen und die Diskussion darüber.
1
Eine wissenschaftliche Tagung, welche die Kommunikation im Rahmen des Review
Prozesses schon seit längerem über das Internet abwickelt, ist die jährliche ACM CHI
Conference on Human Factors in Computing Systems der ACM special interest group
(SIG) zur Computer Human Interaction (CHI). Interessierte Personen können sich dort
als Gutachter registrieren und in online-Formularen ihre Interessensprofile eingeben.
Diese Profile werden automatisch mit den eingereichten Arbeiten abgeglichen. Die
Reviewer können die Arbeiten dann online einsehen und ihre Bewertungen wiederum
online abgeben.
115
Solche Möglichkeiten bieten etwa Buchhändler1, die Werturteile direkt mit
den Produkten verbinden oder Auktionshäuser2, die Bemerkungen zu den Anbietern ablegen lassen. Online-Auktionshäuser ermuntern Benutzer nach ihren
Transaktionen zur gegenseitigen Bewertung. Dazu existieren bereits Agenten,
welche etwa den Überblick über Bewertungen erleichtern oder diese auf ihre
Konsistenz und Kohärenz überprüfen.
Diese Ansätze führen bereits zu sozialen Formen der Qualitätsbewertung.
Unter das Paradigma Social Navigation fallen Recomender-Systeme und Verfahren des kollaborativen Filterns (Collaborative Filtering), die zunehmend
an Bedeutung gewinnen. Dabei ermöglichen Informationssysteme soziale
Kooperation, wie sie in kleinen Gruppen stattfindet über große Entfernung
und zwischen vielen Partnern. Erfasste Daten über die Benutzung oder
Bewertung von Objekten werden in Zusammenhang mit der Ähnlichkeit von
Benutzern ausgewertet. Gerade dabei spielt weniger die Relevanz als die
Qualität oder Adaptiertheit von Wissen eine Rolle.
Einen Schritt weiter gehen Seiten, in denen die Qualität durch die Benutzer
explizit bewertet wird. Ein komplexes Beispiel für den effizienten Einsatz von
menschlichen Qualitätsurteilen bietet der Entwurf des Projektes DESIRE (cf.
BELCHER & PLACE 2000). Darin entstand ein Modell für die Beschreibung
von Qualitätsurteilen, die von Experten gefällt und als Meta-Daten im RDFFormat3 abgelegt werden. Ein Ranking-Algorithmus eines Suchdienstes
berücksichtigt diese Qualitätsbewertungen und stellt sicher, dass Dokumente
mit hoher Qualität auch höhere Plätze im Ranking einnehmen.
Eine Suchmaschine auf der Basis sozialer Zusammenarbeit stellen auch
BAIER ET AL. 2004 vor. Benutzer wählen dabei Personen aus, deren Bewertungen sie vertrauen. Diese Bewertungen wirken sich in einer Meta-Suchmaschine auf das Ranking aus. Ein zusammengefasstes Qualitätsurteil aller als
vertrauenswürdig eingestuften Benutzer bildet dann eine Grundlage für das
Ranking der von einer Suchmaschine gefundenen Seiten (BAIER ET AL. 2004).
1
http://www.amazon.de
2
http://www.ebay.de
3
RDF steht für Resource Description Framework und ist eine wichtige Technologie für
das Semantic Web (http://www.w3.org/RDF).
116
5.2
Negative Qualität
Auch negative Qualität kann letztendlich nur jeder Benutzer individuell und
subjektiv zuschreiben, so dass auch über schlechte Seiten kein Konsens erzielt
werden kann. Allerdings gibt es Angebote, die von vielen Benutzern meist als
negativ bewertet werden. Dazu zählt das Vortäuschen von nicht vorhandenen
Inhalten (Spam)1 sowie problematische Inhalte wie pornographische und
gewaltverherrlichende Darstellungen, die teilweise auch gesellschaftlich sanktioniert werden2.
Das automatische Erkennen von Spam gilt gerade bei E-Mail als wünschenswert, hat jedoch auch bei Web-Seiten Bedeutung. Dementsprechend berücksichtigt die Evaluierung der Qualitäts-Suchmaschine AQUAINT auch diesen
Aspekt (siehe Kapitel 11). Die Erkennung negativer Qualität bzw. sehr
schlechter Seiten erfordert zum Teil die Berücksichtigung anderer Eigenschaften und Verfahren als das Erkennen sehr guter Seiten. Teilweise bieten
bereits Betriebssysteme die Möglichkeit an, bestimmte Kategorien von
Inhalten zu blockieren (KUHLEN 2000, siehe Abbildung 5.1). Dabei kommen
einfache Mustervergleiche zum Einsatz und meist werden ganze Listen von
URLs gesperrt. Die Gefahren dieser Technologien bestehen im Blockieren
erwünschter Inhalte. Da die angewandten Verfahren nicht sehr stabil und
ausgefeilt sind, kommt dies auch oft vor (NEUMANN & WEINSTEIN 1999).
Abb. 5.1: Möglichkeiten zur Blockierung unerwünschter Inhalte in Windows
1
Eine umfassende Kategorisierung verschiedener Arten von Spam liefert THUROW 2003:
220ff.
2
Dies gilt beispielsweise beim Zugriff auf derartige Inhalte am Arbeitsplatz oder beim
Zugriff durch Minderjährige.
117
Unter negativer Qualität könnte auch das Problem des Plagiats eingeordnet
werden. Dies stellt jedoch einen Sonderfall dar. Die technischen
Möglichkeiten, sich fremdes geistiges Eigentum anzueignen und es selbst
anzubieten, steigen mit dem Grad der Vernetzung, der Freiheit in einem
Informationsraum und dessen Umfang. Rechtlich entstehen auch neue
Schwierigkeiten. So ist unklar, wie etwa die Übernahme eines Layouts durch
das Kopieren des HTML-Quellcodes zu bewerten ist (cf. z.B. SNAPPER 2001).
Die Schwierigkeiten, Übernamen zu erkennen und zu bewerten, kann hier
aber nicht ausführlich abgehandelt werden und spielt für AQUAINT keine
Rolle.
Weitere Probleme negativer Qualität und Lösungsansätze zeigt Abschnitt 8.6.
5.3
Erkennen von Eigenschaften (Qualitäten)
Die Bedeutung von Qualität umfasst nicht nur Güte. Vielmehr kann Qualität
auch Eigenschaft oder Beschaffenheit bedeuten, was besonders am Plural
Qualitäten deutlich wird. Im Zentrum dieser Arbeit steht zwar der Aspekt der
Güte, aber dieser steht auch in Beziehung mit der Qualität im Sinne von
Eigenschaft.
Bereits die Bestimmung der Eigenschaften, der Beschaffenheit eines Textes
und daraus folgend seine Einordnung in eine Kategorie kann einen erheblichen Vorteil für Benutzer darstellen, die ihre Informationsarbeit auf eine
Kategorie von Objekten beschränken möchten (Text-Kategorisierung,
SEBASTIANI 2002). Beispielsweise kann ein Benutzer in einer bestimmten
Situation nur Nachrichtentexte oder nur wissenschaftliche Texte sehen
wollen. Dieses Bedürfnis versuchen im Internet spezialisierte Suchmaschinen
zu erfüllen, die entweder nur eine intellektuell bestimmte Menge von Angeboten durchsuchen1 oder deren Crawler2 mit Heuristiken nur nach einer
bestimmten Kategorie von Seiten suchen3. Im Internet steht hinter diesem
1
Nach diesem Prinzip arbeitet der auf deutsche Zeitungen spezialisierte Suchdienst Fireball (http://www.fireball.de).
2
Crawler oder Spider sind Agenten, die das Internet mit dem Ziel durchsuchen, möglichst
viele Seiten zu erreichen. Dazu analysieren sie den Code der Seite, extrahieren die darin
enthaltenen Verbindungen und steuern diese Seiten ebenfalls an.
3
Diese Methode wendet z.B. die Suchmaschine Scirus an um ausschließlich wissenschaftliche Informationen zu indexieren (http://ww.scirus.com).
118
Vorgehen die Intention, den Suchraum von vorneherein einzugrenzen. Allerdings unterstützt die Kategorisierung von Seiten das Retrieval auch in anderer
Hinsicht. Retrievalverfahren wirken bei verschiedenen Kollektionen und
damit Texttypen unterschiedlich und erzielen teilweise völlig andere Ergebnisse (cf. z.B. WOMSER-HACKER 1997). Eine hinsichtlich des Typs homogene
Kollektion erlaubt die Optimierung bzw. die optimierte Auswahl eines Information Retrieval-Systems.
Die Zuordnung eines Dokuments zu einer Kategorie hat mehrere Ebenen und
kann sich ebenso auf inhaltliche Aspekte wie Textgattung und Thema
beziehen wie auch auf formale Dimensionen. Hierzu zählt also die Zuordnung
zu einem Genre wie Zeitungstexte oder literarischer Texte, aber auch die
Sprachidentifikation (ARTEMENKO & SHRAMKO 2005).
Ein System von FINN ET AL. 2001 erkennt mit relativ gutem Erfolg in einem
Korpus von Reuters-Nachrichtentexten, ob diese eher faktenvermittelnd oder
meinungsorientiert sind. Dazu benutzt es lediglich eine Worttypen-Statistik,
die auf einer Part-of-Speech (POS) Analyse beruht.
Ein unüberwachtes Verfahren benutzt Text-Komplexität, Sonderzeichen,
Satzzeichen, Stoppwörter sowie einige Tags, die in mehreren Datei-Formaten
vorkommen. Die Text-Komplexität misst das System über die Satzlänge,
Wortlänge und davon abgeleitete Größen. Ziel ist eine Benutzungsoberfläche,
welche die Dokumente sowohl inhaltlich in einer zweidimensionalen Karte
anordnet als auch den Dokument-Typ über die Farbe anzeigt (RAUBER &
MÜLLER-KÖGLER 2001). Der Typ wird in dem nicht-überwachten System
aber nicht klar zugeordnet und die Abbildung auf eine Farbe ist willkürlich
und wohl für den Benutzer schwer verständlich.
Das System DropJaw weist Internet-Dokumenten einen von elf vordefinierten
Genres zu und bietet diese Information dem Benutzer beim Retrieval in Form
von Dokument-Clustern an. Für die Genre-Identifikation erwähnen die Autoren stilistische Maße wie Häufigkeit von Pronomen, Passiv-Konstruktionen
und Wortlängen-Verteilungen (KARLGREN ET AL. 1998). Ebenfalls als Ergänzung für das Information Retrieval dient ein System, welches strukturelle
Eigenschaften von Web-Seiten für die Klassifikation in Genres nutzt. Die
Beziehung zwischen Genre wie zum Beispiel Produktbeschreibung erfolgt
über festgelegte Regeln. Zum Beispiel enthält eine Produktbeschreibung oft
den Begriff Specification zwischen HTML-Tags (MATSUDA & FUKUSHIMA
1999). Feste Regeln erweisen sich aber häufig als zu unflexibel. Sprach- und
Stil-Analysen sind sprachabhängig, müssen aber für die Qualitätsbewertung
in Erwägung gezogen werden.
119
5.4
Prozess der Qualitätsbewertung
Die intellektuelle Qualitätsbewertung von Internet-Seiten verläuft sehr individuell. Gleichwohl stellt RIEH 2002 ein tragfähiges Modell für diesen Prozess
vor, das in einer qualitativen empirischen Untersuchung validiert wurde.
Demnach verläuft der Prozess in zwei Schritten. Der Benutzer gibt zunächst
ein vorhersagendes Urteil aufgrund erster Merkmale ab und bei genauerer
Betrachtung verifiziert oder modifiziert er dieses Urteil in einem evaluierenden Schritt. Das Modell und einige Einflussfaktoren zeigt Abbildung 5.2
Die ersten Anzeichen sind Link-Texte, URLs, Titel und häufig daraus
abgeleitete Informationen über die Quelle bzw. den Anbieter einer Seite. Fällt
der erste vorhersagende Schritt positiv aus, dann wird eine Seite genauer
evaluiert oder überhaupt erst aufgerufen. Die folgende Evaluierung orientiert
sich stärker am Inhalt (RIEH 2002).
Information in the Web page
• Content
• Source
• Presentation
• Format
Predictive
Judgement
Action
Judgement of IQ and CA
• Goodness
• Usefulness
• Currency
• Accuracy
• Trustworthiness
User
• Task
• Situation
• Knowledge
- First-hand Experience
- Second-hand Knowledge
Evaluative
Judgement
Predictive
Judgement
Iteration
Abb. 5.2: Modell für den Prozess der Qualitätsbewertung (RIEH 2002:146)
Diese Vorgehen lässt sich auch nach der Information Foraging-Theorie von
PIROLLI & CARD 1995 einordnen. Demnach verhalten sich Benutzer des
Internet bei der Informationssuche ähnlich wie Lebewesen bei der Suche nach
120
Nahrung. Sie verfolgen Spuren, die auf reichhaltige Nahrungsquellen hinweisen, welche sich mit geringem Aufwand erreichen, erschließen und ausbeuten
lassen. Qualitativ hochwertige Angebote mögen in diesem Modell den gleichen Nahrungswert besitzen wie andere Seiten, jedoch lässt sich die benötigte
Information mit weniger Aufwand erreichen und extrahieren. So können zum
Beispiel gute Sites so gestaltet und organisiert sein, dass der Benutzer die
Information besonders schnell erkennt.
5.5
Wissensquellen für Qualitätsurteile
Um automatische Verfahren zur Qualitätsbewertung auf der Basis
menschlicher Urteile zu trainieren und zu evaluieren, sind umfangreiche
Wissensquellen zur Qualität von Internet-Seiten erforderlich. Die folgenden
Abschnitte stellen einige wichtige Quellen vor.
5.5.1 Benutzungsdaten
Die Häufigkeit des Zugriffs auf eine Internet-Seite stellt die flüchtigste Form
von Wissen über Qualität dar. Die Zugriffshäufigkeit kann am ehesten als
Popularität bezeichnet werden. Grundsätzlich zeichnen Web-Server jeden
Zugriff auf eine Seite auf. Somit liegt jede Aktion von Internet-Benutzern
ohne Aufwand von Kosten in maschinell verarbeitbarer Form vor. Jedoch
bleibt dieses Wissen über die zahlreichen Web-Server der Welt verteilt. Aus
sozialen und organisatorischen Gründen erfolgt keine Zusammenführung
dieser Daten. Kommerzielle Web-Server sind nicht daran interessiert,
Konkurrenten ihre Zugriffszahlen zu offenbaren. Darüber hinaus wäre eine
Veröffentlichung von Log-Dateien aus Datenschutzgründen problematisch, da
sich damit die Zugriffe und somit das Informationsverhalten einzelner
Benutzer ablesen ließe.
Damit kann die Zugriffshäufigkeit praktisch nicht oder nur in sehr eingegrenzten Fällen für einzelne Server als Wissensquelle genutzt werden. Ein
Beispiel stellt der Algorithmus von OZTEKIN ET AL. 2003 dar, der Zugriffsdaten und Link-Analyse verbindet. Dieses Usage Aware PageRank wird unten
bei den Link-Analyse-Verfahren eingeordnet (siehe Abschnitt 7.6).
Jedoch muss der Aufruf einer Seite keineswegs bedeuten, dass man diese als
qualitativ hochwertig einschätzt. Der Aufruf einer Seite kann ganz andere
Gründe haben wie etwa Bedienfehler oder eine falsche Interpretation der
Link-Beschriftung.
121
Die Log-Dateien geben nur ein ungefähres Bild von den Benutzeraktionen
wieder, das für die Analyse der Mensch-Maschine-Interaktion oft unzureichend ist. Annäherungsweise lässt sich daraus die Zeit ablesen, die ein
Benutzer auf einer Seite verbringt. Einige Forscher wie etwa MAYBURY 1999
gehen davon aus, dass diese Zeit als Maß für das Interesse an einer Seite
geeignet ist.
Eine wichtige Benutzeraktion im Bereich des Information Retrieval stellt die
Auswahl eines Dokuments aus der Ergebnisliste dar. Klickt der Benutzer
einer Suchmaschine in der Ergebnisansicht auf eine Ergebnisseite, so kann
der Betreiber der Suchmaschine dies bei einer entsprechenden Implementierung aufzeichnen. Einige Ansätze werten dies als positives Relevanzurteil,
welches der Benutzer implizit gibt. Der Vorteil dieser Interpretation der
Benutzeraktion liegt in der Erhebung von Relevanz-Feedback ohne
zusätzliche Belastung des Benutzers.
Diesen Ansatz implementiert eine Suchmaschine von JOACHIMS 2002. Dabei
werden die Auswahl-Aktionen des Benutzers („clickthrough data“) aufgezeichnet und als relatives Feedback interpretiert. Klickt der Benutzer auf eine
Seite, so bewertet der Algorithmus die Relevanz dieser Seite für die Anfrage
als höher als die Relevanz der nicht besuchten Nachbarseiten. Die
Evaluierung vergleicht den Ansatz mit anderen Suchmaschinen. Maßstab
bleiben jedoch die impliziten Benutzerentscheidungen, eine intellektuelle
Überprüfung findet nicht statt, so dass die Evaluierung wenig valide ist.
Die Interpretation der Auswahl als positives Feedback ist jedoch problematisch. Sie gibt letztendlich nur darüber Auskunft, dass bestimmte Dokumente wegen Titel und Kurzfassung nicht ausgewählt werden. Wie bei allen
Log-Daten kann die Auswahl auf unterschiedliche Gründe zurückzuführen
sein. Ein Vergleich mit dem üblichen Vorgehen bei explizitem Feedback zeigt
dies deutlich. Die bei explizitem Feedback analysierten Dokumente erhalten
bei binärer Bewertung je nach Einschätzung des Benutzers die Werte relevant
oder nicht relevant, während die nicht bewerteten Dokumente als neutral
betrachtet werden. Im Falle des obigen Ansatzes aber erhalten die
angeklickten und damit implizit bewerteten Dokumente immer den Wert
relevant und alle nicht betrachteten Dokumente den Wert nicht relevant.
Letztendlich erhält also nur die Untermenge der explizit als relevant
bewerteten Dokumente beim impliziten Feedback die gleiche Bewertung wie
beim expliziten Feedback, während die anderen Dokumente völlig anders
behandelt werden.
Besonders deutlich wird die Problematik der Annahmen beim impliziten
Relevanz-Feedback bei der Betrachtung des gesamten Information RetrievalProzesses. In dessen Verlauf wird das ursprüngliche Informationsbedürfnis
122
durch Zwischenergebnisse modifiziert und der Benutzer durchläuft einen
iterativen Prozess, in dessen Verlauf er meist mehrere Anfragen stellt.
Erkennt z.B. ein Benutzer beim Betrachten des ersten Ergebnisdokuments,
dass die von ihm gewählten Anfrage-Begriffe zu völlig unerwarteten Ergebnissen führt, so kehrt er möglicherweise direkt zur Anfrage-Seite zurück und
formuliert die Query neu. Im Falle des impliziten Feedbacks wird das betrachtete Dokument, das zwar zu einem Wissensgewinn geführt hat („AnfrageTerm ist ungeeignet“), aber für das eigentliche Informationsbedürfnis völlig
irrelevant war und explizit auch sicher so bewertet würde, als positives
Beispiel interpretiert. Folglich sollten immer explizite Entscheidungen angestrebt werden.
5.5.2 Informationsarbeit durch Setzen von Links
Wer häufig eine Seite benutzt, verweist möglicherweise in seinen eigenen
Seiten mit einem Link darauf. Mit dieser Argumentation stellen die Vertreter
der Link-Analyse Hypertext-Links in das Zentrum der Qualitätsbewertung.
Demnach stellen Links in Web-Seiten die beste Annäherung für die Popularität einer Seite dar und werden in vielen Ansätzen als Qualitätsurteil
gewertet1.
Da Links im Internet frei zugänglich sind, lassen sie sich leicht für die globale
Qualitätsbewertung heranziehen. Das Setzen von Verbindungen ist eine Form
der Informationsarbeit, die sich in einer umfangreichen Wissensbasis niederschlägt2. Diese Wissensbasis nutzt die Link-Analyse aus (siehe Kapitel 7). So
stellen Links die Grundlage für die wichtigsten momentan realisierten Qualitätsbewertungssysteme dar. Demnach verweist ein Link darauf, dass der
Autor der Web-Seite das Ziel kennt und es als qualitativ gut einschätzt. Dazu
gehören auch technische Aspekte; so wird man weniger oft einen Link auf
eine Seite setzen, von der man vermutet, dass sie nicht mehr lange existiert.
1
„A simple means of measuring the quality of a Web page .... is to count the number of
pages which have pointers to the page“ (KOBAYASHI & TAKEDA 2000)
2
Nach einer Schätzung von 1998 enthielten die damals 150 Millionen vorliegenden
Internet-Seiten ca. 1,7 Milliarden Links (PAGE ET AL. 1998:3), demnach existieren etwa
elfmal mehr Verbindungen als Seiten. Die Analyse von BRODER ET AL. 2000:1 zeigt
einen Faktor von etwa eins zu acht (200 Millionen Seiten und 1,5 Milliarden Links),
während die GOV Kollektion des Web Track von TREC, die bei einem Crawl im Jahr
2002 entstand, ca. 9 Links pro Seite aufweist. (1,24 Millionen Seiten zu 11,2 Millionen
Links, CRASWELL & HAWKING 2003:2).
123
Diese Sichtweise wird teils auch durch die deutsche Rechtssprechung
gestützt. Demnach kann das Setzen eines Links rechtliche Folgen haben,
wenn auf den verlinkten Seiten gegen Rechtsvorschriften verstoßen wird1.
Zitat
Verweis
Navigation
Beispiel
Reklame
<HTML>
<HTML>
Ähnlichkeit
Ergänzung
...
Suchergebnis
Abb. 5.3: Gründe für das Setzen von Links
Allerdings bedeutet ein Link keineswegs immer eine positive Qualitätseinschätzung. Vor dem Setzen eines Links steht natürlich nicht immer eine
adäquate Qualitätsprüfung. Links auf weitere Seiten des gleichen Angebots
dienen der Navigation oder sie beruhen auf Voreingenommenheit und stellen
keine objektive Qualitätseinschätzung dar. Auch wird kein Benutzer vor dem
Einfügen eines Links auf einen großen Internet-Verzeichnisdienst (wie etwa
Yahoo) eine umfassende Qualitätskontrolle dieses Dienstes durchführen, was
auch kaum möglich wäre. Vielmehr wirken im sozialen Netzwerk Internet
ähnliche Gesetze wie in anderen Netzwerken (BARABÁSI 2002). Diese führen
unter anderem dazu, dass Seiten mit vielen In-Links mit größerer Wahrscheinlichkeit wieder das Ziel von Links werden als weniger populäre Seiten.
Zwar drücken Links eher ein positives Qualitätsurteil über die zitierten Seiten
aus, jedoch kommen auch Links im Zusammenhang mit negativen Urteilen
häufig vor.
1
So führt z.B. REHBEIN aus: „Zum Zeitpunkt des Linksetzens sollte der Webmaster die
verlinkte Seite ansehen und für gut befinden“ (http://www.daniel-rehbein.de/urteillandgericht-hamburg.html). Das inzwischen häufig praktizierte Anbringen von Haftungsausschlusserklärungen hat jedoch wenig Sinn. (http://www.jurawiki.de/Disclaimer)
124
DAVISON (2000) versucht, solche Links mit negativen Einschätzungen zu
erkennen. Darüber hinaus bedingt auch die Struktur von Sites die Anzahl der
eingehenden Links. Weiterhin werden bei weitem nicht alle Benutzer von
Seiten zu Autoren. Somit können Links auch das Benutzungsverhalten nicht
vollständig nachbilden.
Links lassen sich demnach nur bedingt als positive Qualitätsurteile bewerten.
Da sie in der Praxis jedoch am häufigsten herangezogen werden, werden sie
noch ausführlich diskutiert. Den Wert von Links als Qualitätsurteile diskutiert
Kapitel 7 zur Link-Analyse.
5.5.3 Explizite Qualitätsentscheidungen
Darüber hinaus liegen weitere Wissensquellen für die Qualität von Seiten vor.
Dazu zählt insbesondere die explizite Auswahl von Seiten unter Qualitätsgesichtspunkten durch einen menschlichen Redakteur, die sich in der Aufnahme in Sammlungen wie Clearinghouses, Internet-Verzeichnisdiensten oder
auch Internet-Preisen niederschlagen. Einige Angebote werben gerade mit
dem Qualitätsargument1. Manche Systeme erlauben die Bewertung von Angeboten auf einer Skala2. Zahlreiche Clearinghouses3 bewerten Internetquellen
nach verschiedenen Kriterien. Die ersten Clearinghouses waren vor allem um
wissenschaftliche Qualität bemüht, während heute Verzeichnisdienste zu
Alltagsthemen überwiegen.
Einen weiteren Schritt der Qualitätsbewertung stellt die Angabe konkreter
Gründe für die Bewertung dar, wie sie sich in Rezensionen, Besprechungen
und Kommentierungen von Web-Seiten ausdrückt. Diese Art von Texten lässt
sich nur schwer maschinell auswerten. Dagegen kann die Aufnahme eines
Angebots in eine Liste von qualitativ hochwertigen Seiten sehr leicht maschinell ausgewertet werden und dient auch in den Kapiteln in Teil III als
Maßstab für die Automatisierung der Qualitätsbewertung.
1
So behauptet etwa ein amerikanischer Dienst: „We track the best stuff on the Web“
(http://www.100hot.com/help/faq.html)
2
So bieten z.B. das Clearinghouse zu Asian Studies und das Argus Clearinghouse eine
Skala von einem bis zu fünf Sternen (http://www.clearinghouse.net/,
(http://coombs.anu.edu.au/WWWVLAsian/VLRating.html)
3
Eine Sammlung von Clearinghouses mit Qualitätsurteilen bieten FRANCO & PALLADINO
1999
(http://www.iona.edu/faculty/afranco/iima/webliog.htm#WebRatingAndEvaluationSites)
125
Eine weitere Quelle stellen Urteile von Juroren aus Evaluierungsinitiativen
für das Retrieval dar (siehe Abschnitt 2.4). Diese sind unabhängig und damit
sehr zuverlässig, jedoch liegen nur sehr wenige Urteile vor. Das RelevanzAssessment für den TREC Web-Track sollte dreistufig sein und auch
qualitativ gute Angebote hervorheben. Jedoch wurde diese Kategorie äußerst
selten vergeben, so dass diese Daten kaum ausgenutzt werden können. Für
den Web Track seit 2002 werden neue Daten verwendet, die alle aus der Top
Level Domain gov stammen. Sie stellen also offizielle Dokumente von Regierungsorganisationen der USA dar, so dass zahlreiche Phänomene wie Spam
ausgeschlossen sind, die zu niedriger Qualität führen. Aus rechtlichen Gründen bevorzugen die Organisatoren aber offizielle Seiten und befürchten
Probleme bei der Weitergabe kommerzieller Seiten. Auch der in 2005 erstmals in CLEF eingeführte Web-Track basiert auf Regierungsseiten1 (SIGURBJÖRNSSON ET AL. 2005a) und eignet sich deshalb ebenfalls nicht für die
Evaluierung aller Aspekte des Qualitätsretrieval. Die asiatische RetrievalEvaluierungs-Initiative NTCIR benutzt ein vierstufiges Bewertungssystem für
den dortigen Web Track, der vorwiegend auf Seiten in asiatischen Sprachen
beruht.
Sinnvoll ist die Beschäftigung mit dem subjektiven Phänomen Qualität dann,
wenn es einen gewissen Grad an Überschneidung zwischen den Definitionen
verschiedener Menschen gibt. In einigen Experimenten, die unten geschildert
werden, wurde dies auch untersucht. Eine Untersuchung für die RelevanzBewertungen von VOORHEES 2000 zeigt, dass die Urteile subjektiv sind, was
sich an abweichenden Urteilen verschiedener Assessoren ablesen lässt. Die
Subjektivität der Relevanz-Bewertungen von Juroren im Rahmen von Evaluierungsinitiativen im Information Retrieval hat bereits mehrfach zu Zweifeln an der Zuverlässigkeit von Experimenten geführt. Binäre RelevanzUrteile sind offensichtlich subjektiv geprägt und trotz aller Richtlinien lässt
sich keine Vereinheitlichung der Maßstäbe herbeiführen. Da diese Urteile die
Basis der Ergebnisse liefern, könnte die Subjektivität die Ergebnisse verfälschen. Eine aktuelle Studie bestätigt zwar die Subjektivität der Urteile, zeigt
aber, dass die Folgerung nicht zutrifft. Bei der Untersuchung wurden für mehrere Topics der TREC-Initiative zusätzliche Relevanz-Urteile von unterschiedlichen Juroren erhoben. Es zeigte sich, dass diese tatsächlich unterschiedlicher Meinung über die Relevanz waren. Allerdings herrscht insgesamt
doch eine sehr große Übereinstimmung, die das Verfahren rechtfertigt. Die
unterschiedlichen Aussagen wirkten sich nicht auf die Reihenfolge der
Systeme aus. Zwar war die absolute Qualität der Systeme abhängig vom Juror
1
http://ilps.science.uva.nl/WebCLEF/
126
unterschiedlich, allerdings zielt TREC auf ein Ranking der Systeme ab, um
vergleichende Aussagen treffen zu können. Die Reihenfolge blieb weitgehend
unverändert (VOORHEES 2000). Solange also eine Person konsequent ihren
Standpunkt auf die Ergebnis-Dokumente anwendet, ergeben sich keine Verfälschungen im Endergebnis.
127
128
Teil II: Stand der Forschung zur automatischen Qualitätsbewertung
In der Welt gehts immer so zu. Dem Glücklichen sagt man:
Bleibet lange gesund! er findet Freunde die Menge.
Aber wem es übel gerät, der mag sich gedulden!
(Johann Wolfgang von Goethe: Reineke Fuchs, Zwölfter Gesang1)
Der Erfolg des Internet beruht auf technischer Dezentralität und inhaltlicher
Offenheit. Grundsätzlich kann jeder Mensch Wissen zur Verfügung stellen,
ohne dass dies etwa mit einer Zentralstelle abgestimmt werden müsste. Selbst
bei Verstößen gegen Gesetze wie Urheberschutz oder Volksverhetzung
müssen die veröffentlichten Daten zunächst von Strafverfolgungsbehörden
registriert werden. Es wirken aber keine dem Internet inhärenten Mechanismen, die gegen schlechte Qualität von Angeboten oder auch nur gegen
falsche Aussagen oder Plagiat vorgehen.
Da die Publikation äußerst einfach ist, wird in großen Mengen Wissen sehr
heterogener Qualität im Internet angeboten. In großen Fachdatenbanken wird
die Qualität durch verschiedene Mechanismen wie etwa Peer Review innerhalb der Quellzeitschriften gesichert. Damit besteht das Problem für den Benutzer hauptsächlich im Finden der relevanten Information, von einer hohen
Qualität kann ausgegangen werden. Im Internet, wo eine Qualitätskontrolle
mit intensiven menschlichen Arbeitsanteilen wie beim Peer Review ohnehin
nur in kleinen Ausschnitten denkbar ist, kommt zu dem Problem der Suche
1
http://projekt.gutenberg.de/goethe/reineke/reinekc2.htm
129
nach relevanter Information noch die Problematik der Qualität hinzu. Stimmen die getroffenen Aussagen überhaupt?
Bei physischen Objekten insbesondere in der industriellen Produktion hat sich
die automatische Qualitätskontrolle in vielen Bereichen etabliert. So ist z.B.
bei Druckmaschinen (WESTRA ET AL. 1999) oder Getrieben (LUTZ & SCHMIDLUTZ 1993) längst akzeptiert, dass Maschinen diese Art der Qualitätskontrolle
besser oder effizienter oder zumindest billiger durchführen als Menschen.
Die automatische Bewertung von Wissensprodukten dagegen steht noch am
Anfang. Die folgenden Kapitel stellen den aktuellen Stand der Forschung in
diesem Bereich dar. Zunächst sollen Wissensprodukte für diese Arbeit
eingegrenzt werden, wobei in dieser Arbeit Wissensprodukte vorwiegend als
Internet-Dokumente verstanden werden. Im Anschluss erfolgt die Annäherung an den Qualitätsbegriff, zu dem zahlreiche Arbeiten vorliegen. Die
darauf folgenden Kapitel stellen den Kern des Überblicks über den Stand der
Forschung und Technik dar. Sie stellen die existierenden Systeme zur automatischen Bewertung der Qualität ausführlich dar. Die wichtigsten Realisierungen zählen zur Link-Analyse, der ein eigenes Kapitel gewidmet ist. Das
zweite Kapitel zu diesem Überblick stellt alternative Ansätze vor, die meist
auf mehrere Parameter zurückgreifen.
Dabei zeigt sich, dass zwischen den abstrakten Definitionen und den
Implementierungen zwar eine Schnittmenge besteht, diese aber eher klein ist.
Das bedeutet, dass für viele der abstrakten Qualitätskriterien noch keine adäquate algorithmische Umsetzung gefunden wurde.
Das folgende Kapitel 6 zeigt Anwendungen, innerhalb derer die automatische
Qualitätsbewertung eingesetzt werden kann. Kapitel 7 diskutiert dann ausführlich den Standard-Ansatz für automatische Qualitätsbewertung, die LinkAnalyse. Zahlreiche Gegenargumente werden angeführt, dazu zählt die Fokussierung auf populäre Seiten, welche das obige Zitat andeutet. Kapitel 8
führt dann zu den fortgeschrittenen Verfahren zur automatischen Qualitätsbewertung, welche mehrere Eigenschaften berücksichtigen und die somit der
Komplexität des Qualitätsbegriffs eher gerecht werden.
130
Anwendungsszenarien automatischer Qualitätsbewertung
6. Anwendungsszenarien automatischer Qualitätsbewertung
Die Qualität der im Internet angebotenen Wissensobjekte ist stark heterogen.
Neben qualitativ sehr hochstehenden Angeboten finden sich viele sehr
schlechte Angebote. Diese Einsicht ist sowohl in der Forschung1 als auch in
populären Veröffentlichungen2 weit verbreitet und kann bereits als ein Gemeinplatz gelten. Diese starke Heterogenität macht Qualitätsbewertungen
nötig, die letztendlich der Mensch vornimmt. Somit besteht für den Benutzer
eine zusätzliche Hürde bei der Benutzung des Internet. Werkzeuge zur Bewertung der Qualität können den Benutzer in unterschiedlichen Stadien dieser
Arbeit unterstützen. Systeme zur automatischen Qualitätsbewertung bewerten
Internet-Angebote und liefern ihre Bewertung an unterschiedliche Informationssysteme weiter. Informationssysteme nutzen diese Qualitätsbewertung
durch Maßnahmen aus, die den Zugriff auf qualitativ höherwertige Informationen und Informationssysteme im Internet wahrscheinlicher machen.
Dies erreichen sie durch Filtern, Ranking oder Hervorheben.
• Filter wählen aus einer Menge eine qualitativ höherwertige Untermenge von Seiten aus. Bei der Menge kann es sich beispielsweise um
eine Trefferliste, eine Liste von Seiten, die zu indexieren ist oder eine
Linkliste handeln. Filter können unterschiedliche Schwellenwerte ansetzen.
1
„Many web-sites are very light on substantive content“ (RADFORD ET AL. 2002:25).
„information quality varies widely on the Internet“ (ZHU & GAUCH 2000:288). Auch
AMENTO ET AL. betonen: „For many topics, the World Wide Web contains hundreds or
thousands of relevant documents of widely varying quality“ (AMENTO ET AL. 2000:296).
PAGE ET AL. betonen die Einfachheit des Publizierens: „the simplicity of creating and
publishing web pages results in a large fraction of low quality web pages that users are
unlikely to read“ (PAGE ET AL. 1998:2). Ähnlich argumentieren BRIN & PAGE: „‘Junk
results‘ often wash out any results that a user is interested in“ (BRIN & PAGE 1998,
Abschnitt 1.3.1). Der Trend zu niedriger Qualität scheint sich sogar zu beschleunigen:
„Die Datenbanken wurden zunehmend mit werblichen, ‚inhaltslosen’ Seiten überflutet“
(LEWANDOWSKI 2004a:183).
2
Als Beispiel sei lediglich das folgende Zitat genannt: „denn im World Wide Web
wimmelt es mittlerweile von Datenschrott und Seiten, die nicht gesehen zu haben, keinen
Verlust darstellt“ (Rainer WERLE, 2003, http://www.werle.com/intagent)
131
• Ranking sorgt vor allem in einer Trefferliste für eine neue Reihenfolge,
welche die Qualität berücksichtigt und sehr gute Seiten weiter noch
oben stellt. Ranking auf Basis der Qualität kann auch auf beliebige andere Linklisten angewandt werden.
• Besonders gute Seiten in einer Liste können hervorgehoben werden,
wenn die Reihenfolge nicht verändert werden soll. Anstatt der
Listenposition markiert dann eine Formatierung wie große Schrift oder
Farbe die Qualität der Seiten.
Daneben kann die Qualitätsbewertung auch Selbstzweck sein und ihre Ergebnisse können außerhalb des Internet eingesetzt werden. In den folgenden Abschnitten werden die einzelnen Szenarien weiter ausgeführt.
Die hohe Dynamik des Internet verhindert eine intellektuelle Kontrolle der
Qualität. Viele Anbieter verändern die Struktur und das Design ihrer onlineProdukte. Zwar besteht auch im Internet die Forderung nach einer erkennbaren Corporate Identity, die weitgehend stabil bleiben muss. Trotzdem erfordert die Dynamik des neuen Mediums häufige Änderungen.
Die Umstellung vieler Informationsprozesse auf das Internet bzw. die Weiterentwicklung geschieht häufig unter hohem Zeitdruck. Aspekte der Benutzbarkeit spielen daher eine untergeordnete Rolle. Meist werden derartige Überlegungen erst im nachhinein angestellt, so dass es dann wieder zu einem ReDesign kommt.
Neue technische Entwicklungen bei der durchschnittlich verfügbaren technischen Bandweite der Benutzer erlauben die Einführung von größeren Datenmengen. In der zweiten Hälfte der 1990er Jahre setzten sich aufgrund der
höheren verfügbaren Bandbreite zunehmend grafisch orientierte Seiten durch.
Es ist zu erwarten, dass die Fortsetzung dieses Trends zur Übertragung von
Video und Audio in größerem Maße führt. Daneben führt auch die Weiterentwicklung der Internet-Darstellungssprachen zu neuen Möglichkeiten und damit zu einem Druck auf die Anbieter, dieses Potenzial für ihre Angebote zu
nutzen.
Die Dynamik des Internet an sich erfordert häufigere Änderungen. Ein über
Jahre hinweg gleichbleibendes Layout widerspräche der normalen Entwicklung des Netzes und könnte den Ruf einer Firma negativ beeinflussen. So
weist NIELSEN 2000 darauf hin, dass das Erscheinungsbild der Homepage der
Firma SUN häufig geändert wird, um Benutzer wiederholt anzuziehen bzw.
um häufigen Benutzern ein abwechslungsreiches Bild zu bieten.
132
Eine noch höhere Veränderungsrate als bei Layout, Design und Struktur der
Angebote liegt beim Inhalt vor. Die Aktualität von Wissen ist selbst ein
Qualitätsmerkmal. Bei Anbietern von Nachrichten ist dies offensichtlich.
Aber auch andere Wissensprodukte, die darauf hoffen, dass Benutzer sie häufiger besuchen, müssen ihre Inhalte ständig aktualisieren.
Dieser Überblick verdeutlicht, dass Inhalte, Organisation und Darstellung von
Wissen sich häufig ändern können. Verschiedene Menschen mit unterschiedlicher Expertise beteiligen sich an diesen unüberschaubaren Prozessen. Dementsprechend verändert sich auch die Qualität häufig. Eine intellektuelle
Kontrolle ist undenkbar.
6.1
Qualitätsfilter
Der Einsatz als Filter ist eine offensichtliche Anwendung von Systemen zur
Bewertung der Qualität. Dies schlagen mehrere Autoren vor (cf. z.B. ZHU &
GAUCH 2000). Ein Qualitäts-Filter bildet meist einen Teil eines RetrievalSystems. Er prüft die Seiten auf der Ranking-Ergebnisliste und positioniert
darin die Seiten mit geringer Qualität weiter nach hinten1. Dabei setzt der
Filter eine interne Definition von Qualität ein, die evtl. vom Benutzer modifiziert sein kann oder die an den Anwendungsbereich adaptiert ist. Diese Filter
in Retrieval-Systemen behandelt der folgende Abschnitt.
Die Filterleistung kann aber auch an einer anderen Stelle im Suchprozess
einsetzen. So kann von vorneherein nur in bestimmten Angeboten mit nachgewiesen hoher Qualität gesucht werden. Wenn man von vorneherein in
qualitativ hohen Angeboten sucht, dann ist die Chance für relevante Treffer
natürlich sehr hoch. Dies gilt sowohl für das Suchparadigma als auch für das
Browsing-Paradigma, bei dem es für Benutzer günstig ist, nur wenige Sites
im Angebot zu haben. Bei einem Browsing-System liegen einem Benutzer
nach der Hypertext-Technologie verknüpfte Dokumente vor, aus denen er
auswählt. Die Liste von Optionen kann durch einen Qualitätsfilter auf qualitativ gute Angebote reduziert werden.
Bisherige Beispiele für Filtersysteme sind etwa Kinderfilter, die pornographische und gewaltverherrlichende Inhalte für minderjährige Benutzer des Internets blockieren sollen. Diese realisieren allerdings nur eine eingeschränkte
1
Der damit verbundene Mehrwert für Suchdienste entsteht durch die Kombination inhaltlicher und anderer, zusätzlicher Kriterien: „Current search engines ignore crucial nontopical dimensions of web resources that could be used to improve the quality of search
results“ (GRAVANO 2000:141).
133
Qualitätsdefinition. Sie basieren entweder auf aufwendig manuell erstellten
Listen von Internet-Adressen oder auf rein inhaltlichen Kriterien wie das Vorkommen von bestimmten Begriffen in den Seiten. Das Blockieren aufgrund
von Wörtern führt dabei zu unerwünschten Effekten. So berichten NEUMANN
& WEINSTEIN 1999, ein verbreitetes Filtersystem blockiere teils mehr als 90%
der verfügbaren Inhalte während ein anderes die Verfassung der USA und
Shakespeares-Stücke als nicht geeignet für Kinder ansah. Derart einfache
Verfahren erweisen sich demnach als schlechte Verfahren im Rahmen der
automatischen Qualitätskontrolle. Qualitätsfilter sind also auch problematische Anwendungen, welche viele ethische Fragen aufwerfen.
Störend wirken qualitativ schlechte Inhalte besonders bei aktiven pushDiensten wie E-Mail. Unerwünschte elektronische Post mit Reklame wird
meist als Spam bezeichnet, die durch geeignete Filter gelöscht werden soll.
6.2
Integration in Retrieval-Systeme
Der bedeutendste Einsatz als Filter liegt in der Integration von Qualitätsfiltern
in einem Retrieval-System. Dabei interagiert der Benutzer mit einem Suchsystem, indem er seine inhaltlichen Suchkriterien angibt. Das System bewertet die Qualität der Dokumente und weist ihnen also neben der inhaltlichen
auch eine qualitative Maßzahl zu. Meist umfasst die Formel für den Retrieval
Status Value, welche den Grad der Relevanz eines Dokumentes zu einer
Anfrage angibt, zusätzliche Faktoren, die eine bestimmte Definition von
Qualität mit einfließen lassen.
Zu diesen Systemen zählt die Suchmaschine Google1, deren PageRankAlgorithmus die Qualität als Autorität definiert und die Anzahl der Links
zwischen Seiten berücksichtigt (PAGE ET AL. 1998). Ein weiteres Beispiel
bietet der experimentelle Ansatz von ZHU & GAUCH 2000, die Qualität als
komplexe Kombination mehrerer Faktoren auffassen wie Popularität, Autorität, Aktualität, Kohäsion, Anteil ungültiger Links und Verhältnis Information zu Dateigröße.
Eine direkte Integration der Qualitätsaspekte in das Ranking einer Suchmaschine strebt das Projekt DESIRE an, bei dem die Qualitätsurteile aber
explizit von Experten gefällt werden müssen (cf. BELCHER & PLACE 2000).
Der integrative Ansatz erfordert vom Benutzer den geringsten Aufwand. Er
interagiert wie mit einem normalen Suchsystem und muss sich der Qualitäts-
1
http://www.google.com bzw. http://www.google.de
134
bewertung nicht einmal bewusst sein. Konsequenterweise erlaubt dieser
Ansatz auch i.d.R. kaum Parametrisierungen durch den Benutzer. So ist es bei
Google nicht möglich, die Qualitätsbewertung durch Link-Analyse abzustellen.
Die direkte Integration der Such- und Bewertungsalgorithmen lässt die
einzelnen Anteile am Ergebnis nicht mehr erkennen. Der Einfluss der beiden
Komponenten auf das Resultat kann nicht mehr festgestellt werden.
Im Rahmen der Evaluierungsstudie TREC wird die Leistung von Information
Retrieval-Systemen hinsichtlich der Fähigkeit gemessen, thematisch relevante
Dokumente zu identifizieren. Die Wichtigkeit des Internet führte zur Einführung des Web-Track (cf. HAWKING 2001), bei dem nicht Zeitungstexte die
Grundlage bilden, sondern Internet-Dokumente und bei dem die Qualität
zusammen mit der Relevanz in die Bewertung einfließt. Um das übliche
TREC Prozedere beibehalten zu können und den Systemen eine feste Datenmenge und Übungszeit zu bieten, speichern die Veranstalter eine Momentaufnahme eines Teils der im Internet angebotenen Daten. Davon liegen zwei verschieden große Versionen vor1, welche hinreichend groß sein sollen, um die
Wirksamkeit von linkbasierten Verfahren wie etwa dem unten besprochenen
PageRank-Algorithmus von Google zu testen. Bei der intellektuellen Überprüfung der Ergebnisse der Suchmaschinen achten die Evaluatoren auf thematische Relevanz. Beim Web Track suchen sie außerdem nach den besten
Dokumenten zu den Fragestellungen2. Damit wird also auch die Leistung bei
der Suche nach qualitativ sehr guten Seiten belohnt. Es ist zu vermuten, dass
die hohe Heterogenität der Qualität der Dokumente zu diesem Vorgehen
geführt hat. Da im ersten und zweiten Web Track konventionelle Information
Retrieval-Systeme gegenüber den ebenfalls getesteten InternetSuchmaschinen besser abschnitten (cf. HAWKING 1999), zielt das neue Design
des Tracks eventuell darauf ab, die Stärken der vorhandenen Internet-Suchmaschinen zu berücksichtigen oder zu identifizieren.
6.3
Werkzeuge und Mehrwertdienste für die Internet-Benutzung
Für viele Informationsbedürfnisse liegen im Internet unterschiedliche Wissensquellen vor, die ähnliche Inhalte präsentieren. Es ist davon auszugehen,
1
Die kleine Momentaufnahme besteht aus 1,7 Millionen Seiten (10 Gigabyte), während
die große 18,5 Millionen Seiten (100 Gigabyte) umfasst (HAWKING 2001:1).
2
„ … assesors were asked to identify best documents for each topic“ (HAWKING 2001:1).
135
dass die Qualität der Präsentation einen entscheidenden Einfluss auf die
Nutzung hat1. Für den Benutzer entsteht ein Mehrwert, wenn von mehreren
Alternativen, die weitgehend das gleiche Wissen anbieten, ein Angebot mit
qualitativ guter Präsentation und Strukturierung hervorgehoben wird. Dies
könnte durch Vorschlagssysteme in Verbindung mit Pre-Fetching realisiert
werden.
Pre-Fetching ist eine Anwendung, die versucht, die Ladezeiten für den
Benutzer zu verringern. Dazu versucht das System, ausgehend von der aktuell
betrachteten Seite den nächsten Link vorherzusagen, den ein Benutzer
verfolgt. Diese Seite wird dann schon geladen, während der Benutzer noch
die aktuelle Seite betrachtet und kann bei korrekter Vorhersage nach dem
Klick sofort präsentiert werden.
Pre-Fetching kann auf der Basis von Log-File Analyse erfolgen. Dabei
schließt das System aus dem Verhalten des Benutzers oder vieler Benutzer
auf die wahrscheinlichsten Pfade. Ein Beispiel hierfür bietet der Ansatz von
LAN ET AL. 2000, der einen Push-Dienst des Web-Servers vorsieht. Die
Analyse geschieht dabei auf der Seite des Servers und das vorhergesagte
Dokument wird vorab an den Client geliefert. Solche Push-Server erfordern
aber erhebliche Eingriffe in die Architektur der Web-Server, so dass
kurzfristig nicht mit entsprechenden Lösungen zu rechnen ist.
Auch Pre-Fetching ließe sich mit einer Qualitätsbewertung verbinden. Dabei
könnten mehrere Seiten geladen werden, die von der aktuellen Seite aus
erreicht werden könnten. Diese können verglichen und die qualitativ besten
bestimmt werden. Vielversprechende Pfade können dann dem Benutzer
angezeigt werden.
Andere Ansätze wollen den Benutzer noch stärker unterstützen und heben
solche Links optisch hervor, die für den Benutzer besonders interessant sein
könnten (TSANDILAS & SCHRAEFEL 2003). Auch diese Idee ließe sich mit den
automatischen Qualitätsbewertung verbinden.
6.4
Sammeln von Internet-Dokumenten
Die Betreiber einer Suchmaschine müssen zunächst Dokumente aus dem
Internet sammeln und in ihren Index integrieren. Anschließend kann darin
gesucht werden. Das Sammeln der Dokumente ist keine triviale Aufgabe und
1
„ … it is argued that a site’s information packaging will become increasingly important in
gaining users‘ attention and interest” (BUCY ET AL. 1999:1246)
136
die Größe der Sammlung von Dokumente gilt sogar als ein wichtiges
Kriterium für die Qualität der Suchmaschinen1.
Teilweise können Benutzer ihre Seiten registrieren und der Suchmaschine die
Adressen mitteilen. Größtenteils werden die Seiten aber von den Systemen
selbständig im Netz gesucht. Dazu werden sogenannte Crawler entwickelt,
die das Netz durchwandern2. Ausgehend von einer Grundmenge von URLs
analysieren sie die Links in den Seiten und fügen die darin referenzierten
Seiten zu der zu bearbeitenden Menge (crawling frontier) hinzu.
Da die Größe des Internets nicht bekannt ist, kann der Abdeckungsgrad einer
Suchmaschine lediglich geschätzt werden. Allerdings nimmt keine Suchmaschine für sich in Anspruch, 100% zu indexieren. Nach einer Schätzung
hatte Google im Jahr 2000 mit 2,5 Milliarden etwa 20% aller Web-Seiten im
Index3. Berücksichtigt man allerdings auch die dynamisch generierten Seiten
(deep web), dann umfasste Google zu diesem Zeitpunkt lediglich 0,1% des
öffentlich zugänglichen Internets.
Eine Erhöhung des Abdeckungsgrades ist schwierig. Die Speicherung und
Verwaltung von Milliarden von Seiten erfordert einen erheblichen technischen Aufwand. Allein jede Überprüfung, ob eine Seite bereits bekannt und in
der Datenbank enthalten ist, erfordert eine Suche in der Datenmenge. Die
Dynamik des Internets erfordert das wiederholte Besuchen bereits bekannter
Seiten, da sich diese ändern können. Auch das starke Wachstum des Internets
hält an.
Diese Schwierigkeiten zeigen, wie wichtig Sammel- oder Crawling-Strategien
sind. Die Strategien müssen sich an den Zielen der Suchmaschine orientieren,
um etwa einen sehr hohen Abdeckungsgrad zu erreichen oder bestimmte
Seiten bevorzugt zu erreichen.
Diese Frage wird in der wissenschaftlichen Literatur durchaus kontrovers
diskutiert. Entscheidend ist dabei, welche der Links in der zu bearbeitenden
Menge zuerst abgearbeitet werden. Während NAJORK & WIENER 2001 eine
breadth-first Strategie für optimal halten, befürworten MENCZER ET AL. 2001
eine best-first Strategie.
Die Suchstrategien ähneln den Suchstrategien in Baumstrukturen aus der
Künstlichen Intelligenz (LUGER 2001:123). Dort werden sie bei Optimie-
1
Abschätzungen hierzu finden sich unter: http://searchenginewatch.com/
2
Ein Beispiel ist etwa der von Google und Altavista benutzte Crawler Mercator.
3
Inzwischen umfasst der Index nach Angaben von Google über acht Milliarden Seiten.
137
rungsproblemen angewandt, die sich als Suche nach einer guten oder
optimalen Lösung in einem umfangreichen Suchraum darstellen. Breadth-first
und depth-first Strategien durchlaufen den Baum aufgrund topologischer
Kriterien. Heuristische Suchen dagegen basieren auf einer Bewertungsfunktion, welche den bisher untersuchten Lösungen Qualitätswerte zuweist. In der
best-first Strategie verfolgt der Algorithmus dann zuerst vielversprechende
Zweige mit hohen Qualitätswerten. Dadurch kann häufig die Anzahl der zu
durchlaufenden Lösungen verringert werden. Darin liegt auch ein Unterschied
zum Crawling im Web, bei dem es meist um eine vollständige Analyse des
durch Hypertext-Verbindungen vorgegebenen Raumes geht.
NAJORK & WIENER 2001 zielen in ihrer Untersuchung zwar auf eine vollständige Abdeckung des Internets ab, räumen aber ein, dass dieses Ziel aufgrund der technischen Restriktionen nur schwer zu erreichen ist. Als Konsequenz sollen zumindest hochwertige Seiten bevorzugt und sehr früh in den
Index integriert werden. Somit hätte eine Suchmaschine diese besten und
damit wichtigsten Seiten schnell bzw. sehr aktuell zur Verfügung.
NAJORK & WIENER 2001 gelangen nach einem Download von 500 Millionen
Seiten über 58 Tage zu dem Schluss, dass eine breadth-first-Strategie zum
schnellen Erreichen von Seiten mit hohen PageRank-Werten führt. Im Verlauf
des Sammelns der Seiten sank der Durchschnitt der PageRank-Werte der
gefundenen Seiten stetig. Während der ersten drei Tage lag der Durchschnitt
der PageRank-Werte der an diesem Tag durchlaufenen Seiten über eins und
ab dann darunter. Am ersten Tag war der Wert mit 7,04 noch mehr als
dreimal so hoch wie mit 2,07 am zweiten Tag. Zwar räumen die Autoren ein,
dass best-first-Suchen mit PageRank als Bewertungsfunktion noch zur
Verstärkung dieses Effekts führt, jedoch rechtfertige der hohe Aufwand der
PageRank-Berechnung dieses Vorgehen nicht.
Setzt man allerdings PageRank sowohl zur Vorgabe der Richtung des crawls
als auch als Maßstab für die Qualität der gefundenen Seiten ein, dann ist das
Vorherrschen der hoch gewichteten Seiten zum Beginn keine Überraschung
und die Argumentation dreht sich im Kreis. Gleichwohl überrascht die
Deutlichkeit des Effekts und sein Auftreten bei einer breadth-first-Strategie.
Damit sagt das Experiment von NAJORK & WIENER 2001 sehr viel über die
Link-Struktur des Internets aus. Vor allem bestätigt es die Aussagen von DILL
ET AL. 2001 über die Existenz eines untereinander stark verknüpften Bereichs,
von dem aus sich Seiten untereinander sehr schnell erreichen lassen (siehe
Abschnitt 7.7.3). In diesem Nukleus herrschen offensichtlich auch hohe
PageRank-Werte vor.
MENCZER ET AL. 2001 dagegen suchen eine Richtlinie für das Sammeln von
thematisch verwandten Seiten. Ihre crawling-Strategie soll als Grundlage für
138
die Beantwortung von Anfragen dienen oder kann Suchmaschinen bedienen,
die auf bestimmte Themen spezialisiert sind. Dies erweist sich allerdings als
schwierig, wie etwa die Untersuchungen von CHAKRABARTI ET AL. 2002
zeigen. Die Autoren sammeln Internet-Seiten und folgen zufällig gewählten
Links. Die Ausgangspunkte dieser Walks sind thematisch unterschiedliche
Seiten, welche die Autoren aus Verzeichnisdiensten gewinnen. Nach einigen
Tausend durchlaufener Seiten ähnelten sich die Inhalte der gesammelten
Seiten immer stärker. CHAKRABARTI ET AL. 2002 messen die inhaltliche
Ähnlichkeit anhand der Distanz im Vektorraum-Modell. Trotz der unterschiedlichen Ausgangspunkte weisen die Seiten nach einigen Tausend Schritten immer weniger Unterschiede auf. Obwohl die meisten Links zwischen
thematisch verwandten Seiten verlaufen (siehe Abbildung 7.10), verliert sich
diese Ähnlichkeit nach dem Verfolgen vieler Links.
MENCZER ET AL. 2001 testen drei Crawling-Strategien, die sie anhand von
drei ähnlichen Evaluierungsmethoden vergleichen. Die Evaluierung orientiert
sich an der thematischen Nähe der besuchten Seiten.
Eine Methode basiert auf Text-Kategorisierung und misst, wie gut ein Klassifizierer Seiten aus dem Internet dem Thema zuordnen kann. Der Klassifizierer wurde vorher mit einer Grundmenge von intellektuell zugeordneten
Seiten trainiert. Dazu wurden pro Thema 100 Seiten analysiert bzw. aus
einem thematisch gegliederten Web-Katalog entnommen1.
Eine weitere Evaluierungsmethode nutzt ein Retrieval-System. Die Anfrage
entsteht aus den Seiten, auf die ein thematischer Ast in dem Verzeichnisdienst
Yahoo verweist. Diese Anfrage vergleicht das System mit den in einem crawl
gesammelten Seiten. Das Ranking entspricht dann der Übereinstimmung der
Seiten mit dem Thema und gibt somit ein Maß für die Qualität der crawlingStrategie.
Ähnlich wie in der letzten Methode messen MENCZER ET AL. 2001 zuletzt die
durchschnittliche Ähnlichkeit der Dokumente zu dem Anfrage-Vektor als
Kosinus im Vektor-Raum. Dabei wird als Gewichtung die inverse DokumentHäufigkeit eingesetzt.
Die drei Sammelstrategien stellen im Grunde alle best-first-Verfahren dar,
deren Bewertungsfunktionen aber unterschiedlich sind. Eine inhaltlich
orientierte Strategie benutzt die Ähnlichkeit der Dokumente zu dem AnfrageVektor wie sie in der dritten Evaluierungsstrategie eingesetzt wurde. Eine
1
Ein ähnliches Verfahren zur thematischen Zuordnung benutzt HAVELIWALA 2002. Die
Qualität von Text-Kategorisierungsverfahren für die in thematisch gegliederten WebKatalogen enthaltenen Seiten untersuchen KLAS & FUHR 2000 und CHAKRABARTI 1998.
139
weitere crawling-Strategie nutzt PageRank und die dritte eine Kombination
aus sich verändernden Anfrage-Vektoren, Agenten und neuronalen Netzen
sowie evolutionären Algorithmen.
Bei allen Evaluierungsmethoden erweist sich die erste Strategie als die beste.
Dies ist nicht überraschend, da ihre richtungsgebende Funktion die gleiche
Ähnlichkeit benutzt wie die Evaluierungsverfahren. Auffällig erscheint aber,
dass PageRank weit hinter die anderen Verfahren zurückfällt.
Die Analyse der thematischen Nähe von Seiten zeigt somit die Grenzen von
PageRank auf. PageRank führt beim Experiment von NAJORK & WIENER
2001 noch zu einer erstaunlichen Regelhaftigkeit und erhält somit eine gewisse Rechtfertigung. Das Streben nach inhaltlicher Kohärenz lässt sich mit diesem Instrument der Link-Analyse nicht garantieren, so dass sich für die
Anwendung im Information Retrieval aus dieser Perspektive keine Argumente ergeben.
Für neue Qualitätsmetriken ergeben sich unterschiedliche Anwendungsszenarien:
• Zum einen kann sich ein best-first crawl an den Qualitätswerten der bereits besuchten Seiten orientieren und davon ausgehend weitere untersuchen. So kann gewährleistet werden, dass Seiten, welche nach diesen
Qualitätsmetriken als hochwertig gelten, verstärkt in den Index
aufgenommen werden. Dabei ist eine schnelle und einfache Berechnung der Qualität entscheidend. Optimalerweise orientiert sich eine
Definition der Qualität an Kriterien, welche in der Seite lokal bestimmt
werden können. Selbst wenn diese letztendlich zu ähnlichen Ergebnissen führen wie PageRank oder andere Linkmaße, so überwindet die
lokale Berechenbarkeit eine Schwelle, die zum praktischen Einsatz von
quality-first Strategien führen kann.
• Zum anderen kann eine Qualitätsdefinition zur Evaluierung von
crawling Strategien dienen. Dabei können die besuchten Seiten ähnlich
wie bei NAJORK & WIENER 2001 analysiert werden. Damit lässt sich
feststellen, inwieweit sich die jeweilige Strategie dazu eignet, frühzeitig
auf qualitativ hochwertige Seiten zu stoßen.
6.5
Evaluation von Institutionen und Personen
Der Einsatz von Systemen zur automatischen Bewertung von Qualität von
Internet-Seiten kann auch Selbstzweck sein. Die Ergebnisse entsprechender
Systeme können wie die Ergebnisse traditioneller szientometrischer Analysen
weitergegeben und benutzt werden. Zu den möglichen Einsatzgebieten zählt
140
auch die Evaluierung von Institutionen und Personen, also die Übertragung
von Werturteilen über elektronische Objekte auf die Urheber oder diejenigen,
die sie ins Netz stellen. So kann sich etwa eine Firma mit ihren Konkurrenten
vergleichen. Werbetreibende können versuchen, durch geeignete Maßnahmen
die besten Werbeträger für sich im Internet zu finden. So erfolgt die Abrechnung von Werbeleistungen bereits häufig auf Basis der Wirkung, die unter
anderem anhand der Zugriffshäufigkeit über den Werbelink abgeschätzt wird
(cf. BÜRLIMANN 2001).
Scheinbar einfache Maßstäbe, die zu klaren und numerischen Aussagen
führen, sind bei Entscheidungsträgern oft beliebt, da sie bei der schwierigen
Aufgabe der Evaluation unterstützen. Die Auswertung von Zitationen in
wissenschaftlichen Publikationen sollte ursprünglich das Information Retrieval verbessern, heute gelten v.a. die vom Institute for Scientific Information
(ISI)1 berechneten Wichtigkeitsfaktoren (impact factors) für unterschiedliche
Publikationen als entscheidende Qualitätsmerkmale für z.B. Zeitschriften und
die darin enthaltenen Artikel und ihre Autoren (BALL & TUNGER 2005, siehe
Abschnitt 7.2).
Ein Beispiel dafür bietet etwa die Untersuchung von THELWALL & HARRIES
2003, die starke Korrelationen zwischen der Anzahl von In-Links von Universitätsseiten und einem davon unabhängig erstellten Hochschulranking einer
Zeitung erkennt.
In den letzten Jahren gewinnen auch Systeme zur Sammlung von ProduktBewertungen im Internet an Bedeutung. Idealerweise kann jeder Benutzer ein
Produkt oder einen Partner bewerten und jeder andere Benutzer kann vor
einem Kauf die Bewertung des Produkts oder des Verkäufers abrufen. Ein
Verfahren zur Sammlung von Produktbewertungen stellen DAVE ET AL. 2003
vor. Die Integration mehrerer Meinungen behandeln LIU ET AL. 2005. Im
Konstanzer Lehr- und Lernsystem K3 werden Diskussionsbeiträge von Studierenden bestimmten Rollen (Rechercheur, Zusammenfasser, Präsentator)
zugeordnet und nach quantitativen und qualitativen Aspekten automatisch
bewertet (SEMAR 2005).
Da bereits mehrere Systeme die Qualität automatisch bewerten, sind weitergehende Anwendungen nur eine Frage der Zeit. Gerade deshalb ist die wissenschaftliche Bearbeitung dieses Themas so wichtig. Ausgewogene Systeme,
die Grenzen der Ergebnisse und ihre Interpretation müssen gründlich erarbeitet werden.
1
http://www.isinet.com/
141
Hierin steckt erhebliches Gefahrenpotenzial v.a. durch die Möglichkeiten der
Manipulation. Das Wissen über die Funktionsweise von Retrieval-Systemen
kann bereits jetzt kommerziell verwertet werden. Berater schlagen Modifikationen von Internet-Seiten vor, die dazu führen sollen, dass die Seiten von
Internet-Suchmaschinen höher bewertet werden und so öfter in der
Ergebnisliste erscheinen. Davon versprechen sich viele Anbieter einen Wettbewerbsvorteil.
142
Automatische Qualitätsbewertung durch Link-Analyse
7. Automatische
Analyse
Qualitätsbewertung
durch
Link-
Die automatische Qualitätserkennung oder zumindest die Qualitätsabschätzung hält bereits seit einigen Jahren mehr oder weniger unbemerkt
Einzug in zahlreiche experimentelle und auch in einige im Einsatz befindliche
Informationssysteme. Dabei haben sich besonders Verfahren zur LinkAnalyse im Internet etabliert. Aufgrund ihrer Bedeutung wird der LinkAnalyse ein eigenes Kapitel gewidmet, während andere Verfahren im
folgenden Kapitel vorgestellt werden.
In der diskutierten Literatur zur automatischen Qualitätserkennung taucht
weder der Qualitätsbegriff immer explizit auf, noch ordnen die Autoren ihre
Arbeit immer unter diesem Gesichtspunkt in die Forschung ein1. Die Ansätze
stammen vorwiegend aus den folgenden Gebieten:
• Information Retrieval: Analyse von
Verbesserung des Retrieval im Internet
Hypertext-Elementen
zur
• Web-Structure-Mining: Analysen der Linkstruktur im Internet zur
Darstellung von größeren Zusammenhängen und der Erstellung von
globalen, quantitativen Modellen
• Mensch-Maschine-Interaktion: Automatische oder zumindest formale
Analyse und Bewertung der Qualität von Internet-Seiten als Benutzungsoberflächen
Die automatische Bewertung von Qualität im Sinne von Autorität ist am
weitesten verbreitet und kann bereits als Standard-Verfahren im Bereich des
Web Information Retrieval gelten (für einen Überblick cf. BAEZA-YATES &
RIBEIRO-NETO 1999:380f., HENZINGER 2000, BORODIN ET AL. 2001). Die
Autorität basiert im Wesentlichen auf der Anzahl der Verbindungen, die auf
eine Seite verweisen. Die Popularität dieses Ansatzes hat mehrere Gründe:
1
Eine Ausnahme stellt der wegweisende Artikel dar, in dem erstmals der PageRank-Algorithmus vorgestellt wurde. PAGE ET AL. 1998:2 konstatieren die Ausgangssituation für
Information Retrieval im Internet wie folgt: „The average web page quality experienced
by a user is higher than the quality of the average web page. This is because the
simplicity of creating and publishing web pages results in a large fraction of low quality
web pages that users are unlikely to read.“
143
• Die Grundidee besitzt Plausibilität und erzeugt durch ihre Einfachheit
den Anschein hoher Transparenz1.
• Die Verbindungen einer Seite lassen sich technisch relativ einfach
extrahieren und analysieren. Damit lässt sich das Informationsverhalten
von Autoren von Web-Seiten im großen Umfang beobachten und ihre
Präferenzen auswerten.
• Ein Link kann vereinfacht wie ein Zitat behandelt werden und somit
kann die Untersuchung der Autorität im Internet mit der Bibliometrie
auf eine etablierte Wissenschaft und ihre Methoden zugreifen.
Die folgenden Abschnitte betonen auch die Nachteile der Link-Analyse,
welche dann das Fazit zusammenfasst. Sie beruhen auf vereinfachenden und
bedenklichen Annahmen über Benutzerverhalten und Eigenschaften der LinkMatrix und äußern sich in der Evaluierung der Link-Analyse-Verfahren im
Information Retrieval.
Die Link-Analyse nimmt im Rahmen der oben vorgestellten Taxonomie
(MARCHAND 1990) von Qualitätsdefinitionen eine Sonderstellung ein. Oberflächlich betrachtet erscheint sie als ein produkt-orientierter Definitionsansatz.
Jedoch stellt die Anzahl der auf eine Seite verweisenden Links lediglich
formal eine Eigenschaft der Seite dar. Diese Eigenschaft ist nicht in der Seite
selbst angelegt, die Links werden als subjektive Urteile interpretiert, so dass
die Link-Analyse damit Merkmale benutzer-orientierter Definitionen aufweist. Die Entscheidungen stammen jedoch von einer sehr kleinen Gruppe
von Benutzern - den Autoren von Web-Seiten - und spiegeln deren besondere
und untypische Benutzungssituation dar. Die meisten Autoren in diesem
Umfeld scheinen transzendente Definitionsansätze zu präferieren. Demnach
existiert eine objektive und absolute Qualität, welche durch geeignete Algorithmen der Link-Analyse gemessen wird. Die folgenden Abschnitte stellen
die wichtigsten Algorithmen und ihre neueren Varianten vor.
Link-Analyse lässt sich auch als Teilgebiet der Graphentheorie einteilen. Die
Graphentheorie ist eine Teildisziplin der Algebra, die sich mathematisch mit
netzwerkartigen Strukturen befasst (BOSE & LIANG 1996). Das Internet kann
als derartiges System interpretiert werden, wobei der Inhalt der Seiten völlig
1
Eingehende Links und häufige Besuche gelten auch in nicht-kommerziellen und nichtwissenschaftlichen Umgebungen als erstrebenswert und werden quasi als Währung
akzeptiert: „In the world of weblogs, traffic is currency. ... Links - to and from other sites
- are the coin of the realm.“ (BLOOD 2002:XI)
144
vernachlässigt wird. Die Dokumente gelten als Knoten (oder units) und die
Links als Verbindungen (oder connections). Ein Netzwerk mit Knoten und
Verknüpfungen lässt sich auch als Matrix darstellen, wie Abbildung 3.2 zeigt.
7.1
Der PageRank-Algorithmus
PageRank benutzt die Anzahl der Links, die auf eine Seite verweisen als
Parameter für sein Qualitätsmaß. Laut Aussagen der Betreiber nutzt die
Suchmaschine Google den PageRank-Algorithmus1, der aufgrund der hohen
Popularität von Google als umfangreichste und erfolgreichste Implementierung automatischer Qualitätsbewertung gelten kann. Der schnelle und große
Erfolg von Google lässt sich damit eventuell teilweise auf die Bewertung der
Qualität zurückführen. PageRank summiert nicht nur die Links auf eine Seite,
sondern gewichtet Links von Seiten mit bereits hoher Qualität stärker.
Zunächst erhalten alle Seiten das gleiche Gewicht als Verteiler. Das bedeutet,
dass die Autorität, die eine verweisende Seite gewissermaßen vergeben kann,
an der Anzahl der ausgehenden Links relativiert wird. Das Gewicht wird also
durch die Anzahl der Links dividiert um zu verhindern, dass eine Seite mit
vielen Links im Endeffekt stärkeren Einfluss auf das Gesamtergebnis nimmt,
(PAGE ET AL. 1998). Darüber hinaus wird der Einfluss einer Seite auch mit
deren Autorität relativiert. Je größer die Autorität einer Seite ist, desto
höheres Gewicht haben die von ihr ausgehenden Links. Der Algorithmus
arbeitet iterativ. Zunächst werden alle Seiten mit dem gleichen Autoritätswert
initialisiert und dann berechnet der erste Schritt die neue Autorität aller Seiten
aus der Verlinkung. Dabei ergeben sich neue Autoritätswerte, so dass alle
Werte nun erneut berechnet werden und das Ergebnis die angestrebte Autorität besser wiedergibt (siehe auch BAUER 2003).
Die folgende Abbildung zeigt einen Schritt bei der Berechnung von
PageRank.
1
http://www.google.com, http://www.google.de
145
100
53
50
53
50
9
3
50
25
3
25
3
Abb. 7.1: Berechnung von PageRank nach PAGE ET AL. 1998
Die Formel für den PageRank-Algorithmus lautet:
R( p) =
α
n
+ (1 − α ) •
R(q)
∑ outlinks(q)
( q, p)
R( p)
PageRank von Seite p
α
(nach HENZINGER 2000:2f.)
Parameter ( zwischen 0,1und 0,2)
n
Zahl der Seiten im Graph
(q, p) Seiten q mit Link zu Seite p
outlinks (q) Zahl der out − Links von Seite q
In der ursprünglichen Formel von PAGE ET AL. 1998:3 ist der Parameter vor
der Summe noch nicht abhängig von der Anzahl der Seiten im untersuchten
Graph. Die Berechnung kann auch als Funktion der Verbindungsmatrix des
Internets (bzw. des untersuchten Ausschnitts) betrachtet werden. Im iterativen
Ablauf wird dann bei jedem Schritt der PageRank-Vektor neu aus dem
vorherigen PageRank-Vektor sowie der Verbindungsmatrix berechnet.
146
r
R = f (ℜ)
r
r
R ' = f ( R , ℜ)
r
R
PageRank − Vektor über alle Seiten
ℜ
Verbindungsmatrix zwischen allen Seiten
Laut den Autoren konvergiert der Algorithmus nach einer Anzahl von
Schritten (cf. PAGE ET AL. 1998), d.h. bei einem weiteren Berechnungsschritt
verändern sich die Autoritätswerte kaum mehr. Der PageRank-Vektor kann
also auch durch wiederholtes Multiplizieren mit der Verbindungsmatrix
berechnet werden. Der konvergierte PageRank-Vektor bildet also die Lösung
zu folgender Gleichung:
r r
R = R x ℜ (nach HAVELIWALA 2002:3)
Dieser Vektor ergibt nach einer Multiplikation mit der Verbindungsmatrix
also wieder sich selbst. Einen Vektor mit dieser Eigenschaft bezeichnet man
als Eigen-Vektor der Matrix.
Der Autoritätswert wird für das Berechnen des Rankings der Dokumente nach
einer Anfrage benutzt (cf. PAGE ET AL. 1998). Viele Autoren sprechen von
einer Summierung der Link-Maße und der auf Basis des Inhalts berechneten
Retrieval Status Value.
Der PageRank-Algorithmus benutzt auf den ersten Blick sehr plausible
Annahmen, um die Autorität und damit die Qualität einer Seite zu berechnen.
Allerdings arbeitet er rein auf der Ebene der Seite und berechnet z.B. keine
Autorität für eine gesamte Site. So kann es passieren, dass eine qualitativ sehr
gute Site insgesamt hohe Werte erreicht, dass allerdings auf die darin
enthaltene Linksammlung wenig verwiesen wird und sie dadurch keine hohe
Autorität zugewiesen bekommt.
147
PageRank-Wert
der Zielseite
PageRank-Werte der
Ausgangsseiten
100%
0%
Anzahl der
eingehenden
Links
Abb. 7.2: Funktionsweise PageRank
PAGE ET AL. 1998 bemerken bereits die Bedeutung des PageRank-Wertes für
das Browsing und entwickelten das Random Surfer-Modell. Der PageRankWert gibt in diesem Modell die Wahrscheinlichkeit wieder, mit der ein Surfer
auf eine Seite trifft, wenn er für lange Zeit Hypertext-Verbindungen verfolgt
und nie auf eine bereits besuchte Seite zurückkehrt. Zudem springt er nach
einer bestimmten Anzahl von Schritten zufällig auf eine beliebige Seite. Diese
Zufallswahrscheinlichkeit wird im ersten Summand der PageRank-Formel angegeben. Sie beträgt einen kleinen Wert α, der durch die Anzahl der Seiten
dividiert wird. Dieser sogenannte Teleportations-Parameter gewinnt in
Abschnitt 7.7 bei der Vorstellung von Varianten des Algorithmus noch an
Bedeutung.
Diese Idee des Random Walk basiert auf einem einfachen Modell des Browsing, bei dem ein Benutzer immer zufällig einen Link aus einer Seite
auswählt. Seiten, auf die häufig verlinkt wird, haben dabei eine höhere Trefferwahrscheinlichkeit. Und auch diese Wahrscheinlichkeit hängt wiederum
davon ab, wie häufig auf diese Seite verlinkt ist. In der Suchmaschine Google
wird der PageRank-Wert einer Seite mit der System-Relevanz kombiniert.
Die Wahrscheinlichkeit des Treffens auf einer Seite beim Browsing wird also
148
auf die Suche übertragen. Das Random Surfer-Modell stellt jedoch ein zu
einfaches Modell des Benutzerverhaltens dar.
Darüber hinaus beruhen die Algorithmen der Link-Analyse auf weiteren
scheinbar plausiblen Annahmen über das Benutzerverhalten, die sich jedoch
bei genauerer Betrachtung als problematisch erweisen1. So ist es unwahrscheinlich, dass ein Autor einer Internet-Seite vor dem Setzen eines Links
eine eingehende, qualitative Überprüfung der Zielseite vornimmt. Bedenkt
man allein die große Anzahl von Seiten und darin enthaltenen Links, so ist
eine Qualitätsprüfung zeitlich fast unmöglich. Weiterhin dienen zahllose
Links lediglich der Navigation. Für wissenschaftliche Aufsätze weisen NIE ET
AL. 2005 auf die unterschiedlichen Rollen von eingehenden Links hin.
Links stellen also bei weitem nicht immer eine positive Bewertung dar,
vielmehr bietet die Forschung sogar Gegenbeispiele.
• AGRAWAL ET AL. 2003 zeigen etwa, dass Links innerhalb von
Newsgroups meist eine negative Einschätzung zum Ausdruck bringen.
In der sozialen Struktur einer online-Diskussion besteht eine starke
Tendenz, dann auf einen Beitrag zu antworten, wenn man nicht mit ihm
übereinstimmt. Mit dem Widerspruch verbinden Autoren dann auch
meist ein negatives Qualitätsurteil. Der aus einem Beitrag resultierende
Link in einer Benutzungsoberfläche im Internet kann also nicht als
positives Qualitätsurteil gelten.
• XUE ET AL. 2003 stellen ein System zur Verbesserung von LinkAnalyse-Verfahren für kleine Mengen von Web-Seiten vor. Im Rahmen
ihrer Studie ließen die Autoren für eine kleine Menge von Seiten aus
einer Site die Links intellektuell bewerten. Dabei waren lediglich 39%
aller Links als positive Bewertung (recommendation links) zu werten
(XUE ET AL. 2003:59).
7.2
Grundlage Bibliometrie
Die Grundideen dieser Analysen der Verlinkungsstruktur stammen aus der
Biblio- oder Szientometrie, die das Netzwerk der wissenschaftlichen Zitate
analysieren und darauf abzielen, Publikationen aufgrund der Häufigkeit der
auf sie verweisenden Zitate zu bewerten (BALL & TUNGER 2005).
1
Diese bedenkliche Grundannahme formulieren etwa XUE ET AL. 2003:57 ganz explizit:
„For the global Web, the recommendation assumption is generally correct, because
hyperlinks encode a considerable amount of author´s judgement.“
149
Komplexere Maße betrachten z.B. die Stellung eines Autors im DiskursNetzwerk und berücksichtigten über die Zitate hinaus die institutionelle Zugehörigkeit und Ko-Autorenschaft (cf. MUTSCHKE 2001). Andere komplexere
Analysen errechnen aus den Häufigkeiten von Zitaten Maßzahlen für das
Renommee von Zeitschriften, Tagungen oder Fachbereichen (cf. z.B.
SCHLÖGL 2000). Der Marktführer für solche Analysen ist das Institute for
Scientific Information (ISI1). Vor allem in der nordamerikanischen Hochschullandschaft wirken die bibliometrischen Maßzahlen als wichtiger Faktor
in Beschäftigungsverhältnissen von Professoren. In Deutschland werden sie
eher kritisch betrachtet und spielen keine so große Rolle. Dies liegt an den
unterschiedlichen Werten in den Kulturen. Während die USA stark
individualistisch geprägt ist, legen die deutsche und noch stärker einige
asiatische Kulturen Wert auf die Gemeinschaft und die Beziehung zwischen
Mitgliedern von Gruppen. Dementsprechend bewerten individualistische Kulturen Strategien wie pay for performance als gerecht, während kollektivistische Kulturen solche Management-Ansätze als wenig ausgewogen ablehnen (TROMPENAARS & HAMPDEN-TURNER 1997:4f.).
Einige Maße der Bibliometrie entstammen der Netzwerkanalyse (JANSEN
2003). Ein Maß ist etwa die Zentralität, die sich als der Anteil der Knoten berechnet, mit der ein bestimmter Knoten direkt verbunden ist (DHYANI ET AL.
2002).
Einen Überblick über die Übertragung von bibliometrischen Maßen und
Verfahren auf Internet-Dokumente liefern CHOO ET AL. (2000:142ff). Die
technischen Möglichkeiten der online Verfügbarkeit von wissenschaftlicher
Literatur führt dazu, dass bibliometrische Analysen heute Teil von kostenlos
zugänglichen digitalen Bibliotheken sind2.
7.3
Überblick über Algorithmen zur Link-Analyse
Die zahlreichen Algorithmen zur Link-Analyse lassen sich nach folgenden
Kriterien einteilen:
• Global (query independent) und nachbarschaftsbezogen (query
dependent, vincinity oder neighborhood algorithms)
1
http://www.isinet.com/isi/
2
Entsprechende Kennzahlen sind z.B. in Daffodil (http://www.daffodil.de) und dem CiteSeer Research-Index (http://citeseer.ist.psu.edu/cs, LAWRENCE ET AL. 1999) integriert.
150
• Anzahl der Qualitätswerte (meist ein oder zwei Maße, authority und
evtl. auch hub)
• Behandlung lokaler Links (Verbindungen innerhalb des gleichen
Servers)
• Art der Kombination mit RSV
Globale Ansätze beanspruchen ihre Gültigkeit für das gesamte ihnen bekannte
Internet und führen die Link-Analyse offline durch. Dagegen beschränken
Neighborhood-Algorithmen ihre Berechnungen auf kleine Ausschnitte des
Internets (z.B. erweiterte Suchmaschinen-Ergebnisse) und führen die Analyse
nur bei Bedarf durch (etwa bei einer Suchanfrage).
In der Regel bestimmen die Link-Analyse-Algorithmen einen Qualitätswert.
Der Kleinberg-Algorithmus (KLEINBERG 1998) und seine Varianten
unterscheiden zwei Rollen für Internet-Seiten und definieren einen Wert für
jede Rolle. Demnach besitzt jede Seite einen Wert für ihre Qualität als
Authority oder Inhalt und für ihre Qualität als hub oder Verweisseite (siehe
folgender Abschnitt).
Die Verknüpfungen zwischen Seiten innerhalb einer Site dienen in erster
Linie der Navigation. Selbst wenn es sich um positive Bewertungen handelt,
so stammen diese oft vom gleichen Autor oder zumindest der gleichen
Institution. Damit scheiden sie als unabhängiges Qualitätsurteil aus und
sollten wie Eigen-Zitate in bibliographischen Analysen nicht berücksichtigt
werden. Die Erkennung solcher Links ist aber nicht völlig trivial und nicht
immer eindeutig möglich, so dass sie nicht jedes Verfahren aussortiert. Dies
wird auch nicht immer erwähnt. Der originale PageRank-Algorithmus hat
diese Links innerhalb von Sites zugelassen.
Die wichtigste Anwendung der Link-Analyse liegt in der Ergänzung von
Information Retrieval-Systemen (Suchmaschinen) um Qualitätsaspekte. Dazu
wird ein Wert für die Relevanz jedes Dokuments berechnet und ein Wert für
die Qualität jedes Dokuments. Im Gesamtergebnis wirken diese beiden Werte
je nach Implementierung unterschiedlich zusammen. Die Fusion unterschiedlicher Evidenzwerte für die Relevanz eines Dokuments hat im Information
Retrieval bereits Tradition, so dass hier auf umfangreiche Forschungsergebnisse zugegriffen wird (siehe Abschnitt 12.1).
Eine andere Art der Integration von Links stellen SUGIYAMA ET AL. 2003 vor.
Die Größe des Dokuments, das dem Benutzer präsentiert werden soll, stellt
die Entwickler immer wieder vor Fragen. Zwar wird meist das originale
Dokument präsentiert, so es wie vom Autor erstellt wurde, jedoch existieren
151
auch Systeme, die größere oder kleinere Einheiten liefern. Das sogenannte
Passage Retrieval extrahiert kleinere Einheiten aus großen Dokumenten und
dient unter anderem der Extraktion einer Antwort auf eine Faktenanfrage wie
im Question Answering (cf. HARABAGIU & MOLDOVAN 2003). Im Rahmen
der INEX-Initiative geht es gerade um die Extraktion des kleinstmöglichen
Teils eines Dokuments, das aber einen hohen Relevanzwert besitzt (cf. FUHR
ET AL. 2003). Dagegen zielt der Ansatz von SUGIYAMA ET AL. 2003 zumindest
für die Indexierung auf eine Vergrößerung des Dokuments hin. Für die
Extraktion der Terme und die Berechnung der Termhäufigkeit sowie der
inversen Dokumentfrequenz fügen die Autoren SUGIYAMA ET AL. 2003 dem
Ausgangsdokument die mit ihm verlinkten Dokumente hinzu. Dies geschieht
in beiden Richtungen in bis zu zwei Schritten, so dass sowohl Seiten, die in
der Ausgangsseite als Link enthalten sind, hinzugefügt werden, als auch
Seiten, die auf die Ausgangsseite verweisen. Die Linkanalyse definiert in
diesem Verfahren also die Größe des Dokuments.
7.4
Maße mit zwei Rollen
Der HITS- (Hyperlink Induced Topic Search) oder Kleinberg-Algorithmus
gilt als Vorläufer des PageRank-Algorithmus. Kleinberg zielt ebenfalls auf
Autorität ab und berücksichtigt nur die Verbindungsstruktur zwischen einer
Menge von Seiten. Er führt zwei Rollen ein, um die Autorität zu bewerten
(KLEINBERG 1998). Der sogenannte HITS-Algorithmus (Hyperlink Induced
Topic Search) spricht von Hubs und Authorities und weist jeder Web-Seite
ein Gewicht für beide Rollen zu. Ein Hub entspricht einem Mittelpunkt oder
Verteiler, dessen Aufgabe im Wesentlichen in der Bereitstellung von
Verbindungen zu anderen Seiten besteht. Dahinter steht die Vorstellung eines
Clearinghouses oder in der Wissenschaft der eines guten Überblicksartikels.
Ein hoher Hub-Wert kennzeichnet also einen guten Informationsvermittler.
Die Authorities dagegen enthalten die eigentliche Information in unterschiedlicher Qualität.
Im Gegensatz zum PageRank-Algorithmus findet das Verfahren von
Kleinberg nur Anwendung auf eine Menge von ca. 5000 bis 10.000 Seiten,
die aus einer Suchanfrage ermittelt werden. Die besten Suchergebnisse eines
Suchdienstes werden analysiert und die enthaltenen Verbindungen extrahiert.
Die entsprechenden Seiten gelangen bis zu einer bestimmten Tiefe in den
Datenbestand. Die Verbindungen innerhalb dieser Menge werden nun iterativ
analysiert. Jede Seite besitzt sowohl ein Gewicht als Hub als auch als
Authority, die in jedem Durchlauf modifiziert werden. Die Autorität einer
Seite steigt mit der Anzahl der ankommenden Verbindungen. Diese Zahl wird
152
aber mit dem Hub-Gewicht der Ausgangsseite relativiert. Nur die Links von
guten Verteilern wirken sich somit stark auf die Autorität einer Seite und
damit auf das Authority-Gewicht aus. Ebenso unterliegt das Hub-Gewicht
einer Veränderung, die von der Autorität der Zielseiten abhängt. Auf je
bessere Seiten der Verteiler verweist desto besser ist er und desto stärker
steigt sein Hub-Gewicht. Ziel ist die Identifikation der Seiten mit der höchsten
Autorität innerhalb der Untermenge.
erweiterte Menge
SuchmaschinenTreffer
Abb. 7.3: Ermittlung der Untermenge für den Kleinberg-Algorithmus
A( p ) =
∑ H (q )
(q, p)
H ( p) =
∑ A(q)
(q, p)
(nach HENZINGER 2000:4f.)
H ( p) hub − Wert von Seite p
A( p ) authority − Wert von Seite p
Auch der HITS-Algorithmus lässt sich als Funktion der Verbindungsmatrix
ausdrücken.
153
r
r
A = f ( H , ℜ)
r
r
H = f ( A, ℜ)
ℜ
Verbindungsmatrix zwischen allen Seiten
Die folgende Abbildung 7.4 zeigt schematisch die Funktionsweise von HITS.
100%
authority
hub
0%
Inhalt
link
link
link
Abb. 7.4: Der HITS-Algorithmus als gegenseitige Verstärkung von Hub- und
Authority-Gewicht
Die Trennung von Hub- und Authority-Werten wirkt sehr plausibel, jedoch
besitzt der HITS-Algorithmus einige Schwächen. In dieser Richtung wurden
weitere Algorithmen entwickelt.
Der Algorithmus birgt die Gefahr der weiten thematischen Entfernung durch
die Integration weiterer Seiten neben dem eigentlichen Suchergebnis. Diese
können von dem Thema, das mit der Suchanfrage verbunden ist, schon weit
entfernt liegen. Sind dies sehr viele oder stark untereinander verlinkte Seiten,
dann besteht die Gefahr, dass die Autoritäten für ein anderes Thema als das
154
der ursprünglichen Suchanfrage gefunden werden (topic-drift, cf. LEMPEL &
MORAN 2000).
Der Kleinberg-Algorithmus ist also immer kontextabhängig und somit wirken
auch die Besonderheiten der jeweiligen Themen. So unterscheiden sich die
Absolutwerte sicherlich abhängig von der Datenmenge und reflektieren damit
das unterschiedliche Link-Verhalten der jeweils beteiligten Autoren. Ebenso
kennt die Bibliometrie unterschiedliches Zitierverhalten in den Wissenschaften. Allerdings bleiben einige Verteilungen nach den Untersuchungen von
DILL ET AL. 2001 eben auch konstant, so etwa die Zahl der Links pro Seiten
und die Verteilung von In- und Out-Links über alle Seiten. Übrigens konnte
KLEINBERG 1998 beweisen, dass eine Seite weder nach dem ersten noch nach
dem letzten Schritt sowohl Hub als auch Authority sein kann. Somit sind die
intuitiv einsichtigen Rollen auch formal gerechtfertigt. SALSA (Stochastic
Approach for Link-Structure Analysis, LEMPEL & MORAN 2000) analysiert
wie HITS die Links einer anfrageabhängigen Menge von Seiten und löscht
ebenso die Links innerhalb von Sites. Im Gegensatz zu HITS und auch
PageRank berechnen LEMPEL & MORAN 2000 die Werte nicht iterativ. Der
Authority-Wert einer Seite im SALSA-Algorithmus ergibt sich lediglich aus
der Anzahl der In-Links normalisiert an der Zahl aller In-Links im Graphen.
Analog ergibt sich der Hub-Wert als Zahl der ausgehenden Links normalisiert
an der Zahl aller ausgehenden Links im root set.
B(i )
F (i )
hub(i ) =
B
F
Anzahl In − Links
Anzahl ausgehende − Links
authority (i ) =
B
F
Eine weitere Modifikation führen BORODIN ET AL. 2001 ein. Sie sehen ein
Problem von HITS darin, dass auch sehr schlechte Seiten immer noch einen
positiven Beitrag leisten und somit in einem gewissen Maße Quantität mehr
zählt als Qualität. Verweisen etwa zwei Hubs A und B auf zehn sehr gute
Authorities und Hubs B noch zusätzlich auf zwei sehr schwache AuthoritiySeiten, so gilt intuitiv B als der schlechtere Hub, weil er zusätzlichen Noise
einführt und nicht ausschließlich auf beste Seiten verweist wie der Hub A.
HITS bewertet aber B als den besseren Hub. Dieses kontra-intuitive Ergebnis
vermeiden BORODIN ET AL. 2001 durch die Bildung des Durchschnitts aller
Authoritiy-Werte der Seiten, auf welche einen Hub verweist.
155
Ein weiterer Verbesserungsvorschlag von BORODIN ET AL. 2001 zielt darauf
ab, zu verhindern, dass eine Seite hohe Authoritiy-Werte erhält, obwohl nur
viele schlechte Hubs auf sie verweisen. Dazu berücksichtigt das System
lediglich die Hubs, die einen bestimmten Schwellenwert überschreiten. Dieser
liegt mindestens beim Durchschnitt aller Hub-Werte der Seiten, die auf die
aktuelle Seite verweisen. Der Algorithmus berücksichtigt nur diese HubWerte für die Berechnung der Authority. Analog zu dieser Hub-threshold
führen BORODIN ET AL. 2001 auch einen Authority-threshold ein. Dabei
zählen nur die Authorities, welche mindestens über dem Durchschnitt liegen,
für die Berechnung des Hub-Wertes einer Seite.
HITS: kontra-intuitiv
0,9
hub
authority
100%
0,9
Hub-Wert
Faktor
2,7
authority
hub
authority
hub
authority
0,9
100%
100%
0,9
hub
authority
0,1
100%
authority
hub
hub
authority
100%
0%
0,9
DurchHub-Wert
schnitt
Faktor
0,9
3* 0,9 = 2,7
100%
0%
hub
authority
hub
authority
0%
0%
0%
Hub-Wert
Faktor
2,8
100%
0%
0%
hub
Lösung von Borodin et al. 2001:
Durchschnittbildung
hub
authority
0%
100%
0,9
hub
authority
100%
0%
0%
100%
Hub-Wert DurchFaktor
schnitt
4* 0,5 = 2,0 0,5
100%
0,1
hub
authority
0%
100%
0%
Abb. 7.5: Funktionsweise der Algorithmen von BORODIN ET AL. 2001
BORODIN ET AL. 2001 stellen auch eine Evaluierung anhand einiger selbst
formulierter Themen vor, für die sie insgesamt neun link-basierte Verfahren
testen. Die Ergebnisse zeigen, dass je nach Anfrage unterschiedliche
Algorithmen die jeweils besten Ergebnisse liefern. Auch aus anderen
Evaluierungen ist bekannt, dass die Abweichung bei den Anfragen meist
höher ist als die zwischen den Systemen (cf. z.B. MANDL & WOMSERHACKER 2002).
156
Die Trennung von Hubs und Authorities stellt eine plausible Trennung der
Rollen von Internet-Seiten dar. Allerdings ist diese Trennung noch sehr grob.
Internet-Seiten besitzen viele unterschiedliche Rollen, die abhängig von dem
Informationsproblem eines Benutzers verschieden geeignet sein können. Dazu
gehören etwa Seiten für die Navigation.
Algorithmen wie HITS und SALSA sollten auch von vorneherein die Struktur
von Sites mit berücksichtigen. Seiten auf hoher Ebene wie etwa Homepages
verfügen in der Regel eher über Hub-Charakter, indem sie auf die anderen
Seiten der Site verweisen, während Seiten auf niedriger Ebene tatsächlich
Wissen anbieten und somit eher auf einen hohen Authority-Wert abzielen.
7.5
Aspekte der Implementierung
Da der PageRank-Algorithmus iterativ ausgeführt wird, stellt er hohe
Anforderungen an die benötigten Ressourcen. Suchmaschinen erfordern
ohnehin eine umfangreiche Infrastruktur, um die Indizes der analysierten
Seiten zu verwalten und leistungsfähige Server, um diese Indizes in angemessener Zeit zu durchsuchen. Die intensive Analyse der Verbindungsstruktur
erfordert zusätzliche Rechenleistung. Zwar gehen PAGE ET AL. 1998 davon
aus, dass der Aufwand für die Berechnung von PageRank neben der Erstellung des Volltext-Indexes unwesentlich ist, aber mit der steigenden Menge an
Seiten erhöht sich der Aufwand erheblich. Neuere Arbeiten befassen sich
deshalb auch mit der Optimierung der PageRank-Berechnung. Optimierte
Datenstrukturen für die Berechnung und notwendige Modifikationen des
Algorithmus stellt BAUER 2003 vor.
In der ursprünglichen Version experimentieren PAGE ET AL. 1998 mit einer
Menge von 75 Millionen Seiten mit 322 Millionen Links. Eine Workstation
benötigte für eine Iteration sechs Minuten und nach 52 Iterationen war der
Algorithmus konvergiert. In einem Überblicksartikel hält HENZINGER
(2000:3) 100 Iterationen für ausreichend. Dagegen durchlaufen SAVOY &
RASOLOFO (2000:585) für die Evaluierung von link-basierten Information
Retrieval-Verfahren lediglich fünf Iterationen. Bei einer kleinen Datenmenge
von ca. 900 Seiten konvergieren PageRank sowie der Kleinberg-Algorithmus
bereits nach fünf bis sechs Schritten (BAUER 2003:75).
157
Gegen Ende des Jahres 2001 indexiert Google nach eigenen Angaben ca. 1,6
Milliarden Internet-Seiten. Annäherungsweise kann man also von 16
Milliarden Links ausgehen, die iterativ bearbeitet werden müssen1.
Angesichts dieser Größe überrascht das schnelle Konvergieren von iterativen
Algorithmen zur Link-Analyse, die das Netz global untersuchen. Es lässt sich
möglicherweise durch die starken Gesetzmäßigkeiten erklären, welchen die
Verteilung von Links unterliegt. Einen weiteren Erklärungsansatz bieten
BRODER ET AL. 2000 in der Analyse eines sehr großen Crawls. Die Autoren
untersuchen, ob der hohe Grad der Konnektivität in einem Teil des Internets
hauptsächlich auf Seiten mit sehr vielen In-Links zurückzuführen ist. Dazu
wurden Seiten mit einer bestimmten Anzahl von In-Links entfernt und
anschließend der Umfang der größten, sogenannten Strongly Connected
Component (SCC) bestimmt. Als Strongly Connected Component bezeichnet
man Untermengen eines Netzwerks, in denen durch das Verfolgen der
Verbindungen alle Seiten untereinander erreichbar sind. Verbindungen
können dabei immer nur in einer Richtung verfolgt werden. Entspannt man
diese Bedingung und lässt das Verfolgen eines Links in beiden Richtungen
zu, so erhält man größere Teilmengen, in denen alle Seiten miteinander
verbunden sind. Diese Strukturen werden als Weakly Connected Components
(WCC) bezeichnet.
1
Es scheint, dass man als Heuristik davon ausgehen kann, dass eine Seite durchschnittlich
zehn Links enthält, dass es also zehnmal mehr Hypertext-Verknüpfungen im WWW gibt
als Seiten. Die Momentaufnahme des Web Track bei TREC enthält ca. fünfmal mehr
Links als Seiten, allerdings wurden hierbei Links nicht gezählt, die nach außerhalb der
gespeicherten Seiten verweisen (HAWKING 2001:10).
158
Strongly Connected
Components (SCC)
-jeder Knoten ist von
jedem anderen
erreichbar
Weakly Connected
Components (WCC)
-wie SCC, aber ohne
Berücksichtigung der
Richtung von Links
Abb. 7.6: Strongly Connected Component und
Weakly Connected Component
Die größte SSC in einem Netzwerk wie dem Internet ist kleiner als die
Gesamtmenge, besteht aber nach wie vor aus einer sehr hohen Zahl von
Seiten (siehe Tabelle 7.1). Dies weist auf eine hohe Dichte der Verbindungsmatrix hin.
Tabelle 7.1: Größen von Komponenten (aus BRODER ET AL. 2000:8)
Anzahl der In-Links der entfernten Seiten
1000
100
10
5
4
3
Seiten in der größten Strongly Connected
Component (in Millionen)
177
167
105
59
41
15
Nach Entfernen der Seiten mit mehr als einer festen Anzahl von In-Links
entsteht also wiederum ein Netz bzw. ein Graph, der ähnliche Struktur
aufweist wie das gesamte Web. Wie bereits DILL ET AL. 2001 festgestellt
hatten, ähneln sich auch beliebige Ausschnitte aus dem Internet. Dazu hatten
sie die Verteilung verschiedener Größen in unterschiedlichen Crawls untersucht. Die Analyse von BRODER ET AL. 2000 zeigt, dass eine gewisse Ähnlichkeit bestehen bleibt, wenn gezielt Seiten mit bestimmten Eigenschaften
eliminiert werden.
159
Das Internet unterliegt starken dynamischen Veränderungen (cf. FETTERLY ET
AL. 2003, siehe Abschnitt 3.2.2) und so ändert sich auch die Link-Matrix
laufend. Im realen Einsatz ändern sich damit ständig die Grundlagen der
Link-Analyse. Somit muss für einen Ansatz wie PageRank entweder die
komplette Berechnung neu durchgeführt werden oder ein effizientes UpdateVerfahren gefunden werden. Im ersten Fall stellt sich für die Betreiber also
die Frage, nach wie vielen Änderungen eine Aktualisierung erforderlich wird.
Diese Problematik untersuchen CHIEN ET AL. 2001. Dazu versuchen die Autoren zu analysieren, nach wie vielen Modifikationen in der Link-Matrix realer
Web-Daten sowie künstlich erzeugter Daten eine Neuberechnung nötig wird.
Die Modifikationen erfolgen zufallsgesteuert, sie basieren aber auf empirisch
validierten Modellen über die Wahrscheinlichkeitsverteilung für die Veränderung von Links. Diese Modelle besagen, dass sich die Wahrscheinlichkeit
für einen Link auf eine Seite aus zwei Faktoren zusammensetzt. Ein Anteil
von etwa 10% der Wahrscheinlichkeit liegt für alle Seiten gleich hoch. Der
größere zweite Anteil hängt von der Anzahl der bereits vorliegenden Links
ab, so dass Seiten, die im Sinne der Link-Analyse bereits populär sind, eher
noch weitere Links anziehen als wenig populäre Seiten.
CHIEN ET AL. 2001 schlagen eine Lösung vor, die einen Teilgraphen aus dem
gesamten Netz extrahiert, für dessen Seiten die Wahrscheinlichkeit für eine
Änderung des PageRank-Wertes sehr hoch ist. Anschließend berechnet das
System lediglich für diese kleine Untermenge die Änderungen der PageRankWerte. Dadurch reduziert sich der Rechenaufwand erheblich. Laut CHIEN ET
AL. 2001 erreicht der Algorithmus unter den meisten Umständen 99% der
Seiten, die auch bei einer vollständigen Analyse aktualisiert werden.
Allerdings vernachlässigt der Ansatz von CHIEN ET AL. 2001 den Einsatz von
PageRank im Information Retrieval. Die Evaluierung prüft die Änderungen in
den absoluten Werten der PageRank-Werte. Für das Retrieval spielt aber
letztendlich der absolute Wert keine Rolle, sondern lediglich, an welcher
Rangposition ein Dokument aufgrund seines Wertes eingeordnet wird. Um
zwei PageRank-Berechungen zu vergleichen, kann etwa die Korrelation
zwischen den Rangfolgen bestimmt werden. Dazu eignen sich der Kendallund der Spearman-Koeffizient1.
Eine erhebliche Beschleunigung der Berechnung von PageRank stellen
KAMVAR ET AL. 2003 vor. Sie fügen nach einigen normalen PageRankIterationen einen Beschleunigungsschritt ein. Dabei werden die nicht
1
Diese statistischen Kennzahlen zum Vergleich von Rangfolgen wurden bereits im Information Retrieval zum Vergleich von Ergebnislisten eingesetzt (cf. MANDL 2001:253 ff.).
160
dominanten Dimensionen des Eigenvektors der Matrix gelöscht. Dadurch
konvergiert PageRank erheblich schneller, das Ergebnis weicht aber vom
originalen Algorithmus etwas ab. Allerdings zeigen die Autoren, dass die
Reihenfolge der ersten 100 Treffer bei beiden Verfahren sehr ähnlich ist.
Allerdings hängt eine derartige Analyse auch stark von der jeweiligen
Integration von Link-Maß und Retrieval-Ergebnis ab. Je nach Fusions-Algorithmus sind die Ergebnisse unterschiedlich. Optionen für diesen Schritt
werden in Abschnitt 12.1 vorgestellt.
7.6
Modifikationen des Page-Rank-Algorithmus
Inzwischen existieren zahlreiche Varianten von PageRank. Die folgende
Darstellung konzentriert sich auf neueste Ansätze zur thematischen und
individualisierten Anpassung.
Eine Schwäche des PageRank-Algorithmus liegt in der fehlenden thematischen Fokussierung. Zum einen stellt der globale Ansatz natürlich einen
Vorteil dar. Die Werte aller Seiten können vorab und ohne Berücksichtigung
des Kontexts berechnet werden. Durch die Einbeziehung aller Seiten in die
Analyse werden auch alle Links bewertet. Bei einer Einschränkung
hinsichtlich der Seiten muss eine Link-Analyse immer bedenken, dass einige
Links aus diesem Ausschnitt auf Seiten außerhalb verweisen und dass
umgekehrt auch Links von außerhalb auf den Ausschnitt existieren.
Der fehlende thematische Bezug von PageRank wird von vielen Autoren
bemängelt. Der globale Ansatz, der für jede Seite vor der Anfrage einen
Qualitätswert berechnet, bietet natürlich Vorteile für die Implementierung.
Darüber hinaus kommt der thematische Bezug durch die Anfrage zur
Wirkung. Gleichwohl stellt die themen-unabhängige Bewertung der Seiten
ein Problem dar, wie ein Gedankenexperiment schnell zeigt. Angenommen
eine „beste“, hochspezialisierte Seite besitzt für ihr Themengebiet die höchste
Qualität. Im globalen Ranking von PageRank rangiert sie trotzdem weit
abgeschlagen, da aufgrund der hohen Spezialisierung nur wenig potentielle
Interessenten existieren und davon einige Links auf das Angebot setzen. Bei
einer Anfrage besitzen nun andere weniger spezialisierte Angebote weit
höhere PageRank-Werte, so dass die „beste“ Seite im Ergebnis keinen hohen
Platz erreicht. Würden aber mehrere Rankings für unterschiedliche
Themengebiete existieren, dann könnte sich die „beste“ Seite eher
durchsetzen. Ein derartiges System würde auch berücksichtigen, dass
beispielsweise z.B. ein Internet-Verzeichnisdienst für manche Themen sehr
161
hohe Qualität liefert, für andere Themen dagegen nicht. Mehrere Ansätze
gehen in diese Richtung.
HAVELIWALA 2002 stellt eine Variante des PageRank-Algorithmus vor, die
eine thematische Fokussierung vornimmt. In dem Ansatz werden als Themen
die sechzehn obersten Kategorien des Internet-Verzeichnisdienstes Open
Directory Project1 gewählt2. Für jede dieser Kategorien wurden die Seiten
unterhalb der Kategorie extrahiert, wobei allerdings unklar bleibt, ob die
Katalog-Seiten oder die darin verwalteten externen Links gemeint sind. Diese
Seiten wurden zu einem Term-Vektor zusammengefasst, so dass für jedes
Thema ein Vektor vorliegt, der das Thema in einem Vektor-Raum ansiedelt.
Für jede Seite wird die Ähnlichkeit des Term-Vektors der Seite zu den TermVektoren aller Themen bestimmt. Eine Seite wird nicht nur einem Thema
zugeschlagen, sondern erhält für jedes Thema ein Gewicht, das diese
Ähnlichkeit wiederspiegelt. Zudem erhält jede Seite einen PageRank für alle
Themen. Der endgültige PageRank ergibt sich dann als lineare Kombination
der einzelnen PageRank-Werte, die mit dem Themen-Gewicht der Seite
multipliziert werden.
Entscheidend an dem Ansatz von HAVELIWALA 2002 ist die Berechnung der
themenspezifischen PageRank-Werte. Die Auswahl der Themen anhand eines
Internet-Verzeichnisdienstes führt möglicherweise nicht zur optimalen
Definition der Themen, sie bietet aber einen guten Ansatzpunkt und der
Ansatz von HAVELIWALA 2002 erlaubt hier andere Themensetzungen. Auch
die automatisierte Qualitätsbewertung erfordert sinnvolle thematische oder
kategorielle Einteilungen von Internet-Seiten. Besonders Kategorien wie
Homepages, E-Commerce-Angebote oder wissenschaftliche Seiten, die
„quer“ zu den Themen liegen, scheinen vielversprechend.
1
http://dmoz.org
2
Ansätze zur Gewinnung thematischer Differenzierung anhand von Verzeichnisdiensten
treten auch bei anderen Autoren auf (z.B. CHAKRABARTI ET AL. 2002:5)
162
PageRank-Werte
der Ausgangsseiten
Kombination von
Gewichtung und
PageRank
100%
0%
Bewertung des
Inhalts
Gewichtung der
Links
Ähnlichkeit zur Anfrage
Abb. 7.7: Adaption von PageRank: Gewichtung nach Ähnlichkeit zu einer
Anfrage
Die Berechnung der themenspezifischen PageRank-Vektoren lässt sich als
eine Modifikation der Verbindungsmatrix vor der Bestimmung des EigenVektors interpretieren.
r r
R = R x ℜ*
r
r
r (nach HAVELIWALA 2002:4)
R = (1 − α )ℜ x R + α p
Während α nur einen Dämpfungsparameter darstellt, führt der Vektor p zur
Modifikation der PageRank-Werte. Die Formel lässt sich im Rahmen des
sogenannten Random Surfer-Modells interpretieren. Der PageRank-Wert
einer Seite entspricht der relativen Wahrscheinlichkeit, dass ein Benutzer, der
für lange Zeit zufällig Links verfolgt, auf diese Seite trifft. Da es im Web
viele Sackgassen gibt, springt dieser Benutzer in Random Surfer-Modell nach
einer Reihe von Schritten unabhängig von einem Link auf eine zufällig
ausgewählte Seite. Um dies zu simulieren, addiert man in der Link-Matrix zu
allen Zellen ein sehr kleine positive Zahl (Teleportations-Parameter). Damit
163
besteht eine Übergangswahrscheinlichkeit zwischen allen Seiten im betrachteten Graphen.
Bei der Berechnung der themen-spezifischen PageRank-Vektoren wird dieser
kleine Wert nicht mehr über alle Seiten gleich verteilt, sondern Seiten zu
einem Thema werden höher gewichtet und diese gewinnen sodann auf die
Berechnung des PageRank höheren Einfluss. Dieses Verfahren kann ebenso
auf individuell ausgewählte Seiten begrenzt werden und dient dann der Personalisierung des PageRank.
HAVELIWALA 2002 betont, dass sein Verfahren nicht in einer nachträglichen
Modifikation des ursprünglichen PageRank-Vektors besteht, sondern dass
vielmehr jeder einzelne Berechnungsschritt von dem Gewichtungsvektor
beeinflusst wird. Allerdings zeigt er nicht, dass hierdurch ein völlig anderes
Ergebnis entsteht. In manchen Fällen mag auch eine nachträgliche Berechnung sinnvoll sein. Sie erlaubt auch den schnellen Wechsel der Themen und
sogar das schnelle Berechnen neuer Themen, während HAVELIWALA 2002 auf
eine vordefinierte Menge von Themen beschränkt ist.
r
r r
R * (Themai ) = β R pi
β
r
pi
Gewichtungsfaktor
Themen − Vektor
Der Vorschlag von HAVELIWALA 2002 ließe sich für sehr viele Themen bis
hin zu individuellen Profilen realisieren und weist somit bereits in Richtung
Individualisierung. Ein personalisiertes PageRank stellen JEH & WIDOM 2003
vor. Dabei erstellt das System nicht real für jeden Benutzer ein eigenes
Qualitätsranking, jedoch kann bei diesem Verfahren durchaus jeder Benutzer
ein anderes Ergebnis erhalten. Den Ansatzpunkt liefern bereits PAGE ET AL.
1998 in ihrer ersten Darstellung des Algorithmus. Im Random Surfer-Modell,
auf dem PageRank beruht, verfolgt ein Benutzer immer einen zufällig
gewählten Link auf einer Seite (siehe oben). Der PageRank-Wert einer Seite
misst dann die Wahrscheinlichkeit, mit der ein Benutzer auf diese Seite trifft.
Personalisierte Versionen korrigieren diese stark vereinfachende Annahme
etwas. Demnach verfolgen Benutzer eher Links auf Seiten, die sie stärker
interessieren. RICHARDSON & DOMINGOS 2002 nennen ihr entsprechendes
Modell Intelligent Surfer. Sie gewichten Links stärker, bei denen sowohl die
Ausgangsseite als auch die Zielseite den Anfrageterm enthält. Demnach
erhalten Links von Seiten mit ähnlicher Thematik höheres Gewicht, während
Links von Außenseitern weniger zählen.
Das Interesse des Benutzers ermitteln PAGE ET AL. 1998 sowie JEH & WIDOM
2003 aus einer Sammlung von relevanten Seiten. Dieses Verfahren hat den
164
Vorteil, dass jede beliebige Menge von Web-Seiten als Ausgangspunkt dienen
kann. Meist verwenden die Systeme die Bookmarks des Benutzers, die zwar
leicht zu extrahieren sind, jedoch nur ein sehr eingeschränktes Benutzermodell darstellen. Die Menge von Seiten wirkt dann während der Berechnung
von PageRank als Bias. Ein Gewichtungsvektor, in dem diese Seiten ein
hohes Gewicht haben, beeinflusst jeden Berechnungsschritt.
So lässt sich also PageRank auch stärker als Qualitätsmaß parametrisieren,
wenn man die Qualitätsdefinition von Clearinghouses und Verzeichnisdiensten ansetzt. Es wird vermutet, dass die Suchmaschine Google auch ein
derartiges Verfahren einsetzt und auf diese Weise einen „Yahoo-Bonus“ realisiert. Allerdings profitieren davon nur die wenigen tatsächlich in diesen Diensten referenzierten Angebote, während ähnliche Angebote gleicher Qualität,
die noch nicht aufgenommen wurden, dadurch nicht höher gewichtet werden.
Die automatische Qualitätsbewertung sollte aber auch solche Seiten erkennen,
die in vielen qualitätsrelevanten Eigenschaften mit den explizit positiv bewerteten Seiten übereinstimmen.
JEH & WIDOM 2003 berechnen PageRank-Listen für verschiedene Terme.
Dieser Ansatz ist möglich, da bei Suchmaschinen häufig gleiche oder sehr
ähnliche Anfragen ankommen, so dass sich sogar ein Cache-Speicher von
Ergebnisseiten auszahlt (BRODER ET AL. 2003). Für etwa 100 dieser Terme
berechnen JEH & WIDOM 2003 PageRank-Vektoren und kombinieren diese
zur Laufzeit so, dass das Modell dem des Benutzers entspricht.
Allerdings erscheint diese Art der Personalisierung durch Links fragwürdig.
Die Links mit stärkeren Gewichten sind Verbindungen, welche der Benutzer
von den ihm bekannten Bookmarks aus ohnehin durch Navigieren erreichen
kann. Bei der Suche sind aber häufig völlig neue und bisher unbekannte
Seiten gefragt.
Die vom Benutzer bevorzugten Seiten könnten am besten durch die
Integration weiterer Wissensquellen ermittelt werden. Durch Integration von
realen Benutzungsdaten lassen sich bei der PageRank-Berechnung die Links
stärker gewichten, die häufiger benutzt werden. OZTEKIN ET AL. 2003 stellt
ein entsprechendes Usage Aware PageRank vor, in dem häufig verfolgte
Links den PageRank der Zielseiten stärker erhöhen. Einen sehr ähnlichen
Ansatz verfolgen XUE ET AL. 2003. Ausgangspunkt ihres Verfahrens ist die
empirisch nicht weiter belegte Aussage, Link-Analyse liefere gute Ergebnisse
bei Suchen im gesamten Web und schlechtere Ergebnisse bei Suchen in
kleineren Mengen von Internet-Seiten wie etwa Sites. Innerhalb dieser Menge
greifen XUE ET AL. 2003 dann ebenfalls auf Log-Daten der Benutzeraktionen
zu. Für die PageRank-Berechung benutzen die Autoren nicht die originale
Link-Matrix, sondern ersetzen diese durch eine Matrix sogenannter impliziter
165
Verknüpfungen, welche eher den Charakter positiver Empfehlungen tragen
sollen1. Diese Links bestehen aus Paaren von Seiten, die häufig gemeinsam in
Pfaden von Benutzern vorkommen. Die Evaluierung von XUE ET AL. 2003
weist auf eine Verbesserung der Retrievalergebnisse hin, beruht jedoch nur
auf 30 Anfragen.
Ansätze zur Integration der Log-Daten in die Link-Analyse erweitern die
Grundlage der Qualitätsabschätzung. Allerdings lassen sie sich nicht global
im Internet realisieren, da die Benutzungsdaten als Wissensquelle in diesem
Umfang nicht zur Verfügung stehen. Solche Verfahren eignen sich also nur
für einzelne, große Server oder Intranets (siehe Abschnitt 8.4).
Weitere Link-Analyse-Algorithmen wurden u.a. von LEMPEL & MORAN 2000,
ABITEBOUL ET AL. 2003 und TOMLIN 2003 vorgeschlagen.
7.7
Globale Link-Struktur des Internets
Die Link-Struktur des Internets insgesamt liefert einen wichtigen Beitrag zur
Interpretation der Link-Analyse-Verfahren. Dazu zählen die statische
Verteilung von eingehenden und ausgehenden Links pro Seite und Site,
dynamische Modelle, die das Entstehen der statischen Verteilung erklären
sowie die Struktur des globalen Netzes, die unter anderem aufklärt, ob
zwischen zwei Seiten immer eine Verbindung über mehrere Links besteht.
Einen guten Überblick zu diesen Themen bietet BARABÁSI 2002.
7.7.1 Statische Modelle
Wichtig für das Verständnis der Link-Analyse im Internet sind Erkenntnisse
über die Wahrscheinlichkeitsverteilung unterschiedlicher Parameter im
Zusammenhang mit Links. Die Graphentheorie untersucht vorwiegend
zufällige Netzwerke (random networks), in denen alle Knoten die gleiche
Wahrscheinlichkeit besitzen, einen Link zu erhalten. Verhält sich nun das
Internet bezüglich In-Links wie ein solches Netzwerk oder ergeben sich hier
andere Verteilungen?
Zunächst ist überraschend, dass in einem auf den ersten Blick völlig
chaotischen System wie dem Internet überhaupt Gesetzmäßigkeiten herrschen. Es zeigte sich mehrfach, dass etliche verschiedene Parameter im Inter-
1
„implicit recommendation links“ (XUE ET AL. 2003:57)
166
net exponentiellen Wahrscheinlichkeitsverteilungen (Potenzgesetz, power
law) folgen, die der Zipf’schen Verteilung ähneln. Die Formel für viele
Verteilungen gleicht der für die Beziehung zwischen In-Links und der Anzahl
von Seiten mit dieser Anzahl von In-Links:
p (i ) =
1
iα
bzw.
p(i ) = i −α
i
Anzahl von In − Links
p (i ) Wahrscheinlichkeit , dass eine Seite i In − Links erhält
α
Parameter , der die Verteilung beschreibt
(nach BRODER ET AL. 2000:2)
Der Parameter α beschreibt den genauen Verlauf der Verteilung. Er beträgt im
gesamten Web für In-Links etwa 2,1 (BRODER ET AL. 2000). Aber nicht nur
die Anzahl der Links folgt diesen Gesetzen, sondern auch die PageRankWerte zahlreicher Web-Seiten. Diese immer wieder auftretenden Wahrscheinlichkeitsverteilungen scheinen geradezu ein Gesetz des Internet zu bilden. So
gibt es z.B. viele Sites mit sehr wenigen Seiten und einige wenige mit Millionen von Seiten, manche Seiten werden selten besucht und andere ziehen
einen Großteil des Internet-Verkehrs auf sich, auf die meisten Seiten verweisen sehr wenige Links während auf einige wenige populäre Seiten Millionen von Links zielen (HUBERMAN 2001).
Bei Verteilungen nach dem Potenzgesetz überwiegen Elemente mit sehr
niedrigen Werten während einige wenige Elemente sehr, sehr hohe Werte
erzielen (HUBERMAN 2001). Deswegen werden diese Verteilungen auch
manchmal als 80:20-Regel bezeichnet. Denn 20% der Elemente verfügen über
80% der zu verteilenden Werte, während auf die übrigen 80% lediglich 20%
entfallen. Der Durchschnitt liegt bei derartigen Verteilungen weit über dem
Median. In einer Darstellung mit zwei logarithmischen Achsen erscheint die
Kurve als Gerade, deren Steigung dem Parameter α entspricht. Eine beispielhafte Verteilung zeigt die Abbildung 7.8.
167
Link-Verteilungen
Anzahl
Seite
aus Broder
et al. 2002
Anzahl In-Links einer Seite
Abb. 7.8: Verteilung nach dem Potenzgesetz aus BORDER ET AL. 2002
Diese Werteverteilung von PageRank-Werten muss bei der späteren Integration der Qualitätswerte mit der RSV beachtet werden. Zum einen werden
bei einer weitgehend linearen Verteilung der RSV im oberen Trefferbereich
Dokumente mit hohem Linkwerten stark dominieren. Liegen alle RSVTreffer eher in der unteren Hälfte der Linkwerte, so werden die Links wenig
Einfluss auf das Ergebnis haben. Je nachdem, welcher Effekt gewünscht ist,
müssen die Linkwerte entsprechend transferiert werden.
Die Struktur von Web-Sites besitzt ebenfalls Einfluss auf die Link-Struktur
im Internet. So dienen die Links innerhalb von Sites meist primär der Navigation. Die Navigation lässt sich jedoch nicht isoliert betrachten, vielmehr
steht sie in engem Zusammenhang mit der thematischen und semantischen
Aufteilung von Wissen auf mehrere Seiten eines Web-Angebots.
In den meisten Fällen sind Sites nach wie vor hierarchisch aufgebaut. Dabei
bieten für detaillierte Fragestellungen und Informationsbedürfnisse eher
Seiten auf tiefer Ebene eine Lösung, während Seiten auf oberen Ebenen eher
generelle Informationen bieten bzw. nur der Navigation dienen.
Über die Interpretation der hierarchischen Struktur als positives bzw.
negatives Qualitätsmerkmal besteht wenig Konsens. In einer Studie des IBMIntranets werten FAGIN ET AL. 2003 obere Ebenen der Hierarchie als
Qualitätsindikator für das Ranking der Seiten, können dadurch allerdings
168
keine Verbesserung des Retrievals erzielen. Der strukturelle Sonderfall der
Suche nach einer Homepage, also der obersten Seite der Hierarchie spielt bei
der Evaluierung eine Rolle (siehe Abschnitt zur Evaluierung unten). Analysen
zeigen, dass die Site-Struktur die Anzahl der In-Links beeinflusst (siehe Teil
III).
7.7.2 Dynamische Modelle
Dynamische Modelle integrieren die Entwicklungsprozesse von Netzwerken
und wollen so erklären, wie die exponentiellen Verteilungen zustande
kommen. Derartige Modelle fügen sukzessive Knoten und Links zu einem
Netzwerk hinzu und bestimmen die Wahrscheinlichkeit, mit der eine
Verbindung zwischen zwei Knoten entsteht. Ein wichtiger Parameter besteht
darin, welche Größe Einfluss auf die Wahrscheinlichkeit eines eingehenden
Links hat. Die Diskussion kreist unter anderem darum, inwieweit die
Wahrscheinlichkeit gleichförmig oder kumulierend ist. Haben alle Knoten die
gleiche Wahrscheinlichkeit oder steigt diese Wahrscheinlichkeit mit der
Anzahl der bereits vorhandenen eingehenden Links?
PENNOCK ET AL. 2002 diskutieren verschiedene andere Modelle und gelangen
zu einem hybriden Modell, das beide Versionen integriert. Demnach hat jede
Seite die gleiche Basiswahrscheinlichkeit, dass auf sie verlinkt wird. Dazu
tritt aber eine Wahrscheinlichkeit, welche von der Anzahl der bereits bestehenden Links abhängt.
Π (l (i )) = α
lc(i )
1
+ (1 − α )
L
K
Π (l (i )) Wahrscheinlichkeit , dass neuer Link auf Knoten i zeigt
lc(i )
Anzahl der Links auf Knoten i ( Link − Count )
L
aktuelle Anzahl der Links im Netz
K
aktuelle Anzahl der Knoten im Netz
α
Parameter
(nach PENNOCK ET AL. 2002:3)
Der Faktor α regelt den Einfluss der beiden Anteile an der gesamten
Wahrscheinlichkeit für einen neuen Link. Im Internet liegt dieser etwa bei
0,91 für In-Links und bei 0,58 für Out-Links (PENNOCK ET AL. 2002:9). Dies
bedeutet, dass lediglich 10% der Wahrscheinlichkeit eines In-Links gleichmässig verteilt ist und 90% von den bereits erzielten Links abhängt. Unter
Web-Autoren bereits bekannte und populäre Seiten wachsen sehr viel stärker
169
in ihrer Popularität bzw. in ihrem PageRank als andere Seiten. Dieses
Phänomen ist aus der Szientometrie als Matthäus-Effekt bekannt. Diese
Bezeichnung geht auf ein Gleichnis im Matthäus Evangelium zurück, in dem
es heisst: „Wer hat, dem wird gegeben“1.
Abb. 7.9: Wahrscheinlichkeitsverteilung für In-Links innerhalb thematisch
eingegrenzter Mengen von Internet-Seiten (aus CHAKRABARTI ET AL.
2002:12)
Demnach ist ein In-Link nicht nur das Ergebnis der hohen Qualität einer
Seite, sondern auch das Resultat eines dynamischen Prozesses beim Wachsen
1
Der vollständige Vers lautet: „Denn wer hat, dem wird gegeben, und er wird im Überfluss haben; wer aber nicht hat, dem wird auch noch weggenommen, was er hat.“
(Matthäus-Evangelium Kapitel 25, Vers 29, cf.
http://alt.bibelwerk.de/bibel/?%20_blank&kbw_ID=7795340). Dabei bezieht sich Jesus
nicht auf weltliche Güter, sondern verspricht eine jenseitige Belohnung für die Gläubigen. Manchmal wird der Effekt auch mit „the rich get richer“ umschrieben.
170
eines Netzes. Bei kleineren Datenmengen wie etwa thematischen Sammlungen können auch kleinere Werte von α auftreten. Analog konnten
CHAKRABARTI ET AL. 2002:12 auch zeigen, dass sich die Wahrscheinlichkeitsverteilung für In-Links in thematisch eingegrenzten Sammlungen nicht mehr
so gut durch das Potenzgesetz beschreiben lässt und teilweise starke
Fluktuationen aufweist.
Dies mag darauf hindeuten, dass Links innerhalb einer Community etwas
stärker von Entscheidungen abhängen, die sich nicht mehr mit dem Zuwachs
von bereits „reichen“ Seiten erklären lässt. Möglicherweise spielt in engeren
Communities Qualität doch eine stärkere Rolle.
Leider legen PENNOCK ET AL. 2002 keine Analyse vor, inwieweit Seiten, die
erst zu einem späten Zeitpunkt zum Netz hinzugefügt werden, noch eine hohe
Anzahl von In-Links und somit einen hohen PageRank-Wert erreichen
können. Das Modell scheint nahe zu legen, dass die Anzahl der eingehenden
Links auch eine Funktion des Zeitpunkts der Erstellung einer Seite ist.
Dagegen spricht eine Analyse von KANOVSKY & MAZOR 2003, laut der keine
Beziehung zwischen der Anzahl von In-Links und dem Alter einer Seite
besteht. Dies erscheint plausibel, da in einem innovativen Medium wie dem
Internet Autoren gerne auf neue Seiten verlinken.
Ein Vorteil des hybriden Modells von PENNOCK ET AL. 2002 besteht darin,
dass es auch für kleinere Kollektionen von Web-Seiten eine adäquate Lösung
liefert. Die Autoren analysieren vier kleinere Datenmengen von jeweils
lediglich einigen tausend Seiten damit und zeigen, dass sich diese nicht immer
nach den statischen Modellen der exponentiellen Verteilung verhalten. Bei
Simulationen mit ihrem Modell erhalten PENNOCK ET AL. 2002 dagegen
Werte, die den gemessenen Verhältnissen entsprechen.
7.7.3 Gesamtstruktur des Web
Eine weitere, häufig untersuchte Fragestellung in Netzwerken betrifft Pfade.
Lässt sich zwischen zwei beliebig gewählten Knoten immer ein Weg über
Verbindungen finden? Im Internet ist diese Frage sehr wichtig, da sie
entscheidet, ob ein Benutzer einen Weg über Links zwischen zwei Knoten
finden kann. Im Web lässt sich keineswegs immer ein Pfad zwischen zwei
Knoten finden, wie noch vor wenigen Jahren vermutet wurde. Vielmehr
herrscht eine differenziertere Struktur, die zahlreiche Sackgassen kennt.
Diese Gesamtstruktur des Internets haben BRODER ET AL. 2000 und DILL ET
AL. 2001 bestimmt. Diese unterscheidet die vier etwa gleich große Komponenten Core, In, Out und Unconnected. Im Core sind alle Seiten miteinander
171
verbunden. Zwar bestehen nicht direkte Links zwischen allen, jedoch ist jede
Seite von jeder über eine Reihe von Links erreichbar. Der Bereich In enthält
Seiten, von denen aus der Core erreichbar ist. Dagegen führen in den Bereich
Out zwar Links aus dem Core, jedoch weisen keine Links in den Core zurück.
Daneben bestehen einige Inseln oder unverbundene Komponenten und in
geringem Umfang Tunnels zwischen den Komponenten In und Out.
Diese Kontinente im Web werden meist in der folgenden Weise interpretiert.
Im Core stehen etablierte Seiten hoher Qualität. In der Komponente In stehen
Seiten, die auf bekannte Seiten im Core verweisen, aber deren Aufmerksamkeit noch nicht auf sich ziehen konnten. Der Bereich Out enthält vor
allem kommerzielle Sites, die nicht mehr auf andere Angebote verlinken, um
die Benutzer auf ihren Seiten zu halten. Die folgende Abbildung zeigt die
Strukturen und ihre Größen in der typischen Darstellung als Fliege (bow tie).
Tendrils
IN
Tendrils
Strongly
Connected
Component
OUT
Disconnected
Components
Abb. 7.10: Bow-Tie-Struktur des Internets (nach BRODER ET AL. 2000)
Diese grundlegende Struktur des Internets konnte für mehrere Ausschnitte
nachgewiesen werden, allerdings hängt die Größe der einzelnen Komponenten von der jeweiligen Menge ab. Eine Untersuchung des chilenischen
Internet etwa führt zwar zu der gleichen Kontinent-Struktur mit den Komponenten Core, In, Out und Unconnected, jedoch unterscheiden sich die Größen
erheblich von denen des gesamten Internet (BAEZA-YATES & POBLETE 2003).
172
In einer Untersuchung des IBM-Intranets tauchte eine weitere Struktur auf,
die P genannt wurde (FAGIN ET AL. 2003:368). Diese Seiten waren von In aus
erreichbar, bildeten aber Sackgassen. Der Core nahm beim IBM-Intranet nur
etwa 10% des Gesamtumfangs ein.
Die Komponente Core führt zu einem weiteren Aspekt der Struktur. Er stellt
die größte Menge von Seiten dar, die alle untereinander erreichbar sind.
Natürlich gibt es daneben zahlreiche kleinere Mengen, für welche dies ebenso
gilt. Diese Untermengen nennt man Strongly Connected Components (SCC).
Vernachlässigt man die Richtung der Links nicht und interpretiert jeden Link
als Beziehung zwischen zwei Seiten, so kann man noch eine größere
Teilmenge identifizieren, in der alle Seiten untereinander verbunden sind.
Auch davon existieren wieder zahlreich kleinere Mengen, die man Weakly
Connected Components (WCC) nennt.
Die Größen und Häufigkeiten von SCC und WCC verhalten sich im Internet
ebenfalls nach dem Potenzgesetz. Die größte Weakly Connected Component
umfasst oft einen erheblichen Teil eines Crawls. BRODER ET AL. 2000:2
entdeckten in ihren Daten eine WCC, die über 90% aller Seiten umfasst.
Demnach wären fast alle Seiten im Internet von jeder Seite aus zu erreichen,
wenn Links in beide Richtungen durchschritten werden könnten.
Die Frage, ob jeder Knoten von jedem anderen aus erreichbar ist, spielt in der
Netzwerkforschung seit langem eine Rolle. Die intuitive Einsicht, dass selbst
in großen Netzwerken wie der Bevölkerung eines Landes alle Mitglieder
durch wenige Verknüpfungen verbunden sind, wird als small WorldPhänomen bezeichnet. Durch einige Hubs, die mit weit überdurchschnittlich
vielen Objekten in Verbindung stehen, können auch große Netzwerke zu
kleinen Welten werden. In einem der ersten sozialwissenschaftlichen Experimente zu diesem Thema ging es z.B. darum, in den 1960er Jahren die Anzahl
von Schritten zwischen gemeinsamen Bekannten zu bestimmen, welche vom
Mittleren Westen der USA an die Ostküste führt. Aber auch die Verbreitung
von Aids, Computer-Viren und das Netzwerk aus Aufsichtsräten in großen
Firmen bilden derartige Netze (BARABÁSI 2002).
Inzwischen ist also bekannt, dass im Web nicht immer ein Weg von einem
beliebigen Knoten zu jedem anderen führt. Die durchschnittliche Entfernung
war früher noch mit 19 Klicks berechnet worden (BARABÁSI 2002). Vielmehr
führen Verbindungen in die Komponente Out in Sackgassen, während die
Komponente In von über 75% aller Seiten aus überhaupt nicht erreichbar ist
(BRODER ET AL. 2000).
Folgerungen aus der Bow-tie-Struktur für das Information Retrieval sind
bisher noch nicht gezogen worden. Konsequenzen wären vor allem unter
173
Berücksichtigung des auf die Suche folgenden Browsing des Benutzers
denkbar. Die Suchergebnisse werden so gewählt, dass sie untereinander nicht
zu „nahe“ sind, denn von einer der Seiten könnten die anderen durch zielgerichtetes Browsing schnell erreicht werden. Erreicht werden kann dies etwa
durch das Einbeziehen von Ergebnissen aus allen vier Komponenten. Andererseits kann es der Benutzer aber auch vorziehen, zueinander nahe Seiten
ohne Browsing direkt in der Ergebnisliste zu erhalten. Eine strikt formale
Qualitätsdefinition könnte etwa nur Seiten aus dem Core liefern. Weitergehende Analysen von inhaltlicher Nähe liefert die automatische CommunityErkennung durch Link-Analyse.
7.8
Anwendungen
Erkennung
von
Link-Analysen
zur
Community-
Die im vorigen Abschnitt untersuchten größeren Einheiten ließen sich formal
erkennen. Daneben dient gerade die Link-Analyse von weniger gut fassbaren
Einheiten, vor allem den sogenannten Communities (FLAKE ET AL. 2000,
TOYODA & KITSUREGAWA 2003). Diese Gemeinschaften stellen thematisch
oder anderweitig zusammengehörende Angebote oder Seiten dar, die sehr
häufig aufeinander Bezug nehmen. Formale Definitionen basieren auf
graphentheoretischen Ansätzen (FLAKE ET AL. 2000, INO ET AL. 2005).
„authorities“
„fans“
Hinweis auf WebCommunity
Abb. 7.11: Grundstruktur einer Community (nach EFE ET AL. 2000)
Auch die Analyse von Communities findet ihre Wurzeln in der traditionellen
Szientometrie. Dort geht es um die Erkennung von thematisch eng
zusammengehörenden Gruppen, die als eine wissenschaftliche Gemeinschaft
174
oder Schule angesehen werden können. In traditionellen Publikationen bieten
sich etliche formal erkennbare Hinweise auf solche Beziehungen.
• Das gemeinsame Publizieren (als Autoren oder als Herausgeber)
• Das Publizieren in gleichen Zeitschriften oder Sammelbänden
• Die Arbeit im gleichen Institut
• Das gegenseitige Zitieren
Das Internet hat die Möglichkeiten für die szientometrische Analyse der Wissenschaftskommunikation erheblich erweitert, da die oben erwähnten
Parameter oft automatisch extrahiert werden.
Für die Erkennung von Communities im Internet entfallen einige der Parameter, da z.B. das gemeinsame Erstellen einer Seite in der Regel nicht explizit
vermerkt ist. Ebenso sind die Beziehungen zwischen den Seiten einer Site
wenig interessant. Somit verbleibt lediglich die Verlinkung als mögliches
Erkennungsmerkmal. Zusätzlich wird aber oft auch die inhaltliche Ähnlichkeit anhand der vorkommenden Begriffe bewertet. Dazu werden die Seiten
mit Verfahren des Information Retrieval inhaltlich erschlossen. Die Indexvektoren über alle vorkommenden Begriffe erlauben dann die Berechnung der
semantischen Ähnlichkeit.
GIBSON ET AL. 1998 leiten Communities mit Hilfe des HITS-Algorithmus ab
(KLEINBERG 1998), der für eine Grundmenge von Seiten die Hub- und
Authority-Werte berechnet. Die Grundmenge besteht zunächst aus der
Ergebnismenge einer Suchanfrage an eine Internet-Suchmaschine. Diese
Menge wird erweitert. Die Links aus der Grundmenge werden extrahiert und
diese Seiten aufgenommen. Darüber hinaus kommen die Seiten hinzu, welche
auf die Seiten in der Treffermenge verweisen. GIBSON ET AL. 1998 definieren
die Community als die zehn Seiten mit dem höchsten Hub-Wert und die zehn
Seiten mit dem höchsten Authority-Wert. Dabei untersuchen die Autoren, wie
klar und deutlich sich diese Communities ergeben und benutzen dies als Maß
für die Robustheit des Themas. Der HITS-Algorithmus arbeitet wie die
meisten Autoritätsverfahren iterativ, so dass die Anzahl der Iterationen ein
gutes Maß für diese Messung darstellt. Im Detail untersuchen die Autoren,
wie groß die Schnittmenge nach einer bestimmten Anzahl von Iterationen mit
der endgültig erreichten Menge von 20 Seiten ist.
GIBSON ET AL. 1998 betonen die Stabilität ihrer Communities, die sich
unabhängig von der benutzten Suchmaschine, der Größe der ursprünglichen
Treffermenge vor der Erweiterung, ja sogar unabhängig von der Sprache der
Suchanfrage meist unverändert ergeben. In einem Experiment führte eine
175
Suchanfrage nach „Astrophysik“ und den entsprechenden englischen und
französischen Begriff zu einer fast identischen Menge von Seiten. Diese
Robustheit ist erstaunlich, da sich der Ansatz von GIBSON ET AL. 1998
ausschließlich auf Links stützt. Allerdings können zeitliche Einflüsse wie
aktuelle Modethemen die Communities beeinflussen.
Den umgekehrten Weg geht das System Topic1 (cf. MENDELZON & RAFIEI
2000). Nach Eingabe einer Seite liefert es die Themen, für die diese Seite
bekannt ist. Topic kombiniert dazu Link- und Inhaltsanalysen. Zunächst
werden mit Hilfe einer Suchmaschine alle Seiten ermittelt, die auf die Seite
verweisen. Aus der Kurzfassung der Seiten in der Suchmaschine (snippet)
extrahiert das System dann die am häufigsten vorkommenden Schlagwörter
und liefert diese als die Themen zurück. Damit kann sich der Benutzer einen
Überblick über die Themen der Seite verschaffen, ohne sich auf die
Selbstbeschreibung der Autoren verlassen zu müssen. Einen ähnlichen Weg
verfolgen Suchmaschinen, welche nicht nur die Seite indexieren, sondern den
Text aus den Links auf die Seite extrahieren und diesen Anchor -Text dem
Index der Seite hinzufügen (cf. z.B. CRASWELL ET AL. 2001). Lautet der für
den Benutzer einer Seite sichtbare Text eines Links z.B. „Tageszeitung“, dann
führt dieser Suchbegriff möglicherweise auch zum Erfolg, wenn er in der
Seite überhaupt nicht vorkommt. Das Urteil Dritter über den Inhalt gilt als
objektiver und damit als bessere Beschreibung eines Objektes. Die Autoren
von Internet-Seiten leisten damit gewissermaßen Indexierabeit, wenn sie den
Text für einen Link formulieren.
Allerdings liefern MENDELZON & RAFIEI 2000 keine Abschätzung der
Qualität der Seite. Sobald überhaupt Verbindungen auf die Seite verweisen,
welche nicht der Navigation innerhalb der eigenen Site dienen, liefert der
Algorithmus ein Ergebnis. Für die automatische Qualitätsabschätzung wäre
eventuell interessant, inwieweit die Selbstbeschreibung mit der externen
Beschreibung übereinstimmt. Dazu müsste ein System den von MENDELZON
& RAFIEI 2000 gewonnenen Term-Vektor mit dem Term-Vektor der Seite
oder der Site vergleichen. Hohe Übereinstimmung ließe sich als Ehrlichkeit
des Autors oder doch zumindest als dessen Kenntnis des üblichen Jargons
interpretieren. Er versucht nicht den Benutzer oder Suchmaschinen mit
irreführenden Begriffen zu locken (spamming).
Die Qualitätsüberprüfung über Anchor-Texte könnte natürlich auch in der
anderen Richtung eingesetzt werden. Dabei würden die Texte der Links einer
Seite mit den Inhalten der Zielseite verglichen und geprüft, ob eine hohe
1
http://www.cs.toronto.edu/db/topic
176
inhaltliche Ähnlichkeit vorhanden ist (reverse anchor analysis). Dazu bieten
sich Distanzmaße im Vektorraum-Modell an. Alternativ könnte auch geprüft
werden, inwieweit der Link-Text mit den Link-Texten von anderen Seiten
übereinstimmt, die auf die Zielseite verweisen. Bei der Berechnung stellt die
sehr unterschiedliche Länge des meist kurzen Anchor-Textes und der Zielseite
eine Herausforderung dar.
Liegt eine hohe inhaltliche Übereinstimmung vor, dann würde dies als
Hinweis dafür gelten, dass der Autor seine Anchor-Texte gewissenhaft erstellt
hat und dass sie tatsächlich den Inhalt der Zielseite gut wiedergeben.
Andererseits bestehen auch Gefahren bei einem solchen Vorgehen:
Benutzt der Ersteller des Links Begriffe aus dem Text der Web-Seite, so
belohnt ihn das oben beschriebene Verfahren. Allerdings zeugt dies auch von
mangelnder Distanz und wenig eigener Reflexion über die Seite und weist
nicht auf eine qualitative Bewertung hin.
Stimmt der Anchor-Text zwar nicht mit Begriffen auf der Seite überein, aber
mit anderen Anchor-Texten von Links auf die gleiche Seite, so würde dies der
obige Algorithmus ebenfalls belohnen. Allerdings kann dies eine Folge von
kritiklosem Übernehmen des Links samt Anchor-Text von einer anderen
Internet-Seite sein, was sich in der Qualitätsbewertung nicht positiv auswirken sollte.
Die Analyse des Anchor-Texts muss die Mehrsprachigkeit berücksichtigen,
da der Link-Text natürlich in einer anderen Sprache sein kann als die Seite
selbst. Dies darf aber nicht zu einer Abwertung führen. Möglicherweise wären
die verschiedenen Anchor-Texte einer Seite, die ja sprachliche Versionen der
Inhaltsbeschreibung liefern, sogar eine gute Quelle für maschinelle Wörterbücher.
MATSUMURA ET AL. 2001 untersuchen, ob Außenseiter sich auch für die
innerhalb einer Community diskutierten Themen interessieren und werten
dies als Maß für die Verbreitung des Themas. BUN & ISHIZUKA 2001
interessieren sich für die Änderungen innerhalb einer Gruppe von thematisch
zusammengehörigen Web-Abgeboten und analysieren in diesem Korpus die
wichtigsten Sätze, die neu entstehende Themen am besten repräsentieren.
Community-Erkennung stellt ein derzeit intensiv diskutiertes Thema dar. Die
Algorithmen orientieren sich meist jedoch zu sehr an einfachen, formalen
Link-Strukturen, um schon als ausgereift gelten zu können.
177
7.9
Integration von Link-Maßen im Information Retrieval
Die Qualitätsmaße aus der Link-Analyse stellen eine Evidenzquelle für das
Information Retrieval dar, die dann neben die inhaltliche Ähnlichkeit
zwischen Anfrage und Dokumenten tritt. Neben die Suchbegriffe treten
weitere Aspekte der Bewertung und damit gewissermaßen ein weiterer
Standpunkt. Wie bereits in Teil I erwähnt, werten bei der Fusion im
Information Retrieval häufig mehrere Retrieval-Algorithmen die Anfrage aus.
Jeder leitet dann sein Ergebnis, das auf seiner individuellen RelevanzDefinition beruht, an ein übergeordnetes System weiter, das die unterschiedlichen Standpunkte zusammenfasst. Die theoretischen Grundlagen für diese
Mehrfachperspektiven formuliert u.a. INGWERSEN 1994.
Beim Qualitäts-Retrieval vertritt eines der Einzelergebnisse den Standpunkt
der Qualität bzw. der Linkanalyse. Für die Integration der Werte muss aus den
zahllosen Optionen ein Algorithmus ausgewählt werden. Im ursprünglichen
Entwurf von PageRank thematisieren BRIN & PAGE 1998 den Aspekt der
Kombination mit den unmittelbaren Retrieval-Ergebnissen noch nicht näher1.
Teilnehmer am Web Track von TREC legen ihre Implementierungen von
Link-Analyse-Algorithmen offen. So multiplizieren KRAAIJ & WESTERVELD
2000:6 den Link-Wert mit dem Retrieval-Wert. Aufgrund der Wahrscheinlichkeitsverteilung von Seiten mit einer bestimmten Anzahl von In-Links
bzw. PageRank-Werten kann dieses Vorgehen problematisch sein, da es
wenige Seiten bevorzugt, die einen sehr hohen PageRank-Wert haben. Dagegen sind die Unterschiede zwischen den übrigen Seiten in absoluten Werten
eher niedrig und tragen wenig zum neuen Ranking bei.
Der HITS-Algorithmus ordnet die Dokumente der anfrage-abhängigen Menge
nach dem Authority-Wert (KLEINBERG 1998). Andere Implementierungen
summieren etwa Authority- und Hub-Wert sowie die Retrieval Status Value.
Die Realisierung von SAVOY & RASOLOFO 2000 nutzt wiederum nur den
Authority-Wert, der dann mit dem Ergebnis des traditionellen Retrieval kombiniert wird. Dieses Vorgehen besitzt eine hohe Plausibilität für das traditionelle Information Retrieval. Wenn allerdings die direkten Ergebnisse nicht befriedigend sind oder andere Informationsbedürfnisse vorliegen, dann können
auch die Hubs für ein Thema interessant sein.
Unterschiedliche Verfahren werden u.a. von SILVA ET AL. 2000, PLACHOURAS
& OUNIS 2002 und RICHARDSON & DOMINGOS 2004 erprobt. Wie bei der
1
„Finally, the IR score is combined with pageRank to give a final rank to the document“
(BRIN & PAGE 1998, Abschnitt 4.5.1)
178
Fusion im Standard-Retrieval hat sich bisher kein eindeutig überlegenes
Verfahren herauskristallisiert.
Eine sicher häufig genutzte heuristische und effiziente Variante ist ein
Zweischritt-Verfahren. Dabei bildet das Ergebnis des inhaltlichen Retrieval
die Basis und die besten Treffer werden anhand eines zweiten Maßes wie des
PageRank neu geordnet (z.B. bei FAGIN ET AL. 2003). Dieses Re-Ranking
Prinzip wird im Teil III erneut aufgegriffen.
7.10 Evaluierung von Link-Analyse
Die Qualität von Retrieval-Algorithmen und Komponenten von RetrievalSystemen zeigt sich erst bei der Evaluierung. Die Problematik der Bewertung
von Information Retrieval-Systemen und die großen Bewertungsinitiativen
wurden bereits in Teil I (siehe Abschnitt 2.4) angesprochen.
In der Forschung zur Link-Analyse haben empirische Evaluierungen bisher
nur eine untergeordnete Rolle gespielt. Dies mag mehrere Gründe haben.
Vergleichende Evaluierungen erfordern eine Standardisierung der Bedingungen für die teilnehmenden Systeme. Dies ist in einem dynamischen
Umfeld wie dem Web schwierig zu erreichen. Darüber hinaus zeigen sich die
kommerziell orientierten Suchmaschinen wenig interessiert an derartigen
Vergleichen und veröffentlichen auch ihre Algorithmen nicht.
Die wichtigsten Evaluierungen von link-basierten Verfahren erfolgten bisher
im Web Track der TREC Initiative. Einige bemerkenswerte Einzelstudien
legte Thelwall vor (THELWALL 2002a, THELWALL 2003). Weitere kleinere
Evaluierungen nehmen häufig die Autoren von Link-Analyse-Algorithmen
vor. Diese werden jedoch aufgrund der meist eingeschränkten Vergleichbarkeit in diesem Zusammenhang nicht besprochen.
Die zwei folgenden Abschnitte stellen die Ergebnisse des Web Track mit der
älteren und der neueren Datenmenge vor und nehmen Interpretationen vor. Im
Anschluss stellt ein dritter Abschnitt zur Evaluierung einige Studien von
Thelwall vor.
7.10.1 Web Track bis 2001
Der Web Track wurde von TREC von 1999 bis 2003 angeboten und hat den
sogenannten ad-hoc Track, also das Standard-Retrieval mit Zeitungsdaten
179
abgelöst. Die Aufgaben entsprechen den Topics beim ad-hoc-Task, sind
jedoch kürzer, um die Realität im Web besser abzubilden1. Zusätzlich
kommen einige für das Web typische Aufgabentypen dazu. In den ersten
Runden wurde das Finden von Homepages integriert, seit 2002 das Finden
von thematisch zusammenhängenden Seiten (topic distillation oder topic
identification, siehe folgenden Abschnitt).
Um Vergleichbarkeit zu erreichen, wurde ein standardisiertes Korpus erstellt,
das allen Teilnehmern zur Verfügung gestellt wurde. Die größere Version
umfasste 10 GigaByte und 1,69 Millionen Seiten. Eine kleinere Variante
konnte ebenfalls gewählt werden (HAWKING 2001:10).
PageRank und andere auf Links basierende Maße wurden von der Universität
Neuchatel in TREC eingesetzt (cf. SAVOY & RASOLOFO 2000). Die
Ergebnisse des Web Track in TREC mit PageRank und anderen Verfahren
weisen nicht darauf hin, dass die Berücksichtigung von HypertextVerknüpfungen die Ergebnisse des Retrievals verbessern kann. PageRank
verbessert das Retrieval in TREC also nicht. Dies gilt sowohl für die
Experimente einzelner Gruppen (z.B. KRAAIJ & WESTERVELD 2000, SAVOY
& RASOLOFO 2000) als auch für die globale Sicht auf die Experimente
(HAWKING 2001:10). Auch das beste System in 2001 benutzte keine LinkAnalyse-Algorithmen.
Eine Verbesserung der Qualität der Ergebnisse tritt allerdings für die Suche
nach Homepages und damit für Suchen nach einer konkreten Seite auf. Dies
gilt bereits bei den in TREC verwendeten Momentaufnahmen, die natürlich
bei weitem nicht das gesamte Internet umfassen. Damit werden weder alle
Links auf die in dem Sample enthaltenen Seiten erfasst, noch können alle in
dem Sample vorkommenden Verknüpfungen benutzt werden, weil viele von
ihnen auf Seiten außerhalb verweisen.
Die Validität der Ergebnisse war der Gegenstand mehrerer Debatten und
Untersuchungen. Dabei geht es um Argumente für und gegen die Repräsentativität der Kollektion.
SINGHAL & KASZKIEL 2001 verweisen auf Unterschiede zwischen der LinkHäufigkeit in den TREC Web Daten und anderen, größeren Sammlungen von
Web-Seiten. Die Autoren verweisen auf das Alter der Daten, die bereits 1997
gesammelt wurden. Nach ihren Analysen weisen die TREC-Daten wesentlich
1
Damit setzt sich ein Trend zur Verkürzung der Aufgaben fort, der bereits während des adhoc tasks vorherrschte. Während die Topics in TREC 1 noch sehr ausführlich und
elaboriert waren, formulierten die Veranstalter in den folgenden Jahren wesentlich
knappere Topics (cf. WOMSER-HACKER 1997).
180
weniger Links auf als aktuellere Web-Dokumente in großen Sammlungen.
Während im web track pro Seite durchschnittlich 1,5 ausgehende Links über
Sites hinweg vorliegen, so besitzen die Seiten von SINGHAL & KASZKIEL 2001
4,5 derartige Links. Bei den Links innerhalb der Seiten liegt das Verhältnis
bei 5,6 zu 11,6.
Die Validität der Experimente mit den Daten des TREC Web Track wird auch
von SOBOROFF 2002 analysiert. Dazu vergleicht der Autor die große
Kollektion des Web Track, welche 10 GigaByte und 1,69 Millionen Seiten
umfasst, mit den publizierten Eigenschaften größerer Web-Kollektionen.
Insbesondere nimmt der Autor Bezug auf die Untersuchung von BRODER ET
AL. 2000, bei der die statistischen Eigenschaften und die Struktur von zwei
Sammlungen von Web-Seiten (crawls) der Suchmaschine Altavista erhoben
wurden. Diese Eigenschaften wurden bereits oben vorgestellt. SOBOROFF
2002 analysiert die Häufigkeitsverteilung von In- und Out-Links sowie die
Verbindungsstruktur. Die Häufigkeit der Links verteilt sich exponentiell auf
die Anzahl der Seiten, wobei die Web Track-Kollektion lediglich im Exponenten von der Untersuchung in BRODER ET AL. 2000 abweicht. Der
Unterschied beträgt für in- und out-Links aber lediglich etwa 10%. Weiter
analysiert SOBOROFF 2002 die verbundenen Komponenten (Strongly and
Weakly Connected Components, SCC bzw. WCC). Deren Größe folgt in allen
bekannten Untersuchungen ebenfalls einer Exponentialverteilung und auch
für den Web Track konnte diese nachgewiesen werden. Letztendlich weist
SOBOROFF 2002 auch nach, dass sich die von BRODER ET AL. 2000 entdeckte
Struktur mit einem stark verbundenem Kern und vielen Seiten, die nur auf
wenigen Pfaden erreichbar sind, auch im TREC-Material widerspiegelt.
SOBOROFF 2002 kommt zu dem Schluss, dass die Sammlung des Web Track
sich unwesentlich von den anderen etwa zwanzigmal grösseren Sammlungen
unterscheidet. Demnach sei sie typisch für das Internet und die dadurch
durchgeführten Ergebnisse erbrächten valide Ergebnisse. Allerdings gilt diese
lediglich für die tatsächlich untersuchten Eigenschaften. Diese beeinflussen
möglicherweise die Resultate von link-basierten Algorithmen. Allerdings ist
über ihren konkreten Einfluss und möglicherweise andere Faktoren von WebSeiten, welche für das Retrieval entscheidend sind, noch wenig bekannt. Ob
demnach die ähnliche Wahrscheinlichkeitsverteilung (SOBOROFF 2002) oder
die unterschiedlichen absoluten Zahlen ausschlaggebend sind, lässt sich zum
gegenwärtigen Zeitpunkt nicht entscheiden. Trotz aller Vorbehalte kann die
Analyse von SOBOROFF 2002 als ein Argument für die Validität der
Ergebnisse des Web-Track gelten, jedoch keineswegs als Beweis dafür.
Eines der in Teil III vorgestellten Experimente bietet einen Erklärungsansatz
für die guten Ergebnisse bei der Suche nach Homepages. Eine Untersuchung
181
von Internet-Katalogen hat gezeigt, dass die Wahrscheinlichkeit eines HyperLinks auf eine Seite mit deren hierarchischer Einbettung in ein Angebot (site)
stark abnimmt. Autoren von Web-Seiten setzen Links also häufiger auf die
Eingangsseite (homepage) bzw. auf unmittelbar darauf folgende Seiten als
etwa auf Seiten der untersten Hierarchiestufe. Wertet ein Algorithmus die
Häufigkeit der In-Links einer Seite aus, dann steigt die Wahrscheinlichkeit,
dass er eine Seite auf hoher hierarchischer Stufe wie etwa die Homepage
liefert.
7.10.2 Web Track 2002 und 2003
Seit 2002 benutzt der Web Track eine neue Datenmenge, da der oben
beschriebene Crawl von 1997 bereits zu alt war, um die Realität im Web
Retrieval noch abzubilden. Die neue Kollektion besteht aus einem Crawl auf
der Domain gov1 (CRASWELL & HAWKING 2002). Die GOV-Kollektion
enthält 1,24 Millionen Seiten, darunter 1,05 Millionen HTML- oder TextSeiten. Diese enthalten 11,2 Millionen Links, wovon 2,47 Millionen zwischen
den Hosts verlaufen (CRASWELL & HAWKING 2003:2).
In 2002 wurde ein Topic Distillation Task eingeführt, bei dem neben der
Relevanz auch die Qualität der Seiten eine Rolle spielt. Der Juror sollte neben
der thematischen Relevanz prüfen, ob eine Seite qualitativ so gut ist, dass sie
in eine kurze Liste von URLs zu dem entsprechenden Thema aufgenommen
werden kann. Das Modell für diese Definition stellen Internet-Verzeichnisse
dar, auf eine weitergehende Definition wollen sich die Organisatoren des Web
Track nicht festlegen2.
Die in Yahoo! und DMOZ aufgeführten Seiten weisen laut CRASWELL &
HAWKING 2003:3 relativ viele eingehende Links sowie kurze URLs auf, so
dass diese Faktoren bei der Qualitätsanalyse berücksichtigt werden sollten.
Innerhalb der relevanten und qualitativ guten Seiten, die im Laufe des Tracks
intellektuell bewertet wurden, erwiesen sich diese beiden Faktoren als weitaus
weniger gute Indikatoren (CRASWELL & HAWKING 2003:5).
1
Diese Domain enthält offizielle Seiten von Behörden in den den USA.
2
„The ´relevant key pages` found by assessors should thus be relevant and possess that
special quality which makes pages worthy of inclusion in a short list. We did not go
further than this in defining what makes a page list-worthy, since it has not been agreed
in the research community what the definition is (quality, authority, definitiveness etc.)
and we did not want to bias assessments.“ (CRASWELL & HAWKING 2003:3)
182
Im topic distillation task ergab sich wie in den Retrieval tasks der Web Tracks
bis 2001 keine Verbesserung durch Link-Analyse. Die drei besten runs zur
topic distillation benutzten keine Algorithmen zur Analyse der Link-Struktur,
der beste run griff aber auf den Anchor-Text zurück (CRASWELL & HAWKING
2003:6).
<title> highway safety
<desc> Description:
Find documents related to improving highway safety in the U.S.
<narr> Narrative:
Relevant documents include those related to the improvement of
safety of all vehicles driven on highways, including cars, trucks,
vans, and tractor trailers. Ways to reduce accidents through
legislation, vehicle checks, and drivers education programs are all
relevant.
Abb.7.12: Beispiel für ein Topic des Web Track 2002 (CRASWELL &
HAWKING 2003:3)
Bei der Suche nach bestimmten Seiten (früher Homepage finding task, jetzt
Named Page Finding Task) nutzten nur drei von 18 Systemen überhaupt
Link-Analyse (CRASWELL & HAWKING 2003:7), obwohl diese sich in früheren
Jahren als sehr positiv erwiesen hatte (siehe vorigen Abschnitt). Grundsätzlich
erwiesen sich die Parametereinstellungen aus anderen Web Tracks nicht als
positiv. Die zwei besten Systeme kamen in 2002 ohne Link-Analyse aus,
während fast alle Systeme für diese Aufgabe Anchor-Text benutzten. In 2002
zeigte sich jedoch ein anderer Trend, die Dokument-Struktur wurde zunehmend genutzt und zwar besonders von den erfolgreichen Systemen. So nutzten die sieben besten Systeme im Named Page Finding Task in irgendeiner
Form die interne Struktur (CRASWELL & HAWKING 2003:7).
Es ist allerdings fragwürdig, ob offizielle Seiten der USA die typischen
Informationsbedürfnisse der Internet-Benutzer abbilden. Analysen zur
Validität stehen derzeit noch aus.
183
7.10.3 Fallstudien
In einigen kleineren Fallstudien untersucht Thelwall Link-AnalyseAlgorithmen für Universitäts-Webseiten. In THELWALL 2002a analysiert der
Autor die 100 englischen Universitäts-Seiten, auf welche die meisten Links
verweisen. Dabei wurden nur Links von anderen englischen Universitäten
gewertet. Ziel der Studie war es, zu untersuchen, ob diese Seiten auch als
qualitativ hochwertig im Sinne der Domäne bezeichnet werden können. Eine
intellektuelle Analyse zeigt, dass nur eine dieser Seiten überhaupt wissenschaftlichen Inhalt aufwies. Bei 45 Seiten handelte es sich um Einstiegsseiten
in das Angebot von Hochschulen. Daneben waren noch drei Einstiegsseiten
zu Instituten und vier zu Forschungsinstituten vorhanden, so dass diese
institutionellen Homepages bereits mehr als die Hälfte der Seiten ausmachen.
Ein weiteres Viertel der Seiten entfällt auf Link-Seiten, wobei 15 auf fachspezifische Informationen verweisen. Lediglich eine Seite enthielt selbst wissenschaftlichen Inhalt.
Damit zeigt THELWALL 2002a, dass im akademischen Bereich meist auf LinkSammlungen und Homepages verwiesen wird, dass also viele eingehende
Links eher auf einen Hub hinweisen als auf ein inhaltlich besonders hervorstechendes Angebot.
In einer kleineren Studie analysiert THELWALL 2003 drei Universitäten im
Detail und berechnet für alle Seiten in deren Web-Bereich die Anzahl der InLinks von anderen Universitäten sowie den PageRank aller Seiten auf der
Basis der Links zwischen Hochschulen (THELWALL 2003:208).
Die Ergebnisse zeigen Abweichungen zwischen PageRank und Anzahl der InLinks, die jedoch nicht sehr stark waren. Den höchsten PageRank-Wert wies
meist die Homepage der Institution auf. Unter den ersten zehn Seiten mit dem
höchsten PageRank befanden sich kaum Seiten mit wissenschaftlichen
Inhalten, sondern meist handelte es sich um juristische Anmerkungen wie
Copyright-Vermerke, Suchseiten, Sitemaps, Web-Statistiken und Glossare
(THELWALL 2003:210ff.).
Im Detail zeigt THELWALL 2003 darüber hinaus, wie Design-Entscheidungen
und die Auswahl von Technologie die PageRank-Werte beeinflussen. So
greift die Homepage der Universität von Wolverhampton auf Active Server
Pages1 zu, die nicht indexiert werden können. Dadurch steht diese Homepage
nicht an erster Stelle unter den Seiten der Universität von Wolverhampton
1
Active Server Pages (ASP) sind eine Technolgie von Microsoft, mit der dynamische
Web-Seiten erzeugt werden.
184
(THELWALL 2003:210). Die Verpflichtung zur einheitlichen Gestaltung und
entsprechende Navigations-Menüs auf offiziellen Universitäts-Seiten führen
bei der Universität La Trobe dazu, dass nur Seiten, auf welche die Homepage
verweist, unter den ersten zehn Seiten auftauchen (THELWALL 2003:209f.).
Thelwall stellt mit diesen empirisch fundierten Analysen die Effektivität von
PageRank in Frage. Zum einen beeinflussen Design-Entscheidungen die
PageRank-Berechnung und zum anderen enthalten die am höchsten
bewerteten Seiten keinen akademischen Inhalt. Dies mag ein durchaus
erwartetes Ergebnis sein, da wissenschaftliche Inhalte sehr fachspezifisch sind
und möglicherweise - wenn überhaupt – nur in ihrer Fachgemeinschaft hohe
Linkzahlen erzielen können. Somit ist die korrekte Auswahl einer WebCommunity sehr wichtig. Von allgemeinem Interesse ist die Tatsache, dass
besonders Link-Sammlungen hohe PageRank-Werte erreichen.
Die Aufnahme einer Seite in einen Internet-Verzeichnisdienst (WebDirectory, Subject Gateway) stellt eine intellektuelle und positive Bewertung
einer Seite dar. Dies sollte den Bekanntheitsgrad der Seite erhöhen und ihr
mittelfristig auch zu verbesserten Werten bei der Link-Analyse verhelfen.
THELWALL 2002b zeigt, dass jedoch auch das Gegenteil der Fall sein kann.
An einem kleinen Modellbeispiel mit einigen Seiten entwickelt er ein
Szenario, bei dem der PageRank von Seiten nach ihrer Aufnahme in einen
Internet-Verzeichnisdienst sinkt. Der Effekt ist im Wesentlichen darauf
zurückzuführen, dass laut THELWALL 2002b:103f. die Autoren nicht mehr
direkt auf gute Seite verlinken, sondern auf den Internet-Verzeichnisdienst.
Dies muss jedoch keineswegs der Fall sein. Derartige Modelle mit wenigen
Seiten geben die Komplexität von großen Netzwerken nur ungenügend
wieder. Gleichwohl zeigt THELWALL 2002b, dass unter bestimmten
Umständen auch dieser unerwünschte Effekt eintreten kann.
7.11 Bewertung komplexer Einheiten
Die Autoritätsmaße beziehen sich in der Regel auf die Einheiten, zwischen
denen die Hyperlinks liegen, den Seiten. Wünschenswert ist in vielen Fällen
eine stärkere Abstraktion und die Bewertung von größeren Einheiten,
insbesondere die Anwendung auf Web-Sites.
Einfache Möglichkeiten, die Link-bezogenen Maße auf Sites zu übertragen,
bestehen in der Bildung des Durchschnitts aller Seiten der Sites und der
Interpretation der Sites als Einheiten für den Link-Graphen.
185
Im Sinne der Graphen-Theorie lassen sich auch die Sites als Einheiten
interpretieren. Ein Link zwischen zwei Sites besteht dann, wenn ein Link
zwischen zwei Seiten dieser Sites vorliegt. Eine solche Analyse unternehmen
DILL ET AL. 2001, die eine umfassende quantitative Studie vornehmen und
dabei zahlreiche exponentielle Verteilungen nachweisen. DILL ET AL. 2001
nennen die entstandene Datenstruktur Hostgraph. Sie umfasst 663.700
Knoten und 1.127.900 Links. Die Autoren beobachten dafür Verteilungen, die
mit denen für Seiten fast identisch sind. Die Anzahl der in-Links pro Site im
Verhältnis zu der Anzahl von Sites, die so viele Links erhalten, folgt einer
exponentiellen Verteilung. Der Exponent der Verteilung liegt etwas höher als
der für Seiten ermittelte. Während für Seiten ein Exponent von etwa 2,1
vorliegt, weist die Verteilung von Sites einen Exponent von 2,3 auf. Damit
verläuft die Funktion etwas steiler. Bei sinkender Zahl von in-Links sinkt die
Häufigkeit der Sites schneller als die der Seiten. Auch für die Verteilung der
Häufigkeit von stark und schwach verknüpften Komponenten ergeben sich
exponentielle Verteilungen mit etwas höheren Exponenten (DILL ET AL.
2001).
Komplexere Maße zur Bewertung größerer Einheiten in Netzwerkstrukturen
sind auch aus der Bibliometrie bekannt. Sie betrachten z.B. die Stellung eines
Autors im Diskurs-Netzwerk und berücksichtigten über die Zitate hinaus die
institutionelle Zugehörigkeit und Ko-Autorenschaft. Ziel kann etwa sein, sehr
zentrale und wichtige Autoren für bestimmte Themen oder größere Gebiete zu
erkennen. (cf. MUTSCHKE 2001).
7.12 Fazit: Link-Analyse
Link-Analyse und darauf beruhende Autoritätsmaße wie der PageRankAlgorithmus finden Anwendung und werden in der Forschung derzeit intensiv
diskutiert. Zahlreiche Varianten von Link-Analyse-Algorithmen definieren
die Qualität von Internet-Angeboten über die Anzahl der darauf verweisenden
Links von anderen Seiten. Vorgänger der Link-Analyse finden sich in der
bibliometrischen Forschung, in der die Qualität wissenschaftlicher Publikationen bewertet wird und bei der Zitate die Links darstellen.
Trotz ihrer Popularität weist die Link-Analyse einige erhebliche Nachteile
auf, die in drei Kategorien fallen:
• Die Grundannahme über das Benutzerverhalten der Autoren von
Internet-Seiten ist fragwürdig. Das Setzen eines Links auf eine Seite
basiert keineswegs immer auf einem Qualitätsurteil, sondern kann auf
einer Vielzahl von anderen Gründen beruhen.
186
• Die Eigenschaften der Link-Matrix im Internet und die Eigenschaften
des PageRank-Algorithmus und seiner Ergebnisse führen zu einigen
Bedenken an der Adäquatheit von PageRank für die Qualitätsanalyse.
• Die bekannten Evaluierungs-Ergebnisse weisen nicht auf eine Verbesserung von Retrieval-Ergebnissen durch Link-Analyse hin.
Im weiteren Verlauf werden die einzelnen Argumente innerhalb dieser drei
Kategorien zusammengefasst.
Die Grundannahme der Link-Analyse besteht darin, dass der Autor einer
Internet-Seite seine Links eher auf qualitativ gute Seiten setzt. Demnach
müsste der Autor vorab eine Qualitätsüberprüfung vornehmen. Dies ist jedoch
eher selten der Fall. Es ist völlig unrealistisch, dass jeder Web-Autor das Ziel
seiner Links ständig auf hohe Qualität überprüft. Zum einen verändern sich
viele Seiten häufig (cf. BREWINGTON & CYBENKO 2000, FETTERLY ET AL.
2003, siehe Abschnitt 7.2) und zum anderen sind besonders populäre Angebote oft sehr groß. So wird oft auf den Verzeichnisdienst Yahoo verlinkt,
obwohl sicher kaum ein Autor vorher den gesamten hierarchischen Baum des
Verzeichnisdienstes betrachtet.
Verbindungen innerhalb eines Angebots dienen meist nur der Navigation, so
dass Entscheidungen über die Navigationsstruktur Einfluss auf das Ergebnis
der Link-Analyse haben. THELWALL 2002b zeigt, wie Design-Entscheidungen
und technologische Weichenstellungen die Autoritätsmaße verändern. Abbildung 7.13 skizziert Aufgaben für Links.
Bereits in ihrem ursprünglichen Einsatzgebiet - der Bibliometrie - stießen
Qualitäts-Kennzahlen auf Kritik. Gegner von bibliometrischen Analysen
bemängeln, dass die Dynamik und Pragmatik des wissenschaftlichen Publizierens durch einfache Kennzahlen nicht hinreichend abgebildet wird (cf. z.B.
FRÖHLICH 2000). Die Eignung solcher Maße für die noch ausgeprägtere
Dynamik des Internets muss daher auch bezweifelt werden. Im Gegensatz
zum traditionellen Publizieren können Dokumente auch verändert und völlig
gelöscht werden.
187
Navigations-Links
externer Link
Querverweis
Navigations-Links
Abb. 7.13: Links in einer Site-Struktur
Gerade für neue Seiten liefern Autoritätsmaße keine befriedigende Lösung.
Die Suchmaschinen hinken mit der Aktualisierung der von ihnen indexierten
Seiten ohnehin hinterher. Schwerer wiegt aber, dass eine Seite erst von vielen
Benutzern entdeckt und positiv bewertet werden muss, bevor einige dieser
Benutzer in ihren Seiten einen Link auf die Seite aufnehmen. Damit hinkt der
messbare PageRank-Wert auch sehr guter Seiten eine gewisse Zeitspanne
dem berechtigten und nach dem Bekanntwerden der Seite erreichten
PageRank hinterher.
Einige auffällige Eigenschaften der Link-Matrix des Internet erschweren die
Anwendung der Link-Analyse und verweisen auf weitere Nachteile.
• Der Matthäus-Effekt (cf. Abschnitt 7.8.2) führt dazu, dass bereits
bekannte Seiten in ihrer Popularität sehr viel stärker steigen können als
weniger populäre Seiten. Dieses Phänomen lässt sich in Simulationen
bestätigen und weist darauf hin, dass der PageRank-Wert keineswegs
nur auf der Qualität beruht, sondern von zahlreichen pragmatischen
Faktoren beeinflußt wird. Die überraschend deutlichen PotenzgesetzMuster in der Verteilung der PageRank-Werte im Web bestätigen die
Modelle der Web-Entwicklung. Demnach hängt die Wahrscheinlichkeit
für das Entstehen eines Links auf eine Seite hauptsächlich von der Zahl
der bereits vorhandenen In-Links ab.
188
• Links beruhen meist auf thematischer Ähnlichkeit, wie etwa die
Ergebnisse von CHAKRABARTI ET AL. 2002 zeigen. Zwar schließt dies
gleichzeitige Qualitätsüberlegungen bei den Autoren von Links nicht
aus, jedoch sind diese zumindest überlagert von der Suche nach
ähnlichen Seiten. Selbst bei relativ stark qualitätsorientierten Autoren
führt der meist eingehaltene thematische Bezug sicher häufig zu
Kompromissen.
• Web-Seiten werden von Autoritätsmaßen meist unabhängig von ihrem
Inhalt und Kontext bewertet. Ebenso wie Wissenschaften unterschiedliches Zitatationsverhalten aufweisen, ist davon auszugehen, dass in
verschiedenen Internet-Dokument-Typen unterschiedliche Verlinkungsneigung herrscht. Darauf weisen auch Ergebnisse des Web
Mining hin. Zwar ließen sich für thematisch heterogene Seiten keine
Differenzen nachweisen, jedoch besteht das Internet nach DILL ET AL.
2001 aus stark verknüpften Kernen und Seiten-Cluster, die darauf verweisen und aus Cluster, auf welches der Kern verknüpft.
Algorithmen der Link-Analyse können manipuliert werden. Dies geschieht
bereits in hohem Maße, da ein erhebliches wirtschaftliches Interesse daran
besteht, eigene Seiten bei möglichst vielen Internet-Suchen an vorderen
Ranking-Positionen zu sehen. Beim sogenannten Spamming wird meist versucht, einen Inhalt vorzutäuschen, den die Seiten nicht enthalten1. Link-Spamming bezeichnet das gezielte Erzeugen zahlreicher Links auf eigene Inhalte,
die der Algorithmus dann als Qualitätsurteile wertet2.
Die Maße beziehen sich auf einzelne Seiten und müssen für komplexe
Angebote adaptiert werden. Für die Realisierung in einer Suchmaschine kommen aber lediglich einfache Maße in Frage. Ferner erfordern die LinkAnalyse-Verfahren einen erheblichen Aufwand. Vorab muss die vollständige
Verbindungs-Matrix des Internets bekannt sein und dann erfolgt eine iterative
Berechnung auf einer sehr großen Matrix. Für einige Anwendungen zur
1
Für einen Überblick siehe THUROW 2003 und HENZINGER ET AL. 2002.
2
Kleinere Anstrengungen des Link-Spamming bestehen lediglich im der Absprache, gegenseitig Links auf die jeweiligen Seiten zu setzen. Teilweise wird als Dienstleisung
unter dem Schlagwort Suchmaschinenoptimierung sogar angeboten, durch geeignete
Verlinkung und andere Methoden die Position von Angeboten in den Trefferlisten der
Suchmaschinen zu erhöhen. Große Versuche erzeugen oft automatisch sogenannte LinkFarmen. Eine riesige, derartige Linkfarm identifizierten z.B. durch FETTERLY ET AL. 2003
innerhalb des deutschen Erotik-Angebots im Web.
189
Qualitätsbestimmung ist dieser Aufwand prohibitiv hoch. Trotz einiger
Ansätze zur Beschleunigung der Berechnung (KAMVAR ET AL. 2003, TSOI ET
AL. 2003) besteht daher nach wie vor ein Bedarf an einer online-Berechnung
während des Crawling-Prozesses aus den Eigenschaften der Seite (cf.
ABITEBOUL ET AL. 2003).
Letztendlich weisen die Resultate von umfangreichen Evaluierungen von
Link-Analyse-Algorithmen im Rahmen von Information Retrieval-Systemen
nicht auf Verbesserungen bei den Ergebnissen hin. Einschlägig sind hier vor
allem die Ergebnisse des Web-Track im Rahmen von TREC, bei dem LinkAnalyse-Verfahren von etlichen Gruppen implementiert und auf einer vergleichbaren Datenmenge angewandt wurden. In keinem Jahr und bei keiner
der beiden benutzten Kollektionen führte Link-Analyse zu einer Verbesserung
des Retrievals. Die besten Ergebnisse stammten immer von Systemen ohne
Link-Analyse (cf. HAWKING 2001, CRASWELL & HAWKING 2003, sowie
Abschnitt 7.10).
190
Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung
8. Weiterführende Systeme und Modelle für die automatische Qualitätsbewertung
Neben der Link-Analyse, die lediglich einen – wenn auch wichtigen – Faktor
für die Qualitätsabschätzung aufgreift, existieren weitere Ansätze zur Formalisierung von Qualitätsmodellen. Diese Ansätze werden in den folgenden Abschnitten systematisch aus der Perspektive der Qualitätsbewertung dargestellt.
Dabei handelt es sich meist um Prototypen, die einzelne Aspekte der Qualität
herausgreifen und dafür ein System entwickeln. Sie orientieren sich meist
entweder an einfachen Anhaltspunkten für die Gebrauchstauglichkeit von
Seiten oder die Verständlichkeit der Texte. Einige Systeme integrieren
einfache Qualitäts-Bewertungsverfahren in Information Retrieval-Systeme.
Während bei der Link-Analyse zunächst alle Seiten des Internet erhoben
werden müssen, um die Link-Struktur zu kennen, erlauben diese Verfahren
meist eine sofortige Berechung der Qualitätswerte nach dem Laden der Seite.
8.1
Teilweise formalisierte Modelle
Einige Modelle für die Untersuchung von Qualität sind nicht implementiert
und nur teilweise formalisiert, bieten aber Anhaltspunkte für wichtige formale
Faktoren, die in einem System zur Qualitätsbewertung berücksichtigt werden
könnten.
In einigen Untersuchungen konnte der Einfluss des Layout nachgewiesen
werden. BERLEANT 2000 untersucht den Erfolg von Förderanträgen in Bezug
auf verschiedene Eigenschaften. Die Analyse zeigt eine Abhängigkeit der
Qualität des Antrags und damit der festgestellten Förderungswürdigkeit zu
formalen Eigenschaften auf. Zu den Eigenschaften zählt die Schriftgröße,
Schriftart, das Vorhandensein eines Abstracts und das Pronomen, mit dem der
Autor auf sich selbst referenziert. Außerdem erkannte BERLEANT 2000, dass
auch der Zeitpunkt des Einreichens einen Anhaltspunkt für die Qualität
liefert. Förderanträge, die länger vor der deadline eingereicht wurden, hatten
größere Chancen auf Förderung als kurz vor Abgabefrist eingegangene. Auch
191
für das Internet werden Eigenschaften des Layout und der Gestaltung
zunehmend als wichtige Qualitätskriterien erkannt1.
Das umfassende Modell von FRITCH & CROMWELL 2001 berücksichtigt
größtenteils formale Aspekte von Internet-Angeboten, um deren Glaubwürdigkeit (cognitive authority) zu untersuchen. Das Modell kombiniert die
Autorität des Dokuments, des Autors und den offensichtlichen und versteckten Beziehungen des Dokuments oder des Autors zu Institutionen2. Dieses
Modells soll den Benutzer anleiten, die Glaubwürdigkeit von Angeboten zu
bewerten. Als formales Merkmal dienen die Internet-Adressen (URLs) von
Seiten wie auch die von E-Mail-Adressen, welche auf den Seiten zu finden
sind. Das Modell baut auf den Kriterienlisten zur Bewertung von InternetDokumenten auf, die oben diskutiert wurden.
FRITCH & CROMWELL 2001 skizzieren ein beispielhaftes Szenario für die
Bewertung der Glaubwürdigkeit. Der Benutzer analysiert darin mehrere Internet-Angebote mit verschiedenen Domain-Namen über eine islamistische
Gruppierung, die scheinbar kaum zusammenhängen und deshalb zunächst als
unterschiedliche Meinungsäußerungen wirken. Jedoch deckt die nähere Analyse auf, dass eine gemeinsame Organisation hinter allen Angeboten steckt3.
Der Benutzer entdeckt u.a., dass e-mail Adressen und ein Name eines
technisch Verantwortlichen auf mehreren der Angebote zu finden sind, während sonst kaum Information über die Betreiber gegeben wird. Nach Meinung
des hypothetischen Benutzers bei FRITCH & CROMWELL 2001 geben die
Webseiten verschiedene Abstufungen radikaler Einstellungen wieder. Daraus
ergibt sich die Folgerung, dass hier versucht wird, den Eindruck zu erwecken,
verschiedene unabhängige Anbieter seien alle zu den übereinstimmenden
positiven Meinungen über die radikal islamische Organisation gelangt. Dieser
Versuch sei als Täuschung und die Angebote daher als wenig glaubhaft
einzustufen.
Allerdings verbirgt sich hinter der Einschätzung von FRITCH & CROMWELL
2001 eine politische Meinungsäußerung, die von vielen anderen Benutzern
1
„For example, utility indexes may provide access to pages of a given length, pages of a
certain importance, or pages with some number of images in them” (ARASU ET AL.
2001:5).
2
„We consider four classes of information significant when ascribing authority –
document, author, institution, and affiliation“ (FRITCH & CROMWELL 2001:501)
3
Die Autoren beschreiben die Technik folgendermaßen: „providing seemingly disparate
Web sites that share common viewpoints and authorship, although the common authorship is not made obvious to the readers“ (FRITCH & CROMWELL 2001:505)
192
möglicherweise nicht geteilt wird. Teilt man die Meinung der Anbieter, dann
steht die eingesetzte Technik in einem positiven Licht, nämlich als der Versuch, einer unterdrückten aber gerechten Sache Gehör zu verschaffen.
Interessanterweise vermindert die oben geschilderte Technik zur Vortäuschung unabhängiger und wenig verknüpfter Seiten bei einer Linkanalyse zur
Bewertung der Autorität die Chancen zu einer guten Bewertung, da ja weniger Links auf alle Seiten verweisen. Eine Automatisierung diskutieren FRITCH
& CROMWELL 2001 nicht, sie erscheint auch nur teilweise möglich und lässt
sich angesichts des beispielhaften Szenarios auch nur auf Teile des sehr umfassenden theoretischen Modells der cognitve authority anwenden.
8.2
Automatische Zuordnung
Qualität bezeichnet primär die Exzellenz oder Güte eines Objekts. Daneben
kann Qualität auch als Eigenschaft allgemein interpretiert werden. Die
Erkennung von Eigenschaften könnte also auch unter der QualitätsBewertung subsumiert werden. Diese Perspektive steht zwar nicht im
Zentrum der Diskussion in dieser Arbeit, soll jedoch auch kurz behandelt
werden, da einige Verfahren übertragbar sind.
Eigenschaften von Texten erkennen bedeutet meist die inhaltliche Zuordnung
zu einem Themenbereich. Die automatische Zuordnung von Texten zu
Kategorien ist weit verbreitet und vor allem für folgende Anwendungen
wichtig:
• Indexierungsunterstützung: Aufgrund einer Volltextanalyse werden
Deskriptoren aus einem kontrollierten Vokabular identifiziert, die sich
mit hoher Wahrscheinlichkeit zur Indexierung des Dokuments eignen1.
Bei dieser Text Categorization werden die Dokumente anhand ihrer
Volltexte indexiert und dann erfolgt eine Abbildung von den VolltextTermen auf die kontrollierten Terme mittels eines maschinellen
Lernverfahrens (z.B. SEBASTIANI 2002, AAS 1999, HELLWEG ET AL.
2001).
• Das automatische Ordnen von Internet-Angeboten erfolgt häufig in
Yahoo-ähnliche hierarchische Strukturen (KLAS & FUHR 2000,
FROMMHOLZ 2001, CHAKRABARTI ET AL. 1998).
1
Dieser Ansatz wurde etwa mit dem Automatischen Indexier- und Retrievalsystem (AIR)
im Kontext des FIZ Karlsruhe verfolgt (cf. LÜCK ET AL. 1992).
193
• Einen Sonderfall des Ordnens von Dokumenten stellt das Clustering
dar, bei dem keine vorgegebenen Kategorien vorliegen. Diese müssen
aus dem Datenmaterial generiert werden1. Bedeutung im Internet haben
auch die Self Organizing Maps (SOMs) von Kohonen erlangt, die
ähnliche Cluster nebeneinander gruppieren. SOMs erstellen assoziative
Karten großer Dokumentmengen und verbinden so Datenanalyse und
Benutzungsoberfläche.
Filtering (routing) dient dazu, eine Menge von ständig neuen Dokumente wie
etwa aus einer Nachrichtenagentur mit langfristigen Anfragen oder Interessensprofilen abzugleichen und dem Benutzer laufend die potentiell relevanten
Dokumente zuzuleiten. Eine Untergruppe stellen Empfehlungssysteme
(recommender systems) dar, die möglicherweise interessante Objekte
vorschlagen2.
Diese Zuordnungs-Systeme basieren auf inhaltlichen Kriterien. Daneben spielen auch formale oder sprachliche Aspekte eine Rolle. Dazu gehört etwa die
automatische Erkennung der Sprache eines Textes. Ein Mehrwert in der
automatischen Kategorisierung kann bereits in der Erkennung von traditionellen Textsorten liegen wie etwa literarische, wissenschaftliche oder technische
Texte. Im Internet ergeben sich jedoch neue und für das WWW typische Kategorien. So kann ein Suchbedürfnis und ein entsprechendes Kategorisierungssystem auf Listen von Links, Clearinghouses oder Dokumenten mit
bestimmte Medien als Inhalten basieren.
Einen interessanten Vergleich zwischen inhaltlichen und linguistischen
Kriterien stellen FINN ET AL. 2001 vor. Sie versuchen Internet-Seiten mit
Nachrichten danach zu ordnen, ob sie eher Meinungen oder Fakten enthalten.
Während traditionelle Zeitungen diese Trennung z.B. durch unterschiedliche
Schriftart und gleichbleibendes Layout vornehmen, hat sich bei elektronischen Nachrichtendiensten hier noch kein Standard durchgesetzt, der einem
verteilten, auf verschiedene Quellen zugreifenden Dienst eine formale Erkennung erlaubt. Die Unterscheidung zwischen objektiven Nachrichten und subjektiven Kommentaren kann aber bei vielen Benutzerbedürfnissen ein wichtiges Kriterium sein.
1
Ein Beispiel bietet die Suchmaschine Vivisimo, siehe Abbildung 2.14.
2
Ein bekanntes Beispiel hierfür liefert der Online-Buchhändler Amazon
(http://www.amazon.de), der seinen Kunden Bücher vorschlägt, die zu bereits gekauften
Buechern ähnlich sind.
194
Der Ansatz von FINN ET AL. 2001 beschränkt sich bei der Klassifizierung auf
den Textteil und ignoriert formale Aspekte der Seite wie Layout oder
Schriftart. Dazu extrahieren die Autoren den eigentlichen Nachrichtentext mit
einer interessanten Heuristik und können so Grafiken, Werbung und Links
verwerfen. Die Heuristik beruht ausschließlich auf der Anzahl der HTMLTags in einer Seite, von denen im eigentlich inhaltstragenden Text nur wenig
enthalten sind. Dementsprechend wird der Quellcode einer Seite nach Tags
durchsucht und so ein Abschnitt identifiziert, in dem keine oder sehr wenige
Tags hinzukommen. Steigt die Anzahl der Tags im Quelltext wieder stark an,
beschreibt dieser Abschnitt vermutlich wieder einen Bereich außerhalb des
Textes, in dem die Navigation oder das Design festgelegt sind.
Die Datenmenge für die Untersuchung von FINN ET AL. 2001 besteht aus 350
Artikeln zum Sport und 230 Artikeln zu Politik. Für diese kleine Menge entschieden Menschen, zu welcher Kategorie ein Dokument gehört. Die Autoren
trainieren innerhalb jedes Gebietes zwei Klassifikationsalgorithmen. Der erste
nutzt wie im Information Retrieval und bei Text Categorization Verfahren
üblich die Wörter als Eigenschaften und ist damit stark inhaltlich orientiert.
Die Abbildung vom Termraum in den binären Entscheidungsraum lernt ein
Naive Bayes-Klassifizierer. Der zweite Ansatz von FINN ET AL. 2001 berücksichtigt auf einfache Weise die grammatische Struktur. Eine Part-of-SpeechAnalyse untersucht den Text und weist allen Wörtern ihre grammatikalische
Funktion zu. Die statistische Analyse dieses Ergebnisses dient als Input für
einen regelbasierten Klassifizierer, den C4.5-Algorithmus. Letzterer erbrachte
in allen Fällen die besseren Ergebnisse. Die trainierten Systeme konnten in
beiden Themengebieten über 85% der Dokumente richtig klassifizieren, wenn
sie in ihrem Trainingsbereich eingesetzt wurden. Die Autoren testeten auch,
wie gut die Systeme im anderen Themenbereich waren, also wie gut das für
die Sportdokumente trainierte System politische Texte in meinungs- bzw.
faktenorientiert unterscheiden konnte. Dabei sanken die Trefferquoten auf
etwa 60% ab.
Das Ergebnis beruht zwar auf einer kleinen Menge, aber die hohe
Trefferquote zeigt, dass der Ansatz Erfolg haben kann. Unklar bleibt die
genaue Herkunft der Dokumente, welche von einem Roboter aus dem Internet
geholt wurden. Falls z.B. viele der Meinungsartikel von einem Autor oder
einer Site stammen und die Faktentexte weitgehend von einer anderen Quelle,
dann könnte die Klassifikation eher individuelle Stilunterschiede als die
gewünschten Unterschiede gelernt haben.
Eine weitere unberücksichtigte Einflussgröße könnte in den verschiedenen
Algorithmen liegen. Für bestimmte Domänen sind verschiedene Klassifikationsverfahren unterschiedlich gut geeignet, so dass es sein kann, dass der
195
C4.5-Algorithmus diese Aufgabe zufällig besser löst als das lineare
statistische Naive Bayes-Verfahren. Zwar orientiert sich die Wahl der
Algorithmen an den Aufgaben und dem Umfang der Eigenschaften, jedoch
wären zumindest beide Experimente mit dem Naive Bayes-Verfahren möglich
gewesen. Der symbolisch orientierte C4.5-Algorithmus dagegen eignet sich
kaum für die erste, inhaltlich orientierte Repräsentation, die sehr viele
Eigenschaften erzeugt.
Trotz der Schwächen zeigt das Resultat, dass einfache linguistische Analysen
für bestimmte Fragestellungen sehr gute Ergebnisse bringen. In diesem Fall
scheint sich die Häufigkeit von grammatikalischen Funktionen gut als
Indikator für die gewünschte Abbildung zu eignen1. Deshalb sollten einfache
linguistische Größen für die automatische Bestimmung der Qualität mit
überprüft und getestet werden, soweit nur Inhalte in einer Sprache geprüft
werden. Möglicherweise geben sie Hinweise auf den sprachlichen Stil und
darauf, wie gründlich ein Text formuliert wurde. Sie haben aber eben den
Nachteil, dass sie sprachabhängig sind.
Zu den Zuordnungssystemen zählt auch die automatische Expertenidentifikation, die für ein Problem den geeignetsten Menschen finden will. Dabei
geht es meist aber nur um die thematische Zuordnung von Experten bzw. der
von ihnen erstellten Dokumente zu den Themen der Fragestellung und eben
nicht um das Bestimmen der Qualität des Experten etwa anhand der Qualität
seiner Dokumente (z.B. MAYBURY 1999).
Aufgrund des Verhaltens oder der erstellten Objekte (Texte) von Menschen
wird auf deren Expertise geschlossen, die dann wieder auf die Qualität der
von ihnen erzeugten Objekte übertragen werden kann. Schlussfolgerungen
aus dem Verhalten bergen Gefahren für täuschendes Verhalten. Sobald ein
Algorithmus beispielsweise aus der Verweildauer auf einer Seite und dem
Verfolgen bestimmter Verbindungen den Grad von Expertise des Benutzers
bestimmen könnte, würden sicher schnell Agenten programmiert, die dieses
Verhalten automatisieren und somit vortäuschen.
8.3
Qualitätsfilter
Die automatische Qualitätsbewertung findet ihre primäre Anwendung als
Filter über die Ergebnisse anderer Informationsdienste. Dabei wird die
1
„We conclude that the kind of language used in a document is a better indicator of
subjectivity than the content of the document“ (FINN ET AL. 2001:43).
196
Ergebnisliste nach Objekten mit niedriger Qualität durchsucht und diese
werden dem Benutzer dann nicht präsentiert.
Das Experiment von AMENTO ET AL. 2000 geht konsequent auf die
Anforderungen der Qualitätsbewertung ein. Die Autoren vergleichen ihre
Resultate auch mit den bekannten Verfahren der Link-Analyse und stellen so
die Beziehung zu etablierten Systemen der Qualitätsabschätzung her. Deshalb
soll das Experiment hier ausführlich dargestellt werden.
Wie bereits oben diskutiert, trennen AMENTO ET AL. 2000 Qualität explizit
von Relevanz (cf. Diskussion in Abschnitt 4.2). Darüber hinaus erkennen sie
den subjektiven und vagen Charakter von menschlichen Qualitätsentscheidungen an. Das Ziel des Experiments liegt v.a. darin, die Bewertung von Experten aufgrund einfacher formaler Eigenschaften der Seiten nachzubilden1. Falls
dies gelingt, ließe sich ein System mit den Eigenschaften der Seiten und den
Entscheidungen der Experten trainieren.
Das Experiment basiert auf fünf Mengen von Seiten, die jeweils ein Thema
aus dem Bereich populärer Unterhaltung behandeln, darunter etwa die
Fernsehserie The Simpsons oder die Musikgruppe Smashing Pumpkins. Daran
zeigt sich bereits, dass der Begriff des Experten hier relativiert werden muss,
es handelt sich hier nicht um Fachexperten im herkömmlichen Sinn, die sich
über Kompetenz in technischen oder wissenschaftlichen Themen definieren,
welche sie durch Ausbildung und längere berufliche Tätigkeit erworben
haben. Statt dessen besteht die Kompetenz dieser selbsterklärten Experten für
alltags- und freizeit-relevante Themen. Die Autoren begründen diese Entscheidung damit, dass 42% aller Anfragen in Internet-Suchmaschinen in das
Gebiet populärer Unterhaltung fallen (AMENTO ET AL. 2000:298). Dies ist ein
weiterer Hinweis auf die starke Durchdringung der Alltagswelt mit
Informationsdiensten. Zum einen müssen dementsprechend die Themen
populärer Unterhaltung aufgegriffen werden, zum anderen kann Qualität
akzentuierter von Relevanz abgegrenzt werden, da die Nutzung von
Informationssystemen zur Unterhaltung die Handlungsrelevanz und Zielgerichtetheit niedriger bewertet und den unterhaltenden Charakter stärker in
den Vordergrund rückt.
Zu den fünf ausgewählten und sehr breit definierten Themen suchten AMENTO
ET AL. 2000 nach Internet-Sites. Dazu bedienten sie sich des Verzeichnisdienstes Yahoo und ließen in einem ersten Schritt von Testpersonen, die sich
nicht als Experten auf diesem Gebiet bezeichnet hatten, aus den dort
1
„ … we examine how well the various rankings match human quality judgement“
(AMENTO ET AL. 2000:299).
197
präsentierten Angeboten die besten Sites auswählen. Die besten Angebote
sollten nützlich und umfassend sein1. Im zweiten Schritt kamen die Experten
im oben besprochenen Sinne zum Zuge. Sie bewerteten diese InternetAngebote auf einer Skala mit sieben Stufen nach ihrer Qualität, wobei
offensichtlich keine so klare Definition wie bei der Vorauswahl gegeben
wurde. Dies ist zwar sehr positiv, da die Qualität ein subjektives und globales,
aber dennoch klar verständliches Konzept ist, das in Studien nicht unnötig
verzerrt werden soll. Allerdings wirft dies nachträglich ein Problem bei der
Vorauswahl auf, bei der Kriterien vorgegeben wurden, die für den Experten
möglicherweise nicht relevant sind. So sucht ein Experte nicht mehr nach
einem umfassenden Überblick. Zwar schätzt er sicher die Umfassendheit und
Vollständigkeit eines Angebots, aber er will sich meist im Detail informieren.
Die Vorauswahl kann also zu einer Verfälschung geführt haben. Vermutlich
hielten die Autoren sie für nötig, um eine nicht zu heterogene Menge zu
erhalten.
Die Urteile der Experten wurden untereinander verglichen, um die
Übereinstimmung zwischen den Experten zu messen. Trotz der offensichtlichen Vagheit der Qualitätsentscheidungen ergaben sich durchschnittlich
Korrelationen von 0,71 zwischen den vergebenen Noten. Dieser relativ hohe
Wert zeigt, dass solche Untersuchungen grundsätzlich sinnvoll sind.
Die Ergebnisse der Experten wurde mit Rangfolgen verglichen, die sich aus
verschiedenen anderen, formal erkennbaren Eigenschaften der Seiten ergeben.
Dabei bezogen AMENTO ET AL. 2000 vor allem auf der Verlinkung basierende
Größen mit ein, die sich nach Analyse der näheren Umgebung ergab. Dazu
wurde aber nur eine sehr kleine Menge von Links verfolgt und in die Analyse
einbezogen. Alle Adressen mussten auf dem gleichen Server liegen, um
berücksichtigt zu werden. Die Verbindungs-Struktur wurde sowohl anhand
der Anzahl von ankommenden sowie ausgehenden Links gemessen als auch
mit dem PageRank-Algorithmus und dem hub- und authority-Gewicht von
Kleinberg, die oben erläutert wurden. Allerdings wurden die komplexeren
Algorithmen von Kleinberg und PageRank für größere Mengen von InternetSeiten entwickelt, als hier behandelt werden.
Daneben berechneten AMENTO ET AL. 2000 Größen wie den Umfang der
Datei und die Anzahl von Seiten auf der Site sowie die Anzahl von Grafiken
und Audio-Dateien. Als weitere komplexe Größe nennen sie die Relevanz,
eine thematisch orientierte Größe. Da keine Anfrage vorliegt, ist der Begriff
1
„We defined the ‚best‘ items as those that together gave a useful and comprehensive
overview for someone wanting to learn about the topic“ (AMENTO ET AL. 2000:298).
198
aber eher irreführend. Tatsächlich wird eine Art Zentralität errechnet, die sich
mit der Kohäsion von ZHU & GAUCH 2000 vergleichen lässt. Aus allen Seiten
zu einem Thema ergibt sich nach Standard-Indexierung ein durchschnittlicher
Zentrumsvektor, der im hochdimensionalen Term-Raum in der Mitte aller
Seiten liegt. Die Autoren setzen für die Berechnung die Retrieval-Software
Smart (SALTON & LESK 1965) ein. Die Distanz der einzelnen Seite oder der
Site davon bildet ein weiteres Maß für den Vergleich mit den menschlichen
Urteilen. Auch hier ist anzumerken, dass ein Information Retrieval-System
natürlich für andere Anwendungen und andere Datenmengen entwickelt
wurde, so dass die hier damit berechnete Größe evtl. nicht das Gewünschte
wiedergibt. Andererseits öffnet die Benutzung von Standardverfahren die
Möglichkeit, im Erfolgsfall bereits vorliegende Systeme für die Qualitätsbewertung zu verwenden.
AMENTO ET AL. 2000 betrachten zunächst die Übereinstimmung der LinkAnalyse-Verfahren untereinander. Dahinter steht die Frage, ob komplexe
Algorithmen wie Kleinberg oder PageRank erforderlich sind, oder ob nicht
etwa das einfache Zählen der Links ausreicht. Dazu wird die Korrelation
zwischen den unterschiedlichen Rangfolgen der Sites berechnet und es zeigt
sich, dass die Übereinstimmung höher ist als bei den Experten, wo allerdings
ein anderes Korrelationsmaß zur Anwendung kam, da die Daten auf einer
Skala lagen. Vor allem die Anzahl der ankommenden Links korrelierten stark
mit dem Authority-Maß nach Kleinberg. AMENTO ET AL. 2000 führen dies auf
die kleine Anzahl von Sites in ihrem Experiment zurück und folgern, dass in
einer bereits vor vorneherein relevanten Menge kein komplexes Maß nötig ist.
Dazu ist anzumerken, dass bei einer relativ geringen Anzahl von Seiten auch
der Gewinn durch die Verwendung eines einfachen Maßes nicht entscheidend
ist. Erst bei großen Datenmengen macht sich die Komplexität von PageRank
oder dem Kleinberg-Maß bemerkbar.
Das eigentliche Ziel von AMENTO ET AL. 2000 bestand aber in der Messung
der Übereinstimmung von menschlichen Urteilen und dem Ranking anhand
einfacher formaler Größen. Dazu sollte die Präzision anhand eines typischen
Information Retrieval-Maßes überprüft werden, der Frozen Rank-Methode,
bei der nur die ersten n Dokumente berücksichtigt werden, eine im Internet
sehr realistische Annahme. Grundsätzlich stellt sich natürlich die Frage,
inwieweit Information Retrieval-Maße für die Analyse von Qualitätsergebnissen überhaupt geeignet sind. Da die menschlichen Bewerter die Sites
anhand einer Siebener-Skala beurteilt haben gilt dies um so mehr, da bei der
Evaluierung von Information Retrieval-Ergebnissen binäre Relevanzbewertungen üblich sind. Die sieben Noten wurden in ein binäres Urteil
umgeformt, wobei die drei höchsten Klassen als gute Qualität galten und die
199
übrigen als schlechte Qualität. Dies willkürliche Grenze ist besonders problematisch, da die Experten bei ihren Urteilen über diese binäre Bewertung ihrer
Entscheidungen nicht informiert waren. Während zum Zeitpunkt der
Bewertung die Distanz zwischen Note drei und vier also gleich groß ist wie
die zwischen vier und fünf, wird durch die Umformung in binäre Urteile die
erste Unterscheidung bedeutungslos und die zweite entscheidend. Die
Autoren hätten die Ergebnisse zumindest für eine weitere Grenze für die
binäre Einordnung berechnen sollen und durch den Vergleich zeigen können,
ob der gewählte Schnittpunkt Einfluss auf das qualitative Ergebnis hatte.
Dieser Problematik wird in anderer Weise Rechnung getragen, die Ergebnisse
werden zusätzlich nach einer Mehrheitsregel analysiert, um zu berücksichtigen, wie viele Experten eine Seite als sehr gut bewertet hatten. Dahinter
steht die Annahme, dass eine Qualitätsaussage von mehr Experten ein höheres
Gewicht und höhere Zuverlässigkeit hat als die von relativ wenig Experten.
Für eine Auswertung wurden die Entscheidungen der Experten mit einer
absoluten Mehrheitsentscheidung zu einer wiederum binären Aussage zusammengefasst und in einer zweiten Auswertung wurden den Seiten Qualitätswerte zwischen Null und Eins zugesprochen, abhängig vom Anteil der Experten, die diese Bewertung abgaben. Für diese zweite Größe wurde aber wieder
die binäre Entscheidung genutzt, nämlich ob die einzelne Site mit einer der
drei besten oder einer der vier schlechteren Noten bewertet wurde. Da
ohnehin nur drei bzw. vier Experten zu jedem Thema eingesetzt wurden,
erscheint eine Mehrheitsentscheidung ohne Berücksichtigung der Einzelbewertung willkürlich.
Die Auswertung zeigt zunächst, dass die Größen immer besser wirkten, wenn
sie auf eine komplette Site bezogen waren als bei der Berücksichtigung
individueller Pages.
Die fünf besten Indikatoren für Qualität lagen in dem Experiment von
AMENTO ET AL. 2000 gleich auf. Dazu gehören drei Größen auf der Basis von
Verlinkung, die Anzahl eingehender Links, der PageRank und Kleinbergs
Authority-Index sowie die Anzahl der Seiten der Site und die Anzahl der Grafiken. Schlechtere Indikatoren dagegen waren die Anzahl der ausgehenden
Verbindungen, die Anzahl von Audio-Dateien, die Größe der Startseite, die
inhaltliche Größe, welche die Autoren als Relevanz bezeichnen sowie Kleinbergs Hub-Index, der aber ohnehin nicht für die Messung von Qualität gedacht ist. Dieses Ergebnis ergab sich sowohl für die Links zwischen Pages als
auch zwischen Sites.
200
Die Autoren gelangten somit zu der verblüffenden Aussage, dass die Anzahl
der Seiten eines Angebots ein ebenso guter Indikator für die Qualität dieses
Angebots ist wie die elaborierte Analyse der Verlinkung1. Eine plausible Erklärung dieses Ergebnis sehen die Autoren darin, dass die Anzahl der Seiten
einen Indikator für den Aufwand und die Gründlichkeit des Autor bildet und
damit für dessen Mühe, die auch die Qualität widerspiegelt.
AMENTO ET AL. 2000 untersuchten weiterhin, inwieweit die Unterschiede
zwischen den Größen statistisch signifikant sind. Zwischen den fünf besten
Größen konnten keine signifikanten Unterschiede mehr erkannt werden. Nur
die Anzahl der ankommenden Links konnte gegenüber den anderen Größen
eine signifikante Verbesserung erreichen. Alle fünf besten Größen waren
signifikant besser als die Relevanz (AMENTO ET AL. 2000:302). Bei der
geringen Anzahl von Sites und von Bewertern bei dem Experiment wirft die
Analyse aber eher Fragen nach dem zugrunde liegenden statistischen Modell
auf.
Leider kombinieren AMENTO ET AL. 2000 die einfachen erhobenen Eigenschaften nicht, um so die Ergebnisse einer Fusion von mehreren Evidenzen zu
berechnen. Somit sind die Ergebnisse von AMENTO ET AL. 2000 nur zum Teil
verwertbar. Sie zeigen zwar das Potential weiterer Indikatoren zur Qualitätsbewertung, welche über die Link-Analyse hinausgehen und diese in diesem
Anwendungsfall bereits übertreffen. Jedoch reichen die wenigen und nicht
kombinierten Kriterien für größere Datenmengen nicht aus.
Dieses Vorgehen führt nicht nur im Information Retrieval allgemein zu guten
Ergebnissen. Auch bei dem bereits diskutierten Ansatz von BUCY ET AL. 1999
ergaben sich interessante Zusammenhänge bei zusammengesetzten Strukturvariablen. Der im Folgenden vorgestellte Ansatz von ZHU & GAUCH 2000
kombiniert ebenso einfache Maße zu komplexen Variablen.
CARRIÉRE & KAZMAN 1996 stellen mit WebQuery einen Filter für die
Ergebnisse einer Suchmaschine vor. WebQuery ordnet die Ergebnisse einer
Suchanfrage nach der Häufigkeit der Verknüpfungen, wobei die Summe der
Verweise auf die Seite (in-links) und die Anzahl der Verknüpfungen zu
anderen Seiten (out-links) addiert wird. Die Seiten mit der höchsten
Connectivity werden in einer kreisförmigen Visualisierung zentral angeordnet
und sollen so dem Benutzer zuerst ins Auge fallen.
1
„simply counting the number of pages on a site gives as good an estimate of quality as
any of the link-based computations“ (AMENTO ET AL. 2000:301).
201
8.3.1 Integration von Qualitätsmetriken in Retrieval-Verfahren
Der Ansatz von ZHU & GAUCH 2000 integriert einen Ansatz zur Bewertung
von Qualität in ein Information Retrieval-System1. Er stellt einen der wenigen
Ansätze vor, die eine komplexe Definition von Qualität realisieren. Die
Autoren schlagen sechs Kriterien für Qualität vor: „currency, availability,
information–to-noise ratio, authority, popularity, and cohesiveness“ (ZHU &
GAUCH 2000:288). Sie begründen die Auswahl mit einer Analyse von
Literatur zu der intellektuellen Analyse von Qualität und stellen fest, dass
diese Aspekte in den meisten Kriterienlisten vorkommen. Sie stellen konkrete
formale Umsetzungen dieser Aspekte vor:
• Die Aktualität (concurrency) wird mit Hilfe der letzten Änderung
bestimmt, die dem Änderungsdatum der Datei (timestamp) entnommen
wird und nicht einem Eintrag in der Datei.
• Verfügbarkeit (availability) wird anhand der nicht gültigen Verbindungen (dead links) bestimmt. Der Begriff hierfür wirkt etwas irreführend und scheint zunächst auf einen anderen ebenfalls eher
technisch orientierten Aspekt hinzuweisen, nämlich wie gut der Server
der Seite erreichbar ist und wie schnell die Seite selbst aufgerufen
werden kann.
• Die Größe Information-to-Noise Ratio lässt sich am besten mit
Informationsgehalt ausdrücken. Die formale Umsetzung berücksichtigt
die Anzahl der Tokens im Text und setzt sie in Verhältnis zu der Dateigröße. Damit wird weder Grafiken, Farben noch anderen nicht textuellen Informationsträgern ein Informationsgehalt zugeschrieben. Hinter
dieser Größe lassen sich mehrere Intentionen vermuten. Aus eher technischer Sicht ist ein niedriger Informationsgehalt problematisch, da er
die Ladezeit erhöht. Aber auch inhaltlich kann diese Größe eine Rolle
spielen. Die häufige Wiederholung von Wörtern wirkt sich negativ auf
die Größe aus. Damit misst die Information-to-Noise Ratio ebenso
stilistische Eigenschaften einer Seite und belohnt prägnanten Ausdruck.
• Popularität (popularity) bestimmen ZHU & GAUCH 2000 anhand der
Anzahl der Verbindungen, die zu einer Seite führen. Dabei wird die
Qualität der referenzierenden Seite nicht berücksichtigt, d.h. jede
1
Die Autoren formulieren ihr Ziel wie folgt: „present an approach that combines
similarity-based ranking with quality ranking in distributed search environments“ (ZHU
& GAUCH 2000:288).
202
Verbindung zählt gleich viel. Diese Größe entspricht eher dem, was in
anderen Studien als Autorität bezeichnet wird. Popularität betrachten
die meisten Autoren als Funktion der Anzahl der Zugriffe auf eine
Seite.
• Autorität messen die Autoren anhand intellektueller Bewertungen im
Rahmen eines Internet-Dienstes von Yahoo1, der auf einer Skala von
zwei bis vier liegt. Ob diese Rezensionen sich ausschließlich auf die
Autorität beziehen, muss bezweifelt werden. Solche Bewertungen
beziehen sich i.d.R. auf umfassendere Aspekte wie etwa globale
Qualität. Eine ausschließliche Bewertung der Autorität durch Benutzer
ist für diese schwierig und für einen Internet-Dienst wenig sinnvoll.
• Die Kohäsion (cohesiveness) von Internet-Seiten beziehen ZHU &
GAUCH 2000 auf die enthaltenen Texte und messen den inhaltlichen
Zusammenhang einer Seite oder eines gesamten Angebots. Dazu
suchen sie die dominantesten Themen der Objekte und messen deren
semantischen Abstand. Je größer der Abstand, desto geringer ist die
Qualität der Objekte. Realisiert wird die Messung der thematischen
Abstände über die Ontologie eines hierarchisch gegliederten InternetKatalogs. Die meist ca. 20 Web-Angebote einer Hierarchie werden
zusammengehängt und indexiert. Der entstehende Gewichtsvektor
definiert eine Art Cluster-Zentroid, ein exemplarisches Dokument, das
diese Kategorie vertritt. Jede betrachtete Internet-Seite wird ebenfalls
indexiert und mittels des Kosinus-Ähnlichkeitsmaßes werden die dazu
20 ähnlichsten Konzepte identifiziert. Der Abstand zwischen den 20
passendsten Konzepten gilt als Maßstab für die Kohäsion der Seite.
Dazu wird der Abstand über die Länge des zu durchschreitenden
Pfades zwischen den Konzepten gemessen und mit dem Maß der
Ähnlichkeit zwischen Seite und Konzept relativiert.
Ausgehend von diesen Definitionen und ihren Umsetzungen stellen ZHU &
GAUCH 2000 ein Modell für verteiltes Information Retrieval vor, das den
Fusionsaspekt betont. Sie führen drei Experimente durch:
• Verteilte Informationssuche: Die Berechnung der Retrieval Status
Value beinhaltet die Qualitätsmerkmale, die jeweils mit einem Gewicht
multipliziert werden, das die Wichtigkeit des entsprechenden Merkmals
wiedergibt. Die mittels des Produkts aus Term-Frequenz und inverser
1
Yahoo Internet Life: http://www.zdnet.com/yil
203
Dokument-Frequenz berechnete Ähnlichkeit zwischen Anfrage und
Dokument wird mit dem Endergebnis der Qualitätsanalyse multipliziert. Das Gewicht für die Wichtigkeit der Ähnlichkeitsmerkmale wurde folgendermaßen ermittelt: Jedes Qualitätsmerkmal wurde einzeln
mit dem Ergebnis des Standard-Retrieval kombiniert. Aus den Ergebnissen wurde die Verbesserung gegenüber einem Versuch ohne Einfluss von Qualitätsaspekten gemessen. Die Verbesserung des RetrievalErgebnisses bestimmt die Wichtigkeit des Merkmals.
• Site-Auswahl: Das gleiche Experiment wurde auf der Ebene der
gesamten Site durchgeführt. Die Qualitätsmerkmale werden für alle
Seiten innerhalb der Site berechnet und daraus bestimmen ZHU &
GAUCH 2000 durch Mittelwertbildung die Qualität der gesamten Site.
Gewichte für die Wichtigkeit der einzelnen Merkmale werden auf die
gleiche Weise wie oben bestimmt und gehen analog ins Ergebnis ein.
Das Gesamtergebnis ergibt sich wieder als Produkt der Ähnlichkeit
zwischen Anfrage und Dokument und der gewichteten Summe der
Qualitätsindikatoren.
• Fusion von Retrieval-Ergebnissen: Grundsätzlich versuchen Fusionsansätze, die Qualität eines Gesamtergebnisses durch das Ausnutzen
unterschiedlicher Evidenzen zu verbessern (cf. MANDL & WOMSERHACKER 2001). Im maschinellen Lernen (siehe Abschnitt 3.1) werden
entsprechende Algorithmen wie Boosting und Bagging als Committee
Machines bezeichnet (cf. HAYKIN 1999, siehe Abschnitt 2.3) und
werden vorwiegend zur Optimierung in der Klassifikation eingesetzt.
Im Information Retrieval stellen meist mehrere Retrieval-Algorithmen
die einzelnen zu fusionierenden Ergebnisse dar und diese werden durch
gewichtete lineare Kombinationen zusammengefasst. Die Gewichte der
linearen Kombination entsprechen der Güte der einzelnen Systeme und
ergeben sich aus früheren Erfahrungen. Im vorliegenden Ansatz von
ZHU & GAUCH 2000 dagegen stellt jede Web-Site eine Evidenzquelle
dar, die mit einem entsprechenden Gewicht für ihre Güte gewichtet
wird. Diese Güte entspricht der Qualität nach den oben angeführten
Kriterien. Die Gewichte der einzelnen Qualitätsaspekte der auch in
diesem Fall linearen Kombination ergeben sich nach dem gleichen
Prinzip wie in den vorhergehenden Experimenten, sie entsprechen der
Verbesserung gegenüber einem Experiment ohne Berücksichtigung der
Qualität. Der Einfluss der Qualität erscheint hier im Vergleich zu
inhaltlichen Kriterien sehr hoch.
204
Die Datenbasis ist nicht sehr umfangreich, für jedes der fünf Anwendungsgebiete1 werden vier Internet-Angebote aus dem kommentierten und bewerteten Yahoo-Internet-Life ausgewählt, wobei die Autoren angeben, dass die
Qualität variierte. Die Anfragen spiegeln reale Benutzerbedürfnisse wieder
und stammen aus einem Log-File.
Der Aufbau des Experiments offenbart einige Schwächen.
• Das Bedürfnis, das umfassende System auch zu implementieren, führt
zu einigen heuristischen Annahmen, die nur schwer zu begründen sind.
Besonders die Definition von Kohäsion enthält etliche problematische
Annahmen, wie etwa die Auswahl einer beliebigen Ontologie als
alleinige Wissensquelle sowie die Anzahl der ausgewählten dominanten Themen. Da zwischen den Seiten aus der Ontologie und der
Testmenge für das Retrieval explizit keine Doppelung ausgeschlossen
ist, kann es hierzu zu Problemen kommen. Dokumente, die den Maßstab für Kohäsion mit festlegen, können mit diesen Kriterien bewertet
werden und erhalten so notwendigerweise hohe Qualitätswerte.
• Auffällig ist auch die Bewertung des Merkmals Kohäsion. Ein
Angebot, das in umfassender Weise informiert und so vielleicht einen
interessanten Zusammenhang zwischen anscheinend entfernten Themen herstellt, gilt nach dieser Definition als schlecht. Belohnt werden
dagegen thematisch sehr enge und eingeschränkte Seiten, was nicht für
jedes Benutzerbedürfnis angemessen sein dürfte.
• Problematisch ist das Verhältnis der Anzahl von Seiten, die für die
Erstellung der Ontologie benutzt wurden, im Vergleich zu der
Testmenge für das Retrieval. Für beide Aufgaben wurden ungefähr
gleich viele Seiten benutzt, so dass ein Aspekt der Qualität so sorgfältig
bearbeitet wurde wie das gesamte Experiment.
• Die Autoritäts-Definition von ZHU & GAUCH 2000 basiert auf
intellektuellen Urteilen, die sich eher auf globale Qualität beziehen.
Dieser Aspekt ist unter den andern fünf der einzige, hinter dem sich
eine intellektuelle Einschätzung verbirgt. Dies kann sich als Nachteil
erweisen, wenn nicht alle zu betrachtenden Seiten von Menschen
bewertet wurden. Alle anderen Faktoten lassen sich vollautomatisch für
jede Seite erfassen, so dass die so definierte Autorität eine ernsthafte
Einschränkung für die Menge der zu verarbeitenden Seiten darstellt.
1
Kunst, Musik, Computer, Fitness, allgemeine Informationen (cf. ZHU & GAUCH 2000:
291)
205
Die Ergebnisse der Experimente werden mit Standard-Evaluationsmaßen aus
dem Information Retrieval bewertet. Die zurückgelieferten Seiten wurden von
menschlichen Evaluatoren betrachtet und als relevant oder nicht relevant
eingeordnet. Daraus wurde die durchschnittliche Precision berechnet. Alle
drei Experimente liefen zunächst ohne Qualitätsmerkmale und mit allen
Qualitätsmerkmalen einzeln. Fast immer ergab sich eine Verbesserung der
durchschnittlichen Precision, die dann als Gewicht der Wichtigkeit des
Merkmals diente. Durch die Kombination mehrerer Merkmale ergaben sich
teilweise bessere Werte als bei einzelnen Qualitätsmerkmalen, aber in keinem
Fall basierte das beste Ergebnis auf allen Merkmalen. In allen drei Experimenten ergaben sich unterschiedliche Resultate:
• Im ersten Experiment ergaben die Qualitätsmerkmale Verbesserungen
von 5% bis 15% wobei die vier besten Merkmale Informationsgehalt,
Kohäsion, Erreichbarkeit und Aktualität waren. Die Kombination aller
Merkmale konnte die durchschnittliche Precision um 20% erhöhen,
während bei der Kombination der vier genannten besten Merkmale die
Verbesserung 25% betrug. Interessant daran ist v.a., dass die am häufigsten benutzten Merkmale Autorität und Popularität am schlechtesten
abschneiden. Dagegen erbringen die problematischen Merkmale bessere Werte. Die besten Ergebnisse sind wie im folgenden Experiment
statistisch signifikant.
• Das Experiment mit Qualitätswerten für gesamte Sites ergibt eine Erhöhung der durchschnittlichen Precision um 25% bei Berücksichtigung
der Kohäsion. Dahinter liegen fast gleichauf Popularität, eine Kombination aus Erreichbarkeit, Informationsgehalt und Popularität, eine
Kombination aller Merkmale, Erreichbarkeit und Informationsgehalt.
Dieses Resultat weist darauf hin, dass die Definition von Kohäsion sich
für gesamte Sites gut eignet.
• Im Fusionsexperiment dagegen führt die Kohäsion zu einer Verschlechterung um 10%. Nur die Popularität erreicht hier eine Verbesserung von 5%, die statistisch signifikant ist.
Unklar bleibt, ob die Ergebnisse auch tatsächlich von höherer Qualität waren.
Die Seiten wurden offensichtlich nur auf binäre Relevanz überprüft und nicht
daraufhin, ob nun bessere Seiten nachgewiesen werden. Dazu hätte sich ein
Vergleich der Ergebnisse mit und ohne die Qualitätsmaße angeboten.
Eventuell sind Seiten mit niedriger Qualität gefiltert worden oder Seiten mit
hoher Qualität erreichten höhere Plätze im Ranking.
206
Unterschiede bei der Wichtigkeit der Qualitätsaspekte zwischen den
verschiedenen Themengebieten der Internet-Angebote werden nicht berichtet.
Eine mögliche Optimierung der Gewichte der Qualitätsmerkmale und damit
der linearen Kombination mit maschinellen Lernverfahren wird nicht untersucht.
Trotz dieser Schwächen verweisen die Ergebnisse auf interessante Tendenzen, die aber für nicht integrative Ansätze nicht ungeprüft übernommen
werden sollten:
• Je nach Aufgabenstellung und bewerteten Einheiten können völlig
andere Qualitätsmerkmale ausschlaggebend sein.
• Eine Analyse mehrere Merkmale und ihrer Kombinationen zahlt sich
aus. Allerdings können teilweise auch sehr einfache Merkmale eine
gute Annäherung von Qualität erreichen.
8.3.2 Zeitliche Aspekte
Der Crawler der Suchmaschine Altavista1 setzt auf einfache Weise das Qualitätskriterium Aktualität um. Der automatische Indexierungsagent besucht die
Seiten so häufig wie sie sich zu ändern scheinen. Dadurch werden zwar Änderungen registriert und der Index bleibt auf einem aktuellen Stand, d.h. er
entspricht dem Zustand der Seiten. Trotzdem schont dieses Vorgehen die
Ressourcen, da unnötige Besuche vermieden werden.
Auch CHI ET AL. 1998 weisen auf die zeitliche Dimension von Informationsqualität im Internet hin. Ihr Ansatz visualisiert sowohl die strukturelle
Entwicklung eines Internet-Angebots als auch die Zugriffshäufigkeit. Basis
der Visualisierung ist die Topologie der Verknüpfung der Seiten untereinander, die kreisförmig aufgebaut ist. In der Mitte positioniert sich die Wurzel
und in konzentrischen Kreisen erscheinen die Seiten mit gleicher Anzahl von
passierenden Links von der Wurzel aus. So lassen sich nicht nur statische
Aspekte wie nicht besuchte Bereiche erkennen, sondern auch interessante
Entwicklungen verfolgen. Das System erlaubt es, Seiten zu identifizieren, die
sich im Lauf der Zeit zu sehr populären Seiten entwickelt haben und
entsprechende Beziehungen zu strukturellen Änderungen zu erkennen. CHI ET
AL. 1998 zeigen, dass bei ihrem Anwendungsfall, der Website der Firma
XEROX, solche Entwicklungen auftraten, dass die Popularität und zumindest
die durch sie ausgedrückten Aspekte der Qualität zeitlichen Änderungen
1
http://www.altavista.de bzw. http://www.altavista.com
207
unterliegen. Mit diesem Ansatz ließen sich also Änderungen von formalen
Eigenschaften erkennen, die erheblichen Einfluss auf die Popularität haben.
Dieser Effekt wird natürlich stark von inhaltlichen Aspekten überlagert.
CHI ET AL. 2000 verfeinern die entwickelte Methodologie weiter und beachten
für eine ähnliche Datenmenge aus der Website der Firma XEROX zudem die
interne Verlinkung unter den Seiten, die inhaltliche Ähnlichkeit der Seiten
und Pfade, entlang derer sich die Benutzer bewegen.
8.4
Gebrauchstauglichkeit
Die Gebrauchstauglichkeit stellt ein entscheidendes Qualitätskriterium für
Informationssysteme dar, das sich im Internet kaum von den Inhalten trennen
lässt1. Die Bewertung von Gebrauchstauglichkeit ist ein sehr aufwendiger
Prozess, zu dem in der Regel Benutzertests nötig sind. Deshalb entstanden
auch in diesem Forschungsbereich Ansätze zur Automatisierung dieser
Bewertung. Ein frühes Beispiel ist das System EVADIS zur leitfadengestützten Bewertung einer Benutzungsoberfläche. EVADIS unterstützt einen
Experten bei seiner Evaluierung durch Vorgabe konkreter Kriterien (OPPERMANN ET AL. 1992). Ein ähnliches System stellt WebScore dar, das sich an
Kriterienlisten für die Qualität von Web-Seiten orientiert (HEIDMANN &
ZIEGLER 2002). Mit dem Siegeszug des Internets stieg der Bedarf erheblich
und so entstanden Systeme mit weitergehender Automatisierung, die sich in
einfache und komplexe unterteilen lassen. Grundlage für einige der automatischen Bewertungsfunktionen sind Vorschläge aus Ratgebern (VAN
DUYNE ET AL. 2003), Normen (z.B. DIN EN ISO 14915-3 2002, DIN EN ISO
9241-10 2004) oder Regeln und Richtlinien (W3C 2005).
Die erste Stufe bilden Systeme, die sich aus HTML-Syntax-Prüfern
entwickelten. Sie setzen auf sehr konkreten Forderungen zur Steigerung der
Gebrauchstauglichkeit auf wie etwa den Forderungen nach alternativen
Texten zu Grafiken und den Anforderungen für sehbehinderte Benutzer
(CHAK 2000). Diese einfachen Kriterien repräsentieren aber nur einen Teil der
Gebrauchstauglichkeit und vernachlässigen weitgehend die Seitengestaltung
und die Navigation, wie der folgende Abschnitt zeigt. Einfache Werkzeuge
können Benutzertests auf keinen Fall ersetzen.
Ein spezifisch auf Hypertexte ausgerichtetes System stellen BOTAFOGO ET AL.
1993 vor. Sie bewerten die von den Links definierte Struktur von Knoten in
1
Diese Erkenntnis ziehen z.B. SPOOL ET AL. 1999 aus einer empirischen Untersuchung.
208
einem Hypertext. Die entwickelten Metriken sollen Autoren bei der Verbesserung oder Analyse von Hypertext-Systemen unterstützen.
Einige komplexere Systeme erheben den Anspruch, Ergebnisse zu erzielen,
die nahe an denen von Benutzertests liegen. Sie lassen sich unterteilen in
Systeme zur Analyse der Struktur von Seiten und zur Analyse der Navigation
in Sites. Einen Überblick über automatische Unterstützung bei allen Schritten
der Bewertung von Benutzungsoberflächen bieten IVORY & HEARST 2001.
8.4.1 Syntax- und Richtlinienkonformitäts-Prüfung
Die Einhaltung vieler Syntax-Vorschriften lässt sich automatisch überprüfen.
Jedoch handelt es sich dabei um eine sehr oberflächliche Art der Qualitätsbewertung.
Je komplexer oder genereller die Aussagen werden, desto schwieriger ist die
Überprüfung auch für Menschen. Die Forderungen der DIN Norm für DialogGestaltung bietet ein Beispiel hierfür. Es werden für einen Einzelfall nicht alle
Juroren die gleichen Einschätzungen zur Einhaltung von generellen Forderungen wie Erwartungskonformität oder Aufgabenangemessenheit abgeben.
Eines der ersten Werkzeuge für die Bewertung von HTML-Seiten ist Weblint
(BOWERS 1996). Es überprüft v.a. folgende Probleme:
• Syntax (Z.B.: Sind alle geöffneten Tags wieder geschlossen? Sind
Elemente wie etwa die Angabe von Links syntaktisch korrekt?)
• HTML-Gebrauch
aufeinander?)
(Z.B.:
Folgen
die
Überschriftebenen
logisch
• Struktur der Site (Z.B.: Führen auf jeder Seite Links auf die nächsthöhere Ebene?)
• Portabilität (Werden Konstruktionen benutzt, die nicht alle Browser
korrekt wiedergeben?)
• Stilistische Schwächen (z.B.: kein ALT-Text für Grafiken, Wörter wie
„here“ im Link-Text)
Das Werkzeug WebSAT1 bildet einen Teil der Suite Web Metrics2 des
National Institute of Standards and Technology (NIST). WebSAT beruht auf
1
http://zing.ncsl.nist.gov/WebTools/WebSAT/overview.html
2
http://zing.ncsl.nist.gov/WebTools/
209
Richtlinien des IEEE und prüft die Verwendung von Tags für sehbehinderte
Benutzer, die richtige Anwendung von Formularen, die Größe von Grafiken
sowie die Lesbarkeit anhand des Verhältnisses von Links zu Text.
Abb. 8.1: Überblicksseite des WebXACT-Systems
Besonders der Zugang für Sehbehinderte (Accessibility) steht im Zentrum
einiger Systeme1, da er sich relativ einfach prüfen lässt und die Problematik
des barrierefreien Zugangs für Behinderte durch entsprechende Gesetze neue
Beachtung fand. Viele der Richtlinien dienen aber generell der besseren
Gestaltung, welche nicht nur den Benutzern mit Behinderungen zugute
kommen. (W3C 2005).
1
http://www.freewebsiteproviders.com/website-tuneup.htm
210
Ein weiteres Syntax-System ist WebXACT der Firma Watchfire1, das Abbildungen 8.1, 8.2 und 8.3 zeigt. WebXACT berücksichtigt unter anderem die
Accessibility Guidelines des W3C Konsortiums (W3C 2005) und weist auf
Verletzungen hin. Die darin aufgestellten Regeln enthalten jedoch häufig
Interpretationsspielraum und lassen sich maschinell nicht eindeutig
überprüfen. So zeigt die in Abbildung 8.3 festgehaltene Überprüfung lediglich
eine sehr allgemeine Aussage zu Grafiken: „If an image conveys important
information beyond what is in its alternative text, provide an extended
description“ (Abbildung 8.3). Jedoch kann das System weder erkennen, ob
die Grafik eine wichtige Information enthält, noch ob eine erweiterte
Beschreibung vorhanden ist. Ähnlich verhält es sich mit der Aussage zur
Farbe: „If you use color to convey information, make sure the information is
also represented in another way“ (Abbildung 8.3). Auch für die Farbe kann
weder geprüft werden, ob die Farbgebung Information enthält noch ob die
Seite diese Information noch anderweitig repräsentiert.
1
http://www.watchfire.com
211
Abb. 8.2: Seite mit Quality-Metriken des WebXACT-Systems
212
Abb. 8.3: WebXACT-System mit Accessibility-Warnungen
Einen Überblick über Prüfprogramme liefern BRAJNIK 2000 und CHAK 2000.
Diese Programme behandeln zweifellos durch die Überprüfung der Syntax
und der Konformität hinsichtlich von Richtlinien einige Aspekte der
213
Usability. Die gesamte Komplexität der Gebrauchstauglichkeit können sie
natürlich nicht abdecken, dies wird durch automatische Verfahren wohl kaum
möglich sein. Wünschenswert sind Systeme, die über die einfache Syntaxprüfung hinausgehen, Teilaspekte des menschlichen Informationsverhaltes
abbilden und so zu aussagekräftigeren Ergebnissen kommen als einfache
Werkzeuge.
8.4.2 Seitenstruktur
Eine auf formalen Kriterien beruhende Analyse der Benutzbarkeit legen BUCY
ET AL. 1999 vor. Die formalen Eigenschaften, welche in der Studie eine Rolle
spielen, wurden zwar intellektuell erfasst, jedoch könnten diese auch
automatisch mit befriedigender Qualität erfasst werden. Das Ziel der Studie
aus dem Gebiet der Medienwissenschaft bestand darin, zu prüfen inwieweit
bestimmte Gestaltungselemente überhaupt eingesetzt werden, inwieweit ihr
Einsatz mit den Richtlinien populärer Ratgeber zum Web-Design
übereinstimmt1 und inwieweit das Befolgen dieser Ratschläge zu höheren
Zugriffsraten führt2. Als Maßstab für letzteres gilt die Zugriffshäufigkeit, also
ein Parameter, der häufig als Annäherung der Popularität eines Angebots
gewertet wird. Die Popularität muss als eines der wichtigsten Indizien für
Qualität im Internet gewertet werden, so dass die Untersuchung von BUCY ET
AL. 1999 auch unter dem Gesichtspunkt der Qualität betrachtet werden kann.
Ratgeber zum Web-Design schlagen Regeln auf sehr allgemeiner Ebene vor
(REISS 2000, VAN DUYNE ET AL. 2003, ROSENFELD & MORVILLE 2002). Sie
fordern etwa die Einhaltung von Prinzipien wie Übersichtlichkeit oder Ausgeglichenheit, denen niemand widersprechen würde. Gesunder Menschenverstand bildet die Basis für oberflächlich sinnvolle Richtlinien. Daraus leiten
sie aber konkrete Umsetzungen ab, die sich jedoch nicht mehr notwendigerweise aus der allgemeinen Forderung herleiten lassen. Zudem widersprechen sich die einzelnen Autoren in Details. Zwar dienen sie einem Einsteiger
sicher als gute Orientierung, als alleiniger Maßstab für die Abschätzung der
Qualität von Organisation, Struktur und Benutzbarkeit können sie sicher nicht
1
„Specifically, the study asks if the interactive capabilities of the Web are being exploited
by Web page designers to the extent that the popular literature suggests they are“ (BUCY
ET AL. 1999:1247).
2
„“is there a relationship between the complexity of Web page design and the amount of
trafficc a site receives? Do these relationships vary by domain?“ (BUCY ET AL.
1999:1248).
214
dienen. Darauf deuten auch die Ergebnisse einer empirischen Analyse solcher
Vorschläge durch SPOOL et al. 1999 hin.
BUCY ET AL. 1999 wählen als Maßstab für die Popularität die Zugriffshäufigkeit nach einem Verzeichnisdienst, der vorgibt, qualitativ gute Seiten
vorzuhalten. Aus den 5000 am häufigsten von diesem Verzeichnisdienst aus
besuchten Sites wählten die Autoren zufällig eine Menge von 500 Angeboten
aus. Die untersuchte Stichprobe besteht also bereits aus häufig zugegriffenen
Seiten. Mehrere Studierende analysierten alle Angebote intellektuell und
kodierten Banner, Reklame, Animationseffekte, dominierende Farbe, Logos,
Frames, Grafiken und Links. Die Zuverlässigkeit dieser Methode überprüften
die Autoren durch einige Doppelkodierungen von zwei Bewertern. Dabei
stellten sie grundsätzlich eine hohe Übereinstimmung fest, die aber stark von
dem kodierten Element abhing. Während die Hälfte aller Variablen über 90%
Übereinstimmung aufwiesen, zeigte sich bei Banner-Links mit 37% eine
große Abweichung zwischen den menschlichen Bewertern. Für die Analyse
größerer Mengen von Internet-Angeboten hinsichtlich formaler Details sollten
immer automatische Verfahren eingesetzt werden, da sonst die Erhebung zu
viele Ressourcen in Anspruch nimmt. Der Mensch sollte lediglich zur
Bewertung der Qualität etwa in Form seiner allgemeinen Zufriedenheit herangezogen werden. Trotzdem enthält die von BUCY ET AL. 1999 untersuchte
Menge von Parametern interessante Ansatzpunkte.
Die Auswertung sucht nach Korrelationen zwischen in den Seiten enthaltenen
Gestaltungselementen und der Häufigkeit der Zugriffe darauf. Dazu wurden
sechs Variablen untersucht, das Vorkommen grafischer Elemente, dynamische Elemente, asynchrone interaktive Elemente (Links, Kontaktinformation),
real-time interaktive Elemente (chat, Video-Links, Web-Kameras) und eine
zusammengesetzte Strukturvariable, welche die Anzahl von frames, screens
und page maps kombiniert. Eine sechste Variable integriert alle vorherigen
fünf (omnibus strucure variable).
Eine signifikante, positive Korrelation ergab sich für die Anzahl von
asynchronen Interaktionselementen wie e-mail-Adressen. Für kommerzielle
Seiten liegt ebenfalls eine signifikante Korrelation zwischen grafischen Elementen und Popularität vor. Starke Korrelationen liegen auch für universitäre
Seiten vor, v.a. für die Strukturvariable, asynchrone Interaktionselemente und
die omnibus strucure variable.
Das Suchen nach dem reinen Vorhandensein von gewissen Elementen weist
nur bedingt auf dessen Beitrag zur Benutzbarkeit hin. Vielmehr kommt es auf
das Wie an, ein Bedienelement alleine hat keinen Einfluss auf die
Benutzbarkeit. Vielmehr kommt es auf die Aufgaben an, die erledigt werden
sollen und wie geschickt Bedienelemente dafür kombiniert werden. Eine
215
automatische Analyse der Seiten beschränkt sich zunächst natürlich ebenfalls
auf das Vorhandensein von Bedienelementen. Trotzdem ist eine solche
Untersuchung sinnvoll, wenn sie mit genügend anderen Kriterien zusammen
in Beziehung gesetzt werden. Diese können Hinweise auf die Anwendungen
enthalten. Die Studie von BUCY ET AL. 1999 schlägt eine interessante Richtung ein, umfasst aber eine kleine Stichprobe eher populärer Seiten. Zwar
sollten mehr Eigenschaften von Internet-Seiten evaluiert werden, aber die
Ergebnisse zeigen, dass grafische Elemente Einfluss auf die Popularität
haben.
Die Untersuchung mit den meisten Kriterien für Qualität stammt von IVORY
& HEARST 2002, die das System WebTango entwickelt haben. Darin werden
aus dem Blickwinkel der Gebrauchstauglichkeit 157 einzelne Maße für Seiten
und Sites untersucht. Ziel ist es, statistische Zusammenhänge zwischen
Qualitätsurteilen und den untersuchten Kriterien zu finden und die
Diskrepanzen in Vorschläge für Modifikationen umzusetzen, um die entsprechenden Seiten zu verbessern. Stoßrichtung der Untersuchung ist die Gebrauchstauglichkeit der Internet-Seiten, so dass keine inhaltlichen Maße wie
semantische Kohäsion usw. untersucht werden. Zwar umfasst die Studie
Eigenschaften von Text-Elementen, jedoch geht es vorwiegend um die Rezipierbarkeit und nicht den Inhalt. Dementsprechend erfassen IVORY & HEARST
2002 z.B. die Menge an Text, die Größe der Schrift, die Komplexität des
Textaufbaus sowie Ergebnisse des Syntax-Prüfers Weblint (siehe Abschnitt
8.4.1).
Die Datengrundlage stammt von einem Internetpreis für populäre Seiten
(IVORY & HEARST 2002). Die mit diesem webby-award ausgezeichneten
Seiten werten die Autoren als qualitativ sehr hochstehend. Insgesamt wurden
ca. 5400 Seiten aus 639 Sites ausgewählt. Davon fielen jeweils ungefähr ein
Drittel in die Kategorien good, average und poor und für diese Zuordnung
wurde ein Klassifizierer trainiert. Ein Klassifikations- und Regressionsbaum
mit 14 Regeln konnte 94% der Seiten der Testmenge korrekt zuordnen.
Innerhalb der einzelnen Klassen zeigte eine statistische ANOVA-Analyse
einige Eigenschaften der Cluster auf. Gute Seiten enthielten zum Beispiel
weniger Farbanweisungen, mehr Links, längere Link-Label, mehr Interaktionselemente und verstoßen häufiger gegen Standards. Ferner ergab kmeans Clustering drei Cluster innerhalb der Kategorie good. Zwei der Cluster
unterschieden sich vorwiegend in der Menge an Text und der dritte Cluster
stach durch die hohe Anzahl von HTML-Tabellen hervor, die meist dem
Layout dienten. Zur Analyse der Sites wurden die Seiten einer Site
zusammengefasst. Für Sites erzielte ein Klassifizierer eine Trefferquote von
81%. Eine ANOVA-Analyse innerhalb der Kategorien zeigte, dass gut
216
bewertete Sites in ihrer Struktur breiter angelegt werden, während schlechtere
Sites tiefe Ebenen beinhalteten.
Für schlechte Seiten und Sites versuchen die Autoren abschließend, aus den
Regeln des Klassifizierers Verbesserungsvorschläge abzuleiten. WebTango
ist ein gutes Beispiel für die sich etablierende empirische Forschung zum
WebDesign. Aus dem Blickwinkel der Anwendung von Qualitätsfiltern im
Information Retrieval wirken die von IVORY & HEARST 2002 gewählten
Qualitätsurteile als insgesamt zu positiv. Das Filtern zielt vorwiegend darauf
ab, Seiten mit besonders negativer Qualität zu entfernen. Deshalb sollten
Seiten, die überhaupt nicht für einen Preis wie den webby-award in Erwägung
gezogen wurden, ebenfalls untersucht werden.
Interessant an den beiden hier vorgestellten Verfahren sind vor allem die
Berücksichigung der grafischen Elemente, welche der Bedeutung des grafischen Eindrucks für die menschlichen Bewertung Rechnung trägt (siehe
Kapitel 11). Die Integration von Grafiken und anderen Medien (Film und
Audio) fällt in den Bereich Multimedia, für den auch Normen vorliegen. So
fordert beispielsweise die ISO-Norm für die Kombination von Medien: „Wo
immer es für die Arbeitsaufgabe angebracht ist, sollten unterschiedliche Ansichten zum selben Thema durch Medienkombination bereitgestellt werden“
(DIN EN ISO 14915-3 2002). Die Aussagen zur Auswahl und Kombination
der passenden Medientypen je nach Information sind jedoch zu allgemein als
dass sie für die automatische Qualitätsbewertung genutzt werden könnten.
Optimale Design-Muster für multimediale Systeme zu entwickeln könnte bei
der Entwicklung von benutzungsfreundlichen Informationssystemen eine
große Hilfe sein (WOLFF 2005). Jedoch sind die Überlegungen hierzu noch
am Anfang und für die automatische Qualitätsbewertung noch nicht anwendbar.
Den Zusammenhang zwischen der Struktur von Seiten und der Bewertung
durch Benutzer untersuchen BUCY ET AL. 1999 sowie das System WebTango
von IVORY & HEARST 2002. Während BUCY ET AL. 1999 die Eigenschaften
der Web-Seiten intellektuell auswerten, geht WebTango konsequent den Weg
der automatischen Qualitätsbewertung anhand von maschinell extrahierten
Eigenschaften und deren Korrelationen mit Expertenurteilen. Damit kommt es
bereits nah an die in Teil III entwickelten Systeme heran.
8.4.3 Link-und Hypertext-Struktur
Die Struktur von Hypertexten und damit von Sites untersuchten und bewerteten BOTAFOGO ET AL. 1992. Die Autoren entwickeln Metriken für die
217
Bewertung von strukurell unterschiedlichen Hypertexten. Damit übertragen
sie als einer der ersten Ansätze die Graphentheorie auf das Internet. Anwendungsfall ihres Systems ist ein Autorensystem für Hypertexte. Die erstellten
Sites werden automatisch nach ihrer Strutur bewertet und verglichen.
Zunächst definieren BOTAFOGO ET AL. 1992 Zentralität in einem HypertextGraphen (siehe Abschnitt 4.4.2). Den zentralsten Knoten, der zu den meisten
Knoten die geringste Distanz besitzt, schlagen sie als Wurzel-Knoten eines
Hypertexts vor (BOTAFOGO ET AL. 1992:149). Davon ausgehend schlägt das
System eine Hierarchisierung der Struktur vor.
Bedeutend sind die Metriken auf der Basis der Struktur, die sich auf einzelne
Knoten oder den gesamten Hypertext beziehen können. Für Gesamtstrukturen
schlagen die Autoren die Größen Compactness und Stratum vor. Die Kompaktheit gibt an, wie hoch der Verlinkungsgrad ist. Dazu wird die Distanz
zwischen allen Knoten bestimmt und ein inverses Maß ermittelt. Dieses wird
dann mit der maximal möglichen Distanz normalisiert, um den Einfluss der
Größe eines Hypertexts zu eliminieren. Lange oder nicht vorhandene Pfade
zwischen Knoten des bewerteten Hypertexts führen zu einer Verringerung der
Kompaktheit (BOTAFOGO ET AL. 1992:149f.).
Stratum misst die Linearität eines Hypertextes bzw. einer Site im Internet. Je
mehr Optionen für das Durchlaufen der Struktur vorliegen, desto niedriger ist
das Stratum–Maß. Bei rein linearen Strukturen ist es maximal (1,0). Das
Stratum–Maß wird aus der Metapher Firmenhierarchie hergeleitet. In einer
organisatorischen Hierarchie kann Prestige als strukturelle Größe definiert
werden. Sie hängt davon ab, wie viele Knoten „unter“ und „über“ einem
liegen. Die Summe des Prestiges aller Knoten wird wieder an der Größe des
Hypertextes und des damit maximal möglichen Prestiges normalisiert
(BOTAFOGO ET AL. 1992:163f.).
Für jede einzelne Seite lässt sich die Depth bestimmen, welche die
hierarchische Position einer Seite wiedergibt. Sie entspricht der Pfadlänge von
der Homepage zu der Seite. Als weiteres lokales Maß schlagen die Autoren
Imbalance vor, das als mangelnde Ausgewogenheit bezeichnet werden kann.
Diese Größe erhebt für jeden Knoten die Länge der Pfade zu den hierarchisch
tieferen Knoten (Kinder). Die Standardabweichung dieser Zahlen entspricht
der Balance des Hypertextes (BOTAFOGO ET AL. 1992:172f.).
Die Autoren setzen kein wünschenswertes Maß als Ziel für Imbalance,
Compactness oder Stratum sondern verstehen diese als ein Maß der Struktur,
das dem Autor bei der Erstellung als Hilfe und Anhaltspunkt dienen kann.
Zwar ist es fragwürdig, ob ein Autor derart abstrakte und schwer zu
interpretierende Größen sinnvoll nutzen kann, aber als Maße für sich
218
erscheinen diese Größen sinnvoll. Die Metriken von BOTAFOGO ET AL. 1992
sind damit ein früher und vielversprechender Ansatz für die automatische
Bewertung von hypertextuellen Dokument-Strukturen. Allerdings ist für den
Einsatz der Metriken die Kenntnis der kompletten Site erforderlich. Die hier
vorgestellte Suchmaschine AQUAINT (siehe Kapitel 12) misst die Qualität
auf der Ebene der Seite. Damit können globale Maße lediglich gemittelt über
alle Seiten einer Site eingehen. Der Aufwand für die Erhebung der Maße ist
sehr hoch, da die Struktur vorab genau und vollständig ermittelt werden muss.
Die Maße sind teilweise stark anfällig für die Veränderung einzelner Links.
Somit nimmt AQUAINT lediglich eine heuristische Analyse der Depth vor
(siehe Abschnitt 11.2.1).
8.4.4 Navigation
Das Projekt Bloodhound untersucht die Navigationsstruktur in Zusammenhang mit dem Inhalt und den Log-Dateien und kombiniert so Usage-,
Structure- und Content-Mining (CHI ET AL. 2003). Die Autoren entwickeln
eine Theorie für das Informationsverhalten, die auf der Nahrungssuche von
Lebewesen aufbaut. Demnach sind Menschen Informationsverarbeiter, die
abschätzen, welche Informationsquellen bei möglichst geringem Aufwand
einen hohen Ertrag bringen. Dazu evaluieren sie ständig Anhaltspunkte für
den Ertrag bzw. Inhalt von Information1. Im Internet bewerten Benutzer vor
allem Links anhand des Textes und schätzen den Wert der Ziel-Seiten ab.
Bloodhound bewertet nun vor allem die Übereinstimmung von zusammengehörenden Link- und Seiten-Texten. Ausgehend von beispielhaften
Benutzeranforderungen in Form einer Anfrage analysiert das System,
inwieweit der Benutzer beim Verfolgen von Links, deren Text oder Umfeld
seiner Anfrage ähnelt, tatsächlich zu Seiten gelangt, die seinem Problem am
ähnlichsten sind. Informationsspuren in und um Links bezeichnen die Autoren
als Information Scent (CHI ET AL. 2000). Bloodhound bearbeitet simuliert
Log-Files anhand von typischen Informationsbedürfnissen, die der Evaluator
als Menge von Suchtermen vorgibt. Das System analysiert die Link-Struktur
der Site und berechnet die Ähnlichkeit aller Seiten und Links zu den
Anfragen.
1
„Information scent is the imperfect, subjective perception of the value and cost of
information sources obtained from proximal cues, such as Web links, or icons
representing the content sources” (CHI ET AL. 2001:491).
219
In einem Benutzertest mit 240 Benutzern wurde überprüft, inwieweit die
plausiblen Annahmen mit dem realen Benutzerverhalten übereinstimmen. Der
Test umfasste acht Aufgaben für vier Sites. Die Benutzer navigierten auf der
Site und erreichten Seiten mit einer bestimmten Frequenz. Über alle Seiten
der Site ergaben die Tests für den Zugriff der Benutzer eine Häufigkeitsverteilung. Als Maßstab wurde diese Verteilung mit der von Bloodhound berechneten verglichen. Die Korrelation war für alle Aufgaben und Sites höher als
0,4 und in einem Drittel der Fälle über 0,8 (CHI ET AL. 2003).
Zwar sind diese Ergebnisse sehr positiv, jedoch berücksichtigt das Experiment nicht die Zufriedenheit der Benutzer oder deren Informationserfolg.
Gleichwohl ist Bloodhound ein sehr vielversprechender Ansatz, der jedoch
aufgrund der Integration von Usage-Daten auf eine Site beschränkt ist.
8.5
Qualität von Texten
Die automatische Bewertung von Internet-Seiten umfasst notwendigerweise
die Bewertung der Qualität von Texten. Einige Maße zur Bewertung von
Sprache und darauf beruhende Systeme diskutiert Abschnitt 8.5.2.
Texte werden in unterschiedlichen Kontexten von Menschen auf ihre Qualität
hin untersucht, wie etwa in Schulen oder beim Peer Review. Während
BERLEANT 2000 in einer kleinen Studie den Zusammenhang zwischen
Formatierungen und Qualität analysiert, greifen Ansätze zur automatischen
Benotung von Aufsätzen nur auf den Inhalt des Textes zu. Die Untersuchung
von BERLEANT 2000 behandelt Peer Review. Der Autor untersuchte die
formalen Eigenschaften von Anträgen auf Forschungsförderung. Dabei fand
BERLEANT 2000 Korrelationen zwischen den formalen Eigenschaften der Anträge und deren Qualitätsbewertung durch Gutachter. Dabei hatten die Autoren jedoch nicht gegen formale Vorgaben verstoßen, sondern andere Eigenschaften wie Schriftgröße und -typ spielten eine Rolle.
Darüber hinaus existieren Untersuchungen für die automatische Qualitätsanalyse von Texten ohne Berücksichtigung von Formatierungen, die sich nur
auf den Inhalt beziehen. FOLTZ ET AL. 1999 stellen den Intelligent Essay
Assessor vor, der auf Latent Semantic Indexing (LSI) beruht. Dieses System
weist einem Aufsatz eine Note zu, indem es seine Ähnlichkeit zu bereits
benoteten Aufsätzen bestimmt. Die Ähnlichkeit misst LSI in einem reduziertem Vektorraum, in welchem nicht jeder Term einer Dimension entspricht.
Durch ein Eigenwert-Verfahren verdichtet LSI die spärlich besetze TermDokument-Matrix zu einer Matrix zwischen Dokumenten und LSI-Termen.
Über verschiedene Mengen von insgesamt über 1200 Essays erreichte das
220
System eine Korrelation von 0,7 zu der Bewertung von Lehrern. Die
Korrelation zwischen zwei Menschen war ebenso hoch, so dass also die
Bewertung des Systems so gut mit einer menschlichen Bewertung übereinstimmt wie die Bewertung eines weiteren Menschen.
Die gleiche Qualität erreicht das System von LARKEY 1998, der Verfahren zur
Text-Kategorisierung anwendet. LARKEY 1998 benutzt alle Terme als Merkmale ohne eine Reduktion wie bei LSI durchzuführen. Als Lernverfahren
setzt sie einen Bayes-Klassifizierer sowie K-nearest neighbour ein.
8.5.1 Lesbarkeitsanalyse
Die Lesbarkeit von Texten hängt unter anderem von der Kohärenz innerhalb
des Textes und zwischen den einzelnen Sätzen ab. Die Schwierigkeit, mit der
ein Text verstanden wird, lässt sich anhand der Erinnerungsleistung eines
Lesers messen. FOLTZ ET AL. 1998 messen die Kohärenz von Bedienungsanleitungen und vergleichen die Werte mit den Ergebnissen psychologischer
Experimente zur Verständlichkeit dieser Texte. Sie setzen wiederum LSI ein,
um die Ähnlichkeit von zwei aufeinander folgenden Sätzen in den Texten zu
bestimmen. Der Ähnlichkeitsraum wird aus einer anderen großen TextKollektion vorab aufgespannt. Der Durchschnittswert für alle Sätze ist die
Kohärenz des Textes. Dieser korreliert sehr stark und statistisch signifikant
mit drei Maßen aus den psychologischen Experimenten. Die mit LSI
bestimmte Kohärenz bildet also einen guten Maßstab für die Verständlichkeit.
In diesem Experiment liegen keine Trainingsdaten vor, die Werte ergeben
sich direkt aus den Texten.
Die Verständlichkeit von Texten lässt sich demnach durchaus abschätzen und
dies könnte als Qualitätsindikator eingesetzt werden. Allerdings erfüllen
Texte im Internet meist eine völlig andere Funktion als Essays oder Bedienungsanleitungen. Zahlreiche Text-Bausteine wie Menü-Einträge oder LinkAnchor-Texte erfordern Kohärenz mit den Inhalten, auf die sie verweisen
(information scent, cf. CHI ET AL. 2000). An den Stellen, an denen sie vorkommen, sollen sie oft jedoch gerade gut diskriminieren. Im Gegensatz zu
Aufsätzen kommen in Internet-Angeboten sehr häufig strukturierte Texte wie
etwa Listen oder Tabelleninhalte vor, die ebenfalls nicht immer Kohärenz als
Qualitätskriterium erfordern. Für globale Qualitätsabschätzung bei InternetSeiten erscheinen solche Verfahren als nicht vielversprechend.
221
8.5.2 Syntaxbewertung
Ähnlich wie die oben diskutierten Ansätze zur Abschätzung zielen Verfahren
zur Bewertung der Syntax meist auf die Analyse der Komplexität und damit
der Lesbarkeit ab. Sehr einfache Maße benutzen SPOOL ET AL. 1999 im
Rahmen einer Studie zum Web-Design. Diese Maße beruhen auf der Anzahl
der Wörter pro Satz sowie auf der Länge der Wörter.
KOPPEL ET AL. 2003 untersuchen, inwieweit Elemente in einem Text durch
semantisch äquivalente Konstrukte ersetzt werden können. Sie bezeichnen das
gewonnene Maß als Stabilität. Das Gegenteil Instabilität bedeutet demnach,
dass ein Element häufig durch einen anderes, synonymes ersetzt wird.
Stil-Analysen werten teilweise lediglich die Frequenz einiger Wörter aus. Das
Häufigkeitsprofil bestimmter, häufiger Wörter dient dann z.B. der Zuordnung
eines Textes zu einem Autor (KOPPEL ET AL. 2003). Ein solches Verfahren
scheint aber über diesen Anwendungsfall hinaus kaum einsetzbar.
Tatsächlich mit Syntax im Sinne der Linguistik befasst sich QUIRK 2004. Er
unternimmt den Versuch, Sätze zu parsen und die Komplexität anhand der
gewonnenen logischen Form zu bestimmen. Dazu berechnet er deren Größe
und Komplexität. Der Anwendungsfall von QUIRK 2004 liegt in der maschinellen Übersetzung. Er versucht, die Zuverlässigkeit der maschinell erstellten
Übersetzungen anhand von Konfidenzwerten zu messen.
8.6
Negative Qualität
Viele der bisherigen Systeme zielen darauf ab, Dokumente mit hoher und
höchster Qualität zu erkennen. Dagegen arbeiten viele Filterlösungen am
andern Ende der Skala und versuchen, die schlechtesten Objekte aufzuspüren
und eventuell zu löschen oder zu filtern. Dabei sind möglicherweise ganz
andere Parameter zu setzen oder sogar andere Eigenschaften der Objekte zu
beachten als bei dem Erkennen der besten Objekte. Probleme mangelnder
Qualität sind mannigfaltig und heterogen (siehe Abschnitt 5.2). Dazu zählen
unerwünschte Inhalte, Vortäuschung von Inhalten, Plagiat und Verletzung
von Urheberrechten. Für einige der drängendsten Probleme existieren erste
automatische Lösungen.
Die Erkennung sogenannter Spam Mail, also unerwünschter elektronischer
Post (spam detection, spam recognition) gewinnt zunehmend an Bedeutung.
In diesem Anwendungsfall gilt das versehentliche Erkennen von niedriger
Qualität als sehr negativ, da dann evtl. erwünschte Mail gelöscht wird. Spam
stellt aber auch für Suchmaschinen ein schwerwiegendes Problem dar. Laut
222
HENZINGER ET AL. 2002 stellt Spam nach der Qualitätsproblematik das
zweitwichtigste Problem dar. Jedoch kann die Vortäuschung anderer Inhalte
durchaus als Variante des Qualitätsproblems interpretiert werden, da Seiten,
die bestimmte Inhalte nur vortäuschen, für kein Informationsproblem eine
befriedigende Lösung darstellen.
Wie drängend das Thema Spam für Suchmaschinen ist, zeigt u.a. die
Untersuchung der Dynamik im Internet von FETTERLY ET AL. 2003. Darin
zeigt sich, dass über eine Million der Seiten unter der Domain de
(Deutschland) automatisch erzeugter Spam ist. Diese Seiten kopieren Teile
der Inhalte anderer Seiten, um so bei entsprechenden Suchanfragen erreicht
zu werden. Zusätzlich streut der Algorithmus zahlreiche Links auf ebenso
erzeugte Seiten unter anderen Domains ein, um den PageRank der Seiten zu
erhöhen. Solche Praktiken wie etwa auch das Einfügen häufiger Suchbegriffe
aus Query-Log-Files in die eigenen Seiten, ohne dass ein inhaltlicher Zusammenhang besteht, dürften in Zukunft noch weiter zunehmen. Das Erkennen
der auffälligen Linkmuster ist zwar möglich, aber sehr aufwendig, zumal
diese Seiten auch sehr häufig neu erzeugt werden. Dagegen scheint hier die
automatische Qualitätskontrolle auf der Basis der Seitenstruktur aber evtl.
auch der Kohärenz des Inhalts möglich und effizient.
Systeme zur Spam-Erkennung bei E-Mail arbeiten weitgehend inhaltlich
orientiert und suchen nach typischen Signalwörtern. Teilweise filtern sie auch
anhand der verwendeten Adressen.
Ein ähnliches Anwendungsgebiet besteht im Blockieren von Internet-Inhalten,
das v.a. dafür eingesetzt wird, um unbeaufsichtigten Kindern oder Jugendlichen den Zugang zu gewaltverherrlichenden und pornographischen Angeboten zu erschweren. In diesem Fall geht es um das Erkennen von niedriger
Qualität im Sinne von mangelnder Eignung für die Zielgruppe, allerdings sind
die Kosten unterschiedlich als bei Spam oder Junk Mail. Die Zuschreibung
von niedriger Qualität für eine Seite, die an sich für Kinder geeignet ist, wird
als weniger schlimm betrachtet als die Zugriffsmöglichkeit auf ungeeignete
Inhalte. Auch diese Verfahren basieren weitgehend auf inhaltlichen Verfahren. Bestimmte Begriffe dürfen auf den Seiten nicht vorkommen, ansonsten
werden sie blockiert. Dementsprechend kommen Verfahren der Text
Categorization zum Einsatz. Die unterschiedlichen Kosten führen offensichtlich zum häufigen Überreagieren dieser Blockiersysteme. Nach einer Untersuchung von NEUMANN & WEINSTEIN 1999 (siehe auch oben) führten diese
Filter zum Ausblenden zahlreicher Angebote, die gerade für Kinder sinnvoll
sind. Die einfachen inhaltsorientierten Qualitätsfilter bergen demnach gewisse
Risiken. Andere Autoren gehen sogar noch weiter und behaupten, die Forderung des Gesetzgebers in der Vereinigen Staaten nach der Installation von
223
Filtersoftware z.B. in öffentlichen Bibliotheken verlange dem Internet höhere
ethische Standards ab als anderen Medien oder alltäglicher zwischenmenschlicher Kommunikation. Deshalb berge die Benutzung des Internet
größere Risiken hinsichtlich potenzieller Strafverfolgung und schränke damit
bürgerliche Freiheiten zu stark ein (cf. ROSENBERG 2001).
Ein Sonderproblem niedriger Qualität ist Plagiat. Das Erkennen kopierter
Inhalte, die ohne Verweis auf die Quelle übernommen wurden, und damit das
Vortäuschen eigener Leistungen stellt häufig schon ein juristisches Problem
dar. Häufig geht es um die Erkennung von aus dem Internet kopierten
Inhalten bespielsweise in studentischen Arbeiten, wofür bereits einige
Systeme existieren (MONOSTORI ET AL. 2000). Die Autoren stellen ein
automatisches System für die Erkennung von gestohlenem geistigen
Eigentum in Form von Texten vor. Als Eingabe erfordert ihr System den
Originaltext und eine Menge von URLs, unter denen Kopien vermutet
werden. Das System führt einen Partial Match durch und erkennt somit auch
geringfügig veränderte Versionen des Originals.
Jedoch soll die Sonderproblematik des Plagiats hier ebenso wenig vertieft
werden wie andere juristisch relevante Aspekte. Dazu zählen etwa die Sicherheit von Systemen (cf. z.B. DUSTIN ET AL. 2002:59 ff.), um auf sicherheitsverletzende Attacken zu reagieren. Hierfür existieren besondere Systeme, die
Log-Dateien analysieren1.
Um Missbrauch entgegenzuwirken, werden zahlreiche Anstrengungen unternommen. Die juristische Auseinandersetzung zwischen der Musiktauschbörse
Napster und Musikagenturen als Vertreter der Rechte der Urheber sorgte für
ein großes Echo in der Öffentlichkeit. Auch Bilder und Fotos erfordern
Schutz. Teilweise setzen Anbieter digitale Wasserzeichen ein, die diesen
Objekten für den Laien unsichtbar hinzugefügt werden. Taucht das Bild
später in einem verdächtigen Kontext auf, kann anhand des Wasserzeichens
überprüft werden, ob es rechtmäßig verwendet wurde. Ein derartiges System
für eine dänische Bibliothek stellt MEHRABI 2001 vor.
8.7
Technische Qualität
Der Vollständigkeit halber sollten hier kurz technische Aspekte erwähnt
werden. Wichtig sind aus Sicht der Benutzer vor allem die Verfügbarkeit und
1
Das Information Exploration Shootout Project (cf. GRINSTEIN ET AL. 1997) stellt eine
große Menge von realen Log-Daten eines WebServers bereit, an dem Teilnehmer
versuchen, Anomalitäten zu finden und so sicherheitsrelevante Angriffe zu entdecken.
224
die Antwortzeit von Servern. Beim Entwurf von Web-Systemen müssen die
Entwickler die Performanz optimieren und die Systeme auch für Spitzenzeiten vorbereiten (cf. z.B. DUSTIN ET AL. 2002:115 ff.).
Der momentane Stand bei Internetverbindungen führt nach wie vor zu
Problemen bei der Verfügbarkeit von Servern. Besonders bei größeren Dateitransfers macht sich dies bemerkbar. Wird die gleiche Datei von verschiedenen Servern angeboten, ist die Bandbreite und Verfügbarkeit der Rechner
ein wichtiges Qualitätskriterium. Einige zentrale Verwalter von größeren
Downloads zeigen die Qualität im Sinne der Verfügbarkeit an1.
Die Beziehung zwischen inhaltlicher und technischer Qualität ist aber
keineswegs eindeutig. So geht man davon aus, dass lange Ladezeiten zu Unzufriedenheit führen und natürlicherweise auch dazu führen, dass der Benutzer für eine Aufgabe länger braucht. Eine Untersuchung von MCCRICKARD
2001 verweist in eine andere Richtung und relativiert diese naive Annahme.
Das Experiment bestätigt zwar andere Studien, nach denen kaum ein Benutzer
eine Wartezeit von mehr als zehn Sekunden toleriert, dann meist den Versuch
abbricht und einen anderen Link verfolgt. Allerdings wichen bei stark
unterschiedlichen Wartezeiten unter zehn Sekunden die durchschnittlichen
Zeiten für die Lösung einer Aufgabe praktisch nicht voneinander ab. Ob ein
Benutzer durchschnittlich zwei oder acht Sekunden warten musste, spielte
keine Rolle für seine Lösungszeit. MCCRICKARD 2001 fand heraus, dass
Benutzer, die länger warten mussten, dafür ihr Ziel mit weniger Links
ansteuerten. Vermutlich befassen Benutzer sich länger mit einer Seite und
lesen den Inhalt genauer, wenn die Download-Zeit für die Seite lang war,
während sie bei einer schnell erscheinenden Seite ohne eingehende Prüfung
den ersten interessant erscheinenden Links wählen. Auch SPOOL ET AL. 1999
stellten in ihrem empirischen Vergleich von acht Internet-Angeboten keine
Auswirkungen der Ladezeit auf die Zufriedenheit der Benutzer fest (SPOOL ET
AL. 1999:86f.).
Für die Qualitätswahrnehmung kann sich eine schnelle Ladezeit also auch
negativ auswirken. Falls der Benutzer den nächstbesten Link anwählt und
damit nicht den gewünschten Erfolg erzielt, ist er sicher unzufrieden. Wird er
1
Z.B. die Tauschbörse Napster oder http://sourceforge.net, eine Plattform für open source
Software.
225
dagegen durch eine etwas längere Ladezeit gezwungen, mehr Zeit auf die sich
aufbauende Seite zu verwenden, dann wählt er möglicherweise einen besseren
Link und schätzt danach die Qualität der Seite sehr viel höher ein.
226
Fazit: Stand der Forschung zur automatischen Qualitätsbewertung
9. Fazit: Stand der Forschung zur automatischen Qualitätsbewertung
Die Versuche, für Internet-Seiten Qualitätskriterien festzuschreiben, haben zu
zahlreichen, mehr oder weniger detaillierten Listen geführt, welche teilweise
unterschiedliche Kriterien anführen. Diese enthalten zwar durchaus plausible
und nachvollziehbare Qualitätskriterien, gleichwohl eignen sie sich selten für
die intellektuelle Bewertung. Sie erfordern teilweise erhebliches Wissen und
immensen Aufwand und trotzdem würde intellektuell häufig kein Konsens
über die Qualität von Dokumenten erzielt werden können. Für eine Automatisierung eignen sich diese Kriterien noch weit weniger.
Daneben existieren Ansätze für die automatische Qualitätsbewertung. Im
Vordergrund stehen dabei Algorithmen zur Link-Analyse, welche die Anzahl
der Links auf eine Seite als wichtigstes Kriterium für die Qualität dieser Seite
werten. Sowohl analytisch als auch empirisch zeigen sich viele Schwächen
dieser Ansätze, so dass der Bewertung der ehemaligen Forschungsleiterin der
Suchmaschine Google weitgehend zugestimmt werden kann: „These
techniques are a good start and work well in practice, but there is still ample
room for improvement“ (HENZINGER ET AL. 2002:6). Das gute Funktionieren
bezieht sich in diesem Fall auf die relativ einfache Implementierbarkeit der
Link-Analyse.
Das weite Feld für die Verbesserung der Qualitätsanalyse ist also bei weitem
noch nicht ausgeschöpft, wie der Überblick über die Verfahren gezeigt hat.
Der letzte Teil zeigt jetzt, wie sich die bestehenden Verfahren verbessern
lassen. Darüber hinaus werden neue Ansätze entworfen und realisiert.
227
Teil III: Weiterentwicklung automatischer Qualitätsbewertung: AQUAINT
„Das Edle zu erkennen, ist Gewinst,
Der nimmer uns entrissen werden kann.“
(Johann Wolfgang von Goethe:
Torquato Tasso, Dritter Aufzug, Zweyter Auftritt1)
„›Was will man machen? Er trifft es immer aufs schönste.‹“
(Thomas Mann: Lotte in Weimar2)
Der obige Überblick über existierende Systeme und verschiedene Theorien
zeigt, dass die automatische Qualitätsbewertung noch am Beginn ihrer
Entwicklung steht. Die dargestellten Stärken und Schwächen verweisen auf
mögliche Entwicklungslinien für weiterführende Systeme. Diese Tendenzen
verfolgt nun der dritte Teil. Dabei werden zahlreiche Verbesserungen hergeleitet, von denen die wichtigsten im Rahmen des Projektes AQUAINT (Automatic Quality Assessment for Internet Resources, Automatische Qualitätsabschätzung für Internet Ressourcen) und der darin erstellten Quality Workbench (QuWob) realisiert wurden. Ferner wurde die Evaluierungsmethodologie im Information Retrieval für die Qualitätsbewertung weiterentwickelt.
Kapitel 11 greift zunächst einige Schwächen der Linkanalyse auf. Daraus
werden einige differenziertere Formen der Linkanalyse entwickelt. Die automatische Qualitätsbewertung erfordert jedoch die Integration weiterer Wissensquellen. Den Maßstab für die Qualitätsbewertung setzt der Mensch durch
1
http://gutenberg.spiegel.de/goethe/tasso/tasso31.htm
2
Ausgabe Fischer Taschenbuch Verlag, 1993. S. 353
229
sein Urteil. Die Linkanalyse verengt die Perspektive auf Autoren von WebSeiten und etliche weitere Nachteile der Linkanalyse wurden ausführlich in
Kapitel 7 diskutiert. Die Häufigkeit, mit der sie Verbindungen auf andere Seiten setzen, bildet die Grundlage für Qualitätsbewertung der Linkanalyse.
Darüber hinaus existieren weitere Wissensquellen, die Auskunft über die
Qualität von Internet-Seiten geben.
In Kapitel 7 wurden bereits die Wissensquellen für Qualitätsurteile identifiziert. Ihre Vor- und Nachteile zeigt nochmals die folgende Übersicht:
Wissensquelle
Vorteile
Nachteile
Log-Dateien
Reale Benutzersicht
Kommt der Popularität am
nächsten
Leicht zu extrahieren
Hohe Plausibilität
Weit verstreut
Kaum auszunutzen
Links
Aufnahme in
Verzeichnisdienst
Leicht zu extrahieren
Explizites Qualitätsurteil
Eingeschränkte Perspektive
Link nicht immer Hinweis auf
Qualität
Negative Entscheidungen liegen
nicht vor
Nur in relativ geringem Umfang
vorhanden
Tabelle 9.1: Übersicht über die Wissensquellen für Qualitätsentscheidungen
Darüber hinaus stehen die Internet-Angebote selbst zur Verfügung. Ihr
Format sowie ihr Inhalt können extrahiert und bewertet werden. Die automatische Bewertung des Inhalts etwa durch die Analyse der Kohärenz (siehe
oben) ist schwierig und erfordert erheblichen Rechenaufwand. Daher bietet
sich das Format an, in dem sich zahlreiche der produkt-orientierten
Definitionen widerspiegeln. Abbildung 9.1 stellt diese Wissensquellen schematisch nach den Parametern Umfang, nötigem Aufwand für die Analyse
sowie Aussagekraft gegenüber.
Die Qualitätsauswahl oder Qualitätsauszeichnung betrifft jedoch immer nur
eine eingeschränkte Anzahl von Angeboten, da sie menschliche Informationsarbeit erfordert. Entscheidend für die automatische Qualitätsbewertung ist nun
die Übertragung auf nicht bewertete Angebote. Welche Eigenschaften von
Web-Seiten haben zu der positiven Bewertung geführt? Können solche Eigenschaften in anderen Seiten nachgewiesen werden?
Aus der Literatur ergeben sich einige gute Kandidaten für zu berücksichtigende Eigenschaften (v.a. IVORY & HEARST 2001 und ZHU & GAUCH 2000).
Daneben sollen weitere Eigenschaften identifiziert werden, die sich auto230
matisch extrahieren lassen. Wünschenswert wäre ein Bezug zu Prüflisten für
die intellektuelle Bewertung der Seiten. Dies könnte die Qualitäts-Entscheidung nachvollziehbar machen. Gleichwohl ist dieser Bezug zu den produktorientierten Qualitätsdefinitionen nicht unbedingt erforderlich.
Diese Eigenschaften sollen hauptsächlich in den Seiten selbst liegen und nicht
wie bei der Link-Analyse außerhalb. Da der Inhalt der Seiten schon bei der
Suche bewertet wird, bieten sich die Struktur der Seite und ihr Aufbau an,
also die Art der Präsentation der Information. Die HTML-Syntax gibt demnach Aufschluss über Aspekte wie Grad und Form der Strukturierung, Übersichtlichkeit, Ausgewogenheit der Informationsmenge und Ausgewogenheit
der Darstellung. Die Qualität der Präsentation taucht auch immer wieder in
den Kriterienlisten auf.
hoch
Wissensquellen für Qualität
Rezensionen
Zuverlässigkeit,
Aussagekraft
Inhalt
Qualitätsorientierte
Sammlungen
Log-
Format
Links
Daten
Komplexität der Analyse
hoch
Abb. 9.1: Vergleich von Wissensquellen für Qualität
Der visuelle Eindruck einer Seite spielt in den Kriterienlisten zwar eine
geringe Rolle, jedoch beeinflusst sie die Bewertung durch den Menschen sehr
stark (cf. FOGG ET AL. 2001, 2002). Die visuelle Gestaltung spiegelt sich in
den verwendeten Elementen, deren Größe, Position und Farbe wieder. Diese
231
bisher kaum benutzten, aber leicht zu extrahierenden formalen Eigenschaften
bilden somit die besten Kandidaten für das Erkennen von Qualität.
Die folgende Abbildung 9.2 zeigt, welche Wissensquellen von welchen
Ansätzen zur Modellierung von Informationsverhalten eingesetzt werden. Die
Ansätze wurden in Teil II beschrieben.
Theorien des
Informationsverhaltens
Berücksichtigte
Parameter
hoch
Realitätsgrad
Bisheriger Verlauf des
Informationsprozesses
Information Foraging
Seiten-Struktur
Benutzer
Zufall
Inhalt der Seite
Link-Struktur
Directed Surfer
Random Surfer
Exaktheit
hoch
Abb. 9.2: Wissensquellen in unterschiedlichen Ansätzen zur Modellierung des
Informationsverhalten
Exakte Zusammenhänge zwischen der Qualität der Seiten und den formalen
Eigenschaften sind nicht zu erwarten. Wo diese Beziehungen existieren, sind
sie sicher vage und mehrdimensional. Somit eignen sich für die Erstellung
von Qualitätsmodellen sicher keine regelbasierten Ansätze, sondern induktive
Lernverfahren des maschinellen Lernens, die unsicheres Wissen verarbeiten
können. Kapitel 12 zeigt die Realisierung der Qualitätsmodelle von der
Extraktion der Daten aus den Web-Seiten bis hin zum maschinellen Lernen.
Der praktische Einsatz der Qualitätsmodelle steht im Mittelpunkt von Kapitel
13. Da Qualität vor allem als Zusatzfaktor im Information Retrieval wichtig
ist, entstand eine Suchmaschine, welche Ergebnisse anderer Suchmaschinen
anhand der Qualitätsmodelle aufwertet.
232
hoch
Grad der
Automatisierung
und
Umfang
Ansätze für die
Qualitätsabschätzung
Link-Analyse:
PageRank
Link-Analyse:
HITS
AQUAINT
Amento et al.
2000
Ivory & Hearst
2002
Zhu & Gauch
2000
Bucy et
al. 1999
Anzahl der Parameter
hoch
Abb. 9.3: Einordnung von AQUAINT in den state of the art
Ein wichtiger Faktor ist die Kontextabhängigkeit von Qualität. Ihr wird in der
Realisierung unterschiedlicher Modelle und im Ausblick Rechnung getragen,
wobei besonders auf die Unterschiede zwischen Fachgebieten sowie Kulturen
verwiesen wird.
Das System AQUAINT führt mit der Analyse von formalen Eigenschaften
und deren Verknüpfung mit expliziten Qualitätsurteilen durch maschinelles
Lernen die bisherigen Arbeiten weiter. Abbildung 9.3 stellt das System
AQUAINT in den Kontext der wichtigsten bisherigen Forschungsergebnisse,
die in Teil II diskutiert wurden.
Wie die Abbildung zeigt, erreicht die Implementierung von AQUAINT noch
nicht den Reifegrad der Link-Analyse. Allerdings besitzt auch diese eine
eingeschränkte Perspektive auf das Qualitätsproblem, da mehrere fortgeschrittene Ansätze bereits mehr Parameter einbeziehen.
233
234
Differenzierte Link-Analyse
10. Differenzierte Link-Analyse
Die Nachteile von Link-Analyse zur Qualitätsbewertung wurden bereits
ausführlich besprochen. Die einfache Gleichsetzung jedes Links mit einem
Qualitätsurteil wirkt sehr zweifelhaft. Links müssen je nach ihrer Position und
Funktion differenziert betrachtet werden und entsprechend in die Berechnung
der Qualität anhand der Link-Analyse eingehen.
Ein einfaches Beispiel hierfür, das auch bereits seit dem Beginn der LinkAnalyse diskutiert wird, stellen Links innerhalb einer Site dar. Solche
Verbindungen, die der Navigation dienen, gelten meist nicht als Qualitätsindikator. Da die Seiten einer Site häufig vom gleichen Autor erstellt werden,
stellen sie im besten Falle ein sehr subjektives Urteil dar. Neuere Ansätze
haben versucht, Links von thematisch ähnlichen Seiten stärker zu gewichten
(siehe oben, u.a. HAVELIWALA 2002 und RICHARDSON & DOMINGOS 2002).
Dieser Abschnitt diskutiert die thematische Ähnlichkeit in der Linkanalyse
und zeigt anhand von empirischen Ergebnissen, dass auch die Struktur der
Site mit einbezogen werden muss.
10.1 Strukturelle Einflüsse auf die Link-Analyse
Dieser Abschnitt weist anhand empirischer Untersuchungen nach, dass die
Struktur von Web-Sites erheblichen Einfluss auf die Link-Struktur im Internet
besitzt. Darüber hinaus beeinflusst die Site-Struktur auch die Struktur der
Seiten. Je nach ihrer hierarchischen Position unterscheiden sich die Seiten in
ihren internen Struktur-Eigenschaften.
Die Links innerhalb von Sites dienen meist primär der Navigation. Die
Navigation lässt sich jedoch nicht isoliert betrachten, vielmehr steht sie in
engem Zusammenhang mit der thematischen und semantischen Aufteilung
von Wissen in unterschiedliche Seiten. Meist besitzen Internet-Angebote eine
hierarchische Struktur. Dabei enthalten die obersten Seiten eher generelle
oder Überblicks-Information und Navigationselemente, während die eigentlichen Inhalte auf tieferen hierarchischen Ebenen liegen. Erfolgt vor dem
Setzen eines Links eine intellektuelle Qualitätskontrolle, so sind häufiger
Links auf tiefere Seiten zu erwarten. Dort muss nur weniger Information
überprüft werden und diese ist thematisch fokussiert.
235
Links: Autorität
WEB
Hierarchische
Struktur
Selektive Links:
Redaktionelle
Qualiätskontrolle
Abb. 10.1: Links auf hierarchische Verzeichnisdienste
Die Bewertung von Verzeichnisdiensten anhand von Linkanalysen bietet
einen Einblick in die Benutzung von Verzeichnisdiensten allgemein. Die
Analyse zeigt an einigen Parametern, wann Verbindungen auf Seiten in Verzeichnisdiensten gelegt werden.
Jedoch zeigte eine eigene Untersuchung, dass die Zahl der Verbindungen auf
einen Verzeichnisdienst sehr stark abnimmt, je tiefer die Seite in der
hierarchischen Struktur steht. Dazu wurden die Dienste Google-Directory
sowie Yahoo.de untersucht. Trägt man die Abhängigkeit in einer
logarithmischen Skala ein, dann ergibt sich ein fast linearer Zusammenhang
(siehe Abb.). Die Ebene Null entspricht dabei der Einstiegsseite1, während die
folgende Adresse ein Beispiel für eine Seite der vierten Ebene darstellt:
Computer/Software/ Spezialsoftware/Sport2. Analysiert wurden ca. 3000
1
http://directory.google.com/Top/World/Deutsch/
2
http://directory.google.com/Top/World/Deutsch/Computer/Software/Spezialsoftware/
Sport
236
Seiten des Internet-Katalogs von Google und ca. 500 Seiten der deutschen
Version von Yahoo.
Die Anzahl der eingehenden Links für jede Seite wurde bei den Suchmaschinen Google und Altavista abgefragt. Obwohl die Ergebnisse von
Google und Altavista oft sehr stark voneinander abweichen, gilt der oben
vorgestellte Zusammenhang bei beiden Suchmaschinen.
100000
10000
In-Links
1000
100
10
1
Hierarchie-Ebene
0
0
1
2
3
4
Google lt. Google
248000
1538
51,9
41,3
4,38
Google lt Altavista
64786
2081
80,9
0,6
0,06
Yahoo lt. Google
848
15,9
1,1
Yahoo lt Altavista
1446
29,3
1,6
Google lt. Google
Google lt Altavista
Yahoo lt. Google
Yahoo lt Altavista
0,78
Abb. 10.2: Zahl der durchschnittlichen In-Links pro Ebene
Die Autoren von Internet-Seiten verweisen also grundsätzlich eher auf
generelle Seiten in Verzeichnisdiensten und weniger auf Seiten zu
spezifischen Themen. Offensichtlich wollen sie dem Benutzer die Suche nach
für ihn interessanten Abgeboten durch Browsing selbst überlassen.
Möglicherweise bewerten die Autoren Seiten der Verzeichniseinträge als gut
geeignet für thematisch breite Informationsbedürfnisse oder für Informationsbedürfnisse, die noch vage sind und bei denen der Benutzer sich zunächst
einen Überblick verschaffen will. Eine Interpretation, dass die redaktionelle
Arbeit für die Dienste nicht gewürdigt wird, ginge wohl zu weit.
237
Der Trend zu einfachen Links auf obersten Ebenen speist sich vermutlich
auch aus Überlegungen zur Mensch-Maschine-Interaktion. Web-Autoren
scheuen davor zurück, ihre Benutzer auf tiefere Ebenen zu schicken, weil sie
dort möglicherweise eher die Orientierung verlieren.
Ein weiterer Einflussfaktor liegt in der Dynamik von Seiten. Die Autoren
gehen sicher auch davon aus, dass Adressen auf höherer Ebene stabiler sind
als bei Seiten tiefer in der Hierarchie. Nach einer neuen Gliederung einer Site
sind tiefere Adressen möglicherweise nicht mehr gültig. Daneben sind diese
Adressen auch kürzer und schneller einzugeben.
Die rechtliche Problematik des sog. Deep Linking dürfte hierbei kaum eine
Rolle spielen. Von diesem erst jüngst wieder in den Schlagzeilen erscheinenden Phänomen spricht man, wenn Hyperlinks nicht auf die Homepage eines
Web-Auftritt verweisen, sondern auf tiefer gelegene Seiten. Problematisch
erscheinen solche Links, wenn der entsprechende Anbieter ein Geschäftsmodell verfolgt, nach dem er auf der Homepage Werbung platziert und auf
den tieferen Seiten einen informationellen Mehrwert bietet (cf. SPINELLO
2001). Die Internetkataloge werben wenn überhaupt auch auf hierarchisch
tieferen Seiten.
Die Abhängigkeit, die sich hier für eine Untermenge der Google- und YahooSeiten ergibt, wurde auch für andere hierarchisch aufgebaute Seiten analysiert. Dazu wurde eine Menge von Seiten aus Suchmaschinen-Ergebnissen
erstellt. Diese Seiten sollten thematisch ähnlich zu den Katalogseiten sein, um
Einflüsse des Themas auf das Link-Verhalten auszublenden. Dazu wurden
intellektuell wichtige Schlagwörter aus den Katalogseiten extrahiert und diese
unterschiedlich zu Suchanfragen kombiniert. Diese Suchanfragen wurden
dann automatisch an zwei Suchmaschinen geschickt und aus den Ergebnisseiten wurden die Treffer gefiltert.
Adressen wurden auf den Hostnamen reduziert und alle Links verfolgt. Die
Reihenfolge, in der die Seiten angetroffen wurden (crawl order), wurde der
hierarchischen Ebene gleichgesetzt, was in einigen Fällen sicher problematisch ist. Dabei ergab sich eine flachere, weniger stark abfallende Verteilung.
Die folgende Abbildung zeigt für diese Seiten, die nicht Teil des Verzeichnisdienstes sind, eine zusätzliche Analyse. Dazu wurde die kumulative Verteilung der In-Links auf die Seiten dargestellt. Für die Ebenen zwei und drei
nähert sich die Verteilung sehr schnell 100%, d.h. es existieren sehr wenige
Seiten mit mehr als einigen wenigen In-Links.
238
1,2
Page Percentage
1
0,8
0,6
level 0
level 1
0,4
level 2
0,2
73
69
65
61
57
53
49
45
41
37
33
29
25
21
17
13
9
5
1
0
Number of In-Links
Abb. 10.3: Kumulative Verteilung der In-Links auf Seiten
Eine Belohnung von tiefen Seiten mit relativ vielen In-Links scheint auch aus
Perspektive der Link-Erstellung plausibel. Verweist ein Link auf eine sehr
detaillierte Seite, dann ist eher davon auszugehen, dass der Autor der Seite
tatsächlich eine Qualitätsprüfung vorgenommen hat. Bei Links auf generelle
Seiten auf hoher Ebene dagegen ist die Wahrscheinlichkeit höher, dass keine
vollständige Überprüfung der darunter liegenden Seiten erfolgte, sondern dass
diese aus anderen Gründen referenziert wird. Bestätigt wird dies durch die
bereits erwähnten Untersuchungen zur Dynamik von Links. So zeigen
PENNOCK ET AL. 2002, dass die Wahrscheinlichkeit, dass ein Autor einen Link
auf eine Seite setzt, zum größten Teil von der Anzahl der bereits auf diese
Seite verweisenden Links abhängt (siehe Abschnitt 7.8.2).
239
„hoher Link“
„tiefer Link“
Abb. 10.4: „Hohe“ und „tiefe“ Links
Der starke Einfluss der Hierachie-Ebene, der sich in der weitgehend
exponentiell verlaufenden Verteilung äußert, könnte durch eine Potenzierung
ausgeglichen werden. Dazu gibt es mehrere Möglichkeiten. Am sinnvollsten
erscheint es, ein bestehendes Link-Maß (z.B. PageRank) zu benutzen und den
berechneten Wert zu bearbeiten.
L( Seite) Struktur = L( Seite) origHierachie− Ebene( Seite )
Eine weitere Analyse untersucht den Einfluss der hierarchischen Position
einer Seite auf deren interne Struktur. Dadurch sollte geklärt werden, ob die
Seiten auf verschiedenen Ebenen sich auch strukturell unterscheiden. Es
zeigte sich, dass Seiten auf hoher Ebene im Durchschnitt mehr Elemente in
der DOM-Struktur besitzen. Allerdings ergaben sich keine starken Korrelationen der gemessenen Parameter zu der Anzahl der In-Links oder der
Hierarchie-Ebene.
240
Tabelle 10.2: Struktur-Unterschiede von Seiten auf verschiedenen Ebenen
Hierarchie
Ebene
0
1
2
Durchschnitt
Anzahl
Anzahl
HTML
DOM
Elemente MetaTags
295,2
8,7
292,8
11,9
252,5
9,1
Hierarchie
Ebene
0
1
2
Standard-Abweichung
Anzahl
Anzahl
Anzahl
HTML
HTML
DOM
Elemente MetaTags Tables
382,2
10,1
23,4
429,3
11,7
17,9
470,3
8,1
28,3
Anzahl
HTML
Tables
13,6
10,9
9,5
Interessant wäre nicht nur, auf welche Ebenen Links ankommen, sondern
auch, von welchen hierarchischen Ebenen sie ausgehen. Dazu müsste eine
Cross-Link Matrix für Hierarchie-Ebenen erstellt werden (analog zur thematischen Cross-Link-Matrix von CHAKRABARTI ET AL. 2002).
Die in diesem Abschnitt vorgestellten Ergebnisse liefern einen Erklärungsansatz für die Resultate des Web Tracks von TREC in 2001 (siehe Abschnitt
7.10). In TREC zeigte sich, dass Link-Analyse-Verfahren bei inhaltlichen
Suchen zu keinen Verbesserungen des Retrievals führten, sondern lediglich
bei der Suche nach Homepages (homepage finding tasks). Die hier vorgestellte Untersuchung von Internet-Katalogen zeigte, dass die in der Hierarchie
oben stehenden Seiten in der Regel wesentlich mehr eingehende Links
besitzen als Seiten auf tieferen Ebenen. Die Wahrscheinlichkeit für einen
Link fällt sehr stark ab und verhält sich annähernd exponentiell. Damit
erhalten Homepages, also die Einstiegsseiten in ein Web-Angebot, vermutlich
meist sehr viel höhere PageRank-Werte als andere Seiten. Dies erleichtert
vermutlich das Finden von Homepages unter Berücksichtigung der
Verlinkung. Würde dies zutreffen, dann könnte eine einfache Heuristik
möglicherweise einen ähnlichen Effekt erzielen wie die aufwendige
Berechnung des PageRank-Algorithmus. Diese Heuristik könnte darin
bestehen, bei allen URLs der Suchergebnisse die Datei-Information zu
streichen und nur den Host-Teil zu melden. Für inhaltliche Suchen ist diese
Heuristik dagegen sicherlich kaum geeignet. Tatsächlich scheinen Suchma-
241
schinen zu versuchen, durch den Einsatz von Heuristiken unter den ersten
Treffern Homepages zu platzieren. Dies könnte verschiedene Gründe haben:
• Die Betreiber nehmen an, dass homepage finding tasks sehr häufig
vorkommende Informationsbedürfnisse darstellen und wollen diese
bedienen.
• Die Betreiber gehen davon aus, dass Benutzer Homepages als
Ergebnisse präferieren und zwar auch bei inhaltlichen Suchanfragen.
• Aufgrund des oben dargestellten Zusammenhangs zwischen Struktur
von Sites und der Link-Häufigkeit ergibt sich die hohe Platzierung von
Homepages von selbst.
10.2 Inkonsistenzen der Link-Analyse
Der Ansatz von AQUAINT zielt auf die Extraktion von Qualitätsmodellen
aus qualitativ überprüften Listen von Seiten. Aus der Perspektive der LinkAnalyse mag dies als überflüssig gelten, da ja die Qualität anhand der LinkVerteilung erkannt werden kann. Im Endeffekt könnte das Ergebnis der
beiden Verfahren ja gleich sein. Die empirisch zwar kaum gestützten, aber
doch plausiblen und häufig vertretenen Annahmen der Link-Analyse müssen
vor diesem Hintergrund überprüft werden. Deshalb wurde untersucht,
inwieweit die Link-Qualität von Seiten in Verzeichnisdiensten mit der Anzahl
der Links für die darin enthaltenen Angebote übereinstimmt. Korreliert also
die Zahl der Verbindungen auf eine Seite eines Verzeichnisdienstes mit der
Autorität der Seiten, auf die der Dienst verweist, gemessen an den Verweisen
auf diese Seiten? Finden die Redakteure der Dienste solche Web-Angebote,
die auch laut Linkanalyse eine hohe Autorität besitzen?
Um dies näher untersuchen zu können, wurden bei der oben bereits erwähnten
Stichprobe von ca. 4000 Seiten aus Yahoo neben den Links auf diese Seiten
auch die dort verzeichneten Seiten untersucht. Für jeden Eintrag in diesen
Yahoo-Seiten wurde eine Anfrage sowohl an Google als auch an Altavista
geschickt, um die Anzahl der In-Links dieser Angebote zu erhalten. Für jede
Yahoo-Seite wurde der Durchschnitt jeweils für die Google- und die
Altavista-Ergebnisse gebildet.
Zunächst zeigt sich, dass eine sehr große Streuung besteht. Bei einem
Mittelwert von 426 eingehenden Verbindungen weisen die Ergebnisse von
Google eine Standardabweichung von 1346 Verbindungen auf. Altavista
liefert als Mittelwert 79 und mit 209 ebenfalls eine sehr hohe Standardabweichung. Die Autorität und damit die vermutete Qualität der referenzierten Seiten wäre demnach sehr unterschiedlich.
242
Interessanterweise ergibt sich für die Stichprobe keinerlei Korrelation
zwischen den In-Links der Verzeichnisdienst-Seite und den In-Links der dort
genannten Web-Angebote. Der Betrag der berechneten Korrelation liegt unter
0,1. Angesichts der obigen Ergebnisse, nach denen auf in der Hierarchie tiefer
liegende Seiten kaum verwiesen wird, sollte man aber Seiten auf
unterschiedlichen Ebenen getrennt betrachten. Möglicherweise überlagert der
Einfluss der Hierarchie-Ebene der Seiten die gesuchte Korrelation. Daher
wurden die Korrelationen auch für die Seiten nur einer Ebene berechnet,
allerdings ergab sich auch hier keine nennenswerte Korrelation. Die LinkQualitätsmaße liefern also kein einheitliches Bild.
Von einigen anderen untersuchten Parametern ergab sich lediglich für die
Anzahl von Unterkategorien einer Seite eine positive Korrelation mit einem
Betrag von mehr als 0,5. Demnach steigt die Wahrscheinlichkeit für
Verbindungen auf eine Seite eines Verzeichnisdienstes leicht an, wenn die
Seite viele Unterkategorien enthält. Quantität wird also hoch bewertet und
führt zu mehr In-Links. Dagegen wirkt sich die Anzahl der enthaltenen
Verweise auf externe Angebote weder positiv noch negativ aus. Dies konnte
so nicht unbedingt erwartet werden, da die Leistung der Dienste gerade in der
Bewertung externer Links liegt.
10.3 Berücksichtigung von thematischer Zentralität
Einige Autoren beziehen den Inhalt der verweisenden Seite in die LinkAnalyse mit ein (HAVELIWALA 2002 und RICHARDSON & DOMINGOS 2002).
Ziel ist es, die Links aus der gleichen Community stärker zu gewichten. Dies
mag jedoch nicht bei allen Informationsbedürfnissen sinnvoll sein. Vielmehr
können auch Links von Outsidern Qualitätshinweise sein. So verweisen
Autoren, die nicht sehr stark in einer Materie verwurzelt sind, möglicherweise
nicht auf die größte Autorität, aber auf ein für Laien verständlicheres
Dokument.
243
Thematische Cluster
„non-community
Link“
„Community Link“
Abb. 10.5: Community- und Outsider-Links
Sobald also Communities und thematische Ähnlichkeiten zwischen Seiten erkannt sind, sollte der Einfluss von Community- und Outsider-Links parametrisierbar sein. Im Ansatz von HAVELIWALA 2002 besitzt jede Seite eine Ähnlichkeit zu einer Menge von Themen. Für jedes Thema beeinflusst ein Gewichtungsvektor über alle Seiten die PageRank-Berechnung.
Für eine parametrisierbare Bewertung der Community- und Outsider-Links ist
das Verfahrens von HAVELIWALA 2002 allerdings nur bedingt geeignet. Es
müssten für jedes Thema nun zwei PageRank-Rankings für alle Seiten erzeugt
werden. Das Insider-Modell wird vom Vektor p bestimmt, der die Ähnlichkeit
der Seite zu der Thematik widerspiegelt. Das zweite Outsider-Ranking müsste
mit einer Art inversen Vektor p erzeugt werden, in dem alle Seiten einen Wert
von Eins minus den Wert in p besitzen. Dadurch werden Links von Seiten
belohnt, die sich an sich mit einer anderen Thematik beschäftigen.
10.4 Fazit
Die oben vorgestellten empirischen Ergebnisse und die daraus resultierenden
Überlegungen verweisen auf mögliche Verfeinerungen der Link-Analyse. Die
Algorithmen können und müssen weiter entwickelt werden.
244
Über die hier diskutierten Modifikationen der Link-Analyse hinaus sind noch
weitere denkbar. Teilweise wird bereits die Position von Links in einer Seite
berücksichtigt. Ist etwa erkennbar, dass ein Link sehr zentral liegt und
möglicherweise noch hervorgehoben ist, dann kann er höheres Gewicht
erhalten. Eine interessante Ergänzung wäre auch die Veränderung über die
Zeit. Seiten, die sehr viele In-Links in kurzer Zeit erhalten, könnten stärker
belohnt werden. Ein derartiges Verfahren würde also die Änderung in den
Popularitätsmustern bewerten. Allerdings ist dies sehr aufwendig zu
berechnen.
245
246
Entwicklung von Qualitätsmodellen
11. Entwicklung von Qualitätsmodellen
Trotz aller denkbaren Differenzierungen und Verfeinerungen, wie sie im
letzten Kapitel anklangen, bleibt die Link-Analyse mit ihrer eindimensionalen
Qualitätsdefinition problematisch. Eine breitere Definition auf der Basis
mehrerer Parameter ist notwendig.
Die Strukturierung und Art der Präsentation taucht immer wieder in den
Prüflisten für die Qualität im Internet auf und hat somit einen großen Einfluss.
Aus der Mensch-Maschine-Interaktion ist bekannt, dass einfache, klare und
harmonische Formen und symmetrische Ausrichtung von Gestaltungselementen gut wahrgenommen werden. Allerdings erzeugen solche
Benutzungsoberflächen wenig Spannung und wirken schnell langweilig
(FRIES 2002). Dagegen zielen viele Gestalter auf die Erzeugung von
Spannung und Aufmerksamkeit ab und erreichen dies durch Komplexität bei
den Figuren, deren Ausrichtung und Farbgebung. In diesem Spannungsfeld
liegt die Qualität der Benutzungsoberflächen mit begründet.
Das visuelle Erscheinungsbild scheint zunächst wenig über die Qualität einer
Seite auszusagen, da doch der Informationswert im Vordergrund steht.
Dementsprechend nennen die Kriterienlisten zur Qualitätsprüfung die
Gestaltung kaum oder werten grafische Gestaltungselemente sogar negativ.
Jedoch orientieren sich Menschen bei der Qualitätsbewertung sehr stark an
der grafischen Gestaltung (TRACTINSKY 1997, BOUCH ET AL. 2000). Für den
Aspekt der Vertrauenswürdigkeit konnten FOGG ET AL. 2001 und 2002 eine
starke Korrelation zwischen Design und wahrgenommenem Vertrauen zeigen.
Blickverfolgungsstudien zeigen, dass sich der Mensch zunächst sehr an
Bildern orientiert. Nach wenigen Sekunden verlagert sich der Fokus auf
andere großflächige Elemente wie Texte und Navigationsstrukturen (OLLERMANN ET AL. 2004). Jedoch auch bei diesen Bewegungen orientiert sich das
Auge an den großen Strukturen und folgt der Aufteilung der Seite. Dieser
primäre Eindruck spielt sicher auch bei der weiteren Qualitätsbewertung eine
Rolle.
Für die automatische Qualitätsbewertung können daher neben der internen
Struktur und formalen Eigenschaften auch grafische Gestaltungsaspekte herangezogen werden. Alle diese formalen Eigenschaften schlagen sich im
HTML-Code einer Seite nieder. Aufgrund der mangelnden Standardisierung
für die formale Darstellung semantischer Zusammenhänge und damit zu dem
semantischen Aufbau und der Gliederung von Seiten, können Wissen und
Bezüge formal sehr heterogen dargestellt werden. So können etwa Über247
schriften in HTML als Überschriften gekennzeichnet sein oder durch die
Formatierung im Kontext hervorgehoben werden. Tabellen werden zur
Aufteilung der Fläche oder zur Darstellung tabellarischer Zusammenhänge
benutzt.
Der heterogene Einsatz von HTML-Elementen und die große Anzahl von
Eigenschaften macht es schwer, eindeutige Beziehungen zwischen Qualität
und diesen Eigenschaften zu formulieren (Etwa im Sinne von: „je mehr Tabellen, desto besser“). Die Qualitätsmodelle zielen daher in erster Linie auf
die Qualität der Vorhersage ab. Die Transparenz und Nachvollziehbarkeit der
Entscheidungen dagegen steht im Hintergrund.
Als Maßstab für die Qualitätsmodelle dienen Lerndaten mit menschlichen
Urteilen über die Qualität von Seiten. Diese werden aus Internet-Verzeichnisdiensten gewonnen, in denen menschliche Redakteure Seiten bewerten und in
den Katalog aufnehmen oder verwerfen. Im ersten Fall erfolgt noch eine
thematische Einordnung in eine hierarchische Ontologie. Entscheidend ist
jedoch die menschliche Qualitätsentscheidung durch den Redakteur. Ziel der
Web-Kataloge ist die Auswahl der besten Angebote zu einem Thema und
nicht die vollständige Sammlung aller Quellen. Aus der Praxis der Erstellung
von DMOZ berichtet HAMDORF 2004. Als Heuristik für die Aufnahme dient
demnach die Leitlinie: „good enough quality“. Wenn auch die zahlreichen
Redakteure dies sicher unterschiedlich auslegen, so werden durch das
menschliche Urteil sicher zahlreiche unseriöse Angebote aussortiert. Aufgrund der vielen Urteile, welche die Redakteure zu fällen haben, spielen
grafische Aspekte auch bei der Aufnahme in den Katalog eine wichtige Rolle.
Die Auswertung der Informationsarbeit von Redakteuren der Web-Kataloge
erfolgt auch in vielen anderen Forschungsarbeiten. So übertragen manche
Klassifikationssysteme die thematische Einordnung von Seiten in InternetKatalogen auf andere Seiten. Damit werten sie die darin vorgenommenen
Entscheidungen als qualitativ hochwertig genug, um sie als Maßstab für ihr
System zu benutzen.
Ein Beispiel für die Qualität der intellektuellen Arbeit im Rahmen von
Internet-Verzeichnisdiensten liefern CHOWDHURY & SOBROFF 2002. Sie
benutzen die Einträge im Dienst Open Directory Project als optimale
Ergebnisse für Suchdienste. Die Einträge im Katalog für bestimmte Themen
gelten als relevant für entsprechende Suchanfragen und die Autoren bewerten
Retrieval-Systeme danach, wie sie diese bekannten Seiten im Ranking
einordnen.
248
11.1 Überblick
Im Zentrum der Entwicklung von Qualitätsmodellen steht die in JAVA
implementierte Software AQUAINT Quality Workbench, welche auf Basis
eines open-source crawling Programms1 entwickelt wurde. Die Erstellung der
Vergleichsdaten für die Qualitätsmodelle läuft in mehreren Schritten ab,
welche Abbildung 11.1 veranschaulicht. Dabei werden zunächst die Seiten
eines Internet-Katalogs analysiert und die darin enthaltenen Links auf externe
und positiv bewertete Seiten extrahiert. Diese Seiten werden anschließend auf
ihre Eigenschaften hin untersucht. Ferner extrahiert das System Seiten ohne
Qualitätsurteile, indem es häufig in den Katalog-Seiten vorkommende Begriffe als Suchanfrage an Suchmaschinen sendet. Aus den Ergebnis-Listen
werden die Treffer extrahiert und ebenfalls auf ihre Eigenschaften hin
untersucht.
Als Vergleichsdaten dienen beliebige Seiten, die mit Hilfe einer Suchmaschine gesucht werden. In der Vergleichsmenge können natürlich auch
qualitativ gute Seiten enthalten sein, die den Redakteuren aber nicht bekannt
sind. Die Evaluierung darf sich deshalb nicht in der Approximation der Aufnahmeentscheidungen erschöpfen. Somit stellt für ein automatisches Qualitäts-Bewertungsverfahren die Qualität der Approximation in der Lernmenge
(Trainings- und Testmenge) nur ein bedingt brauchbares Kriterium dar.
Internet-Katalog
Katalog-Listen
Internet-Suchmaschine
WEB
Ergebnis-Listen
Katalog-Einträge
Ergebnis-Seiten
Seiten in Bezug zu KatalogEinträgen
Seiten in Bezug zu
Ergebnis-Seiten
Analyse der
Eigenschaften
Analyse der
Eigenschaften
DE
KR
BR
Seiten-Eigenschaften
Seiten-Eigenschaften
Abb.11.1: Sammlung der Daten für die Qualitätsmodelle
1
http://www.matuschek.net
249
Nach mehreren Testläufen zum Sammeln von Seiten aus Internet-Katalogen
fiel die Entscheidung auf Yahoo, wodurch auch eine spätere Erweiterung auf
internationale Seiten möglich ist. Das erste System basiert auf einem
umfangreichen Crawl von Seiten aus dem Unterpunkt Gesundheit von Yahoo
erstellt.
Das Sammeln der Seiten erfolgt mit dem Werkzeug PageCollector, während
der PageProfiler die Analyse der gesammelten Seiten vornimmt. Beide Werkzeuge wurden im Rahmen des Projektes AQUAINT implementiert. Der PageProfiler erstellt zunächst ein Document Object Model jeder Seite, aus dem
dann die Eigenschaften gelesen werden.
Repräsentation
Autoren
Erstellen
Web
Dokument
Korpus
Indexierung
DokumentTermMatrix
Redakteure
aly
se
S
n
ru
e
i
t
or
g
Qualitätsmodell
Qualitätsbewertung
Überprüfung
An
g
se
aly
rtu
n
Strategie
Be
we
An
Qu
ali
tät
sb
ew
er
tu
ng
Crawling
Ein
r
lt e
Fi
flus
s
ErgebnisDokumente
Formulierung
Benutzer
Anfrage
Indexierung
Abb.11.2: Qualitätsretrieval: Wissensquellen für und Einsatzmöglichkeiten
von Qualitätsmodellen im Information Retrieval-Prozess
250
11.2 Untersuchte Parameter
Zur Auswahl der Eigenschaften wurde der state-of-the-art-Bericht in Kapitel
8 ausgewertet und zahlreiche der in der Literatur erwähnten Maßzahlen
implementiert. Besonders die Ideen von AMENTO ET AL. 2000, ZHU & GAUCH
2000 sowie IVORY & HEARST 2002 gingen dabei ein.
Ferner wurden weitere Maßzahlen entwickelt, welche das grafische Erscheinungsbild einer Seite beeinflussen. Vor allem einfach zu implementierende
Maßzahlen auf der Basis der Anzahl von verschiedenen Tags wurden
realisiert. Insgesamt wurden ca. 113 Eigenschaften der Internet-Seiten für die
Erstellung des Qualitäts-Modells für das AQUAINT-System extrahiert.
Dazu zählen Eigenschaften der Datei, der enthaltenen Links, die Häufigkeit
von bestimmten Tags, Listen, Tabellen, Farben, sprachliche Eigenschaften
sowie berechnete Größen wie das Verhältnis einzelner Eigenschaften.
11.2.1 Datei-Maße
Zunächst sind Parameter zur Dateigröße sinnvoll. Derartige quantitative
Parameter kommen in fast allen Untersuchungen vor. Die reine Dateigröße
kann als rein technischer Parameter leicht erhoben werden und wird auch
genutzt. Allerdings bietet sie nur einen Anhaltspunkt dafür, wie die Größe der
Seite vom Benutzer wahrgenommen wird, da sie auch nicht sichtbare Teile
berücksichtigt. Zusätzlich wurden daher die Größe bzw. Komplexität anhand
der Anzahl der DOM-Elemente erfasst. Darüber hinaus spielt für den Benutzer die Länge des sichtbaren Textes eine Rolle für die Wahrnehmung. Der
reine Text ohne Tags wird also extrahiert und seine Länge erfasst. Dieser
reine Text bildet auch noch die Grundlage für die Bestimmung der sprachlichen Eigenschaften. Auch die Länge der URL und die Länge des Titels
wurden erfasst. Die Länge des Titels hat sich in einer anderen Klassifikationsaufgabe bewährt (MLADENIC & GROBELNIK 1998) und Länge Null würde auf
ein wenig professionelles Vorgehen hinweisen. Die Länge URL gibt oberflächlichen Aufschluss über den Host-Namen. Kurze URLs sind leichter zu
merken und Firmen bevorzugen kürzere Host-Namen. Die Position einer Seite
innerhalb einer Site hat ebenfalls Einfluss auf die Länge der URL. Je nach
Position in einer hierarchischen Site hat eine Seite auch andere strukturelle
Eigenschaften und die Anzahl der eingehenden Links ist höher bei Seiten, die
strukturell nahe der Homepage liegen (siehe Abschnitt 10.1). Damit verändert
sich der von der Linkanalyse zugewiesene Qualitätswert und möglicherweise
auch die Wahrnehmung durch Redakteure und Benutzer. Die Integration
dieser strukturellen Position als Merkmal in die Qualitätsmodelle erlaubt es
251
den maschinellen Lernverfahren die Position zu berücksichtigen und abhängig
von dem Positionswert andere Ergebnisse zu liefern. Dieses Maß entspricht
dem Depth-Strukturmerkmal von BOTAFOGO ET AL. 1993:170f. Allerdings
setzt dieses Maß die vollständige Kenntnis der Site und aller Links voraus, die
AQUAINT aus Effizienzgründen nicht anstrebt. Die Hierarchie-Ebene der
Seite innerhalb der Site wird statt dessen anhand von heuristischen Regeln
bestimmt. Dazu zählt etwa die Anzahl der in der ULR erkennbaren Unterverzeichnisse. Somit wurden folgende Datei-Maße erfasst:
• Datei-Größe
• Länge der URL-Adresse
• Länge des HTML-Titels
• Anzahl DOM-Elemente
• Hierarchie-Ebene der Seite innerhalb der Site (heuristische Regeln)
11.2.2 Link-Maße
Auch Links spielen eine große Rolle bei der Wahrnehmung einer Seite und
sind etwa entscheidend dafür, ob eine Seite eher einen Hub oder eine
Authority darstellt. Zwischen diesen von Kleinberg eingeführten und
sinnvollen Rollen wird in den Verzeichnisdiensten allerdings nicht unterschieden. Das AQUAINT-System, das auf der Wissensquelle Verzeichnisdienste beruht, behandelt daher auch beide Seitentypen gleich. Für die Bewertung von Hub und Authority mögen aber unterschiedliche Eigenschaften in
die menschliche Bewertung einfließen. Deshalb werden als Anhaltspunkt für
die primäre Rolle einer Seite Link-Maße mit erfasst. Zunächst erfasst
AQUAINT die Anzahl der ausgehenden Links insgesamt und die Anzahl der
Links auf den gleichen Host. Diese dienen vermutlich voraussichtlich der
Navigation und spielen somit auch eine Rolle für die Qualität. Ebenso wird
die Anzahl der Links auf PDF-Dateien und Grafiken ermittelt.
Als Link-Label bezeichnet man den Text, der mit dem Link verbunden ist und
der für den Benutzer sichtbar ist. Dieser hat sich im System WebTango als
guter Indikator für die Qualität erwiesen (siehe Abschnitt 8.4.2, IVORY &
HEARST 2002). Deshalb wurden für AQUAINT die Länge aller auftretenden
Labels ermittelt und als Größe für die Seite sowohl der Durchschnitt, der
Median als auch die Standardabweichung genutzt. Diese Größen weisen auch
auf die Ausgewogenheit und Gleichmäßigkeit der Gestaltung der Labels. Die
Link-Labels verweisen bereits auf die sprachliche Gestaltung der Seite.
252
Wie etliche andere Größen sind absolute Zahlen für die Anzahl der
ausgehenden Links wenig sinnvoll. Deshalb wird das Verhältnis von
ausgehenden Links zur Größe der Datei bestimmt und für das Qualitätsmodell
gespeichert. Damit ergeben sich folgende Link-Maße:
• Zahl der ausgehenden Links
• Zahl der ausgehenden Links zum gleichen Host
• Zahl der Links auf PDF-Dateien
• Länge der Link-Label (Durchschnitt, Median, Standardabweichung)
• Zahl der ausgehenden Links im Verhältnis zur Größe
• Anzahl und Anteil der Links auf Bilder
11.2.3 Häufigkeit von Tags
Die Tags in HTML bilden die Grundlage für die Formatierung und damit das
Erscheinungsbild einer Seite. Die Bedeutung des graphischen Erscheinungsbildes wurde schon in der Einleitung zu diesem Kapitel diskutiert. Nach der
Erstellung des Document Object Models (siehe Abschnitt 11.3) können die
Tags leicht automatisch ermittelt werden. Konsequenterweise werden für das
Training der AQUAINT-Qualitätsmodelle zahlreiche Tags erfasst und ihre
Anzahl gespeichert.
Dazu zählen Tabellen-Tags wie table, td und tr, die aber unter den TabellenMaßen nochmals auftauchen und weitere Tags, die noch unter den ListenMaßen auftauchen. Für das Aussehen einer Seite sind die folgenden Tags
relevant und werden extrahiert: Layer, Img, Frameset, Col und ColGroup.
Erfasst werden Meta-Tags, die häufig auch Syntax-Prüfprogramme zählen.
Script-Tags sind für die Interaktivität wichtig und werden gezählt. An TextTags werden H1, H1 und H3 für Überschriften sowie Style, HR und Font
extrahiert. Eine Reihe weiterer seltener Textformatierungstags werden gesammelt und als eine Summe gespeichert.
11.2.4 Farb-Maße
Besonders relevant für das Aussehen und die Wahrnehmng einer Seite durch
den Benutzer sind Farben. Erfasst werden können Farben als Werte einiger
HTML-Tags. Diese bestimmen keineswegs das gesamte Erscheinungsbild.
Dazu müsste das System noch die Größe der einzelnen Objekte, ihre Lage
253
und Überlappungen bestimmen. Bedeutend für die Farbe der im Browser
gezeigten Fläche sind natürlich auch Grafiken und die darin enthaltenen
Farben. Die Farbextraktion daraus ist aber technisch aufwendiger. AQUAINT
beschränkt sich aus technischen Gründen und zu gunsten der Effizienz auf die
HTML-Farben. Die folgenden Farb-Eigenschaften werden erfasst, die RGBWerte werden bestimmt und für jede Farbe werden drei Werte für Rot, Grün
und Blau gespeichert. Symbolische Farbfestlegungen werden in die RGBWerte umgerechnet.
• Hintergrundfarbe
• Hintergrundfarbe der ersten Spalte der ersten Tabelle
• Text-Farbe
• Anzahl der HTML-Farb-Angaben
• Anzahl der einmaligen HTML-Farb-Angaben
• Am häufigsten vorkommende Farbe
Diese erfassten wichtigen Farben bestimmen zum großen Teil das Erscheinungsbild der Seite. Aus diesen Farben können Kontraste, günstige Farbkombinationen und Überladenheit bestimmt werden. Explizite Aussagen zu günstigen Kombinationen trifft AQUAINT nicht, die positiven Beispiele müssen
aus den Lerndaten bestimmt werden.
11.2.5 Tabellen-Maße
Tabellen sind in HTML ein wichtiges Mittel für die Formatierung einer Seite.
Vor allem die Gesamtstruktur legen Designer häufig mit Tabellen fest. Die
Analyse der Tabellen trägt zur Bestimmung des Designs bei. Bei der
Betrachtung des Gesamtbilds wird die Bedeutung der Gestaltgesetze und der
Gegensatz zwischen den Prinzipien Einfachheit und Komplexität bedeutsam
(siehe Abschnitt 1.4). Die Wahrnehmung der Komplexität der Struktur und
der Symmetrie steuern nicht zuletzt die Tabellen. Dies gilt auch für die
Ausgewogenheit der Zeilen und Spalten der einzelnen Tabellen. Ausgewogenheit fordern auch viele Richtlinien und Ratgeber. Ein analoges Maß stellen
Botafogo et al. 1993:172 mit den Imbalance Metrics für die Hypertext-Strukturen zwischen Seiten vor (siehe Abschnitt 8.4.3). Für jede Seite summieren
die Autoren die mögliche Pfadlänge, die von dieser Seite noch beschritten
werden kann. Die Standardabweichung dieser Pfadlängen stellt einen
absoluten Ausgewogenheitswert für die aktuelle Seite dar. Die Standard254
abweichung misst daher in AQUAINT die Ausgewogenheit der Tabellen
sowie der Link-Label und der HTML-Listen.
AQUAINT versucht Gestaltungsentscheidungen zu Tabellen mit folgenden
Größen zu erfassen:
• Median, Durchschnitt und Standardabweichung (td-tags pro Tabelle)
• Median, Durchschnitt und Standardabweichung (tr-tags pro Tabelle)
• Verhältnis Anzahl Tabellen zur Datei-Größe
• Verhältnis Anzahl der Wörter zur Anzahl Tabellen
• Verhältnis Anzahl eingebetteter Tabellen zur Anzahl Tabellen
11.2.6 Listen-Maße
Die Ausgewogenheit einer Seite zeigt sich auch bei der Gestaltung von
Listen. Die Anzahl der Einträge pro Liste sollte bei mehreren Listen ausgewogen sein und auch sollten die Einträge nicht zu unterschiedlich lang sein.
Erfasst werden die folgenden Eigenschaften:
• Anzahl von Listen
• Median, Durchschnitt und Standardabweichung Einträge pro Liste (Litags pro List-Tag)
• Anzahl Listen durch Anzahl der Wörter
11.2.7 Sprachliche Eigenschaften
In AQUAINT wurden nur wenige und einfache quantitative sprachliche
Eigenschaften erfasst. Dadurch soll die Sprachabhängigkeit begrenzt werden.
Durch den Verzicht auf syntaktische Analysen erhöht sich auch die Robustheit des Systems. Zudem treten in Internet-Seiten keineswegs immer syntaktisch korrekte Zeichenfolgen auf, da zahlreiche Listen und Menü-Einträge
vorkommen.
Grundeigenschaften sind die Anzahl der Wörter und Sätze. Daraus werden
einige Größen wie das Verhältnis von Sätzen zur Anzahl der Zeichen, das
Verhältnis von Leerzeichen zur Anzahl der Zeichen und das Verhältnis von
Anzahl der Zeichen zur Dateigröße. Ähnliche Merkmale haben RAUBER &
MÜLLER-KÖGLER 2001 erfolgreich für Text-Kategorisierung verwendet.
255
Einige Größen berücksichtigen die Anzahl der Stoppwörter und deren
Verhältnis zu der gesamten Anzahl von Wörtern. Dieses Maß ist von der
Information-to-Noise Ratio von ZHU & GAUCH 2000 (siehe Abschnitt 8.3.1)
inspiriert. Den Informationsgehalt misst auch die Anzahl und der Anteil von
einmalig benutzten Wörtern.
Somit werden folgende sprachliche Eigenschaften erfasst:
• Anzahl der Satztrennzeichen (Hinweis auf Anzahl von Sätzen)
• Anzahl der Leerzeichen (Hinweis auf Anzahl der Wörter)
• Anzahl und Anteil von Stoppwörtern (sprachabhängig für Deutsch)
• Anzahl und Anteil einmalig benutzter Wörter
11.2.8 Berechnete Größen
Wie bereits erwähnt, sagen einige der Maßzahlen als absolute Werte
voraussichtlich wenig aus. Neben den bisher schon angesprochenen
berechneten Größen wurden noch folgende bestimmt:
• Anzahl ausgehende Links zur Dateigröße
• Anzahl der Grafiken zur Anzahl der DOM-Elemente
• Anzahl der Grafiken zur Textlänge
• Verhältnis Anzahl der Satzzeichen zur Anzahl der DOM-Elemente
Damit kann nicht für jeden Einzelfall das häufig optimale Verhältnis von Text
zu Bild oder der jeweils angemessene Einsatz des Medien abgeleitet werden.
Dazu bieten die Normen und andere Richtlinien zur Kombination von Medien
zu wenig umsetzbare Regeln (DIN EN ISO 14915-3 2002). Jedoch sind diese
Größen leicht zu berechnen und ergeben je nach Gestaltung der Seiten andere
Werte. Zusammengesetzte Größen setzen mehrere Ansätze ein. Eine
komplexe Sturkurvariable tritt bei BUCY ET AL. 1999 auf, komplexe Variablen
setzen ZHU & GAUCH 2000 ein und IVORY & HEARST 2002 berechnen
mehrere Verhältnisse zwischen Größen.
11.2.9 Fazit Eigenschaften
Keiner der genannten Parameter gibt für sich Auskunft über die Gestaltung
einer Seite. In ihrem Zusammenspiel bieten sie aber einen Maßstab für die
256
Präsentation und die Darstellung. Diese Parameter versuchen, u.a. den Grad
der Strukturiertheit und Komplexität der Seite zu messen. Im Web-Design
konkurrieren die Prinzipien Komplexität und Ordnung. Ordnung steht für
Einfachheit, klare Formen und Symmetrie. Im Übermaß wirkt Ordnung
langweilig. Dagegen steht Komplexität für Überraschungen und Verstöße
gegen Ordnungs-Prinzipien wie Symmetrie und Einfachheit. Zu viel
Komplexität in der Gestaltung wirkt überladen und unstrukturiert. Gutes
Design muss sich in einem engen Rahmen zwischen den beiden Extremen
bewegen (siehe Abschnitt 1.4). Die obigen Parameter versuchen, einfache
Maße für diese Design-Prinzipien zu sammeln und dem maschinellen
Lernsystem so Anhaltspunkte für die menschlichen Entscheidungen zu bieten.
So soll letztendlich das Erkennen „guter“ Seiten möglich werden. Auch die
Professionalität des Autors oder die Verwendung eines Content Management
Systems haben sicher Einfluss auf die gemessenen Parameter.
Eine analytische Bewertung der Parameter auf ihre Plausibilität bildet aber
nur einen ersten notwendigen Schritt. Nur die Evaluierung im Anwendungskontext kann zeigen, ob diese Parameter zu einer erfolgreichen Implementierung eines Qualitätsmodells führen (siehe folgenden Abschnitt 11.4) und ob
ein derartiges Modell zum erfolgreichen Qualitäts-Retrieval führt (siehe Kapitel 13).
Nicht betrachtet wurden Eigenschaften der HTML-Syntax, da diese wenig
Auswirkung auf die wahrgenommene Qualität haben. Diese meist von Syntax-Prüfprogrammen erhobenen Eigenschaften (siehe Abschnitt 8.4.1) besitzen eher normativen Charakter.
Einige Parameter können aus Gründen der Performanz nicht erhoben werden.
Die gleichen Parameter müssen beim Einsatz des Modells zur Verbesserung
von Retrieval-Ergebnissen zur Laufzeit erfasst werden. Die Anzahl der InLinks könnte zwar von einer Suchmaschine abgefragt werden, jedoch würde
dies zu viel Zeit beanspruchen um das System noch interaktiv bedienen zu
können. Die Reaktion der Suchmaschine soll möglichst schnell erfolgen.
Einige Maßzahlen wurden nicht integriert, da sie im Anwendungsszenario zur
Laufzeit zu einer erheblichen Verzögerung geführt hätten und das System
beim Benutzertest nicht mehr interaktiv bedienbar gewesen wäre. Dazu zählt
die Abfrage der Anzahl der eingehenden Links bei einer Suchmaschine, wie
sie für die Analyse in Kapitel 10 realisiert wurde.
Zusätzlich wurden für die in Kapitel 10 vorgestellten Analysen Wrapper für
Verzeichnisdienste bzw. Internet-Kataloge entwickelt, welche zusätzliche
Informationen aus Katalog-Seiten extrahieren. Dazu gehören HierarchieEbene, enthaltene Unterkategorien und die eigentlichen Verweise auf andere
257
Web-Angebote. Auch quantitative Aspekte wie die Anzahl der Unterkategorien und die Anzahl der Verweise oder Einträge erfasst das System.
11.3 Realisierungsaspekte
Für diese Untersuchung wurde eine Quality Workbench (QuWob) entwickelt,
die im Kern ein Web-Mining-System in JAVA 1.4 darstellt und auf mehreren
frei im Internet verfügbaren Komponenten aufbaut.
Die Seiten werden mit einem Roboter aus dem Netz übertragen. Dazu wurde
ein open-source-Roboter an die Bedürfnisse der Anwendung angepasst1. Die
HTML-Seiten werden mit dem Tidy-Parser von W3C analysiert und in ein
Document Object Model (DOM) überführt2.
Online Analyse
Online Analyse
Search
Result
Reader
Page
Profiler
Anfrage
Anfrage
SeitenEigenschaften
Ergebnis
URL-Liste
BOF
Ergebnis
FusionKomponente
Qualitätswerte
Qualitätsmodell
Offline Knowledge Aquisition
Maschinelles Lernen
Abb. 11.3: Schematischer Überblick über die wichtigsten Komponenten
1
http://www.matuschek.net/software/jobo/index.html
2
http://w3c.org
258
WEB
Fragt Suchmaschinen ab
BOF
-HTML
-Servlet
Extrahiert
Ergebnisse
Search Result
Reader (SRR)
-Sammelt Seiten
-aus Suchergebnissen
Verfolgt
Links
Page Collector
(PC)
-nutzt Start-Seiten
-sammelt Seiten
-Basiert auf
WebMiner
von Matuschek
Download
und
Analyse
Page Profiler (SPA)
-download von Seiten
-Erstellt DOM
-Extrahiert Eigenschaften
-Bereitet
Trainings-Dateien vor
Maschinelles
Lernen
-Klassifikation
-WEKA
Qualitätsmodell
AQUAINT Kernkomponenten
JAVA Komponenten
Abb. 11.4: Schematischer Überblick über den Extraktions-Prozess
Im Rahmen von QuWob stehen folgende Werkzeuge zur Verfügung, die auch
von der Kommandozeile aus bedient werden können und meist über
Parameter gesteuert werden:
• PageCollector (PC, sammelt Seiten im Internet, geht von einer Seite
aus oder arbeitet eine Liste von URLs ab)
• SimpleResultReader (SRR, parst Ergebnis-Seiten von Suchmaschinen
und extrahiert die Zielseiten, Wrapper für fünf Suchmaschinen wurden
implementiert)
• PageProfiler (SPA, parst Seiten und extrahiert die Parameter)
• SimplePageLinkAnalyzer (SPLA, parst eine einzelne Seite und
extrahiert die Links)
Diese Werkzeuge sind als Web-Clients in JAVA realisiert. Der PageCollector
implementiert einen Crawler und erlaubt z.B. folgende Parameter:
• Sollen die Seiten von dem gegebenen Host oder von beliebigen Hosts
gesammelt werden?
259
• Startet der Crawler nur von der gegebenen Seite oder zusätzlich noch
von der Homepage dieses Hosts, falls diese nicht identisch sind?
• Wie viele Schritte in die Tiefe soll der Crawler maximal auf einem
Host sammeln?
• Wie lange soll das System zwischen den Zugriffen warten?
Für die Internet-Kataloge existieren Modifikationen der oben genannten
Werkzeuge. Diese realisieren Wrapper für die Kataloge, welche z.B. lediglich
die Katalog-Seiten sammeln oder Katalog-Seiten bewerten und dabei die für
Kataloge spezifischen Eigenschaften wie Thema, hierarchische Ebene im
Katalog, Anzahl der Einträge und Unterebenen zusätzlich mit erfassen.
Der SimpleResultReader liest Ergebnisse einer Suchmaschine und stellt einen
Wrapper für die Seiten der Suchmaschine dar. Eine Implementierung mit
einem API wie etwa dem Google API (cf. MUELLER 2004) war hier nicht
sinnvoll, da dieses nur eine sehr beschränkte Anzahl von Suchen pro Tag
erlaubt. Demnach muss zunächst die Syntax der Suchmaschine bekannt sein.
Die meisten Suchmaschinen stellen die Suchbegriffe und Parameter transparent in der URL der Ergebnisseite dar1. Diese URLs lassen sich leicht erzeugen und aufrufen. Innerhalb der Seite müssen dann die URLs der ErgebnisSeiten in der richtigen Reihenfolge extrahiert werden und anschließend wird
die nächste Ergebnis-Seite aufgerufen. Die Abbildung 11.5 zeigt, welche
Schritte der SimpleResultReader beim Aufruf einer Seite durchläuft.
Eine ähnliche Funktion wie der SimpleResultReader kann bei jedem Aufruf
des PageProfiler integriert werden. Diese Funktion schickt dann eine Anfrage
an eine Suchmaschine, die alle Seiten mit Links auf die URL der analysierten
Seite abfragt. In der Ergebnisliste wird lediglich die Anzahl der Links ausgelesen. Im Benutzertest konnte diese Funktion nicht aufgerufen werden, da die
Bearbeitung zu lange gedauert hätte.
1
Die Suche dem Begriff Retrieval etwa führt in Lyocs zu einer Ergebnis-Seite mit
folgender URL: http://suche.lycos.de/cgi-bin/pursuit?query=Retrieval
260
JAVA Client:
•Aufruf einer Suchmaschinen-Seite
•Transparente Syntax
•Einfügen der Suchbegriffe
•Analyse der Seitenstruktur
•Anzahl der Treffer
•Ergebnis-Links
•Weitere Ergebnisseiten
•Aufzeichnen der Ergebnis-Links
JAVA Programm:
•Weiterverarbeitung
•Analyse der
Ergebnis-Seiten
<?xml version="1.0" encoding="UTF8"?>
<html><!-020513:0014 --><head>
<meta content="HTML Tidy, see
www.w3.org" name="generator"/>
<title>Yahoo!
Nachschlagewerke>Statistiken</title>
<base
href="http://de.dir.yahoo.com/Nachschlage
werke/Statistiken/"/>
</head> <body bgcolor="ffffff">
Abb.11.5: SearchResultReader als Web-Client
Das maschinelle Lernen der Qualitätsmodelle erfolgt mit dem WEKA-System
(Waikato Environment for Knowledge Analysis1, WITTEN & FRANK 2000).
WEKA ist ein Data-Mining System, das zahlreiche Lernalgorithmen sowie
Analyse- und Bewertungsverfahren als JAVA-Quellcode zur Verfügung stellt.
Die Verbindung zwischen dem Output des PageProfilers und WEKA stellt
das Werkzeug WekaFilePreparator (WFP) her. Es formt die Dateien aus dem
Format des PageProfilers in das für WEKA nötige Format ARFF um. Die
folgende Abbildung zeigt die graphische, interaktive Benutzungsoberfläche
von WEKA, für umfangreiche und größere Lernaufgaben wie in diesem
Projekt erwies sich aber die Steuerung per Kommandozeile als stabiler.
1
http://www.cs.waikato.ac.nz/ml/weka
261
Screenshot WEKA
Abb. 11.6. WEKA-Benutzungsoberfläche
Im Realbetrieb müssten die Eigenschaften oder zumindest der Qualitätswert
vorab abgespeichert sein und wie z.B. der PageRank bei Google (cf. PAGE ET
AL. 1998) zur Laufzeit nur noch abgefragt werden. Dann kann die Fusion mit
dem inhaltlichen Ähnlichkeitswert schneller erfolgen.
11.4 Qualitäts-Modelle
Die Realisierung der Qualitätsmodelle läuft in mehreren Schritten ab, in
denen die im vorigen Abschnitt eingeführten Systeme eingesetzt werden:
• Aus einem Internet-Verzeichnisdienst bzw. Katalog werden zunächst
Listen von Katalog-Seiten erzeugt
• Aus diesen Seiten werden die Links extrahiert und Listen mit von dem
Katalog referenzierten Seiten erzeugt
• Diese Katalog-Einträge werden analysiert und die oben genannten
Parameter extrahiert
262
• Aus den Einträgen werden die häufigsten Terme extrahiert und diese in
verschiedenen Kombinationen an Suchmaschinen geschickt
• Aus den Suchergebnis-Seiten werden Listen von Seiten erzeugt, die
nicht in dem Katalog enthalten sind
• Diese Nicht-Katalog-Seiten werden analysiert und die oben genannten
Parameter extrahiert. Sie dienen als Vergleichsdaten zu den KatalogSeiten
• Die Daten werden zusammengeführt und als positive und negative
Beispiele an ein maschinelles Lernsystem übergeben
• Nach dem erfolgreichen Lernen wird das Modell mit der Abbildung
von Seiten-Eigenschaften auf den Qualitätswert gespeichert und kann
nun auf andere Seiten übertragen werden
Die wichtigen Parameter für die Modelle sind die Datengrundlage und das
verwendete maschinelle Lernverfahren. Als Zielwert für die Lernverfahren
muss enweder die Klassenzugehörigkeit oder ein numerischer Wert vorgegeben werden. Für alle Modelle, die im Folgenden vorgestellt werden, gelten
die Vorgaben von Tabelle 11.1:
Tabelle 11.1: Vorgaben für Lernverfahren
Web-Seiten
Qualitätsbewertung
Zielwert bzw.
Klassenbezeichnung
Aus WebKatalog
Gut
+ 1,0
Aus Suchmaschinen
Neutral
0
Aus Spam-Liste
Schlecht
-1,0
Die weiteren Abschnitte beschreiben die Erstellung und die Trefferquoten von
Modellen auf der Basis verschiedener Datenquellen und Lernmodelle. Sämtliche Modelle wurden mit dem WEKA-Paket für maschinelles Lernverfahren
erstellt. Alle Ergebnisse basieren auf zehnfacher Cross-Validierung. Das bedeutet, dass der Klassifizierer zehnmal trainiert wird und dabei jeweils 90%
der Daten zum Training und 10% für den Test benutzt werden. Die durchschnittliche Performanz des Verfahrens aus diesen zehn Testmengen gilt als
Gesamtleistung.
263
11.4.1 Qualitätsmodelle auf der Basis von Yahoo
Für den Prototyp der Qualitäts-Suchmaschine wurde in AQUAINT ein umfangreiches Modell anhand des Unterpunktes Gesundheit des Internet-Verzeichnisdienstes Yahoo erstellt.
Das Modell basiert auf einem Crawl im Unterpunktes Gesundheit des Katalogs Yahoo, der 15.000 Seiten extrahierte. Diese Seiten stellen die qualitativ
hochwertigen Beispiele dar. Daneben wurden zu ähnlichen Themen ca.
15.000 beliebige Seiten mit der Hilfe von Suchmaschinen identifiziert, die als
qualitativ neutrale Beispiele dienten. Dazu wurden häufige und wichtige
Schlagwörter in den Yahoo-Seiten identifiziert und in verschiedenen Kombinationen als Suchanfragen an Suchmaschinen geschickt. Das System stützt
sich dabei vor allem auf die Suchmaschine Lycos und den Suchdienst von
abacho.de.
Für die Erstellung der Modelle wurden automatische Lernverfahren benutzt,
die sehr unterschiedlich arbeiten. Dabei kamen sowohl lineare als auch nichtlineare Verfahren zum Einsatz. Die folgenden Tabelle 11.2 und 11.3 zeigen
die Vorhersage-Genauigkeit, welche die Lernalgorithmen bei dieser Datenbasis erzielen.
Tabelle 11.2: Klassifikationsverfahren für Yahoo- und Suchmaschinen-Seiten
(Klassen 0 und 1)
Lernverfahren für Klassifikation
Zero Rule (Mehrheit)
One Rule
Naive Bayes
Ibk (instanz-basierter Klassifizierer, drei nearest neighbour)
Trefferquote
39 %
75 %
96 %
99,8 %
Eine Trefferquote von 75% bedeutet, dass bei 70% aller Seiten der Lernalgorithmus erkennen konnte, ob es sich um eine Verzeichnisdienst-Seite oder
eine beliebige Seite handelte.
264
Tabelle 11.3: Ergebnisse von numerischen Lernverfahren für Yahoo- und
Suchmaschinen-Seiten (Klassen 0 und 1)
Lernverfahren für numerische Vorhersage
Lineare Regression
Support Vector Machine Regression (nicht linearer Kernel)
Korrelation
0,97
0,98
Diese Ergebnisse erscheinen durchaus befriedigend. Eine Trefferquote von
100% wäre sogar problematisch. Denn qualitativ hochwertige Seiten können
auch zusätzlich zu den explizit positiv bewerteten und in Kataloge aufgenommenen Seiten vorkommen. Diese Seiten sollte das Lernverfahren dann
auch mit hohen Qualitätswerten versehen und die Seiten sollten folgerichtig in
einer Qualitäts-Suchmaschine höher gerankt werden.
Für den Benutzertest (siehe Kapitel 13) wurde das Modell auf der Basis der linearen Regression genutzt. Dieses Verfahren liefert numerische Vorhersagen
und ist damit für ein Ranking-System geeignet. Das Modell ist als Datei sehr
klein und die Integration in eine experimentelle Qualitäts-Suchmaschine sehr
effizient.
11.4.2 Qualitäts-Modelle für die Spam-Erkennung
Die Ergebnisse des Projektes lassen sich in Internet-Suchmaschinen oder
anderen Mehrwertdiensten nutzen. Eine offensichtliche und kurzfristig realisierbare Anwendung liegt in der Erkennung von Spam, also von Seiten, die
aus wirtschaftlichen Gründen Inhalte vortäuschen, welche sie nicht enthalten
(siehe Abschnitt 5.3).
Spam-Seiten stellen ein erhebliches und umfangreiches Problem für Suchmaschinen dar. Bei ihrer Analyse der Veränderungsraten von Seiten im Web
erkannten FETTERLY ET AL. 2003, dass sich die Seiten der Top Level Domain
„de“ häufiger ändern. Dies lag an einem großangelegten Spam-Versuch, der
auf die Erhöhung des PageRank von zahlreichen automatisch erzeugten
Pornographie-Seiten abzielt. An diesem Link-Spam waren mehr als eine
Million Seiten mit 100.000 Host-Namen beteiligt, die alle unter einer URL
lagen. Diese Seiten kopierten automatisch Teile anderer Seiten, um so die
Suchmaschinen auf sich zu lenken.
Es ist davon auszugehen, dass solche massenhaft automatisch erzeugten
Seiten bestimmte Gemeinsamkeiten aufweisen und so automatisch aufgrund
formaler Eigenschaften leichter erkennbar sind. Die für das Suchsystem
265
AQUAINT entwickelte Technologie bietet sich demnach für die SpamErkennung an.
Bei der Suchmaschine Lycos Europe werden von Mitarbeitern Seiten intellektuell überprüft und aus verschiedenen Gründen als unerwünscht deklariert. Zu
den Gründen zählen vor allem unerwünschte Inhalte und Täuschungsversuche. Die Mitarbeiter erstellen eine Black-List mit den unerwünschten Adressen, die nicht in den Index aufgenommen werden. Eine Liste mit ca. 10.000
Seiten stand zur Verfügung und wurde genutzt. Die Liste enthält explizit als
negativ bewertete Seiten, die für das Training eines Lernverfahrens zur Verfügung stehen. Diese Seiten wurden in die Datengrundlage für das Qualitätsmodell integriert.
Die Trefferquote liegt bei einem Naive Bayes-Modell bei 76% insgesamt und
damit niedriger als für die Unterscheidung zwischen Suchmaschinen-Seiten
und Internet-Katalog-Seiten. Möglicherweise liegt dies mit daran, dass die
Spam-Seiten inhaltlich nicht spezifisch für das Thema Gesundheit sein,
sondern beliebige Themen abdecken.
Tabelle 11.4: Ergebnisse für einzelne Klassen
klassifiziert als
Spam (-1)
Suchmaschinen-Ergebnisse (0)
Spam
(-1)
4464
253
SuchmaschinenErgebnisse (0)
6529
17532
insgesamt
10993
17785
Betrachtet man die Ergebnisse für die einzelnen Klassen in Tabelle 11.4, so
zeigt sich, dass die Fehler des Klassifizierers überwiegend darin bestehen,
dass Spam-Seiten als normale Seiten klassifiziert werden. Dagegen werden
normale Seiten aus Suchmaschinen-Ergebnissen kaum als Spam eingeordnet.
Das bedeutet, dass das Modell recht gut als Spam-Erkenner geeignet ist. Denn
die Klassifizierung von normalen Seiten als Spam ist ein unerwünschter
Fehlertyp.
11.4.3 Modelle auf der Basis von drei Klassen
Weitere Modelle wurden auf der Basis aller drei Datenbestände erstellt. Die
beste Trefferquote erzielte ein nearest neighbour-Modell im Rahmen eines
instanzbasierten Klassifizierers wie Tabelle 11.5 zeigt.
266
Tabelle 11.5: Klassifikationsverfahren für drei Klassen
One Rule
Naive Bayes
Support Vector Machine (Radial Basis Function Kernel)
Support Vector Machine (linearer Kernel)
Logistic Regression
Ibk (instanz-basierter Klassifizierer, drei nearest neighbour)
Ibk (instanz-basierter Klassifizierer, ein nearest neighbour)
Trefferquote
39%
75%
78%
82%
86%
87%
89%
94%
Bei den numerischen Verfahren bot die lineare Regression gute Ergebnisse
wie Tabelle 11.6 verdeutlicht. Eine weitaus höhere Korrelation mit den Lerndaten erzielte ein Decision Table. Allerdings ist fragwürdig, ob das Verfahren
eine gute Generalisierung bietet.
Tabelle 11.6: Ergebnisse von numerischen Lernverfahren für drei Klassen
Least Median Square
Support Vector Machine Regression (linearer Kernel)
Pace Regression
Lineare Regression
Decision Table
Korrelation
0,29
0,31
0,46
0,48
0,93
Bei der Erkennungsrate für die einzelnen Klassen fiel besonders auf, dass
besonders die Klassen Spam und Yahoo Probleme bereiteten. Als beispielhaftes Ergebnis ist in Tabelle 11.7 die Erkennungsmatrix des Naive BayesLernalgorithmus angeführt, der insgesamt eine Erkennungsrate von 78%
erreichte.
267
Tabelle 11.7: Ergebnisse für einzelne Klassen
klassifiziert als
Spam (-1)
Yahoo-Seiten (+1)
Spam
(-1)
2164
13
121
744
17647
752
Yahoo
(+1)
8085
125
15688
insgesamt
10993
17785
16561
Noch deutlicher fällt das Ergebnis beim Support Vektor Machine-Verfahren
aus, das bei diesem Datensatz insgesamt 86% Trefferquote erreicht wie Tabelle 11.8 zeigt.
Tabelle 11.8: Ergebnisse für einzelne Klassen bei Support Vector Machine
klassifiziert als
Spam (-1)
Yahoo-Seiten (+1)
Spam
(-1)
7881
0
2933
0
17785
0
Yahoo
(+1)
3112
0
13628
insgesamt
10993
17785
16561
Es fällt auf, dass die Erkennungsrate für Spam-Seiten hier sehr schlecht ist
und dass jeweils mehr als 70% aller Spam-Seiten als Yahoo-Seiten klassifiziert wurden. Dagegen werden die Suchmaschinen-Ergebnisse kaum mit
anderen Klassen verwechselt. Während also die als sehr gut und sehr schlecht
vorgegebenen Seiten nicht gut unterschieden werden, werden die als neutral
interpretierten Seiten sehr gut diskriminiert.
11.4.4 Reduzierte Modelle
Das maschinelle Lernen stellt Verfahren für die Erkennung der wichtigsten
Eigenschaften innerhalb einer Datenmenge zur Verfügung. Durch diese
Feature Selection können zum einen die wichtigsten Eigenschaften erkannt
werden und darauf aufbauend die Datenmenge und damit die Qualitätsmodelle auf diese wichtigsten Faktoren reduziert werden. Der erste Aspekt wird
in Abschnitt 11.5 erläutert. An dieser Stelle folgt die Performanz von Lernverfahren auf einer reduzierten Datenmenge.
WEKA stellt unterschiedliche Verfahren für die Feature Selection zur Verfügung. Ausgewählt wurde das Verfahren cfssubset, welches verschiedene
Kombinationen der Eigenschaften in einem heuristischen Suchalgorithmus
268
durchläuft und die beste Kombination auswählt. Als Bewertungsfunktion
dient die Erfolgsquote des Klassifizierers und der Suchbaum wird nach einer
best first Strategie durchsucht (WITTEN & FRANK 2000).
Cfssubset wählt aus der Datenmenge mit 113 Eigenschaften neun aus. Mit den
ausgewählten Eigenschaften wurde weitere Lernverfahren trainiert. Die folgenden Tabellen 11.9 und 11.10 geben die Trefferquoten wieder.
Tabelle 11.9: Klassifikationsverfahren für drei Klassen
Naive Bayes
Naive Bayes K
Trefferquote
39%
48%
50%
51%
86%
Tabelle 11.10: Ergebnisse von numerischen Lernverfahren für drei Klassen
Zero Rule
Lineare Regression
Locally Weighted Learning (LWL)
Korrelation
-0,01
0,45
0,27
0,28
Die Ergebnisse liegen unter den Werten für die oben gezeigten Modelle.
Trotzdem erscheinen sie noch befriedigend. Das bedeutet, dass die reduzierten Modelle mit einem gewissen Präzisionsverlust die vollständigen Modelle
ersetzen können. Für den Realbetrieb einer Qualitäts-Suchmaschine kann dies
relevant sein, da dann wesentlich weniger Eigenschaften pro Seite erhoben,
gespeichert und verarbeitet werden müssen und somit die Effizienz gesteigert
wird.
11.4.5 Modelle auf der Basis des Benutzertests
Kapitel 13 behandelt die Durchführung eines Benutzertests mit der entwickelten Qualitäts-Suchmaschine. Dabei mussten die Testpersonen die ErgebnisSeiten hinsichtlich ihrer Qualität bewerten. Die Trainingsmenge für die Qualitätsmodelle überschnitt sich nicht mit den präsentierten und bewerteten Sei-
269
ten. Alle im Benutzertest gezeigten und bewerteten Seiten bieten daher eine
weitere Quelle für ein Qualitätsmodell.
Beim Benutzertest wurden Schulnoten für die Seiten vergeben. Diese wurden
in Punkte umgerechnet, so dass gut bewertete Seiten mit hohen Werten
belohnt wurden. Insgesamt wurden 900 Seiten angezeigt und 215 positiv
bewertet.
Tabelle 11.11: Klassifikationsverfahren für Benutzertest-Seiten
Trefferquote
One Rule
Naive Bayes
Ibk (instanz-basierter Klassifizierer, vier nearest neighbour)
Locally Weighted Learning (LWL)
Radial Basis Function Network
Support Vector Machine (Radial Basis Function Kernel)
76%
72%
50%
67%
72%
76%
76%
76%
76%
Tabelle 11.12: Numerische Lernverfahren für Benutzertest-Seiten
Zero Rule
Lineare Regression
Least Median Square
Pace Regression
Support Vector Machine Regression (Radial Basis Function Kernel)
Korrelation
-0,08
0,11
0,0
0,0
0,05
0,04
Die Ergebnisse in den Tabellen 11.11 und 11.12 zeigen, dass die Trefferquote
für diese Modelle eher niedrig liegt. Kein Klassifikationsverfahren übertrifft
das Ergebnis der naive Annahme des ZeroRule-Verfahrens, nach dem alle
Objekte zur häufigsten Klasse gehören. Möglicherweise liegen nicht genügend Lerndaten vor. Eine andere Interpretationsmöglichkeit besteht darin,
dass die Testpersonen unterschiedliche Aspekte bei ihren Qualitätsurteilen
berücksichtigten.
270
11.5 Analyse der Qualitätsmodelle
Sowohl die Daten als auch die Modelle können über das Qualitätsretrieval als
Wissensquellen dienen. Eine Möglichkeit der Analyse besteht darin, Verteilungen und Häufigkeiten sowie Abhängigkeiten zwischen den gemessenen
Eigenschaften der Seiten zu betrachten. Diese Möglichkeit wird als WebDesign Mining in Kapitel 14 noch aufgegriffen.
Darüber hinaus können die gefundenen Modelle weiter analysiert werden.
Vor allem ist interessant, welche der Parameter den größten Einfluss auf das
Ergebnis haben. Welche Eigenschaften sind also für die Qualität besonders
wichtig? Für die Erkennung der wichtigsten Eigenschaften gibt es unterschiedliche Ansätze. In Abschnitt 11.4.4 wurden bereits die Verfahren zur
Identifikation der wichtigsten Eigenschaften angesprochen. Daneben wurden
aus linearen Regressionsmodellen die Eigenschaften mit den höchsten Faktoren ausgewählt. Zwar müssen diese nicht notwendigerweise den höchsten
Einfluss auf das Ergebnis besitzen, als Näherung und in Kombination mit
anderen Methoden kann dieses einfache Verfahren aber angewandt werden.
Diese Verfahren wurden sowohl auf die Trainingsmenge aus Yahoo- und
Suchmaschinen-Ergebnis-Seiten als auch auf die Seiten aus dem Benutzertest
angewandt.
In der Literatur gingen diesen Schritt zur Auswertung der Eigenschaften
bisher lediglich IVORY & HEARST 2002. Hier sei schon vorweggenommen,
dass sich dabei völlig andere Parameter als relevant erwiesen (siehe Abschnitt
8.4.2), als die im Folgenden für AQUAINT genannten.
11.5.1 Wichtige Eigenschaften in den Trainingsdaten
Die stärksten Korrelationen zwischen einzelnen Eigenschaften und der
Qualität ergaben sich für die in Tabelle 11.13 aufgeführten Eigenschaften.
Insgesamt sind alle positiven und negativen Korrelationen nur schwach.
Tabelle 11.13: Eigenschaften mit der stärksten Korrelation zur Qualität
-0,1754
-0,1632
-0,1632
-0,1577
-0,1167
nrOutLinks
relationOutLinksToSize
relationNrOutLinksFileSize
lengthTitle
nrDOMElems
-0,1052
0,0673
0,0884
-0,0885
nrTagCursBold
lengthAddress
nrTagFrameset
linkLabelLengthAve
271
Das Feature Selection-Verfahren cfssubst wählte die in Tabelle 11.14
genannten Eigenschaften aus. Die fett hervorgehobenen Eigenschaften kommen bereits in Tabelle 11.13 vor und haben somit auch eine hohe Korrelation
zur Qualität.
Tabelle 11.14: Durch die Feature Selection ausgewählte Eigenschaften
uniqueWordsRatio
graphicsWordsRatio
relationNrDOMElemsFileSize stopwordsToTextRatio
stopwordsWordsRatio
Es ist überraschend, dass vor allem Eigenschaften, welche den Text betreffen,
als wichtig ausgewählt wurden. Die grafische Darstellung und die Ausgewogenheit sowie einzelne HTML-Tags haben offensichtlich weniger
Bedeutung für die Qualität.
Die stärksten Einflussfaktoren im linearen Regressionsmodell, das auch im
Benutzertest eingesetzt wurde, zeigt Tabelle 11.15 mit den Werten. Die
hervorgehobenen Eigenschaften traten bereits in einer der beiden vorherigen
Tabellen hervor. Damit gibt es für die Relevanz dieser Eigenschaften für die
Qualität eine stärkere Evidenz.
Tabelle 11.15: Eigenschaften mit den stärksten Faktoren im linearen
Regressionsmodell
0,0268
0,0496
0,0594
0,978
1,07
1,081
12,752
-3,745
-0,791
tableWordsRatio
stopwordsWordsRatio
blanksToTextRatio
imgLinksToSizeRatio
graphicsToSizeRatio
tableToSizeRatio
stopwordsToTextRatio
-0,6499
-0,196
-0,103
-0,0961
-0,082
-0,0555
-0,0126
-0,0121
-0,0107
relationNrDOMElemsFileSize
relationImgDomElems
relationTableDomElems
listWordRatio
textToSizeRatio
uniqueWordsRatio
nrtagColGroup
graphicsWordsRatio
imgLinksRatio
Das vollständige lineare Regressionsmodell, ein lineares Regressionsmodell
auf der Basis der im Benutzertest bewerteten Seiten und das Ergebnis eines
Support Vector-Maschinen-Modells mit linearen Kernel, das in der CrossValidierung eine Trefferquote von 86% erzielte, sind im Anhang abgedruckt.
272
11.5.2 Wichtige Eigenschaften im Benutzertest
Neben den Trainingsdaten lieferten auch die im Benutzertest (siehe Kapitel
13) betrachteten und bewerteten Seiten eine Grundlage für das Training von
Qualitätsmodellen (siehe Abschnitt 11.4.5). Diese Benutzertest-Daten bieten
sich auch für das Erkennen wichtiger Eigenschaften an. Damit lassen sich die
Ergebnisse aus dem vorigen Abschnitt ergänzen.
Das auch oben angewandte Verfahren cfssubset aus WEKA wählt die Eigenschaften in Tabelle 11.16 als wichtig aus, wenn die Zielklasse in der Qualitätsbewertung im Benutzertest besteht. Wie in den folgenden Tabellen sind
die Eigenschaften kursiv markiert, die auch schon im vorherigen Abschnitt zu
den Trainingsdaten durch Feature Selection oder relativ starke Korrelation
auffielen.
Tabelle 11.16: Durch Feature Selection ausgewählte Eigenschaften aus den
Benutzertest-Daten
blanksToTextRatio
graphicsToSizeRatio
uniqueWordsRatio
graphicsWordsRatio
stopwordsWordsRatio
tableToSizeRatio
nrPdf
nrTagStyle
Bildet das Relevanz-Urteil die Zielklasse, selektiert der Algorithmus die in
Tabelle 11.17 aufgeführten Eigenschaften. Die relevanten Eigenschaften für
das Qualitätsurteil und das Relevanzurteil unterscheiden sich stark und lediglich die fett markierte Eigenschaft kommt in beiden Mengen vor.
Tabelle 11.17: Durch Feature Selection ausgewählte Eigenschaften aus den
Benutzertest-Daten für das Relevanz-Urteil
entriesPerListAve
imgLinksRatio
imgLinksToImgRatio
lengthAddress
listWordRatio
nrLists
nrPdf
nrTagForm
nrTagUL
nrTextLayoutTags
nrUniqueHTMLColors
stopwordsWordsRatio
trPerTableDev
trPerTableMedian
nrTagH1
nrTagH2
nrTagH3
nrTagHr
nrTagMeta
nrTagOl
nrTagTable
273
Ebenso lässt sich die Korrelation zwischen dem expliziten Qualitätsurteil
sowie dem Relevanzurteil der Benutzer und den einzelnen Eigenschaften
berechnen. Die höchsten Korrelationen fassen die Tabellen 11.18 und 11.19
zusammen. Fett markierte Eigenschaften sind bereits in den vorherigen selektierten Mengen aus den Benutzertestdaten enthalten.
Tabelle 11.18: Korrelation zwischen Eigenschaften und Qualitäts-Urteilen
lengthAddress
firstTableRowBGCOLOR
nrTagTd
trPerTableDev
nrDOMElems
tdPerTableDev
-0.091
-0.080
-0.073
-0.070
-0.064
-0.062
nrTagMeta
stopwordsWordsRatio
firstTableColorRed
nrTagTr
uniqueWordsRatio
nrPdf
0.069
0.069
0.080
-0.067
0.084
0.131
Die Korrelationen sind insgesamt schwach. In Tabelle 11.18 und besonders in
Tabelle 11.19 treten stärker grafische Eigenschaften in den Vordergrund. Dies
kann als Hinweis dafür gewertet werden, dass grafische Aspekte bei der
Bewertung doch eine große Rolle spielen.
Tabelle 11.19: Korrelation zwischen Eigenschaften und Relevanz-Urteilen
lengthAddress
firstTableRowBGCOLOR
BGCOLOR
textColor
sentenceToTextRatio
firstTableColorBlue
nrUniqueHTMLColors
-0,159
-0,078
-0,035
-0,035
-0,031
0,078
0,145
nrPdf
imgLinksToImgRatio
blanksInText
nrWordsPureText
uniqueWordsPureText
lengthPureText
0,083
0,092
0,103
0,108
0,120
0,120
Das lineare Regressions-Modell auf Basis der Daten des Benutzertest erzielte
nur eine geringe Korrelation mit den Qualitätswerten (siehe vorherigen Abschnitt). Einige Eigenschaften erreichen sehr hohe Einflusswerte, die Tabelle
11.20 auflistet.
274
Tabelle 11.20: Eigenschaften mit den stärksten Faktoren im linearen
Regressionsmodell
0,175
-434,35
0,558
0,376
-0,386
entriesPerListAve
graphicsToSizeRatio
imgLinksToImgRatio
nrtagColGroup
nrTagStyle
-18,391
-165,086
12,541
-1,041
-94,948
stopwordsWordsRatio
textToSizeRatio
Zwar treten bei den Benutzertestdaten stärker die grafischen Aspekte in den
Vordergrund, jedoch taucht kaum eine Eigenschaften mehrfach auf. Überraschenderweise erachten mehrere Verfahren das Verhältnis der Anzahl von
Stoppwörtern zur Anzahl der Wörter insgesamt bzw. zur Dateigröße für
wichtig.
11.6 Fazit Qualitätsmodelle
Ein Clearinghouse oder ein Internet-Katalog bietet für einen Themenbereich
eine Sammlung von Links, deren Qualität intellektuell kontrolliert wurde.
Eine derartige Liste basiert also sowohl auf einem inhaltlichen Urteil als auch
auf einer Aussage zur Qualität. Die Aufnahme entspricht einem Güteurteil
und meist einer Einordnung in eine bestimmte Kategorie von Sites. Zwar kann
dieses noch heterogen sein, jedoch sind zumindest bestimmte Typen ausgeschlossen. Ein wissenschaftliches Clearinghouse enthält z.B. keine Nachrichtentexte und keine unterhaltenden Seiten. Diese Urteile resultieren aus der
subjektiven Einstellung der Bewerter und den pragmatischen Einflussfaktoren
zum Zeitpunkt der Bewertung. Ein Qualitätsbewertungssystem soll möglichst
aus einer Menge von Internet-Seiten diejenigen erkennen, die zu einem
Clearinghouse gehören oder gehören könnten. Dazu braucht es formale Kriterien für die Einordnung von Seiten in ein Clearinghouse.
Die Nutzung von Daten aus dem Bestand eines qualitätssichernden Dienstes
ist sinnvoll, da dadurch menschliche Informationsarbeit ausgenutzt wird. Diesen Ansatz verfolgen z.B. ZHU & GAUCH 2000 und BUCY ET AL. 1999. Allerdings vergleichen diese Studien diese Dokumente nur untereinander, um innerhalb eines homogenen Korpus zu arbeiten. Durchaus sinnvoll wäre aber
die Mischung mit beliebigen anderen Internet-Angeboten, um zu sehen, ob
die innerhalb des Angebots gewonnenen Ergebnisse auf andere Dokumente
übertragbar sind.
Das anhand eines Ausschnittes von Yahoo entwickelte Qualitätsmodell zeigt,
dass mittels der extrahierten Parameter eine zufriedenstellende Performanz
275
der Klassifizierung erreicht werden kann. Das bereits mehrfach angewandte
Prinzip der Wissensextraktion aus Internet-Verzeichnisdiensten wird von
AQUAINT aufgegriffen. Während es bisher der Kategorisierung von
Angeboten diente, überträgt AQUAINT es auf die Qualitätsbewertung. Die
folgende Abbildung 11.7 verdeutlicht dieses Vorgehen.
Extraktion von Wissen
Thematische
Zuordnung
Übertragung auf weitere Seiten
Qualitätsdefinition
Abb. 11.7: Web-Mining in Verzeichnisdiensten
Die Qualitätsdefinitionen sollten sich nicht nur in Kriterien niederschlagen,
die von einem maschinellen Lernsystem optimal verarbeitet werden. Sinnvoll
ist die ergänzende inhaltliche Interpretation der erfassten Eigenschaften auf
höheren Abstraktionsebenen.
Die Erstellung von Qualitätsmodellen und deren Auswertung ist also möglich,
im nächsten Schritt sollen diese für das Information Retrieval nutzbar gemacht werden. Das Qualitätsmodell wird in einem Meta-Suchdienst für Benutzer zugänglich.
276
Vom Information Retrieval zum Qualitäts-Retrieval
12. Vom Information Retrieval zum Qualitäts-Retrieval
Die Qualitätsmodelle wurden in eine prototypische Suchmaschine integriert,
welche die Ergebnisse verschiedener Internet-Suchmaschinen abfragt, die Ergebnis-Seiten mit dem Qualitätsmodell bewertet und nach Qualität sortiert
wieder präsentiert (siehe Abb. 12.1). Das System wurde als Servlet in JAVA
implementiert und wird von einer HTML-Benutzerschnittstelle aufgerufen.
Die Query wird an eine Suchmaschine weitergeleitet und die Ergebnis-Seiten
werden zur Laufzeit mit dem PageProfiler analysiert und an das WEKA-Qualitätsmodell weiter gereicht. Je nach den Qualitätswerten und der gewählten
Re-Ranking-Strategie werden die Ergebnis-Seiten dem Benutzer präsentiert.
Anfrage
Ergebnis
AQUAINT
Suchmaschine
-Qualitätsbewertung
- Re-ranking
Anfrage
Kowledge
Engineering
WEB
Ergebnis
-URL-Liste
-primäres
Ranking
Suchmaschine
-Indexierung
-Retrieval
Abb. 12.1: AQUAINT Suchmaschine als Meta-Suchdienst
Nur die längerfristige Nutzung kann Aufschluss über den erzielten Mehrwert
eines Qualitätssystems geben. Deshalb müssen die in kontrollierten Experimente gewonnenen Ergebnisse auf reale Situationen übertragen werden, in
denen die Datenmenge nicht eingeschränkt ist. Dies bedeutet für AQUAINT,
dass die Evaluierung nicht auf Basis der Trainingsmenge erfolgen, sondern
beliebige Internet-Seiten mit einbeziehen sollte. Der Aufwand für die
Implementierung eines kompletten Internet-Suchdienstes mit Crawler und
Indexierer erfordert einen erheblichen Aufwand an Ressourcen. Deshalb bie277
tet sich die Umsetzung der Qualitätsbewertung im Rahmen eines Filtersystems an, das auf einer bestehenden Suchmaschine aufsetzt. Dabei können
die Ergebnisse einer Suchmaschine analysiert werden und die Seiten mit den
in anderen Experimenten gewonnenen Verfahren auf Qualität hin untersucht
werden. Die von der Suchmaschine gefundenen Seiten sollen anhand eines
Qualitätsmodells bewertet und das Ranking der Suchmaschine abhängig von
diesem Ergebnis modifiziert werden. Diesen Prozess soll der Benutzer mit
Parametern steuern können, so dass die Anwendung und Parametrisierung
untersucht werden kann. Der Qualitätsfilter präsentiert nach der Prüfung nur
die qualitativ guten Seiten aus dem ursprünglichen Ergebnis einer Suchmaschine.
12.1 Fusion im Information Retrieval
Die Parameter einer Qualitätsdefinition sind aus der Sicht des Benutzers
unterschiedlich gut geeignet. Die optimale Kombination ist a priori nicht
bekannt und zudem vermutlich individuell unterschiedlich. Die Kombination
der einzelnen Werte sollte daher flexibel, adaptiv und individualisierbar sein.
Die beste Möglichkeit zur Realisierung eines derartigen Systems besteht in
einer lernenden Fusion.
Bereits beim Einsatz von Autoritätsmaßen tritt dieses Problem auf. Wie lässt
sich etwa der PageRank-Wert einer Seite mit der inhaltlichen Ähnlichkeit,
also der Retrieval Status Value verschmelzen? Beim Standard-Retrieval dient
die Fusion der Integration verschiedener Retrieval Status Values unterschiedlicher Suchalgorithmen. Diese basieren dann meist auf sehr unterschiedlichen
Ansätzen, wie etwa einer wort- und einer n-gram-basierten Indexierung. Im
XML-Retrieval verschmilzt die Fusion die inhaltliche RSV mit einer Struktur-Bewertung (FUHR & GROßJOHANN 2001).
Fusion gewinnt auch im Internet mit dem Aufkommen zahlreicher MetaSuchmaschinen1 wieder an Bedeutung. Dort dient die Fusion in erster Linie
der Verbreiterung des Grundbestandes an Dokumenten. Da einzelne Suchmaschinen nur einen Teil der Gesamtheit aller Dokumente im Internet indexieren, hoffen die Betreiber von Metasuchmaschinen durch das Fusionieren
mehrerer Ergebnislisten unterschiedlicher search engines eine höhere Abdeckung zu erreichen. Diese Situation simulieren mehrere Ansätze aus dem
traditionellen Retrieval, indem sie die Grundmenge oder Kollektion künstlich
aufteilen und in jedem Teilkorpus einzeln suchen. Dann fügen sich die
1
http://www.google.com/Top/Computers/Internet/Searching/Metasearch/
278
Einzelergebnisse nach einem Fusionsansatz wieder zusammen (cf. SAVOY &
RASOLOFO 2000).
Der Ansatz von OZTEKIN ET AL. 2002 zielt dagegen wie Fusionsansätze im
klassischen Retrieval auf eine Verbesserung der Retrieval-Qualität durch die
Integration mehrerer Suchmaschinen ab. Neben Interleave oder Round Robin
und einem Agreement-Maß, das neben dem Rang auch die Anzahl der Vorkommen eines Dokuments in mehreren Ergebnislisten belohnt, experimentieren die Autoren auch mit inhaltlich definierten Fusionsansätzen. Mit vier
Ähnlichkeitsmaßen berechnen die Autoren die inhaltliche Kohärenz der
Ergebnislisten. Dadurch erhoffen sie sich vor allem, dass inhaltliche outlier
einen niedrigeren Rang erhalten oder gar nicht erst erscheinen. Dazu fassen
die Autoren zunächst die zwanzig besten Treffer der einzelnen Suchmaschinen zusammen und berechnen aus den enthaltenen Termen dieser Seiten einen
Mittelpunktvektor für diese Menge. Dieser Centroid stellt gewissermaßen das
optimale Ergebnis dar. Die endgültige Ergebnisliste enthält die Dokumente in
der Rangfolge ihrer Ähnlichkeit zu dem Mittelpunkt-Vektor. Die Ergebnisse
von RORVIG 1994 lassen dieses Vorgehen problematisch erscheinen. Demnach liegt die Anfrage etwas von dem Centroid-Vektor der relevantesten
Dokumente entfernt. Trotz dieses Einwands und der eher starren Fusion, die
den Erfolg einer Maschine nicht langfristig speicherte und auswertete, ergab
die Evaluierung, dass diese inhaltlich basierten Fusionsansätze sehr gut abschnitten.
Die Evaluierung beruht auf der Suchmaschine Mearf1 und 17000 darin im
Realbetrieb gestellten Anfragen. OZTEKIN ET AL. 2002 bewerten die Dokumente als relevant, auf die der Benutzer klickt. Als wichtigstes Maß setzen die
Autoren die Position der relevanten Dokumente in der Rangliste. Je weiter
oben diese relevanten Dokumente zu liegen kommen, desto besser arbeitet der
Fusions- oder Reranking-Ansatz. Dabei erwiesen sich die inhaltlichen Verfahren sowohl gegenüber dem interleave und dem agreement-Maß als überlegen,
als auch gegenüber dem unveränderten Ergebnis der Suchmaschine Google.
Problematisch stellt sich die rein quantitative Berücksichtigung der Links dar.
Möglicherweise stellt ein Klick auf ein Dokument den Benutzer zufrieden und
er verlässt die Suche. Dieses Verhalten kann aber auch signalisieren, dass der
Benutzer mit diesem Dokument unzufrieden ist, von den weiteren Treffern
aufgrund der Kurzanzeige wenig hält und die Suche unzufrieden verlässt.
Ebenso kann das Klicken auf mehrere Dokumente verschiedene Gründe haben. Entweder die relevante Information verteilt sich auf mehrere Dokumente
1
http://www-users.cs.umn.edu/~oztekin/mearf/
279
oder der Benutzer durchsucht vergeblich mehrere Treffer. Zufriedenheit
könnte dadurch modelliert werden, ob im Anschluss noch eine weitere, inhaltlich ähnliche Suche gestartet wird oder nicht. Die Verteilung der Relevanz auf
ein oder mehrere Dokumente sollte zumindest testweise dadurch modelliert
werden, dass der Einfluss jedes Klicks an den Suchen normalisiert wird.
Damit hätte jede Suche unabhängig von der Anzahl der bewerteten Dokumente den gleichen Einfluss.
Komplexe Fusionsalgorithmen benutzen lineare Kombinationen der Ergebnislisten, wobei jedes Retrieval-System ein Gewicht erhält, oder nicht-lineare
Algorithmen aus dem maschinellen Lernen wie etwa boosting. Modelle für
adaptive und individualisierbare Information Retrieval-Systeme liegen u.a.
mit dem MIMOR-Ansatz (cf. WOMSER-HACKER 1996, siehe Abschnitt 2.3)
und dem COSIMIR-Modell (cf. MANDL 2001) vor.
Eine lineare Kombination wäre für AQUAINT nur auf heuristische Weise zu
erzielen gewesen. Die Suchmaschinen liefern lediglich die Reihenfolge der
Treffer zurück und nicht die Ähnlichkeitswerte zwischen Anfrage und Dokument (Retrieval Status Value). Somit konnten lediglich Fusionsverfahren auf
Basis der Ränge der Dokumente realisiert werden. Da im Fokus der Entwicklung der Benutzertest zur Evaluierung der Qualitätsbewertung stand, wurde
nur das Fusionsverfahren round robin realisiert. Die Ergebnisse der
AQUAINT-Qualitäts-Suchmaschine können nach Qualität, in umgekehrter
Reihenfolge nach Qualität, im originalen von der Suchmaschine zurückgegebenen Ranking sowie nach round robin fusioniert angezeigt werden.
Für einen Einsatz über den Benutzertest hinaus sollte evaluiert werden, inwieweit sich die Benutzer wünschen, den Einfluss der Relevanz- und der Qualitätsbewertung erkennen zu können. Dann wären transparente Fusions-Verfahren angebracht, wie sie der folgende Abschnitt diskutiert.
12.2 Weitere Überlegungen: Transparente Fusion im Qualitäts-Retrieval
Die Fusion von mehreren Evidenzen zu einem Endergebnis für den Benutzer
muss vor dem Hintergrund des Qualitätsretrieval neu überdacht werden. Das
Ranking in AQUAINT basiert auf folgenden Überlegungen, die auch nicht
realisierte Aspekte beinhalten. Qualitäts-Retrieval sollte die Funktion von inhaltlicher Ähnlichkeit (Retrieval Status Value, RSV) sowie einer Quality
Status Value (QSV) sein.
FinalStatusValue(doc, query ) = f ( RSV (doc, query ), QSV (doc, query ))
280
Die Bedeutung von strukturellen Informationen (hier Structure Value, SV)
wie etwa im XML-Retrieval soll hier ebenfalls berücksichtigt werden. Diese
Bewertung ist enger an die RSV geknüpft, während die Qualitätsbewertung
eher selten auf einzelne Teile eines Dokuments angewandt werden wird. Die
inhaltliche Ähnlichkeit wird im Folgenden in Abgrenzung zur RSV Similarity
(Sim) genannt.
Die bedeutende Rolle der Link-Analyse muss in der QSV berücksichtigt
werden. Das Qualitätsmodell (Quality Model Value, QMV) kann in realistischen Anwendungen momentan nur mit der Link-Bewertung (Link Model
Value, QMV) zusammenwirken. Vereinfacht ergibt sich somit:
FiSV = f ( RSV , QSV ) = f ( f ( Sim, SV ), f (QMV , LMV ))
Für die QSV bietet sich beispielsweise eine lineare Kombination mit parametrisierbaren Gewichten an:
QSV = qmp QMV + lmp LMV
qmp Quality Model Parameter
lmp Link Model Parameter
Interne Strukturinformationen der Dokumente werden in AQUAINT nicht berücksichtigt. Die RSV ergibt sich somit lediglich als die Ähnlichkeit zwischen
Anfrage und Dokument. Allerdings sollen diese Ergebnisse von einer Suchmaschine abgefragt werden. Somit ist nicht bekannt, ob etwa schon LinkInformationen in das Ergebnis eingehen. Der Aufbau einer vollständigen
Link-Datenbank ist in AQUAINT auch nicht vorgesehen, so dass das endgültige Ergebnis eine Funktion der RSV der Suchmaschine und der für das Dokument relevanten Quality Model Value ist.
FiSV AQUAINT = f ( RSVengine , QMV )
Die meisten bisher für die Fusion eingesetzten Verfahren sind wenig
transparent. In AQUAINT sollen daher neben der häufig angewandten
linearen Kombination, bei der jedes einzelne Ergebnis ein eigenes Gewicht
besitzt, zwei transparente Verfahren realisiert werden.
Der transparente Filter oder Booster belässt das originale Ergebnis weitgehend. Nach der Qualitätsanalyse und -bewertung wird in der Filter-Funktion
ein festgelegter Anteil von Ergebnis-Seiten ausgeblendet, die einen bestimmten Schwellenwert unterschreiten. In der Booster-Funktion werden Dokumente aus den unteren, nicht sichtbaren Positionen auf obere Plätze gehoben,
wenn sie bestimmte Qualitätswerte erzielen.
281
RSV QSV
0,91
1
2. Treffer
0,86
1
3. Treffer
0,79
0,2
4. Treffer
0,78
1
5. Treffer
0,73
1
6. Treffer
0,70
1
7. Treffer
0,66
0,1
8. Treffer
0,65
1
9. Treffer
0,59
1
10. Treffer
11. Treffer
0,53
0,51
1
1
Treffer
Qualitätsfilter
Trefferliste
Trefferliste
Treffer
1. Treffer
RSV QSV
1. Treffer
0,91
0
2. Treffer
0,86
0
31. Treffer
0,43
0,9
4. Treffer
0,78
0
5. Treffer
0,73
0
6. Treffer
0,70
0
7. Treffer
0,34
0
38. Treffer
9. Treffer
0,65
0,59
0,8
0
10. Treffer
11. Treffer
0,53
0,51
0
0
Qualitätsaufwertung
Abb. 12.2: Transparenter Filter oder Booster
Der zweite transparente Fusions-Ansatz basiert auf dem Round Robin-Verfahren, das schlicht von jeder Liste abwechselnd jeweils ein Dokument in die
endgültige Ergebnisliste aufnimmt. Zum einen soll das einfache Prinzip
behalten werden, zum anderen sollen aber auch Gewichtungen einzelner
Verfahren möglich sein. Dazu tragen stärker gewichtete Verfahren weitere
Listen für Round Robin bei. Diese Ergebnislisten können entweder Kopien
der ursprünglichen Listen darstellen oder als Variationen mit anderen Parametern erzeugt werden. Anschließend liefert wieder jede Liste abwechselnd ein
Dokument an das Endergebnis. Dabei müssen allerdings Regeln für den Umgang mit Doppelungen getroffen werden.
12.3 Systembeschreibung
Die AQUAINT-Qualitätssuchmaschine wurde als prototypische Meta-Suchmaschine mit HTML-Benutzungsoberfläche realisiert. Dieses System setzt
auf einer Internet-Suchmaschine auf und extrahiert deren Ergebnisse. Die
Seiten werden dann mit der QuWob analysiert. Mit dem Eigenschaftsprofil
und dem vorab bestimmten Qualitätsmodell als WEKA-Modell-Datei kann
dann die Qualität jeder Seite bestimmt werden. Anschließend findet ein ReRanking statt und die Ergebnisse werden in der Qualitäts-Suchmaschine in
einer neuen Reihenfolge präsentiert.
282
WEB
Suchmaschine
Search
Result
Reader
Page
Profiler
Fusion
Qualitätsmodell
Internet-Verzeichnisdienst
Such-Extraktion von
maschine Qualitätsurteilen
BOF
AQUAINT
Maschinelles Lernen
-Klassifikation
-Auswerten des
Qualitätswissens
Abb. 12.3: Mining der Daten für die Qualitätsmodelle im Rahmen von
AQUAINT
Die Benutzungsoberfläche wurde in JAVA als Servlet realisiert. Die für den
Benutzer sichtbare Maske für die Eingabe lässt sich dann als HTML-Seite
implementieren, in der ein Formular integriert ist. Dieses Formular ruft nach
Klick auf den Button eine JAVA-Klasse auf und übergibt an diese den
eingegebenen Suchbegriff als Parameter.
Nach Aufruf der JAVA-Klasse erzeugt diese Output über einen Writer,
welcher von den JAVA-Servlet-Klassen über den Web-Server an den WebClient geschickt wird. Enthält dieser Output HTML Code, dann wird dieser
im Client dargestellt. Die AQUAINT-Suchmaschine führt zunächst die Suche
durch und ruft dazu eine JAVA-Klasse QualitySearch auf und übergibt
mehrere Parameter an diese. Dazu zählen der Suchstring, die Datei mit dem
zu verwendenden Qualitätsmodell und die Fusions-Methode. Diese Klasse
führt die Suche durch, bewertet die gefundenen Seiten anhand des Qualitätsmodells und ordnet sie neu an.
Die Qualitätsbewertung der HTML-Seiten erfolgt auf der Basis der durch den
PageProfiler extrahierten Eigenschaften der Seiten. Diese werden an das
trainierte WEKA-Modell übergeben, das als Datei gespeichert ist. WEKA
283
klassifiziert die Seite mit dem Modell und übergibt einen Wert zwischen Null
und Eins. Während des Trainings wurde für die qualitativ guten Seiten Eins
als Zielwert gelernt und für die übrigen Seiten Null.
Screenshot
Qualitätssuchmaschine
Abb. 12.4: Benutzungsoberfläche der AQUAINT-Suchmaschine
Als Rückgabewert liefert QualitySearch einen geordneten Vektor mit den
Ergebnisseiten an die Servlet-Klasse zurück. Diese formatiert die Ergebnisse
in wohlgeformtem HTML als Liste, welche dann auf dem Client dargestellt
wird (siehe Abbildung 13.1).
Die Realisierung als JAVA-Servlet bringt einige Vorteile mit sich:
• Das System funktioniert für den Benutzer wie die meisten Web-Anwendungen im Browser und erfordert keinerlei vorherige Konfiguration
oder gar Installation.
• Das System konnte vollständig in JAVA entwickelt werden und nur die
Ausgabe des Ergebnisses erfolgt in einer HTML-Seite.
284
• Die Interaktion zwischen QuWob und der Ausgabe im Servlet ist
gekapselt und kann so leicht durch andere Darstellungen ersetzt
werden.
Die eigentliche Suche wird von einer JAVA-Klasse kontrolliert. Dabei wird
eine Ergebnisseite einer Suchmaschine durch Konstruktion einer URL, deren
Donwload und Übergabe des Inhalts an ein HTTP-Objekt erzeugt. Die
weitere Funktionsweise des SimpleResultReader wurde bereits erläutert (siehe
Abschnitt 11.5).
Nach Erstellung eines Vektors mit URLs von Ergebnis-Seiten erfolgt ein
Download dieser Seiten, die Analyse ihrer Eigenschaften mit dem PageProfiler und anschließend die Bewertung mit dem Qualitätsmodell. Für diese
drei Prozesse wird für jede URL ein eigener Thread gestartet, so dass die
Downloads parallel erfolgen können und sich die Wartezeit auf die Http-Anfragen nicht summiert. Nach Ablauf des Threads meldet dieser sein Ergebnis
an ein Reporting-Objekt. Der Prozess kann nach zwei Bedingungen abgebrochen werden:
• Eine parametrisierbare Anzahl von Seiten wurde erfolgreich bewertet.
Im Benutzertest wurden 40 Seiten von der Suchmaschine ausgelesen
und nach erfolgreicher Bearbeitung von 30 Seiten wurde der Prozess
fortgesetzt.
• Wird eine maximale Wartezeit überschritten, ohne dass die Mindestzahl von Seiten erfolgreich geladen und bearbeitet wurden, so fährt das
System fort. Im Benutzertest waren hier 40 Sekunden eingestellt.
In einer Datenstruktur sind nun die URLs, ihre ursprüngliche Position in der
Ergebnisliste sowie ihre Qualitätswerte gespeichert. Je nach Fusions- bzw.
Sortierkriterium wird die Liste der URLs in einer veränderten Reihenfolge
zurückgegeben.
Im Testbetrieb und im Benutzertest erwies sich diese Realisierung als stabil
und effizient.
12.4 Fazit Qualitäts-Retrieval
Das Qualitäts-Retrieval bringt die in Kapitel 11 entwickelten Qualitätsmodelle in einen Anwendungskontext. Die Implementierung der prototypischen
Suchmaschine zeigt, dass ein Qualitäts-Retrieval nach dem in AQUAINT ent-
285
wickelten Modell als Meta-Suchmaschine möglich ist und stabil läuft. Nach
dem beschriebenen Vorgehen können weitere Dienste neu entwickelt werden.
Internet
AQUAINT
Wissensaquisition
Modellerstellung
Suchmaschine
InternetVerzeichnis
Search Result
Reader (SRR)
Page Collector
(PC)
Page Profiler (PP)
Maschinelles Lernen
Qualitätsmodell
AQUAINT
Suchservice
Search
Result
Reader
Page
Profiler
Fusion
Qualitätsmodell
BOF
Abb. 12.5: Systemübersicht AQUAINT
286
Evaluierung
13. Evaluierung
Die Bewertung der Qualität orientiert sich weitgehend an der Evaluierung im
Information Retrieval. Abhängig vom Ziel und der Intention des Benutzers
müssen kontext- und benutzerabhängig weitere Aspekte der Qualitäts-Definitionen herangezogen werden. Die Vorüberlegungen sowie die Durchführung
der Evaluierung zeigte, dass das Qualitätsretrieval auch bei der Evaluierung
neue Wege erfordert.
13.1 Vorüberlegungen zur Evaluierung
Die aktuellen Evaluierungsstudien gehen weitgehend vom traditionellen
Modell einer homogenen Dokumentkollektion aus und bewerten vorwiegend
den Vergleich zwischen Dokument und Anfrage. Sie blenden pragmatische
Faktoren aus, indem sie einen idealisierten Benutzer einsetzen, der durch die
Entscheidungen von Evaluatoren modelliert wird.
Zunehmend spielen aber Szenarien mit heterogener Qualität eine Rolle. So
gibt es im Rahmen der Text Retrieval Conference (TREC) seit 1999 einen
Web Track, bei dem Retrieval aus Internet-Seiten bewertet wird. Dadurch
entstehen neue Herausforderungen an die Evaluierungsmethodik. Einige
Aspekte des Internets wie die Flüchtigkeit und Dynamik werden
ausgeblendet. Wie bereits oben diskutiert, hat der Web Track zu einigen
Veränderungen an der TREC Methodologie geführt. Im Web Track werden
Dokumente nicht nur binär, sondern dreistufig bewertet und zwar als not
relevant, relevant und highly relevant. Darüber hinaus sollen die besten
Dokumente genannt werden. Die Entscheidungen über relevant und highly
relevant überprüfen zwei weitere Bewerter, die wiederum die besten
Dokumente aussuchen (HAWKING 2001:2). Dieser erhebliche Zusatzaufwand
zeigt, wie wichtig das Thema Qualität für das Retrieval im Internet ist. Es
stellt sich die Frage, ob Systeme bei der Berücksichtigung der Qualität besser
abschnitten als bei der reinen Bewertung der Relevanz.
Welche Chancen gibt es darüber hinaus, die Leistung von Systemen zur
Bewertung von Qualität in Evaluierungsstudien zu integrieren und getrennt
von der Relevanz mit zu bewerten? Zunächst müsste analysiert werden, ob
Qualitätsaspekte bewusst oder unbewusst bereits eine Rolle bei der Suche
oder bei der Bewertung der Ergebnisse spielen. Es ist zu vermuten, dass die
relevanten Seiten alle über eine Mindestqualität verfügen, also keine sehr
schlechten Seiten als relevant bewertet werden. Eine Stichprobe von Ergeb287
Evaluierung
nisseiten könnte mit einem Qualitätsfilter bearbeitet werden. Dann könnte
zum einen intellektuell geprüft werden, ob die ausgefilterten Seiten tatsächlich schlechter Qualität sind und weiterhin kann berechnet werden, ob die verbleibenden Seiten eine höhere Precision aufweisen. Ebenso muss überprüft
werden, ob bei unterschiedlichen Informationsbedürfnissen unterschiedlich
auf hohe oder niedrige Qualität geachtet wird.
Für durchzuführende Experimente lassen vor allem die Analysen über die
fraktalen Eigenschaften des Internets wichtige Schlüsse zu. So berichten u.a.
HUBERMAN ET AL. 1998 und DILL ET AL. 2001, dass zahlreiche quantitative
Effekte wie die Verteilung der Anzahl von in- und out-Links nicht nur bei
sehr großen Mengen von Webseiten gelten, sondern sich fast identisch auch
wesentlich kleineren Umfängen nachweisen lassen. Das bedeutet, dass Experimente auch mit weniger Seiten (etwa 1000 bis 100.000) durchaus sinnvoll
sind.
Die entwickelte Qualitätssuchmaschine AQUAINT wurde in einem Benutzertest evaluiert. Dabei sollte keine absolute Qualität als Maßstab gesetzt werden, da diese sich als problematisches Konzept erwiesen hat (siehe Abschnitt
4.5). Vielmehr stand die individuelle und subjektive Entscheidung einzelner
Benutzer im Zentrum. Somit wurde die Evaluierung als Benutzertest mit Testpersonen angesetzt. Empirisches Vorgehen gilt für die pragmatische Bewertung der Qualität in Informationssystemen als die Methode der Wahl. Diesen
Weg gehen einige der bereits vorgestellten fortgeschrittenen Systeme (siehe
Kapitel 8) und auch theoretische Überlegungen führen zu dieser Methodenwahl (PRICE & SHANKS 2004).
Damit weicht diese Evaluierung vom Cranfield-Paradigma und damit vom
Standard-Verfahren im Information Retrieval ab. Eine sinnvolle Bewertung
der Qualitätsleistung scheint jedoch im Cranfield-Paradigma nicht möglich.
Der Test maß die Leistung der Qualitätssuchmaschine im Vergleich zu anderen Suchmaschinen hinsichtlich der Fähigkeit, qualitativ hochwertige Seiten
zu identifizieren. Auch die Retrieval-Leistung wurde mit bewertet.
13.2 Testaufbau und -durchführung
Die Benutzungsoberfläche von AQUAINT für den Benutzertest bietet eine
Eingabezeile und liefert die Ergebnisse als Liste, wobei für jedes Dokument
dessen Position, der HTML-Titel sowie die URL angegeben werden (siehe
Abbildung 13.1). Damit ähnelt das System bekannten Suchmaschinen und erfüllt die Erwartungen der Testbenutzer. Diese Gestaltung ermöglicht den Prozess der Qualitätsentscheidung wie ihn RIEH 2002 postuliert (siehe Abschnitt
288
Evaluierung
5.4). Danach geben die Benutzer vorab nach Blick auf die Liste ein vorhersagendes Urteil ab, rufen dann ausgewählte Seiten aus und bewerten diese
explizit.
Die Testpersonen sollten in Anwesenheit von Testleitern mit der QualitätsSuchmaschine arbeiten und die Ergebnisse mündlich hinsichtlich Relevanz
und Qualität bewerten. Die Anfragen, die Ergebnisse sowie die verschiedenen
Ranking-Listen wurden vom System in einer Log-Datei gesammelt. Die Testleiter notierten die Bemerkungen und Bewertungen und stellten sie anschließend in Beziehung zu den URLs in der Log-Datei. Somit konnten die Bewertungen und Bemerkungen den Internet-Seiten zugeordnet werden.
Abb. 13.1: AQUAINT-Suchmaschine mit Ergebnisanzeige
Ein Pre-Test diente der Überprüfung des Testaufbaus und führte zu folgenden
Veränderungen:
• Die einfache Aufforderung zur Bewertung führte im Pre-Test zu vagen
Äußerungen der Benutzer. Als Konsequenz wurde ein Notenschema
mit sechs Stufen vorgegeben, um die Benutzer zu konkreten Entscheidungen zu bringen.
289
Evaluierung
• Die Unterscheidung zwischen Relevanz und Qualität musste konkretisiert werden. Eine entsprechende Formulierung wurde in den VorabInformationen für die Testpersonen eingefügt.
• Für die Qualitätsentscheidung musste mehr Kontext geschaffen, sonst
fiel sie den Benutzern schwer. Dazu wurde den Testpersonen mitgeteilt,
es ginge in dem Test um die Messung der durchschnittlichen Qualität
von Seiten im Internet und dass die besten gefundenen Seiten in einer
Linksammlung zusammengefasst werden sollten. Zudem erhielten die
Benutzer keine vorgefertigen Anfragen, sondern mussten alle Anfragen
selbst erstellen. Durch den kognitiven Aufwand bei der Formulierung
hatten sie eher Erwartungen an die Qualität.
• Im Pre-Test zeigte sich, dass die extrahierten Titel teilweise wenig aussagekräftig waren und häufig http-Header Status-Informationen enthielten wie „301 Permanently Moved“ Diese wurden durch den Standard
„kein Titel“ ersetzt.
• Der Umbruch bei Titeln und URLs wurde verbessert.
• Bei Nullantworten wurde eine Meldung ergänzt.
Im Benutzertest arbeiteten dann 19 Testpersonen mit der Qualitäts-Suchmaschine und stellten jeweils fünf Anfragen. Die Testpersonen waren
Studierende der Universität Hildesheim aus den Studiengängen Internationales Informationsmanagement und Informationsmanagement und Informationstechnologie, die über Grundkenntnisse im Information Retrieval verfügten. Die Testpersonen wurden über einen Mailverteiler, Werbung in einer
Vorlesung sowie durch persönliche Ansprache gewonnen. Der tatsächliche
Grund für den Test und der Hintergrund des Systems AQUAINT war ihnen
nicht bekannt. Durchschnittlich verbrachten sie ca. 25 Minuten mit der
Qualitäts-Suchmaschine. Als Dank für die Teilnahme erhielten sie ein
Fachbuch. Die Testleiter waren studentische Hilfskräfte, welche mit den
Hintergründen des Projekts vertraut waren.
Die Testpersonen sollten nicht durch die Kenntnis über die verwendeten
Algorithmen und Suchmaschinen beeinflusst werden. Der Testaufbau verdeckte daher die zugrunde liegenden Systeme und präsentierte alle Suchergebnisse immer in der gleichen Benutzungsoberfläche. Die Qualitäts-Suchmaschine für den Benutzertest wählte für jede Anfrage zufällig eine Konfiguration aus, welche auch den Testleitern nicht bekannt war. Die Konfigurationen variierten in mehreren Aspekten wie der Basis-Suchmaschine, dem
verwendeten Qualitätsmodell sowie dem Ranking-Verfahren. Zufällig
290
Evaluierung
wechselte das modifizierte System zwischen dem ursprünglichen Ranking
und einer Sortierung nach der Qualitätsbewertung.
Auch in den Fällen, in denen das ursprüngliche Ranking der Basis-Suchmaschine angezeigt wurde, bewertete die Qualitäts-Suchmaschine alle Seiten
mit dem Qualitätsmodell und erstellte ein Qualitäts-Ranking für die Logdatei.
Dadurch eigneten sich auch Anfragen ohne Darstellung des Qualitäts-Ranking
für die Auswertung, da sowohl die Benutzerentscheidungen als auch das
Qualitäts-Ranking zum Vergleich vorlagen. Zudem dauerten alle Anfragen
dadurch ungefähr gleich lang, so dass auch so nicht zu erkennen war, ob ein
Qualitäts-Ranking erstellt oder ein einfaches Ranking wiedergegeben wurde.
Durch diese Maßnahmen konnte eine Voreingenommenheit der Testpersonen
gegenüber irgendeinem System ausgeschlossen werden. Die folgende Tabelle
13.1 zeigt die Ranking-Modelle und Basis-Suchmaschinen, welche im Benutzertest zum Einsatz kamen.
Tabelle 13.1: Aufbau Benutzertest
Basis-Suchmaschinen
Re-Rank-Algorithmen
•
Lycos.de
•
Qualitäts-Ranking
•
Round Robin
•
Altavista.de
•
Original-Ranking
•
Negatives Qualitäts-Ranking
13.3 Ergebnisse: Qualitätsbewertung durch Testpersonen
Insgesamt wurden während des Benutzertests 1747 Seiten angezeigt. Davon
wurden 404 und damit ca. ein Viertel aller präsentierten Seiten von den
Benutzern geöffnet und bewertet. Bei weiteren zwanzig Seiten traten Fehler
auf. Bei 95 Anfragen wurden zwischen zwei und neun Seiten bewertet.
Im Durchschnitt vergaben die Testpersonen ähnliche Noten für Relevanz und
Ähnlichkeit. Der Notendurchschnitt betrug 2,69 beziehungsweise 2,68. Die
Standardabweichung war bei der Qualität mit 1,40 etwas niedriger als bei der
Relevanz, wo sie 1,64 betrug. Die Noten für die Relevanz streuten also etwas
stärker. Die folgenden Tabellen 13.2 und 13.3 zeigen die Häufigkeit der
vergebenen Noten für Qualität sowie Relevanz.
291
Evaluierung
Tabelle 13.2: Vergebene Qualitätsbewertungen (Schulnoten)
1
2
3
4
5
6
Durchschnitt
87
122
93
50
31
20
2,69
22%
30%
23%
12%
8%
5%
Tabelle 13.3: Vergebene Relevanzbewertungen (Schulnoten)
1
2
3
4
5
6
Durchschnitt
60
33
34
18
17
15
2,68
34%
19%
19%
10%
10%
8%
Die Verteilung der Noten für Relevanz und Qualität unterscheiden sich, wenn
auch nicht entscheidend. Interessanterweise wird die Note 1 Qualität für 50%
häufiger vergeben als für Relevanz. Bei Note 2 ist das Verhältnis umgekehrt,
wie Abbildung 13.2 zeigt.
40%
35%
30%
25%
Qualität
Relevanz
20%
15%
10%
5%
0%
1
2
3
4
5
6
Noten
Abb. 13.2: Vergleich der Noten für Qualität und Relevanz
Die Bewertungen der Qualität und die der Relevanz weisen eine Korrelation
mittlerer Stärke von 0,47 auf.
292
Evaluierung
Die Testpersonen verhalten sich unterschiedlich sowohl hinsichtlich der
Anzahl der Seiten, die sie betrachten, als auch hinsichtlich der vergebenen
Noten. Die folgende Tabelle 13.4 weist die Extremwerte in jeder Spalte aus.
Die Buchstaben für die Testpersonen verweisen auf zwei Tage, an denen die
Tests durchgeführt wurden. Innerhalb der Tage wurden die Personen nummeriert.
Tabelle 13.4: Verhalten einzelner Benutzer beim Test
Benutzer
K1
K2
K4
K5
K6
K7
K8
K9
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10
S11
Durchschnitt
Summe
Seiten
Geöffnet, Nicht
Anteil
Durchschnittspräsentiert bewertet geöffnet geöffneter note Qualität
Seiten
106
87
73
101
118
89
119
88
52
127
93
94
71
69
84
117
71
83
80
19
26
15
25
25
20
23
25
9
25
24
14
19
22
20
23
21
24
25
87
61
58
76
93
69
96
63
43
102
69
80
52
47
64
94
50
59
55
0,18
0,30
0,21
0,25
0,21
0,22
0,19
0,28
0,17
0,20
0,26
0,15
0,27
0,32
0,24
0,20
0,30
0,29
0,31
2,42
2,69
2,50
3,12
2,76
2,80
2,48
2,12
1,78
3,00
2,58
2,07
2,95
3,00
3,05
2,43
3,10
2,46
3,04
90,6
21,3
69,4
0,24
2,42
1722
404
1318
Zwischen dem Anteil der geöffneten Seiten und der durchschnittlich
vergebenen Note besteht eine positive Korrelation von 0,54. Diese mittlere
Korrelation weist darauf hin, dass Testpersonen, welche mehr der präsentierten Seiten öffnen, auch zu besseren Noten tendieren. Diese Testpersonen
scheinen insgesamt gewissermaßen kulanter zu sein. Sie öffnen mehr Seiten
und bewerten diese besser. Dies bestätigt die Annahme, dass Qualitätsurteile
293
Evaluierung
stark subjektiv geprägt sind. Bei weiteren Tests nach diesem Modell sollte
geprüft werden, ob einzelne Benutzer nicht zu sehr abweichen und eventuell
die Ergebnisse stark beeinflussen.
100%
90%
80%
70%
6
5
60%
4
50%
3
2
1
40%
30%
20%
10%
0%
K1 K2 K4
K5 K6
K7 K8 K9 S1 S10 S11 S2 S3 S4
S5
S6 S7 S8 S9
Testpersonen
Abb. 13:4: Qualitätsnoten einzelner Benutzer
Der Überblick über die Bewertung durch einzelne Benutzer zeigt, dass
schlechte Noten eher selten vergeben werden. Die Noten 1 bis 3 werden von
fast allen Testpersonen für über 50% der betrachteten Seiten vergeben. Sehr
schlechte Seiten werden also kaum geöffnet.
Die folgenden Tabellen 13.5. und 13.6 zeigen die Benotung durch einzelne
Benutzer sowie die Benotung für einzelne Aufgaben. Die Standardabweichung der Durchschnittsnoten ist für die Aufgaben mit 0,24 wesentlich
geringer als für die Testpersonen, wo sie 0,38 beträgt.
Tabelle 13.5: Vergebene Noten für einzelne Aufgaben
Aufgabe
1
2
3
4
5
Summe
294
Durchschnittsnote
Qualität
3,12
2,60
2,38
2,73
2,53
Qualitätsnoten
1
2
3
4
5
6
13
16
16
18
24
87
20
17
27
31
27
122
27
12
12
18
24
93
13
6
12
8
11
50
7
8
2
10
4
31
10
1
5
4
20
Anzahl
geöffneter
Seiten
90
60
69
90
94
403
Evaluierung
Tabelle 13.6: Vergebene Noten einzelner Benutzer beim Test
Benutzer
K1
K2
K4
K5
K6
K7
K8
K9
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10
S11
Summe
Durchschnittsnote
Qualität
2,42
2,69
2,50
3,12
2,76
2,80
2,48
2,12
1,78
3,00
2,58
2,07
2,95
3,00
3,05
2,43
3,10
2,46
3,04
Vergebene Qualitätsnoten
1
2
3
4
5
1
1
3
4
5
9
8
7
7
9
9
11
2
6
7
5
7
5
13
3
5
6
8
5
6
1
5
5
4
3
1
6
7
1
5
3
7
3
4
2
8
4
93
2
3
2
3
6
4
7
5
6
7
7
3
7
6
6
6
4
5
87
3
8
2
10
7
122
5
1
2
1
2
6
2
1
1
1
2
3
50
4
2
4
4
2
5
1
3
31
3
3
2
2
1
2
1
3
20
Anzahl
geöffneter
Seiten
19
26
14
25
25
20
23
25
9
25
24
14
19
22
20
23
21
24
25
403
13.4 Ergebnisse: Mehrfach angebotene Ergebnis-Seiten
Zahlreiche Dokumente wurden mehrfach präsentiert, da die Suchaufgaben für
die Testpersonen vorgegeben waren. Dies erlaubt die Analyse des Verhaltens
unterschiedlicher Benutzer bei der Präsentation der gleichen Seite. Werden
die gleichen Seiten geöffnet und werden ähnliche Bewertungen vergeben?
Tatsächlich weichen die Entscheidungen durchaus voneinander ab. Dies
rechtfertigt die Betonung der Subjektivität bei der Evaluierung. Durchschnittlich wurde jede vierte der präsentierten Ergebnisseiten geöffnet. Auch bei den
Seiten, die mindestens dreimal präsentiert wurden, beträgt der durchschnittliche Anteil 27%. Die Liste der Anteile der geöffneten Seiten weist eine Standardabweichung von 0,25 auf. Die Anteile weichen also stark voneinander ab.
Auffällig ist, dass unter den mindestens achtmal präsentierten Seiten 21% von
keiner Testperson geöffnet wurden, während die zwei am häufigsten gezeigten Links von einer Mehrheit der Benutzer betrachtet und bewertet wurden.
295
Evaluierung
Zwanzig Dokumente wurden mindestens viermal bewertet. Dabei wurden
unterschiedliche subjektive Bewertungen abgegeben. Von den zehn mindestens fünfmal bewerteten Dokumenten wurden keines von allen Testpersonen gleich bewertet. Von den zehn viermal bewerteten wurden immerhin
drei Dokumente immer gleich bewertet und zwar mit Note 1 oder 2. Die
durchschnittliche Standardabweichung zwischen den Bewertungen beträgt
etwa eine Notenstufe.
Damit sind die Abweichungen in der Qualitätsbewertung in diesem Experiment etwas höher als in der Evaluierung von AMENTO ET AL. 2000, bei der
lediglich Seiten aus einem Internet Katalog benutzt wurden. Das Zulassen beliebiger und damit teils möglicherweise qualitativ sehr schlechter Seiten verändert das Ergebnis sehr.
13.5 Qualitative Auswertung der Bemerkungen
Die Benutzer waren aufgefordert, während des Tests ihre Bewertungen zu
kommentieren. Diese Bemerkungen wurden dann von den Testleitern festgehalten. Dabei ergaben sich insgesamt ca. 250 Äußerungen. Wie aus der theoretischen Diskussion zu erwarten war, bezogen sich die meisten Äußerungen
erstens auf die Bereich Design und Layout und zweitens auf den Inhalt. Insgesamt überwogen die Bemerkungen zum ersten Komplex. Dies rechtfertigt
auch die Betonung von Design-Aspekten in AQUAINT.
Die häufigsten Anmerkungen waren „übersichtlich“ bzw. „unübersichtlich“.
In die gleiche Kategorie fallen auch Bemerkungen wie „gutes Layout“, „überfüllt“, „überladen“ oder „zu viel Information“. Neben diesen allgemeinen
Aussagen gab es auch etliche Anmerkungen zu einzelnen Gestaltungsdetails.
Oft fielen den Benutzern auch Farben und Buntheit auf, was meist negativ
bewertet wurde. Gute Farbgestaltung scheint dagegen eher weniger aufzufallen. Lediglich die Anmerkung „dezente Farben“ bewertete die Farbgebung
explizit positiv. Auch fehlende Überschriften wurden moniert.
Bei den Bemerkungen zum Inhalt fiel besonders auf, dass einige Male gute
Linksammlungen positiv bewertet wurden. Die Benutzer ordnen also einer
Seite automatisch die Rolle Hub zu und bewerten die Seite positiv, ohne die
Links zu überprüfen.
Die Quelle einer Seite wurde kaum explizit bewertet. In anderen Tests war
dies den Benutzern wichtiger (RIEH 2002). Dementsprechend betrafen auch
wenig Äußerungen das Thema Trust: „wirkt vertrauenswürdig“, „Glaubwürdigkeit?“, „seriös?“ In einigen Fällen wurden Seiten mit Werbung negativ bewertet. Auch die Vermutung, es handle sich um subjektiv geprägte Seiten,
296
Evaluierung
wurde in Einzelfällen moniert. Dies geschah beispielsweise bei der Seite einer
Krankenkasse.
13.6 Ergebnisse: Evaluierung der AQUAINT-Ranking-Funktion
Das wichtigste Ziel des Benutzertests bestand in der Bewertung des
AQUAINT-Ranking-Verfahrens. Um eine Evaluierung zu ermöglichen,
wurde das AQUAINT-Ranking-Verfahren mit einem zufällig erzeugten
Ranking und dem ursprünglichen Ranking der jeweiligen Suchmaschine verglichen. Diese drei Varianten wurden für jede Anfrage erzeugt und bewertet.
Dies erfolgte unabhängig davon, welches Ranking dem Benutzer präsentiert
wurde. Anhand der erfolgten Bewertung konnte berechnet werden, auf welchen Positionen die positiv bewerteten Dokumente in jedem Ranking liegen.
Dem Benutzer wurde zusätzlich noch in zufällig ausgewählten Anfragen ein
aufsteigendes Ranking nach Qualität präsentiert (negative quality ranking).
Dadurch sollte verhindert werden, dass das Qualitäts-Ranking fälschlicherweise zu positiv bewertet wurde. Benutzer öffnen eher Dokumente, welche im
Ranking weit vorne stehen. Durch die Umkehrung der Reihenfolge nach der
Qualität (negative quality ranking) sollte dieser Effekt abgeschwächt werden.
Tatsächlich öffneten die Benutzer tendenziell eher Seiten, die weit vorne im
Ranking standen. Bei durchschnittlich 18,4 präsentierten Seiten pro Suche,
liegt der durchschnittliche Rang der geöffneten Seiten bei 9,2.
Dagegen besteht nur eine sehr schwache Korrelation (0,28) zwischen der
Reihenfolge, in der die Seiten betrachtet wurden und dem Qualitätsurteil. Eine
Korrelation zwischen der Position einer Seite im Ergebnis und dem Qualitätsurteil besteht nicht. Dies mag zu einem Teil auf das oben beschriebene
Verfahren des umgekehrten Qualitäts-Rankings für einige zufällige Suchen
zurückzuführen sein.
Zur Bewertung der drei Ranking-Verfahren werden in Tabelle 13.7. zunächst
die Entscheidungen zum Öffnen einer Seite und die Vergabe der Note 1 für
Qualität sowie Relevanz herangezogen.
Tabelle 13.7: Vergleich der Ranking-Funktionen
Ranking-Verfahren Geöffnet
Nach drei
Original-Ranking
Dokumenten Qualitäts-Ranking
Zufälliges Ranking
75
85
34
Qualitätsnote 1
Relevanznote 1
14
13
6
36
33
11
297
Evaluierung
Nach fünf
Original-Ranking
Zufälliges Ranking
Nach zehn Original-Ranking
Zufälliges Ranking
112
133
61
183
226
141
23
20
12
29
32
20
48
51
24
71
81
49
Nach zehn Dokumenten ist das Qualitäts-Ranking dem ursprünglichen und
dem zufälligen Ranking nach allen drei Maßstäben überlegen. Dagegen ist die
Situation bei der Betrachtung weniger Dokumente nicht eindeutig. So zeigt
sich das originale Ranking der Suchmaschine nach drei Dokumenten bei zwei
Maßstäben überlegen und nach fünf Dokumenten bei einem Maßstab, der
Häufigkeit der Vergabe der Qualitätsnote 1.
Ein ähnliches Bild ergibt sich bei der weniger strikten Bewertung, die auch
die Qualitäts- bzw. Relevanznoten 2 und 3 berücksichtigt. Zählt man die Dokumente mit Mindestnote 1, 2 bzw. 3 für jedes Ergebnis-Ranking, so schneidet das Qualitäts-Ranking nach zehn Dokumenten immer besser ab als das
Original-Ranking. Nach fünf Dokumenten ist in manchen Fällen das OriginalRanking überlegen, während das zufällige Ranking nie zu dem besten Ergebnis führt.
298
Evaluierung
Tabelle 13.8: Positive Bewertungen für verschiedene Mindestnoten
RankingVerfahren
Nach fünf
Dokumenten
OriginalRanking
QualitätsRanking
Zufälliges
Ranking
Nach zehn
Dokumenten
OriginalRanking
QualitätsRanking
Zufälliges
Ranking
Bewertung
Qualitätsbewertung
Relevanzbewertung
Note 1
Note 1 bis 2
Note 1 bis 3
Note 1
Note 1 bis 2
Note 1 bis 3
Note 1
Note 1 bis 2
Note 1 bis 3
Note 1
Note 1 bis 2
Note 1 bis 3
Note 1
Note 1 bis 2
Note 1 bis 3
Note 1
Note 1 bis 2
Note 1 bis 3
23
65
94
20
71
110
12
29
47
29
101
154
32
119
185
20
68
114
48
79
92
51
74
96
24
37
47
71
114
143
81
129
167
49
81
109
Die folgende Tabelle 13.9. sortiert die Ergebnisse nach Mindestnote und
damit nach der Strenge der Auswertung. Die Ranking-Verfahren sind nach
ihrem Abschneiden sortiert. Maßstab ist hier nicht die Anzahl der positiv
bewerteten Dokumente insgesamt wie in Tabelle 13.8 sondern die durchschnittliche Präzision über alle Anfragen. Auch hier wird deutlich, dass das
Qualitäts-Ranking nach zehn Dokumenten immer zum besten Ergebnis führt.
299
Evaluierung
Tabelle 13.9: Durchschnittliche Präzision in den Ergebnismengen
Ranking-Verfahren
Nach fünf
Original-Ranking
DokuQualitäts-Ranking
menten Note 1
Zufälliges Ranking
Note Qualitäts-Ranking
1 bis 2 Original-Ranking
Zufälliges Ranking
Zufälliges Ranking
Nach zehn
Qualitäts-Ranking
Doku- Note 1 Original-Ranking
menten
Zufälliges Ranking
Zufälliges Ranking
Zufälliges Ranking
Durchschnittliche
Präzision
bzgl.
Qualität
0,024
0,021
0,013
0,075
0,068
0,031
0,116
0,099
0,049
0,034
0,031
0,021
0,125
0,106
0,072
0,195
0,162
0,120
Ranking-Verfahren
Original-Ranking
Qualitäts-Ranking
Zufälliges Ranking
Original-Ranking
Qualitäts-Ranking
Zufälliges Ranking
Qualitäts-Ranking
Original-Ranking
Zufälliges Ranking
Qualitäts-Ranking
Original-Ranking
Zufälliges Ranking
Qualitäts-Ranking
Original-Ranking
Zufälliges Ranking
Qualitäts-Ranking
Original-Ranking
Zufälliges Ranking
Durchschnittliche
Präzision
bzgl.
Relevanz
0,054
0,051
0,025
0,083
0,078
0,039
0,101
0,097
0,049
0,085
0,075
0,052
0,136
0,120
0,085
0,176
0,151
0,115
Vermutlich sind drei bis fünf Dokumente zu wenig für eine statistisch
zuverlässig Auswertung. Ein Grund für das bessere Abschneiden des
Original-Rankings könnten Heuristiken sein, welche bestimmte Seiten auf
vorderste Plätze setzen. Dazu zählt etwa die Kürze der URL. In Suchmaschinen erscheinen häufig Homepages auf dem ersten Platz. Möglicherweise
wurde dies in dem Test belohnt.
Die Ergebnisse zeigen, dass gestufte Bewertungen kaum zu neuen Erkenntnissen führen und meist nur die Ergebnisse der binären Urteile bestätigen. So
schneidet das Qualitäts-Ranking nach zehn Dokumenten bei jeder Mindestnote am besten ab. Binäre Urteile werden seit langem kritisiert. Folglich wurden zum Beispiel in der Evaluierungsinitiative INEX für XML-Retrieval eine
vierstufige Bewertung der Relevanz und eine vierstufige Bewertung der
Abdeckung eingeführt. Unterschiedliche binäre Betrachtungen der Auswertung fassten einmal die Schnittmenge der höchsten Bewertungen und einmal
300
Evaluierung
die zwei höchsten Stufen zusammen (cf. FUHR ET AL. 2003, GÖVERT & KAZAI
2002). Dabei ergaben sich fast identische Ergebnisse für den Systemvergleich. Auch AQUAINT bestätigt, dass der hohe kognitive Aufwand für abgestufte Bewertungen durch die Juroren kaum gerechtfertigt ist.
13.7 Fazit Evaluierung
Das vorgestellte System AQUAINT berücksichtigt alle Aspekte des QualitätsRetrieval: die Erstellung der Modelle, die Einbindung in einen Anwendungskontext sowie die Evaluierung. Ziel der Evaluierung der AQUAINT Qualitäts-Suchmaschine war es, die subjektive Wahrnehmung der Qualität der
Ergebnis-Seiten eines Retrieval-Prozesses zu untersuchen. Die StandardEvaluierungsmethoden des Information Retrieval stammen aus den ersten
Retrieval-Tests mit der Cranfield-Kollektion. Somit spricht man vom Cranfield-Paradigma der Evaluierung, das in den heute veranstalteten Evaluierungsinitiativen angewandt wird (siehe Abschnitt 2.4). Für die Evaluierung
des Qualitäts-Retrieval wurden die Methoden der Evaluierung im Information
Retrieval aufgegriffen und an einigen Stellen weiterentwickelt.
• Die Auswertung berücksichtigt die subjektive Perspektive der individuellen Testperson, da die Wahrnehmung von Qualität sehr stark subjektiv geprägt ist. Diese bereits aus der Forschungsliteratur entwickelte
Annahme wurde durch die unterschiedliche Bewertung der Testpersonen bestätigt. Im Gegensatz dazu gehen alle Evaluierungsinitiativen
von einer absoluten Relevanz aus, die selbst beim Einsatz von Testpersonen für alle gleich gilt1.
• Demnach muss die Bewertung mit Testpersonen während der
Interaktion erfolgen und kann nicht nachträglich von Juroren vorgenommen werden.
• Die Auswertung beschränkte sich auf sehr kurze Antwortmengen, wie
für das Verhalten der Testpersonen im Internet typisch und in Evaluierungen von Web-Retrieval bereits üblich sind (CRASWELL & HAWKING
2002, GRIESBAUM ET AL. 2002, SIGURBJÖRNSSON ET AL. 2005b). Dage-
1
Im Interactive Track von CLEF (iCLEF) werden Experimente mit Benutzungsoberflächen und Testpersonen durchgeführt. Dabei werden jedoch die Relevanz-Bewertungen
der Juroren aus dem CLEF ad-hod Track herangezogen (OARD & GONZALO 2004).
301
Evaluierung
gen gehen die Evaluierungsinitiativen nach wie vor von Benutzern aus,
welche längere Antwortmengen durchsehen1.
Die hier dargestellte Adaption der Evaluierungsmethodik für das Qualitätsretrieval hat auch Nachteile. Durch die Berücksichtigung der Subjektivität
und die Abkehr von der absoluten Relevanz leidet aus methodischer Sicht die
Zuverlässigkeit der statistischen Auswertung. Die quantitative Evaluierung im
Information Retrieval rückt angesichts der Betonung der Subjektivität näher
zu einer qualitativen Evaluierung. Gleichwohl bleibt die statistische Auswertung nach wie vor möglich und notwendig. Entscheidend ist, dass die theoretischen Überlegungen und die empirischen Ergebnisse keine andere Option
lassen und das Beibehalten der Standard-Evaluierung zu unzuverlässigen Ergebnissen führt.
Auch gegenüber den im state-of-the-art vorgestellten Ansätzen zur automatischen Qualitätsbewertung (siehe Kapitel 7 und 8) erbringt das System
AQUAINT eine methodische Weiterentwicklung. Wichtige Ansätze aus dem
state-of-the-art werden in Tabelle 13.10 AQUAINT gegenübergestellt.
Tabelle 13.10: Überblick über Ansätze zur Qualitätsbewertung
Ansatz
BUCY ET
AL 1999
ZHU &
GAUCH
2000
AMENTO ET
AL. 2000
IVORY &
HEARST
2002
AQUAINT
1
Korpus
Qualitätsurteile
Verzeichnisdienst
YahooInternetLife
Testpersonen
Webby
Award
Umfang
Korpus
Yahoo,
Spam-Liste
32000
Seiten
500
Seiten
20 Sites
Qualitätsurteile
Usage
Daten
Experten
ca. 1000 Experten
Seiten
5400
Experten
Seiten
Experten,
Benutzer
Anzahl
Parameter
6
6
4
157
120
Korpus für Evaluierung
Evaluierung
Identisch mit
Urteil-Korpus
Identisch mit
Urteil-Korpus
Korrelation
Retrieval
Identisch mit
Retrieval
Urteil-Korpus
Teils identisch
Treffermit Urteilquote
Korpus
maschnelles
Lernen
Web
Qualität im
Kontext
Zu Beginn von TREC ging man davon aus, dass bis zu 1000 Dokumente betrachtet
werden müssen (cf. WOMSER-HACKER 1997). In CLEF beträgt die sogenannte PoolTiefe, also die Anzahl der Dokumente aus Runs, welche letztendlich intellektuell
bewertet werden, dagegen nur noch 60 (BRASCHLER & PETERS 2004).
302
Evaluierung
Die wichtigsten innovativen Aspekte von AQUAINT sind folgende:
• Die Modell-Erstellung sowie die Evaluierung basieren auf dem gesamten Qualitätsspektrum und nicht nur auf qualitativ hochwertigen Seiten.
• Die Modell-Erstellung und die Evaluierung erfolgen mit unterschiedlichen Seiten.
• AQUAINT stellt das Information Retrieval im Internet als Anwendungsfall in den Mittelpunkt der Evaluierung.
• Primäres Ziel ist nicht die Erhöhung der Relevanz der Such-Ergebnisse,
sondern deren qualitative Verbesserung in der subjektiven Wahrnehmung.
Damit stellen sowohl das System AQUAINT als auch die hier entwickelte
Evaluierungsmethodik eine Weiterentwicklung dar.
303
304
Web Design Mining
14. Web Design Mining
Die im Rahmen von AQUAINT extrahierten Eigenschaften von Web-Seiten
stellen gewissermaßen „Fingerabdrücke“ des Web-Designs der Seiten dar.
Dieses können auch anderweitig genutzt werden. Sowohl die einzelnen
Eigenschaften als auch Mengen daraus geben Aufschluss über die Gestaltung,
das Design und Layout von Web-Seiten.
Die Mensch-Maschine-Interaktion stellt meist Vorschriften für die Gestaltung
von Benutzungsoberflächen und bewertet dann einzelne Design-Entwürfe in
Benutzertests. Dagegen kann mit den in AQUAINT und anderen Projekten
zur automatischen Qualitätsbewertung entwickelten Methoden ein deskriptiver Ansatz für große Mengen von Realisierungen von Design erhoben werden. Bisherige Analysen zum Design beschränken sich meist auf formale
Aspekte wie die Verwendung von verschiedenen HTML Versionen und den
Anteil von JAVA Script im Web (EVANS & WALKER 2004:377).
Structure
Mining:
Usage
Mining:
Web
Benutzer
Site
Site
Links
Site
Site
Text, pure text, text,
pure text, pure text,
pure text, text, text,
besuchte Links
Site
Content
Mining:
Site
Design
Mining:
Site
Site
Design,
Layout,
Farben,
Schriften,
Balance
Abb. 14.1: Web Design Mining als Teilbereich des Web Mining
305
Web Design Mining
In ersten Web-Design Analysen wurden die Farbverteilung zwischen Seiten
aus verschiedenen thematischen Domänen (MANDL & EIBL 2005), die
Komplexität von Seiten auf verschiedenen hierarchischen Ebenen von Sites
(MANDL 2003) sowie die Struktur von Internet-Katalogen untersucht (MANDL
2002). Damit tritt Web Design Mining als weiterer Aspekt des Web Mining
neben Content, Structure und Usage Mining, wie Abbildung 14.1 zeigt.
Web-Design-Mining dient der empirischen Analyse der real im Web
verwendeten Gestaltungselemente und Designs. Damit können Standards
erkannt werden. Interessant ist auch die Verteilung der Design-Parameter im
Internet. Folgen auch sie der Potenzgesetz-Verteilung oder liegen hier andere
Wahrscheinlichkeitsverteilungen wie etwa die Normalverteilung vor? Diese
Analysen können sowohl für thematische Cluster als auch für einzelne Kulturen betrieben werden. Dadurch lassen sich Unterschiede zwischen Themen
und Kulturen im Web-Design untersuchen.
Ebenso können die Design-Parameter der Visualisierung zugeführt werden
und so dem Vergleich von unterschiedlichen Designs dienen. Zum Beispiel
können in einem Design-Vektor-Raum aus den extrahierten Eigenschaften die
Zentroiden als typischste Web-Designs bestimmt werden. Durch die Darstellung von Sites in 2-D-Karten (EIBL & MANDL 2004), die einen Design-Raum
aufspannen, kann der Prozess des kreativen und künstlerischen Web-Design
unterstützt werden. Die Auswirkungen der Veränderungen am Code einer Site
können in einer 2-D-Karte in Beziehung zu anderen Sites verfolgt werden.
Unter Einbeziehung von historischen Daten wie etwa dem Internet-Archive1
lassen sich durch die Analyse von Bewegungen der typischen Vektoren im
Design-Raum Tendenzen im Web-Design erkennen.
1
http://www.archive.org
306
Web Design Mining
Klassifizierung
Autoren
Erstellung
Indexierung
Suchmaschine
WEB
Extraktion und
Anwendung von
Wissen zur
Qualitätsbewertung
Qualitätsbewertung
Redakteure
Extraktion und
Anwendung von
KlassifizierungWissen
InternetVerzeichnis
AQUAINT
Qualitätssuchmaschine
Interaktion mit Mehrwertdiensten
Abb. 14.2: AQUAINT im Kontext der Benutzung von Informations-Diensten
Einen ersten Ansatz für die Analyse bietet wiederum das WEKA-Paket zum
maschinellen Lernen, das einfache Analyse der Daten erlaubt. Wie Abbildung
14.3 zeigt, kann die Häufigkeitsverteilung einer Größe angezeigt werden.
Diese Darstellung lässt sich durch Auswahl einer weiteren Größe als Klasse
noch verfeinern.
307
Web Design Mining
Abb. 14.3: Häufigkeitsverteilung einer Größe (blanksToTextRatio) in WEKA
Die Abbildung 14.4 verdeutlicht die Häufigkeitsverteilung des Verhältnisses
von Textumfang einer Seite gemessen anhand der Anzahl der Zeichen zu der
Dateigröße. Als Klasse wird die Qualität angezeigt (also Spam, Internet-Katalog-Seite oder Suchmaschinen-Ergebnis-Seite). Dabei zeigt sich, dass die
Verteilung für die einzelnen Klassen unterschiedlich ist. Wie bereits in Abschnitt 11.5 angesprochen, dienen sowohl die Qualitätsmodelle als auch die
Trainingsdaten als Wissensquelle.
308
Web Design Mining
Abb. 14.4: Häufigkeitsverteilung einer Größe (textToSizeRatio) abhängig von
den Qualitätsklassen –1, 0 und 1 in WEKA
Beispielhaft folgen in Tabelle 14.1 hier noch einige Mittelwerte von Eigenschaften für die unterschiedlichen Klassen der Web-Seiten aus dem Datenbestand des AQUAINT-Systems.
309
Web Design Mining
Tabelle 14.1: Mittelwerte für unterschiedliche Eigenschaften innerhalb
verschiedener Qualitätsklassen
Eigenschaft
graphicsToSizeRatio
imgLinksToSizeRatio
stopwordsWordsRatio
sentenceToTextRatio
graphicsWordsRatio
sentenceDomElemsRatio
outLinksWordsRatio
imgToTableRatio
tdPerTableMedian
nrTagTable
linkLabelLengthAve
nrOutLinks
uniqueWordsPureText
nrWordsPureText
fileSize
0
0,00054
0,00141
0,00510
0,0863
0,01573
0,0275
0,0636
0,219
0,691
2,019
4,778
10,691
8,225
56,43
86,89
150,8
18010
1
0,00038
0,00117
0,00586
0,0974
0,01832
0,01755
0,0366
0,362
0,510
2,359
5,015
4,620
7,194
38,70
93,15
165,1
11860
-1
0,00057
0,00120
0,00375
0,0631
0,0204
0,0160
0,0629
0,334
0,682
3,278
4,741
5,791
9,853
98,82
99,34
215,4
16586
gesamt
0,00049
0,00127
0,00505
0,0847
0,0178
0,0211
0,0536
0,299
0,622
2,448
4,856
7,285
8,243
60,23
92,20
171,6
15418
Es zeigt sich, dass gerade die Klassen teils sehr unterschiedliche Mittelwerte
aufweisen. So treten HTML-Tabellen sowohl in den Spam- als auch den
Internet-Katalog-Seiten nur etwa halb so häufig auf wie in den Suchmaschinen-Seiten. Auffällig ist auch, dass Spam-Seiten zwar hinsichtlich ihrer
Dateigröße nicht größer sind als andere Seiten, aber im Durchschnitt deutlich
mehr Text und anteilig weniger Stoppwörter enthalten. Möglicherwiese kann
dies auf Täuschungsversuche zurückgeführt werden, bei denen der Betreiber
der Seite zahlreiche inhaltstragende Wörter hinzufügt, die an sich nichts mit
der Thematik der Seite zu tun haben.
Tabelle 14.2: Beziehungen zwischen Eigenschaften
Korrelation zwischen
Datei Größe
Anzahl DOM Elemente
nrUnique- nrHTML- lengthuniqueHTMLColors Colors PureText WordsRatio
0,250
0,263
0,353
-0,306
0,522
0,559
0,642
-0,383
nrOutLinks
0,387
0,830
Ein Blick auf die Korrelationen zwischen den Eigenschaften führt auch zu
interessanten Einsichten. Die Größe der HTML-Datei korreliert schwach
(0,353) mit der Länge des Textes. Dies war zu erwarten, unerwarteterweise
310
Web Design Mining
allerdings ist die Korrelation zwischen Textlänge und der Anzahl der DOMElemente mit 0,642 mittelstark und damit höher als die zur Dateigröße.
Ebenso ist die positive Korrelation zwischen Dateigröße und der Anzahl der
HTML-Tags mit Farbangaben und der Anzahl der ausgehenden Links
schwächer als die jeweils positive Korrelation zur Anzahl der DOMElemente. Dieses Strukturmerkmal scheint also bedeutender zu sein als die
reine Dateigröße.
311
312
Ausblick
15. Ausblick
Mit der Evaluierung des ersten Prototypen von AQUAINT öffnen sich zahlreiche Perspektiven für die weitere Entwicklung des Qualitäts-Retrieval und
dessen Evaluierung.
Eine zuverlässige Definition von Qualität kann nur durch die Kombination
mehrerer Kriterien sowie durch die Berücksichtigung von Kontext
hinsichtlich Domäne und Kultur erreicht werden. Weitere Eigenschaften
sollten in Zukunft entwickelt und hinzugezogen werden. Ebenso sind die
Erstellung weiterer Modelle in anderen Domänen und deren Evaluierung
sinnvoll.
Die Qualität hängt letztendlich vom Benutzer ab. Wie in Abschnitt 5.5 erläutert, stehen dafür verschiedene Wissensquellen zur Verfügung. Dazu zählen
die Auswahl für ein qualitätskontrolliertes Angebot wie ein Clearinghouse,
das Setzen von Links und Nutzungsdaten. Weitere Anstrengungen zur
Integration weiterer Wissensquellen als der in AQUAINT genutzten sind
erforderlich.
Das Qualitätsmodell kann neben der Verbesserung des Ranking noch
anderweitig im Information Retrieval-Prozess eingesetzt werden wie bereits
oben in Abbildung 11.2 gezeigt.
• Steuerung des Crawling
• Bewertung von Quellen
• Überprüfung von menschlicher Qualitätsbewertung
• Einfluss auf die Ähnlichkeitsberechnung beim Retrieval
• Filter während des Retrieval
Dabei geht es nicht ausschließlich um das Suchen von drei Modellen, von
denen jedes eines der gemessenen Phänomene möglichst optimal wiedergeben
kann. Vielmehr gibt jede der drei wichtigen messbaren Größen ein eingeschränktes Bild von der tatsächlich wahrgenommenen Qualität. Deshalb muss
ein Modell gesucht werden, das alle Aspekte möglichst gut wiedergibt und
das damit eine höhere Validität besitzt.
313
Ausblick
Dabei handelt es sich nicht um eine Fusion wie im Information Retrieval
(siehe Abschnitt 2.3), da nicht mehrere Verfahren kombiniert werden, sondern
gleichzeitig mehrere Lernziele in Einklang gebracht werden müssen. Trotzdem sollten in diesem Zusammenhang Strategien für das Trainieren von
sogenannten Committee Machines beachtet werden. Bei kombinierten Lernverfahren werden die einzelnen Algorithmen nicht in höchstem Maße optimiert, sondern der Lernprozess wird nach einer ersten Konvergenz früh abgebrochen. In der Kombination erzielen solche weniger optimierten Systeme
insgesamt ein besseres Ergebnis (cf. HAYKIN 1999:351 ff.).
Die Evaluierung von AQUAINT hat bereits gezeigt, dass sich die Methodik
weiter entwickeln muss. Ebenso muss sich die Evaluierung auf weitere
Aspekte des Informationsprozesses beziehen. Das Informationsverhalten vor
dem Hintergrund der automatischen Qualitätsabschätzung sollte holistisch
analysiert werden, wobei folgende Fragestellungen exemplarisch sind:
• Wie verhalten sich Benutzer gegenüber der Qualität von Information
und Qualitäts-Suchdiensten?
• Verlaufen Informationsprozesse bei qualitativ hochwertigen Seiten
anders?
• Werden Qualitäts-Suchdienste akzeptiert und wird ihnen Vertrauen
entgegen gebracht?
Die Kultur eines Benutzers spielt beim Einsatz von Informationssystemen
eine erhebliche Rolle. Gerade die Bewertung von Qualität unterliegt kulturellen Einflüssen. So zeigt etwa eine Analyse von Kriterienlisten sowie eine
Benutzerbefragung nach für sie wichtigen Produkt-Eigenschaften bei InternetSeiten starke kulturelle Unterschiede (DE LA CRUZ 2003).
Der folgende Überblick zeigt einige der in AQUAINT behandelten Themen
und dazu die jeweils interessanten interkulturellen Aspekte. Besonders vielversprechend ist der Vergleich von Qualitätsmodellen aus unterschiedlichen
Kulturen. Die dunkel hinterlegten Aspekte sind bisher noch nicht bearbeitet
worden.
314
Ausblick
Tabelle 15.1: Forschungsfelder im Bereich Qualität und Interkulturalität
Gegenstand
Qualitäts-Aspekte
Interkulturelle Aspekte
Web-Mining
Link-Analyse
Verteilungen von Eigenschaften
Internet-Kataloge
Aufbau und Struktur
Internet-Kataloge
Aufbau und Struktur
Konsistenz von
Qualitätsdefinitionen
In-Links und InternetKataloge
Unterschiedliche
Abweichungen? (Machtdistanz)
Übertragung von
Qualtätsdefinitionen
Mehrdimensionale Kriterien
auf hoher Abstraktionsebene
Integration
mehrerer Perspektiven
Unterschiedliche
Qualitätskriterien?
QualitätsSuchmaschine
Implementierung QualitätsSuchmaschine
Unterschiedliche Bedürfnisse
und unterschiedliches
Nutzungsverhalten?
Architektur von
Qualitätsdiensten
In geringem Umfang ist sogar die zeitliche Entwicklung der Qualitätsaspekte
möglich, da einige frei zugänglich Services Internet-Seiten archivieren1. Weiterhin wäre es interessant, die Verteilung von Internet-Angeboten auf qualitativ gute und weniger gute zu messen.
Als wichtiges Thema im Web-Mining gilt Resource Discovery, womit meist
das zielgerichtete Crawling nach thematisch zusammenhängenden Seiten
gemeint ist. Mit Hilfe der Qualitätsbewertung von AQUAINT können so
gewonnene Seiten überprüft und nur bei hinreichender Qualität aufgenommen
werden. Somit entstehen Qualitätsressourcen zu bestimmten Themen, die
durch inhaltliches Clustering noch zusätzlich thematisch geordnet werden
können.
1
http://www.archive.org
315
Fazit
316
Fazit
16. Fazit
Die automatische Bewertung der Qualität von Dokumenten stellt ein relativ
neues Forschungsgebiet dar, das von Benutzern bisher kaum als Problem
betrachtet wird. Das starke Wachstum des Internet und die große Heterogenität der darin enthaltenen Daten gibt der Forschung in diesem Bereich
starke Impulse. Diese Entwicklungstendenzen werden auch dazu führen, dass
die automatische Bewertung der Qualität von Internet-Seiten auf mittlere
Sicht entscheidende Wichtigkeit gewinnen wird.
Die für automatische Bewertung der Qualität eingesetzten Technologien
müssen die Vagheit und Kontextabhängigkeit des Qualitätsbegriffs berücksichtigen, wenn sie Erfolg haben wollen. Qualität kann sehr unterschiedlich
definiert werden. Abhängig vom Anwendungsgebiet der Seite, dem Interesse
des Benutzers und des aktuellen Kontexts eignen sich verschiedene formale
Eigenschaften der Seiten für die Vorhersage der Qualität.
AQUAINT greift experimentelle Verfahren der letzten Jahre zur Qualitätsbewertung im Internet auf und führt die Entwicklungslinie konsequent
weiter. Das vorrangige Ziel besteht in der Erstellung eines Modells für
Qualität, das auf menschlichen Urteilen beruht und diese weitgehend wiedergibt. Ein derartiges Modell muss mehrere Aspekte von Qualität integrieren
und zumindest sowohl auf die Autorität als auch die Gebrauchstauglichkeit
abzielen. Wie in anderen Projekten erfolgt eine formale Analyse der Seiten
nach insgesamt ca. 110 unterschiedlichen Kriterien, die sich automatisch
erkennen lassen. Dabei wurden sowohl aus der Literatur bekannte Kriterien
mit einbezogen als auch eigene, komplexe Kriterien entwickelt. Eine geringe
Rolle spielte der Inhalt einer Seite, während die Analyse des HTMLQuellcodes im Zentrum stand. Diese Fokussierung hatte mehrere Gründe:
• Inhalt und Darstellung sind im Internet sehr eng verbunden. Die
Bewertung des Inhalts kann daher selten von dessen Darstellung
getrennt werden.
• Die subjektive Bewertung von Internet-Seiten durch den Benutzer
hängt in hohem Maße von visuellen Eindrücken ab. Diese lassen sich
aus der Struktur der Seite ableiten.
• Der gleiche Inhalt kann bei unterschiedlicher Darstellung und
Präsentation stark unterschiedlich gut benutzbar sein. Die
Gebrauchstauglichkeit oder Benutzbarkeit stellt einen wichtigen Faktor
317
Fazit
der Qualität dar und zu dessen automatischer Bewertung liegen erste
Ansätze vor, die oben erläutert wurden. Die Benutzbarkeit offenbart
sich zu einem Teil in der Präsentation. Die Anteile graphischer Inhalte,
die Ausgewogenheit sowie die Überladenheit oder Klarheit und
Einfachheit einer Seite lassen sich an dem HTML-Quellcode ablesen.
Zu einem Teil gelingt dies auch automatisch.
Anders als in anderen Projekten (AMENTO ET AL. 2000, CHI ET A. 2003, IVORY
& HEARST 2002, ZHU & GAUCH 2000), stehen in AQUAINT sowohl als
Ausgangsdaten als auch in der Evaluierung subjektive, menschliche Qualitätsurteile im Zentrum. In AQUAINT besteht der Test-Korpus nicht nur aus einer
bereits qualitativ vorbewerteten Menge von Seiten, sondern auch zufällig
gewählte, möglicherweise sehr schlechte Seiten werden sowohl bei der
Modell-Erstellung als auch beim Benutzertest integriert.
Als erstes System stellt AQUAINT Information Retrieval im Internet als
Anwendungsfall in den Mittelpunkt und will vor allem die subjektive Qualitätswahrnehmung untersuchen und die Such-Ergebnisse qualitativ verbessern.
Damit leistet AQUAINT auch eine methodische Weiterentwicklung.
Aus der Perspektive der Evaluierungsmethodik im Information Retrieval
beschreitet AQUAINT mit der entwickelten Methode ebenso neue Wege. Im
Information Retrieval herrscht das sogenannte Cranfield-Paradigma vor, wonach die Relevanzbewertung objektivierbar ist und von Experten übernommen werden kann (PETERS ET AL. 2004, VOORHEES & HARMAN 2000,
WOMSER-HACKER 1997). Dagegen geht AQUAINT davon aus, dass die
Qualitätsbewertung stark subjektiv geprägt ist und die Evaluierung dementsprechend aufgrund der individuellen Bewertungen erfolgen muss.
Systeme zur automatischen Qualitätsbewertung sollen keineswegs eine
digitale Zensur realisieren, welche den Benutzern einen von den Entwicklern
vertretenen Qualitätsbegriff aufzwingt. Vielmehr dienen sie v.a. dazu,
Suchdienste zu verbessern, die momentan die Übereinstimmung zwischen
Anfrage und Dokumenten fast ausschließlich auf inhaltlicher Ebene prüfen.
Einbeziehung der Güte und die Beschränkung auf adäquate Kategorien kann
die Orientierung für Benutzer eventuell erheblich erleichtern. Gleichwohl
entstehen durch die automatische Qualitätsbewertung ethische Probleme, die
heute noch nicht alle absehbar sind.
Die letztendliche Qualitätsentscheidung bleibt alleine dem Menschen überlassen, oder anders formuliert, vor dieser Aufgabe kann sich der Benutzer
nicht drücken. Er muss Wissensobjekte kritisch rezipieren und Texte im Internet lesen, bevor er sie möglicherweise für weitreichende Entscheidungen
318
Fazit
einsetzt. Der durchschnittliche Benutzer wird sich mit den Details der Qualitätsbewertung nie befassen, auch wenn sie für ihn erhebliche Auswirkungen
hat. Bereits wesentlich einfachere Funktionsweisen wie linguistische Vorverarbeitung versteht die Mehrzahl der Anwender nicht oder interpretiert sie
völlig falsch. Dies zeigen etwa Untersuchungen zu mentalen Modellen, welche Benutzer von Suchmaschinen bilden (MURAMATSU & PRATT 2001)1.
Trotzdem vertrauen Benutzer den Internet-Suchmaschinen und ihren Ergebnissen in hohem Maße, ja viele stehen ihnen völlig unkritisch gegenüber
(GRAHAM & METAXAS 2003). Um so wichtiger ist der verantwortungsvolle
Einsatz von derartigen Technologien bzw. die Konkurrenz zwischen den
Anbietern von Suchdienstleistungen, so dass Benutzer auch in Zukunft auswählen können.
1
Sehr drastisch formuliert dies Chris Sherman: „The vast majority of searchers say they
are confident about their searching skills and are successful at finding what they're
looking for far more often than not, yet most don't understand how search engines work
or present results.“ (http://searchenginewatch.com/searchday/article.php/3462911)
319
320
Literaturverzeichnis
17. Literaturverzeichnis
AAS, K.; EIKVIL, L. (1999): Text Categorization: a Survey. Report Nr. 941. Norwegian
Computing Center. Juni 1999. http://citeseer.nj.nec.com/aas99text.html (verifiziert
am 15.06.2004)
ABITEBOUL, Serge; PREDA, Mihai; COBENA, Gregory (2003): Adaptive On-Line Page
Importance Computation. In: Proceedings of the Twelfth International World Wide
Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 280-290.
http://www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html (verifiziert am
09.09.2003)
ADAMIC, Lada; HUBERMAN, Bernardo (2001): The Web’s Hidden Order. In:
Communications of the ACM, vol. 44 (9) S. 55-59.
AGICHTEIN, Eugene; GRAVANO, Luis (2000): Snowball: Extracting Relations from Large
Plain-Text Collections. In: Proceedings of the ACM Conference on Digital Libraries
2000, San Antonio, USA. S. 85-94.
AGICHTEIN, Eugene; LAWRENCE, Steve; GRAVANO, Luis (2001): Learning Search Engine
Specific Query Transformations for Question Answering. In: Proceedings of the
Tenth International World Wide Web Conference (WWW10), Hong Kong. 1-5.Mai.
http://www.cs.columbia.edu/~eugene/papers/www10.pdf (verifiziert am 28.04.2004)
AGRAWAL, Rakesh; RAJAGOPALAN, Sridhar; RAMAKRISHNAN, Srikant; XU, Yirong (2003):
Mining Newsgroups Using Networks Arising From Social Behavior. In: Proceedings
of the Twelfth International World Wide Web Conference (WWW 2003), Budapest.
20.-24. Mai. S. 529-535.
http://www2003.org/cdrom/papers/refereed/p688/688-agrawal/index.html (verifiziert
am 09.09.2003)
AMENTO, Brian; TERVEEN, Loren; HILL, Will (2000): Does ”Authority” Mean Quality?
Predicting Expert Quality Ratings of Web Documents. In: Proceedings of the Annual
International ACM Conference on Research and Development in Information
Retrieval (SIGIR 2000), Athen. S. 296-303.
ARASU, Arvind; CHO, Junghoo; GARCIA-MOLINA, Hector; PAEPCKE, Andreas; RAGHAVAN,
Sriram (2001): Searching the Web. In: ACM Transactions on Internet Technology
vol. 1 (1) S. 2–43.
ARTEMENKO, Olga; SHRAMKO, Margaryta (2005): Implementierung eines Sprachidentifikations-Systems für mono- und multi-linguale Dokumente. Erscheint in: MANDL,
Thomas; WOMSER-HACKER, Christa (Hrsg.) Proceedings Vierter Hildesheimer
Information Retrieval und Evaluierungsworkshop (HIER 2005) Hildesheim,
20.7.2005. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft]
BAEZA-YATES, Ricardo; POBLETE Barbara (2003): Evolution of the Web Structure. In:
Poster Proceedings of the Twelfth International World Wide Web Conference
(WWW 2003), Budapest. 20.-24. Mai.
http://www2003.org/cdrom/papers/poster/p103/p103-baeza-yates/p103-baezayates.html (verifiziert am 09.09.2003)
321
BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier (Hrsg.)(1999): Modern Information
Retrieval. Addison-Wesley.
BAIER, Tobias; WEINREICH, Harald; WOLLENWEBER, Frank (2004): Verbesserung von
Social Navigation durch Identitätsmanagement. In: KEIL-SLAWIK, Reinhard ; SELKE,
Harald; SZWILLUS, Gerd (Hrsg.): Mensch & Computer 2004: Allgegenwärtige
Interaktion. München & Wien: Oldenbourg. S. 189-198.
BALL, Rafael; TUNGER, Dirk (2005): Bibliometrische Analysen – Daten, Fakten und
Methoden. Schriften des Forschungszentrums Jülich [Bibliothek, Library 12]
BARABÁSI, Albert-László (2002): Linked: The New Science of Networks. Cambridge:
Perseus.
BARTEL, Torsten (2002): Verbesserung der Usability von WebSites auf der Basis von Web
Styleguides, Usability Testing und Logfile-Analysen. Magisterarbeit, Universität
Hildesheim. WiKu-Verlag.
BAUER, Ingmar (2003): Linkbasierte Rankingverfahren in Internet-Suchmaschinen.
Diplomarbeit Universität Leipzig.
BECK, Susan (1997): Evaluation Criteria: The Good, The Bad & The Ugly: or, Why It’s a
Good Idea to Evaluate Web Sources. http://lib.nmsu.edu/instruction/evalcrit.html
(verifiziert am 15.06.2004)
BELCHER, Martin; PLACE, Emma (2000): People Power and the Semantic Web: Building
Quality Controlled Portals. In: Proceedings on the Ninth International World Wide
Web Conference (WWW9). http://www9.org/final-posters/poster64.html (verifiziert
am 09.09.2003)
BELKIN, Rik (2000): Finding out about: a Cognitive Perspective on Search Engine
Technology and the WWW. Cambridge et al.: Cambridge University Press.
BERLEANT, Daniel (2000): Does Typography Affect Proposal Assessment? In: Communications of the ACM, vol.43 (8) S. 24-25. http://tc.eserver.org/19908.html (verifiziert
am 15.06.2004)
BERNERS-LEE, Tim (1998): Semantic Web Road Map, September 1998.
http://www.w3.org/DesignIssues/Semantic.html (verifiziert am 16.08.2004)
BERRY, Michael (2004) (Hrsg.): Survey of Text Mining: Clustering, Classification and
Retrieval. New York et al: Springer.
BHATTI, Nina; BOUCH, Anna; KUCHINSKY, Allan (2000): Integrating User-Perceived
Quality into Web Server Design. In: Proceedings on the Ninth International World
Wide Web Conference (WWW9). http://www9.org/w9cdrom/92/92.html (verifiziert
am 23.10.2000)
BLOOD, Rebecca (2002): Introduction. In: PERSEUS PUBLISHING (ed.): We `ve got blog:
how weblogs are changing our culture.
BORGES, José; LEVENE, Mark (2000): Data Mining of User Navigation Patterns. In:
MASAND & SPILIOPOULOU 2000. S. 92-111.
BORODIN, Allan; ROBERTS, Gareth; ROSENDAHL, Jeffrey; TSAPARES, Panyiotis (2001):
Finding Authorities and Hubs from Link Structure on the World Wide Web. In:
Proceedings of the Tenth International World Wide Web Conference (WWW 10).
http://www.www10.org/cdrom/papers/314 (verifiziert am 20.8.2002)
BOSE, Nirmal; LIANG, Ping (1996): Neural Network Fundamentals with Graphs, Algorithms, and Applications. New York et al.: McGraw-Hill.
322
BOTAFOGO, Rodrigo; RIVLIN, Ehud; SHNEIDERMAN, Ben (1992): Structural Analysis of
Hypertexts: Identifying Hierarchies and Useful Metrics. In: ACM Transactions on
Information Systems, vol. 10 (2) S. 142-180.
BOUCH, Anna; KUCHINSKY, Allan; BHATTI, Nina (2000): Quality is in the Eye of the
Beholder: Meeting Users’ Requirements for Internet Quality Service. In: Proceedings
of the ACM Conference on Human Factors in Computing Systems (CHI ‘00),
Amsterdam, Niederlande. April 2000. S.297-304.
BOWERS; Neil (1996): Weblint: Quality Assurance for the World-Wide Web. In: Proc. of
the Fifth International World Wide Web Conference (WWW5).
http://www5conf.inria.fr/fich_html/papers/P34/Overview.html
BRAJNIK, Giorgio (2000): Towards Valid Quality Models for Websites. In: Proceedings of
the Sixth Conference on Human Factors and the Web (HFWEB), Austin, USA.
http://www.tri.sbc.com/hfweb/brajnik/hfweb-brajnik.html (verifiziert am 09.09.2003)
BRAJNIK, Giorgio (2001): Towards Valid Quality Models for Websites. In: Proceedings of
the Seventh Conference on Human Factors and the Web (HFWEB).
http://www.dimi.uniud.it/~giorgio/papers/hfweb01.html (verifiziert am 09.09.2003)
BRASCHLER, Martin; PETERS, Carol (2004): CLEF 2003 Methodology and Metrics. In:
PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.):
Comparative Evaluation of Multilingual Information Access Systems: 4th Workshop
of the Cross-Language Evaluation Forum, CLEF 2003, Trondheim, Norway, August
21-22, 2003, Revised Selected Papers. Berlin et al.: Springer [LNCS 3237] S. 7-20
BREWINGTON, Brian; CYBENKO, George (2000): How Dynamic is the Web? In:
Proceedings of the Ninth International World Wide Web Conference (WWW 9).
http://www9.org/w9cdrom/92/92.html (verifiziert am 13.8.2002)
BRIN, Sergey; PAGE, Lawrence (1998): The Anatonomy of a Large-Scale Hypertextual
Web Search Engine. In: Proceedings on the Seventh International World Wide Web
Conference (WWW 7). http://decweb.ethz.ch/WWW7/00/ (verifiziert am 04.03.
2004)
BRINCK, Tom; GERGLE, Darren; WOOD, Scott (2002): Designing Web Sites that Work.
Usability for the Web. Morgan Kaufman: San Francisco.
BRODER, Andrei; KUMAR, Ravi; MAGHOUL, Farzin; RAGHAVAN, Prabhakar; RAJAGOPALAN, Sridhar; STATA, Raymie; TOMKINS, Andrew; WIENER, Janet (2000): Graph
Structure of the Web. In: Proceedings of the Ninth International World Wide Web
Conference (WWW 9). http://www9.org/w9cdrom/160/160.html (verifiziert am 09.
09.2003)
BRODER, Andrei; NAJORK, Marc; WIENER, Janet (2003): Efficient URL Caching for World
Wide Web Crawling. In: Proceedings of the Twelfth International World Wide Web
Conference (WWW 2003), Budapest. 20.-24. Mai. S. 679-689.
http://www2003.org/cdrom/papers/refereed/p096/p96-broder.html (verifiziert am
09.09.2003)
BUCKLEY, Chris; VOORHEES, Ellen (2002): The Effect of Topic Set Size on Retrieval
Experiment Error. In Proceedings of the Annual International ACM Conference on
Research and Development in Information Retrieval (SIGIR ‘02) Tampere, Finland,
Aug. 11-15. S. 316-323.
323
BUCY, Erik P.; LANG, Annie; POTTER, Robert F.; GRABE, Maria E. (1999): Formal Features
of Cyberspace: Relationships between Web Page Complexity and Site Traffic. In:
Journal of the American Society for Information Science, vol. 50 (13) S. 1246-1256.
BÜRLIMANN, Martin (2001): Web Promotion: Professionelle Werbung im Internet. St
Gallen & Zürich: Midas
BUN, Khoo Khyou; ISHIZUKA, Mitsuru (2001): Emerging Topic Tracking System. In:
ZHONG ET AL. 2001. S. 125-130.
CAPPIELLO, Cinzia; FRANCALANCI, Chiara; PERNICI, Barbara (2004): Data quality
assessment from the user´s perspective. In: Proceedings Workshop on Information
Quality in Information Systems (IQIS). Paris, Frankreich. S. 68-73.
CHAFFEY, Dave; MAYER, Richard; JOHNSTON, Kevin; ELLIS-CHADWICK, Fiona (2000):
Internet Marketing; Strategy, Implementation and Practice. München: Pearson
Studium.
CHAK, Andrew (2000): Usability Tools: A Useful Start. In: New Architect, Nr. 8.
http://www.newarchitectmag.com/archives/2000/08/stratrevu/
CHAKRABARTI, Soumen; DOM, Byron; RAGHAVAN, Prabhakar; RAJAGOPALAN, Sridhar;
GIBSON, David; KLEINBERG, Jon (1997): Automatic Resource Compilation by
Analyzing Hyperlink Structure and Associated Text. In: Proceedings of the Seventh
International World Wide Web Conference (WWW7).
http://decweb.ethz.ch/WWW7/1898/com1898.htm (verifiziert am 20.11.2001)
CHAKRABARTI, Soumen; DOM, Byron; AGRAWAL, Rakesh; RAGHAVAN, Prabhakar (1998):
Scalable Feature Selection, Classification and Signature Generation for Organizing
Large Text Databases into Hierarchical Topic Taxonomies. In: The VLDB Journal,
vol. 7. S. 163–178.
CHAKRABARTI, Soumen; JOSHI, Mukul; PUNERA, Kunal; PENNOCK, David (2002): The
Structure of Broad Topics on the Web. In: Proceedings of the Eleventh International
World Wide Web Conference (WWW 2002), Honolulu, Hawaii. 7.-11.Mai.
http://www2002.org/CDROM/refereed/338/ (verifiziert am 15.06.2004)
CHAN, Philip (2000): Constructing Web User Profiles: A Non-invasive Learning
Approach. In: MASAND & SPILIOPOULOU 2000. S. 39-55.
CHEN, Zheng; LIU, Shengping; WEBYIN, Liu; PU, Geguang; MA, Wei-Ying (2003):
Building a Web Thesaurus from Web Link Structure. In: Proceedings of the 26th
Annual International ACM SIGIR Conference (SIGIR 2003) Toronto. Juli 2003. S.
48-55. http://research.microsoft.com/~zhengc/papers/p14325-chen.pdf (verifiziert am
11.05.2004)
CHI, Ed H.; PITKOW, James; MACKINLAY, Jock; PIROLLI, Peter, GOSSWEILER, Rich; CARD,
Stuart K. (1998): Visualizing the Evolution of Web Ecologies. In: Proceedings of the
ACM Conference on Human Factors in Computing Systems (CHI ‘ 98), Los
Angeles, USA. S. 400-407
CHI Ed H.; PIROLLI, Peter; PITKOW, James (2000): The Scent of a Site: A System for
Analyzing and Predicting Information Scent, Usage, and Usability of a Web Site. In:
Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI
‘00), Amsterdam. April 2000. S. 161-168.
CHI, Ed. H.; ROSIEN, Adam; SUPATTANASIRI, Gesara; WILIAMS, Amanda; ROYER,
Christiaan; CHOW, Celia; ROBLES, Erics; DALAL, Brinda; CHEN, Julie; COUSINS,
324
Steve (2003): The Bloodhound Project: Usability Issues Using the InfoScentTM
Simulator. In: Proceedings of the ACM Conference on Human Factors in Computing
Systems (CHI ´03), Ft. Lauderdale, USA. S. 505-512.
CHIEN, Steve; DWORK, Cynthia; KUMAR, Ravi; SIVAKUMAR, D. (2001): Towards
Exploiting Link Evolution. In: Proceedings of the Workshop on Algorithms and
Models for the Web Graph. http://citeseer.ist.psu.edu/chien01towards.html (verifiziert am 21.05.2004).
CHOO, Chun Wei; DETLOR, Brian; TURNBULL, Don (2000): Web Work: Information
Seeking and Knowledge Work on the World Wide Web. Kluwer: Dordrecht et al.
CONSTANTOPOULOS, Panos; SOLVBERG, Ingeborg (Hrsg.): Fifth European Conference on
Research and Advanced Technology for Digital Libraries (ECDL 2001), Darmstadt,
Sept. 4.-8. Berlin et al.: Springer [Lecture Notes in Computer Science 2163].
COOKE, Alison (1999): Authoritative Guide to Evaluating Information on the Internet. New
York & London: Neal-Schuman.
COOLEY, R.; MOBASHER, B.; SRIVASTAVA, J. (1997): Web Mining: Information and
Pattern Discovery on the World Wide Web. In: Proceedings of the Ninth IEEE
International Conference on Tools with Artificial Intelligence (ICTAI'97).
http://maya.cs.depaul.edu/~mobasher/webminer/survey/survey.html
COOLEY, Robert; TAN, Pang-Ning; SRIVASTAVA, Jaideep (2000): Discovery of Interesting
usage Patterns from Web Data. In: MASAND & SPILIOPOULOU 2000. S. 163-182.
CRASWELL, Nick; HAWKING, David (2002): Overview of the TREC-2002 Web Track. In:
VOORHEES & BUCKLAND 2002.
DE LA CRUZ, Tatiana (2003): Kulturelle Unterschiede bei der Bewertung von InternetAngeboten. Magisterarbeit, Universität Hildesheim.
DAVE, Kushal; LAWRENCE, Steve; PENNOCK, David (2003): Mining the Peanut Gallery:
Opinion Extraction and Semantic Classification of Product Reviews. In: Proceedings
of the Twelfth International World Wide Web Conference (WWW 2003), Budapest.
20.-24. Mai. S. 519-528.
http://www2003.org/cdrom/papers/refereed/p451/package/p451-dave.html
DAVENPORT, Elisabeth; BUCKNER, Kathy (1998): SO-grams: a personal visualisation
toolkit for intranet users. In: ZIMMERMANN, HARALD; SCHRAMM, Volker (Hrsg.):
Knowledge Management und Kommunikationssysteme: Workflow Management,
Multimedia, Knowledge Transfer. Proceedings 6. Intl. Symposium für Informationswissenschaft. (ISI ´98). 3.-7.11.98, Karlsuniversität Prag. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft Bd. 34]. S. 67-79.
DAVISON, B. (1999): Adaptive Web Prefetching. In: Proceedings of the Second Workshop
on Adaptive Systems and User Modeling on the World Wide Web, Toronto. S. 105106. http://citeseer.nj.nec.com/davison99adaptive.html (verifiziert am 24.10.2001)
DAVISON, Brian (2000): Recognizing Nepotistic Links on the Web. In: Proceedings of the
AAAI 2000 Workshop on Artificial Intelligence for Web Search, Austin, TX. 30.
Juli. S.23-28. http://citeseer.nj.nec.com/davison00recognizing.html (verifiziert am
19.10.2001)
DAVISON, Brian (2003): Toward a Unification of Text and Link Analysis. In: Proceedings
of the 26th Annual International ACM SIGIR Conference, Toronto. Juli, 2003. S.
325
367-368. http://www.cse.lehigh.edu/~brian/pubs/2003/sigir/poster.pdf (verifiziert am
11.05.2004)
DEAN, Jeffrey; HENZINGER, Monika (1999): Finding Related Pages in the World Wide
Web. In: Computer Networks vol. 31 (11-16). S. 1467-1479.
DHYANI, Devanshu; NG, Wee; BHOWMICK, Sourav (2002): A Survey of Web Metrics. In:
ACM Coumputing Surveys, vol. 34 (4) S. 469-503.
DILL, Stephan; KUMAR, Ravi; MCCURLEY, Kevin; RAJAGOPALAN, Sridhar; SIVAKUMAR,
D.; TOMKINS, Andrew (2001): Self-Similarity in the Web. In: Proceedings of the 27th
International Conference on Very Large Databases (VLDB 2001)
DIN 66272 (1994): Informationstechnik - Bewertung von Software-Produkten – Qualitätsmerkmale und Leitfaden zu ihrer Verwendung. Deutsches Institut für Normung.
DIN EN ISO 14915-3 (2002): Software-Ergonomie für Multimedia-Benutzungsschnittstellen. Teil 3: Auswahl und Kombination von Medien. April 2003. Deutsches
Institut für Normung.
DIN EN ISO 9241-10 (2004): Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten. Teil 10: Grundsätze der Dialoggestaltung. Deutsches Institut für
Normung.
DUSTIN, Elfriede; RASHKA, Jeff; MCDIARMID, Douglas (2002): Quality Web Systems:
Performance, Security, and Usability. Addison-Wesley: Boston et al.
VAN DUYNE, Douglas; LANDAY, James; HONG, Jason (2003): The Design of Sites. Boston
et al.: Addison-Wesley.
EDELMANN, Walter (20006): Lernpsychologie. Weinheim: Beltz.
EFE, Kemal; RAGHAVAN, Vijay; CHU, Henry; BROADWATER, Adrienne; BOLELLI, Levent;
ERTEKIN, Seyda (2000): The Shape of the Web and Its Implications for Searching the
Web. In: Proceedings of the International Conference on Advances in Infrastructure
for Electronic Business, Science, and Education on the Internet.
http://citeseer.nj.nec.com/efe00shape.html (verifiziert am 15.06.2004)
EIBL, Maximilian; MANDL, Thomas (2004): Die Qualität von Visualisierungen: Eine
Methode zum Vergleich zweidimensionaler Karten. In: LEHNER, Christoph; OHLY,
H. Peter; RAHMSDORF, Gerhard. Wissensorganisation und Edutainment: Wissen im
Spannungsfeld von Gesellschaft, Gestaltung und Industrie. Proceedings der 7.
Tagung der Deutschen Sektion der Internationalen Gesellschaft für Wissensorganisation (ISKO), Berlin, 21.-23. März 2001. ERGON: Würzburg [Fortschritte in
der Wissensorganisation 7] S. 89-115.
ETGEN, Michael; CANTOR, Judy (1999): What Does Getting WET (Web Event-logging
Tool) Mean for Web Usability? In: Proceedings of the fifth Conference on Human
Factors & the Web (HFWEB), Maryland. 3. Juni.
http://zing.ncsl.nist.gov/hfweb/proceedings/etgen-cantor/index.html (verifiziert am
06.07.2001)
EVANS, Michael; WALKER, Andrew (2004): Using the Web Graph to influcene application
behaviour. In: Internet Research vol. 14 (5). S. 372-378.
FACHGRUPPE IR (1996): Fachgruppe Information Retrieval.
http://www.is.informatik.uni-duisburg.de/fgir/mitgliedschaft/brochure2.html
FAGIN, Ronald; KUMAR, Ravi; MCCURLEY, Kevin; NOVAK, Jasmine; SIVAKUMAR, D.;
TOMLIN, John, WILLIAMSON, David (2003): Searching the Worksplace Web. In:
326
Proceedings of the Twelfth International World Wide Web Conference (WWW
2003), Budapest. 20.-24. Mai. S. 366-375.
http://www2003.org/cdrom/papers/refereed/p641/xhtml/p641-mccurley.html
(verifiziert am 09.09. 2003)
FAYYAD, Usama; UTHURUSAMY, Ramasamy (1996): Data Mining and Knowledge
Discovery in Databases. In: Communications of the ACM, Vol. 39, Nr.11. S. 24.
FAYYAD, Usama (1997): Editorial. In: Data Mining and Knowledge Discovery, Vol. 1, Nr.
1. S. 5-10.
FETTERLY, Dennis; MANASSE, Mark; NAJORK, Marc; WIENER, Janet (2003): A Large-Scale
Study of the Evolution of Web Pages. In: Proceedings of the Twelfth International
World Wide Web Conference (WWW 2003), Budapest. 20.-24. Mai. S. 669-678.
http://www2003.org/cdrom/papers/refereed/p097/P97%20sources/p97-fetterly.html
FINN, Aidan; KUSHMERICK, Nicholas; SMYTH, Barry (2001): Fact or Fiction: Content
Classification for Digital Libraries. In: Second DELOS Network of Excellence
Workshop on Personalisation and Recommender Systems in Digital Libraries,
Dublin City University, Ireland. 18.-20. Juni 2001.
http://www.ercim.org/publication/ws-proceedings/DelNoe02/AidanFinn.pdf
FLAKE, G.W.; LAWRENCE, Steve; GILES, C. Lee (2000): Efficient Identification of Web
Communities. In: Proceedings of the Sixth International Conference on Knowledge
Discovery and Data Mining, Boston. 20.-23. August 2000. S. 150-160.
FOGG, B.J.; SWANI, Preeti; TREINEN, Marissa; MARSHALL, Jonathan; LARAKI, Othman;
OSIPOVICH, Alex; VARMA, Chris; FANG, Nicholas; PAUL, Jyoti; RANGNEKAR,
Akshay; SHON, John (2001): What Makes Web Sites Credible? A Report on A Large
Quantitative Study. In: Proceedings of the ACM Conference on Human Factors in
Computing Systems (CHI ‘01). S. 61-68.
FOGG, B.J.; MARABLE, Leslie; STANFORD, Julianne; TAUBER, Ellen R. (2002): How Do
People Evaluate A Web Site’s Credibility? Results From A Large Study. In:
Consumer Web Watch.
http://www.consumerwebwatch.org/news/report3_credibilityresearch/stanfordPTL_T
OC.htm (verifiziert am 11.05.2004)
FOLTZ, P.W.; KLINTSCH, W.; LANDAUER, T.K. (1998): The Measurement of Textual
Coherence with Latent Semantic Analysis. In: Discourse Processes, Vol. 25, Nr.
2&3. S. 285-307.
FOLTZ, P.W.; LAHAM, Darrell; LANDAUER, Thomas K. (1999): The Intelligent Essay
Assessor: Applications to Educational Technology. In: Interactive Multimedia
Electronic Journal of Computer-Enhanced Learning, Oct.1999, Vol. 1, Nr. 2. Wake
Forest University. http://imej.wfu.edu/articles/1999/2/04/printver.asp (verifiziert am
02.10.2001)
FRANCO, Adrienne; PALLADINO, Richard (1999): Finding Quality Information on the
World Wide Web. In: Proceedings of the Tenth Annual Conference on the International Information Management Association.
http://www.iona.edu/faculty/afranco/iima/webliog.htm (verifiziert am 15.06.2004)
FRIES, Christian (2002): Mediengestaltung. Leipzig: Fachbuchverlag.
327
FRITCH, John W.; CROMWELL, Robert L. (2001): Evaluating Internet Resources: Identity,
Affiliation, and Cognitive Authority in a Networked World. In: Journal of the
American Society for Information Science and Technology, vol. 52 (6) S.499-507.
FRÖHLICH, Gerhard (2000): Online Informationsvorenthaltung als Strategem wissenschaftlicher Kommunikation. In: ZIMMERMANN, Harald; SCHRAMM, Volker (Hrsg.):
Knowledge Management und Kommunikationssysteme: Workflow Management,
Multimedia, Knowledge Transfer. Proc. des sechsten Internationalen Symposiums
für Informationswissenschaft. (ISI ´98), Prag. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 34] S. S. 535-549.
FROKJAER, Erik; HERTZUM, Morten; HORNBÆK, Kasper (2000): Measuring Usability. In:
‘00), Amsterdam. S. 345-352.
FROMMHOLZ, Ingo (2001): Categorizing Web Documents in Hierarchical Catalogues. In.
Proceedings of the 23rd Colloquium on Information Retrieval Research, Darmstadt.
http://www.ipsi.fraunhofer.de/~frommhol/frommholz_ecir01.pdf
FUHR, Norbert (2005): Information Retrieval Skriptum zur Vorlesung im Sommersemester
2005. http://www.is.informatik.uni-duisburg.de/courses/ir_ss05/folien/irskall.pdf
FUHR, Norbert; GROßJOHANN, Kai (2001): XIRQL: A Query Language for Information
Retrieval in XML Documents. In: Proceedings of the 24th Annual International
Conference on Research and Development in Information Retrieval (SIGIR `01). S.
172-180.
FUHR, Norbert; HANSEN, Preben; MABE, Michael; MICSIK, Andras; SØLVBERG, Ingeborg
(2001): Digital Libraries: A Generic Classfication and Evaluation Scheme. In:
CONSTANTOPOULOS & SØLVBERG 2001. S. 187-199.
FUHR, Norbert; MALIK, Saadia; LALMAS, Mounia (2003): Overview of the INitiative for
the Evaluation of XML Retrieval (INEX 2003) In: INEX 2003 Workshop
Proceedings. http://inex.is.informatik.uni-duisburg.de:2003/workshop.html
FUJII, Atsushi; ISHIKAWA, Tetsuya (2000): Utilizing the World Wide Web as an
Encyclopedia: Extracting Term Descriptions from Semi-Structured Texts. In:
Proceedings 38th Conference of the Association for Computational Linguistics (ACL
2000).
GIBSON, David; KLEINBERG, Jon; RAGHAVAN, Prabhakar (1998): Inferring Web
Communities from Link Topology. In: Proceedings of the Ninth ACM Conference
on Hypertext and Hypermedia.
http://citeseer.nj.nec.com/gibson98inferring.html (verifiziert am 22.04.2004)
GÖVERT, Norbert (1995): Evaluierung eines entscheidungstheoretischen Modells zur
Datenbankselektion. In: FUHR, Norbert; DITTRICH, Gisbert; TOCHTERMANN, Klaus
(Hrsg.): Hypertext - Information Retrieval - Multimedia '97: Theorien, Modelle und
Implementierungen integrierter elektronischer Informationssysteme (HIM'97)
Dortmund, 29.9.-2.10.1997, Proceedings. Konstanz: Universitätsverlag. S. 135-146.
GÖVERT, Norbert; KAZAI, Gabriella (2002): Overview of the Initiative for the Evaluation
of XML retrieval (INEX) 2002 In: Proceedings of the First Workshop of the
INitiative for the Evaluation of XML Retrieval (INEX).
http://qmir.dcs.qmul.ac.uk/inex/ (verifiziert am 17.02.2005)
328
GRAHAM, Leah; METAXAS, Panagiotis Takis (2003): “OF COURSE IT’S TRUE; I SAW
IT ON THE INTERNET!”: Critical Thinking in the Internet Era. In:
Communications of the ACM 46 (5). S. 71-75.
GRAVANO, Luis (2000): Characterizing Web Resources for Improved Search. In:
Proceedings of the First DELOS Network of Excellence Workshop. Information
Seeking, Searching and Querying in Digital Libraries, Zürich. 11.-12. Dezember.
http://citeseer.ist.psu.edu/gravano00characterizing.html (verifiziert am 21.05.2004)
GRIESBAUM, Joachim (2003): Unbeschränkter Zugang zu Wissen? Leistungsfähigkeit und
Grenzen von Suchdiensten im Web: Zwischen informationeller Absicherung und
manipulierter Information. In: SCHMIDT, Ralph (Hrsg.): Competence in Content:
Proceedings 25. Online-Tagung der DGI. Frankfurt, M., S. 37-50.
GRIESBAUM, Joachim; RITTBERGER, Marc; BEKAVAC, Bernard (2002): Deutsche
Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de. In:
HAMMWÖHNER, Rainer; WOLFF, Christian; WOMSER-HACKER, Christa (Hrsg.): Information und Mobilität: Optimierung und Vermeidung von Mobilität durch Information. Proceedings 8. Intl. Symposium für Informationswissenschaft. (ISI 2002). 7.10.10.2002, Regensburg. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 40] S. 201-224
GUAN, Tao; WONG, Kam Fai (1999): KPS – A Web Information Mining Algorithm. In:
Proceedings of the Eighth International World Wide Web Conference (WWW8).
http://www8.org./w8-papers/4a-search-mining/kps/kps.html
GUDIVADA, Venkat; RAGHAVAN, Vilay; GROSKY, Wiliam; KASANAGOTTU, Rajesh (1997):
Information Retrieval on the World Wide Web. In: IEEE Internet Computing.
Sept./Okt. S. 58-68.
GÜDLER, Jürgen (1996): Dynamik der Medienforschung. Bonn: Informationszentrum
Sozialwissenschaften [Forschungsberichte 1].
GURRIN, C.; SMEATON, Alan (2001): Dublin City University Experiments in Connectivity
Analysis for TREC-9. In: VOORHEES & HARMAN 2001.
HAM, Fredric; KOSTANIC, Ivica (2001): Principles of Neurocomputing for Science &
Engineering. McGraw-Hill: New York et al.
HAMDORF, Kai (2004): Jenseits von Google: Erschließung und Recherche von InternetAngeboten durch Webkataloge. In: Information - Wissenschaft und Praxis vol. 55(4)
S. 221-224.
HAMMWÖHNER, Rainer (2000): Transrouter Revisited – Decision Support in the Routing of
Translation Projects. In: KNORZ & KUHLEN 2000. S. 49-70.
HARABAGIU, Sanda; MOLDOVAN, Dan (2003): Question Answering. In: The Oxford
Handbook of Computational Linguistics. Oxford; New York: Oxford University
Press.
HAVELIWALA, Taher (2002): Topic-Sensitive PageRank. In: Proceedings of the Eleventh
International World Wide Web Conference 2002 (WWW 2002), Honolulu, Hawaii.
7.-11.Mai. http://www2002.org/CDROM/refereed/127/ (verifiziert am 15.06.2004)
HAWKING, David (2000): Overview of the TREC-9 Web Track. In: VOORHEES & HARMAN
2000.
HAYKIN, Simon (1999): Neural Networks: A Comprehensive Foundation. London et al.
329
HEIDMANN, Frank; ZIEGLER, Jürgen (2002): WebSCORE – A Structured Method for
Evaluating Web Applications. In: Proceedings Work With Display Units (WWDU).
http://www.hci.iao.fraunhofer.de/fileadmin/user_upload/HeidmannZiegler2002_Web
Score.pdf (verifiziert am 09.09.2003)
HELLWEG, Heiko; KRAUSE, Jürgen; MANDL, Thomas; MARX, Jutta; MÜLLER, Matthias
N.O.; MUTSCHKE, Peter; STRÖTGEN, Robert (2001): Treatment of Semantic
Heterogeneity in Information Retrieval. IZ-Arbeitsbericht, Nr. 23, IZ Sozialwissenschaften, Bonn.
http://www.gesis.org/Publikationen/Berichte/IZ_Arbeitsberichte/index.htm#ab23
HENZINGER, Monika (2000): Link Analysis in Web Information Retrieval. In: Bulletin of
the IEEE Computer Society Technical Committee on Data Engineering, Vol. 23,
Nr.3. S. 3-8.
HENZINGER, Monika; MOTWANI, R.; SILVERSTEIN, C. (2002): Challenges in Web Search
Engines. In: ACM SIGIR Forum 36 (2) S. 11-22.
HOFSTEDE, Geert; HOFSTEDE, G.J. (2005): Cultures and Organizations: Software of the
Mind. 2., erw. und überarb. Aufl. New York: McGraw-Hill.
HOTHO, Andreas; NÜRNBERGER, Andreas; PAAß, Gerhard (2005): A Brief Survey of Text
Mining. In: LDV Forum, vol. 20. S. 19-62.
HUANG, Kuan-Tsae; LEE, Yang; WANG, Richard (1999): Quality Information and
Knowledge. Upper Saddle River, NJ.: Prentice Hall.
HUBERMAN, Bernardo (2001): The Laws of the Web: Patterns in the Ecology of
Information. Cambridge, London: MIT Press.
HUBERMAN, Bernardo; PIROLLI, Peter; PITKOW, James; LUKOSE, Rajan (1998): Strong
Regularities in World Wide Web Surfing. In: Science 280 (3. April). S. 95-97.
INGWERSEN, Peter (1994): Polyrepresentation of Information Needs and Semantic Entities.
Elements of a Cognitive Theory for Information Retrieval Interaction. In:
Proceedings of the 17th Annual International ACM SIGIR Conference on Research
and Development in Information Retrieval, New York, USA. S. 101-110.
INO, Hidehiko; KUDO, Mineichi; NAKAMURA, Atsuyoshi (2005): Partitioning of Web
Graphs by Community Topology. In: Proceedings International World Wide Web
Conference (WWW 2005) Chiba, Japan. 10.-14. Mai. S. 661-669.
ISO 8402 (1986): Qualitätsmanagement und Qualitätssicherung; Begriffe. International
Oranization for Standardization.
IVORY, Melody; SINHA, Rashmi (2000): Empirically Validated Web Page Design Metrics.
In: Proceedings of the ACM Conference on Human Factors in Computing Systems
(CHI ‘00), Amsterdam.
http://citeseer.nj.nec.com/381858.html (verifiziert am 19.10.2001)
IVORY, Melody; HEARST, Marti (2001): State of the Art in Automatic Usability Evaluation
of User Interfaces. In: ACM Computing Surveys, vol. 33 (4) S. 470-516.
IVORY, Melody; HEARST, Marti (2002): Statistical Profiles of Highly-Rated Sites. In:
2002), Mineapolis, USA. 20.-25. April.
JANSEN, Dorothea (2003): Einführung in die Netzwerkanalyse : Grundlagen, Methoden,
Forschungsbeispiele. Opladen: Leske + Budrich. 2., erw. Aufl.
330
JARDINE, Serena (1997): Information Quality: Is the Truth Out There? Fenton University
of North Carolina. http://www.ils.unc.edu/~fents/310/ (verifiziert am 05.03.2004)
JÄRVELIN, Kalervo; KEKÄLÄINEN, Jaana (2002): Cumulated Gain-Based Evaluation of IR
Techniques. In: ACM Transactions on Information Systems (ACM TOIS), Vol. 20,
Nr. 4, S.422-446. http://www.info.uta.fi/tutkimus/fire/archive/KJJK-nDCG.pdf
JEH, Glen; WIDOM, Jennifer (2003): Scaling Personalized Web Search. In: Proceedings of
the Twelfth International World Wide Web Conference (WWW 2003), Budapest.
20.-24. Mai. S. 271-279.
http://www2003.org/cdrom/papers/refereed/p185/html/p185-jeh.html
JOACHIMS, Thorsten (2002): Optimizing Search Engines Using Clickthrough Data. In:
Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, Edmonton, Alberta, Kanada. Juli 2002.
http://www.cs.cornell.edu/People/tj/publications/joachims_02c.pdf
KAMVAR, Sepandar; HAVELIWALA, Taher; MANNING, Christopher; GOLUB, Gene (2003):
Extrapolation Methods for Accelerating PageRank Computations. In: Proceedings of
the Twelfth International World Wide Web Conference (WWW 2003), Budapest.
20.-24. Mai. S. 261-270.
http://www2003.org/cdrom/papers/refereed/p270/kamvar-270-xhtml/index.html
KANOVSKY, Igor; MAZOR, Shaul (2003): Stochastic Processes for Web-like Graph
Generation. In: Poster Proceedings of the Twelfth International World Wide Web
Conference (WWW 2003), Budapest. 20.-24. Mai.
http://www2003.org/cdrom/papers/poster/p125/P125-kanovsky.htm (verifiziert am
05.03. 2004) [CDROM]
KARLGREN, Jussi; BRETAN, Ivan; DEWE, Johan; HALBERG, Anders; WOLKERT, Niklas
(1998): Iterative Information Retrieval Using Fast Clustering and Usage-Specific
Genres. In: Proceedings of the Eighth DELOS Workshop on User Interfaces in
Digital Libraries, Långholmen. Oktober 1998. S. 85-92.
http://www.sics.se/~jussi/Papers/1998_Delos_Laangholmen/dropjaw_delos.pdf
KARLGREN, Jussi; BRETAN, Ivan; DEWE, Johan; HALBERG, Anders; WOLKERT, Niklas
(1998): Web-Specific Genre Visualization: In: WebNet '98, Orlando, Florida.
November 1998.
http://www.sics.se/~jussi/Papers/1998_WebNet_DropJaw/dropjaw_webnet98.pdf
KATZ, David (19694): Gestaltpsychologie. Basel & Stuttgart: Schwabe.
KAZAI, Gabriella; GÖVERT, Norbert ; LALMAS, Mounia; FUHR, Norbert (2003): The INEX
Evaluation Initiative. In: BLANKEN, Henk; GRABS, Torsten; SCHEK, Hans-Jörg;
SCHENKEL, Ralph; WEIKUM, Gerhard (Hrsg.): Intelligent Search on XML Data.
Berlin: Springer [LNCS 2818] S. 279-293.
KESSLER, Brett; NUNBERG, Geoffrey; SCHÜTZE, Hinrich (1997): Automatic Detection of
Text Genre. In: Proceedings of the 35th ACL/ 8th EACL Conference, Madrid. 7.-12.
Juli. S. 32-38. http://arxiv.org/PS_cache/cmp-lg/pdf/9707/9707002.pdf (verifiziert
am 28.04.2004)
331
KIM, Sea Woo; CHUNG, Chin-Wan (2001): Web Document Ranking by Differentiated
Expert Group Evaluation. In: Proceedings HCI 9th International Conference on
Human-Computer Interaction, New Orleans. August 2001. Mahwah, NJ; London:
Lawrence Erlbaum Associates.
KLAS, Claus-Peter; FUHR, Norbert (2000): A New Effective Approach for Categorizing
Web Documents. In: Proceedings of the 22nd BCS-IRSG Colloquium on IR Research
(ECIR). http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/Klas_Fuhr:00.ps.gz
KLEINBERG, Jon (1998): Authoritative Sources in a Hyperlinked Environment. In:
Proceedings of the Ninth ACM-SIAM Symposium on Discrete Algorithms, San
Francisco, USA. Jan 1998. S. 668-677.
http://citeseer.ist.psu.edu/kleinberg99authoritative.html (verifiziert am 05.05.2004)
KLUCK, Michael; MANDL, Thomas; WOMSER-HACKER, Christa (2002): CLEF: Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren. In: nfd Information – Wissenschaft und Praxis, vol. 53 (2) S. 82-89.
KNORZ, Gerhard; KUHLEN, Rainer (Hrsg.): Informationskompetenz - Basiskompetenz in
der Informationsgesellschaft. Proceedings des siebten Internationalen Symposiums
für Informationswissenschaft. (ISI 2000), Darmstadt. 8.-10.11.2000. Konstanz:
Universitätsverlag [Schriften zur Informationswissenschaft Bd. 38]
KOBAYASHI, Mei; TAKEDA, Koishi (2000): Information Retrieval on the Web. In: ACM
Computing Surveys (CSUR), vol. 32 (2) S. 144-173.
http://citeseer.ist.psu.edu/kobayashi00information.html (verifiziert am 13.09.2004)
KOHRS, Arnd; MERIALDO, Bernard (1999): Improving Collaborative Filtering with
Multimedia Indexing Techniques to Create User-Adapting Web Sites. In:
Proceedings of the Seventh ACM International Conference on Multimedia (Part 1),
Orlando, Florida, USA. 30. Oktober - 5. November. S. 27-36. http://www.kom.etechnik.tu-darmstadt.de/acmmm99/ep/kohrs/ (verifiziert am 15.06.2004)
KOIVUNEN, Marja-Riitta; MILLER, Eric (2001): W3C Semantic Web Activity. In:
Proceedings of the Semantic Web Kick-off Seminar Finland Nov 2, 2001. preprint
http://www.w3.org/2001/12/semweb-fin/w3csw
KÖLLE, Ralph; MANDL, Thomas; SCHNEIDER, René; STRÖTGEN, Robert (2004): Weiterentwicklung des virtuellen Bibliotheksregal MyShelf mit semantic web Technologie:
Erste Erfahrungen mit informationswissenschaftlichen Inhalten. In: OCKENFELD,
Marlies (Hrsg.): Information Professional 2011: Strategien – Allianzen – Netzwerke.
Proceedings 26. DGI Online-Tagung. Frankfurt a.M. 15.-17. Juni. S. 111-124.
KOPPEL, Moshe; AKIVA, Navot; DAGAN, Ido (2003): A Corpus-Independent Feature Set
for Style-Based Text Categorization. In: Workshop Doing It With Style im Rahmen
der International Joint Conference on Artificial Intelligence (IJCAI)
http://ir.iit.edu/~argamon/style2003/StyleWorkshop2003.pdf
(verifiziert am 21.02.2005) S. 61-67.
KRAAIJ, Wessel; WESTERVELD, Thijs (2000): TNO/UT at TREC-9: How Different are
Web Documents? In: VOORHEES & HARMAN (2000): TREC 9, S. 665-671.
http://trec.nist.gov/pubs/trec9/papers/tno-ut.pdf (verifiziert am 09.03.2004)
KRALISCH, Annett; BERENDT, Bettina (2004): Cultural Determinants of Search Behaviour
Websites. In: EVERS, Vanessa; DEL GALDO, Elisa; CYR, Dianne; BONANNI, Carole
(eds.): Designing for Global Markets 6: Proceedings Sixth International Workshop
332
on Internationalization of Products and Systems (IWIPS 2004) 8-10 July, Vancouver.
S. 61-74.
KRUSCHWITZ, Udo (2001): Exploiting Structure for Intelligent Web Search. In:
Proceedings of the 34th Annual Hawaii International Conference on System Sciences
(HICSS 34), Maui, Hawaii. 03.-06 Januar 2001. vol. 4.
http://citeseer.ist.psu.edu/kruschwitz01exploiting.html (verifiziert am 21.05. 2004)
KUHLEN, Rainer (1999): Die Konsequenzen von Informationsassistenten: Was bedeutet
informationelle Autonomie oder wie kann Vertrauen in elektronische Dienste in
offenen Informationsmärkten gesichert werden? Frankfurt a.M.: Suhrkamp.
KUHLEN, Rainer (2000): Ambivalenz von Filter-, Abblock- und Rating-Verfahren. In:
KUBICEK ET AL. (Hrsg): Global @home. Informations- und Dienstleistungsstrukturen
der Zukunft. Jahrbuch Telekommunikation und Gesellschaft 2000. Hüthig Verlag
Heidelberg. S. 371-384.
KUHLEN, Rainer; HESS, Michael (1993): Passagen-Retrieval - auch eine Möglichkeit der
automatischen Verknüpfung in Hypertexten. In: KNORZ, Gerhard; KRAUSE, Jürgen;
WOMSER-HACKER, Christa (Hrsg.): Information Retrieval '93: Von der Modellierung
zur Anwendung, Proceedings der 1. Tagung Information Retrieval '93, Regensburg,
13.-15. September 1993. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 12] S. 100-115.
LAN, Bin; BRESSAN, Stéphane; OOI, Beng Chin; TAY, Y. (2000): Making Web Servers
Pushier. In: MASAND & SPILIOPOULOU 2000. S. 112-125.
LARKEY, Leah (1998): Automatic Essay Grading Using Text Categorization Techniques.
In: Proceedings of the 21st Annual Intl ACM SIGIR Conference on Research and
Development in Information Retrieval, Melbourne, Australien. S. 90-95.
LAWRENCE, Steve; GILES, C. Lee; BOLLACKER, Kurt (1999): Digital Libraries and
Autonomous Citation Indexing. In: IEEE Computer 32 (6) S. 67-71.
LEE, Jungwon; KIM, Jinwoo; MOON, Jae Yun (2000): What Makes Internet Users Visit
Cyber Stores Again? Key Design Factors for Customer Loyalty. In: Proceedings of
the ACM Conference on Human Factors in Computing Systems (CHI ’00),
Amsterdam. S. 305-312.
LEE, Chung-Hong; YANG, Hsin-Chang (1999): A Web Text Mining Approach Based on
Self-Organizing Map. In: Proceedings of the Second International Workshop on Web
Information and Data Management (WIDM ’99), Kansas City, USA. S. 59-62.
LEE, Yong-Bae; MYAENG, Sung Hyon (2002): Text Genre Classification with GenreRevealing and Subject-Revealing Features. In: Proceedings of the Annual
Retrieval (SIGIR 2002), Tampere, Finnland. S. 145-150.
LEFFORD, Nyssim; OZKAR, Mine (2003): Modal Relationships as Stylistic Features. In:
Workshop Doing It With Style im Rahmen der International Joint Conference on
Artificial Intelligence (IJCAI)
http://ir.iit.edu/~argamon/style2003/StyleWorkshop2003.pdf
(verifiziert am 21.02.2005) S. 11-18.
LEMPEL, R.; MORAN, S. (2000): The Stochastic Approach for Link-Structure Analysis
(SALSA) and the TKC Effect. In: Proceedings of the Ninth International WWW
Conference. http://www9.org/w9cdrom/175/175.html (verifiziert am 09.03.2004)
333
LEWANDOWSKI, Dirk (2004a): Technologie-Trends im Bereich der WWW-Suchmaschinen. In: OCKENFELD, Marlies (Hrsg.): Information Professional 2011: Strategien – Allianzen – Netzwerke. Proceedings 26. DGI Online-Tagung Frankfurt a.M.
15.-17.6. S. 183-196.
LEWANDOWSKI, Dirk (2004b): Zeitlich beschränkte Abfragen WWW-Suchmaschinen. In:
BEKAVAC, Bernard; HERGET, Josef; RITTBERGER, Marc (Hrsg.): Proceedings 9. Intl.
Symposium für Informationswissenschaft. (ISI 2004). Chur, Schweiz. Konstanz:
Universitätsverlag [Schriften zur Informationswissenschaft 42]. S. 301-316.
LIN, Shian-Hua; SHIH, Chi-Sheng; CHEN, Meng Chang; HO, Jan-Ming (1998): Extracting
Classification Knowledge of Internet Documents with Mining Term Associations: A
Semantic Approach. In: Proceedings of the Annual International ACM Conference
on Research and Development in Information Retrieval (SIGIR ’98), Melbourne,
Australien. S. 241-249.
LIU, Bing; HU, Minqing; CHENG, Junsheng (2005): Opinion Observer: Analyzing and
Comparing Opinions on the Web. In: Proceedings International World Wide Web
Conference (WWW 2005) Chiba, Japan. 10.-14. Mai. S. 342-351.
LÜCK, Wolfgang; RITTBERGER, Werner; SCHWANTNER, Michael (1992): Der Einsatz des
Automatischen Indexierungs- und Retrievalsystems (AIR) im Fachinformationszentrum Karlsruhe. In: KUHLEN, Rainer (Hrsg.): Experimentelles und praktisches
Information Retrieval. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 39]. S. 141-170.
LUGER, George (2001): Künstliche Intelligenz: Strategien zur Lösung komplexer
Probleme. München: Pearson Education.
LUTZ, J.; SCHMID-LUTZ, V. (1993): Getriebediagnose mit Neuronalen Netzen. In:
SCHÖNEBURG, E. (Hrsg): Industrielle Anwendungen Neuronaler Netze. Bonn, Paris
et. al. S. 43-56.
LYNCH, Patrick; HORTON, Sarah (1999): Web Style Guide - Basic Design Principles for
Creating Web Sites.http://info.med.yale.edu/caim/manual (verifiziert am 15.06.2004)
MANDL, Thomas (2001): Tolerantes Information Retrieval: Neuronale Netze zur Erhöhung
der Adaptivität und Flexibilität bei der Informationssuche. Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 39].
MANDL, Thomas (2002): Evaluierung von Internet-Verzeichnisdiensten mit Methoden des
Web-Mining. In: HAMMWÖHNER, Rainer; WOLFF, Christian; WOMSER-HACKER,
Christa (Hrsg.): Information und Mobilität: Optimierung und Vermeidung von
Mobilität durch Information. Proceedings 8. Intl. Symposium für Informationswissenschaft. (ISI 2002). 7.-10.10.2002, Regensburg. Konstanz: Universitätsverlag
[Schriften zur Informationswissenschaft 40] S. 239-257.
MANDL, Thomas (2003): Link Analysis and Site Structure in Information Retrieval. In:
DITTRICH, Klaus; KÖNIG, Wolfgang; OBERWEIS, Andreas; RANNENBERG, Kai;
WAHLSTER, Wolfgang (Hrsg.): Informatik 2003: Innovative Informatikanwendungen.
Beiträge der 33. Jahrestagung der Gesellschaft für Informatik. 29.September –
2.Oktober in Frankfurt am Main. Bonn: Köllen [Lecture Notes in Informatics P-35]
S. 262-267.
MANDL, Thomas; Eibl, Maximilian (2005): An Empirical Assessment of Color Use on the
WWW. In: Human-Computer Interaction: Proceedings 11th International Conference
on Human-Computer Interaction (HCI Intl.): Las Vegas, 22.-27. Juli. Mahwah, NJ;
London: Lawrence Erlbaum Associates.
334
MANDL, Thomas; WOMSER-HACKER, Christa (2000): Ein adaptives Information Retrieval
Modell für Digitale Bibliotheken. In: KNORZ, Gerhard; KUHLEN, Rainer (Hrsg.):
Informationskompetenz - Basiskompetenz in der Informationsgesellschaft. Proc. 7.
Intl. Symposium für Informationswissenschaft. (ISI 00). 8.-10.11., Darmstadt.
Konstanz: Universitätsverlag [Schriften zur Informationswissenschaft 38] S. 1-16.
MANDL, Thomas; WOMSER-HACKER, Christa (2001): Fusion Approaches for Mappings
Between Heterogeneous Ontologies. In: CONSTANTOPOULOS & SØLVBERG 2001. S.
83-94.
MANDL, Thomas; WOMSER-HACKER, Christa (2003): Ontology Switching as Interaction
Technique for the Semantic Web. In: Stephanidis, Constantine (ed.) Universal
Access in HCI: Inclusive Design in the Information Society. Proceedings of the 2nd
Intl. Conf. on Universal Access in Human-Computer Interaction (UAHCI), Crete,
22-27 June 2003. Mahwah, NJ; London: Lawrence Erlbaum Associates. S. 567-571.
MANDL, Thomas; WOMSER-HACKER, Christa (2004): Proper Names in the Multilingual
CLEF Topic Set. In: PETERS ET AL. 2004.
http://clef.iei.pi.cnr.it:2002/2003/WN_web/53.pdf (verifiziert am 17.06.2004)
MARCHAND, Donald (1990): Managing Information Quality. In: WORMELL, Irene (Hrsg.):
Information Quality. Definitions and Dimensions. Proceedings of a NORDINFO
Seminar. Copenhagen. Los Angeles, USA: Taylor Graham. S. 7-17.
MASANÈS, Julien; RAUBER, Andreas (2004) (Hrsg.): 4th International Web Archiving
Workshop (IWAW'04). Bath (UK) http://www.iwaw.net/04/index.html
MASAND, Brij; SPILIOPOULOU, Myra (Hrsg.) (2000): Web Usage Analysis and User
Profiling. WEBKDD ´99 [Lecture Notes in Artificial Intelligence 1836] Springer:
Berlin et al.
MATHEWS, Robert A.J.; MERRIAM, Thomas V.N. (1993): Neural Computation in
Stylometry I: An Application to the Works of Shakespeare and Fletcher. Literary an
Linguistic Computing, Vol. 8, No. 4, 1993, Oxford University Press.
MATSUDA, Katsushi; FUKUSHIMA, Toshikazu (1999): Task-Oriented World Wide Web
Retrieval by Document Type Classification. In: Proceedings of the Eighth
International Conference on Information and Knowledge Management (CIKM ’99),
Kansas City, Missouri, USA. November 1999. S. 109-113.
MATSUMURA, Naohiro; OHSAWA, Yukio; ISHIZUKA, Mitsuru (2001): Discovery of Emerging Topics between Communities on WWW. In: ZHONG ET AL. 2001. S. 473-482.
MATTOX, David; MAYBURY, Mark T.; MOREY, Daryl (1999): Enterprise expert and
knowledge discovery. In: BULLINGER, Hans-Jörg; ZIEGLER, Jürgen (Hrsg.): HumanComputer Interaction: Communication, Cooperation and Application Design.
Proceedings of the HCI International ´99 (Eighth International. Conference on
Human-Computer Interaction), vol. 2, München. 22-27. August 1999. Mahwah, NJ;
London: Lawrence Erlbaum Associates.
MCCABE, Catherine; CHOWDHURY, Abdur; GROSSMANN, David; FRIEDER, Ophir (1999): A
Unified Framework for Fusion of Information Retrieval Approaches. In: Eigth ACM
Conference on Information and Knowledge Management (CIKM). Kansas City,
Missouri. S. 330-334.
MCCRICKARD, Scott (2001): The Effect of Changes in Information Access Times on
Hypertext Choices. In: SMITH, Michael; SALVENDY, Gavriel; HARRIS, Don; KOUBEK,
Richard (Hrsg.): Usability Design and Interface Evaluation: Cognitive Engineering,
335
Intelligent Agents and Virtual Reality. Proceedings of the HCI International 2001
(Ninth International. Conference on Human-Computer Interaction), New Orleans,
Louisiana, USA. August 2001. Vol 1. S. 1086-1090.
MCNAMEE, Paul; MAYFIELD, James (2004): Character N-Gram Tokenization for European
Text Retrieval. In: Information Retrieval, vol. 7 (1,2) S. 73-98.
MEADOW, Charles; YUAN, Weijing (1997): Measuring the Impact of Information: Defining
the Concepts. In: Information Processing & Management, vol. 33 (6). S. 697-714.
MEGHABGHAB, George (2002): Discovering Authorities and Hubs in Different Topological
Web Graph Structures. In: Information Processing and Management, 38. S. 111-140.
MEHLER, Alexander; WOLFF, Christian (2005): Einleitung: Perspektiven und Positionen
des Text Mining. In: LDV Forum, vol. 20. S. 1-18.
MEHRABI (2001): Digital Watermark. In: CONSTANTOPOULOS & SOLVBERG 2001. S. 49-58.
MENCZER, Filippo; PANT, Gautam; SRINIVASAN, Padmini; RUIZ, Miguel (2001):
Evaluating Topic-Driven Web Crawlers. In: Proceedings 24th Annual International
ACM SIGIR Conference on Research and Development in Information Retrieval
(SIGIR 01), New Orleans, Louisiana, USA. S. 241-249.
http://informatics.buffalo.edu/faculty/ruiz/publications/p241-menczer.pdf (verifiziert
am 16.06.2004)
MENDELZON, Alberto; RAFIEI, Davood (2000): What Do the Neighbours Think?
Computing Web Page Reputations. In: IEEE Data Engineering Bulletin, Vol.23,
Nr.3. S. 9-16. http://www.cs.ualberta.ca/~drafiei/papers/bull00.pdf (verifiziert am
16.06.2004)
MICHALSKI, R. S.; KODRATOFF, Y. (1990): Machine Learning. An Artificial Intelligence
Approach. Vol. 3. Morgan & Kaufmann Publishers.
MITCHELL, Tom (1997): Machine Learning. WCB McGraw-Hill: Boston et al.
MIZZARO, Stefano (1997): Relevance: The Whole History. In: JASIS, Vol. 48, Nr. 9. S.
810-832.
MLADENIC, Dunja; GROBELNIK, Marko (1998) Feature selection for clasification based on
text hierarchy. In: Working notes of Learning from Text and the Web, Conference on
Automated Learning and Discovery (CONALD-98)
http://www-ai.ijs.si/MarkoGrobelnik/MarkoGrobelnik.html
MOBASHER, Bamshad; COOLEY, Robert; SRIVASTAVA, Jaideep (2000): Automatic
Personalization Based on Web Usage Mining. In: Communication of the ACM, vol.
43 (8) S. 142-151 .
MONOSTORI, Krisztián; ZASLAVSKY; Arkady; SCHMIDT, Heinz (2000): Document Overlap
Detection System for Distributed Digital Libraries. In: Proceedings of the ACM
Conference on Digital Libraries 2000, San Antonio, USA. S. 226-227.
MUELLER, John Paul (2004): Mining Google Web Services: Building Applications with
Google API. Sybex.
MURAMATSU, Jack; PRATT, Wanda (2001): Transparent Queries: Investigation Users'
Mental Models of Search Engines. In: Proceedings of the 24th Annual International
ACM SIGIR Conference on Research and Development in Information Retrieval
(SIGIR ´01), New Orleans, USA. S. 217-224.
MUTSCHKE, Peter (2001): Enhancing Information Retrieval in Federated Bibliographic
Data Sources Using Author Network Based Stratagems. In: CONSTANTOPOULOS &
SOLVBERG 2001. S. 287-299.
336
NAJORK, Marc; WIENER, Janet (2001): Breadth-First Search Crawling Yields High-Quality
Pages. In: Proceedings of the Tenth International Conference on World Wide Web
(WWW10), Hong Kong, Hong Kong. S. 114-118.
http://www10.org/cdrom/papers/208/ (verifiziert am 16.06.2004)
NAVARRO-PRIETO, Raquel ; SCAIFE, Mike; ROGERS, Yvonne (1999): Cognitive Strategies
in Web Searching. In: Proceedings of the Fifth Conference on Human Factors And
the Web, Gaithersburg, Maryland. 3.Juni.
http://zing.ncsl.nist.gov/hfweb/proceedings/navarro-prieto/index.html (verifiziert am
28.04. 2004)
NEUMANN, Peter; WEINSTEIN, Lauren (1999): Risks of Content Filtering. In: Communication of the ACM, vol. 42 (11) S. 152.
NIE, Jian-Yun; SIMARD, Michel; ISABELLE, Pierre; DURAND, Richard (1999): CrossLanguage Information Retrieval Based on Parallel Texts And Automatic Mining of
Parallel Texts from The Web. In: Proceedings of the Annual International ACM
Conference on Research and Development in Information Retrieval (SIGIR ’99),
Berkeley, USA. S. 74-81.
NIE, Jian-Yun; SIMARD, Michael; FOSTER, George (2001): Multilingual Information
Retrieval Based on Parallel Texts from The Web. In: PETERS, Carol (Hrsg.): CrossLanguage Information Retrieval and Evaluation. Workshop of the Cross-Language
Information Evaluation Forum (CLEF 2000), Lissabon, Portugal. 21.-22. Sept. 2000.
Berlin et al.: Springer [Lecture Notes in Computer Science 2069]. S. 188-201.
NIE, Zaiqing; ZHANG, Yuanzhi; WEN, Ji-Rong; MA, Wei-ying (2005): Object Level
Ranking: Bringing Order to Web Objects. In: Proceedings International World Wide
Web Conference (WWW 2005) Chiba, Japan. 10.-14. Mai. S. 567-574.
NIEDERST, Jennifer (1999): Web Design in a Nutshell. Peking et al.: O’Reilly.
NOTTELMANN, Henrik; FUHR, Norbert (2003): Evaluating Different Methods of Estimating
Retrieval Quality for Resource Selection. In: Proceedings of the 26th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval (SIGIR 2003), New York. S. 290-297. http://www.is.informatik.uniduisburg.de/bib/fulltext/ir/Nottelmann_Fuhr:03a.pdf (verifiziert am 16.08.2004)
OARD, Douglas W.; GONZALO, Julio (2004): The CLEF 2003 Interactive Track. In:
PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.):
Comparative Evaluation of Multilingual Information Access Systems: 4th Workshop
of the Cross-Language Evaluation Forum, CLEF 2003, Trondheim, Norway, August
21-22, Revised Selected Papers. Berlin et al.: Springer [LNCS 3237] S. 425-434
OLIVER, Kevin; WILKINSON, G.; BENNETT, L. (1997): Evaluating the Quality of Internet
Information Sources.
http://it2.coe.uga.edu/Faculty/gwilkinson/webeval.html (verifiziert am 13.9.2004)
OLLERMANN, Frank; HAMBORG, Kai-Christoph; REINECKE, Stefan (2004): Visuelles
Orientierungsverhalten bei der Betrachtung von Internetseiten. In: KEIL-SLAWIK,
Reinhard ; SELKE, Harald; SZWILLUS, Gerd (Hrsg.): Mensch & Computer 2004:
Allgegenwärtige Interaktion. München & Wien: Oldenbourg. S. 85-94.
http://mc.informatik.uni-hamburg.de/konferenzbaende/mc2001/index.html
OLSINA SANTOS, L. (1999): Web-Site Quality Evaluation Method: a Case Study on
Museums. In: Second Workshop on Software Engineering over the Internet
(ICSE`99).
337
http://gidis.ing.unlpam.edu.ar/downloads/pdfs/Olsina_Mus_icse.pdf (verifiziert am
9.3.2005)
OLSINA, L.; GODOY, D.; LAFUENTE, G.J.; ROSSI, G. (2001): Specifying Quality
Characteristics and Attributes for Websites. In: MURUGESAN, San; DESHPANDE,
Yogesh (Hrsg.): Web Engineering, Software Engineering and Web Application
Development. Berlin et al.: Springer [Lecture Notes in Computer Science 2016]. S.
266-278.
OPPERMANN R., MURCHNER B., REITERER H., KOCH M. (1992): Software-ergonomische
Evaluation - Der Leitfaden EVADIS II. Berlin: Walter de Gruyter.
OZTEKIN, Uygar; KARYPIS, George; KUMAR, Vipin (2002): Expert Agreement and Content
Based Reranking in a Meta Search Environment Using Mearf. In: Proceedings of the
Eleventh International World Wide Web Conference 2002 (WWW 2002), Honolulu,
Hawaii. 7.-11.Mai. http://www2002.org/CDROM/refereed/520/ (verifiziert am
09.03.2004)
OZTEKIN, B. Uygar; ERTÖZ, Levent; KUMAR, Vipin (2003): Usage Aware PageRank. In:
Poster Proceedings of the Twelfth International World Wide Web Conference
(WWW 2003), Budapest. 20.-24. Mai.
http://www2003.org/cdrom/papers/poster/p219/p219-oztekin.html
PAGE, Larry; BRIN, Sergey; MOTWANI, R.; WINOGRAD; T. (1998): The PageRank Citation
Ranking: Bringing Order to the Web. Manuscript.
http://citeseer.nj.nec.com/page98pagerank.html (verifiziert am 21.02.2005)
PANTELIC, Martina; PAYER, Sybille (2001): Segen oder Fluch – über Quantität und Qualität
von Informationen: In: nfd Information – Wissenschaft und Praxis, Vol.52, Nr.6. S.
321-326.
PAZZANI, Michael; MURAMATSU, Jack; BILLSUS, Daniel (1996): Syskill & Webert:
Identifying Interesting Web Sites. In: Proceeding of the National Conference on
Artificial Intellgience (AAAI96). Portland, USA.
http://www.ics.uci.edu/~pazzani/RTF/AAAI.html (verifiziert am 11.02.2000)
PAZZANI, Michael; BILLSUS, Daniel (1997): Learning and Revising User Profiles: The
Identification of Interesting Web Sites. In: Machine Learning, Vol.27, Nr.3. S. 313331. http://citeseer.nj.nec.com/pazzani97learning.html (verifiziert am 24.10.2001)
PENNOCK, David; FLAKE, Gary; LAWRENCE, Steve; GLOVER, Eric; GILES, Lee (2002):
Winners Don’t Take All: Characterizing the Competition for Links on the Web. In:
Proceedings of the National Academy of Sciences, April. vol.99 (8). S. 5207-5211.
http://modelingtheweb.com/modelingtheweb.pdf (verifiziert am 09.03.2004)
PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.) (2003):
Evaluation of Cross-Language Information Retrieval Systems. Third Workshop of
the Cross Language Evaluation Forum 2002, Rome. Berlin et al.: Springer [Lecture
Notes in Computer Science 2785].
PETERS, Carol; BRASCHLER, Martin; GONZALO, Julio; KLUCK, Michael (Hrsg.) (2004):
Evaluation of Cross-Language Information Retrieval Systems. Third Workshop of
the Cross Language Evaluation Forum 2003, Trondheim. Berlin et al.: Springer
[Lecture Notes in Computer Science 3237] Preprint:
http://clef.iei.pi.cnr.it:2002/publications.html (verifiziert am 17.06.2004)
338
PIROLLI, Peter; CARD, Stuart (1995): Information Foraging in Information Access
Environments. In: Proceedings of the ACM Conference on Human Factors in
Computing Systems (CHI ´95). S. 51-58.
PIROLLI, Peter; PITKOW, James; RAO, Ramana (1996): Silk from a Sow’s Ear: Extracting
Usable Structures from the Web. In: Proceedings of the ACM Conference on Human
Factors in Computing Systems (CHI ´96).
http://www.acm.org/pubs/articles/proceedings/238386/p118-pirolli/118-pirolli.html
PIROLLI, Peter; GOSSWEILER, Rich; CARD, Stuart; CHI, Ed. H; MACKINLAY, Jock (1998):
Visualizing the Evolution of Web Ecologies. In: Proceedings of the ACM
Conference on Human Factors in Computing Systems (CHI ´98), Los Angeles, USA.
S. 400-407.
http://citeseer.ist.psu.edu/chi98visualizing.html (verifiziert am 16.06.2004)
PITKOW, James (1997): In Search of Reliable Usage Data on the WWW. In: Proceedings of
the Sixth International World Wide Web Conference (WWW6), Santa Clara, USA.
http://decweb.ethz.ch/WWW6/Technical/Paper126/Paper126.html (verifiziert am
09.03.2004)
PLACHOURAS, Vassilis; OUNIS, Iadh (2002): Query-Based Combination of Evidence on the
Web. In: Workshop on Mathematical/Formal Methods in Information Retrieval,
ACM SIGIR Conference, Tampere, Finland.
http://ir.dcs.gla.ac.uk/terrier/publications/query-scope.pdf (verifiziert am 17.05.2003)
PREECE; Jennifer, ROGERS, Yvonne; SHARP, Helen (2002): Interaction Design: beyond
human-computer Interaction. Wiley: Heidelberg.
PRICE, Rosanne; SHANKS, Graeme (2004): A Semiotic Information Quality Framework. In:
IFIP WG 8.3 International Conference on Decision Support Systems (DSS) Prato,
Italien. S. 658-672.
PRICE, Rosanne; SHANKS, Graeme (2005): Empirical Refinement of a Semiotic Information Quality Framework. In: Proceesings 38th Hawaii International Conference on
System Sciences (HICSS). Track 8 - Volume 08. S. 216.1.
PUNTER, Teade; LAMI, Giuseppe (1998): Factors of Software Quality Evaluation - Results
of Two European Surveys. In: ESCOM-ENCRS ’98.
http://citeseer.nj.nec.com/242488.html (verifiziert am 19.10.2001)
QUIRK, Christopher (2004): Training a Sentence-Level Machine Translation Confidence
Measure. In: 4th International Conference on Language Resources and Evaluation
(LREC) Lisbon, Portugal, May 24-30 S. 825-828.
RADFORD, Marie L.; BARNES, Susan B.; BARR, Linda R. (2002): Web Research: Selecting,
Evaluating, and Citing. Boston, MA: Allyn and Bacon.
RAFTER, Rachel; SMYTH, Barry (2001): Towards a Domain Analysis Methodology for
Collaborative Filtering. In: 23rd European Annual Colloquium on Information
Retrieval Research (ECIR) Darmstadt. März 2001. S. 172-185.
RAHM, Erhard (2002): Kurt erklärt: Web Usage Mining. In: Datenbank-Spektrum:
Zeitschrift für Datenbanktechnologie vol. 2 (Heft 3). S. 75-76
RASKUTTI, Bhavani; LECKIE, Christopher (1999): The Evaluation of Criteria for Measuring
the Quality of Clusters. In: Proceedings of the 16th International Joint Conference on
Artificial Intelligence (IJCAI 1999). S. 905-910.
339
RAUBER, Andreas; MÜLLER-KÖGLER, Alexander (2001): Integrating Automatic Genre
Analysis into Digital Libraries. In: Proceedings of the First ACM/IEEE-CS Joint
Conference on Digital Libraries (JCDL`01), Roanoke, USA. 24-28. Juni. S. 1-10.
REGAN, David (2000): Human Perception of Objects. Sunderland, MA, USA: Sinauer.
REISS, Eric (2000): Practical Information Architecture: a hands-on approach to structuring
successful websites. Harlow, England et al.: Addison-Wesley.
RIBEIRO, António; LOPES, Gabriel; MEXIA, João (2000): Using Confidence Bands for
Parallel Texts Alignment. In: Proceedings of the 38th Conference of the Association
for Computational Linguistics (ACL 2000).
RICHARDSON, Matthew; DOMINGOS, Pedro (2002): The Intelligent Surfer: Probabilistic
Combination of Link and Content Information in PageRank. In: Advances in Neural
Information Processing Systems 14. Cambridge, MA: MIT Press. S. 1441-1448.
RICHARDSON, Matthew; DOMINGOS, Pedro (2004): Combining Link and Content
Information in Web Search. In: LEVENE, Mark; POULOVASSILIS, Alexandra (Hrsg.):
Web Dynamics. Berlin et al.: Springer.
RIEH, Soo Young (2002): Judgement of Information Quality and Cognitive Authority in
the Web. In: Journal of the American Society for Information Science and
Technology, vol. 52 (2) S. 145-161.
RITTBERGER, Marc (1994): Selektion von Online-Datenbanken in einem offenen
Hypertextsystem. In: Rauch, Wolf. (Hrsg.): Mehrwert von Information –
Professionalisierung der Informationsarbeit. Proc. des 4. Intl Symposiums für Informationswissenschaft (ISI '94). Konstanz: Universitätsverlag [Schriften zur
Informationswissenschaft 16] S. 227-237.
RITTBERGER, Marc (1998): Qualität in Elektronischen Marktplätzen. In: First European
Half-Day Conference on Information Quality and Knowledge, 3rd of December
1998, mcm institute, St. Gallen, Switzerland. HSG Universität St. Gallen, S.26-28.
RITTBERGER, Marc (1999): Qualität von Informationsdienstleistungen als Marketinginstrument. In: SCHMIDT, Ralph (Hrsg.): 21. Online-Tagung der DGI. Aufbruch ins
Wissensmanagement. S. 341-354. http://marc.rittberger.de/pubs/olbg99.html
RITTBERGER, Marc (2000): Quality Evaluation of Electronic Communication Fora with
EvalYOUate. In: KLEIN, B. D.; ROSSIN, D. (Hrsg.): Proceedings of the 2000
Conference on Information Quality. M.I.T., S. 137-147.
http://marc.rittberger.ch/pubs/iq2000/iq2000_rittberger.pdf
RITTBERGER, Marc (2001): Quality Measuring with Respect to Electronic Information
Markets and Particularly Online Databases. In: KENT, Alan (Hrsg.): Encyclopedia of
Library and Information Science, Vol. 69, Kapitel 68. S. 274-295. New York, NY:
Marcel Dekker. http://marc.rittberger.de/pubs/elis_rittberger.pdf
ROBERTSON, S.; WALKER, S.; BEAULIEU, M.; GATFORD, M.; PAYNE, A. (1996): Okapi et
TREC–4. In: HARMAN, Donna (Hrsg.): The Fourth Text Retrieval Conference
(TREC-4) NIST Special Publication. S. 182-191.
ROCHA, Luis M. (1999): Talkmine and the Adaptive Recommendation Project. In:
Proceedings of the Fourth ACM Conference on Digital Libraries (DL ’99), Berkeley,
340
USA. 11.-14. August. S. 242-243.
http://www.c3.lanl.gov/~rocha/ps/dl99.pdf (verifiziert am 21.05.2004)
ROSENBERG, Richard (2001): Filtering the Internet in the USA: Free Speech Denied. In:
SPINELLO & TAVANI 2001. S. 163-169.
ROSENFELD, Louis; MORVILLE, Peter (2002): Information Architecture for the World Wide
Web. Peking et al.: O’Reilly. 2. Auflage
ROSSON, Mary Beth; CARROLL, John (2002): Usability Engineering: Scenario-Based
Development of Human-Computer Interaction. San Francisco et al.: MorganKaufman.
RUBIN, Jeffrey (1994): Handbook of Usability Testing. John Wiley: New York et al.
SALTON, Gerard; LESK, Michael (1965): The SMART automatic document retrieval
systems - an illustration. Communications of the ACM 8 (6). S. 391 – 398.
SALTON, Gerard; MCGILL, Micheal J. (1983): Introduction to Modern Information
Retrieval. McGraw-Hill, New York, NY
SAVOY, Jacques; RASOLOFO, Yves (2000): Report on the TREC-9 Experiment: Link-Based
Retrieval and Distributed Collections. In: VOORHEES & HARMAN 2000. S. 579.
SCHEUCH, Karin (1997): Ermittlung von Methoden für die automatische Erkennung von
Firmensrukturen in WWW-Hypertexten. Diplomarbeit, Informationswissenschaft
Universität Konstanz.
SCHILDT, Herbert (2001): JAVA 2. Bonn: Mitp
SCHLÖGL, Christian (2000): Informationskompetenz am Beispiel einer szionometrischen
Untersuchung zum Informationsmanagement. In: KNORZ & KUHLEN 2000. S. 89112.
SHNEIDERMAN, Ben (2000): Designing Trust into Online Experiences. In: Communications
of the ACM, vol. 43 (12) S. 57-59.
SEBASTIANI, Fabrizio (2002): Machine Learning in Automated Text Categorization. In:
ACM Computing Surveys, vol. 34 (1) S. 1-47.
SEMAR, Wolfgang (2005): Development of a benchmark system for analyzing
collaborative group performance as part of an educational online knowledge
management system. In: Proceedings of the 2005 International Conference on
Information and Knowledge Engineering (IKE'05). Las Vegas: CSREA Press. S. 5359. http://www.inf-wiss.uni-konstanz.de/People/WS/ike05-cc.pdf
SIGURBJÖRNSSON, Börkur; KAMPS, Jaap; DE RIJKE, Maarten (2005a): Blueprint of a CrossLingual Web Retrieval Collection. In: Journal of Digital Information Management,
vol. 3 (1) S. 9-13.
SIGURBJÖRNSSON, Börkur; KAMPS, Jaap; DE RIJKE, Maarten (2005b): Overview of
WebCLEF 2005. Erscheint in: Working Notes Cross Language Evaluation Forum
(CLEF) Workshop. Sept. 2005, Wien. http://www.clef-campaign.org
SILVA, Ilmério; RIBEIRO-NETO, Berthier; CALADO, Pável; MOURA, Edleno; ZIVIANI, Nívio
(2000): Link-Based and Content-Based Evidential Information in a Belief Network
Model. In: Proceedings 23rd Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval, Athen. S. 96-103.
http://www.dcc.ufmg.br/~berthier/conference_papers/sigir_2000.pdf (verifiziert am
02.06.2004)
341
SINGHAL, Amit; KASZKIEL, Marcin (2001): A Case Study in Web Search Using TREC
Algorithms. In: Proceeedings of the Tenth World Wide Web Conference (WWW
10). Hong Kong. http://www10.org/cdrom/papers/317/ (verifiziert am 09.03.2004)
SNAPPER, John (2001): On the Web, Plagiarism Matters More than Copyright. In:
SPINELLO & TAVANI 2001. S. 280-294.
SOBOROFF, Ian (2002): Does WT10g Look Like the Web? In: Proceedings 26th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval, Tampere, Finnland. S. 423 f.
SOTO, Rudolfo (1999): Learning and Performing by Exploration: Label Quality Measured
by Latent Semantic Analysis. In: Proceedings of the ACM Conference on Human
Factors in Computing Systems (CHI ’99), Pittsburgh, USA. S.418-425.
SPILIOPOULOU, Myra ; FAULSTICH, Lukas C. ; WINKLER, Karsten (1999): A Data Miner
Analyzing the Navigational Behaviour of Web Users. In: Proceedings of the
Workshop on Machine Learning in User Modelling of the ACAI'99 International
Conference, Kreta, Griechenland. Juli 1999.
SPILIOPOULOU, Myra; POHLE, Carsten; FAULSTICH, Lukas (2000): Improving the
Effectiveness of a Web Site with Web Usage Mining. In: MASAND & SPILIOPOULOU
2000 S. 142-162.
SPINELLO, Richard (2001): An Ethical Evaluation of Web-Site Linking. In: SPINELLO &
TAVANI 2001. S. 295-308.
SPINELLO, Richard; TAVANI, Herman (Hrsg.) (2001): Readings in CyberEthics. Sudbury,
MA et al.: Jones and Bartlett.
SPINK, Amanda; JANSEN, Bernard (2004): Web Search: Public Searching of the Web.
Springer.
SPOOL, Jared; SCANLON, Tara; SCHROEDER, Will; SNYDER, Carolyn; DEANGELO, Terri
(1999): Web Site Usability: A Designer´s Guide. Morgan Kaufman: San Francisco.
SRIKANT, Ramakrishnan; YANG, Yinghui (2001): Mining Web Logs to Improve Website
Organization. In: Proceeedings of the Tenth World Wide Web Conference (WWW
10). Hong Kong.
http://www10.org/cdrom/papers/345/index.html (verifiziert am 24.02.2005)
STRÖTGEN, Robert (2002): Treatment of Semantic Heterogeneity using MetaData
Extraction and Query Translation. In: Proceedings of CRIS 2002: Gaining Insight
from Research Information (Current Research Information Systems) Kassel, 29. - 31.
August S. 41-49. http://www.uni-kassel.de/CRIS2002/files/pdf/Stroetgen.pdf
SULLIVAN, Terry (1997): Reading Reader Reaction: A Proposal for Inferential Analysis of
Web Server Log Files. In: Proceedings of the Third Conference on Human Factors
and the Web (HFWEB). http://www.pantos.org/ts/papers/rrr.html (verifiziert am
28.04.2004)
SUNDARESAN, Neel; YI, Jeonghee (2000): Mining the Web for Relations. In: Proceedings
of the Ninth International World Wide Web Conference on Computer Networks
(WWW 9), Amsterdam. Juni 2000. S. 699-711.
http://www9.org/w9cdrom/363/363.html (verifiziert am 04.08.2001)
THELWALL, Mike (2002): The Top 100 Linked-to Pages on UK University Web Sites:
High Inlink Counts Are Not Usually Associated with Quality Scholarly Content. In:
Journal of Information Science, vol. 28 (6) S. 483-491.
342
THELWALL, Mike (2002): Subject Gateway Sites and Search Engine Ranking. In: Online
Information Review, vol.26 (2) S. 101-107.
THELWALL, Mike (2002): Can Google’s PageRank Be Used to Finds the Most Important
Academic Web Pages? In: Journal of Documentation, vol. 59 (2) S.205-217.
THELWALL, Mike; WILKINSON, David (2003): Graph Structure in Three National
Academic Webs: Power Laws with Anomalies. In: Journal of the American Society
for Information Science and Technology (JASIST), vol. 54 (8) S. 706-712.
THELWALL, Mike; HARRIES, Gareth (2003): The Connection between the Research of
University and Counts of Links to its Web Pages: An Investigation Based upon a
Classification of the Relationship of Pages to the Research of the Host University. In:
Journal of the American Society for Information Science and Technology (JASIST),
vol. 54 (7) S. 594-602.
THISSEN, Frank (2000): Screen Design Handbuch. Berlin et al.. Springer.
THUROW, Shari (2003): Search Engine Visibility. Boston et al.: New Riders.
TOMLIN, John (2003): A New Paradigm for Ranking Pages on the World Wide Web. In:
Proceedings of the Twelfth International World Wide Web Conference (WWW
2003), Budapest. 20.-24. Mai. S. 350-355.
http://www2003.org/cdrom/papers/refereed/p042/paper42_html/p42-tomlin.htm
TOYODA, Masashi; KITSUREGAWA, Masaru (2003): Extracting Evolution of Web
Communities from a Series of Web Archives. In: Proceedings of the Fourteenth
ACM Conference on Hypertext and Hypermedia (HT’03), Nottingham, UK. 26.-30.
August. S. 28-37. http://www.ht03.org/papers/pdfs/4.pdf (verifiziert am 11.05.2004)
TRACTINSKY, Noam (1997): Aesthetics and Apparent Usability: Empirically Assessing
Cultural and Methodological Issues. In: Proc of the ACM Conference on Human
Factors in Computing Systems (CHI ´97) Atlanta, 22.-27. März 1997. S. 115-122.
TROMPENAARS, Fons; HAMPDEN-TURNER, Charles (1997): Riding the Waves of Culture:
Understanding Cultural Diversity in Business. London: Nicholas Brealey.
TSOI, Ah Chung; MORINI, Gianni; SCARSELLI, Franco; HAGENBUCHNER, Markus;
MAGGINI, Marco (2003): Adaptive Ranking of Web Pages. In: Proceedings of the
Twelfth International World Wide Web Conference (WWW 2003) Budapest. 20.-24.
Mai. S. 356-365. http://www2003.org/cdrom/papers/refereed/p820/820-tsoi/820tsoi.html (verifiziert am 09.09.2003)
VEDEER, Anton (2001): KDD, Privacy, Individuality, and Fairness. In: SPINELLO &
TAVANI 2001. S. 404-412.
VOORHEES, Ellen; HARMAN, Donna (2000) (Hrsg.): The Ninth Text Retrieval Conference
(TREC-9). NIST Special Publication 500-249. National Institute of Standards and
Technology. Gaithersburg, Maryland. November 2000.
http://trec.nist.gov/pubs/trec9/t9_proceedings.html (verifiziert am 11.06. 2003)
VOORHEES, (2000): Variations in Relevance Judgements and the Measurement of Retrieval
Effectiveness. In: Information Processing & Management, Vol.36. S. 679-716.
VOORHEES, Ellen; HARMAN, Donna (2001) (Hrsg.): The Tenth Text Retrieval Conference
(TREC 10). NIST Special Publication 500-250. National Institute of Standards and
Technology. Gaithersburg, Maryland. November 2001.
http://trec.nist.gov/pubs/trec10/t10_proceedings.html (verifiziert am 11.06.2003)
343
VOORHEES, Ellen; BUCKLAND, Lori (2002) (Hrsg.): The Eleventh Text Retrieval
Conference (TREC 2002). NIST Special Publication 500-251. National Institute of
Standards and Technology. Gaithersburg, Maryland. November 2002.
http://trec.nist.gov/pubs/trec11/t11_proceedings.html (verifiziert am 11.06.2003)
VOORHEES, Ellen; BUCKLEY, Chris (2002): The Effect of Topic Set Size on Retrieval
Experiment Error. In: Proc. of the Annual Intl ACM Conference on Research and
Development in Information Retrieval (SIGIR ‘02), Tampere, Finland. S. 316-323.
W3C (2005): Web Content Accessibilty Guidelines 2.0 (W3C Working Draft 30 June
2005) http://www.w3.org/TR/WCAG20/
WALTHER, Ralf (2001): Web Mining. In: Informatik Spektrum, vol. 24 (1). S.16-18.
WANG, Yalin; HU, Jianying (2002): A Machine Learning Based Approach for Table
Detection on the Web. In: Proceedings of the Eleventh International World Wide
Web Conference 2002 (WWW 2002), Honolulu, Hawaii. 7.-11. Mai.
http://www2002.org/CDROM/refereed/199/ (verifiziert am 06.04. 2004)
WEICHSELBAUM, Michael (2003): PHP. Rowohlt Taschenbuch.
WEINMAN, LYNDA (2000): WebDesign.2. Zürich: Midas.
WESTRA, R.; SHIPPEN, J.; FREEAR, N. (1999): Printing Quality Control Using Template
Independent NeuroFuzzy Defect Classification. In: ZIMMERMANN, Hans-Jürgen
(Hrsg.): Proceedings of the Seventh European Congress on Intelligent Techniques
and Soft Computing (EUFIT ’99), Aachen. 13.-16. September 1999.
WILKINSON, Gene; OLIVER, Kevin; BENNETT, Lisa (1998): Internet Information Evaluation
Form. University of Georgia.
http://it2.coe.uga.edu/Faculty/gwilkinson/EvalForm.pdf (verifiziert am 06.04.2004)
WITTEN, Ian; FRANK, Eibe (2000): Data Mining: Practical Machine Learning Tools and
Techniques with JAVA Implementations. Morgan Kaufman: San Francisco et al.
WOLFF, Christian (2005): Media Design Patterns: Überlegungen zum Multimedia
Engineering. In: EIBL, Maximilian; WOLFF, Christian; WOMSER-HACKER, Christa
(eds.): Designing Information Systems: Festschrift für Jürgen Krause. Konstanz:
Universitätsverlag [Schriften zur Informationswissenschaft] S. 209-217.
WOMSER-HACKER, Christa (1997): Das MIMOR-Modell. Mehrfachindexierung zur dynamischen Methoden-Objekt-Relationierung im Information Retrieval. Habilitationsschrift. Universität Regensburg, Informationswissenschaft.
XUE, Gui-Rong; ZENG, Hua-Jun; CHEN, Zheng; MA, Wei-Ying; ZHANG, Hong-Jiang; LU,
Chao-Jun (2003): Implicit Link Analysis for Small Web Search. In: Annual
Retrieval (SIGIR 03), Toronto, Canada. 28. Juli – 1. August. S. 56-63.
http://research.microsoft.com/users/hjzeng/p31261-xue.pdf
YANG, K. (2001): Combining Text- and Link-Based Retrieval Methods for Web IR. In:
VOORHEES & HARMAN 2001.
ZADEH, Lofti (1965): Fuzzy Sets. In: Information and Control vol.8. S. 338-353.
ZHONG, Ning; YAo, Yiyu; LIU, Jiming; OHSUGA, Setsuo (Hrsg.): Web Intelligence:
Research and Development. Proceedings First Asia-Pacific Conference (WI 2001)
Maebashi City, Japan. Oktober 2001. Springer: Berlin et al. [Lecture Notes in
Artificial Intelligence 2198]
344
ZHU, Xiaolan; GAUCH, Susan (2000): Incorporating Quality Metrics in Centralized/Distributed Information Retrieval on the World Wide Web. In: Proceedings of the Annual
Retrieval (SIGIR), Athens, Greece. S. 288-295.
ZIMMERMANN, Hans-Jürgen (1999): Valedictory Editorial. In: Fuzzy Sets and Systems,
vol. 100. S. 5-7.
345
346
Anhang
Anhang
Anhang A: Lineares Regressionsmodell für Benutzertest
QUALITY =
-0.0002 * nrOutLinks +
-0.0002 * nrOutLinksSameHost +
-0.3398 * crawlOrder +
-0.0019 * heuristicHierachyLevel +
0.0003 * lengthAddress +
0 * nrDOMElems +
-0.001 * nrPdf +
0.0002 * nrTagTable +
0.0002 * nrTagTd +
-0.0005 * nrTagTr +
0.001 * nrTagH1 +
0.0009 * nrTagH2 +
-0.0019 * nrTagScript +
-0.008 * nrTagStyle +
-0.0002 * nrTextLayoutTags +
0 * nrTagFont +
-0.0004 * linkLabelLengthDev +
-0.0004 * linkLabelLengthMedian +
0.001 * linkLabelLengthAve +
-0.0042 * nrTagFrameset +
0.0013 * nrTagForm +
0 * blanksInText +
0 * lengthPureText +
0.007 * nrtagCol +
-0.0126 * nrtagColGroup +
1.07 * relationOutLinksToSize +
-0.0007 * tdPerTableMedian +
-0.0002 * trPerTableAve +
0.0008 * tdPerTableAve +
-0.0013 * tdPerTableDev +
0.0033 * trPerTableDev +
0.0017 * nrTagUL +
0.0042 * nrTagOl +
-0.001 * nrLists +
-0.103 * relationTableDomElems +
-0.6499 * relationNrDOMElemsFileSize +
1.0812 * relationNrOutLinksFileSize +
-0.196 * relationImgDomElems +
-0.082 * textToSizeRatio +
0.0594 * blanksToTextRatio +
12.7519 * graphicsToSizeRatio +
-3.7451 * tableToSizeRatio +
0.0001 * nrTagImg +
0.0001 * textColorGreen +
0 * textColorBlue +
0.0001 * BGColorRed +
-0.0003 * BGColorGreen +
0.0002 * BGColorBlue +
0.0001 * firstTableColorRed +
0.0001 * firstTableColorGreen +
0.0001 * firstTableColorBlue +
-0.0021 * nrUniqueHTMLColors +
-0.0555 * uniqueWordsRatio +
-0.0002 * uniqueWordsToSentenceRatio +
-0.0961 * listWordRatio +
0.0001 * uniqueWordsPureText +
0 * nrWordsPureText +
-0.0002 * nrStopwordsPureText +
0.0496 * stopwordsWordsRatio +
0.0042 * sentenceDomElemsRatio +
0.0268 * tableWordsRatio +
-0.0121 * graphicsWordsRatio +
0.0137 * ageDays +
0.0002 * nrImgLinks +
-0.0107 * imgLinksRatio +
0.0023 * imgLinksToImgRatio +
0.9799 * imgLinksToSizeRatio +
-0.0018 * outLinksWordsRatio +
-0.0004 * imgToTableRatio +
-0.7911 * stopwordsToTextRatio +
0.6152
347
Anhang
Anhang B: Support Vektor Maschinen Modell
Ein Support Vektor Maschinen Modell mit linearen Kernel, das in der CrossValidierung eine Trefferquote von 86% erzielte, lieferte folgende
Eigenschaften:
Unterscheidung Klassen –1 und 1
-3,486
-3,213
-3,045
-3,018
-2,854
-2,526
-2,276
-2,184
-1,752
-1,716
-1,428
-1,249
-1,206
-1,1228
-1,12
-1,109
-1,109
-12,795
-10,231
-6,009
-5,997
-5,301
-4,747
-4,594
-4,452
-4,006
0,898
348
graphicsToSizeRatio
nrTagH1
nrTagScript
sentenceToTextRatio
trPerTableMedian
nrTextLayoutTags
stopwordsToSentenceRatio
uniqueWordsPureText
nrTagTable
nrtagCol
nrTagForm
textToSizeRatio
nrDOMElems
imgLinksToSizeRatio
linkLabelLengthDev
linkLabelLengthMedian
nrOutLinks
lengthTitle
heuristicHierachyLevel
tableToSizeRatio
uniqueWordsToSentenceRatio
nrTagMeta
nrHTMLColors
graphicsWordsRatio
nrWordsPureText
textToTableRatio
1,052
1,243
1,249
1,318
1,400
1,489
1,651
1,715
1,802
1,961
1,991
2,051
2,103
2,112
2,191
2,520
2,983
3,205
3,796
3,847
4,276
4,359
4,613
5,160
11,789
19,748
ageDays
nrLists
nrTagCursBold
lengthPureText
tdPerTableAve
tdPerTableDev
nrTagStyle
imgLinksRatio
stopwordsWordsRatio
blanksToTextRatio
nrTagUL
nrTagLi
relationImgDomElems
nrTagH3
nrTagFrameset
nrTagTd
nrImgLinks
nrTagImg
nrSentenceMarkers
listWordRatio
nrTagOl
nrStopwordsPureText
nrPdf
nrOutLinksSameHost
lengthAddress
Anhang
Klassen –1 und 0
0,0117
-0,0156
-0,0106
-0,0088
-0,0083
-0,0072
-0,0057
-0,0051
-0,0049
-0,0047
-0,0044
-0,004
-0,0037
-0,0035
-0,0032
-0,0031
-0,0024
-0,0023
-0,0023
-0,0021
-0,0021
-0,0019
-0,0017
0,0008
0,0008
nrTagImg
lengthTitle
nrWordsPureText
sentenceDomElemsRatio
nrOutLinks
nrTagH1
uniqueWordsToSentenceRatio
tdPerTableAve
nrTagH3
graphicsToSizeRatio
tdPerTableDev
nrDOMElems
linkLabelLengthAve
sentenceToTextRatio
nrtagCol
imgLinksToSizeRatio
nrLists
nrHTMLColors
nrTagH2
blanksInText
tableWordsRatio
nrTagHr
entriesPerListAve
nrUniqueHTMLColors
0,0009
0,0012
0,0015
0,0016
0,0016
0,0017
0,0017
0,0017
0,0018
0,0021
0,0022
0,0026
0,0026
0,0034
0,0037
0,0038
0,0047
0,0051
0,0055
0,0058
0,0061
0,0074
0,0074
0,01
tdPerTableMedian
trPerTableAve
imgToTableRatio
nrTagStyle
trPerTableDev
linkLabelLengthDev
relationImgDomElems
nrTagLi
listWordRatio
nrTextLayoutTags
nrOutLinksSameHost
trPerTableMedian
nrTagCursBold
nrTagUL
nrTagTd
lengthAddress
textToTableRatio
nrTagTable
uniqueWordsPureText
heuristicHierachyLevel
nrTagFont
nrStopwordsPureText
nrPdf
349
Anhang
Klassen 1 und 0
0,0077
0,0083
-0,0151
-0,0137
-0,0099
-0,0085
-0,0085
-0,0064
-0,0054
-0,005
-0,005
-0,0042
-0,0041
-0,0041
-0,0035
-0,0031
-0,003
-0,0028
-0,0027
-0,0026
-0,0024
-0,0023
-0,0023
-0,0022
-0,0021
350
linkLabelLengthAve
tdPerTableDev
nrTagH1
nrTagLi
trPerTableDev
graphicsToSizeRatio
nrTagH2
nrTagTr
linkLabelLengthDev
nrTagHr
nrSentenceMarkers
nrImgLinks
textToTableRatio
stopwordsToSentenceRatio
lengthPureText
tdPerTableAve
nrTagImg
nrDOMElems
entriesPerListDev
uniqueWordsPureText
imgToTableRatio
nrTagOl
nrTagScript
0,0004
0,0004
0,0005
0,0006
0,0007
0,0009
0,0009
0,001
0,001
0,0011
0,0011
0,0016
0,0017
0,0019
0,0024
0,0025
0,0025
0,0028
0,0032
0,0045
0,0046
0,005
0,0051
0,0061
0,0068
nrPdf
BGColorGreen
nrOutLinksSameHost
nrHTMLColors
nrTagMeta
lengthAddress
sentenceToTextRatio
trPerTableAve
stopwordsWordsRatio
tdPerTableMedian
imgLinksToSizeRatio
tableToSizeRatio
nrTagH3
graphicsWordsRatio
nrTagTd
relationImgDomElems
outLinksWordsRatio
nrOutLinks
fileSize
nrTagForm
nrTagFont
nrTagCursBold
nrLists
nrTagTable
blanksInText
Anhang
Anhang C: Benutzertest-Vorab-Information
Vorab Informationen für Benutzertest zur Qualität von Web-Seiten
Immer häufiger wird die geringe Qualität von Internet-Angeboten bemängelt.
Die Palette reicht von Spam, über schlecht gestaltete Seiten bis hin zu
falschen Informationen von dubiosen Anbietern.
Suchmaschinen versuchen zunehmend, die Qualität der Ergebnisse zu
bewerten und dem Benutzer nicht nur die relevantesten, sondern auch die
besten Seiten anzubieten.
In diesem Benutzertest soll die Qualität von Internet-Seiten bewertet werden,
um die durchschnittliche Qualität von Angeboten zu messen.
Qualität kann aber viel bedeuten und jeder Benutzer hat seine eigenen
Vorstellungen. Qualität kann sowohl das Design und/oder den Inhalt
betreffen.
Wichtig ist Ihre eigene Bewertung. Bitte finden Sie die qualitativ besten
Seiten in den Trefferlisten, wenn solche vorhanden sind. Die allerbesten
Seiten sollen dann in einer Sammlung von Links zusammengefasst werden.
Bewerten Sie bitte die auch Relevanz, also inwieweit die Seiten in der
Trefferliste zu den Anfragen passen.
351
Anhang
Vergeben Sie dazu Schulnoten von 1 bis 6:
Qualität (sehr gute Seiten, eignen
sich für ein Linksammlung)
Relevanz (passt zur Anfrage)
1
Hervorragende Seite,
weiterempfehlen
man
1
Passt ganz genau zur Anfrage
2
Gute Seite, noch für Linksammlung
geeignet
2
Passt gut zur Anfrage
3
Mittelmäßig
3
Hat entfernt mit Anfrage zu tun
4
Eher schlechte Seite
4
Hat sehr entfernt Anfrage zu tun
5
Sehr schlechte Seite
5
Hat nichts mit Anfrage zu tun
6
Zumutung, Keinen Klick wert
6
Hat überhaupt nichts mit Anfrage oder
deren Thema zu tun
kann
Dazu sehen Sie den Titel der Seite und dessen URL. Sie können die Seite
auch aufrufen, sollten von dort aber nicht mehr weiter als einen Klick
browsen.
Bewerten Sie möglichst die gesamte Trefferliste, die nur aus einer Seite besteht. Verlassen Sie sich auf Ihre intuitive Einschätzung von Qualität. Gründe
können Sie gerne angeben, die Versuchsleiter werden sie notieren.
352
Anhang
Anhang D: Beispielseiten
Die folgenden Seiten wurden alle mit dem linearen Regressionsmodel bewertet.
Niedrig bewertete Yahoo-Seiten
http://www.f23.parsimony.net/forum46830/
http://www.knabberfische.de/
http://www.hbo-leipzig.de/
http://www.schmerz.com
http://www.swr.de/machfit/
http://beisshaus.de
http://www.igmbh.de/shari-hilfe/
http://www.augenarzt-hoffmann.de/
http://www.ninas.de/
http://www.mannpharma.de/
http://www.knabberfische.de/
http://www.rueckenleiden.de/
http://www.ernaehrung24.com/
http://www.heilkraeuter.de/lexikon/index.htm
http://www.rehadrmarx.de
http://www.polyneuropathie.com/
http://www.psoriasis-netz.de/kangal.html
http://www.tinto.de/xxl/
http://www.diabetesring.de/
http://www.rokitta-online.de/index3.htm
Hoch bewertete Yahoo-Seiten
http://www.shiatsu-therapie.de
http://www.synvisc.de/
http://www.ahnrw.de/
http://www.gestaltkritik.de/
http://www.mum.org/neues5.htm
http://www.uni-saarland.de/fak5/krause/kkol/dsm1.htm
http://home.t-online.de/home/t.wischmann/jung.htm
http://www.hyperthermie-tagesklinik.de
http://www.krebsinfo.de/ki/empfehlung/bc/
http://www.kompetenznetz-schizophrenie.de/
http://www.hypnosehttp://www.blue-sky-project.com/
gesundheitspraxis.de/phobienliste.htm
http://www.axion-consult.com/
http://www.wunschkinder.de/gesetze/ESchG.html
http://www.aktivmesse.com
http://www.wunschkinder.de/gesetze/ESchG.html
http://nt1.chir.med.tumuenchen.de/HNPCC/AuszugausVerbundprojekt.h
http://www.sbk.org
tm
http://www.krebsinfo.de/ki/empfehlung/melanom/
http://www.krebsinfo.de/ki/empfehlung/mm/
http://www.uni-duesseldorf.de/WWW/AWMF/ll/dermp02.htm
353
Anhang
Hoch bewertete Suchmaschinen Seiten (Klasse 0)
http://focus.msn.de/WAVE/w_link_trc.htm?link_trc_rubrik=4&link_trc_story=119720&link_
trc_title=Zeit+f_FCr+ein+Grillfest&link_trc_url=http_3A_2F_2Fshopping.msn.de_2Fft
s_2Fftsresults.aspx_3Fpt_3D0_26pa1_3D0_26pa2_3D0_26searchtext_3DGrills_26pt_3
D17_26pa1_3D0_26pa2_3D0_26searchtext_3D
http://www.evkirchebadlippspringe.de/gbrief0300/gbrief03-2000.htm
http://www.f-n-saul.de/staubsauger/prinzip.htm
http://www.fabi-ibbenbueren.de/programm/familie.htm
http://www.fabi-ibbenbueren.de/programm/gesundheit.htm
http://www.fachbuchprofi.de/Buch/Altwuerttembergische_Lagerbuecher_III_aus_der_oesterreichischen_Zeit
_1520_-_1534_Texte_der_Lagerbuecher_der_Stadt_Stuttgart_Erschienen_1997.html
http://www.fachbuch-profi.de/Buch/Ausbildungs_und_Beschaeftigungsprojekte_in_der_Jugend_und_Sozialhilfe_Erfahrungen_aus_der_Projektarbeit_und_der_Fortbildung_Erschiene
n_1997.html
http://www.fh-trier.de/presse/presseinfos/
http://www.film.de/
http://www.fischer-zim.ch/auszuege-drg-pflege/AP-DRG-CH-0110.htm
http://www.fischer-zim.ch/temp/ZIM--GDRG-Antraege-DPR-InEK-v1_02--0304.htm
http://www.fischer-zim.ch/text-pcssa/t-ga-C-Grundlagen-PCS-0003.htm
http://www.fitness-center.at/wissen/schlanke_figur/themenverzeichnis.htm
http://www.fitness-plus.ch/fppreise/fppreise.html
http://www.fitnesstreff-lindemann.de/kurse/kurse.htm
http://www.fitnesstreff-lindemann.de/studio/rundgang/rundgang.htm
http://www.flexible-unternehmen.de/kv0404_04.htm
http://www.flugplatzzeitung.de/2-Ausgabe2002/schlafstudio.html
http://www.flugplatzzeitung.de/2-Ausgabe2002/tierfreund.html
http://www.fnweb.de/etc/druckversion/druck.html?visiblePath=_2Farchiv_2F2001_2Fm11_2
F20_2Fta_2Frundschau_2F20011120_0040918000_31901.html
http://www.focus.at/artikel/wha_meta.html
http://www.focusonline.de/D/DB/DBX/DBX19/dbx19.htm?&icp_t_statistic_extern_obj_statu
s=external_link&icp_t_statistic_extern_obj_link_text=Familie+_26+Job_3CBR_3E&ic
p_t_statistic_extern_obj_externe_url=http_3A_2F_2Fwww.amica.de_2Fjob_money_2F
karriere_2Ffamilie_job
http://www.focusonline.de/D/DB/DBX/DBX29/dbx29.htm?&icp_t_statistic_extern_obj_statu
s=external_link&icp_t_statistic_extern_obj_link_text=Sex+on+the+Job_3CBR_3E&icp
_t_statistic_extern_obj_externe_url=http_3A_2F_2Fwww.amica.de_2Fjob_money_2Fk
arriere_2Fsex_job
Niedrig bewertete Suchmaschinen Seiten (Klasse 0)
http://www.evkirchebadlippspringe.de/gbrief2003-3/inhaltsverzeichnis.htm
http://www.flex-fitnesspark.de/index6.html
http://www.fachbuch-profi.de/lipage/kuestenklick.html
354
Anhang
http://www.evkirchebadlippspringe.de/gbrief2003-1/inhaltsverzeichnis.htm
http://www.foucault.de/Frame6840081.htm
http://www.eyf.de/verzeichnis.htm
http://www.fitnessworld-number1.de/fitness/aerplan.htm
http://www.fqn.de/webtipps.htm
http://www.fosf.ch/ecoleenf.htm
http://www.eyf.de/suchdienste.htm
http://www.eyw.de/verzeichnis.htm
http://www.foucault.de/listen/s.htm
http://www.foucault.de/Frame6840081.htm
http://www.foucault.de/listen/b.htm
http://www.fitnessworld-number1.de/fitness/aerplan.htm
Niedrig bewertete Spam Seiten
http://www.hochschulportal.de/
http://www.hotel-booking-service.net/
http://www.fantasyman.org/
http://www.mittelrhein.net/
http://www.seminare-online.de/
http://www.sexzillachat.de/
http://www.stripmeile.com/
http://www.erodom.at/
http://www.mitwohnagentur.info/
http://www.sexvilla.net/
http://www.sexzillaclub.de/
http://www.sexzillamember.de/
http://www.buchen-reise.de/
http://www.fetischabo.de/
http://www.reisen-urlaub-ferien.de/
http://www.bravoo.de/
http://www.xiwaa.de/
http://www.speedstart.de/
http://www.shop-fuehrer.at/
http://www.shop-fuehrer.ch/
Hoch bewertete Spam Seiten
http://www.topliste.com/
http://www.gigaherz.ch/
http://www.compnet.at/
http://www.geocities.com/Nationale_Aktion/
355
Anhang
http://www.private-nacktfotos-aktfotos.de/
http://zerozero.ch/
http://www.barmer.de/external/themenwelten/jugend/ego/artikel/
http://www.europa-park.de/
http://www.aktiv-gesund.de/external/themenwelten/jugend/ego/artikel/
http://teen-stream.de/
http://www.film.de/
http://www.go2city.de/
http://www.filmshop.de/
http://www.liebster.de/
http://www.top-sicherheit.de/
http://www.hacker-world.de/
http://www.fortunecity.de/kunterbunt/gartenhaeuschen/331/
http://www.boyshaus.de/
http://www.rubenstelefongirl.de/
http://www.reisecenter.com/
Hoch bewerte Seiten im Benutzertest
http://www.die-gesundheitsreform.de/
http://www.rats-apotheke-hildesheim.de/f3.htm
http://www.apotheke-sommer.de/johanniskraut.htm
http://www.schwan-apo.de/info/archiv/johannis.htm
http://www.meine-gesundheit.de/krank/texte/muskelka.htm
http://www.erickson.de/gesundheitstipps_muskelkater.htm
http://www.zeiss-apotheke.de/Johanniskraut.htm
http://www.4lindenapotheke.de/ndk.htm
http://www.apo4u.com/notdienst/pph_notplan/www.sonnen-apohi.de.php3?file=www.sonnen-apo-hi.de
http://www.apotheke-hildesheim.de/
http://www.andreas-apo.de/Notdienst.html
http://www.sportunterricht.de/lksport/muskelkater.html
http://forum.myphorum.de/read.php?f=2965&i=607&t=584
http://private-krankenversicherung.epkv.de/krankenversicherung_info_ratgeber_p_details.asp?id=10159
http://www.gesundheitsreform-2004.de/
http://www.webofdiabetes.net/aktuelles/gesundheitspolitik/news/2003/031215.html
http://www.klettertraum.de/Arzt/Muskelkater.Powerbar.htm
http://www.muskelkatersport.de/
http://www.praxis-wiesbaden.de/patinfo/gesundheitsreform.html
http://www.wala.de/pflanze/archiv/johannis.htm
http://www.waldapotheke-schoenberg.de/Archiv/johanniskraut.htm
http://www.aerzteblatt.de/v4/archiv/artikel.asp?id=30395
http://www.gesundheit.nrw.de/content/e16/e427/e1938/e2052/e2122/index_ger.html
http://www.mdr.de/exakt/1044186-hintergrund-790322.html
http://www.muskelkater-online.de/
356
Anhang
http://www.phytotherapie-komitee.de/johanniskraut.htm
http://www.stada.de/gesundheitundmehr/GesundheitsInfos/Ratgeber_Gesundheit/m/
Muskelkater.asp
Geöffnet, aber schlecht bewertet wurden:
http://h11.gesundheit.nu/html/pressematerial200007/rhkurz.txt
http://www.abda.de/
http://www.allesnursex.de/gynaekologen.htm
http://www.apotheke-holzgerlingen.de/ala/intern.htm
http://www.beepworld.de/members3/marianne2142/schwedenkraeuter.htm
http://www.bodybuilding-power.de/muskelauf.html
http://www.bodybuilding-szene.de/638.html
http://www.dreienberg-apotheke.de/Service/Offnungszeiten/offnungszeiten.html
http://www.elefanten-apotheke-mm.de/portrait/oeffnung.html
http://www.fc-straberg.de/hp-seiten/muskelkater.html
http://www.ironsport.de/bodybuilding/vorbeugen.html
http://www.isselhorster-apotheke.de/dienst.htm
http://www.mydrg.de/
http://www.rtl.de/style/807052.html
http://www.sport-muskelkater.de/
http://www.uni-protokolle.de/buecher/isbn/3720522768
http://www.verbrauchernews.de/gesundheit/versicherungen/0000004646.html
http://www.vitalapotheke.com/
http://www.vitamehr-promotion.com/2599217/neue_gesundheitsreform.htm
http://www.walterpuhl.de/3.%20Der%20Muskelkater.htm
http://www.bfarm.de/de/Arzneimittel/bes_therap/am_pflanzl/int_Literatur.pdf
http://www.fibro-heidelberg.de/Web-Info-B.html
http://www.hyperaktivitaet-ads.de/ADS-Hochbegabung-Hyperaktivitaet-LegasthenieDyskalkulie.htm
http://www.hyperarchiv.de/arcsos/D/D0000140.htm
http://www.muskelkater.com/muskelkater/modules.php?op=modload&name=My_eG
allery&file=index&do=showgall&gid=15
http://www.ndr.de/radiomv/service/experten/gesundheitsreform
http://www.physio.de/php/meldung.php3?id=4673
http://www.stammelbach.de/apotheke.htm
357

Dokument_1.

Transcrição

Documentos relacionados

¨Ubungsblatt 6 Aufgabe 1: Codebreaker (6 Punkte, B)

Benutzerordnung - Albertus Magnus Gymnasium Friesoythe

Office 365 Admin Center – First Steps - RZ

Bedeutung von Peer-to-Peer Technologien für die

Übung 1

Full Text

P Eingang Freigelände Nord/West Entrance open

TÜV-Zertifikat

Handbuch Benutzerverwaltung pro/premium - Lex

Entwicklung eines sicheren Videoübertragungssystems