Prof. Kießling, Suchmaschinen, Kap. 1

Transcrição

Prof. Kießling, Suchmaschinen, Kap. 1
Vorlesung Suchmaschinen
Universität Augsburg
Sommersemester 2016
Prof. Dr. Werner Kießling
Institut für Informatik
Lehrstuhl für Datenbanken und Informationssysteme
© Prof. Kießling 2016
Kap. 1 - 1
Vorlesungsbetrieb
• Zwei Vorlesungen pro Woche im Hörsaal 2045 (N)
• Dienstag
10:00 – 11:30 Uhr
• Donnerstag
10:00 – 11:30 Uhr
• Folien der Vorlesung sind spätestens am jeweiligen
Vorlesungstag im Internet verfügbar
http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/scripts/
Zugang mit RZ-Kennung
• Regelmäßig nach Aktuellem auf der Homepage schauen!
© Prof. Kießling 2016
Kap. 1 - 2
Kontakt

Prof. Dr. W. Kießling:
Sprechstunde: Donnerstag 11:45-12:15 Uhr (2051 N)

Dr. Florian Wenzel und Lena Rudenko (2001 / 2002 N):
{wenzel, lena.rudenko}@informatik.uni-augsburg.de
© Prof. Kießling 2016
Kap. 1 - 3
Übungen
●
●
●
●
Übungsblätter werden jeweils freitags auf der Homepage veröffentlicht
Es wird davon ausgegangen, dass die Blätter vor dem Übungstermin
angesehen / bearbeitet werden
Während der Übung:
● Erarbeitung der wichtigsten Aufgaben in Kleingruppen
● Präsentation und Diskussion der erarbeiteten Ergebnisse
Keine Punktevergabe, keine Zulassungsbedingung zur Klausur
© Prof. Kießling 2016
Kap. 1 - 4
Übungsgruppen
Gruppe
1
2
3
4
Zeit
Montag, 12:15 – 13:45 Uhr
Mittwoch, 10:00 – 11:30 Uhr
Mittwoch, 14:00 – 15:30 Uhr
Freitag, 10:00 – 11:30 Uhr
Raum
2056 (N)
2056 (N)
2056 (N)
2056 (N)
http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/groups/
Verteilung auf Übungsgruppen: Sonntag, 17.04.16 um 18:00 Uhr
© Prof. Kießling 2016
Kap. 1 - 5
Klausur

Termin: 12.07.16, 17:00 Uhr (Mensa)
Dauer: 90 Minuten
Nur Papierunterlagen sind zugelassen (open book)
Anmeldung bei STUDIS zwingend erforderlich!

Näheres unter:



http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/
exams/
© Prof. Kießling 2016
Kap. 1 - 6
Gliederung
1
Einführung
2
Volltext-Suchmaschinen
3
Präferenz-Theorie
4
Preference SQL-System
5
Implementierung von Präferenz-Querysprachen
6
Top-k-Algorithmen
7
XML-Suchmaschinen
8
Softwareaspekte von SQL-Suchanwendungen
© Prof. Kießling 2016
Kap. 1 - 7
Allgemeine Literatur
Dirk Lewandowski (Hrsg.):
Handbuch Internet-Suchmaschinen 2: Neue Entwicklungen in der Web Suche
Akademische Verlagsgesellschaft AKA GmbH, Heidelberg, 2012;
ISBN: 978-3-89838-651-7
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze:
Introduction to Information Retrieval, Cambridge University Press; 2008;
ISBN: 978-0-521-86571-5
Marc Levene:
An Introduction to Search Engines and Web Navigation, 2nd Edition, Wiley,
2010; ISBN: 978-0-470-52684-2
Ricardo Baeza-Yates & Berthier Ribeiro-Neto:
Modern Information Retrieval, 2nd Edition, New York, NY: ACM Press
Books; 2010; ISBN: 978-0-321-41691-9
© Prof. Kießling 2016
Kap. 1 - 8
1 Einführung
1.1 Unterschiedliche Suchverfahren
1.2 Überblick IR-Systeme
1.3 Überblick Web-Suche
1.4 Überblick Attribut-Suche
1.5 Überblick Multimedia-Suche
1.6 Überblick Soziale Netzwerke
1.7 Mobile Dienste
1.8 Metasuchmaschinen
1.9 Google Analytics
1.10 Zusammenfassung
Quelle: http://www.flickr.com/photos/deia/7942538/
„I will use Google before asking dumb questions.“
© Prof. Kießling 2016
Kap. 1 - 9
1.1 Unterschiedliche Suchverfahren
Wichtigste Komponente für ein Such-System ist die Menge der
Dokumente, Korpus genannt, und deren interne Struktur.
Der Korpus kann



unstrukturiert
semi-strukturiert oder auch
strukturiert sein.
Korpus von
Dokumenten
Anfrage
© Prof. Kießling 2016
SuchSystem
Ergebnis
Kap. 1 - 10
Dokumente können sein:







Artefakte (z.B. gescannte Bücher)
Kataloge (z.B. Branchenbücher)
Linksammlungen (Webkataloge)
Videosammlungen (YouTube)
Soziale Daten (z.B. Facebook)
Dateien (z.B. Excel, PDF, Text, HTML, XML, …)
…
© Prof. Kießling 2016
Kap. 1 - 11
Beispiel: Suche nach Buch im Antiquariat
1.) Stöbern
 Struktur (Sachgebiet, Thema, Autor, …)
 Navigation (Teilbereiche, Signaturen, ...)
2.) Dialog
 Zweck, Absicht, Ziel
 Fragen - Antworten
 Benutzer-Modellierung
 Hintergrundwissen
 „Gezielte Suche“
Frage
Antiquar
Empfehlungen
Relevanz?
© Prof. Kießling 2016
Kap. 1 - 12
Soziale Suche
Mit Hilfe von sozialen Vernetzungen (Freundes-, Kollegenkreis, …) kann ein
Suchvorgang gleichzeitig von mehreren Teilnehmern ausgeführt werden.
Für den Erfolg dieser Vorgehensweise ist wichtig:
 Hoher Vernetzungsgrad, verteilter Korpus
 Gemeinsamer Code, klare Spezifikation
 Terminierung, Qualität und Quantität der Ergebnisse
Anfrage
Ergebnis
Freundeskreis als Such-System
© Prof. Kießling 2016
Kap. 1 - 13
Beispiel: Wohnungssuche
1.) Suchanfrage über persönliche oder webbasierte soziale Netzwerke
streuen und auf hohen Verbreitungsgrad hoffen.
2.) Gemeinsamer Code (Wohnungen und ihre Eigenschaften)
3.) Klare Spezifikation (Größe, Preis, Typ)
4.) Bewertung der Ergebnisse erfolgt auch nach weiteren (meist nicht
vollständig kommunizierten) weichen Faktoren.
5) Meistens wird man unter den ersten k Rückmeldungen fündig
(Top-k-Suche).
© Prof. Kießling 2016
Kap. 1 - 14
Beispiel: Wohnungssuche in Facebook-Gruppe
Gemeinsamer Code
© Prof. Kießling 2016
Spezifikationen
weiche Faktoren
Kap. 1 - 15
Eigenschaften von sozialen Netzen:
●
Mitglieder von sozialen Netzen können sich ihrerseits auch wieder
auf andere soziale Netze abstützen.
●
Mitglieder von sozialen Netzen können aber auch automatische
Suchsysteme, Spezialisten, Bibliotheken, … zu Rate ziehen.
●
Die Kommunikation (Aussage, Frage – Antwort) erfolgt
asynchron.
© Prof. Kießling 2016
Kap. 1 - 16
1.2 Überblick IR-Systeme
Suche nach Information in
Bibliothek
Anfrage
Relevanz?
© Prof. Kießling 2016
Korpus von
Dokumenten
IRSystem
Gewichtete
Dokumente
Information
Retrieval
1. Doc1
2. Doc2
3. Doc3
…
Kap. 1 - 17
Beispiel: Anfrage nach Veröffentlichung in Bibliothek
OPAC der UB Augsburg:
© Prof. Kießling 2016
Kap. 1 - 18
Eigenschaften von OPAC:
Korpus (Katalog)
Suchmöglichkeiten:
 Autor, Schlagwort, …
 Logische Verknüpfungen
 Trunkierungszeichen
 Freie Suche
 abgeschlossen, geringe Änderungsrate
 Attributsuche
 Boolesche Algebra
 Wildcards: “?“, “*“
 keine Volltextsuche dank
Digitalisierung des Korpus
Filter / Navigation:
 Suche eingrenzen
 BibTip
Andere Benutzer fanden
auch interessant
© Prof. Kießling 2016
 Annotationen, sem. Kategorien
 Empfehlungen durch Analyse
des Benutzerverhaltens
Kap. 1 - 19
Exemplarische Trefferliste: Autor = Kießling, Navigationshilfen
© Prof. Kießling 2016
Kap. 1 - 20
Exemplarischer Treffer: Attribute – digitalisierter Text(ausschnitt)
© Prof. Kießling 2016
Kap. 1 - 21
OPAC-Beispiele (Kardinalität der Ergebnismenge aus SS2010, SS2016):
●
●
●
●
●
●
Freie Suche „Preference und Algebra“  Leere Ergebnismenge (0, 0)
Freie Suche „Kießling“
 Überflutung (283, 400)
Attributsuche: Autor „Kießling“
 Relevanz (171, 206)
Attributsuche: Autor „Kie?ling“
 Korrektheit (-, 29)
A.-Suche: Autor „Werner Kießling“  Relevanz (25, 31)
Kießling, Kiessling
 automat. Graphemerweiterung
© Prof. Kießling 2016
Kap. 1 - 22
Digitalisierung von Buchbeständen:

Volltextsuche
Beispiele:


Google Book Search
Search Inside! von Amazon
Rechtliche Probleme bei noch geschützten Werken:


Urheberrechte
Nutzungsrechte, Verwertungsrechte
© Prof. Kießling 2016
Kap. 1 - 23
Suche nach Information in
Wikipedia
Anfrage
Relevanz?
© Prof. Kießling 2016
Autoren:
Korpus von
Dokumenten
IRSystem
Gewichtete
Dokumente
1. Doc1
2. Doc2
3. Doc3
…
Kap. 1 - 24
Beispiel: Anfrage nach Artikel (Konzept) in Wikipedia
Wikipedia
Korpus (Online-Enzyklopädie)
Suchmöglichkeiten:
 Artikel
(Von A bis Z)
 Piktogramm Lupe
 Verlinkung
 Links auf diese Seite
© Prof. Kießling 2016
 geschlossener Korpus bezogen auf
http://de.wikipedia.org/, offener und
„kleiner“ Autorenkreis im sozialem
Netzwerk, Kollaboration [Bearbeiten],
 Konzeptsuche
 Volltextsuche, Syntax
 Semantisches Netzwerk
 Verweisstruktur (Backlinks)
Kap. 1 - 25
1.3 Web-Suche
Websuche-Technologie stammt ursprünglich von IR-Systemen.
1993: der erste Such-Roboter „The Wanderer“ im WWW
„The Wanderer“ erstellte von 1993 bis 1995 einen Index des zu dieser
Zeit noch übersichtliche Web. Im Juni 1993 gab es nur 130 Webseiten.
Der Index diente der Vermessung des Webs und nicht der Suche.
1994/95: erste Suchmaschinen von kommerziellen Firmen (Lycos,
Infoseek, Alta Vista, …)
1998: Entstehung heutiger marktführender Suchmaschinen (Google,
Bing)
→ Geschichte der Suche im WWW
© Prof. Kießling 2016
Kap. 1 - 26
1.3.1 Architektur Websuche
Web
Spider
Anfrage
Relevanz?
© Prof. Kießling 2016
Korpus von
Dokumenten
SuchSystem
Gewichtete
Dokumente
Kap. 1 - 27
Im Unterschied zu einem IR-System, bei dem der Korpus eher
geschlossen und statisch ist, wächst das Web kontinuierlich, und auch
bereits erfasste Inhalte ändern sich.
Der Korpus des Webs ist offen und dynamisch, deswegen werden
zusätzliche Komponenten benötigt.
Ein Spider (auch "Crawler" oder "Robot" genannt) bewegt sich durch
das Verfolgen von Links selbständig durch den Datenbestand des
Internets und ermittelt die Inhalte der Webseiten.
© Prof. Kießling 2016
Kap. 1 - 28
Verfeinerung Spider
Spider:
Web
TODO:
Liste
von
URLs
Auswahl
© Prof. Kießling 2016
Laden
Extraktion
Füge URLs
von Links
hinzu
Seite
indizieren
Kap. 1 - 29
Wichtigstes Merkmal neben der Anzahl der erfassten Seiten ist die
Update-Rate, wodurch neuer oder geänderter Inhalt erfasst wird.
Bei Google wird dies als „Google Dance“ bezeichnet:
Bis 2003 wurden die Suchindizes einmal monatlich neu berechnet.
Inzwischen läuft der Update-Prozess kontinuierlich.
Trotzdem gibt es Seiten, die nicht erfasst werden bzw. nicht erfasst
sein wollen (Deep Web / Dark Web).
© Prof. Kießling 2016
Kap. 1 - 30
Exkurs: Deep Web
Die Bezeichnung Deep Web bezieht sich auf alle Internet-Inhalte, die
aus verschiedenen Gründen von Suchmaschinen nicht indiziert sind
oder nicht indiziert werden können, z.B. dynamische Webseiten,
geblockte Seiten (erwarten CAPTCHA-Antwort), nicht verlinkte
Seiten, ...
Der Begriff Deep Web wurde von dem Informatiker Mike Bergman im
Jahr 2000 eingeführt.
In seiner Veröffentlichung „The Deep Web: Surfacing Hidden Value“
von 2001 weist er darauf hin, dass die Inhalte von Deep Web 400 bis
550 Mal größer sind, als im allgemein zugänglichem Web.
© Prof. Kießling 2016
Kap. 1 - 31
Arten des Deep Web
Nach Sherman & Price (2001) unterscheidet man fünf Typen des Deep Web
(Wikipedia):
●
Opaque Web: Webseiten, die generell indiziert werden könnten , es aber
aus technischen Gründen oder Gründen der Leistungsfähigkeit nicht sind.
●
Private Web: Webseiten, die indiziert werden könnten, es auf Grund von
Zugangsbeschränkungen aber nicht werden.
●
Proprietary Web: Webseiten, die erst nach Anerkennung einer
Nutzungsbedingung oder nach einer Identifikation indiziert werden
können.
© Prof. Kießling 2016
Kap. 1 - 32
Arten des Deep Web
●
Invisible Web: Webseiten, die indiziert werden könnten, es jedoch aus
kaufmännischen oder strategischen Gründen nicht werden.
●
Truly Invisible Web: Webseiten, die aus technischen Gründen (noch) nicht
indiziert werden können, z.B. nicht-Standardformate (Flash) oder Formate,
die aufgrund ihrer Komplexität nicht erfasst werden können
(Grafikformate).
© Prof. Kießling 2016
Kap. 1 - 33
Exkurs: Dark Web
Deep Web und Dark Web werden fälschlicherweise oft gleichgesetzt. Eine
Gemeinsamkeit ist, dass man auf Inhalte nicht mit kommerziellen
Suchmaschinen zugreifen kann.
Das Dark Web kann man dabei als Teil von des Deep Web betrachten.
Die Seiten des Dark Web werden absichtlich vor dem Zugriff durch
Suchmaschinen geschützt, nutzen maskierte IP-Adressen und sind nur mit
speziellen Web-Browsern zugänglich.
Beiden Begriffe sind der breiten Öffentlichkeit aus den Nachrichten bekannt,
als das FBI ein Online Schwarzmarkt „Silk Road“ (2013) und danach auch
seinen Nachfolgen „Silk Road 2.0“ (2014) geschlossen hat.
© Prof. Kießling 2016
Kap. 1 - 34
Dark Web Zugang
Das Tor Projekt stellt mit Hilfe des Tor Browsers eine Möglichkeit zur
anonymen Nutzung des Webs zur Verfügung. Auch eine Version für Android
ist verfügbar. Anfragen werden dabei innerhalb des Tor Netzwerkes über
mehrere Server (mindestens 3) weitergeleitet, um die Identität des Nutzers
zu verschleiern. Daten werden dabei verschlüsselt übertragen.
Neben gewöhnlichen Webseiten kann mit Tor auch auf sogenannte
Hidden Services zugegriffen werden. Diese sind über eine sogenannte
“onion address“ erreichbar (Übersicht über legale Services).
Für eine detaillierte Beschreibung des Tor Netzwerkes wird auf die
Veröffentlichung „Tor: The Second-Generation Onion Router“ von
Dingledine, Mathewson und Syverson verwiesen.
© Prof. Kießling 2016
Kap. 1 - 35
Nutzen des Dark Web
In Ländern mit repressiven Regimen kann das Dark Web für einen
politischen Kampf genutzt werden. Facebook hat eine Version der Seite im
Dark Web zugänglich gemacht, damit auch aus Ländern, in denen Facebook
verboten ist, darauf zugegriffen werden kann. Sie ist nur mit Browsern
erreichbar, die Tor unterstützen: https://facebookcorewwwi.onion
Im Zuge der Dark Web Debatte wird oft über die dezentrale digitale
Währung Bitcoin diskutiert, da sie auch für die anonyme Bezahlung im
Dark Web Einsatz findet. Weitere Informationen sind in der Veröffentlichung
„Bitcoin: A Peer-to-Peer Electronic Cash System“ von Nakamoto zu finden.
© Prof. Kießling 2016
Kap. 1 - 36
Vom Deep Web zurück zum Visible Web
In den meisten Fällen ist man natürlich an einer Anmeldung interessiert:
• Google (Bekanntmachung für Spider per http://www.google.de/addurl/)
• Beschreibung der eigenen Webstruktur z.B. durch Sitemaps
Über das Robots Exclusion Protocol kann ausgeschlossen werden, dass Seiten
vom Crawler besucht werden. Allerdings können Crawler eine definierte
robots.txt Datei, die beschreibt welche Seiten indiziert werden dürfen und
welche nicht, ignorieren. Es handelt sich also um eine freiwillige Einhaltung
des Protokolls.
© Prof. Kießling 2016
Kap. 1 - 37
Um der großen Datenmenge Herr zu werden, extrahiert ein
Merkmalsextraktor relevante Merkmale und Texte aus den
gefundenen Webseiten. Durch die Merkmalsextraktion wird die
Datenmenge bereits deutlich verkleinert (Korpus).
Um die grammatikalische Komplexität (Flexion) zu reduzieren,
werden Wörter durch Text-Operationen auf ihren Wortstamm
zurückgeführt (Stemming). Einer der bekannteste Algorithmen ist der
Porter-Stemmer.
Zudem werden Füllwörter (Artikel, …) entfernt (Stopword removal),
da sie oft nur grammatikalische Informationen tragen.
Siehe dazu Kapitel 2 in „Introduction to Information Retrieval“.
© Prof. Kießling 2016
Kap. 1 - 38
Um über die Suchbegriffe wieder auf die Originale zurück schließen zu
können, verwaltet der Indexierer die extrahierten Merkmale und Texte
der Dokumente und erlaubt den schnellen Zugriff auf die Originale über
diese Merkmale und Texte.
Dieser Suchindex wird als „Inverted File“ implementiert. Er hat die
gleiche Funktion wie ein Schlagwortregister, das Schlagwörter
denjenigen Buchseiten zuordnet, in denen das Schlagwort vorkommt.
Beispiel:
ID
Term
Dokument : Position
Di: Unter einem blauen
…
Himmel trafen …
Dj:
Montags machen
viele blau. Unter
freiem Himmel …
© Prof. Kießling 2016
n
blau
i : 3, j : 4
n+1
Himmel
i : 4, j : 7
…
Kap. 1 - 39
Verfeinerung Websuche
Anfrage
SuchSystem:
Text-Operationen
Logische Sicht
Reformulierung
AnfrageOperationen
Suche
Bewertete
Dokumente
© Prof. Kießling 2016
Bewertung
Spider
Indexierung
Index
DatenbankManager
Inverted
File
Ergebnismenge
Dokument
DB
Kap. 1 - 40
1.3.2 Navigationsanfragen im Web
Beispiel: Navigation per Links
Ziel: Ich will mich über Vorlesungen des Lehrstuhls für „Datenbanksysteme“
informieren.

Einstieg per URL
http://www.informatik.uni-augsburg.de/de/lehrstuehle/
Ergebnis:
Durch die Linkstruktur in HTML werden die Lehrstühle thematisch so strukturiert, dass
die Informationsbedürfnisse der Leser (hoffentlich vollständig) erfüllt werden. Der Leser
erschließt nach den eigenen Bedürfnissen die Struktur der Webseite per Navigation.
 Hypertext, HTTP, (X)HTML, serverseitiges Skripting (Java, Servlet, Python,
PHP, …), clientseitiges Skripting (JavaScript, Applet, AJAX)
© Prof. Kießling 2016
Kap. 1 - 41
Beispiel: Semantikunterstützte Navigation in a priori definierten
Kategorien per Hierarchischer Suche
Ziel: Ich will mich um eine Urlaubsreise im Sommer kümmern.

Einstieg per Directory:
DMOZ (open directory project):
– Vordefinierte Hierarchien zur Navigation, z.B.
Regional → Europe → Germany → States → Bavaria → Localities
– Begrenzte Auswahl an Ergebnissen da von Menschen erstellt & verwaltet
Kommerzielle Portale (wie z.B. Yahoo) greifen nicht mehr auf diese Directories
zurück, da die Aktualisierung zu aufwändig ist.
© Prof. Kießling 2016
Kap. 1 - 42
© Prof. Kießling 2016
Kap. 1 - 43
Ergebnis:





Exploratives Suchen in Kategorien
keine einheitlichen Kategorien und Relationen für die Semantik einer
Applikation
Anzahl der in einer Kategorie gesammelten Konzepte ist angegeben
Hierarchische Suche wird immer mehr durch Volltextsuche verdrängt.
Hierarchische Suche, die einen Bezug zu geographischen Inhalten hat,
wird durch Oberflächenelemente wie interaktive Maps versteckt.
© Prof. Kießling 2016
Kap. 1 - 44
Hierarchische Suche mit Hilfe von Karten:
Suche nach Wanderungen im Allgäu →
Zoom zu Wanderungen in Immenstadt
© Prof. Kießling 2016
www.outdooractive.com
Kap. 1 - 45
1.3.3 Suchanfragen im Web
Korpus (WWW):
 Offen
 Dynamisch, indizierter Inhalt ändert sich!
 Unentdeckte „Kontinente“ (Deep Web)
Suchmöglichkeiten:
 Stichwörter für Volltextsuche
Erweiterte Suche: (z.B. Google)
 Logische Verknüpfungen
 Wildcard-Suche
 Zahlenbereiche
 Ortsspezifische Suche per Domain-Einschränkung

 Leere Ergebnismenge, Überflutung , Relevanz
© Prof. Kießling 2016
Kap. 1 - 46
Zipfsches Gesetz
Welche Suchbegriffe muss man wählen, um mit ihnen relevante Quellen
zu finden? Ein Hinweis gibt das Zipfsche Gesetz:
Der Rang i eines Wortes ist indirekt proportional zu seiner rel. Häufigkeit:
Freq(Worti) = i-ϴ x Freq(Wort1),
wobei 1,5 < ϴ < 2 für die meisten Sprachen gilt (Potenzverteilung).
Beispiel:
Für ϴ = 1 besitzt das 2. häufigste Wort eine
Freq(Worti)
Häufigkeit von 1/2 des häufigsten Wortes.
I
II
III
© Prof. Kießling 2016
Rang i
• Zone I: Sehr häufige Wörter sind meist
funktionale Wörter (der, die, und, …).
• Zone II: Mittelhäufige Wörter erschließen
einen Text am besten.
• Zone III: Seltene Wörter sind häufig Tippfehler oder zu spezifische Wörter (Ranb,
Freq., Hornussen, …).
Kap. 1 - 47
Folgerungen aus dem Zipfschen Gesetz:
Positiv: Füllwörter machen einen großen Anteil von Texten aus. Die
Eliminierung von Füllwörtern hat keinen Einfluss auf das Retrieval,
erspart jedoch Speicher.
Negativ: Für die meisten Wörter ist eine signifikante statistische Analyse
(z.B. Korrelationsanalyse) schwer zu erzielen, da die Wörter in einem
Korpus zu selten auftreten.
Beispiel:
Sprachabhängige Worthäufigkeiten, englische Worthäufigkeiten
© Prof. Kießling 2016
Kap. 1 - 48
Beispiel: Verknüpfte Stichwortsuche
Welche Zulassungsbedingungen müssen eingehalten werden, um an der
Klausur in Datenbanksysteme I teilnehmen zu dürfen?
Wunschseite:
http://www.informatik.uni-augsburg.de/de/lehrstuehle/dbis/db/lectures/ws1415/datenbanksysteme1/exams/
Suche mit Google (Achtung! Google Suche ist personalisiert.)
Ergebnisse aus SS16:
Von den 2940 Treffern finden sich auf Position 1 bis 4 Dokumente des
Lehrstuhls. Ein Ortsbezug wird automatisch hergestellt. Das gewünschte
Dokument ist erst auf Position 3.  Fehlende Relevanz
© Prof. Kießling 2016
Kap. 1 - 49
2. Änderung: ganz genauen Domänenbezug hinzunehmen
www.informatik.uni-augsburg.de

Suche mit Google
Ergebnisse aus SS16:
Es werden durch die Domain-Einschränkung 7 Treffer angeboten.
Der 2. Treffer bietet das Klausurdatum und die Zulassungsbedingungen korrekt
an.
© Prof. Kießling 2016
Kap. 1 - 50
1. Änderung: Domänenbezug erzwingen durch Domain-Einschränkung
auf www.uni-augsburg.de

Suche mit Google
Ergebnis:
Die beiden zuvor gefunden Dokumente mit Bezug zum Lehrstuhl werden
nicht mehr gefunden, da sie aus Subdomains der Uni Augsburg stammen.
 SS16: keine Treffer
© Prof. Kießling 2016
Kap. 1 - 51
3. Änderung: Kompositum „Zulassungsbedingung“ semantisch auf
„Zulassung“ reduzieren, kein Domänenbezug

Suche mit Google
Ergebnisse aus SS16:
Es werden insgesamt 8720 Dokumente gefunden. Auf Platz 1+2 befinden
sich Seiten zu DB1 des Lehrstuhls im WS12/13 und WS 09/10. Der
Ortsbezug wird wiederum automatisch hergestellt.
 Überflutung, jedoch gutes Ranking
© Prof. Kießling 2016
Kap. 1 - 52
Stand der Dinge:
Iteratives Vorgehen
(Suche im „Heuhaufen“  geeignetere (!) Stichwörter,
Filterfunktionen der Suchmaschine wie z.B. Domain)
Solange keine Zufriedenheit mit dem Suchergebnis besteht,
1.
Abfrage(re)formulierung,
2.
[Selektion],
3.
[Navigation].
© Prof. Kießling 2016
Kap. 1 - 53
Bei der Stichwortsuche ist ein häufiges Phänomen eine leere
Ergebnismenge (empty result set) bzw. als Alternative eine Überflutung
(flooding effect) durch meist irrelevante Dokumente.
Beide Phänomene erschweren, dass Benutzer relevante Treffer entdecken
können.
Um die Relevanz der Treffer zu erhöhen, bieten sich Modelle an, die
semantische Zusatzinformationen bei der Suche bzw. Navigation ins Spiel
bringen:
 Stichwortsuche mit Unterstützung von in Beziehung stehenden
semantischen Kategorien (Semantische Netzwerke, Ontologien,
Taxonomien)
 Attributsuche (Schemata)
 Präferenzen (Benutzermodelle)
© Prof. Kießling 2016
Kap. 1 - 54
Beispiel: Stichwortsuche nach mehrdeutigem Wort „Saturn“ in
verschiedenen Suchräumen
Korpus
Treffer (SS07)
(SS16)
1. Web, Suche mit Google
2a. Gesamtverzeichnis, Suche mit
Google
2b. Verzeichnis „Wissenschaft“,
Suche mit Google
54.100.000
107.000.000
66.500
2012: Semantische
Suche abgeschaltet
189
2012: Semantische
Suche abgeschaltet
Ergebnis: Die Suche in Kategorien erhöhte die Relevanz der Treffer, da irreführende
Synonyme ausgeschlossen sind. Das Erstellen von Kategorien sowie die Zuordnung von
Dokumenten zu Kategorien erfordert jedoch redaktionellen Zusatzaufwand bzw.
gemeinschaftliches Indexieren (social tagging, folksonomy).
© Prof. Kießling 2016
Kap. 1 - 55
Stichwortsuche mit semantisch richtigen, aber nicht im Korpus
verwendeten Stichwörtern
Beispiele (Ergebnisse aus SS16):

Suche Zahnarzt (458.000) / Dentist (127.000) in Augsburg?

Suche Zahnarzt OR Dentist (463.000) in Augsburg?


Synonymsuche z.B. ~Dentist in Augsburg bei Google (127.000)?

Ergebnis:
Die Suche erfolgt nur anhand von Wörtern nicht Konzepten.

Stichworterweiterung aus Synonymwörterbücher,
VerODERung mit Synonymen oder themenrelevante Vorschläge
© Prof. Kießling 2016
Kap. 1 - 56
Beispiele: Stichwortsuche mit Unterstützung durch
semantisches / linguistisches Wissen
Beispiele:

Suche nach Alfons Huhn als Bild bei Flickr
Bis 2013 alternative Vorschläge nach leerer Ergebnismenge
wie “chicken“, 2016 leere Ergebnismenge

Suche nach Information Retrieval bei Ask.com
Bis 2013 Möglichkeit von semantischen Anfrageerweiterungen bzw.
Anfrageeinengungen (wissensbasiert), 2016 statistikbasierte
Termerweiterungen
Ergebnis:
Semantisches / linguistisches Wissen wird durch statistikbasiertes Wissen
ersetzt.
© Prof. Kießling 2016
Kap. 1 - 57
Beispiel: Volltextsuche und Plagiarismus
Welchen Autoren lässt sich der Text "Let us exemplify the unsatisfying
state of the art" zuschreiben?

Suche mit Google
Ergebnis:
Textstellen, insbesondere Zitate, lassen sich hervorragend mit Volltextsuche überprüfen.
 Ergebnisse 1 - 1 von ungefähr 1 für "Let us exemplify the unsatisfying
state of the art". (0,27 Sekunden, SS2007)
 SS2016: 5 URLs
© Prof. Kießling 2016
Kap. 1 - 58
1.4 Überblick Attribut-Suche
Voraussetzung für eine Attribut-Suche sind strukturierte Daten. Diese werden
im Normalfall durch Schemata beschrieben. Standardmäßig kommt eine
Datenbank im Backend zum Einsatz:

Im Unterschied zur Stichwortsuche ist bei einer Attributsuche ein
exaktes Daten-Retrieval möglich.

Web-Applikationen verstecken das Datenmodell, die dazu gehörenden
Schemata und die Ablauflogik.

Eingabefelder erlauben die Selektion und Projektion der gewünschten
Daten.
Beispiel: Reiseauskunft bei der DB
© Prof. Kießling 2016
Kap. 1 - 59
Bei der Attributsuche mit exakten Treffern (exact match) treten die
bekannten Phänomene auf:
1.
2.
3.
Leere Ergebnismenge (empty result set)
Überflutung (flooding effect)
Eine Bewertung (ranking) ist nicht möglich.
Viele Datenbanksysteme kombinieren die Attribut- mit der Volltextsuche
wie z.B. „Oracle Text“ von Oracle.
© Prof. Kießling 2016
Kap. 1 - 60
Bemerkung (Warnung):
Webseiten, die dynamisch durch Attributsuche generiert werden, können nicht
indiziert werden, da der Spider sonst alle möglichen Eingabe-Kombinationen
ausprobieren müsste ( Deep Web).
Die Ergebnisse von Fachdatenbanken mit einem Web-Frontend liegen aus
dem gleichen Grund im Deep Web trotz einer guten Ergebnisqualität.
Die Stichwortsuche kann in diesen Fällen also nur dazu benutzt werden,
geeignete Fachportale zu finden.
„I will use Google before asking dumb questions.“
© Prof. Kießling 2016
Kap. 1 - 61
Beispiel: Elektronischer Handel (E-Commerce)
B2C (Business-to-Consumer)
EcommerceSystem
Anfrage
Relevanz?
Kauf!
© Prof. Kießling 2016
Gewichtete
Waren
DB
1. Ware1 Kauf!
2. Ware2 Kauf!
3. Ware3 Kauf!
…
Kap. 1 - 62
Beispiel 1: Mieten einer Wohnung
Online-Immobilienmakler
Korpus (Immobilienbestand)
Suchmöglichkeiten:
 Reiter, Überschriften
 Suchfenster
 Hintergrundwissen
 abgeschlossen, rel. geringe Änderungsrate
 Kategorien, Navigation
 Attributsuche, hierarchische Suche
 Geographisches Informationssystem (GIS)
Beispiel: Wohnen, Augsburg … , Mietwohnungen
(SS07) Salomon-Idler, Umkreis  Automat. Erweiterung um Univiertel,
ab SS08: „Radius“
(SS16) #Zimmer, Fläche, Preis  Leeres Ergebnis bei zu geringem Preis
 Parametrische Suche (Synonym Facettensuche)
© Prof. Kießling 2016
Kap. 1 - 63
Seit SS2013
http://www.immobilienscout24.de/
Vorschläge für Autovervollständigung der Benutzereingabe auf mehreren
geographischen Konzeptebenen:
- Orte, Kreise, Bezirke und Gemeinden, Straßen 
Parallele, konzeptspezifische Suche mit Vorschlag von 5 Varianten je Konzept
© Prof. Kießling 2016
Kap. 1 - 64
Seit SS2013



Definition von oberer (Preis) oder unterer (Zimmer, Fläche) Grenze für
numerische Parameter.
Umkreis kann in Minuten oder in km angegeben werden.
Dynamische Anzeige der Trefferanzahl in Abhängigkeit von jedem
Parameter.
Frühere attributbasierte Suche ist ersetzt durch Parametrische Suche mit 4
Attributen, wobei WO und WAS für den Anwender als Prefilter wirken.
© Prof. Kießling 2016
Kap. 1 - 65
Suche anpassen: Anzeige aller vorhandenen Parameter
© Prof. Kießling 2016
Kap. 1 - 66
Beobachtung:
In Abhängigkeit vom Datenbestand und der Anfrage können bei
der Attribut-Suche zwei Phänomene auftauchen:
1.
2.
Leere Ergebnismenge (empty result set)
Viel zu große Ergebnismenge (flooding effect)
Mit Hilfe der „Parametrischen Suche“ wird der Einfluss von
Attributen auf die Größe der Ergebnismenge visualisiert und damit
dem Benutzer ein Feedback auf seine Aktionen gegeben.
© Prof. Kießling 2016
Kap. 1 - 67
Parametrische Suche
Beispiel 2: Auswahl von Elektronikware
Preisvergleich (z.B. Fernseher) bei Idealo
Ergebnis:
Nach einem hierarchischen Suchvorgang gelangt man zu einer Startseite für
eine parametrische Suche. Bei einer parametrischen Suche wird durch die
Benutzerauswahl eines Attributwertes die Ergebnismenge eingeschränkt.
Die Ergebnismenge kann dann durch Auswahl weiterer Attributwerte iterativ
eingeschränkt werden, dabei kann auch eine leere Ergebnismenge auftreten.
Durch Rücknahme von Einschränkungen kann sich die Ergebnismenge wieder
vergrößern. Die Kardinalität der Ergebnismenge der momentanen Selektion ist
(meistens) angegeben.
Die Vorgehensweise entspricht einer iterativen Navigation bezüglich der
Attribute des Suchraums.
© Prof. Kießling 2016
Kap. 1 - 68
1.5 Übersicht Multimedia-Suche
Suche in Multimediabeständen bestehend aus
 Bildern,
 Audios,
 Videos.
Multimediasuche findet meist in textuell erschlossenen Beständen ab. Die
Erschließung findet in sozialen Netzwerken durch Annotierungen (Tagging)
mit Hilfe eines offenen Vokabulars statt.
Für die professionelle Annotierung existieren z.B. spezifische XMLSprachen wie MPEG-7 (siehe Schema).
Beispiele: Videos mit den Annotierungen „Clinton“ „2016“
●
YouTube
●
Yahoo
© Prof. Kießling 2016
Kap. 1 - 69
Praktisches Beispiel: Google Bildersuche
Suche Bild aus tz aus der Wochenendausgabe vom 11./12.11.06:
© Prof. Kießling 2016
Kap. 1 - 70
Aus dem Zeitungsartikel, in dem das Bild eingebettet ist (Erschließung über
Umgebungstext), kann der Leser folgende Stichwörter entnehmen:
 1. Versuch: saturn, ring, earth, cassini 
(SS07: 79.400, seit SS13: Anzahl wird nicht mehr angezeigt.)
 2. Versuch: saturn, eclipse, 2006-09-15, cassini 
(SS07: 215, seit SS13: Anzahl wird nicht mehr angezeigt.)
Aus der Ergebnismenge von Google-Bildsuche kann bislang nur durch
(menschliche) Analyse das gesuchte Bild und seine Quelle gefunden werden.
Quelle: http://photojournal.jpl.nasa.gov/catalog/?IDNumber=PIA08329
© Prof. Kießling 2016
Kap. 1 - 71
Die Suche nach ähnlichen Bildern in einem Bildarchiv bzw. die BildAnnotierung und Suche ausgehend von einem Vergleichsbild ist im
Allgemeinen ein kaum zu lösendes Problem. Für stark eingeschränkte
Anwendungsdomänen wie z.B. Gesichtserkennung werden Lösungen
angeboten.
Beispiele:
Polar Rose, 2010 gekauft von Apple, bzw. Gesichtserkennung bei Facebook
abgeschlossenes Lehrstuhlprojekt: Heron
Bildsuchekriterien:
z.B. Farbhistogramm (blau/weiß)
© Prof. Kießling 2016
Textur (Hermelinfell)
Kap. 1 - 72
Ähnlichkeitssuche für Bilder im Web (Reverse Image Search):
●
Google Bildersuche
●
TinEye
●
Yandex
Unterschiedliche Güte der Suchergebnisse je nach Suchverfahren.
Suche allein auf Bildähnlichkeit basierend liefert ungenügende Ergebnisse.
Trefferraten werden durch Metainformationen verbessert.
© Prof. Kießling 2016
Kap. 1 - 73