Prof. Kießling, Suchmaschinen, Kap. 1
Transcrição
Prof. Kießling, Suchmaschinen, Kap. 1
Vorlesung Suchmaschinen Universität Augsburg Sommersemester 2016 Prof. Dr. Werner Kießling Institut für Informatik Lehrstuhl für Datenbanken und Informationssysteme © Prof. Kießling 2016 Kap. 1 - 1 Vorlesungsbetrieb • Zwei Vorlesungen pro Woche im Hörsaal 2045 (N) • Dienstag 10:00 – 11:30 Uhr • Donnerstag 10:00 – 11:30 Uhr • Folien der Vorlesung sind spätestens am jeweiligen Vorlesungstag im Internet verfügbar http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/scripts/ Zugang mit RZ-Kennung • Regelmäßig nach Aktuellem auf der Homepage schauen! © Prof. Kießling 2016 Kap. 1 - 2 Kontakt Prof. Dr. W. Kießling: Sprechstunde: Donnerstag 11:45-12:15 Uhr (2051 N) Dr. Florian Wenzel und Lena Rudenko (2001 / 2002 N): {wenzel, lena.rudenko}@informatik.uni-augsburg.de © Prof. Kießling 2016 Kap. 1 - 3 Übungen ● ● ● ● Übungsblätter werden jeweils freitags auf der Homepage veröffentlicht Es wird davon ausgegangen, dass die Blätter vor dem Übungstermin angesehen / bearbeitet werden Während der Übung: ● Erarbeitung der wichtigsten Aufgaben in Kleingruppen ● Präsentation und Diskussion der erarbeiteten Ergebnisse Keine Punktevergabe, keine Zulassungsbedingung zur Klausur © Prof. Kießling 2016 Kap. 1 - 4 Übungsgruppen Gruppe 1 2 3 4 Zeit Montag, 12:15 – 13:45 Uhr Mittwoch, 10:00 – 11:30 Uhr Mittwoch, 14:00 – 15:30 Uhr Freitag, 10:00 – 11:30 Uhr Raum 2056 (N) 2056 (N) 2056 (N) 2056 (N) http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/groups/ Verteilung auf Übungsgruppen: Sonntag, 17.04.16 um 18:00 Uhr © Prof. Kießling 2016 Kap. 1 - 5 Klausur Termin: 12.07.16, 17:00 Uhr (Mensa) Dauer: 90 Minuten Nur Papierunterlagen sind zugelassen (open book) Anmeldung bei STUDIS zwingend erforderlich! Näheres unter: http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/ exams/ © Prof. Kießling 2016 Kap. 1 - 6 Gliederung 1 Einführung 2 Volltext-Suchmaschinen 3 Präferenz-Theorie 4 Preference SQL-System 5 Implementierung von Präferenz-Querysprachen 6 Top-k-Algorithmen 7 XML-Suchmaschinen 8 Softwareaspekte von SQL-Suchanwendungen © Prof. Kießling 2016 Kap. 1 - 7 Allgemeine Literatur Dirk Lewandowski (Hrsg.): Handbuch Internet-Suchmaschinen 2: Neue Entwicklungen in der Web Suche Akademische Verlagsgesellschaft AKA GmbH, Heidelberg, 2012; ISBN: 978-3-89838-651-7 Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press; 2008; ISBN: 978-0-521-86571-5 Marc Levene: An Introduction to Search Engines and Web Navigation, 2nd Edition, Wiley, 2010; ISBN: 978-0-470-52684-2 Ricardo Baeza-Yates & Berthier Ribeiro-Neto: Modern Information Retrieval, 2nd Edition, New York, NY: ACM Press Books; 2010; ISBN: 978-0-321-41691-9 © Prof. Kießling 2016 Kap. 1 - 8 1 Einführung 1.1 Unterschiedliche Suchverfahren 1.2 Überblick IR-Systeme 1.3 Überblick Web-Suche 1.4 Überblick Attribut-Suche 1.5 Überblick Multimedia-Suche 1.6 Überblick Soziale Netzwerke 1.7 Mobile Dienste 1.8 Metasuchmaschinen 1.9 Google Analytics 1.10 Zusammenfassung Quelle: http://www.flickr.com/photos/deia/7942538/ „I will use Google before asking dumb questions.“ © Prof. Kießling 2016 Kap. 1 - 9 1.1 Unterschiedliche Suchverfahren Wichtigste Komponente für ein Such-System ist die Menge der Dokumente, Korpus genannt, und deren interne Struktur. Der Korpus kann unstrukturiert semi-strukturiert oder auch strukturiert sein. Korpus von Dokumenten Anfrage © Prof. Kießling 2016 SuchSystem Ergebnis Kap. 1 - 10 Dokumente können sein: Artefakte (z.B. gescannte Bücher) Kataloge (z.B. Branchenbücher) Linksammlungen (Webkataloge) Videosammlungen (YouTube) Soziale Daten (z.B. Facebook) Dateien (z.B. Excel, PDF, Text, HTML, XML, …) … © Prof. Kießling 2016 Kap. 1 - 11 Beispiel: Suche nach Buch im Antiquariat 1.) Stöbern Struktur (Sachgebiet, Thema, Autor, …) Navigation (Teilbereiche, Signaturen, ...) 2.) Dialog Zweck, Absicht, Ziel Fragen - Antworten Benutzer-Modellierung Hintergrundwissen „Gezielte Suche“ Frage Antiquar Empfehlungen Relevanz? © Prof. Kießling 2016 Kap. 1 - 12 Soziale Suche Mit Hilfe von sozialen Vernetzungen (Freundes-, Kollegenkreis, …) kann ein Suchvorgang gleichzeitig von mehreren Teilnehmern ausgeführt werden. Für den Erfolg dieser Vorgehensweise ist wichtig: Hoher Vernetzungsgrad, verteilter Korpus Gemeinsamer Code, klare Spezifikation Terminierung, Qualität und Quantität der Ergebnisse Anfrage Ergebnis Freundeskreis als Such-System © Prof. Kießling 2016 Kap. 1 - 13 Beispiel: Wohnungssuche 1.) Suchanfrage über persönliche oder webbasierte soziale Netzwerke streuen und auf hohen Verbreitungsgrad hoffen. 2.) Gemeinsamer Code (Wohnungen und ihre Eigenschaften) 3.) Klare Spezifikation (Größe, Preis, Typ) 4.) Bewertung der Ergebnisse erfolgt auch nach weiteren (meist nicht vollständig kommunizierten) weichen Faktoren. 5) Meistens wird man unter den ersten k Rückmeldungen fündig (Top-k-Suche). © Prof. Kießling 2016 Kap. 1 - 14 Beispiel: Wohnungssuche in Facebook-Gruppe Gemeinsamer Code © Prof. Kießling 2016 Spezifikationen weiche Faktoren Kap. 1 - 15 Eigenschaften von sozialen Netzen: ● Mitglieder von sozialen Netzen können sich ihrerseits auch wieder auf andere soziale Netze abstützen. ● Mitglieder von sozialen Netzen können aber auch automatische Suchsysteme, Spezialisten, Bibliotheken, … zu Rate ziehen. ● Die Kommunikation (Aussage, Frage – Antwort) erfolgt asynchron. © Prof. Kießling 2016 Kap. 1 - 16 1.2 Überblick IR-Systeme Suche nach Information in Bibliothek Anfrage Relevanz? © Prof. Kießling 2016 Korpus von Dokumenten IRSystem Gewichtete Dokumente Information Retrieval 1. Doc1 2. Doc2 3. Doc3 … Kap. 1 - 17 Beispiel: Anfrage nach Veröffentlichung in Bibliothek OPAC der UB Augsburg: © Prof. Kießling 2016 Kap. 1 - 18 Eigenschaften von OPAC: Korpus (Katalog) Suchmöglichkeiten: Autor, Schlagwort, … Logische Verknüpfungen Trunkierungszeichen Freie Suche abgeschlossen, geringe Änderungsrate Attributsuche Boolesche Algebra Wildcards: “?“, “*“ keine Volltextsuche dank Digitalisierung des Korpus Filter / Navigation: Suche eingrenzen BibTip Andere Benutzer fanden auch interessant © Prof. Kießling 2016 Annotationen, sem. Kategorien Empfehlungen durch Analyse des Benutzerverhaltens Kap. 1 - 19 Exemplarische Trefferliste: Autor = Kießling, Navigationshilfen © Prof. Kießling 2016 Kap. 1 - 20 Exemplarischer Treffer: Attribute – digitalisierter Text(ausschnitt) © Prof. Kießling 2016 Kap. 1 - 21 OPAC-Beispiele (Kardinalität der Ergebnismenge aus SS2010, SS2016): ● ● ● ● ● ● Freie Suche „Preference und Algebra“ Leere Ergebnismenge (0, 0) Freie Suche „Kießling“ Überflutung (283, 400) Attributsuche: Autor „Kießling“ Relevanz (171, 206) Attributsuche: Autor „Kie?ling“ Korrektheit (-, 29) A.-Suche: Autor „Werner Kießling“ Relevanz (25, 31) Kießling, Kiessling automat. Graphemerweiterung © Prof. Kießling 2016 Kap. 1 - 22 Digitalisierung von Buchbeständen: Volltextsuche Beispiele: Google Book Search Search Inside! von Amazon Rechtliche Probleme bei noch geschützten Werken: Urheberrechte Nutzungsrechte, Verwertungsrechte © Prof. Kießling 2016 Kap. 1 - 23 Suche nach Information in Wikipedia Anfrage Relevanz? © Prof. Kießling 2016 Autoren: Korpus von Dokumenten IRSystem Gewichtete Dokumente 1. Doc1 2. Doc2 3. Doc3 … Kap. 1 - 24 Beispiel: Anfrage nach Artikel (Konzept) in Wikipedia Wikipedia Korpus (Online-Enzyklopädie) Suchmöglichkeiten: Artikel (Von A bis Z) Piktogramm Lupe Verlinkung Links auf diese Seite © Prof. Kießling 2016 geschlossener Korpus bezogen auf http://de.wikipedia.org/, offener und „kleiner“ Autorenkreis im sozialem Netzwerk, Kollaboration [Bearbeiten], Konzeptsuche Volltextsuche, Syntax Semantisches Netzwerk Verweisstruktur (Backlinks) Kap. 1 - 25 1.3 Web-Suche Websuche-Technologie stammt ursprünglich von IR-Systemen. 1993: der erste Such-Roboter „The Wanderer“ im WWW „The Wanderer“ erstellte von 1993 bis 1995 einen Index des zu dieser Zeit noch übersichtliche Web. Im Juni 1993 gab es nur 130 Webseiten. Der Index diente der Vermessung des Webs und nicht der Suche. 1994/95: erste Suchmaschinen von kommerziellen Firmen (Lycos, Infoseek, Alta Vista, …) 1998: Entstehung heutiger marktführender Suchmaschinen (Google, Bing) → Geschichte der Suche im WWW © Prof. Kießling 2016 Kap. 1 - 26 1.3.1 Architektur Websuche Web Spider Anfrage Relevanz? © Prof. Kießling 2016 Korpus von Dokumenten SuchSystem Gewichtete Dokumente Kap. 1 - 27 Im Unterschied zu einem IR-System, bei dem der Korpus eher geschlossen und statisch ist, wächst das Web kontinuierlich, und auch bereits erfasste Inhalte ändern sich. Der Korpus des Webs ist offen und dynamisch, deswegen werden zusätzliche Komponenten benötigt. Ein Spider (auch "Crawler" oder "Robot" genannt) bewegt sich durch das Verfolgen von Links selbständig durch den Datenbestand des Internets und ermittelt die Inhalte der Webseiten. © Prof. Kießling 2016 Kap. 1 - 28 Verfeinerung Spider Spider: Web TODO: Liste von URLs Auswahl © Prof. Kießling 2016 Laden Extraktion Füge URLs von Links hinzu Seite indizieren Kap. 1 - 29 Wichtigstes Merkmal neben der Anzahl der erfassten Seiten ist die Update-Rate, wodurch neuer oder geänderter Inhalt erfasst wird. Bei Google wird dies als „Google Dance“ bezeichnet: Bis 2003 wurden die Suchindizes einmal monatlich neu berechnet. Inzwischen läuft der Update-Prozess kontinuierlich. Trotzdem gibt es Seiten, die nicht erfasst werden bzw. nicht erfasst sein wollen (Deep Web / Dark Web). © Prof. Kießling 2016 Kap. 1 - 30 Exkurs: Deep Web Die Bezeichnung Deep Web bezieht sich auf alle Internet-Inhalte, die aus verschiedenen Gründen von Suchmaschinen nicht indiziert sind oder nicht indiziert werden können, z.B. dynamische Webseiten, geblockte Seiten (erwarten CAPTCHA-Antwort), nicht verlinkte Seiten, ... Der Begriff Deep Web wurde von dem Informatiker Mike Bergman im Jahr 2000 eingeführt. In seiner Veröffentlichung „The Deep Web: Surfacing Hidden Value“ von 2001 weist er darauf hin, dass die Inhalte von Deep Web 400 bis 550 Mal größer sind, als im allgemein zugänglichem Web. © Prof. Kießling 2016 Kap. 1 - 31 Arten des Deep Web Nach Sherman & Price (2001) unterscheidet man fünf Typen des Deep Web (Wikipedia): ● Opaque Web: Webseiten, die generell indiziert werden könnten , es aber aus technischen Gründen oder Gründen der Leistungsfähigkeit nicht sind. ● Private Web: Webseiten, die indiziert werden könnten, es auf Grund von Zugangsbeschränkungen aber nicht werden. ● Proprietary Web: Webseiten, die erst nach Anerkennung einer Nutzungsbedingung oder nach einer Identifikation indiziert werden können. © Prof. Kießling 2016 Kap. 1 - 32 Arten des Deep Web ● Invisible Web: Webseiten, die indiziert werden könnten, es jedoch aus kaufmännischen oder strategischen Gründen nicht werden. ● Truly Invisible Web: Webseiten, die aus technischen Gründen (noch) nicht indiziert werden können, z.B. nicht-Standardformate (Flash) oder Formate, die aufgrund ihrer Komplexität nicht erfasst werden können (Grafikformate). © Prof. Kießling 2016 Kap. 1 - 33 Exkurs: Dark Web Deep Web und Dark Web werden fälschlicherweise oft gleichgesetzt. Eine Gemeinsamkeit ist, dass man auf Inhalte nicht mit kommerziellen Suchmaschinen zugreifen kann. Das Dark Web kann man dabei als Teil von des Deep Web betrachten. Die Seiten des Dark Web werden absichtlich vor dem Zugriff durch Suchmaschinen geschützt, nutzen maskierte IP-Adressen und sind nur mit speziellen Web-Browsern zugänglich. Beiden Begriffe sind der breiten Öffentlichkeit aus den Nachrichten bekannt, als das FBI ein Online Schwarzmarkt „Silk Road“ (2013) und danach auch seinen Nachfolgen „Silk Road 2.0“ (2014) geschlossen hat. © Prof. Kießling 2016 Kap. 1 - 34 Dark Web Zugang Das Tor Projekt stellt mit Hilfe des Tor Browsers eine Möglichkeit zur anonymen Nutzung des Webs zur Verfügung. Auch eine Version für Android ist verfügbar. Anfragen werden dabei innerhalb des Tor Netzwerkes über mehrere Server (mindestens 3) weitergeleitet, um die Identität des Nutzers zu verschleiern. Daten werden dabei verschlüsselt übertragen. Neben gewöhnlichen Webseiten kann mit Tor auch auf sogenannte Hidden Services zugegriffen werden. Diese sind über eine sogenannte “onion address“ erreichbar (Übersicht über legale Services). Für eine detaillierte Beschreibung des Tor Netzwerkes wird auf die Veröffentlichung „Tor: The Second-Generation Onion Router“ von Dingledine, Mathewson und Syverson verwiesen. © Prof. Kießling 2016 Kap. 1 - 35 Nutzen des Dark Web In Ländern mit repressiven Regimen kann das Dark Web für einen politischen Kampf genutzt werden. Facebook hat eine Version der Seite im Dark Web zugänglich gemacht, damit auch aus Ländern, in denen Facebook verboten ist, darauf zugegriffen werden kann. Sie ist nur mit Browsern erreichbar, die Tor unterstützen: https://facebookcorewwwi.onion Im Zuge der Dark Web Debatte wird oft über die dezentrale digitale Währung Bitcoin diskutiert, da sie auch für die anonyme Bezahlung im Dark Web Einsatz findet. Weitere Informationen sind in der Veröffentlichung „Bitcoin: A Peer-to-Peer Electronic Cash System“ von Nakamoto zu finden. © Prof. Kießling 2016 Kap. 1 - 36 Vom Deep Web zurück zum Visible Web In den meisten Fällen ist man natürlich an einer Anmeldung interessiert: • Google (Bekanntmachung für Spider per http://www.google.de/addurl/) • Beschreibung der eigenen Webstruktur z.B. durch Sitemaps Über das Robots Exclusion Protocol kann ausgeschlossen werden, dass Seiten vom Crawler besucht werden. Allerdings können Crawler eine definierte robots.txt Datei, die beschreibt welche Seiten indiziert werden dürfen und welche nicht, ignorieren. Es handelt sich also um eine freiwillige Einhaltung des Protokolls. © Prof. Kießling 2016 Kap. 1 - 37 Um der großen Datenmenge Herr zu werden, extrahiert ein Merkmalsextraktor relevante Merkmale und Texte aus den gefundenen Webseiten. Durch die Merkmalsextraktion wird die Datenmenge bereits deutlich verkleinert (Korpus). Um die grammatikalische Komplexität (Flexion) zu reduzieren, werden Wörter durch Text-Operationen auf ihren Wortstamm zurückgeführt (Stemming). Einer der bekannteste Algorithmen ist der Porter-Stemmer. Zudem werden Füllwörter (Artikel, …) entfernt (Stopword removal), da sie oft nur grammatikalische Informationen tragen. Siehe dazu Kapitel 2 in „Introduction to Information Retrieval“. © Prof. Kießling 2016 Kap. 1 - 38 Um über die Suchbegriffe wieder auf die Originale zurück schließen zu können, verwaltet der Indexierer die extrahierten Merkmale und Texte der Dokumente und erlaubt den schnellen Zugriff auf die Originale über diese Merkmale und Texte. Dieser Suchindex wird als „Inverted File“ implementiert. Er hat die gleiche Funktion wie ein Schlagwortregister, das Schlagwörter denjenigen Buchseiten zuordnet, in denen das Schlagwort vorkommt. Beispiel: ID Term Dokument : Position Di: Unter einem blauen … Himmel trafen … Dj: Montags machen viele blau. Unter freiem Himmel … © Prof. Kießling 2016 n blau i : 3, j : 4 n+1 Himmel i : 4, j : 7 … Kap. 1 - 39 Verfeinerung Websuche Anfrage SuchSystem: Text-Operationen Logische Sicht Reformulierung AnfrageOperationen Suche Bewertete Dokumente © Prof. Kießling 2016 Bewertung Spider Indexierung Index DatenbankManager Inverted File Ergebnismenge Dokument DB Kap. 1 - 40 1.3.2 Navigationsanfragen im Web Beispiel: Navigation per Links Ziel: Ich will mich über Vorlesungen des Lehrstuhls für „Datenbanksysteme“ informieren. Einstieg per URL http://www.informatik.uni-augsburg.de/de/lehrstuehle/ Ergebnis: Durch die Linkstruktur in HTML werden die Lehrstühle thematisch so strukturiert, dass die Informationsbedürfnisse der Leser (hoffentlich vollständig) erfüllt werden. Der Leser erschließt nach den eigenen Bedürfnissen die Struktur der Webseite per Navigation. Hypertext, HTTP, (X)HTML, serverseitiges Skripting (Java, Servlet, Python, PHP, …), clientseitiges Skripting (JavaScript, Applet, AJAX) © Prof. Kießling 2016 Kap. 1 - 41 Beispiel: Semantikunterstützte Navigation in a priori definierten Kategorien per Hierarchischer Suche Ziel: Ich will mich um eine Urlaubsreise im Sommer kümmern. Einstieg per Directory: DMOZ (open directory project): – Vordefinierte Hierarchien zur Navigation, z.B. Regional → Europe → Germany → States → Bavaria → Localities – Begrenzte Auswahl an Ergebnissen da von Menschen erstellt & verwaltet Kommerzielle Portale (wie z.B. Yahoo) greifen nicht mehr auf diese Directories zurück, da die Aktualisierung zu aufwändig ist. © Prof. Kießling 2016 Kap. 1 - 42 © Prof. Kießling 2016 Kap. 1 - 43 Ergebnis: Exploratives Suchen in Kategorien keine einheitlichen Kategorien und Relationen für die Semantik einer Applikation Anzahl der in einer Kategorie gesammelten Konzepte ist angegeben Hierarchische Suche wird immer mehr durch Volltextsuche verdrängt. Hierarchische Suche, die einen Bezug zu geographischen Inhalten hat, wird durch Oberflächenelemente wie interaktive Maps versteckt. © Prof. Kießling 2016 Kap. 1 - 44 Hierarchische Suche mit Hilfe von Karten: Suche nach Wanderungen im Allgäu → Zoom zu Wanderungen in Immenstadt © Prof. Kießling 2016 www.outdooractive.com Kap. 1 - 45 1.3.3 Suchanfragen im Web Korpus (WWW): Offen Dynamisch, indizierter Inhalt ändert sich! Unentdeckte „Kontinente“ (Deep Web) Suchmöglichkeiten: Stichwörter für Volltextsuche Erweiterte Suche: (z.B. Google) Logische Verknüpfungen Wildcard-Suche Zahlenbereiche Ortsspezifische Suche per Domain-Einschränkung Leere Ergebnismenge, Überflutung , Relevanz © Prof. Kießling 2016 Kap. 1 - 46 Zipfsches Gesetz Welche Suchbegriffe muss man wählen, um mit ihnen relevante Quellen zu finden? Ein Hinweis gibt das Zipfsche Gesetz: Der Rang i eines Wortes ist indirekt proportional zu seiner rel. Häufigkeit: Freq(Worti) = i-ϴ x Freq(Wort1), wobei 1,5 < ϴ < 2 für die meisten Sprachen gilt (Potenzverteilung). Beispiel: Für ϴ = 1 besitzt das 2. häufigste Wort eine Freq(Worti) Häufigkeit von 1/2 des häufigsten Wortes. I II III © Prof. Kießling 2016 Rang i • Zone I: Sehr häufige Wörter sind meist funktionale Wörter (der, die, und, …). • Zone II: Mittelhäufige Wörter erschließen einen Text am besten. • Zone III: Seltene Wörter sind häufig Tippfehler oder zu spezifische Wörter (Ranb, Freq., Hornussen, …). Kap. 1 - 47 Folgerungen aus dem Zipfschen Gesetz: Positiv: Füllwörter machen einen großen Anteil von Texten aus. Die Eliminierung von Füllwörtern hat keinen Einfluss auf das Retrieval, erspart jedoch Speicher. Negativ: Für die meisten Wörter ist eine signifikante statistische Analyse (z.B. Korrelationsanalyse) schwer zu erzielen, da die Wörter in einem Korpus zu selten auftreten. Beispiel: Sprachabhängige Worthäufigkeiten, englische Worthäufigkeiten © Prof. Kießling 2016 Kap. 1 - 48 Beispiel: Verknüpfte Stichwortsuche Welche Zulassungsbedingungen müssen eingehalten werden, um an der Klausur in Datenbanksysteme I teilnehmen zu dürfen? Wunschseite: http://www.informatik.uni-augsburg.de/de/lehrstuehle/dbis/db/lectures/ws1415/datenbanksysteme1/exams/ Suche mit Google (Achtung! Google Suche ist personalisiert.) Ergebnisse aus SS16: Von den 2940 Treffern finden sich auf Position 1 bis 4 Dokumente des Lehrstuhls. Ein Ortsbezug wird automatisch hergestellt. Das gewünschte Dokument ist erst auf Position 3. Fehlende Relevanz © Prof. Kießling 2016 Kap. 1 - 49 2. Änderung: ganz genauen Domänenbezug hinzunehmen www.informatik.uni-augsburg.de Suche mit Google Ergebnisse aus SS16: Es werden durch die Domain-Einschränkung 7 Treffer angeboten. Der 2. Treffer bietet das Klausurdatum und die Zulassungsbedingungen korrekt an. © Prof. Kießling 2016 Kap. 1 - 50 1. Änderung: Domänenbezug erzwingen durch Domain-Einschränkung auf www.uni-augsburg.de Suche mit Google Ergebnis: Die beiden zuvor gefunden Dokumente mit Bezug zum Lehrstuhl werden nicht mehr gefunden, da sie aus Subdomains der Uni Augsburg stammen. SS16: keine Treffer © Prof. Kießling 2016 Kap. 1 - 51 3. Änderung: Kompositum „Zulassungsbedingung“ semantisch auf „Zulassung“ reduzieren, kein Domänenbezug Suche mit Google Ergebnisse aus SS16: Es werden insgesamt 8720 Dokumente gefunden. Auf Platz 1+2 befinden sich Seiten zu DB1 des Lehrstuhls im WS12/13 und WS 09/10. Der Ortsbezug wird wiederum automatisch hergestellt. Überflutung, jedoch gutes Ranking © Prof. Kießling 2016 Kap. 1 - 52 Stand der Dinge: Iteratives Vorgehen (Suche im „Heuhaufen“ geeignetere (!) Stichwörter, Filterfunktionen der Suchmaschine wie z.B. Domain) Solange keine Zufriedenheit mit dem Suchergebnis besteht, 1. Abfrage(re)formulierung, 2. [Selektion], 3. [Navigation]. © Prof. Kießling 2016 Kap. 1 - 53 Bei der Stichwortsuche ist ein häufiges Phänomen eine leere Ergebnismenge (empty result set) bzw. als Alternative eine Überflutung (flooding effect) durch meist irrelevante Dokumente. Beide Phänomene erschweren, dass Benutzer relevante Treffer entdecken können. Um die Relevanz der Treffer zu erhöhen, bieten sich Modelle an, die semantische Zusatzinformationen bei der Suche bzw. Navigation ins Spiel bringen: Stichwortsuche mit Unterstützung von in Beziehung stehenden semantischen Kategorien (Semantische Netzwerke, Ontologien, Taxonomien) Attributsuche (Schemata) Präferenzen (Benutzermodelle) © Prof. Kießling 2016 Kap. 1 - 54 Beispiel: Stichwortsuche nach mehrdeutigem Wort „Saturn“ in verschiedenen Suchräumen Korpus Treffer (SS07) (SS16) 1. Web, Suche mit Google 2a. Gesamtverzeichnis, Suche mit Google 2b. Verzeichnis „Wissenschaft“, Suche mit Google 54.100.000 107.000.000 66.500 2012: Semantische Suche abgeschaltet 189 2012: Semantische Suche abgeschaltet Ergebnis: Die Suche in Kategorien erhöhte die Relevanz der Treffer, da irreführende Synonyme ausgeschlossen sind. Das Erstellen von Kategorien sowie die Zuordnung von Dokumenten zu Kategorien erfordert jedoch redaktionellen Zusatzaufwand bzw. gemeinschaftliches Indexieren (social tagging, folksonomy). © Prof. Kießling 2016 Kap. 1 - 55 Stichwortsuche mit semantisch richtigen, aber nicht im Korpus verwendeten Stichwörtern Beispiele (Ergebnisse aus SS16): Suche Zahnarzt (458.000) / Dentist (127.000) in Augsburg? Suche Zahnarzt OR Dentist (463.000) in Augsburg? Synonymsuche z.B. ~Dentist in Augsburg bei Google (127.000)? Ergebnis: Die Suche erfolgt nur anhand von Wörtern nicht Konzepten. Stichworterweiterung aus Synonymwörterbücher, VerODERung mit Synonymen oder themenrelevante Vorschläge © Prof. Kießling 2016 Kap. 1 - 56 Beispiele: Stichwortsuche mit Unterstützung durch semantisches / linguistisches Wissen Beispiele: Suche nach Alfons Huhn als Bild bei Flickr Bis 2013 alternative Vorschläge nach leerer Ergebnismenge wie “chicken“, 2016 leere Ergebnismenge Suche nach Information Retrieval bei Ask.com Bis 2013 Möglichkeit von semantischen Anfrageerweiterungen bzw. Anfrageeinengungen (wissensbasiert), 2016 statistikbasierte Termerweiterungen Ergebnis: Semantisches / linguistisches Wissen wird durch statistikbasiertes Wissen ersetzt. © Prof. Kießling 2016 Kap. 1 - 57 Beispiel: Volltextsuche und Plagiarismus Welchen Autoren lässt sich der Text "Let us exemplify the unsatisfying state of the art" zuschreiben? Suche mit Google Ergebnis: Textstellen, insbesondere Zitate, lassen sich hervorragend mit Volltextsuche überprüfen. Ergebnisse 1 - 1 von ungefähr 1 für "Let us exemplify the unsatisfying state of the art". (0,27 Sekunden, SS2007) SS2016: 5 URLs © Prof. Kießling 2016 Kap. 1 - 58 1.4 Überblick Attribut-Suche Voraussetzung für eine Attribut-Suche sind strukturierte Daten. Diese werden im Normalfall durch Schemata beschrieben. Standardmäßig kommt eine Datenbank im Backend zum Einsatz: Im Unterschied zur Stichwortsuche ist bei einer Attributsuche ein exaktes Daten-Retrieval möglich. Web-Applikationen verstecken das Datenmodell, die dazu gehörenden Schemata und die Ablauflogik. Eingabefelder erlauben die Selektion und Projektion der gewünschten Daten. Beispiel: Reiseauskunft bei der DB © Prof. Kießling 2016 Kap. 1 - 59 Bei der Attributsuche mit exakten Treffern (exact match) treten die bekannten Phänomene auf: 1. 2. 3. Leere Ergebnismenge (empty result set) Überflutung (flooding effect) Eine Bewertung (ranking) ist nicht möglich. Viele Datenbanksysteme kombinieren die Attribut- mit der Volltextsuche wie z.B. „Oracle Text“ von Oracle. © Prof. Kießling 2016 Kap. 1 - 60 Bemerkung (Warnung): Webseiten, die dynamisch durch Attributsuche generiert werden, können nicht indiziert werden, da der Spider sonst alle möglichen Eingabe-Kombinationen ausprobieren müsste ( Deep Web). Die Ergebnisse von Fachdatenbanken mit einem Web-Frontend liegen aus dem gleichen Grund im Deep Web trotz einer guten Ergebnisqualität. Die Stichwortsuche kann in diesen Fällen also nur dazu benutzt werden, geeignete Fachportale zu finden. „I will use Google before asking dumb questions.“ © Prof. Kießling 2016 Kap. 1 - 61 Beispiel: Elektronischer Handel (E-Commerce) B2C (Business-to-Consumer) EcommerceSystem Anfrage Relevanz? Kauf! © Prof. Kießling 2016 Gewichtete Waren DB 1. Ware1 Kauf! 2. Ware2 Kauf! 3. Ware3 Kauf! … Kap. 1 - 62 Beispiel 1: Mieten einer Wohnung Online-Immobilienmakler Korpus (Immobilienbestand) Suchmöglichkeiten: Reiter, Überschriften Suchfenster Hintergrundwissen abgeschlossen, rel. geringe Änderungsrate Kategorien, Navigation Attributsuche, hierarchische Suche Geographisches Informationssystem (GIS) Beispiel: Wohnen, Augsburg … , Mietwohnungen (SS07) Salomon-Idler, Umkreis Automat. Erweiterung um Univiertel, ab SS08: „Radius“ (SS16) #Zimmer, Fläche, Preis Leeres Ergebnis bei zu geringem Preis Parametrische Suche (Synonym Facettensuche) © Prof. Kießling 2016 Kap. 1 - 63 Seit SS2013 http://www.immobilienscout24.de/ Vorschläge für Autovervollständigung der Benutzereingabe auf mehreren geographischen Konzeptebenen: - Orte, Kreise, Bezirke und Gemeinden, Straßen Parallele, konzeptspezifische Suche mit Vorschlag von 5 Varianten je Konzept © Prof. Kießling 2016 Kap. 1 - 64 Seit SS2013 Definition von oberer (Preis) oder unterer (Zimmer, Fläche) Grenze für numerische Parameter. Umkreis kann in Minuten oder in km angegeben werden. Dynamische Anzeige der Trefferanzahl in Abhängigkeit von jedem Parameter. Frühere attributbasierte Suche ist ersetzt durch Parametrische Suche mit 4 Attributen, wobei WO und WAS für den Anwender als Prefilter wirken. © Prof. Kießling 2016 Kap. 1 - 65 Suche anpassen: Anzeige aller vorhandenen Parameter © Prof. Kießling 2016 Kap. 1 - 66 Beobachtung: In Abhängigkeit vom Datenbestand und der Anfrage können bei der Attribut-Suche zwei Phänomene auftauchen: 1. 2. Leere Ergebnismenge (empty result set) Viel zu große Ergebnismenge (flooding effect) Mit Hilfe der „Parametrischen Suche“ wird der Einfluss von Attributen auf die Größe der Ergebnismenge visualisiert und damit dem Benutzer ein Feedback auf seine Aktionen gegeben. © Prof. Kießling 2016 Kap. 1 - 67 Parametrische Suche Beispiel 2: Auswahl von Elektronikware Preisvergleich (z.B. Fernseher) bei Idealo Ergebnis: Nach einem hierarchischen Suchvorgang gelangt man zu einer Startseite für eine parametrische Suche. Bei einer parametrischen Suche wird durch die Benutzerauswahl eines Attributwertes die Ergebnismenge eingeschränkt. Die Ergebnismenge kann dann durch Auswahl weiterer Attributwerte iterativ eingeschränkt werden, dabei kann auch eine leere Ergebnismenge auftreten. Durch Rücknahme von Einschränkungen kann sich die Ergebnismenge wieder vergrößern. Die Kardinalität der Ergebnismenge der momentanen Selektion ist (meistens) angegeben. Die Vorgehensweise entspricht einer iterativen Navigation bezüglich der Attribute des Suchraums. © Prof. Kießling 2016 Kap. 1 - 68 1.5 Übersicht Multimedia-Suche Suche in Multimediabeständen bestehend aus Bildern, Audios, Videos. Multimediasuche findet meist in textuell erschlossenen Beständen ab. Die Erschließung findet in sozialen Netzwerken durch Annotierungen (Tagging) mit Hilfe eines offenen Vokabulars statt. Für die professionelle Annotierung existieren z.B. spezifische XMLSprachen wie MPEG-7 (siehe Schema). Beispiele: Videos mit den Annotierungen „Clinton“ „2016“ ● YouTube ● Yahoo © Prof. Kießling 2016 Kap. 1 - 69 Praktisches Beispiel: Google Bildersuche Suche Bild aus tz aus der Wochenendausgabe vom 11./12.11.06: © Prof. Kießling 2016 Kap. 1 - 70 Aus dem Zeitungsartikel, in dem das Bild eingebettet ist (Erschließung über Umgebungstext), kann der Leser folgende Stichwörter entnehmen: 1. Versuch: saturn, ring, earth, cassini (SS07: 79.400, seit SS13: Anzahl wird nicht mehr angezeigt.) 2. Versuch: saturn, eclipse, 2006-09-15, cassini (SS07: 215, seit SS13: Anzahl wird nicht mehr angezeigt.) Aus der Ergebnismenge von Google-Bildsuche kann bislang nur durch (menschliche) Analyse das gesuchte Bild und seine Quelle gefunden werden. Quelle: http://photojournal.jpl.nasa.gov/catalog/?IDNumber=PIA08329 © Prof. Kießling 2016 Kap. 1 - 71 Die Suche nach ähnlichen Bildern in einem Bildarchiv bzw. die BildAnnotierung und Suche ausgehend von einem Vergleichsbild ist im Allgemeinen ein kaum zu lösendes Problem. Für stark eingeschränkte Anwendungsdomänen wie z.B. Gesichtserkennung werden Lösungen angeboten. Beispiele: Polar Rose, 2010 gekauft von Apple, bzw. Gesichtserkennung bei Facebook abgeschlossenes Lehrstuhlprojekt: Heron Bildsuchekriterien: z.B. Farbhistogramm (blau/weiß) © Prof. Kießling 2016 Textur (Hermelinfell) Kap. 1 - 72 Ähnlichkeitssuche für Bilder im Web (Reverse Image Search): ● Google Bildersuche ● TinEye ● Yandex Unterschiedliche Güte der Suchergebnisse je nach Suchverfahren. Suche allein auf Bildähnlichkeit basierend liefert ungenügende Ergebnisse. Trefferraten werden durch Metainformationen verbessert. © Prof. Kießling 2016 Kap. 1 - 73