Web Mining - Universität Hildesheim
Transcrição
Web Mining - Universität Hildesheim
Thomas Mandl Informationswissenschaft Universität Hildesheim [email protected] Web Mining Definitionen Web Mining Unterschiede zu Information Retrieval Information Extraction Übung Data Mining Machine Learning Wintersemester 2006/2007 Universität Hildesheim 2 Web Mining Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen Data Mining Primärer DomänenNT) C (Windows t ll ExchangeS(Windows NT) Backup DomänenNT) C (Windows t ll Kommunikations Server (Unix) File-Server (Novell N t ) Internet „... Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm“ Router Switch IP IP (U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining and Knowledge Discovery) Switch Firewall Router Standleitung Router Switch Server für Personalverwaltun (Windows NT) 15 ClientNT) C (Windows t 75 ClientNT) C (Windows t Liegenschaft Bonn Liegenschaft Berlin 40 ClientNT) C (Windows t Maschinelles Lernen: Definitionen Anpassung des Verhaltens (Output) an die Umwelt (Input) 3 4 Web Mining Data Mining „... enumerates patterns ... models ...“ Data Mining befasst sich mit Mustern und Modellen über Daten d.h. Data Mining extrahiert Wissen, das nicht explizit in der Datenbasis gespeichert ist und abgefragt werden kann sondern dieses Wissen ergibt sich aus einer Gesamtschau auf sehr viele Daten Data Mining fasst viele Wissenseinheiten zu neuem Wissen zusammen Web Structure Mining Web Content Mining 5 • • • • Web Usage Mining Log-Dateien von Web-Servern Verhaltensdaten von Benutzern Häufigkeiten von Zugriffen Typische Pfade • Analyse der Verlinkung zwischen Seiten und Sites • Analyse von Inhalten • Text Mining • Community Erkennung Walther, Ralf (2001): Web Mining. In: Informatik Spektrum 24 (1). S. 16-18. 6 1 Web-Usage Mining Log-File Format Besucher IP Zugriffsdatum und -uhrzeit Zugegrifffene Web-Seite Übertragenes Datenvolumen Visitor1.org - - [01/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000 Visitor1.org - - [01/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000 Visitor2.org - - [02/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000 Visitor2.org - - [02/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000 Visitor2.org - - [02/Jan/2001:00:11:00 +0200] "GET X.html HTTP/1.1" 200 1000 Visitor2.org - - [02/Jan/2001:00:11:30 +0200] "GET G.html HTTP/1.1" 200 1000 HTTP Befehl HTTP Versionsnummer Return Code Einfache Analysen in EXCEL möglich (Pivot-Tabellen) 7 The Web Utilization Miner (WUM) System zum Web Usage Mining Open Source, JAVA 8 Ablauf der Web Log Analyse mit WUM Anlegen Anlegen Mining Mining Base Base (Projekt) (Projekt) Create Create Mining Mining Base Base Log-Dateien Log-Dateien einlesen einlesen Import Import Log Log File File Windows, Linux Installation: Benutzersitzungen Benutzersitzungen festlegen festlegen Create Create Visitor‘s Visitor‘s Sessions Sessions Download In Datei WUM.v70\bin\wumgui.bat zwei Pfade editieren Starten ... Einzelpfade Einzelpfade verknüpfen verknüpfen Create Create Aggregated Aggregated Log Log http://hypknowsys.sourceforge.net/wiki/The_Web_Utilizat ion_Miner_WUM Einzelne Einzelne Pfade Pfade betrachten betrachten Draw Draw Visitor‘s Visitor‘s Sessions Sessions Alle Alle Pfade Pfade betrachten betrachten Draw Draw Aggregated Aggregated Log Log Abfragesprache Abfragesprache für für Pfade Pfade MINT MINT Ad-hoc Ad-hoc Summary, Summary, Report Report 9 10 WUM GUI WUM Report 11 12 2 MINT MINT Abfragesprache für Pfade In Datei WUM.v70\bin\wumgui.bat Java-options editieren Java mehr Speicher zuweisen Xms256m Xmx1g 13 14 ClickTracks.com ClickTracks.com 15 16 Crawler heute Web Structure Mining Analyse von einfachen Link-Strukturen mit einem Crawler http://www.cs.cmu.edu/~rcm/websphinx/ Web Content Mining z sammeln Seiten im Web z Häufig auch bezeichnet als: Robot, Spider, Wanderer, Walker z Crawlers are programs (software agents) that traverse the Web sending new or updated pages to a main server where they are indexed. Anwendungsbeispiel: WebXact Analyse der Qualität (Baeza-Yates/Ribeiro-Neto 2000, S.373) 17 18 3 Vorgehensweise Vorgehensweise crawling frontier Unbesuchte Seiten, die als Links aus anderen Seiten extrahiert wurden z (a) Seite downloaden z (b) Seite parsen u. alle verlinkten URLs extrahieren z (c) Für alle noch nicht gesehenen URLs wiederhole (a)-(c) zBreadth-First-Ansatz zVerfolgung (schichtenweise) aller Links der Ausgangsseite z... zDepth-First-Ansatz: zVerfolgung (Broder/Najork/Wiener 2003, S.679) zVerfolgung des ersten Links der Ausgangsseite des ersten Links der nächsten Seite 19 Dynamik Crawler beobachten, wie häufig sich Seiten ändern Die Frequenz der Besuch wird der Änderungsfrequenz angepasst Best first Strategie 20 Analyse der Link Struktur PageRank als „Wegweiser“ für das Crawling 21 22 23 24 Label folgen 4