Wertvolle Textdaten erschließen mittels Text Mining
Transcrição
Wertvolle Textdaten erschließen mittels Text Mining
IBM Roadshow Predictive Analytics im Mittelstand 2015 Wertvolle Textdaten erschließen mittels Text Mining © 2015 IBM Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining „Text analytics is the process of deriving information from text sources.” (Gartner IT Glossary) © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Ziele und Methoden der Textanalyse Klassifizierung Informationsextraktion Sentiment-Analyse Named Entity Recognition (NER) Automatische Zusammenfassung von Texten Semantische Suche Content Enrichment © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Herausforderungen Polysemie (ein Wort, mehrere Bedeutungen) Geographie Golf, Mini, Leon, Focus, Adam Synonymie (verschiedene Wörter, eine Bedeutung) Auto, PKW, Wagen, Fahrzeug, Karre, Rostlaube Wortformen Golf fahren, fahre, gefahren, fuhr, fuhrst, fahrt, fährt Negation (einfache und doppelte Verneinung) „Es ist schlecht, dass ich keinen Porsche habe“ Ironie / Sarkasmus Sport Auto „Das hast Du schön hingekriegt“ © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Herausforderungen: Textqualität Social Media Grammatik-, Schreibfehler Abkürzungen, Jargon, … „omg hab etz eig 0 bock auf shize mathe“ Werkstatt- / Reparaturberichte Unvollständige Sätze Schlecht zu handhabende Eingabegeräte „REPLACE 2 SEAL, REPLACE SEAL RIGHT DRIVE MOTOR, CLEAN, ADJUST, TEST. OK” Offene Antworten in Umfragen Unvollständige Sätze, Rechtschreibung, Kontextabhängigkeit “die Farben es ist schön butn” [als Antwort auf „was gefällt Ihnen an der neuen Website?“] © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Einsatzbereiche von Text Mining Customer Relationship Management (CRM) 360 Grad Sicht auf den Kunden durch die Berücksichtigung von unstrukturierten Textdaten an den Customer Touch Points Bessere Vorhersage von Kundenverhalten “Voice of the customer” Marktforschung Text Mining erlaubt die Anwendung von quantitativen analytischen Methoden auf qualitative Daten Analyse offener Fragen und Interviews Market Intelligence / Wettbewerberanalyse Systematische Analyse von Pressemitteilungen, Geschäftsberichten und Websites Antizipation von Trends und zukünftigen Entwicklungen im Markt Sicherheitsbehörden und Verwaltung Bedrohungen schneller erkennen Optimierung der Bürger-/ Klienteninteraktion Betrugserkennung Auffälliges Verhalten schneller entdecken Präziser Motive und mögliche Betrugsindikatoren entdecken Wissenschaft Medizinische Forschung und Patentrecherche Genomforschung Medikamentenentwicklung © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Mehrwert durch Einbeziehung unstrukturierter Textdaten in den Analyseprozess Natürliche Spracherkennung (NLP) und statistische Methoden erfassen die Bedeutung von Textinformationen, die bisher ungenutzt waren Zeitersparnis durch automatisierte Analyse von Emails, Web-Daten, Interviews, Call Center Notizen etc. Verbesserung der Modellgüte durch Hinzunahme quantitativer, strukturierter Daten auf Basis von unstrukturierten Textdaten Vollständige Integration in die Data Mining Workbench des SPSS Modeler © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Eine Text Mining Applikation: IBM Social Media Analytics Software as a Service: Daten + Analytics Tiefe Analyse von Milliarden von Einträgen aus Blogs, Foren, Microblogs, News, Video- und Bewertungsplattformen Anspruchsvolle Sentimentanalyse in 8 Sprachen (Version 1.3) Konfigurierbare Dashboards basierend auf führender BI Technologie On-demand Webinar: https://www.brighttalk.com/webcast/12415/142579 © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining IBM Social Media Analytics Framework Social Media Impact Social Media Segmentation Sind wir erfolgreich? Wo können wir uns verbessern? • Share of Voice • Reichweite • Sentiment Assess Erreichen wir unsere Zielgruppe? Gibt es zusätzliche Zielgruppen? Segment Discover • Themen • Schlüsselbegriffe • Zeitliche Entwicklung Geographie, Demographie Influencer, Empfehler, Kritiker Kunden, potentielle Kunden Potentielle Abwanderer Social Media Relationships Social Media Discovery Welche neuen Themen/Ideen gibt es zu entdecken? • • • • Relate Welche Faktoren beeinflussen die Aktivität, das Verhalten und die Stimmung unserer Kunden? • Affinitäten • Assoziation • Kausalität © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Technologie Daten Muster Kategorien Extraktion Cluster Konzepte Semantik Sprache Dokumente Kontext Synonyme Linguistik Wörterbücher Beziehungen Konzeptnetz Makros Reguläre Ausdrücke Kookkurrenz Token Phrasen Technologie Wie Daten Muster Extraktion Cluster Konzepte Semantik Sprache werden Extraktion Dokumente Kontext Synonyme denn Linguistik nun Wörterbücher Semantik Beziehungen die Konzeptnetz Makros Textdaten Kategorien Reguläre Ausdrücke erschlossen? Kookkurrenz Token Phrasen Technologie Daten Muster Kategorien Cluster Konzepte Kookkurrenz Sprache Dokumente Kontext Synonyme Makros Linguistik Wörterbücher Beziehungen Konzeptnetz Reguläre Ausdrücke Token Phrasen Synonyme © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Text Mining Prozess im IBM SPSS Modeler Identifikation von Konzepten Typisierung Konzept = Wort oder Wortkombination Linguistisch basierte Auswertung Fokus auf Wörter mit Aussagegehalt Berücksichtigung von Beugungen der Wortstämme (Konjugation/Deklinationen, …) Bündelung von inhaltlich gleich gerichteten Konzepten zu Typen (basierend auf Wörterbüchern) Text Link Analyse Kategorisierung Erkennen von Zusammenhängen zwischen Konzepten (z.B. Thema – Meinung, Person – Handlung) Regelbasiertes Zuweisen von Kategorien zu Texten © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Text Mining Prozess: Linguistische Verfahren Algorithmen zur Ermittlung von Äquivalenzklassen: Beugung (Birnen = Birne, Äpfel = Apfel) Synonyme Vollform: der gesamte Ausdruck hat die gleiche Bedeutung (Weizenbier = Weißbier) Komponenten: es tritt in einer Komponente eine Variation auf (Qualität des Frühstücks = Qualität des Morgenbuffets) Auslassungen bestimmter Inhaltswörter (IBM Deutschland GmbH = IBM Deutschland) Auslassung von Funktionswörtern (Schaden an Auspuff = Schaden an dem Auspuff) Geographische Varianten (tumour = tumor) Lexikalische Varianten (Automatisierung = Automation) Groß/Kleinschreibung (Apolipoprotein A = Apolipoprotein a) Varianten bei Trennzeichen wie z.B. Leerzeichen, Bindestrich, Apostroph oder Punkt (Montags-Auto = Montagsauto; Laptop Tasche = Laptoptasche) Inversionen (Tumor im Gehirn = Gehirntumor) Akzentuierte Zeichen, vor allem auf Französisch, Spanisch, Italienisch und Niederländisch (Saõ Paulo = Sao Paulo; Evguéni Primakov = Evgueni Primakov) Schreibfehlertoleranz / Fuzzy Matching: basierend auf einem Matching nach Entfernen der Vokale und Mehrfachkonsonanten sowie weiteren Ähnlichkeitsalgorithmen (Servicequalität = Servicequallität = Servicequaltät) © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Text Mining Prozess: Text Link Analyse Definition von Mustern zur Erkennung von Zusammenhängen zwischen Konzepten: Erkennung der Muster erfolgt auf Satzebene Ermöglicht die Verwendung von Makros, optionalen Elementen und Platzhaltern © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Text Mining Prozess: Ein Beispiel Text „Zimmer war gross und bequem aber Fruehstuck zu teuer“ Konzepte Zimmer, Frühstück, groß, bequem, teuer Typen Zimmer, Essen, contextual, positive, negative TextLinks Zimmer (Zimmer) – groß (contextual) Zimmer (Zimmer) – bequem (positive) Frühstück (Essen) – teuer (negative) Kategorien Zimmer_positiv Essen_negativ © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Kundenreferenz: Cablecom • • • Größter Kabelnetzbetreiber in der Schweiz Kerngeschäft: Kabelfernsehen (mehr als 54% der Schweizer Haushalte) Weitere Services: Internet, Telefonie, Mobiltelefonie • Herausforderung: Hohe Kündigerrate nach Ablauf der initialen Vertragslaufzeit • Ziele: – Quantifizierung der Kundenzufriedenheit – Verstehen und Beheben der Gründe für Abwanderung – Frühzeitiges Vermeiden von Abwanderung durch maßgeschneiderte Marketinginitiativen © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Kundenreferenz: Cablecom Presentation Layer Segmentation Modeling Propensity Modeling RFM Lifetime Value Risk Propensity Scoring Sentiment Categorization Attitudinal Data Collection Attitudinal Data Analysis Optimization Rules Fraud Propensity Scoring Business Logic Layer IBM SPSS Collaboration Services Reporting, Visualization, Model and Lifecycle Management Enterprise Mission Critical Systems Business Intelligence IBM SPSS Data Collection Survey, Data Entry, Survey Data Analysis IBM SPSS Deployment Services Scoring, Business Rules Risk Management IBM SPSS Modeler IBM SPSS Statistics Data, Text, Web Analytics Layer Enterprise View Attitudinal Data Behavioral Data Interaction Data Descriptive Data Data Layer © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Kundenreferenz: Cablecom Net Promoter Score anhand eines Beispiels “Wie wahrscheinlich ist es, daß Sie Cablecom einem Freund oder Kollegen weiterempfehlen werden?” Ergänzende offene Fragen: - Promotoren “Warum würden Sie uns weiterempfehlen?’’ - Indifferente “Was würde die Wahrscheinlichkeit erhöhen, uns weiterzuempfehlen?’’ Detraktoren “Bringt das in Ordnung” Indifferente Promotoren “Macht weiter so” Kombination aller Kundendaten - Detraktoren “Warum würden Sie uns nicht weiterempfehlen?” Klare Aufforderung zur Handlung in den Fachbereichen Kundendatenbank Vorhersagemodell für den NPS Scoring Predictive Analytics steuert die 1:1 Kundeninteraktionen und Problemlösungen Winback-Kampagne für Kunden mit niedrigem NPS ROI-Vorhersage und Messung © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining Kundenreferenz: Cablecom Durch die Kombination des Feedback-Managements mit Text Mining und statistischer Modellierung im Rahmen der neuen Customer Experience Management Strategie erreichte Cablecom in nur drei Monaten… …Reduktion der Abwanderungsrate bei Breitbandkunden von 19% auf 2% …Identifikation unzufriedener Kunden innerhalb des gesamten Kundenstamms mit einer Wahrscheinlichkeit von 78% …Steigerung der Zufriedenheit bei mehr als 50% der Kunden …Umwandlung von 23% der Dektraktoren in Promotoren © 2015 IBM © 2012 IBMCorporation Corporation IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining MSD (Merck Sharp & Dohme) Mit SPSS-Lösungen optimiert der Pharmahersteller MSD seine Kundenansprache Hintergrund MSD Sharp & Dohme ist ein US-amerikanisches Pharmaunternehmen mit Sitz in New Jersey. Merck & Co. beschäftigt weltweit ca. 80.000 Mitarbeiter und ist mit 44 Mrd. USD Umsatz weltweit der drittgrößte Arzneimittelhersteller Lösung MSD kombiniert die intern verfügbaren Daten mit zugekauften Informationen (Ärzte-Panel). Analyse der Außendienstmeldungen mit Textmining verbessert die Kundenprofile Kundensegmentierung liefert eine Ärzte-Typologie (Bsp: Pionier/ Bewahrer) genauere Kundenprofile bilden die Basis für eine individuelle Ansprache der Ärzte und liefern Empfehlungen für Pharmareferenten: Was ist das nächstbeste Angebot? (z.B. Probepäckchen vs. Eventeinladung nach London) „Wir wissen durch das Text Mining, welche Eigenschaften und Informationen zu unseren Medikamenten bei den Gesprächen mit den Ärzten besonders gut verstanden werden und wo das Marketing noch an der Begriffsverwendung feilen muss.“ Werner Kreiter, Data Mining Spezialist MSD Sharp & Dohme Benefits • Massive Einsparungen durch zielgerichtete Kampagnensteuerung • effizientere Nutzung des Marketingbudgets • Gezieltere Ansprache der Ärzte • Feinjustierung des Marketingmixes pro Arzt © 2015 IBM © 2012 IBMCorporation Corporation