Wertvolle Textdaten erschließen mittels Text Mining

Transcrição

Wertvolle Textdaten erschließen mittels Text Mining
IBM Roadshow Predictive Analytics im Mittelstand 2015
Wertvolle Textdaten erschließen mittels
Text Mining
© 2015 IBM Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
„Text analytics is the process of deriving
information from text sources.”
(Gartner IT Glossary)
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Ziele und Methoden der Textanalyse
 Klassifizierung
 Informationsextraktion
 Sentiment-Analyse
 Named Entity Recognition (NER)
 Automatische Zusammenfassung von Texten
 Semantische Suche
 Content Enrichment
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Herausforderungen
 Polysemie (ein Wort, mehrere Bedeutungen)
Geographie
 Golf, Mini, Leon, Focus, Adam
 Synonymie (verschiedene Wörter, eine Bedeutung)
 Auto, PKW, Wagen, Fahrzeug, Karre, Rostlaube
 Wortformen
Golf
 fahren, fahre, gefahren, fuhr, fuhrst, fahrt, fährt
 Negation (einfache und doppelte Verneinung)
 „Es ist schlecht, dass ich keinen Porsche habe“
 Ironie / Sarkasmus
Sport
Auto
 „Das hast Du schön hingekriegt“
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Herausforderungen: Textqualität
 Social Media
 Grammatik-, Schreibfehler
 Abkürzungen, Jargon, …
 „omg hab etz eig 0 bock auf shize mathe“
 Werkstatt- / Reparaturberichte
 Unvollständige Sätze
 Schlecht zu handhabende Eingabegeräte
 „REPLACE 2 SEAL, REPLACE SEAL RIGHT DRIVE MOTOR, CLEAN, ADJUST,
TEST. OK”
 Offene Antworten in Umfragen
 Unvollständige Sätze, Rechtschreibung, Kontextabhängigkeit
 “die Farben es ist schön butn” [als Antwort auf „was gefällt Ihnen an der neuen Website?“]
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Einsatzbereiche von Text Mining
Customer Relationship Management (CRM)
 360 Grad Sicht auf den Kunden durch die
Berücksichtigung von unstrukturierten
Textdaten an den Customer Touch Points
 Bessere Vorhersage von Kundenverhalten
 “Voice of the customer”
Marktforschung
 Text Mining erlaubt die Anwendung von
quantitativen analytischen Methoden auf
qualitative Daten
 Analyse offener Fragen und Interviews
Market Intelligence / Wettbewerberanalyse
 Systematische Analyse von Pressemitteilungen, Geschäftsberichten und Websites
 Antizipation von Trends und zukünftigen
Entwicklungen im Markt
Sicherheitsbehörden und Verwaltung
 Bedrohungen schneller erkennen
 Optimierung der Bürger-/
Klienteninteraktion
Betrugserkennung
 Auffälliges Verhalten schneller entdecken
 Präziser Motive und mögliche Betrugsindikatoren entdecken
Wissenschaft
 Medizinische Forschung und Patentrecherche
 Genomforschung
 Medikamentenentwicklung
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Mehrwert durch Einbeziehung unstrukturierter Textdaten in den
Analyseprozess
 Natürliche Spracherkennung (NLP) und
statistische Methoden erfassen die
Bedeutung von Textinformationen, die
bisher ungenutzt waren
 Zeitersparnis durch automatisierte
Analyse von Emails, Web-Daten,
Interviews, Call Center Notizen etc.
 Verbesserung der Modellgüte durch
Hinzunahme quantitativer, strukturierter
Daten auf Basis von unstrukturierten
Textdaten
 Vollständige Integration in die Data
Mining Workbench des SPSS Modeler
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Eine Text Mining Applikation: IBM Social Media Analytics
 Software as a Service: Daten + Analytics
 Tiefe Analyse von Milliarden von Einträgen aus
Blogs, Foren, Microblogs, News, Video- und
Bewertungsplattformen
 Anspruchsvolle Sentimentanalyse in 8
Sprachen (Version 1.3)
 Konfigurierbare Dashboards basierend auf
führender BI Technologie
On-demand Webinar: https://www.brighttalk.com/webcast/12415/142579
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
IBM Social Media Analytics Framework
Social Media Impact
Social Media Segmentation
Sind wir erfolgreich?
Wo können wir uns verbessern?
• Share of Voice
• Reichweite
• Sentiment
Assess
Erreichen wir unsere Zielgruppe?
Gibt es zusätzliche Zielgruppen?
Segment
Discover
• Themen
• Schlüsselbegriffe
• Zeitliche Entwicklung
Geographie, Demographie
Influencer, Empfehler, Kritiker
Kunden, potentielle Kunden
Potentielle Abwanderer
Social Media Relationships
Social Media Discovery
Welche neuen Themen/Ideen
gibt es zu entdecken?
•
•
•
•
Relate
Welche Faktoren beeinflussen die
Aktivität, das Verhalten und die
Stimmung unserer Kunden?
• Affinitäten
• Assoziation
• Kausalität
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Technologie Daten Muster Kategorien Extraktion Cluster
Konzepte Semantik Sprache Dokumente Kontext Synonyme
Linguistik Wörterbücher Beziehungen Konzeptnetz Makros
Reguläre
Ausdrücke
Kookkurrenz
Token
Phrasen
Technologie Wie Daten Muster Extraktion Cluster Konzepte
Semantik Sprache werden Extraktion Dokumente Kontext
Synonyme denn Linguistik nun Wörterbücher Semantik
Beziehungen die Konzeptnetz Makros Textdaten Kategorien
Reguläre Ausdrücke erschlossen? Kookkurrenz Token
Phrasen Technologie Daten Muster Kategorien Cluster
Konzepte Kookkurrenz Sprache Dokumente Kontext
Synonyme Makros Linguistik Wörterbücher Beziehungen
Konzeptnetz Reguläre Ausdrücke Token Phrasen Synonyme
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Text Mining Prozess im IBM SPSS Modeler
Identifikation von
Konzepten
Typisierung
 Konzept = Wort oder Wortkombination
 Linguistisch basierte Auswertung
 Fokus auf Wörter mit Aussagegehalt
 Berücksichtigung von Beugungen der Wortstämme
(Konjugation/Deklinationen, …)
 Bündelung von inhaltlich gleich gerichteten Konzepten zu Typen
(basierend auf Wörterbüchern)
Text Link Analyse
Kategorisierung
 Erkennen von Zusammenhängen zwischen Konzepten
(z.B. Thema – Meinung, Person – Handlung)
 Regelbasiertes Zuweisen von Kategorien zu Texten
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Text Mining Prozess: Linguistische Verfahren
Algorithmen zur Ermittlung von Äquivalenzklassen:
 Beugung (Birnen = Birne, Äpfel = Apfel)
 Synonyme
 Vollform: der gesamte Ausdruck hat die gleiche Bedeutung (Weizenbier = Weißbier)
 Komponenten: es tritt in einer Komponente eine Variation auf (Qualität des Frühstücks = Qualität des Morgenbuffets)
 Auslassungen bestimmter Inhaltswörter (IBM Deutschland GmbH = IBM Deutschland)
 Auslassung von Funktionswörtern (Schaden an Auspuff = Schaden an dem Auspuff)
 Geographische Varianten (tumour = tumor)
 Lexikalische Varianten (Automatisierung = Automation)
 Groß/Kleinschreibung (Apolipoprotein A = Apolipoprotein a)
 Varianten bei Trennzeichen wie z.B. Leerzeichen, Bindestrich, Apostroph oder Punkt (Montags-Auto = Montagsauto;
Laptop Tasche = Laptoptasche)
 Inversionen (Tumor im Gehirn = Gehirntumor)
 Akzentuierte Zeichen, vor allem auf Französisch, Spanisch, Italienisch und Niederländisch (Saõ Paulo = Sao Paulo;
Evguéni Primakov = Evgueni Primakov)
 Schreibfehlertoleranz / Fuzzy Matching: basierend auf einem Matching nach Entfernen der Vokale und
Mehrfachkonsonanten sowie weiteren Ähnlichkeitsalgorithmen (Servicequalität = Servicequallität = Servicequaltät)
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Text Mining Prozess: Text Link Analyse
Definition von Mustern zur Erkennung von Zusammenhängen zwischen Konzepten:
 Erkennung der Muster erfolgt auf Satzebene
 Ermöglicht die Verwendung von Makros, optionalen Elementen und Platzhaltern
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Text Mining Prozess: Ein Beispiel
Text
„Zimmer war gross und bequem aber Fruehstuck zu teuer“
Konzepte
Zimmer, Frühstück, groß, bequem, teuer
Typen
Zimmer, Essen, contextual, positive, negative
TextLinks
Zimmer (Zimmer) – groß (contextual)
Zimmer (Zimmer) – bequem (positive)
Frühstück (Essen) – teuer (negative)
Kategorien
Zimmer_positiv
Essen_negativ
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Kundenreferenz: Cablecom
•
•
•
Größter Kabelnetzbetreiber in der Schweiz
Kerngeschäft: Kabelfernsehen (mehr als 54% der Schweizer Haushalte)
Weitere Services: Internet, Telefonie, Mobiltelefonie
•
Herausforderung: Hohe Kündigerrate nach Ablauf der initialen Vertragslaufzeit
•
Ziele:
– Quantifizierung der Kundenzufriedenheit
– Verstehen und Beheben der Gründe für Abwanderung
– Frühzeitiges Vermeiden von Abwanderung durch maßgeschneiderte
Marketinginitiativen
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Kundenreferenz: Cablecom
Presentation
Layer
Segmentation
Modeling
Propensity
Modeling
RFM
Lifetime Value
Risk Propensity
Scoring
Sentiment
Categorization
Attitudinal Data
Collection
Attitudinal Data
Analysis
Optimization Rules
Fraud Propensity
Scoring
Business
Logic
Layer
IBM SPSS Collaboration Services
Reporting, Visualization, Model and Lifecycle Management
Enterprise
Mission Critical
Systems
Business
Intelligence
IBM SPSS Data Collection
Survey, Data Entry, Survey
Data Analysis
IBM SPSS Deployment
Services
Scoring, Business Rules
Risk Management
IBM SPSS Modeler
IBM SPSS Statistics
Data, Text, Web
Analytics
Layer
Enterprise View
Attitudinal
Data
Behavioral
Data
Interaction
Data
Descriptive
Data
Data
Layer
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Kundenreferenz: Cablecom
Net Promoter Score anhand eines Beispiels
“Wie wahrscheinlich ist es, daß Sie Cablecom einem Freund
oder Kollegen weiterempfehlen werden?”
Ergänzende offene Fragen:
- Promotoren
“Warum würden Sie uns weiterempfehlen?’’
- Indifferente
“Was würde die Wahrscheinlichkeit erhöhen,
uns weiterzuempfehlen?’’
Detraktoren
“Bringt das in
Ordnung”
Indifferente
Promotoren
“Macht
weiter so”
Kombination
aller
Kundendaten
- Detraktoren
“Warum würden Sie uns nicht weiterempfehlen?”
Klare Aufforderung zur Handlung in den Fachbereichen
Kundendatenbank
Vorhersagemodell für
den NPS
Scoring
Predictive Analytics steuert die 1:1
Kundeninteraktionen und Problemlösungen
Winback-Kampagne für
Kunden mit niedrigem
NPS
ROI-Vorhersage
und Messung
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
Kundenreferenz: Cablecom
Durch die Kombination des Feedback-Managements mit Text Mining und
statistischer Modellierung im Rahmen der neuen Customer Experience
Management Strategie erreichte Cablecom in nur drei Monaten…
…Reduktion der Abwanderungsrate bei Breitbandkunden von
19% auf 2%
…Identifikation unzufriedener Kunden
innerhalb des gesamten Kundenstamms mit
einer Wahrscheinlichkeit von 78%
…Steigerung der
Zufriedenheit bei mehr als
50% der Kunden
…Umwandlung von 23% der
Dektraktoren in Promotoren
© 2015
IBM
© 2012
IBMCorporation
Corporation
IBM SPSS Predictive Analytics im Mittelstand – Wertvolle Textdaten erschließen mittels Text Mining
MSD (Merck Sharp & Dohme)
Mit SPSS-Lösungen optimiert der Pharmahersteller MSD seine Kundenansprache
Hintergrund
MSD Sharp & Dohme ist ein US-amerikanisches Pharmaunternehmen mit Sitz in New
Jersey. Merck & Co. beschäftigt weltweit ca. 80.000 Mitarbeiter und ist mit 44 Mrd. USD
Umsatz weltweit der drittgrößte Arzneimittelhersteller
Lösung




MSD kombiniert die intern verfügbaren Daten mit zugekauften
Informationen (Ärzte-Panel).
Analyse der Außendienstmeldungen mit Textmining verbessert die
Kundenprofile
Kundensegmentierung liefert eine Ärzte-Typologie (Bsp: Pionier/
Bewahrer)
genauere Kundenprofile bilden die Basis für eine individuelle Ansprache
der Ärzte und liefern Empfehlungen für Pharmareferenten: Was ist
das nächstbeste Angebot? (z.B. Probepäckchen vs. Eventeinladung
nach London)
„Wir wissen durch das Text Mining, welche Eigenschaften und Informationen zu unseren
Medikamenten bei den Gesprächen mit den Ärzten besonders gut verstanden werden und wo das
Marketing noch an der Begriffsverwendung feilen muss.“
Werner Kreiter, Data Mining Spezialist MSD Sharp & Dohme
Benefits
• Massive Einsparungen durch
zielgerichtete
Kampagnensteuerung
• effizientere Nutzung des
Marketingbudgets
• Gezieltere Ansprache der
Ärzte
• Feinjustierung des
Marketingmixes pro Arzt
© 2015
IBM
© 2012
IBMCorporation
Corporation