Wie funktioniert eigentlich eine Suchmaschine?
Transcrição
Wie funktioniert eigentlich eine Suchmaschine?
Wie funktioniert eigentlich eine Suchmaschine? Winterthur Learning Sessions Mittwoch, 15. März 2006 Jürg Stuker St. Gallen, Frankfurt, Hamburg, Zug, Zürich www.namics.com Ausgangslage und Zielsetzung » Ausgangslage – im Publikum sitzen „Techies“ » Zielsetzung – zum besseren Verständnis (dennoch) ein Umfeld für Suchmaschinen-Marketing schaffen – genügend Details für Leute die clientseitig Implementieren – Fokus ist die öffentliche Websuche (wegen der Nachvollziehbarkeit) © namics Seite 1 Agenda » Drei Begriffe » Suchmaschinen-Marketing? » Funktionsweise einer Volltextsuchmaschine » Top Positionen: Ranking » Ein paar Ausblicke... Drei Begriffe » Suchmaschinen-Marketing (SEM) – Massnahmen, die dazu beitragen, dass Webseiten in Suchmaschinen bei einer Suchanfrage gut gefunden werden. » organisches Suchmaschinen-Marketing (= Suchmaschinenoptimierung, SEO) – Massnahmen am eigenen Angebot um die Platzierung/Rangierung zu verbessern. » bezahltes Suchmaschinen-Marketing (=Suchmaschinenwerbung, Paid Placement und Paid Ranking) – Kaufen von Platzierung und/oder Rangierung des eigenen Angebotes in Suchmaschinen © namics Seite 2 Werbung versus organische Treffer gekauft verdient Suchmaschinen-Marketing? team–based net solutions © namics Seite 3 Nutzungsmotive Internet in der Schweiz Quelle: http://www.wemf.ch, MA Net 2005, 2. Welle 5 Schritte zu erfolgreichem Suchmaschinen-Marketing Qualifizierte Besucher Attraktivität Treffer Top Positionen Auswahl Suchbegriffe Aufnahme Suchdienst Auswahl Suchdienst Rahmenbedingungen © namics Seite 4 Auswahl der Suchbegriffe – Was heisst wie? Auswahl geeigneter Suchbegriffe – Bsp. Keyworgenerator von Miva Quelle: http://www.miva.com/de/ © namics Seite 5 Auswahl geeigneter Suchbegriffe – Bsp. Simulation (freie) Banner bei [search.ch] Quelle: http://campaign.search.ch/ Auswahl geeigneter Suchbegriffe – Bsp. Näherung über eine Testkampagne Google Quelle: https://adwords.google.com/select/ © namics Seite 6 Auswahl geeigneter Suchbegriffe – Häufigkeiten » geschätzte Häufigkeiten zum Wortstamm „Versicherung“ Begriff Einzahl Versicherung Mehrzahl Quotient 60‘489 2‘022‘164 0.03 Private Krankenversicherung 3‘025‘356 5‘555 544 KFZVersicherung 2‘845‘850 964 2‘952 Versicherungsvergleich 263‘760 <13 >20‘000 Lebensversicherung 165‘040 9‘928 17 Krankenversicherung 92‘384 6‘955 13 Unfallversicherung 31‘109 68‘474 0.45 6‘331 69‘372 0.09 Hausratversicherung Quelle: namics research Auswahl geeigneter Suchbegriffe – Weiter » Viel gesunder Menschenverstand... » User (versuchen zu) verstehen » Eigene Angebote, Werbung, Websites von Mitbewerbern anschauen (insb. auch Auktionssites) » Testkampagnen durchführen » Logdateien » Sehr schwieriger Job... © namics Seite 7 Attraktivität der Treffer Funktionsweise einer Volltextsuchmaschine team–based net solutions © namics Seite 8 Ein Tag im Leben einer Suchmaschine… i. Crawling/ Spidering ii. Erstellen Index iii. Benutzeranfrage iv. Resultate Download und Speicherung aller Dokumente der Kollektion Erstellen einer effizienten Datenstruktur für die Suche Finden passender Dokumente auf eine Benutzeranfrage Präsentation der Treffer in der richtigen Reihenfolge i: Download und Speichern » Die Suchmaschine muss die Gesamtheit der Informationen kennen (= Kollektion) – Crawler / Spider – lädt und speichert HTML jeder Seite (Base Page Download) – extrahiert alle Links drin – folgt sämtlicher Links rekursiv – Früher per ‘Add-URL’-Formular (heute eher durch Rückmeldung von Toolbars, Deskbars etc.) » Recrawling – Ziel der Maschinen: Kontinuierlich (immer wenn was ändert) – Realität 1: Spätestens zyklisch nach min. 4-6 Wochen – Realität 2: Google nach Relevanz (evt. mehrmals täglich) – Realität 3: Immer mehr auch Benachrichtigung der Quelle selbst © namics Seite 9 i: Simulation der Link-Erkennung (mit Lynx Browser) i: Download und Speichern --> Wichtigste Probleme © namics » Links im HTML nicht (einfach) extrahierbar: z.B. in Java Script, Flash oder PDF » Formulare und Formularelemente » „?“, „&“, „$“, „=„, „+“, „%“ in der URL (Datenbankabfragen) inkl. Session IDs – insb. wenn mehr als 2 Parameter » Cookies » Seiten sind durch Login geschützt » Zu viele Redirects » HTML-Fehler, HTML-Frameset » robots.txt oder <meta name="robots" content=“nofollow"> » SSL / https / Clientzertifikate o.ä. » Zirkelbezüge / Loops („Links im Kreis rum“) Seite 10 i: Download und Speichern Beispiel „Crawlbarkeit“: Formular i: Download und Speichern Beispiel „Crawlbarkeit“: Queryparameter » http://www.siemensmedical.com/webapp/wcs/stores/servlet/Category Display?categoryId=12752&langId=-11&catalogId=11&storeId= 10001&catTree=100001,12781,12752&overviewId=12752&userviewI d=12814&parentName=Computed+Tomography&level=0 © namics Seite 11 i: Download und Speichern --> Tipps » Alle Seiten haben eingehenden Links in HTML (oder: alternative Verlinkung über Sitemap) – Keine Navigation in serverseitigen Image Maps (oder doppelt) » Formulare – zusätzlich Linklisten für die Zielseiten – Gastzugang mit Link in HTML » Die Site funktioniert (auch) ohne Cookies » Die Site funktioniert (auch) ohne JavaScript » „?“, „&“, „$“, „=„, „+“, „%“ in der URL -> Vermeiden / Verstecken » Jeden Inhalt gibt es nur unter einer einzigen URL » Valides HTML, kein HTML-Frameset » für Suchmaschinen relevante Inhalte (auch) ohne SSL anbieten » robots.txt und „META INDEX“ im Griff » (Ausser Konkurrenz) Google Sitemaps: http://www.google.com/webmasters/sitemaps/ i: Download und Speichern Test (Vollständigkeitsanalyse) » Vergleich der Anzahl Seiten und der Hits durch Crawler Spider-Besuche Browser 1 2 3 Googlebot FAST-WebCrawler Cosmos 9 KIT-Fireball 10 search.ch V1.4.2 ([email protected]; http: 11 Scooter-W3.1.2 Hits % von Gesamt Sitzungen 12,201 11,897 3,366 9.04% 8.82% 2.49% 4,417 1,067 698 304 70,157 0.22% 52.02% 114 92 7,164 5.31% 80 Auszug aus HTTP-Logfile » Nachschauen in den Suchmaschinen © namics Seite 12 ii: Index erstellen » Ziel: Datenstruktur für effizienten Zugriff – Unterschiedliche Mächtigkeit (erkennbar bei der Abfragesprache) » Augenmerk – Welche Dokumentformate und -versionen sind unterstützt – Zugriffsberechtigung auf Dokumente – Zeichensätze und Sonderzeichen! (Codepage, Doctype) – Duplikatelimination und Clustering – Beeinflussung des Index durch Administrator (Bsp. Stoppworte, Mapping oder manuelle Einträge) iii: Finden der passenden Informationen auf eine Nutzeranfrage » Die „eigentliche Suche“ des Nutzers » Augenmerk – Abfragesyntax – Einschränkung auf Datentypen und/oder andere Metainformationen – Operatoren: „Wortgruppen“; AND, OR, NOT; NEAR – Wildcards – Sonderzeichen: „ss“/„ß” oder “oe”/“œ” u.v.a.m. – Wortbeugungen: „Pferd“ / „Pferdes“ – Synonyme – Korrekturfunktionen – Führung des Nutzers bei der Abfrage (Semantik) – Verfeinerung, Suche in der Trefferliste – Gruppierung von Themenfeldern © namics Seite 13 iv: Präsentieren in guter Reihenfolge » Das ist das Thema! Die Reihenfolge: Ranking team–based net solutions © namics Seite 14 Sorry, eine bisschen Theorie Alle Dokumente der Kollektion objektive Relevanz subjektive Relevanz geschätzte Relevanz Mein Informationsbedürfnis Meine aktuelle Anfrage Suchen wir mal nach Läufer... © namics Seite 15 Über verschiedene Ansätze der Datengewinnung zur Relevanzgewichtung 2. Off Page (Reputation) 3. Mehr vom Suchenden wissen 4. Mehr über den Suchenden wissen Kollektion Sucher 1. On Page 1. On Page » „Ich versuche den Inhalt der Trefferseite zu verstehen und die darin enthaltene Suchbegriffe zu gewichten.“ » Dann einen Vergleich mit der Sucheingabe: Tf-idf » Extraktion von für den Nutzer relevanter Merkmale eines Dokumentes – Dokumenttitel (Dokumenteigenschaft, HTML-Seitentitel) – Dateinamen / URL – Titel, Legende, Fliesstext, Beschreibung von Bildern und Illustrationen etc. » Gewichtung – Auffälligkeit (Platzierung, HTML-Tags) – Häufigkeit = Anzahl und Dichte = relative Anzahl – Wortabstand (Phrase Match) © namics Seite 16 1. On Page – Beispiel 1. On Page --> Tipps » Suchbegriffe für User sichtbar auf der Seite anbringen – an auffälligen Orten – – – – URL (http://ihrangebot.ch/reisen/mexiko/preise.html) Page Title H1, H2 weit oben auf der Seite – richtiger Anteil am Textkorpus (3-5%) » Wortbeugungen sowie Einzahl & Mehrzahl berücksichtigen © namics Seite 17 2. Off Page: Reputation » „Ich versuche (zusätzlich) die Verlinkung und den Kontext der Verlinkung der Zielseite zu verstehen“ » Wie wissenschaftliche Papers: Je häufiger zitiert, desto bedeutender = Reputation » Modell des Random Surfers » Besitzer einer Site kann schlechter beeinflussen (fairer?): Weisse Schrift auf weissen Grund » „Grosse“ Algorithmen: Page Rank (Google) und HITS 2. Off Page » Je populärer die verlinkenden Seiten selbst, desto höher die eigene Popularität 10 5 3 8 5 9 5 3 3 PS: Linkkontext (Anchors) werden der Zielseite zugerechnet! © namics Seite 18 2. Off Page – (immer dasselbe) Beispiel 2. Off Page --> Tipps » Viele eingehende Links auf das eigene Angebot sammeln (Partnermanagement) » Auf den Linkkontext (Anchor resp. den umgebenden Text des Links achten) – NICHT: Unsere Reisen nach Mexiko… mehr Informationen – Aber: hier finden sie unsere Mexiko Reisen » Seiten mit einer hohen Reputation und mit weniger abgehenden Links sind mehr wert » Mehrere Links ab derselben IP-Adresse sind nicht viel Wert, solche ab dem selben Subnetz auch weniger als solche von Sites die „weit auseinander liegen“ © namics Seite 19 3. Mehr vom Suchenden wissen » „Bei Zweifel über die Aussagekraft der errechneten Zielseite frage ich (zusätzlich) beim Suchenden nach resp. präsentiere ihm oder ihr Alternativen“ » Annahmen machen (= Entitäten Erkennung) und diese prominent zeigen » Rückfrage stellen » Ziel: Herausfinden des subjektiven Informationsbedürfnis 3. Mehr vom Suchenden wissen -- Beispiele © namics Seite 20 4. Mehr über den Suchenden wissen » „Ich versuche (zusätzlich) die Interessen / Vorzüge / Begriffswelten des Suchenden in die Suche mit einzubeziehen“ » Anlage eines Profils des Users resp. der vom User bevorzugt gewählten / besuchten Sites (und auch von dessen Freundeskreis) » Ziel – Eingrenzen des subjektiven Informationsbedürfnis – Nutzungsdaten für eine globale Optimierung zu nutzen (und nicht eine statische Verlinkung) Æ Je länger je mehr zählt Popularität 4. Mehr über den Suchenden wissen -Beispiele © namics Seite 21 Der zusammenfassende Tipp » Ist eine Webangebot behindertentauglich, so ist es auch Suchmaschinentauglich! – http://www.w3.org/wai – http://www.namics.com/wai » Dann noch gute Texte und eine gute Verlinkung. » Et voilà. Keine Tricks » Suchmaschinentricks haben schon andere versucht... meist mit blutiger Nase. Hier sind die Regeln – http://www.google.com/webmasters/seo.html » Und so nicht... © namics Seite 22 Ein paar Ausblicke... team–based net solutions Syndication und Push (RSS/Atom und XML-RPC) © namics Seite 23 Usergenerierte Semantik: Tags Neue Syndikatoren (anstelle von Volltextsuchmaschinen) © namics Seite 24 Besten Dank für Ihre Aufmerksamkeit (Download: http://blog.namics.com) Mittwoch, 15. März 2006 Jürg Stuker St. Gallen, Frankfurt, Hamburg, Zug, Zürich www.namics.com © namics Seite 25