Reverse Link-Engineering: Crawler-based Market
Transcrição
Reverse Link-Engineering: Crawler-based Market
SEO Campixx 2012 Reverse Link-Engineering: Crawler-based Market-Research by Stefan Fischerländer & Thomas Mindnich (Gipfelstolz & ITam) SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Agenda • • • • Vorstellung Einführung Sedcards Live-Demo (NDA required) • Q&A SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Stefan Fischerländer • ● ● SEO-Consulting seit 2000 Gründer der SEO-Agentur Gipfelstolz Referenzen u u u Suchmaschinentricks.de (seit 2000) Keyword-Datenbank (2002-2010) Neomo (2004-2007) u u SEO Campixx 2012 Deutsche Websuche (Index 200 Mio. Dokumente) Kooperation GelbeSeiten.de: Spezialsuche Gesundheit Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Thomas Mindnich • • Seit 1996 selbständig im Performance-Marketing Geschäftsführender Gesellschafter ITam GmbH seit März 2002 SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Agenda • • • • Vorstellung Einführung Sedcards Live-Demo (NDA required) • Q&A SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Beer 2 Business • Mit einfachen Mitteln lassen sich erstaunliche Ergebnisse erzielen! – Learnings aus SEODay-links-links-links Vortrag von Stefan • Aber: Lassen sich auch „böse Ideen aus unseren Bierlaunen so einfach umsetzen? • Ziele: – Link-Graph als Basis – Mit eignen oder fremden Crawlern & Tools – Market Research – Learnings für eigene SEOArbeit SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich History of Links • Lycos, Januar 1997 – Lycos uses a best-first search based on the popularity heuristic. We define popularity as the number of external Web servers with at least one link. Quelle: „Lycos: Design choices in an Internet search service • • • • PageRank: Patentanmeldung Januar 1997 HITS: 1999 Hilltop: 1999 Trust-Rank: 2004 SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Google Changes: Link Evaluation • Search quality highlights: 40 changes for February 2012: „Link evaluation. We often use characteristics of links to help us figure out the topic of a linked page. We have changed the way in which we evaluate links; in particular, we are turning off a method of link analysis that we used for several years. We often rearchitect or turn off parts of our scoring in order to keep our system maintainable, clean and understandable. http://insidesearch.blogspot.com/2012/02/search-quality-highlights-40-changes.html • Characteristics & Methods – Von wo kommt der Link? (URL, Domain, …) – Welche harten oder weichen Attribute hat der Link? • Linktext, Content, sidewide, Linkumfeld, Alter, nofollow/dofollow, redirects, … – Wohin zeigt der Link? (URL, Domain, …) – SEO Metrics: Pagerank, Websitenalter, Content, Linkumfeld, Affiliation of Linking Sites, … • Aber auch: linking intend – warum wurde der Link gesetzt? – Paid Links, Link Schemes, ... SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Agenda • • • • Vorstellung Einführung Sedcards Live-Demo (NDA required) • Q&A SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #1 Screaming Frog Level Desktop-basierter Website-Crawler Aufwand Kosten Erkenntnis Schneller Zugriff auf interne und ausgehende Verlinkung, übersichtlicher als Xenu, mehr Detaildaten Nur geeignet für kleine Projekte, nur Adhoc-Analysen SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich http://www.screamingfrog.co.uk/seo-spider/ SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #2 80legs Level • Custom Web Crawling (high-scale) • Data Extraction • Pre-Build Feeds & Apps Aufwand Kosten Erkenntnis ü Daten-Scraping in hoher Skalierung ü IP-Sperren kein wirkliches Problem ü API-Anbindung: Auslagern wiederkehrender Tasks Ø keine Datenbank & kein Index SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich 80legs (http://80legs.com/) • Crawl Packages • Apps – Return Page Content – Regular Expression Matcher – Link Tracer – Link Mapper • Custom – Eigene Apps kann man auch fremd entwickeln lassen (FreelancerPlattformen) – API-Zugriff für Integration in eigene Systeme SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #3 SEO Tools Level Searchmetrics, Cemper Tools, Sistrix, XOVI, SEOlytics, SEOmoz, SEO Diver, MajesticSEO, Bing API, Yahoo Boss, … Aufwand Kosten Erkenntnis Einfache Verfügbarkeit, historische Analysen Nur vorgegebene Auswertungsmöglichkeiten auf vorhandenem Datenbestand SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Backlink Tools überprüfen Domain-Pop Unser Crawl Seomoz MajesticSEO Sistrix google.de 22.997 270.801 315.113 469.813 spiegel.de 5.613 88.886 79.219 98.598 amazon.de 17.266 173.291 166.788 223.803 5.412 1.077.026 1.059.268 1.514.388 bonn.de 309 4.055 3.370 5.644 sistrix.de 153 1.586 1.231 1.161 75 948 750 738 amazon.com eisy.eu SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Größe der Tools fürs dt. Web Tool Faktor Unser Crawl Anzahl URLs / Deutschland 1,0 13,9 Mio. Seomoz 12,7 175 Mio. MajesticSEO 12,1 170 Mio. 17,3 240 Mio. Sistrix SEO Campixx 2012 Schätzung! Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #4 Bing-API Level Co-Citation mit linkfromdomainOperator Aufwand Kosten Erkenntnis Schnelle und kostengünstige Mini-Analysen. Einfaches „Scrapen“ von SERPs. Nur für Spezialfälle geeignet SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich 18 Co-Citation SEO Campixx 2012 • Sucht zu einer gegebenen URL verwandte URLs. • Idee: Wenn eine Quelle auf mehrere Seiten verlinkt, müssen die verlinkten Seiten verwandt sein. Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Anwendungsfall • Ausgangsdaten: Ein Set fragwürdiger Websites • Frage: Will ich von dort einen Link? • Lösung: Co-Citation • Umsetzung: linkfromdomain-Abfrage in Bing über alle diese Domains aggregieren – unter Nutzung der Bing-API SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Ein Beispiel • Input: 16 böse Domains • Von dort vielfach verlinkte Websites: – fre...en.net (7) – st...ht.de (6) – erb...te.de (6) – nec...nn.de (6) – pr...s.de (6) – la...le.de (5) – al...x.de (5) SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #5 Google Level Alerts API -> Push(Rss, Email Brand-SEO Aufwand Kosten Erkenntnis Einfache Real-Time-Analysen von Linkaufbau-Taktiken. Push! Funktioniert nur für manche Brands SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Google Alerts • Als Email oder RSS-Feeds möglich – Somit auch automatische/scriptbasierte Weiterverarbeitung möglich • Große Link-Building-Brands alerten lassen – Updates über Technik/Taktik – Neue Links • heute werden ja wieder deutlich mehr Brand-Links gesetzt – Bsp: neue deutsche Startups funktionieren super SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #6 Own Crawl Level Eigene Datenbank (Index), befüllt vom eigenen Crawler Aufwand Kosten Erkenntnis Detaillierte Analysen, bedarfsgerechter Datenaufbau und individuelle Abfragemöglichkeiten „alte“ Daten, nicht unerheblicher Aufwand J SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich 24 Größenangaben – 13,9 Mio. gecrawlte URLs – 0,6 Mio. gecrawlte Domains (?) – 109 Mio. gefundene Links – 2,0 Mio. bekannte Domains – 234.654 IP-Adressen SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Infos Stefan Fischerländer & Thomas Mindnich Anteil DomPop nofollow DomPop mister-wong.de 49% 4.775 9.665 facebook.com 11% 10.183 90.519 rtl.de 9% 69 762 uni-muenchen.de 6% 63 1.026 SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Nofollow Stefan Fischerländer & Thomas Mindnich Wort Anzahl de www com h3p mehr auf der imdb und in abo online blog die shop suche 2011 the von facebook at forum twi3er SEO Campixx 2012 3776952 2650461 1832541 1540737 1448115 1342447 1308119 1221092 1149426 1107007 831257 733047 715156 663039 656609 643200 624599 622654 568694 543113 533605 523956 506605 Reverse Link-Engineering – Crawler-based Market Research Linktexte Stefan Fischerländer & Thomas Mindnich 27 • Hyperlink-Induced Topic Search • Ordnet jeder URL (abhängig von der Query!) zwei Werte zu: Hub und Authority – Hub = Linkt auf gute Inhaltsseiten (=Authority) – Authority = Wird von vielen Hubs verlinkt SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research HITS Das ist der Hintergrund der Idee, beim Linkbuilden gut platzierte Konkurrenzseiten mitzuverlinken. Stefan Fischerländer & Thomas Mindnich biathlon Seiten, die die Query enthalten (189) Root-Set Alle ein- und ausgehenden Links, der im Root-Set enthaltenen URLs (1.767) Base-Set SEO Campixx 2012 Für jede URL U aus dem Base-Set wird jeweils der Authority- und der Hub-Wert berechnet. ILu = Incoming Links der URL U (Anzahl: M) OLU = Outgoing Links der ILu,1URL U (Anzahl: N) AUTH(U) = HUB(ILU,1) + ... + HUB (ILU,M) HUB(U) = AUTH(OLU,1) + ... + AUTH (OLU,N) Diese Berechnungen werden mehrmals hintereinander durchgeführt bis sich die Werte nur mehr gering ändern. (ca. 5 Durchläufe genügen) Nach jedem Durchlauf werden die Werte normiert. Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich h3p://www.biathlonworld.com/ h3p://www.biathlon.com.ua/?&lang=eng Grün = Auch in den Google Top-10 vertreten. h3p://www.biathlon-‐online.de/ h3p://www.focus.de/sport/wintersport/biathlon-‐..._370675.html h3p://www.dwdl.de/arKcle/news_13755,00.html h3p://de.wikipedia.org/wiki/Biathlon h3p://www.biathlon-‐antholz.it/ h3p://www.biathlon-‐aufschalke.de/ h3p://www.bsv-‐ski.de/72-‐Termine.htm h3p://www.biathlon-‐ruhpolding.de/ HITS: biathlon SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich • Anfälligkeit ausnutzen, um Cliquen zu entdecken! • Ein Beispiel: Unter den Hubs für „hotel“ finden sich: hot...te.de rhe...el.de rhe...els.de • Die drei Domains haben unterschiedliche IPAdressen. SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research HITS und Cliquen Stefan Fischerländer & Thomas Mindnich SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich • Man nehme eine der zuvor gefundenen Linknetz-Domains und lasse darüber den CoCitation-Algorithmus laufen. • In diesem Fall waren die ersten 100 Co-Domains offensichtlich alle aus diesem Linknetz. SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Auch hier hilft CoCitation Stefan Fischerländer & Thomas Mindnich Co-Citation $ perl co-citation.pl ho...te.de ho...te.de:13 ger...p.info:12 sch...el.biz:10 ger...el.net:8 bu...tel.de:8 feu...fo.de:8 woc...le.de:7 mit...in.net:7 fer...ne.de:7 him...ten.de:7 ritt...hl.de:7 SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich #7 Blogping-Scraping Level Blogpings über API ziehen, Blogs crawlen und Links auswerten Aufwand Kosten Erkenntnis Real-Time Market-Research nur einzelne Segmente des Backlink-Profils SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich (Live-Demo) SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Agenda • • • • Vorstellung Einführung Sedcards Live-Demo (NDA required) • Q&A SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Q&A SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Counter SEO Schutz vor den bösen Reverse-Engineers • Beim Kommentarspam ausgefallene Vornamen benutzen • Keine Pings an Pingomatic aus den Blogsystemen • Footprints lauern überall (z.B. zeitliche Muster) • Christoph Cemper: „Ein guter Link ist der, den die Konkurrenz nicht hat. – Gibt es diesen Link ohne Exklusivitätsvereinbarung überhaupt noch? • Linknetze findet man auch ohne persönlichen Kontakt zum Owner heraus SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich Danke! SEO Campixx 2012 Reverse Link-Engineering – Crawler-based Market Research Stefan Fischerländer & Thomas Mindnich