Reverse Link-Engineering: Crawler-based Market

Transcrição

Reverse Link-Engineering: Crawler-based Market
SEO Campixx 2012
Reverse Link-Engineering:
Crawler-based Market-Research
by
Stefan Fischerländer & Thomas Mindnich
(Gipfelstolz & ITam)
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Agenda
• 
• 
• 
• 
Vorstellung
Einführung
Sedcards
Live-Demo
(NDA required)
•  Q&A
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Stefan Fischerländer
• 
● 
● 
SEO-Consulting seit 2000
Gründer der SEO-Agentur Gipfelstolz
Referenzen
u 
u 
u 
Suchmaschinentricks.de (seit 2000)
Keyword-Datenbank (2002-2010)
Neomo (2004-2007)
u 
u 
SEO Campixx 2012
Deutsche Websuche (Index 200 Mio. Dokumente)
Kooperation GelbeSeiten.de: Spezialsuche Gesundheit
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Thomas Mindnich
• 
• 
Seit 1996 selbständig im Performance-Marketing
Geschäftsführender Gesellschafter ITam GmbH
seit März 2002
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Agenda
• 
• 
• 
• 
Vorstellung
Einführung
Sedcards
Live-Demo
(NDA required)
•  Q&A
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Beer 2 Business
•  Mit einfachen Mitteln lassen sich erstaunliche
Ergebnisse erzielen!
–  Learnings aus SEODay-links-links-links Vortrag von Stefan
•  Aber: Lassen sich auch „böse Ideen aus unseren
Bierlaunen so einfach umsetzen?
•  Ziele:
–  Link-Graph als Basis
–  Mit eignen oder fremden
Crawlern & Tools
–  Market Research
–  Learnings für eigene SEOArbeit
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
History of Links
•  Lycos, Januar 1997
–  Lycos uses a best-first search based on the popularity
heuristic. We define popularity as the number of
external Web servers with at least one link.
Quelle: „Lycos: Design choices in an Internet search
service
• 
• 
• 
• 
PageRank: Patentanmeldung Januar 1997
HITS: 1999
Hilltop: 1999
Trust-Rank: 2004
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Google Changes: Link Evaluation
• 
Search quality highlights: 40 changes for February 2012:
„Link evaluation. We often use characteristics of links to help us figure out the topic
of a linked page. We have changed the way in which we evaluate links; in
particular, we are turning off a method of link analysis that we used for several
years. We often rearchitect or turn off parts of our scoring in order to keep our
system maintainable, clean and understandable.
http://insidesearch.blogspot.com/2012/02/search-quality-highlights-40-changes.html
• 
Characteristics & Methods
–  Von wo kommt der Link? (URL, Domain, …)
–  Welche harten oder weichen Attribute hat der Link?
•  Linktext, Content, sidewide, Linkumfeld, Alter, nofollow/dofollow, redirects, …
–  Wohin zeigt der Link? (URL, Domain, …)
–  SEO Metrics: Pagerank, Websitenalter, Content, Linkumfeld, Affiliation of Linking
Sites, …
•  Aber auch: linking intend – warum wurde der Link gesetzt?
–  Paid Links, Link Schemes, ...
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Agenda
• 
• 
• 
• 
Vorstellung
Einführung
Sedcards
Live-Demo
(NDA required)
•  Q&A
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#1 Screaming Frog
Level
Desktop-basierter
Website-Crawler
Aufwand
Kosten
Erkenntnis
Schneller Zugriff auf interne und ausgehende Verlinkung,
übersichtlicher als Xenu, mehr Detaildaten
Nur geeignet für kleine Projekte, nur Adhoc-Analysen
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
http://www.screamingfrog.co.uk/seo-spider/
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#2 80legs
Level
•  Custom Web Crawling
(high-scale)
•  Data Extraction
•  Pre-Build Feeds & Apps
Aufwand
Kosten
Erkenntnis
ü  Daten-Scraping in hoher Skalierung
ü  IP-Sperren kein wirkliches Problem
ü  API-Anbindung: Auslagern wiederkehrender Tasks
Ø  keine Datenbank & kein Index
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
80legs (http://80legs.com/)
•  Crawl Packages
•  Apps
–  Return Page Content
–  Regular Expression
Matcher
–  Link Tracer
–  Link Mapper
•  Custom
–  Eigene Apps kann man auch fremd entwickeln lassen (FreelancerPlattformen)
–  API-Zugriff für Integration in eigene Systeme
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#3 SEO Tools
Level
Searchmetrics, Cemper
Tools, Sistrix, XOVI,
SEOlytics, SEOmoz, SEO
Diver, MajesticSEO, Bing
API, Yahoo Boss, …
Aufwand
Kosten
Erkenntnis
Einfache Verfügbarkeit, historische Analysen
Nur vorgegebene Auswertungsmöglichkeiten auf
vorhandenem Datenbestand
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Backlink Tools überprüfen
Domain-Pop Unser Crawl Seomoz
MajesticSEO Sistrix
google.de
22.997
270.801
315.113
469.813
spiegel.de
5.613
88.886
79.219
98.598
amazon.de
17.266
173.291
166.788
223.803
5.412
1.077.026
1.059.268
1.514.388
bonn.de
309
4.055
3.370
5.644
sistrix.de
153
1.586
1.231
1.161
75
948
750
738
amazon.com
eisy.eu
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Größe der Tools fürs dt. Web
Tool
Faktor
Unser Crawl
Anzahl URLs /
Deutschland
1,0
13,9 Mio.
Seomoz
12,7
175 Mio.
MajesticSEO
12,1
170 Mio.
17,3
240 Mio.
Sistrix
SEO Campixx 2012
Schätzung!
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#4 Bing-API
Level
Co-Citation mit
linkfromdomainOperator
Aufwand
Kosten
Erkenntnis
Schnelle und kostengünstige Mini-Analysen. Einfaches
„Scrapen“ von SERPs.
Nur für Spezialfälle geeignet
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
18
Co-Citation
SEO Campixx 2012
•  Sucht zu einer
gegebenen URL
verwandte URLs.
•  Idee: Wenn eine
Quelle auf mehrere
Seiten verlinkt,
müssen die verlinkten
Seiten verwandt sein.
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Anwendungsfall
•  Ausgangsdaten: Ein Set fragwürdiger
Websites
•  Frage: Will ich von dort einen Link?
•  Lösung: Co-Citation
•  Umsetzung: linkfromdomain-Abfrage in
Bing über alle diese Domains aggregieren
– unter Nutzung der Bing-API
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Ein Beispiel
•  Input: 16 böse Domains
•  Von dort vielfach verlinkte Websites:
–  fre...en.net (7)
–  st...ht.de (6)
–  erb...te.de (6)
–  nec...nn.de (6)
–  pr...s.de (6)
–  la...le.de (5)
–  al...x.de (5)
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#5 Google
Level
Alerts API -> Push(Rss,
Email
Brand-SEO
Aufwand
Kosten
Erkenntnis
Einfache Real-Time-Analysen von Linkaufbau-Taktiken.
Push!
Funktioniert nur für manche Brands
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Google Alerts
•  Als Email oder RSS-Feeds möglich
–  Somit auch automatische/scriptbasierte
Weiterverarbeitung möglich
•  Große Link-Building-Brands alerten lassen
–  Updates über Technik/Taktik
–  Neue Links
•  heute werden ja wieder deutlich mehr Brand-Links
gesetzt
–  Bsp: neue deutsche Startups funktionieren
super
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#6 Own Crawl
Level
Eigene Datenbank
(Index), befüllt vom
eigenen Crawler
Aufwand
Kosten
Erkenntnis
Detaillierte Analysen, bedarfsgerechter Datenaufbau und
individuelle Abfragemöglichkeiten
„alte“ Daten, nicht unerheblicher Aufwand J
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
24
Größenangaben
–  13,9 Mio. gecrawlte
URLs
–  0,6 Mio. gecrawlte
Domains (?)
–  109 Mio. gefundene
Links
–  2,0 Mio. bekannte
Domains
–  234.654 IP-Adressen
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Infos
Stefan Fischerländer & Thomas Mindnich
Anteil
DomPop
nofollow
DomPop
mister-wong.de
49%
4.775
9.665
facebook.com
11%
10.183
90.519
rtl.de
9%
69
762
uni-muenchen.de
6%
63
1.026
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Nofollow
Stefan Fischerländer & Thomas Mindnich
Wort
Anzahl
de www com h3p mehr auf der imdb und in abo online blog die shop suche 2011 the von facebook at forum twi3er SEO Campixx 2012
3776952 2650461 1832541 1540737 1448115 1342447 1308119 1221092 1149426 1107007 831257 733047 715156 663039 656609 643200 624599 622654 568694 543113 533605 523956 506605 Reverse Link-Engineering – Crawler-based Market Research
Linktexte
Stefan Fischerländer & Thomas Mindnich
27
•  Hyperlink-Induced Topic
Search
•  Ordnet jeder URL
(abhängig von der
Query!) zwei Werte zu:
Hub und Authority
–  Hub = Linkt auf gute
Inhaltsseiten (=Authority)
–  Authority = Wird von
vielen Hubs verlinkt
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
HITS
Das ist der
Hintergrund der
Idee, beim
Linkbuilden gut
platzierte
Konkurrenzseiten
mitzuverlinken.
Stefan Fischerländer & Thomas Mindnich
biathlon
Seiten, die die Query
enthalten (189)
Root-Set
Alle ein- und
ausgehenden Links,
der im Root-Set
enthaltenen URLs
(1.767)
Base-Set
SEO Campixx 2012
Für jede URL U aus dem Base-Set wird jeweils
der Authority- und der Hub-Wert berechnet.
ILu = Incoming Links der URL U (Anzahl: M)
OLU = Outgoing Links der ILu,1URL U (Anzahl:
N)
AUTH(U) = HUB(ILU,1) + ... + HUB
(ILU,M)
HUB(U) = AUTH(OLU,1) + ... + AUTH
(OLU,N)
Diese Berechnungen werden mehrmals
hintereinander durchgeführt bis sich die Werte
nur mehr gering ändern. (ca. 5 Durchläufe
genügen)
Nach jedem Durchlauf werden die Werte
normiert.
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
h3p://www.biathlonworld.com/ h3p://www.biathlon.com.ua/?&lang=eng Grün = Auch
in den
Google
Top-10
vertreten.
h3p://www.biathlon-­‐online.de/ h3p://www.focus.de/sport/wintersport/biathlon-­‐..._370675.html h3p://www.dwdl.de/arKcle/news_13755,00.html h3p://de.wikipedia.org/wiki/Biathlon h3p://www.biathlon-­‐antholz.it/ h3p://www.biathlon-­‐aufschalke.de/ h3p://www.bsv-­‐ski.de/72-­‐Termine.htm h3p://www.biathlon-­‐ruhpolding.de/ HITS: biathlon
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
•  Anfälligkeit ausnutzen,
um Cliquen zu
entdecken!
•  Ein Beispiel: Unter den
Hubs für „hotel“ finden
sich:
hot...te.de
rhe...el.de
rhe...els.de
•  Die drei Domains haben
unterschiedliche IPAdressen.
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
HITS und
Cliquen
Stefan Fischerländer & Thomas Mindnich
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
•  Man nehme eine der
zuvor gefundenen
Linknetz-Domains und
lasse darüber den CoCitation-Algorithmus
laufen.
•  In diesem Fall waren die
ersten 100 Co-Domains
offensichtlich alle aus
diesem Linknetz.
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Auch hier
hilft CoCitation
Stefan Fischerländer & Thomas Mindnich
Co-Citation
$ perl co-citation.pl ho...te.de
ho...te.de:13
ger...p.info:12
sch...el.biz:10
ger...el.net:8
bu...tel.de:8
feu...fo.de:8
woc...le.de:7
mit...in.net:7
fer...ne.de:7
him...ten.de:7
ritt...hl.de:7
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
#7 Blogping-Scraping
Level
Blogpings über API
ziehen, Blogs crawlen
und Links auswerten
Aufwand
Kosten
Erkenntnis
Real-Time Market-Research
nur einzelne Segmente des Backlink-Profils
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
(Live-Demo)
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Agenda
• 
• 
• 
• 
Vorstellung
Einführung
Sedcards
Live-Demo
(NDA required)
•  Q&A
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Q&A
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Counter SEO
Schutz vor den bösen Reverse-Engineers
•  Beim Kommentarspam ausgefallene Vornamen
benutzen
•  Keine Pings an Pingomatic aus den Blogsystemen
•  Footprints lauern überall (z.B. zeitliche Muster)
•  Christoph Cemper: „Ein guter Link ist der, den die
Konkurrenz nicht hat.
–  Gibt es diesen Link ohne Exklusivitätsvereinbarung überhaupt
noch?
•  Linknetze findet man auch ohne persönlichen Kontakt
zum Owner heraus
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich
Danke!
SEO Campixx 2012
Reverse Link-Engineering – Crawler-based Market Research
Stefan Fischerländer & Thomas Mindnich