Unerwünschter Crawler-Traffic
Unermüdlich durchstreifen hunderte von datenhungrigen Crawlern das Netz, viele davon sind vollkommen unnütz und produzieren unnötigen Traffic. Vor einiger Zeit wurde es bei einem meiner Blogs sogar so drastisch, dass durch das crawlen die Serverlast unnötig hoch anstieg, was sich wiederum merklich auf die Performance auswirkte. Einhalt wird den meisten Crawlern durch eine im Root platzierte robots.txt geboten.
Die robots.txt ist so anzupassen, dass Crawler keine lastintensiven Abfragen starten können. Crawler die die robots.txt nicht auslesen, können durch einen IP-Eintrag in der .htaccess gestoppt werden. Da diese meist eh nicht seriös sind stellt das auch keinen Verlust dar. Wie beides funktioniert zeige ich Euch nun:
Beispiel: Crawler per robots.txt ausschließen:
Crawler per .htaccess ausschließen:
deny from 127.0.0.1
Eine Beispiel robots.txt mit mehr als 100 unnützen Crawlern könnt Ihr Euch hier downloaden.
Verwandte Artikel:
» E-Commerce iPhone Apps
» Twitter Hintergründe
» WordCamp SF 2009 - Matt Cutts Slides
» Google Trends Gadget
» Webworker Buchtipp - Twitter. Mit 140 Zeichen zum Web 2.0


Francis Collis


Hallo,
dafür gibt es doch die Spider oder Bot Trap
www.spider-trap.de
www.bot-trap.de
Gruß Tom
Hallo,
schöner Beitrag! Allerdings würde ich nicht dazu raten, die Robots.txt einfach so aus dem Beispiel zu kopieren.
Möglicherweise funktionieren dann einige Dienste nicht mehr, die man vorher genutzt hat.
Liebe Grüße,
Constantin
@Constantin – Stimmt natürlich was Du sagst, da sollte schon jeder vorher mal reinschauen, obwohl ich mir kaum vorstellen kann das jemand scharf auf einen dieser Dienste ist
@Tom – Danke für die Link-Tipps, schaue ich mir gerne mal an!
Hallo,
hier mein Tipp:
Auf
http://proxy-sperre.de/
gibt es dieses automatisch mit täglichem Autoupdate.
Dazu muss nur die o.g. .htaccess und die Datei proxy-sperre.php im Hauptverzeichnis gespeichert werden und die Dateirechte der .htaccess so gesetzt werden, dass diese beschreibbar ist.
Gruß
Tigerauge
Top Beitrag, das wird doch gleich mal ausprobiert.
Danke