Unerwünschter Crawler-Traffic

krake 150x150 Unerwünschter Crawler TrafficUnermüdlich durchstreifen hunderte von datenhungrigen Crawlern das Netz, viele davon sind vollkommen unnütz und produzieren unnötigen Traffic. Vor einiger Zeit wurde es bei einem meiner Blogs sogar so drastisch, dass durch das crawlen die Serverlast unnötig hoch anstieg, was sich wiederum merklich auf die Performance auswirkte. Einhalt wird den meisten Crawlern durch eine im Root platzierte robots.txt geboten.

Die robots.txt ist so anzupassen, dass Crawler keine lastintensiven Abfragen starten können. Crawler die die robots.txt nicht auslesen, können durch einen IP-Eintrag in der .htaccess gestoppt werden. Da diese meist eh nicht seriös sind stellt das auch keinen Verlust dar. Wie beides funktioniert zeige ich Euch nun:

Beispiel: Crawler per robots.txt ausschließen:

Beispiel: User-agent: grub-client Disallow: /

Crawler per .htaccess ausschließen:

order allow,deny
deny from 127.0.0.1

Eine Beispiel robots.txt mit mehr als 100 unnützen Crawlern könnt Ihr Euch hier downloaden.




Verwandte Artikel:
» E-Commerce iPhone Apps
» Twitter Hintergründe
» WordCamp SF 2009 - Matt Cutts Slides
» Google Trends Gadget
» Webworker Buchtipp - Twitter. Mit 140 Zeichen zum Web 2.0




Trackback: Trackback-URL | Feed zum Beitrag: RSS 2.0
Thema: Tipps & Tricks |

Diesen Beitrag kommentieren.

Kommentiere über Facebook oder weiter unten direkt im Blog

6 Kommentare

  1. 1
    Tom 

    Hallo,
    dafür gibt es doch die Spider oder Bot Trap

    www.spider-trap.de
    www.bot-trap.de

    Gruß Tom

  2. Hallo,

    schöner Beitrag! Allerdings würde ich nicht dazu raten, die Robots.txt einfach so aus dem Beispiel zu kopieren.

    Möglicherweise funktionieren dann einige Dienste nicht mehr, die man vorher genutzt hat.

    Liebe Grüße,
    Constantin

  3. 3
    Francis 

    @Constantin – Stimmt natürlich was Du sagst, da sollte schon jeder vorher mal reinschauen, obwohl ich mir kaum vorstellen kann das jemand scharf auf einen dieser Dienste ist :-)

    @Tom – Danke für die Link-Tipps, schaue ich mir gerne mal an!

  4. 4
    Tigerauge 

    Hallo,
    hier mein Tipp:

    Auf

    http://proxy-sperre.de/

    gibt es dieses automatisch mit täglichem Autoupdate.

    Dazu muss nur die o.g. .htaccess und die Datei proxy-sperre.php im Hauptverzeichnis gespeichert werden und die Dateirechte der .htaccess so gesetzt werden, dass diese beschreibbar ist.

    Gruß
    Tigerauge

  5. 5
    michael 

    Top Beitrag, das wird doch gleich mal ausprobiert.
    Danke

  1. [...] Blogkommentare für SEO? 6.) Google vor dem Fall? 7.) Google zeigt erstmals seine Server 8.) Unerwünschter Crawler Traffic 9.) SEO Free Tools 10.) Ladezeit in Google Analytics [...]

Kommentar abgeben

Bitte lesen!

Ich behalte mir vor Kommentare die gegen folgende Regeln verstoßen nicht zu veröffentlichen, zu kürzen oder zu editieren.

  • Der Kommentar ist Werbung / Spam.
  • Der Kommentar ist beleidigend.
  • Der Kommentar ist sinnlos.

Diese Regeln dienen dazu, die Qualität der Kommentare aufrecht zu halten.