Tag Archives: crawler

Allgemein

bots, spider, crawler scannen Webseiten

bots, spider und crawler erfassen alle Webseiten

So langsam gehen mir die diversen bots und co. ganz schön auf den Geist. Dabei handelt es sich nicht nur um bots von grossen Suchmaschinen, die den Inhalt der Webseite den Anwendern zur Verfügung stellen. Das Google, Bing und Yahoo regelmäßig auf meinen Seiten vorbeischauen ist normal und natürlich auch erwünscht. Das aber inzwischen jeder kleine und große Seo-Anbieter seine eigenen bots im Internet suchen läßt geht mir, wie bereits gesagt, langsam auf den Geist.

Google bietet einige Tools, mit denen die Optimierer ihre Arbeit leichter machen konnten, inzwischen nicht mehr an. Zusätzlich verbirgt Google den Suchbegriff, mit dem der Anwender auf meine Seite gelangt ist. Damit kann ich keine Rückschlüsse mehr ziehen, welche Stichworte am häufigsten gesucht werden. Das aber inzwischen jeder kleine und große – halt, hier wiederhole ich mich ja…

Ich verstehe den Gedanken, der hinter der Maßnahme steht einen eigenen bot auf die Reise durch das Internet zu schicken. Man wird unabhängig, kann die ausgehenden Links von den Webseiten speichern und ansehen, wer durch welche Webseiten verlinkt ist. Aber nicht alle bots legen offen, wer hinter diesen crawlern steckt.

Analyse des Logfiles

Als erstes steht die Analyse des Logfiles, das eigentlich jeder Webserver anlegt. Einfach ist es bei einem Apache-Webserver, andere Webserver verstecken ihre Logfiles schon einmal. Wird der Webserver auf einem eigenen Rechner gehostet, muss evtl. noch eine Zeile in ein Konfigurationsscript eingefügt werden, damit eine Aufzeichnung der Zugriffe stattfindet. Zur Auswertung stehen eine Reihe von Tools kostenlos zur Verfügung. Ich lade mir die Logfiles von meinem Hoster in regelmäßigen Abständen herunter und werte mit dem Tool HttpLogStat aus.

In den User-Agents stehen oft Angaben zum bot:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Das sind die Guten 😉

Natürlich möchte ich auch, dass ganz viele Menschen diesen Blog besuchen und die Beiträge lesen, deshalb lasse ich auch gerne RSS-Crawler meine Beiträge scannen:

Feedbin feed-id:594907
feedworker/1.0 crawler (+http://www.bloggerei.de)

Suchmaschinen

Kleinen neuen Suchmaschinen lasse ich ebenfalls freien Zutritt:

Mozilla/5.0 (compatible; DeuSu/5.0.2; +https://deusu.de/robot.html)
Mozilla/5.0 (compatible; Qwantify/2.3w; +https://www.qwant.com/)/2.3w

Und kommerzielle Zugriffe sind ebenfalls erlaubt, solange ich einen freien Zutritt für eigene Auswertungen erhalte.

Böse bots

Daneben gibt es allerdings eine große Anzahl bots, die sich sehr bedeckt halten:

bots flamingosearch.comFlamingo_SearchEngine (+http://www.flamingosearch.com/bot)

Diese Webseite steht zum Verkauf und es gibt keinen Hinweis über den Zweck des crawlers. Dabei ist der crawler ziemlich aggressiv und versucht sehr häufig meine Seiten zu scannen.

ebenso verhält es sich mit

bots seoscanners.netMozilla/5.0 (compatible; seoscanners.net/1; +spider@seoscanners.net)

Diese Seite wird auf GoDaddy geparkt.

Dann gibt es noch diverse andere Abfragen, die sofort blockiert werden. Keine Ahnung, was diese bots suchen und welche internen Auswertungen dahinter stecken. Das ist mir ehrlich gesagt auch völlig egal.

Mozilla/5.0 eCairn-Grabber/1.0 (+http://ecairn.com/grabber)
Mozilla/5.0 (compatible; MojeekBot/0.6; +https://www.mojeek.com/bot.html)
magpie-crawler/1.1 (U; Linux amd64; en-GB; +http://www.brandwatch.net)

Liebe SEOs und sonstigen bots Betreiber: wenn Google sich nicht mehr in die Karten sehen lassen will, muss jetzt ja nicht jeder seinen eigenen bot durch das Internet schicken. Tut euch doch einmal zusammen und steckt etwas Geld in einen eigenen unabhängigen crawler von dem jeder Teilnehmer die Daten abfragen kann. Und lasst die kleinen Webseitenbetreiber wenigstens 20 Zugriffe pro Stunde kostenlos ausführen. Damit währe doch jedem geholfen?

Vielleicht reicht es tatsächlich in einigen Jahren für eine Suchmaschine, die den Großen etwas Traffic abnehmen kann und damit dann wieder Gled abwirft.

Auf eure Meinungen bin ich gespannt.