GoogleBot aussperren
Interessante Einblicke zum Thema “noindex” hat Google-Mitarbeiter Matt Cutts in seinem Blog veröffentlicht. Neben dem üblichen Einbau des Tags meta name=”ROBOTS” content=”NOINDEX” in den HTML-Kopf, stellt er eine Methode vor, mit dem Querystring einen entsprechenden Parameter zu übergeben. Mit diesem Workaround kann man die robots.txt Datei ausnutzen, den Bot diese bestimmten Aufrufe nicht indizieren zu lassen.
Hängt man einer URL z.B. den Parameter googlebot=nocrawl an ( http://www.deinehomepage.de/xy.php?googlebot=nocrawl ), kann man mit einem entsprechenden Eintrag in der robots.txt den GoogleBot vom Indizieren dieser Seite abhalten:
User-agent: Googlebot
Disallow: *googlebot=nocrawl
So weit - so gut. Weitere Aussagen im Artikel von Matt sind aber ebenfalls interessant:
Erstens liefert Matt eine Begründung dafür, warum die Seiten bei Verwendung von nofollow zwar nicht indiziert werden, der Link auf diese Seiten aber durchaus gewertet wird und die nicht indizierte Seite trotzdem in den Google Suchergebnissen angezeigt wird (allerdings ohne Seitenbeschreibung).
Zweitens bestätigt Matt, das Vorgehen bei der Indizierung von URLs deren Parameter den Bezeichner “id” enthalten. Zwar verfolgt der GoogleBot grundsätzlich URLs, die Parameter enthalten, dabei wird jedoch davon ausgegangen, dass es sich bei einem solchen speziellen Parameter um eine Session-ID handelt (oder handeln könnte). Damit ist die Verwendung dieses Bezeichners nicht empfehlenswert, wenn es sich nicht tatsächlich um eine Session-ID handelt.



























Am 12. Mai 2008 um 15:39 Uhr
Eine andere Alternative kann man auch mit PHP umsetzen, so dass sich Seiten nur von normalen Browser anzeigen lassen. So kann man wirklich 100% sicher gehen, dass nur Browser und keine Suchmaschinen (es gibt nicht nur Google) die Seiten auswerten können.
if (stristr($_SERVER[’HTTP_USER_AGENT’], ‘MSIE’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Firefox’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Opera’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Safari’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Konqueror’)) {
$is_no_bot = FALSE;
}
else {
$is_no_bot = FALSE;
}
Am 11. August 2008 um 08:19 Uhr
@Tom: Und das baue ich direkt in die index.php ein, oder?
Am 3. November 2009 um 17:24 Uhr
Hallo, sag mal wie aktuell ist das eigentlich noch? Gibt es nicht ein neues Trennzeichen bei Google, wo dahinter dann nix mehr aufgenommen wird…trotzdem Danke.
Am 24. November 2009 um 11:01 Uhr
Das mit der ID finde ich interessant, kann ich aber aus eigener Erfahrung nicht unbedingt 100% bestätigen.
Am 24. November 2009 um 11:02 Uhr
Übrigens: Wo steht eigentlich euer Server für diesen Blog? Es ist jetzt 15:12 und schaut mal auf die Uhrzeit des Kommentares