Frank Ristau

Frank Ristau



GoogleBot aussperren

Interessante Einblicke zum Thema “noindex” hat Google-Mitarbeiter Matt Cutts in seinem Blog veröffentlicht. Neben dem üblichen Einbau des Tags meta name=”ROBOTS” content=”NOINDEX” in den HTML-Kopf, stellt er eine Methode vor, mit dem Querystring einen entsprechenden Parameter zu übergeben. Mit diesem Workaround kann man die robots.txt Datei ausnutzen, den Bot diese bestimmten Aufrufe nicht indizieren zu lassen.

Hängt man einer URL z.B. den Parameter googlebot=nocrawl an ( http://www.deinehomepage.de/xy.php?googlebot=nocrawl ), kann man mit einem entsprechenden Eintrag in der robots.txt den GoogleBot vom Indizieren dieser Seite abhalten:
User-agent: Googlebot
Disallow: *googlebot=nocrawl

So weit - so gut. Weitere Aussagen im Artikel von Matt sind aber ebenfalls interessant:
Erstens liefert Matt eine Begründung dafür, warum die Seiten bei Verwendung von nofollow zwar nicht indiziert werden, der Link auf diese Seiten aber durchaus gewertet wird und die nicht indizierte Seite trotzdem in den Google Suchergebnissen angezeigt wird (allerdings ohne Seitenbeschreibung).
Zweitens bestätigt Matt, das Vorgehen bei der Indizierung von URLs deren Parameter den Bezeichner “id” enthalten. Zwar verfolgt der GoogleBot grundsätzlich URLs, die Parameter enthalten, dabei wird jedoch davon ausgegangen, dass es sich bei einem solchen speziellen Parameter um eine Session-ID handelt (oder handeln könnte). Damit ist die Verwendung dieses Bezeichners nicht empfehlenswert, wenn es sich nicht tatsächlich um eine Session-ID handelt.

Frank Ristau am 26. März 2006

5 Reaktionen zu “GoogleBot aussperren”

  1. Tom Saine

    Eine andere Alternative kann man auch mit PHP umsetzen, so dass sich Seiten nur von normalen Browser anzeigen lassen. So kann man wirklich 100% sicher gehen, dass nur Browser und keine Suchmaschinen (es gibt nicht nur Google) die Seiten auswerten können.

    if (stristr($_SERVER[’HTTP_USER_AGENT’], ‘MSIE’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Firefox’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Opera’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Safari’) || stristr($_SERVER[’HTTP_USER_AGENT’], ‘Konqueror’)) {
    $is_no_bot = FALSE;
    }
    else {
    $is_no_bot = FALSE;
    }

  2. StoiBär

    @Tom: Und das baue ich direkt in die index.php ein, oder?

  3. Handwerker

    Hallo, sag mal wie aktuell ist das eigentlich noch? Gibt es nicht ein neues Trennzeichen bei Google, wo dahinter dann nix mehr aufgenommen wird…trotzdem Danke.

  4. Cocktailkleider Shop

    Das mit der ID finde ich interessant, kann ich aber aus eigener Erfahrung nicht unbedingt 100% bestätigen.

  5. Cocktailkleider

    Übrigens: Wo steht eigentlich euer Server für diesen Blog? Es ist jetzt 15:12 und schaut mal auf die Uhrzeit des Kommentares :-)

Einen Kommentar schreiben