Rastrear a los robots de buscadores!El siguiente artículo ayudará a rastrear motores de búsqueda por medio de las funciones de PHP $HTTP_USER_AGENT y $QUERY_STRING

Lo primero que vamos hacer es defnir el buscador al que vamos a rastrear. En este ejemplo utilizaremos a Google aprovechando que lidera el mercado.

Veamos el siguiente código php que debe usarse en todas las páginas de nuestra web que se encargarán de rastrear al robot (se sugiere utilizar este código en un solo archivo y luego incorporarlo por medio de la función include a todas las demás páginas):

<?php
  if(eregi("google",$HTTP_USER_AGENT))
  {
  if ($QUERY_STRING != "")

  {$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;}
  else
  {$url = "http://".$SERVER_NAME.$PHP_SELF;}
  $today = date("F j, Y, g:i a");

  mail("[email protected]", "Se ha detectado un robot de Google en http://$SERVER_NAME",
"$today - Google ha indexado la página $url.\n
..:: OTRA PÁGINA MAS :) ::..");
  }

  ?>

Este script reconoce al robot de google y la página en la cual realizo el escáneo, y envía un mail al webmaster de la página con los datos fecha y hora del suceso y nos da un breve mensaje de aliento (Un toque de estimulo no vine mal cierto), claro también se puede almacenar en una base de datos etc.

Es cuestión de inventar y ya les dí la base para empezar.

Ahora bien para los demás buscadores solo basta con cambiar:

("google",$HTTP_USER_AGENT)

por el nombre respectivo al robot, ejemplo:

– Google: ("google",$HTTP_USER_AGENT )

– Yahoo: ("slurp",$HTTP_USER_AGENT )

– Altavista: ("scooter",$HTTP_USER_AGENT)

Si quieren utilizar algún otro robot, el listado de todos los robots está disponible en robotstxt.org

Espero que les sirva.

Compartir conocimientos es de inteligentes!