Rastrear a los robots de buscadores!
En esta oportunidad les comentaré sobre la forma de hacer un rastreo del comportamiento o interactividad de los buscadores y nuestra web por medio de funciones PHP.
El siguiente artículo ayudará a rastrear motores de búsqueda por medio de las funciones de PHP $HTTP_USER_AGENT y $QUERY_STRING
Lo primero que vamos hacer es defnir el buscador al que vamos a rastrear. En este ejemplo utilizaremos a Google aprovechando que lidera el mercado.
Veamos el siguiente código php que debe usarse en todas las páginas de nuestra web que se encargarán de rastrear al robot (se sugiere utilizar este código en un solo archivo y luego incorporarlo por medio de la función include a todas las demás páginas):
<?php if(eregi("google",$HTTP_USER_AGENT)) { if ($QUERY_STRING != "") {$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;} else {$url = "http://".$SERVER_NAME.$PHP_SELF;} $today = date("F j, Y, g:i a"); mail("[email protected]", "Se ha detectado un robot de Google en http://$SERVER_NAME", "$today - Google ha indexado la página $url.\n ..:: OTRA PÁGINA MAS :) ::.."); } ?>
Este script reconoce al robot de google y la página en la cual realizo el escáneo, y envía un mail al webmaster de la página con los datos fecha y hora del suceso y nos da un breve mensaje de aliento (Un toque de estimulo no vine mal cierto), claro también se puede almacenar en una base de datos etc.
Es cuestión de inventar y ya les dí la base para empezar.
Ahora bien para los demás buscadores solo basta con cambiar:
("google",$HTTP_USER_AGENT)
por el nombre respectivo al robot, ejemplo:
– Google: ("google",$HTTP_USER_AGENT )
– Yahoo: ("slurp",$HTTP_USER_AGENT )
– Altavista: ("scooter",$HTTP_USER_AGENT)
Si quieren utilizar algún otro robot, el listado de todos los robots está disponible en robotstxt.org
Espero que les sirva.
Compartir conocimientos es de inteligentes!
Disculpen la ignorancia, pero Para que sirve rastrear un buscador? que beneficios nos da?
Saludos y gracias
Hola,
Ya se que solo es una guia, pero el codigo estaria mejor usando el array superglobal $_SERVER, para que este mas actualizado:
[PHP]
< ?php
if(eregi(“google”,$_SERVER[‘HTTP_USER_AGENT’]))
{
if ($_SERVER[‘QUERY_STRING’] != “”)
{$url = “http://”.$_SERVER[‘SERVER_NAME’].$_SERVER[‘PHP_SELF’].’?’.$_SERVER[‘QUERY_STRING’];}
else
{$url = “http://”.$_SERVER[‘SERVER_NAME’].$_SERVER[‘PHP_SELF’];}
$today = date(“F j, Y, g:i a”);
mail(“[email protected]”, “Se ha detectado un robot de Google en http://{$_SERVER[‘SERVER_NAME’]}”,
“$today – Google ha indexado la página $url.\n
..:: OTRA PÁGINA MAS ::..”);
}
?>
[/PHP]
Personalmente no creo que sea lo mejor recibir un email cada vez googlebot visita una pagina. ¿Cuantos emails generaria este script en forosdelweb?
Creo que lo mejor para seguir las visitas de los robots son los logs del servidor (por ejemplo, una vez a la semana). Los logs contienen mucha informacion util (comportamiento de los usuarios en tu web, terminos de busqueda por los que llegan tus visitantes desde los buscadores, …).
Otra cosa es que no tengas acceso a los logs del servidor, en ese caso recomendaria usar un script php que realice ese mismo trabajo.
Saludos.
Si ami tambien me parece mejor, pero tambien depende al usuario, ademas google lo mas que puede visitar es una vez al dia o me equivoco?
Rastrear a los robots de buscadores ???
El titulo y el copete no me dicen nada de la nota, creo que habria que mejorarlos para que se entienda que es lo que se esta por lograr al rastrear a un buscador…
Ha sido de ayuda, gracias.
Pero es que la gente es malagredecida carajo !! este articulo es un tip, idea, consejo o como quieran llamarlo.. solo para que estimulen su creatividad para ver las diferentes maneras de como pueden usar el lenguage php. quizas a alguno le parecio interesante este script, quizas para otros no, pero porque criticar o quejarse ??? Hey webmaster !! Gracias por el articulo y el script, la verdad esta interesante….
Jorge, podrias explicar mejor? no entendi bien para q sirve, gracias
Para que sirve ?
Yo si le encontre utilidad.
Gracias.
http://www.empresario.com.mx
// http://www.empresario.com.mx //
Hola haber si me ayudais sobre el script lo he probado y va bien solo una cosa que al devolver la url solo me envia la del servidor osea si pongo en http://www.mundohotelonline.com/index y otra pagina con el mismo dominio pero otro directorio siempre sale el del index.
Me podrias decir aque puede ser
gracias
buen script
// http://www.mundohotelonline.com //
Hola perdonar el anterior tema pues esta mañana llegaron las otra paginas va de maravilla.
Solo una pregunta sobre las entradas de google por las llegada de los e-mails veo que la pagina index el robot lo visita muy a menudo es normal esto gracias.
maresme
A ver, para los que no saben para que sirve este script, por ejemplo yo lo uso cuando creo una sección nueva o página adicional para saber cuando pasa en buscador, pero también lo uso introduciendo los resultados en una base de datos y contabilizo las veces que pasa el buscador por determinada página y veo que importancia le da el buscador a esta página tomando en cuenta que mientras mas veces pasa el buscador por esta página más importancia debería tener, esta es una de tantas formas de analizar cual es la mejor forma de mostrar el contenido en las páginas para los buscadores. por supuesto el script que publique es un método, una idea, una base, lo demás queda de parte de la persona que le interese buscar otra forma de usarlo. Y a los que critican, cada quien tiene su opinión pero les comento yo me tome un momento de mi tiempo para compartir esta idea con todos y despertar la creatividad, ideas, inventiva y si por alguna razón no le ven utilidad al script lamento que no tengan la inventiva o creatividad para usar este pequeño aporte. saludos
Muy bueno el articulo, hoy mismo implementaré esta aplicación php en mi sitio.
Gracias
Es muy buen tip si quieres llevar un control del progreso de un sitio web. Eñ dato seria utilizar esto para provar que keyword esta siendo mas efectivo.
Saludo a todos
Yo lo implemente en mi sitio http://www.ebpi.com.ar y le agregue solo el de yahoo. Me devolvio datos que voy a evaluar dentro de un mes para ver si sirven de estadisticas
// http://www.ebpi.com.ar //
perdonar mi ignorancia, pero cosas como esta son la leche para quien empieza una web. Por otro lado, sabeis donde encontrar + info del include ??? es que tengo directorio de hoteles que son ciento y la madre, y para colocar es script en cada uno de ellos se ha interminable. Mil gracias.
yo tampoco tengo idea de para que sirve reastrear a un buscador???
Se ve interesante, lo implementare mas adelante en mi web, pues el log de esta depende de la cantidad de documentos que consulto el navegante y si fueron muchos a lo mucho solo veo las estadisticas de uno o dos usuarios.
La idea es buena , pero lo implementaria mejor en una base de datos en mysql y asi podria hacer una estadistica de tiempos de visita ,etc .
Salu2
http://www.merur.com
[…] tuyo es a lo lifehacker puedes implementar un código php en las páginas como nos explican en Maestros del Web para llevar un rastreo del rastreo de los […]
Puedes explicar como poner el script include en todas las paginas porque no entiendo en que parte poner ese codigo PHP.
Gracias excelente aporte para todo webmaster.
el robot debe rastrear tu web desde cualquier buscador
¿Funciona para todos los servidores o solo para algunos? Pregunto porque me funciona bien en paginas que tengo alojadas en terra, pero tengo otra en otro servidor y no me funciona.
Hola quisiera saber si este escipt lo tengo q insertar depues de la etiqueta o despues de la etiqueta gracias espero q me respondan
[…] el robot que “rastrea” (ejemplo: Googlebot) una página Web cuyo montaje esta basado en tablas […]