Claves para un robots.txt que funcione

Imagen de Andrea Picaso
Uno de los archivos más importantes de nuestro sitio web es el modesto robots.txt, apenas un archivo de texto pero con la noble misión de lograr la mejor indexación por parte de los buscadores. Todas las claves para que nuestro robots.txt funciona como es debido, y evitar el efecto opuesto: quedar fuera de las páginas de resultados de Google.

Qué es

Para entender qué es el robots.txt, es necesario aclarar que cualquier Webmaster puede elegir si desea que su sitio sea indexado por Google, o por cualquier otro buscador, portal o servicio que se dedique a recolectar información sobre página webs en Internet. También puede decidir si quiere que su sitio sea indexado en su totalidad, o dejar fuera de la vista de los bots algún directorio o archivo en particular. Para ello sirve el robots.txt, un archivo que aclarar todas las directivas que el administrador de un sitio web pueda tener con respecto a la exclusión de spiders de su página.

Cómo funciona

El robots.txt es un pequeño archivo de texto, que tiene la vital importancia de ser el primer archivo que cualquier spider lee. Dependiendo de las directivas que este archivo contenga, el bot continuará o no con la indexación del resto de las páginas del sitio.
Una semántica muy sencilla proporcionar a todas las indicaciones que los robots necesitan conocer.

User-agent: *
Disallow:

Este es el ejemplo más sencillo de un robots.txt. User-agent se refiere a los robots a los que queremos hacer llegar nuestras indicaciones. El asterisco es el carácter comodín que indica "todos". Otra forma posible de sintaxis podría ser, en consecuencia:

User-agent: Googlebot

En este caso, la indicación es específicamente para el bot de Google. Lo mismo sucede con el comando "disallow", que puede adoptar distintos parámetros:

Disallow: /images/

En este caso estamos indicando al robot de Google que no indexe nuestro fichero " images".
Queda claro de esta manera que cualquier error en la redacción del robots.txt podría impedir que todo o parte de nuestro sitio sea indexado.
Lo importante es recordar que las directrices para webmasters de Google nos indican que Google no indexar a aquellos sitios en los que no pueda crawlear o rastrear adecuadamente el robots.txt. La razón de esta decisión es evitar la indexación de páginas que han sido bloqueadas por el robots.txt. De modo que la corrección en la composición y funcionamiento del robots.txt es de vital importancia para una correcta lectura por parte de los buscadores de nuestra página web.

Fuente de la imagen: Flickr