La importancia del archivo robots.txt
Los archivos robots.txt restringen el acceso de los robots de motores de búsqueda que rastrean la Web a un sitio. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas.
Este archivo es de vital importancia en cuanto a proteger secciones de una web de ser indexadas por los motores de búsqueda, o cualquier contenido de un sitio web que no se desea que se pueda acceder a él desde los buscadores. En los CMS como Joomla, por defecto el robots.txt ya viene con todas las carpetas privadas incluídas en el disallow:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
De esta forma, se evita que los directorios con datos sensibles del CMS estén protegidos de los accesos vía buscadores.
En este caso, es curioso ver cómo se usa esta funcionalidad en los sitios web que se ven en la red, concretamente en los de temáticas tan punteras como el Marketing Online.
Via twitter me enteré que una Consultora que publica informes sobre Análisis de Competencia, había publicado unos informes muy interesantes al respecto. Al entrar en la web de dicha Consultora, para poder solicitar dichos informes hay que introducir tus datos en un formulario, incluyendo la empresa en la que trabajas. Una simple búsqueda en Google concatenando la keyword «informes» con el nombre de la consultora, me listó en los SERPs varias URLs de acceso directo a dichos informes, hecho que me extrañó bastante.
¿Cómo es que si al parecer la única forma de acceder a dichos informes es pasando por el formulario, los informes estén disponibles con una simple query en Google? Pues aquí es donde toma importancia el título del post: La importancia del archivo robots.txt
Lo que sucede en este caso es que, en el archivo robots.txt del site, no han protegido los directorios donde se almacenan los informes.
El contenido del robots.txt es el siguiente:
User-agent: *
Disallow:
Para evitar que los informes estén a disposición de cualquier usuario que los busque en Google, el robots.txt debería estar asi:
User-agent: *
Disallow: /informes/
El hecho de que se pueda acceder a los informes sin pasar por el formulario también puede ser por una estrategia de viralización, ya que pueden recoger feedback de los accesos a su site, y también viralizar su contenido para que puedan conseguir muchos inlinks desde blogs y sitios web que publiquen artículos sobre sus informes. En este caso si el robots.txt protegiera los informes, sólo se podría acceder a los mismos si se conociera la URL exacta, hecho que dificultaría la viralización de dicho contenido.