La utilización de robots.txt para comunicarnos con los motores de búsqueda y prohibirles cierto contenido

¿Qué contenido deseas indexar? robots.txt

Como lo mencionamos en nuestra entrada “Hola mundo“, en esta nueva etapa de Hacking Ball Z, queremos comentarles, lo que deben saber a la hora de iniciar su sitio web con WordPress, y en general, para cualquier sitio en la red. Por lo que dentro de nuestra categoría de SEO, vamos a tocar el tema del famoso archivo de robots.txt.

La utilización del archivo robots.txt esta diseñada para indicarle a los buscadores que tan amigable es nuestro sitio web. En otras palabras, permitir o desaprobar ( mala idea por cierto ) la indexación de nuestro sitio web, en los motores de busqueda; situación que nos generara tráfico organico,  y que aumenta nuestra presencia e influencia en Internet.

robots.txtPoniéndonos un poco más técnicos, podemos decir que el archivo robots.txt, es el estándar de exclusión de robots, también entendido como el protocolo de la exclusión de robots o protocolo de robots.txt. Este método nos permite evitar que bots que analizan de caba a rabo la Internet, no tengan acceso (en principio, porque realmente un bot malvado poco caso le hara al archivo robots.txt) a nuestros contenidos, o a partes de nuestro sitio que consideramos de caracter privado, por razones de seguridad, mercadeo u otras.

Los robots son de uso frecuente por los motores de búsqueda para entender la estructura de un sitio web, o por los webmasters para corregir, filtrar, o simplemente espiar el código fuente.

Un archivo básico de robots.txt incluira la siguiente línea:

User-agent: *

Misma que le indica a los motores de busqueda, que son todos (*) bienvenidos a indexar nuestro contenido.
Ahora bien, analicemos el robots.txt por default de wordpress que nos lleva un paso más adelante con:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Agregando el “Disallow” en una zona que en nada nos interesa que exploren los buscadores, como lo son el panel de administración, y la zona de scripts dependientes (includes). Con la opción “Disallow:” podemos incluir cualquier directorio de nuestro proyecto web, que no sea sujeto de inclusión por parte de los buscadores.

Así mismo, viendo un ejemplo practico, por ejemplo desde el sitio web de nuestros amigos de Costa Rica Promociones, podemos observar lo siguiente:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://costaricapromociones.com/sitemapindex.xml

Donde en la primera línea indicamos que todos los robots son permitidos. Luego indicamos que por favor, no gasten tiempo en los folders ya explicados anteriormente. Y tal vez, la línea más importante, indicándole a los motores de búsqueda donde esta nuestro mapa de sitio; añadiendo así un plus (y no de Google Plus xD ) a nuestro archivo de robots.txt.

También podemos ser simpáticos 🙂

Llegados a este punto, tenemos creado nuestro archivo de robots.txt en hackingballz.com, mismo que esta disponible al momento de publicación de este artículo en https://hackingballz.com/robots.txt; y en el cual nos pusimos un poco graciosos…

# Hola Robots :)
# Bienvenidos a Hacking Ball Z
# https://hackingballz.com

# Queremos que nos manden mucho tráfico por favor.
User-agent: *

# Nos reservamos el derecho de admisión...
Disallow: /wp-admin/
Disallow: /wp-includes/

# Desde el VIP pueden ver nuestro contenido
Sitemap: http://hackingballz.com/sitemapindex.xml

# Muchas gracias por su visita, los esperamos nuevamente ;)

Después de todo, no hay que perder la perspectiva, de que la tecnología es para divertirnos, y si vivimos de Internet, lo menos que podemos hacer… Es pasarla bien.

Los invitamos a dejar cualquier duda que tengan sobre el archivo de robots.txt en los comentarios de esta nota, y con todo gusto nosotros, u otros miembros de la comunidad les estaremos ayudando.

Un hacking saludo…