Disallow

Disallow

Por su traducción específica, disallow significa “rechazar”, se conoce también como un estándar de exclusión.  Este comando se utiliza denegar la entrada de robots o bots indexadores a los códigos de páginas públicas o privadas.

¿Qué es Disallow?

Es una instrucción que puede aplicarse a ciertos archivos web, de forma que no puedan ser leídos o evaluados para el posicionamiento web. Igualmente, estos archivos pueden estar disponibles en un directorio conocido como robots.txt, donde se encuentran todas las páginas que serán o no serán evaluadas por el algoritmo.

Ahora, para entrar un poco en contexto, el algoritmo de los buscadores como Google cuenta con una serie de robots o bots (también conocidos como arañas o crawlers) que se encargan de leer, evaluar y posicionar el sitio en Internet. Estos funcionan “saltando” entre las páginas de un sitio para determinar sus parámetros, sin embargo, los propietarios pueden asignar el directorio robots.txt para hacer que el proceso sea más fácil para los crawlers.

Asimismo, existen páginas en un sitio web que no deberían ser indexadas o posicionadas, porque bien son de uso privado para la empresa, son páginas de prueba o archivos duplicados, por eso se utiliza la etiqueta disallow, que también puede ayudar a mejorar el proceso de evaluación y evitar penalizaciones por contenido no optimizado para los usuarios.

¿Para qué sirve el Disallow?

El uso principal que le dan los diseñadores web es cuando un portal digital está en creación o remodelación. Es decir, aún no está listo, pero ya se encuentra en la red, de esta forma, el algoritmo no lo posicionará de forma incorrecta ni tampoco formará parte del presupuesto de los crawlers (el tiempo disponible para evaluar todo un sitio)

Este tipo de herramienta también se utiliza para privatizar la información, sobre todo datos para la empresa, como el inventario. También es genial para evitar la indexación cuando aún no se ha realizado una optimización SEO (cuando la URL marca solo números, no existen etiquetas de títulos como h1 o h2, no hay imágenes…)

¿Dónde está el archivo robots.txt?

Normalmente, el directorio disponible para el algoritmo se encuentra en la raíz del sitio. Por ejemplo, si un sitio web tiene este dominio “sitio-ejemplo.com”, el archivo debe estar en “sitio-ejemplo.com/robots.txt”. Si esta no existe, se puede crear una nueva carpeta que incluya un archivo txt con todas las páginas sin formato y con sus respectivas etiquetas allow y disallow.

Igualmente, es importante mencionar que los robots tienen en consideración el archivo para evaluar, pero eso no significa que no vayan a leer o indagar un poco en esas páginas rechazadas. Esto lo hacen con el fin de descartar páginas ocultas para redireccionar al usuario o para encontrar prácticas de Black Hat SEO.

Ejemplo de Disallow

Con este comando no solo se pueden “desactivar” páginas web enteras, también se puede denegar el acceso a algo específico, como una imagen. Para ello, se utiliza el comando disallow/*jpg para bloquear una foto y evitar que aparezca en la búsqueda de imágenes.

 

Más información sobre Disallow

Es interesante cómo funcionan las optimizaciones SEO para buscadores, ¿quieres saber más? Sigue leyendo y mira todas las mejoras que le puedes hacer a tu sitio web.