El archivo robots.txt es un documento que define qué partes de un dominio pueden ser analizadas por los rastreadores de los motores de búsqueda y proporciona un enlace al XML-sitemap.
El llamado Robots Exclusion Standard Protocol, Protocolo Estándar de Exclusiones Robots, se publicó por primera vez en 1994. Este protocolo establece que los rastreadores de los motores de búsqueda deben buscar y leer el archivo llamado robots.txt antes de empezar con la indexación. Es por esto que se debe colocar en el directorio raíz del dominio. Sin embargo, debemos recordar que no todos los rastreadores siguen esta misma norma y por lo tanto, los robots.txt no aseguran al 100% protección de acceso y privacidad. Algunos motores de búsqueda todavía indexan las páginas bloqueadas y muestran incluso aquellas sin descripción en los SERPs. Esto ocurre particularmente con sitios web que contienen demasiados enlaces. Sin embargo, los motores de búsqueda más importantes como Google, Yahoo y Bing sí que se ajustan a las normas del protocolo robots.txt.
Es simple crear un robots.txt con la ayuda de un editor de textos. Además, puedes encontrar herramientas gratuitas en internet que ofrecen información detallada sobre cómo generar un archivo robots.txt o que, incluso, te lo crean automáticamente. Cada archivo contiene 2 bloques. En el primero, se especifica para qué usuarios son válidas las instrucciones. En el segundo bloque se escriben las instrucciones, llamadas disallow, con la lista de las páginas que deben excluirse. Se recomienda comprobar con atención que el archivo se haya escrito correctamente antes de descargarlo en el directorio ya que, con simplemente un minúsculo error de sintaxis, se pueden malinterpretar las instrucciones e indexar páginas que, en teoría, no deberían salir en los resultados de búsqueda. Para verificar si el archivo robots.txt funciona correctamente se puede utilizar la herramienta webmaster de Google y realizar un análisis en status -> blocked URLs.
La estructura más simple de un archivo robots.txt aparece del siguiente modo:
User-agent: Googlebot Disallow:
Este código permite que Googlebot analice todas las páginas. Lo contrario, como por ejemplo la prohibición completa del sitio web, se escribe del siguiente modo: ‘
User-agent: Googlebot Disallow:
En la línea del User-agent el usuario escribe para quién va dirigido. Pueden utilizarse los siguientes términos:
Si la orden va dirigida a diferentes usuarios cada robot tendrá su línea propia. En mindshape.de podrás encontrar un resumen de las órdenes y parámetros más comunes para la creación de un robots.txt. También se puede añadir un enlace a un XML-Sitemap del siguiente modo:
Sitemap: http://www.domain.de/sitemap.xm
# robots.txt for http://www.example.com/ User-agent: UniversalRobot/1.0 User-agent: my-robot Disallow: /sources/dtd/ User-agent: * Disallow: /nonsense/ Disallow: /temp/ Disallow: /newsticker.shtml
El uso del protocolo robots.txt influye en el acceso de los rastreadores al sitio web. Existen dos comandos diferentes: “allow” y “disallow”. Es muy importante utilizar correctamente este protocolo ya que si el webmaster bloquea por error – a través de la orden “disallow” – archivos y contenidos importantes del sitio web los rastreadores no serán capaces de leerlo ni indexarlo. Sin embargo, si se utiliza correctamente los webmasters son capaces de informar a los rastreadores de cómo analizar la estructura interna de su sitio web.
Breadcrumb es una navegación secundaria dentro de una web (también llamada navegación de miga de…
Google Mobile hace referencia a todos los productos y servicios ofrecidos por Google Inc. con…
El término valor añadido (added value en inglés), tiene su origen en la administración de…
RankBrain es un nuevo subsistema de algoritmos que Google utiliza en la entrega de resultados…
El término ad exchange (intercambio de anuncios) se refiere a los mercados online, en los…
Esta web usa cookies.