Contenido Bloqueado

En la categoria:

El contenido bloqueado son páginas de los motores de búsqueda que se bloquean por varias razones. Estas podrían ser páginas que no pueden ser indexadas por los motores de búsqueda, tales como páginas en estado beta o páginas con contenido duplicado.

Hay varios métodos de bloqueo en los motores de búsqueda:

Robots.txt

Robots.txt (también: protocolo de exclusión de robots) es un archivo de texto para robots, que se almacena en el directorio raíz. Al indexar una página, el robot comprueba si existe un archivo robots.txt y qué instrucciones contiene. Se pueden excluir páginas específicas o directorios completos con el archivo robots.txt. Serán ignorados por los robots de los motores de búsqueda y no serán rcrawleados o indexados. Sin embargo, hay ocasiones en las que las páginas se incluyen en el índice a pesar de otras instrucciones en el archivo robots.txt. Esto ocurre especialmente cuando las páginas son accesibles desde otras páginas, es decir, cuando están enlazadas con otras páginas.

Bloqueo de IP

El bloqueo de IP también puede evitar que las páginas se incluyan en el índice del motor de búsqueda. Algunos agentes de usuario (por ejemplo, robots de motores de búsqueda, robots de spam) se excluyen a través de un archivo .htaccess. Pero este método sólo es útil si se conoce el nombre del bot que intenta acceder y su IP. Dado que los robots de los motores de búsqueda se disfrazan temporalmente como otros robots, la exclusión del índice no está necesariamente garantizada.
Google Analytics puede ser anonimizado para que no pueda almacenar la dirección IP.

Meta robots

El tercer y probablemente el método más efectivo para excluir el contenido de la web de ser indexada por los motores de búsqueda es el uso de meta-robots. Meta robots es una metaetiqueta de HTML que proporciona a los robots de los motores de búsqueda instrucciones específicas sobre si el sitio debe incluirse en el índice de los motores de búsqueda o si deben seguirse los enlaces de la página. Esta metaetiqueta se declara en el encabezado de una página. Si deseas excluir el contenido de la página, las instrucciones en la etiqueta del robot serían:

Recomendación

Al bloquear páginas, es especialmente importante excluir el contenido correcto. Debes asegurarte de que las páginas importantes estén bien enlazadas internamente y no se bloqueen accidentalmente. Si las páginas valiosas se bloquean, no pueden ser indexadas y pasar en cualquier link juice valioso.