El término contenido duplicado, o duplicate content proviene de SEO. El contenido duplicado se crea cuando se puede acceder al mismo contenido con diferentes URL y se indexa con diferentes URL. La indexación de sitios web con contenido duplicado puede tener un efecto negativo en el Ranking en los SERPs.
El contenido duplicado puede surgir si:
El contenido casi duplicado es un contenido muy similar que también podría dar lugar a problemas. Los bloques de texto que se copian con frecuencia (como teasers o textos recurrentes en cada página) pueden ser representados como contenido duplicado por los motores de búsqueda.
Google] ha hecho varios ajustes a sus algoritmos para asegurar que el motor de búsqueda pueda filtrar el contenido duplicado muy bien. Tanto el Brandy Update de 2004 como el Bourbon Update de 2005 mejoraron la capacidad de Google para detectar contenido duplicado.
El contenido duplicado presenta un problema a los motores de búsqueda. Tienen que decidir cuál de las páginas duplicadas es la más relevante para una consulta de búsqueda. Google subraya que “la duplicación de contenido en un sitio web[…] no es una razón para tomar medidas contra este sitio web”. Sin embargo, el proveedor del motor de búsqueda se reserva el derecho de imponer sanciones por intenciones manipuladoras: “En los raros casos en que tengamos que asumir que el contenido duplicado se muestra con la intención de manipular el posicionamientp o engañar a nuestros usuarios, hacemos las correcciones apropiadas al índice y ranking de los sitios web en cuestión”. Los webmasters no deben dejar que Google decida si el contenido duplicado es involuntario o se ha creado deliberadamente; simplemente deben evitar el contenido duplicado.
El contenido duplicado puede tener diferentes causas, que a menudo se basan en la configuración incorrecta de los servidores.
Los fundamentos para evitar la duplicación de contenido dentro del propio sitio web se encuentran en la configuración del servidor. Los siguientes problemas pueden ser resueltos fácilmente:
Uno de los errores más básicos de SEO de una página surge cuando un dominio responde simultáneamente a todos los subdominios. Esto se puede probar fácilmente simplemente visitando
“h
"http://www.DOMINIO.com” seguido de “http://dominio.com” (i.e, sin “www”)
Si se muestra el mismo contenido en ambos casos (y la barra de direcciones sigue mostrando el dominio introducido), se debe actuar rápidamente. En el peor de los casos, el servidor responde a todos los subdominios, incluyendo un subdominio como
“http://potatoe.DOMINIO.com”
Estas otras páginas con el mismo contenido se denominan dobles. Para facilitar que los motores de búsqueda decidan qué URL es relevante, se debe configurar el servidor correctamente. Esto se puede hacer, por ejemplo, usando el módulo mod-rewrite para el servidor Apache comúnmente usado. Con un archivo.htaccess en el directorio raíz del sitio web, se puede enseñar el siguiente código al servidor a través de una redirección 301 para asegurarse de que el sitio web sólo responde al dominio correcto – y redirige automáticamente los subdominios habituales al dominio correcto:
RewriteEngine On # ! Please remember to replace “DOMAIN2 with the respective domain of your project ! RewriteCond %{HTTP_HOST} !^www.DOMAIN.com$ [NC] RewriteRule (.*) http://www.DOMAIN.com/$1 [R=301,L]
Como consideración preliminar, uno debería primero decidir cuál debería ser el dominio principal – es decir, con o sin “www”? En el caso de los sitios web internacionales, la identificación del país también debe considerarse un subdominio.
http://en.DOMAIN.com/
Otra forma generalizada de contenido duplicado surge del uso de barras oblicuas. Estas son URLs que no contienen nombres de archivos sino que apuntan a directorios. Por ejemplo:
http://www.DOMAIN.com/register_a/register_b/
Esto (normalmente) abre el archivo de índice de la subcarpeta “register_b”. Dependiendo de la configuración, la siguiente URL también responde de manera similar:
http://www.DOMAIN.com/register_a/register_b
En el ejemplo anterior, falta la última barra. El servidor primero intenta encontrar el archivo “register_b”, que no existe, pero luego se da cuenta de que existe tal carpeta. Dado que el servidor no desea devolver un mensaje de error innecesario (“archivo no existe”), se muestra el archivo índice de esta carpeta. En principio, esto es algo bueno pero desafortunadamente resulta en contenido duplicado (tan pronto como un enlace apunta a una URL “falsa”). Este problema se puede tratar de diferentes maneras:
La mejor manera de hacerlo es usando un redireccionamiento 301 vía .htaccess así como rectificando enlaces defectuosos. Esto ahorra a Google los problemas innecesarios de crawl que, a su vez, pueden ser de beneficio para el sitio web en un punto diferente.
Las tareas de optimización de una página no sólo consisten en evitar la duplicación de contenidos, sino también en identificarlos y actuar de forma adecuada. El llamado Duplicate Content Checker puede ayudar aquí. Enumera las URLs que muestran contenido similar. Es particularmente importante que los webmasters y SEOs actúen apropiadamente en el caso de contenido duplicado. Dado que la indexación siempre es más rápida en los robots de los motores de búsqueda, el contenido idéntico también llega más rápido a la Web. Esto da como resultado el riesgo de una mala clasificación o incluso una exclusión acelerada del índice.
Los contenidos duplicados a menudo afectan a las tiendas online que se hacen cargo de los textos de los productos 1:1 de los fabricantes y también los utilizan para los portales de comparación de precios. Matt Cutts ya ha expresado su opinión sobre este tema. [1] Por lo tanto, debes crear textos diferentes para tu propia página de inicio y comparaciones de precios o portales de compras externos. Aunque pueda parecer una tarea problemática, los textos individualizados para diferentes páginas valen la pena – en primer lugar, tu propia web y tu marca se verán fortalecidos, y en segundo lugar, las comparaciones de precios recibirán textos individualizados y por lo tanto más interesantes tanto para Google como para el usuario.
Con el fin de evitar la duplicación de contenido online en el propio sitio, los webmasters deben revisar su contenido cuidadosamente y potencialmente considerar si algunas categorías pueden ser fusionadas. En algunos casos, también puede ser útil marcar las páginas de filtro con la etiqueta “noindex, follow”, por ejemplo. Los motores de búsqueda no indexan estas páginas, sino que siguen los enlaces que aparecen en ellas.
Para crear contenido único, se dispone de herramientas que tienen en cuenta la fórmula TF*IDF.
En caso de que se produzca una duplicación de contenido externa como resultado de un “robo de contenido”, deberás ponerte inmediatamente en contacto con el webmaster correspondiente y solicitarle que incluya la fuente original del texto o que elimine el texto. En la mayoría de los casos, una simple petición es suficiente. También puede emitirse una advertencia en casos extremos. Además, los webmasters tienen la posibilidad de denunciar a Google las páginas que violan los derechos de autor al copiar contenido. Este formulario se puede enviar desde la Consola de Búsqueda de Google.
Si surge contenido duplicado externo debido a que un webmaster está operando dos sitios web con el mismo contenido en dos o más dominios, un Redireccionamiento 301 es a menudo suficiente para prevenir el contenido duplicado.
Otra opción es dar a conocer a Google la versión preferida de un sitio web a través de la Consola de Búsqueda de Google, por ejemplo.
Existen varias alternativas cuando se trata de contenido interno duplicado en el propio sitio web. La etiqueta canónica es una herramienta importante en este caso. Esto hace referencia a la subpágina duplicada a la página original, y el duplicado está exento de la indexación. Si deseas estar absolutamente seguro de que una subpágina con contenido duplicado no está indexada, puedes marcarla utilizando una etiqueta noindex. Para excluir adicionalmente el contenido duplicado del crawl, las respectivas subpáginas también se pueden guardar en el archivo robots.txt.
Ahora Google puede identificar bien las páginas traducidas y asignar el contenido a una página original. Con el fin de evitar la duplicación de contenido a través de traducciones o idiomas idénticos para diferentes mercados de destino, la etiqueta se puede utilizar para indicar la región y el idioma de las URL individuales. De esta manera, Google reconoce que existen traducciones de una página y que la URL tiene una cierta orientación.
Un ejemplo: una tienda online alemana también ofrece sus productos en la parte de habla alemana de Suiza y en Austria. En este caso, el idioma de destino es el alemán. Sin embargo, la tienda utiliza el país correspondiente que termina en y para los países de destino. Para evitar la duplicación de contenido, se colocará en la cabecera de la versión alemana para referirse a una variante para Suiza.
La optimización móvil también puede producir contenido duplicado. Esto es especialmente cierto si el sitio web móvil tiene su propio subdominio. El contenido duplicado puede ser evitado usando la etiqueta rel=alternativa. La etiqueta se refiere desde la versión de escritorio a la versión móvil. Los motores de búsqueda reconocerán entonces que el dominio es el mismo y evitarán la doble indexación.
Para evitar la duplicación de contenido interno, es aconsejable planificar la jerarquía de páginas de forma adecuada. Esto permite detectar de antemano posibles fuentes de contenido duplicado. Al crear productos en tiendas en línea, también se deben hacer preparativos para la fácil implementación de etiquetas canónicas. Lo siguiente es válido para el nivel de texto: Cuanto más individualizado es el texto, mejor es para Google y el usuario, y más fácil es evitar el contenido duplicado.
Para el primer análisis está disponible el llamado Duplicate Content Checker, como por ejemplo desde copyscape o Ryte. Estas herramientas identifican inicialmente contenidos similares o incluso idénticos en la web. Las tiendas online, en particular, que transmiten los datos de sus productos a través de archivos CSV a portales de comparación de precios o plataformas de venta como Amazon, suelen verse afectadas por estos problemas. Matt Cutts ya ha expresado su opinión sobre este tema. [2]
Referencias
Breadcrumb es una navegación secundaria dentro de una web (también llamada navegación de miga de…
Google Mobile hace referencia a todos los productos y servicios ofrecidos por Google Inc. con…
El término valor añadido (added value en inglés), tiene su origen en la administración de…
RankBrain es un nuevo subsistema de algoritmos que Google utiliza en la entrega de resultados…
El término ad exchange (intercambio de anuncios) se refiere a los mercados online, en los…
Esta web usa cookies.