El scraping es una práctica donde el contenido de las webs se extrae, copia y almacena manualmente o con la ayuda de software y, si es necesario, se reutiliza en una versión modificada en tu web. Si se utiliza de forma positiva, el web scraping ofrece la posibilidad de añadir más valor a una web con contenido de otros sitios web. Sin embargo, si se utiliza indebidamente, el scraping viola los derechos de autor y se considera spam.
El scraping se puede hacer con diferentes técnicas. Los más frecuentes se describen brevemente a continuación:
El scraping se utiliza para muchos propósitos. Algunos ejemplos son:
En el contexto de la sindicación de contenidos, el contenido de las webs puede distribuirse a otros editores. Sin embargo, el scraping a menudo puede violar estas reglas. Hay webs que sólo tienen contenido que ha sido scrapeado de otras webs. Muy a menudo se pueden encontrar páginas que contienen información que ha sido copiada directamente de Wikipedia sin mostrar la fuente del contenido. Otro caso de spam scraping es que las tiendas online copian las descripciones de sus productos de competidores exitosos. Incluso a menudo el formato se mantiene igual.
Es importante que los webmasters sepan si su contenido está siendo copiado por otras webs. Porque en el caso extremo, Google puede acusar al autor de scraping, lo que podría llevar a que el dominio que ha sufrido scraping vea reducido su posicionamiento de los SERPs. Las alertas se pueden configurar en Google Analytics para supervisar si el contenido está siendo copiado por otros sitios web.
Motores de búsqueda como Google utilizan el scraping para mejorar su propio contenido con información relevante de otras fuentes. En particular, Google utiliza métodos de scraping para OneBox o para hacer su Gráfico de Conocimiento. Google también hace scraping en la web para añadir entradas a Google Maps que aún no han sido reclamadas por las empresas. Además, Google recopila datos relevantes de webs que han puesto a disposición microformatos de su contenido para crear rich snippets.
Hay varias medidas simples que los webmasters pueden utilizar para evitar que sus sitios web se vean afectados por el scraping:
Breadcrumb es una navegación secundaria dentro de una web (también llamada navegación de miga de…
Google Mobile hace referencia a todos los productos y servicios ofrecidos por Google Inc. con…
El término valor añadido (added value en inglés), tiene su origen en la administración de…
RankBrain es un nuevo subsistema de algoritmos que Google utiliza en la entrega de resultados…
El término ad exchange (intercambio de anuncios) se refiere a los mercados online, en los…
Esta web usa cookies.