CATEGORIAS

Crawler

En la categoria: SEO

Un crawler, comúnmente conocido como rastreador, es un programa que analiza los documentos de los sitios web. Los motores de búsqueda cuentan con rastreadores muy potentes que navegan y analizan los sitios web y crean una base de datos con la información recolectada. El término crawler proviene del primer motor de búsqueda de Internet, el Web Crawler. También se conoce como rastreador, araña o robot.

Funcionamiento

En principio un crawler es como un bibliotecario. Busca información en el sitio web, la categoriza y la indexa antes de que venga analizada.

Las operaciones de este programa deben establecerse antes de que los crawler empiecen a analizar un sitio web. El crawler procesa estas órdenes automáticamente y, por lo tanto, el tipo de información que obtiene el crawler depende exclusivamente de las normas que se le hayan establecido.

Uso

El objetivo principal del crawler es crear una base de datos. Por lo tanto, los crawlers son las herramientas de trabajo que utilizan los motores de búsqueda para extraer la información que necesitan para evaluar los sitios web y determinar su posicionamiento en los SERPs. Los Focused Crawler se concentran, por ejemplo, en analizar sitios web y buscar información específica y relevante, dependiendo de las órdenes que se le hayan establecido.

Algunas de las aplicaciones de los crawlers son:

Comparación de precios en portales de productos
En el ámbito del data mining un crawler puede, por ejemplo, organizar los correos electrónicos y códigos postales de las empresas
Recopilación de datos relativos a las visitas de los sitios web e información sobre los enlaces externos, Backlink

Crawler vs. Scraper

Un crawler es simplemente un recolector de datos. Sin embargo, scrapping es una técnica de Black Hat SEO que tiene como objetivo copiar datos, como el contenido, de un sitio web para utilizarlos en otros sitios web.

Bloquear un crawler

Quien no quiera que ciertos crawlers analicen su sitio web pueden bloquearlos con el archivo robots.txt. Esto no evita que el contenido sea indexado por los motores de búsqueda, para ello se deben utilizar las etiquetas Noindex o Etiqueta Rel=Canonical.

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Glosario de Marketing Digital

CATEGORIAS

Crawler

Funcionamiento

Uso

Crawler vs. Scraper

Bloquear un crawler