Crawler

Un crawler, comúnmente conocido como rastreador, es un programa que analiza los documentos de los sitios web. Los motores de búsqueda cuentan con rastreadores muy potentes que navegan y analizan los sitios web y crean una base de datos con la información recolectada. El término crawler proviene del primer motor de búsqueda de Internet, el Web Crawler. También se conoce como rastreador, araña o robot.

Funcionamiento

En principio un crawler es como un bibliotecario. Busca información en el sitio web, la categoriza y la indexa antes de que venga analizada.

Las operaciones de este programa deben establecerse antes de que los crawler empiecen a analizar un sitio web. El crawler procesa estas órdenes automáticamente y, por lo tanto, el tipo de información que obtiene el crawler depende exclusivamente de las normas que se le hayan establecido.

Uso

El objetivo principal del crawler es crear una base de datos. Por lo tanto, los crawlers son las herramientas de trabajo que utilizan los motores de búsqueda para extraer la información que necesitan para evaluar los sitios web y determinar su posicionamiento en los SERPs. Los Focused Crawler se concentran, por ejemplo, en analizar sitios web y buscar información específica y relevante, dependiendo de las órdenes que se le hayan establecido.

Algunas de las aplicaciones de los crawlers son:

  • Comparación de precios en portales de productos
  • En el ámbito del data mining un crawler puede, por ejemplo, organizar los correos electrónicos y códigos postales de las empresas
  • Recopilación de datos relativos a las visitas de los sitios web e información sobre los enlaces externos, Backlink

Crawler vs. Scraper

Un crawler es simplemente un recolector de datos. Sin embargo, scrapping es una técnica de Black Hat SEO que tiene como objetivo copiar datos, como el contenido, de un sitio web para utilizarlos en otros sitios web.

Bloquear un crawler

Quien no quiera que ciertos crawlers analicen su sitio web pueden bloquearlos con el archivo robots.txt. Esto no evita que el contenido sea indexado por los motores de búsqueda, para ello se deben utilizar las etiquetas Noindex o Etiqueta Rel=Canonical.

Compartir

TYPO3

TYPO3 es un CMS de código abierto basado en el lenguaje de programación PHP. Desde…

Breadcrumb

Breadcrumb es una navegación secundaria dentro de una web (también llamada navegación de miga de…

Google Mobile

Google Mobile hace referencia a todos los productos y servicios ofrecidos por Google Inc. con…

Valor Añadido

El término valor añadido (added value en inglés), tiene su origen en la administración de…

RankBrain

RankBrain es un nuevo subsistema de algoritmos que Google utiliza en la entrega de resultados…

Ad Exchange

El término ad exchange (intercambio de anuncios) se refiere a los mercados online, en los…

Esta web usa cookies.