Un crawler, comúnmente conocido como rastreador, es un programa que analiza los documentos de los sitios web. Los motores de búsqueda cuentan con rastreadores muy potentes que navegan y analizan los sitios web y crean una base de datos con la información recolectada. El término crawler proviene del primer motor de búsqueda de Internet, el Web Crawler. También se conoce como rastreador, araña o robot.
En principio un crawler es como un bibliotecario. Busca información en el sitio web, la categoriza y la indexa antes de que venga analizada.
Las operaciones de este programa deben establecerse antes de que los crawler empiecen a analizar un sitio web. El crawler procesa estas órdenes automáticamente y, por lo tanto, el tipo de información que obtiene el crawler depende exclusivamente de las normas que se le hayan establecido.
El objetivo principal del crawler es crear una base de datos. Por lo tanto, los crawlers son las herramientas de trabajo que utilizan los motores de búsqueda para extraer la información que necesitan para evaluar los sitios web y determinar su posicionamiento en los SERPs. Los Focused Crawler se concentran, por ejemplo, en analizar sitios web y buscar información específica y relevante, dependiendo de las órdenes que se le hayan establecido.
Algunas de las aplicaciones de los crawlers son:
Un crawler es simplemente un recolector de datos. Sin embargo, scrapping es una técnica de Black Hat SEO que tiene como objetivo copiar datos, como el contenido, de un sitio web para utilizarlos en otros sitios web.
Quien no quiera que ciertos crawlers analicen su sitio web pueden bloquearlos con el archivo robots.txt. Esto no evita que el contenido sea indexado por los motores de búsqueda, para ello se deben utilizar las etiquetas Noindex o Etiqueta Rel=Canonical.
Breadcrumb es una navegación secundaria dentro de una web (también llamada navegación de miga de…
Google Mobile hace referencia a todos los productos y servicios ofrecidos por Google Inc. con…
El término valor añadido (added value en inglés), tiene su origen en la administración de…
RankBrain es un nuevo subsistema de algoritmos que Google utiliza en la entrega de resultados…
El término ad exchange (intercambio de anuncios) se refiere a los mercados online, en los…
Esta web usa cookies.