El headless crawling es la navegación automatizada de Internet y dominios individuales utilizando un navegador headless (sin cabeza), que es un navegador web sin interfaz gráfica de usuario. El headless crawling incluye muchos enfoques y métodos para extraer, almacenar, analizar y procesar datos. Los sitios web, las aplicaciones web y las características individuales de las webs también pueden probarse y comprobarse automáticamente. El headless crawling incluye superposiciones temáticas con temas como la recuperación de información, data mining, el scraping y la automatización de pruebas.
Hasta hace poco, Google recomendaba el uso de navegadores headless para rastrear webs dinámicas. Los operadores tenían que proporcionar una captura de pantalla HTML de su sitio web, para que Google pudiera leer y evaluar el contenido de la misma. El llamado esquema de rastreo/crawl AJAX ha quedado obsoleto y ya no se utiliza. En cambio, el contenido de la web se proporciona independientemente de la tecnología utilizada, incluyendo el dispositivo, el navegador y la conexión a Internet, lo que se conoce como mejora progresiva [1]. El headless crawling es esencialmente una parte de cualquier motor de búsqueda. El contenido de la Web se navega, pero no se renderiza o muestra al usuario de forma gráfica.
Lo que sucede con los datos detectados, es una cuestión de enfoque. Sin embargo, se supone que el motor de búsqueda de Google utiliza la capacidad de headless crawling desde 2004 y JavaScript ya no es un problema desde octubre de 2015. Los motores de búsqueda pueden usar headless crawling para evaluar sitios web. En la medida en que el crawler simula una llamada a un sitio web con una interfaz no gráfica, los motores de búsqueda pueden sacar conclusiones de esta información y calificar los sitios web en función de su comportamiento en el navegador headless [2].
En el centro del headless crawling se encuentra el navegador headless, un programa que lee el contenido web, lo pasa a otros programas o lo muestra basado en texto en forma de archivos, listas y matrices. Este tipo de navegadores obtienen acceso a los sitios web mediante su implementación en una infraestructura de servidor. Opcionalmente, se puede utilizar un servidor virtual o un servidor proxy. Desde allí, el navegador headless intenta acceder a una URL; éste es el punto de partida del proceso de crawling, que se inicia con una línea de comandos o un comando de script [3]. Dependiendo de la configuración, el navegador puede encontrar más URLs. Los contenidos almacenados allí pueden ser procesados, incluso la cuestión de las posiciones de enlace en el sitio web es posible. Sin embargo, una interfaz API, que transfiere los datos al programa de tratamiento, es a menudo necesaria para este propósito.
Lo que hace que el headless crawling sea especial es la comunicación máquina a máquina (M2M). Tanto las URLs llamadas como el contenido web encontrado no se muestra al usuario final, como en el caso de los navegadores convencionales. En su lugar, el navegador headless reenvía los datos recuperados en formatos que deben definirse de antemano, pero que pueden procesarse automáticamente más tarde. Si se implementa de forma extensiva, un navegador headless puede manejar diferentes lenguajes de programación, scripts y procesos gracias a una API que puede comunicarse con otros programas o infraestructuras a través de peticiones HTTP o TCP. Este principio se utiliza a menudo para extraer grandes cantidades de datos, lo que en última instancia plantea la cuestión de hasta qué punto es legal recopilar y procesar dichos datos. En principio, los derechos de autor, los acuerdos de privacidad y la privacidad de los usuarios podrían ser violados [4]. Lo mismo se aplica a los portales de comparación de precios, motores de búsqueda y proveedores de meta-búsqueda.
El headless crawling no sólo se aplica en los motores de búsqueda, sino también en otros casos de uso. Dos ejemplos:
El headless crawling es un aspecto importante de SEO. Como ya se ha mencionado, el principio es (muy probablemente) utilizado por varios motores de búsqueda para rastrear sitios web y aplicaciones web, incluso si el esquema de crawl AJAX está obsoleto. Google recomienda en diferentes puntos de las Directrices de calidad utilizar un navegador basado en texto, como Lynx, para representar los sitios web tal y como los ve Google. Se puede asumir que la capacidad de Google y de otros motores de búsqueda puede hacer mucho más que los navegadores basados en texto y lo que se comunica oficialmente. Por consiguiente, tendría sentido aprender headless crawling en detalle. Porque con este principio, los sitios web pueden ser probados a fondo y con esta perspectiva los SEOs pueden aventurarse a mirar detrás de las escenas del operador del motor de búsqueda, sin perder de vista a los usuarios.
Referencias
Breadcrumb es una navegación secundaria dentro de una web (también llamada navegación de miga de…
Google Mobile hace referencia a todos los productos y servicios ofrecidos por Google Inc. con…
El término valor añadido (added value en inglés), tiene su origen en la administración de…
RankBrain es un nuevo subsistema de algoritmos que Google utiliza en la entrega de resultados…
El término ad exchange (intercambio de anuncios) se refiere a los mercados online, en los…
Esta web usa cookies.