Crawlers

Crawler

Los crawlers o mejor conocidos como arañas rastreadoras, son pequeños bots que exploran y analizan los sitios web en Internet. Son parte de un algoritmo de un motor de búsqueda como Google, por lo que integran sistemas para ofrecer mejores resultados en el posicionamiento web.

¿Qué son?

Los crawlers son programas informáticos que recopilan datos en Internet para su análisis y clasificación. Su tarea principal es verificar que los sitios web cumplan con los estándares de posicionamiento web, y aquellos que mejor los cumplan se colocarán en los primeros lugares de las páginas de resultados de búsqueda.

Aunque los motores de búsqueda como Google no divulgan los estándares exactos, aseguran que los parámetros de optimización SEO se acercan mucho a ellos.

Origen Los crawlers fueron desarrollados por Brian Pinkerton en la Universidad de Washington y se presentaron por primera vez el 20 de abril de 1994. Fueron adquiridos por AOL en 1995. Además de «crawlers», también se les llama rastreadores, arañas, bots y algoritmos.

¿Para qué sirven los Crawlers?

Su función principal es extraer información de los sitios web, aunque esto varía según el tipo de rastreador. Los crawlers se clasifican según el tipo de información que recopilan, como noticias, vídeos, imágenes y ubicaciones. Cada tipo de crawler tiene diferentes criterios para clasificar un sitio web.

Por ejemplo, los crawlers que rastrean medios de comunicación para Google News posicionarán mejor los sitios que estén registrados en el Centro de Editores de Google.

¿Cómo funcionan?

Los crawlers de Google actúan rápidamente y de forma automática cada vez que se publica una nueva página web. Realizan las siguientes fases:

  1. Enlaces para rastrear: Verifican si hay nuevos enlaces en un sitio web.
  2. Enlaces visitados: Evalúan los enlaces previamente indexados en busca de nuevas modificaciones.
  3. Búsqueda: Comparan e indexan palabras clave en el contenido, la URL y otros enlaces.
  4. Extracción: Almacenan los enlaces rastreados.
  5. Filtración: Eliminan los enlaces o códigos que no deben ser rastreados, según lo indicado por el propietario en el código.

Es importante recordar que la filtración de enlaces o códigos no deseados puede ser una práctica delicada y debe realizarse con cuidado para evitar problemas de indexación.

Más información sobre Crawlers