Un robot es un programa que rastrea una web y recupera todos los enlaces que aparecen relacionados. Generalmente empiezan el rastreo por la página prinicpal y van descendiendo niveles. De ello se alimentan los grandes motores de búsqueda de la web.
La diferencia con los Directorios, es que éstos no indexan las páginas mediante robots, sino que son los priopios usuarios los que envían o dan de alta una web que después es validada por una persona que comprueba si el enlace enviado se corresponde con la información proporcionada por el usuario que la ha dado de alta.
Los directorios, si están bien gestionados, tienen la ventaja de que las webs están clasificadas en categorías y además, dependiendo de los criterios de calidad para su admisión, poseen información masrelevante para el usuario que la indexación automática.
Los robots son llamados "Crawlers" o "Spiders" (arañas de búsqueda) y su función es de rastreo y extracción de enlaces.
Cómo decide un robot qué visitar
Esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL's. Especialmente con documentos con muchos links, tales como una lista de servidores "what's New"(qué hay de nuevo") y desde los sitios más populares en la Web.
Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot.
Son usados a veces otros recursos también como listas de correo, grupos de discusión, etc.
Esto les da un punto de partida para comenzar a seleccionar url's que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.
<< Volver al glosario
|