Robots de búsqueda

¿Qué es un robot de búsqueda?

Índice

  1. Definición de Robot de Búsqueda
  2. Tipos de Robots
  3. Funcionamiento
  4. Enlaces y Bibliografía
  5. Noticias Relacionadas
  6. Información y Contacto



Suscribase a las noticias


Definición de Robot de Búsqueda


Un robot es un programa que recorre una estructura de hipertexto recuperando un enlace y todos los enlaces que están referenciados para, a partir de ahí, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Por el contrario, los Índices y Directorios suelen formarse de forma manual operados por humanos (o de forma automática, pero una vez que los humanos han introducido los datos en el índice por categorías y subcategorías) y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas previamente incluyen en ellos, pudiendo como ventaja, clasificar fácilmente por secciones los temas de las páginas web.

Tipos de Robots de Búsqueda


  • Arañas (Spiders)
    es un programa usado para rastrear la red. Lee la estructura de hipertexto y accede a todos los enlaces referidos en el sitio web. Se utiliza como sinónimo de robot y crawler
  • Gusanos (Worms)
    es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original. Se usan, por ejemplo, para duplicar los directorios de FTP para que puedan acceder más usuarios.
  • Orugas (Web crawlers)
    es un tipo específico de robot que ha dado lugar al nombre de algunos buscadores como Webcrawler y MetaCrawler.
  • Hormigas (WebAnts)
    Se trata de un cooperativa de robots. Trabajan de forma distribuida, explorando simultáneamente diferentes porciones de la Web. Son robots que cooperan en un mismo objetivo, por ejemplo, para llevar a cabo una indización distribuida
  • Vagabundos (Wanderes)
    son una clase de robots que realizan estadísticas sobre la Web, como por ejemplo, número de servidores, servidores conectados, número de webs, etc.
  • Robots del Conocimiento (Knowbots)
    localizan referencias hipertextuales dirigidas hacia un documento o servidor concreto. Permiten evaluar el impacto de las distintas aportaciones que engrosan las distintas áreas de conocimiento de la Web.
  • Qué es un Agente:
    En la acutalidad al hablar de un "agente" se han de tener en cuenta las siguientes acepciones: Agente autónomo: se trata de un programa que "viaja" entre los sitios web (ubicados en servidores especiales), decidiendo de forma independiente qué debe hacer y cuándo debe moverse a otros lugares. Agente inteligente: o softbot,es programa que ayuda a rellenar formularios, elegir productos, etc. Agente de usuario: programa que ejecuta determinadas tareas para un usuario en la red, como por ejemplo un navegador como Internet Explorer, o un agente de correo del tipo Email User-agent, Eudora etc.

Se utilizan para:

  • Indexar

  • Validar HTML u otros lenguajes

  • Validar enlaces

  • Monitorear archivos nuevos

  • Generar imágenes, mapas, etc.

Funcionamiento


La mayoría de grandes buscadores internacionales son del tipo "spider". Recorren las páginas recopilando información sobre los contenidos de las páginas. Cuando se busca una información en los motores, ellos consultan su base de datos y presentan resultados clasificados por su relevancia. De las webs, los buscadores pueden almacenar desde la página de entrada, a todas las páginas que residan en el servidor. Si se busca por palabra clave, por ejemplo, “robot”, como resultados ofrecerá páginas que contengan esta palabra en alguna parte de su texto. Si consideran que un sitio web es importante para el usuario, tienden a registrarlas todas. Si no la consideran importante, sólo almacenan una o más páginas. Un aspecto a tener en cuenta es que cada cierto tiempo, los motores revisan los sitios, para actualizar los contenidos de su base de datos, por lo que no es infrecuente que los resultados de la búsqueda estén desactualizados. Por otro lado existen los buscadores jerárquicos cuya principal caracteristica es que tienen una colección de programas simples y potentes con diferentes cometidos. Se suelen dividir en tres partes. Los programas que exploran la red -arañas (spiders)-, los que construyen la base de datos y los que utiliza el usuario, el programa que explota la base de datos. En el caso de los resultados patrocinados, se puede aparecer en las primeras páginas de resultados, aunque los principales buscadores los delimitan e indican al usuario que se trata de resultados esponsorizados.Ejemplos de Arañas: Google, MSN Search, AltaVista, Hotbot, GlowBoom.

Los robots pueden ser usados para varios propósitos:
Indexar
Validar HTML
Validar Links
Monitorear "qué hay de nuevo"
Generar imágenes

Algunos ejemplos de Robots puden ser::

•   Gigabot (robot de Gigablast )

•   Googlebot (robot de Google )

•   Mozilla Compatible Agent (robot de Yahoo )

•   Msnbot (robot de MSN )

 

 

Enlaces y Bibliografía


Enlaces relacionados:

Información sobre accesibilidad web para invidentes

Lenguajes de Marcado SGML

Cloaking

Introducción al Posicionamiento

Guía XML

Precisión: Medida de Recuperación de Información

LAS CLAVES DEL DTD

Quaero buscador

Tesauros

Bibliografía:

Agentes inteligentes: recuperación autónoma de información en la web / José L. Berrocal, Carlos G. Figuerola, Ángel F. Zazo y Emilio Rodríguez.

Posicionamiento web: conceptos y herramientas / Codina, Lluis, Marcos, Mari Carmen.- El profesional de la información, v. 14, n. 2, marzo-abril, 2005.

Agentes Inteligentes en la búsqueda y recuperación de información / Lara Navarra, Pablo, Martínez Usero, José Ángel.

Motores de Búsqueda / Filiberti, Franco Luis.

Noticias Relacionadas


Primer acuerdo entre Google, Microsoft y Yahoo

Fuente: VITAMINAWEB.COM 14.05.2008 - 11:58h

Google, Microsoft y Yahoo!, las tres principales compañías de búsqueda en Internet, han llegado a un acuerdo para adoptar un sistema estándar de envío de información, acerca de las páginas de un sitio web, que mejora el rastreo e indexación de las mismas, por parte de sus robots de búsqueda. Dicho estándar es el Sitemap 0.90 XML. Google lo creó, liberándolo en el año 2005 en su versión 0.84 XML. Sitemap, cuya versión actual es la 0.90 XML, es un estándar común respecto a la información sobre los contenidos de cualquier sitio web, a fin de que webmasters, diseñadores y desarrolladores web puedan informar más fácilmente a los principales motores de búsqueda sobre el contenido de los sitios que administran o crean. Tal como anunció en su blog, el día 15 de noviembre pasado, Grace Kwak, Product Manager de Google, ya es oficial que Yahoo! y Microsoft se han unido a esta iniciativa en la que Google ha sido pionero. Sitemap es un archivo XML, que se redacta siguiendo un protocolo preestablecido y que informa a los buscadores sobre el listado de las direcciones URLs de todas las páginas que constituyen un sitio web, ofreciendo información adicional (metadatos) sobre cada una de sus páginas, tal como cuáles son las más importantes, cuándo ha sido actualizada por última vez y cuál es la frecuencia habitual de las actualizaciones. Cuando un desarrollador web envía un archivo Sitemap toma el control sobre la primera parte del proceso de rastreo e indexación realizado por los principales buscadores. Esta ayuda resulta especialmente relevante en dos casos: cuando se trata de sitios web con contenido dinámico, puesto que no todas las páginas son fáciles de encontrar mediante el rastreo basado en el seguimiento de enlaces; y cuando se trata de sitios nuevos, que normalmente tienen pocos enlaces que apunten a los mismos. Sin embargo, este programa no reemplaza los métodos habituales de rastreo de Google a lo largo de toda la World Wide Web. De todas formas se debe recordar que hay otros factores que influyen en los resultados finales de indexación y posicionamiento en Google. Entre estos factores se pueden destacar los siguientes: el número y la importancia de los enlaces que apuntan hacia el sitio web, la originalidad y relevancia del contenido y el hecho de que las páginas que conforman el sitio web puedan ser rastreadas por los robots de búsqueda con éxito. Además de estos factores siempre se deben de considerar el resto de directrices para desarrolladores web que Google tiene publicadas. El programa está en periodo de pruebas, por lo tanto, de momento, hacer uso del mismo no garantiza el rastreo e indexación de un sitio web por parte de Google, aunque se espera que con el tiempo mejore su cobertura y velocidad. Sitemap 0.90 XML se ofrece bajo los términos de la licencia Attribution-ShareAlike Creative Commons.


Información y contacto


Esta página ha sido creada por Esther Martín González-Sepúlveda para la asignatura de Sistemas Avanzados de Recuperación de Información, cursada en el segundo curso de la licenciatura en Documentación de la Universidad Carlos III 100053054@alumnos.uc3m.es

Contador