Modelos de Recuperación y Organización de la Información

MODELO PROBABILISTICO

La idea en la que se sustenta el modelo probabilístico es que dada una consulta de usuario, existe un conjunto de documentos formado exclusivamente por todos los documentos relevantes para esa consulta. Dada la descripción de este conjunto no habría problemas en recuperar esos documentos. Así que la tarea de Recuperación y Organización de la Información puede reducirse a determinar que propiedades debe tener ese conjunto. El problema es que esas propiedades no pueden conocerse con exactitud, aunque pueden utilizarse los términos clave contenidos en la consulta para realizar una aproximación inicial de estas propiedades y generar un conjunto inicial. Ya sea con la ayuda del usuario o sin ella, el sistema refina en la definición del conjunto de documentos relevantes a partir del último conjunto construido, repitiendo esta operación tantas veces como sea necesario para construir el conjunto de documentos relevantes que será presentado al usuario.

En definitiva, dada una consulta q y un documento d sub j de la colección, el modelo probabilístico estima la probabilidad de que el documento d sub j sea relevante para el usuario.

El modelo probabilístico asume que esta probabilidad de relevancia depende solo del documento y la consulta. Además, asume que hay un subconjunto R de documentos que el usuario prefiere como respuesta para la consulta q.
Para computar esta relevancia el modelo usa la relación "P" que mide la similitud entre documento y consulta. Usar las probabilidades de que un documento sea relevante para una consulta para hacer la clasificación (ranking) minimiza la posibilidad de error.

Necesita de un método para calcular las probabilidades iniciales, para lo que hay numerosas alternativas. Se pueden aprovechar por ejemplo las frecuencias de las palabras clave en un documento y la frecuencia en todos los documentos.

Tras una aproximación se obtiene un subconjunto inicial, que usaremos para refinar aún más la búsqueda, recalculando las probabilidades, incluyendo en las fórmulas valores como el número de archivos en este subconjunto, o premiando a los documentos que pertenezcan a él. Estas operaciones se repiten iterativamente, hasta que se obtienen las probabilidades definitivas.

Hay muchas otras opciones para calcular estas probabilidades. Otra podría ser recibiendo la ayuda de los usuarios, que pueden determinar que documentos de los que se les devuelvan, son más relevantes para su consulta.

Arriba

Ultima modificación: 2 de mayo de 2006 por ********@*****.***

Páginas del WIKI

Trucos no legales de optimización y solución por los motores
Ramón Argüello Flores
Usabilidad y accesibilidad en la recuperación de información
Joaquín Bish Takeuchi
Clustering para recuperación de información
Diego Esteban-Infantes Sánchez
Arquitectura de BD para buscadores WEB
David Fernandez Gonzalez
Motores de recuperacion de documentos XML RDF
Cristian Fernández Soria
Metadatos y documentos XML/RDF para recuperación
Víctor García González
Evaluación de buscadores web
Alberto Gutiérrez Sáez
Evaluación de la recuperación de documentos
Luis Jimenez Cuadrado
Credibilidad y redacción de contenidos para mejora de la R.I
María Luisa Maqueda Ortuno
Algoritmos de posicionamiento en Google, Yahoo y MSN
Cristina Martín de Vidales Bistué
Herramientas SEO
Leticia Martín Montero
Web semántica para recuperar información
Javier Múgica Ortiz
Modelos de recuperación
Sergio Pérez
PLN para recuperación de la información
María de los Angeles Ramirez Carreño
Lenguajes de recuperación
Miguel Angel Rodriguez Gonzalez
Interacción hombre-máquina
Antonio Tamajón Moreno

Modelos de Recuperación y Organización de la Información

por Sergio ************

MODELO PROBABILISTICO

Páginas del WIKI