Journal of Biomedical Discovery and Collaboration, 2006; 1: 2-2 (más artículos en esta revista)

Un tutorial sobre la recuperación de la información: términos y conceptos básicos

BioMed Central
Zhou Wei (wzhou8@uic.edu) [1], Neil R Smalheiser (neils@uic.edu) [2], Clement Yu (yu@cs.uic.edu) [1]
[1] Department of Computer Science, University of Illinois at Chicago, 851 South Morgan Street, Chicago, IL 60607, USA
[2] Department of Psychiatry and Psychiatric Institute, MC912, University of Illinois at Chicago, Chicago, IL 60612, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Este tutorial informal está destinado a los investigadores y estudiantes que deseen comprender el funcionamiento de sistemas de recuperación de información, incluyendo los más utilizados motores de búsqueda: PubMed y Google. Tener un conocimiento básico de los términos y conceptos de la recuperación de la información debe mejorar la eficiencia y la productividad de las búsquedas. Además, este conocimiento es necesario con el fin de comprobar actuales esfuerzos de investigación biomédica en la recuperación de información y la minería de texto que se están desarrollando nuevos sistemas no sólo para la búsqueda de documentos sobre un determinado tema, pero la extracción y la integración de los conocimientos a través de documentos.

Introducción

Biomédicas investigadores uso de PubMed y Google cotidiana, y el éxito de estos motores de búsqueda está estrechamente relacionada con el hecho de que uno no necesita saber cómo los sistemas de trabajo con el fin de obtener respuestas útiles a las preguntas que se plantean. Sin embargo, los científicos tienden a ser pensadores mecanicista, de modo que puedan convertirse naturalmente curiosos acerca de los mecanismos que subyacen a estos servicios. Además, incluso si un neófito puede obtener resultados aceptables, a sabiendas de la tecnología de recuperación de información en que se basan estos motores de búsqueda debe permitir que una a obtener mejores resultados con mayor eficacia [1, 2]. Por último, si en efecto, "la biología se ha convertido en una ciencia de la información" [3], entonces todos los investigadores deben tener un conocimiento básico de la recuperación de la información (IR) los términos y los conceptos, incluso los que no están dedicados a la investigación de infrarrojos.

PubMed

PubMed [4] es un servicio de la Biblioteca Nacional de Medicina que comprende más de 15 millones de citas bibliográficas de MEDLINE y otras revistas de ciencias de la vida para los artículos biomédicos de nuevo a la década de 1950. El texto completo de los artículos no se almacenan, sino enlaces a la web del proveedor para obtener el texto completo de los artículos se le da, si está disponible. Cada artículo se indexa de acuerdo a varios campos, incluyendo título, resumen, nombres de los autores, nombre de la revista, el idioma de publicación, año de publicación, etc (Tabla 1]. Cada artículo en MEDLINE también está indexado utilizando un vocabulario controlado, denominado Medical Subject Headings (MeSH), que se utiliza para describir los principales temas tratados [5]. El conjunto de términos MeSH es asignado manualmente por expertos biomédicos que escanear cada uno de los artículos.

Vamos a considerar una necesidad de información: un usuario desea identificar a los últimos artículos que tratan el uso de propanolol en la hipertensión. En primer lugar, deberá traducir esta información en la necesidad de una consulta en el formato correcto para que pueda ser procesada correctamente. PubMed emplea a los operadores booleanos AND, OR y NOT. El operador AND se usa para obtener un conjunto en el que cada registro contiene todos los términos de búsqueda. Este operador no pone condición en los términos en que se encuentran con relación a los otros; los términos simplemente tienen que aparecer en algún lugar del mismo registro. Por ejemplo, si uno desea documentos sobre el uso de la droga propanolol en la enfermedad de la hipertensión, una típica búsqueda declaración podría ser [propanolol Y hipertensión] (los corchetes se utilizan para delimitar la consulta, pero no son parte de la pregunta en sí) (Fig . 1]. El operador OR recupera los documentos que contienen al menos uno de los términos de búsqueda especificados. El operador NOT excluye a los términos especificados de la búsqueda. Ciertas palabras muy comunes (por ejemplo, "este") son inscritos en un stoplist y están automáticamente excluidos de las consultas.

Antes de PubMed comienza a recuperar los artículos, que lleva a cabo la consulta preliminar, el fin de identificar los ámbitos de la MEDLINE record son pertinentes, y de modificar o ampliar los términos de la consulta a través de la cartografía automática plazo. Por ejemplo, la consulta [presión arterial alta] será automáticamente asignadas a las MeSH término "hipertensión" (MeSH cada término puede tener un conjunto de sinónimos como alternativa entrada. En este ejemplo, "la presión arterial alta", es uno de La entrada sinónimos o términos de "hipertensión"). PubMed buscará en el mapa utilizando el término MeSH MeSH en el campo, así como el plazo originalmente introducido. MeSH comprende una jerarquía de los términos, y los términos más específicos correspondientes a término MeSH que también se busquen automáticamente. En el ejemplo anterior, tres más específicas términos MeSH "Hipertensión, maligno", "La hipertensión, renales", y "La hipertensión arterial, el embarazo-inducida" también se realizaron búsquedas. Este proceso de la adición de términos relacionados que se denomina ampliación de consultas. Es básicamente una operación OR. PubMed también mantiene una lista de palabras, de modo que las frases de uso común son reconocidos como tales y manipulados. Después de la consulta preliminar, el PubMed busca coincidencias exactas entre los términos de la consulta y los términos dentro de los campos de MEDLINE, y devuelve una lista de documentos clasificados, en orden cronológico inverso (de manera opcional, en primer lugar el apellido del autor o por nombre de la revista). Un tutorial PubMed más detallada se puede encontrar en [6], y consejos para la búsqueda en MEDLINE se puede encontrar en [7].

Google

A diferencia de PubMed, que es un motor de búsqueda se limita a la literatura biomédica, miles de millones de búsquedas en Google páginas web. Sin embargo, como PubMed, Google utiliza una estrategia de búsqueda booleanos. De enviar una consulta a Google en la forma: [propanolol hipertensión] devolverá todas las páginas web que coincidan con ambos "propanolol" e "hipertensión" exactamente (aunque algunos de los términos no pueden residir en la propia página de recuperarse, pero en las páginas Que enlazan con la página recuperada). Google también apoya OR y NOT operadores booleanos. En lugar de devolver las páginas web por orden cronológico, Google emplea un único método denominado PageRank y sofisticadas técnicas de concordancia de texto para encontrar páginas que son importantes y relevantes para una consulta.

PageRank es un método para medir la importancia de las páginas web desarrollado por Larry Page y Sergey Brin [8]. PageRank se basa en la estructura de vínculos de la web como un indicador de una página individual del valor. Si muchas páginas web tienen enlaces a la página A, a continuación, la página A se da más peso. Pero, Google analiza más de la gran cantidad de enlaces que recibe una página, sino que también analiza la página que contiene el enlace. Enlaces por páginas que son en sí mismas "importantes" tienen más peso y ayudan a hacer que otras páginas sean "importantes" (véase el cuadro 3 para más detalles). Google también se utiliza texto de equiparación de las técnicas para medir la similitud entre una consulta y páginas web [9]. Google tiene en cuenta más de cien factores en la determinación de que las páginas web son los más relevantes para una consulta, por ejemplo, es para rangos superiores a las páginas que han términos de búsqueda muy cerca unos de otros y en el mismo orden que la consulta, o de las páginas que tienen en términos de búsqueda Importantes secciones de una página web (como el título).

Vector espacio modelo

Los usuarios pueden simplemente no entrar en consultas Boolean la forma en que normalmente escribir o hablar (texto libre), porque la lógica booleana incorpora todos los términos utilizados - por lo tanto, extra o palabras coloquiales podría restringir indebidamente o ampliar la consulta. De enviar una consulta a PubMed de la forma: [dígame, ¿cuáles son las indicaciones para el propranolol en la hipertensión] no recupera artículos, porque los autores no son susceptibles de uso "decir" o "yo" en sus artículos académicos. (NLM mantiene experimental MEDLINE interfaz de consultas de texto libre en [10].] Parcial-permitirá que se pongan en venta las preguntas de texto libre y recuperar todos los documentos que tienen por lo menos uno de los términos de búsqueda y, a continuación, clasificarlos de acuerdo a su importancia para la Consulta.

El modelo clásico de IR parcial de equiparación es el modelo de espacio vectorial (VSM), que se suele atribuir a Salton [11]. En el VSM, cada documento es representado, o indexados, por un vector de términos ponderados. Por ejemplo, la consulta [dígame, ¿cuáles son las indicaciones para el propranolol en la hipertensión] puede ser representada por un vector incluyendo los términos "indicaciones", "propranolol", y "hipertensión". (Las palabras "dicen", "mí", "para", y así sucesivamente puede ser eliminado si un empleado es stoplist.) Cada documento en la reunión que se busquen (por ejemplo, páginas web indexadas por Google) está representado en De la misma manera. A menudo se emplea derivados de reconocer variantes de la misma palabra, que se reducirá también el número de términos indexados. Por ejemplo, las palabras "bella" y "embellecer" proceden de la misma raíz, "belleza". Así que a menudo son determinados por un sólo término. Aviso de que la VSM no captura todas las características de un documento o una consulta. Por ejemplo, el orden de los términos en un documento que no está registrada, por lo que "un gato persigue a un ratón" será indistinguible de "un ratón persigue un gato". Las condiciones suelen ser ponderado en términos de su importancia. Una estrategia común de ponderación es el de asignar las ponderaciones de alta a los términos que se producen con frecuencia en un documento, pero con poca frecuencia en otros lugares.

La similitud entre cada uno de los documentos almacenados en el sistema y el usuario consulta se define como la diferencia entre el documento de vectores, así como la consulta de vectores. Los documentos se clasifican por lo general sus condiciones de proximidad de la consulta. Esto se llama clasificación por relevancia (véase el cuadro 2 para más detalles).

Perfeccionamiento de las búsquedas

Aunque las búsquedas son fáciles de llevar a cabo, que es muy difícil crear una consulta que refleja exactamente la intención del usuario en el primer intento. Pertinencia retroalimentación es una técnica de uso común para mejorar el rendimiento de recuperación [12, 13]. Es un proceso en el que el usuario realiza una consulta inicial, y, a continuación, proporciona información en cuanto a lo que son los documentos pertinentes. Términos de los que conoce el documento pertinente se añade a la consulta. Otra posibilidad es que el motor de búsqueda puede tratar de identificar automáticamente los documentos pertinentes por el supuesto de que el mejor clasificado de los documentos pertinentes, a fin de que los nuevos términos son seleccionados automáticamente (esto se conoce como pseudo pertinencia comentarios, ciegos o de ampliación de consultas). Una nueva pregunta se formula añadiendo el término seleccionado para una segunda ronda de recuperación. A través de una ampliación de consultas, algunos documentos pertinentes perdido en la ronda inicial se pueden entonces recuperar para mejorar el rendimiento general.

Evaluación del desempeño de los motores de búsqueda

Un sistema de infrarrojos devuelve una lista ordenada de los documentos a la consulta del usuario. ¿Cómo funciona el resultado satisfacer al usuario? La medida más utilizada es la basada en la pertinencia de recordar medida y precisión. Con respecto a una determinada consulta, los documentos de todo el espacio puede dividirse en cuatro grupos: pertinente para el usuario y recuperado por el sistema; pertinentes, pero no recuperados; irrelevante y recuperados; irrelevante y no recuperados. El recuerdo y la precisión se definen sobre la base de esos cuatro conjuntos.

Recordar indica cuál es la proporción de todos los documentos pertinentes se han recuperado de la colección. Precision indica qué proporción de los documentos recuperados son relevantes. Uno de los problemas de esta medida es que el número total de documentos relevantes de la colección por lo general es desconocido. Por lo tanto, un estándar de oro, en la que todos los documentos que son juzgados como relevantes o irrelevantes para cada consulta, es por lo general construidos manualmente por los evaluadores a utilizar esta medida. En una colección de tamaño razonable, es imposible juzgar todos los documentos con respecto a cada consulta. En lugar de ello, "la pertinencia de evaluación combinada" se lleva a cabo en múltiples motores de búsqueda que se utilizan, cada uno de ellos la recuperación de un cierto número de documentos de cada una de ellas. El juez evaluadores de la unión de los documentos recuperados, o, a veces, la comúnmente recuperados documentos.

Con el fin de recordar y combinar la precisión en una sola medida general, emplear a algunos trabajadores recordar precisión tabla en la que 11 intervalos de una retirada de 0,0 a 1,0 y se utiliza la media de la precisión en cada punto de recordar es como el resumen del resultado . Esto también se le llama de 11 puntos promedio de precisión (Tabla 4, Fig. 2]. Otro enfoque para combinar precisión y recordar es la Fmeasure Fmeasure. Una simple medida de la versión de F es la siguiente:

Un enfoque que se ha utilizado con más frecuencia en los últimos tiempos se entenderá precisión media (PAM), donde la precisión se mide en cada punto en el que el documento pertinente se obtiene y luego de media sobre todos los documentos pertinentes para obtener el promedio de precisión para un determinado Consulta. Para un conjunto de preguntas, la media de la media de precisión de todas las consultas es el MAP de que el sistema de recuperación de información.

El Texto REtrieval Conference (TREC) [14, 15] es un evento anual, organizado por los EE.UU. Instituto Nacional de Estándares y Tecnología (NIST) para fomentar la investigación en la recuperación de información de grandes aplicaciones de texto mediante el suministro de una gran colección de pruebas (de una colección De los documentos, las consultas, resoluciones judiciales y la pertinencia), el uniforme de los procedimientos de puntuación, y un foro de organizaciones interesados en la comparación de sus resultados. Una pista en el dominio biomédico (TREC Genómica Track) [16] se inició en el año 2003. En el año más reciente de la pista (2005), se incluyeron dos tareas. Uno evaluó ad hoc recuperación de temas reales capturados por los biólogos, como la búsqueda de documentos que describen la función de un gen en una determinada enfermedad. Para el seguimiento de la Genómica, TREC ha proporcionado un programa especial llamado trec_eval para evaluar el desempeño de cada uno de los participantes del sistema [17].

Conclusión

La facilidad con que los usuarios pueden realizar búsquedas en PubMed y Google no debe calma de los investigadores en pensar que la recuperación de la información es un arte aprendido fácilmente, o una ciencia madura. Usuario estudios indican que los estudiantes y profesionales por igual son muy ineficaces e ineficientes en la recuperación de puntos específicos de información a través de PubMed o búsquedas en la web [18, 19] y la conferencia TREC ha demostrado que los actuales sistemas de infrarrojos muestran niveles de rendimiento que están muy por debajo de óptima [[ 20, 21], que acompaña a ver los artículos en esta revista]. La investigación está en curso para aprender la mejor forma de representar la información en los documentos, y la forma de índice de la información mediante el uso de ontologías (una ontología es normalmente una estructura jerárquica de datos que contiene todas las entidades pertinentes, sus propiedades, sus relaciones, y las normas dentro de un determinado dominio [ 22]]. Muchos investigadores están estudiando la manera de ir más allá de la recuperación de los documentos pertinentes para encontrar pasajes o relaciones específicas dentro de los documentos mencionados (la extracción de la información) (véase Para leer, en el cuadro 5]. Una variedad de servicios basados en web, como KartOO [23] y Vivisimo [24] que actualmente permiten a los usuarios visualizar los documentos recuperados o el grupo o los sitios web de acuerdo a su pertinencia, importancia y relaciones entre sí. Por último, los nuevos modelos matemáticos de la recuperación de la información se están estudiando [25, 26] que todavía no se han cumplido ampliamente.

Uno puede esperar que la búsqueda de información que se presente en público las bases de datos debería ser mucho más fácil que hacer nuevos descubrimientos científicos y, sin embargo, esta tarea sigue siendo un desafío formidable.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

WZ escribió el primer proyecto y ha ayudado a modificar los borradores posteriores. NS reescribió el texto para hacerlo más accesible a los investigadores biomédicos, y CY verifica la suficiencia y la cobertura del tema.