BMC Medical Informatics and Decision Making, 2005; 5: 13-13 (más artículos en esta revista)

Un ensayo controlado de clasificación automatizada de la negación de las notas clínicas

BioMed Central
Peter L Elkin (elkin.peter @ mayo.edu) [1], Steven H Brown (Steven.Brown @ med.va.gov) [2], Brent A Bauer (bauer.brent @ mayo.edu) [1], Casey S Husser (husser.casey @ mayo.edu) [1], William Carruth (bcarruth@jhmi.edu) [3], Larry R Bergstrom (bergstrom.larry @ mayo.edu) [1], Dietlind L Wahner-Roedler (Wahnerroedler.dietlind @ mayo.edu)
[1] Departamento de Medicina, Mayo Foundation, Rochester, MN, EE.UU.
[2] Departamento de Informática Biomédica de la Universidad de Vanderbilt, Nashville, TN y de la Administración de Salud de Veteranos (VHA), EE.UU.
[3] Departamento de Medicina Interna, Johns Hopkins School of Medicine, Baltimore, MD, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Identificación de la negación de los registros electrónicos de salud es esencial si queremos comprender el significado computable de los registros: Nuestro objetivo es comparar la precisión de un mecanismo automatizado para la cesión de Negación de los conceptos dentro de una clínica de composición con expresión Humanos Asignación de Negación. Además de realizar un análisis del fallo para determinar las causas de mal identificados negación (es decir, perdido de la representación conceptual, la representación conceptual impreciso, perdido de Negación, inexacta identificación de Negación).

Métodos

41 Documentos Clínicos (Medical evaluaciones; a veces fuera de Mayo son las denominadas pruebas de Historia y Física) se analiza el uso de Mayo Vocabulario Parsing Server Engine. SNOMED-CT ™ se utiliza para proporcionar la cobertura para el concepto clínico conceptos en el expediente. Estos registros resultado en la identificación de conceptos y textual pistas a la negación. Estos registros fueron revisados por un médico independiente terminólogo, y los resultados se cuantifican en una hoja de cálculo. Cuando las preguntas sobre el examen de Medicina Interna Facultad surgieron fueron empleados para hacer una determinación final.

Resultados

SNOMED-CT fue utilizado para proporcionar el concepto de cobertura de 14792 Conceptos de Salud en 41 registros de John's Hopkins University. De estos, 1823 Conceptos fueron identificados como negativos por Human examen. La sensibilidad (Recall), de la cesión de la negación fue 97,2% (p <0,001, Pearson Chi-Cuadrado prueba, en comparación con una moneda flip). La especificidad de la cesión de la negación fue de 98,8%. El ratio de probabilidad positivo de la negación fue de 81. El valor predictivo positivo (Precision) fue 91,2%

Conclusión

Automatizado de cesión de la negación de los conceptos identificados en los registros de salud a partir de una revisión del texto es viable y práctico. Léxica cesión de la negación es una buena prueba de la verdad como Negativity juzgados por la alta sensibilidad, la especificidad y la tasa de probabilidad positiva de la prueba. SNOMED-CT había cobertura general de 88,7% de los conceptos que se niega.

Antecedentes

Una gran riqueza de los datos médicos de pacientes concretos se almacena como transcrito texto libre. Aunque este formato es útil para las personas leer el expediente médico, la información almacenada como texto libre es difícil de usar en sistemas de apoyo de decisiones automatizadas o cruz estudios de población [1]. Los esfuerzos por ordenador que pueda utilizarse para extraer información de archivos de texto libre son muy diversas. Tradicionalmente, los equipos formados de abstractors han revisado manualmente de los pacientes gráficos. String equiparación es un simple enfoque algorítmico. La identificación de conceptos es un proceso mucho más complejo. Algorítmico comprensión del lenguaje natural es muy prometedor, pero sigue siendo difícil de lograr, [2, 3]. A pesar de los desafíos, una serie de grupos se han aplicado técnicas de procesamiento del lenguaje natural con distintos grados de éxito [4 - 10]. Concepto de base de indexación es otro enfoque que se ha aplicado a una serie de áreas, incluyendo la recuperación de la literatura, los sitios web relacionados con la salud, diagnósticos clínicos, médicos y descripciones [11 - 16].

El procesamiento del lenguaje natural se dirige en una lógica de representación del discurso. Hasta la década de 1920 la lógica y las matemáticas se consideró espiritual no científica. Desde los tiempos de Pitágoras, las matemáticas se consideró una revelación divina de la orden. En Principia Mathematica (Russell y Whitehead), demostró que las matemáticas era lógica. Positivismo lógico se aplicó entonces a la ciencia y la psicología.

Noam Chomsky del trabajo seminal "La estructura lógica de la teoría lingüística", se publicó en 1955 en forma mimeografiada y en la prensa en 1975. Este trabajo expresa la opinión de que el idioma es una actividad cognitiva y requiere un meta-modelo de lenguaje para comunicarse efectivamente. Él demostró que el modelo de estímulo respuesta no cuenta para el lenguaje humano. Esta idea de que el lenguaje es procesada condujo a la aplicación de la informática a texto libre (lenguaje natural) de transformación. Lingüística Computacional (CL) es un campo de la ciencia que trata de entender y representar el idioma en un conjunto de la interoperabilidad semántica. CL se solapa con el campo de la Inteligencia Artificial y con frecuencia ha sido aplicada a la traducción automática de un lenguaje a otro. Naomi Sager en 1994 en JAMIA publicado un documento titulado "Procesamiento del Lenguaje Natural y la Representación de datos clínicos." Aquí Dr Sager mostró que para un conjunto de las letras a recordar la gestión del 92,5% y una precisión del 98,6%, se podría lograr Para un conjunto limitado de pre-seleccionadas y datos utilizando el programa de análisis producido por el Proyecto de cadenas de Lingüística en la Universidad de Nueva York [1 - 3].

En 2004, Friedman et al informaron de un método de codificación de los conceptos de los registros de salud utilizando sinónimos [4]. En este estudio Dr Friedman y sus colegas utilizan MedLEE a conceptos abstractos de las actas e informó de la retirada de un 77% y una precisión del 89%. En 2001, Nadkarni proporcionó una descripción de los elementos fundamentales necesarios para NLP [5]. Expuso su método de concordancia léxica y parte de la intervención en la gestión de marcado resúmenes y notas quirúrgica. Henry Lowe MicroMeSH desarrollado una pronta PAPERAS terminología basada en navegador que incorpora robusto rutinas concordancia léxica. Dr Lowe trabajando con Bill Hersh informó de la exactitud de los informes de radiología analizar el uso de la indexación Sapphire sistema [6]. Aquí se informó de la buena sensibilidad y fueron capaces de mejorar el rendimiento mediante la limitación de la fuente sinónimos vocabularios por sección del informe.

MetaMap tiene la capacidad de ser utilizado para codificar texto libre (lenguaje natural) a una representación controlada, que puede ser cualquier subconjunto de la UMLS fuentes de conocimiento [7]. MetaMap utiliza un proceso de cinco pasos que comienza por utilizar el mínimo compromiso ESPECIALISTA parser nombre que identifica frases sin modificadores. El paso siguiente consiste en la identificación de las variantes de expresión. Estas variantes se utilizan para identificar frases de los candidatos en el material de origen [8]. Lingüística directores se utilizan para calcular un puntaje para cada posible igualar. Brennan y Aronson MetaMap utilizados para mejorar la salud de los consumidores de recuperación de información para los pacientes [9].

Hemos construido y describe los sistemas de indexación basada concepto, la composición automatizada plazo, y automatizado plazo de descomposición. En su versión actual, el sistema utiliza la terminología SNOMED-CT. La exactitud de esta técnica ha automatizado sido evaluadas previamente [10]. Muchas personas han evaluado la precisión de la composición manual plazo [11, 12]. La codificación clínica centro de la NHS ha informado poco éxito con su propio algoritmo automatizado plazo para disección en el pasado [13, 14].

A medida que avanzamos hacia términos de composición, la necesidad de organizar los términos de composición dentro de una expresión se convierte en importante para la legibilidad y la comprensión de estos compuestos [15, 17]. La identificación de conceptos que se afirma explícitamente que no es el caso y que los separa de las afirmaciones positivas se vuelve de fundamental importancia si queremos comprender las implicaciones médicas de texto. Lingüística negación es un problema difícil [18]. Este ensayo evalúa un mecanismo para la asignación automática de la condición de negación de los conceptos de la terminología analizada usando una negación ontología. El texto es, a fin de identificar las expresiones que indica negación y un modelo de la negación se aplica para asignar valores a los conceptos. Hemos llamado a este sistema automatizado de la asignación de gramática negación [10]. Reconocemos los siguientes tipos semántica: Kernel conceptos, Modificadores, Cualificadores o negativas de Clasificaciones [19]. Una base de reglas se aplica luego que organiza la Modificadores, Clasificaciones Clasificaciones y negativas alrededor del núcleo conceptos. Estos están representados en una estructura jerárquica con el grado de sangrado siendo representante de la dependencia semántica. La exactitud de esta técnica ha automatizado sido evaluadas previamente [10]. Muchas personas han evaluado la precisión de la composición manual plazo [11, 12].

La identificación de conceptos que se afirma explícitamente negativamente (por ejemplo, "no hay pruebas de la neumonía") y que los separa de las afirmaciones positivas se vuelve de fundamental importancia si queremos comprender las implicaciones médicas de texto.

Para ilustrar la importancia del concepto de negación, un caso de referencia a 62 años de edad que se presenta con eritema sobre el dorso del pie izquierdo con exquisita ternura más de una herida situado más de la mitad del pie. Después de un amplio trabajo clínico, que se encontró a tener una celulitis del pie izquierdo, sin signos de lymphangitic propagación de la infección. En este caso, es una distinción importante que nuestra paciente no tenía "Linfangitis" asociados a ella "La celulitis, pie izquierdo", en contraposición a un separado caso de que el diagnóstico de "Linfangitis estuvo presente." Epidemiológicamente, si uno está estudiando Linfangitis, sería importante excluir a este paciente del registro de los análisis.

Un estudio anterior de la negación por Mutalik et al, describen la cesión de la negación léxica utilizando el código de sinónimos a los documentos de texto libre. Su intervención tuvo una sensibilidad del 95,7% y una especificidad del 91,8% [20]. Ellos no informó de la cobertura sinónimos de los conceptos que aparecen en el texto. También señalaron que las palabras "no", "no" "negó y niega" y "sin" formado por un 92,5% de la negación en su estudio. Chapman et al aguarda para identificar negación en la gestión y resúmenes identificados negativo conceptos sinónimos con una sensibilidad del 77,8% y una especificidad del 94,5% utilizando expresiones regulares [21].

Métodos
Diseño del estudio

Cuarenta y una única historia clínica (que se observa que comprende un conjunto de la historia evaluaciones médicas y físicas) de cuarenta y un por separado los pacientes fueron seleccionados al azar de la sección de pacientes ambulatorios del Departamento de Medicina Interna en la John's Hopkins Medical School. Estos son indexados utilizando el vocabulario Mayo Server. Los registros se presentan en el sistema de libre como archivos de texto ASCII. El texto se analiza la utilización de la Salud Mayo Record Parser, que analiza el texto en secciones en consonancia con los registros de salud como de costumbre se presentan a continuación:

Historia

Historia de la enfermedad actual

Por problema

Historia clínica

Historia Social

Medicamentos

Alergias

Examen de Sistemas

Examen Físico

Por parte del cuerpo

Pruebas de diagnóstico

Evaluación / Informe / Plan

Por problema

Negación Cesión

Negación es parte de un sistema más amplio que asigna a los conceptos de un nivel de seguridad como parte de la generación de un dos fases dyadic analizar árbol. Cada frase dentro de cada sección se analiza en primer lugar por un preprocesador, que rompe el texto y la aportación a los operadores (es decir, Y, O, No, lo mejor). El texto se analiza utilizando el vocabulario Servidor de Mayo, que devuelve un conjunto de conceptos que representa el mejor partido desde dentro SNOMED CT-fragmento de la oración analizada. Una base de reglas se aplica al texto que se asigna a cada concepto un atributo que se indica que el concepto es una afirmación positiva, negativa o una afirmación incierta afirmación. El software aún no está desarrollado hasta un punto en el que podría ser utilizado por otros usuarios, y por lo tanto no es de libre acceso, pero los autores dará acceso a todo el software para los lectores interesados en la validación de los resultados. En este manuscrito, nos centramos en la evaluación de la asignación a los conceptos atributo "afirmación negativa" (véase la figura 1]. Mezcla de afirmaciones tales como "probablemente no", se consideraron las afirmaciones inciertas para los fines de esta evaluación.

El sistema utiliza la terminología SNOMED CT-Índice de los documentos clínicos. Toda la terminología empleada a fin de que cualquier SNOMED CT-concepto que aparecen en estas historias, con independencia de su ubicación dentro de la ontología, sería codificada. El texto es, a fin de identificar las expresiones que indica negación y un modelo de la negación se aplica para asignar valores a los conceptos. Llamamos a esta negación automatizado de la asignación de gramática.

Ejemplos de los tipos de términos que se implican negación "no", "niega", y ha "descartado". Un ejemplo de lo que se refiere, que detener la propagación de la cesión de la negación, es "distinto" (Por ejemplo, El paciente negó una historia de enfermedad cardíaca previa que no sea el que experimentó palpitaciones dando como resultado una presentación en síncope.). En el ejemplo anterior, las afirmaciones son positivas y negativas en cursiva afirmaciones están en negrita y los operadores están subrayados. La mayor ontología términos de la negación de sus variantes léxicas y el correspondiente reglamento de aplicación de los mismos están a disposición dentro de un vocabulario más amplio de la denominada servidor Mayo Vocabulario Server.

Los resultados de los análisis sintáctico fueron examinadas por un experto médico terminólogo (independiente del equipo de estudio). Optamos por emplear un único revisor de este estudio que es independiente del equipo de estudio, basado en la alta entre calificadores acuerdo en la reciente evaluación de SNOMED-CT para el problema de codificación de la lista de datos (94,3% de acuerdo; Estadística Kappa = 0,79) y nuestra convicción de que la cesión de la negación es relativamente sencillo en comparación con la mayoría de las sentencias de salud terminología. Para cada suceso, de la negación en el texto como juzgado por un revisor humano, el número de conceptos negativos correctamente el mapa y el número total de los conceptos negativos se cuantifican por la subsección del acta. Si las afirmaciones no estaban etiquetados correctamente, se hizo un registro para distinguir si existe una falta de mapa con la terminología, el motor o si simplemente la expresión asignada incorrectamente. El análisis incluyó también el fracaso si la información que falta es un concepto del núcleo (el principal punto de la expresión), un modificador de (un concepto que cambia el significado de un término en un sentido clínico como "gravedad"), un clasificatorio (un concepto Que cambia el significado de un término en un sentido administrativo o temporal como "recurrentes").

La sensibilidad, especificidad y valor predictivo positivo y positivo probabilidad coeficientes de la cesión de la condición de la negación se informó.

Para un ejemplo de un contexto de la negación como afirmación de encontrarse en un registro médico, véase la figura 1.

Análisis Estadístico

Además de las comparaciones descriptivo de la exactitud de las tasas de la cesión de la negación, una comparación estadística oficial se realizó. Para determinar si los resultados obtenidos podrían ser consolidadas por casualidad fue el siguiente método empleado. Las pruebas se emplean para la igualdad de las tasas de exactitud entre la negación y la cesión flip una moneda para determinar si el efecto, que hemos visto, podría haber sido la oportunidad de presentar por sí sola la Chi cuadrado de Pearson estadística para la igualdad de proporciones.

Resultados

En general, hemos identificado 14.792 conceptos de salud en el texto de 41 historias clínicas utilizando la SNOMED CT-Mayo Vocabulario Server y el software de análisis de la revisión manual. No se hizo ningún intento para filtrar en la duplicación de conceptos. De estos 13082 fueron positivos o inciertas las afirmaciones de las cuales 12921 fueron reconocidos por el intérprete como tal. De los 2028 negativos conceptos, 205 fueron Conceptos no figura en el mapa de SNOMED CT-, pero fueron identificados por los humanos revisor. De los restantes conceptos 1823 el motor correctamente identificados 1662 (p <0,001, Pearson Chi-Cuadrado prueba, en comparación con una moneda flip). Uno de ciento sesenta y un conceptos fueron asignados incorrectamente como los negativos y las otras 48 fueron asignados incorrectamente como positivos. Esto dio lugar a los dos-por-dos cuadro muestra en el Cuadro 1. La sensibilidad (Recall), de la cesión de la negación fue 97,2% (rango 50% a 100%) y la especificidad de la misma cesión de 98,8% (rango de 33,33% a 100%). El ratio de probabilidad positiva para el efecto fue de 81, lo que indica que nuestro método es una buena prueba para la identificación de negación. La fiabilidad de esta prueba como positiva a juzgar por el coeficiente de riesgo se compara favorablemente con otras pruebas de diagnóstico médico aceptable, como el estrés dobutamina eco que tiene un coeficiente de probabilidad positivo de los 24. El valor predictivo negativo de la asignación fue 99,6%. El valor predictivo positivo (Precision) fue 91,2%.

En la Tabla 1 se muestran los resultados de la revisión humanos, en comparación con la asignación automatizada de Negación. Como todos los conceptos fueron codificados como positivos, negativos o afirmaciones inciertas, el combinado positivos y afirmaciones inciertas para los fines de este análisis. La verdadera negación es la tasa de negación identificados por el revisor de humanos dentro del texto. Verdadero positivos o inciertos son los otros conceptos, que fueron codificadas por los motores automatizados y etiquetados, ya sea como ser cualquiera de los tres tipos de afirmaciones. "Cneg" es el generado por ordenador tasa de cesión de la negación y "Cpos" y "C" son las tasas de positividad de la cesión o la incertidumbre.

El fracaso análisis mostró que muchos de los conceptos que fueron asignados como positivo que debería haber sido negativo, fueron palabras como "nontender" y "color" que se perdieron por nuestro algoritmo. Otra clase de problemas se derivan de los operadores de que al parecer el motor a ser el doble de los negativos, tales como "pero no" o ", pero nunca".

En el Cuadro 2, la sensibilidad y especificidad de la negación de rutina varió en las diferentes secciones de los registros de salud. Incalculables valores fueron creados cuando los verdaderos positivos más falsos negativos (FN + TP) fueron cero o cuando los verdaderos negativos más los falsos positivos (TN + FP) fueron cero (de lo contrario, la ecuación de sensibilidad o especificidad requeriría el numerador de la división por cero )

Discusión

La cesión de la negación de los conceptos de una terminología controlada como SNOMED-CT puede ser asignado automáticamente fiable. La asignación tenía un alto coeficiente de probabilidad positivo indicando que se trata de la prueba general de precisión de los registros para esta enfermedad. La razón más común para el fracaso fue la incapacidad de SNOMED-CT para representar a la negativa conceptos. Esto fue verificado por la que navega el concepto de la terminología, así como por la incapacidad de la cartografía del motor para determinar un correcto partido. El valor predictivo de la cesión de la negación es muy significativa cuando se compara con una moneda flip (pura casualidad) con una p <0,001.

El análisis identificó inesperado fracaso de los métodos de negación, que se trata de una segunda generación de software que se ocupa de las raíces y tallos. También hemos creado una ontología de términos que comienzan negación y otro conjunto que detener la propagación de la cesión de la negación. Es evidente que existe variabilidad en la exactitud de los algoritmos a través de las distintas secciones de la historia clínica. Esto proporciona a la comunidad de investigación informática con la oportunidad de identificar las áreas de enfoque para la investigación en el futuro.

Hacemos extensivo el trabajo de Mutalik et al y por Chapman et al realizar este trabajo mediante SNOMED CT-y mediante la utilización de una segunda forma independiente ontología de la negación. También hemos utilizado las evaluaciones médico completo en nuestro estudio, que tiene un mayor porcentaje por cada caso de los conceptos negativos, en comparación con la cirugía resúmenes de los informes y aprobación de la gestión utilizados en los estudios realizados por los autores anteriores. Anterior usabilidad datos no publicados en nuestro laboratorio señaló que los médicos requieren precisión del 95% para la aceptación de un sistema conceptual que proporciona codificación de contenido clínico. Por lo tanto, la negación de algoritmos debe ser un punto de partida aceptable para aplicaciones clínicas para el examen físico, el IPH, la historia social, las alergias y la revisión de los sistemas de secciones de la historia clínica. Se necesita más trabajo para comprender las necesidades de la negación de medicamentos, los antecedentes familiares, los signos vitales, y la sección de evaluación de la historia clínica.

Terminologías de composición son una prometedora respuesta al problema de la exhaustividad de contenido clínico [22]. De alta calidad de salud vocabularios controlados proporcionar una puerta a la mejora de la disponibilidad de datos clínicos para los resultados de la investigación, la revisión de la utilización, y la mejora de la gestión de la historia clínica electrónica [23]. Esta promesa está condicionada a los mecanismos de entrada de datos, que no interrumpir el flujo de un ocupado la práctica [24].

Creación de expresiones bien formadas de composición utilizando un vocabulario controlado de salud pueden ser intensivas en trabajo y tiempo. Dada la cada vez mayor demanda de los médicos "el tiempo, debemos trabajar para crear mecanismos, que la ayuda ocupado clínico como emigrar hacia un entorno clínico electrónico. Perdido de negación puede llevar a un exceso de pruebas que a su vez puede conducir a un aumento de la tasa de error médico. Igualmente errónea cesión de la negación puede provocar alergias a los desaparecidos y otros importantes datos sobre la salud que pueden afectar negativamente la seguridad de los pacientes. Automatizado de herramientas diseñadas para ayudar a los clínicos con la formulación de las expresiones de composición son necesarias si queremos hacer uso de la terminología de composición poderosos.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

Todos los autores trabajaron en el diseño del estudio y revisó el manuscrito. PE, BB DWR y supervisó la dirección real del experimento. Todos los autores participaron en el análisis de los resultados.

Historia previa a la publicación

La historia previa a la publicación de este documento puede accederse en:

Agradecimientos

Los autores desean agradecer a Karen y Diana Lee Monty de apoyo administrativo, y Raju Kalidindi apoyo para la programación. Este trabajo es apoyado en parte por un subsidio de NLM NIH (LM06918-A103).