BMC Medical Research Methodology, 2005; 5: 19-19 (más artículos en esta revista)

No función de sus niveles de calidad, en revisiones sistemáticas de estudios de diagnóstico de la enfermedad

BioMed Central
Penny Whiting (penny.whiting @ bristol.ac.uk) [1], Roger Harbord (roger.harbord @ bristol.ac.uk) [1], Jos Kleijnen (jk13@york.ac.uk) [2]
[1] MRC Colaboración de Investigación de Servicios de Salud, Departamento de Medicina Social, Universidad de Bristol, Bristol, Reino Unido
[2] Centro de Revisiones y Difusión de la Universidad de York, York, Reino Unido

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Hay una falta de consenso respecto a la utilización de las puntuaciones de calidad de diagnóstico en las revisiones sistemáticas. El objetivo de este estudio es utilizar los diferentes métodos de ponderación de los elementos incluidos en un instrumento de evaluación de calidad para el diagnóstico de la enfermedad estudios (QUADAS) para producir una puntuación global de calidad, y para examinar los efectos de la incorporación de estas en una revisión sistemática.

Métodos

Hemos desarrollado cinco sistemas de ponderación QUADAS para producir resultados de calidad. Se utilizó tres métodos para investigar los efectos de la prueba de calidad en el desempeño. Se utilizó un conjunto de 28 estudios que evaluaron la exactitud de la ecografía para el diagnóstico de reflujo vesico-ureteral en niños.

Resultados

Los diferentes métodos de ponderación de los distintos artículos de la misma la herramienta de evaluación de la calidad de los diferentes niveles de calidad. Los diferentes esquemas de puntuación clasifican diferentes estudios en diferentes órdenes, lo que fue especialmente evidente para los estudios de calidad intermedia. La comparación de los resultados de los estudios estratificado como de "alta" y "baja" calidad sobre la base de sus niveles de calidad, dio lugar a conclusiones diferentes respecto a los efectos sobre la calidad de las estimaciones de la exactitud diagnóstica, en función del método utilizado para producir el nivel de calidad. Un efecto similar se observó cuando sus niveles de calidad, se incluyeron en el meta-análisis de regresión como variables continuas, aunque las diferencias son menos evidentes.

Conclusión

Sus niveles de calidad, no debe ser incorporado en las revisiones sistemáticas de diagnóstico. Incorporación de los resultados de la evaluación de la calidad en la revisión sistemática debería implicar la investigación de la asociación de cada uno de los temas de calidad con estimaciones de la exactitud diagnóstica, en lugar de utilizar una combinación de puntuación de la calidad.

Antecedentes

La evaluación de la calidad es tan importante en las revisiones sistemáticas de estudios de diagnóstico de la enfermedad como lo es para cualquier otra revisión sistemática. Un método de incorporación de la calidad en un examen consiste en utilizar un nivel de calidad. Sus niveles de calidad, se combinan los distintos elementos de un instrumento de evaluación de calidad para proporcionar un conjunto único de puntuación. Uno de los principales problemas con los niveles de calidad, es la forma de determinar el peso de cada elemento para dar una puntuación global de calidad. No hay ninguna manera objetiva de hacerlo y de los diferentes métodos pueden producir diferentes resultados que puede dar lugar a resultados diferentes si estos resultados se utilizan en el análisis.

Ha habido mucha discusión acerca de la utilización de sus niveles de calidad, en el ámbito de los ensayos clínicos [1 - 8]. Aunque este debate no ha sido específico para el diagnóstico de la enfermedad estudios de gran parte de estos debates también se aplican a este tema. Anteriores trabajos que ilustran los problemas relacionados con sus niveles de calidad, ha utilizado diferentes escalas, que no sólo ponderada de los temas de diferente manera, pero también incluyó diferentes temas [9]. Se ha argumentado que era de las diferencias en los temas cubiertos por los instrumentos que contribuyen a las diferencias, en lugar de la utilización combinada de un nivel de calidad [2, 3, 6]. El debate con respecto a sus niveles de calidad, y la calidad sigue siendo resultados se siguen utilizando como parte del proceso de evaluación de la calidad tanto en diagnóstico y terapéutico en las revisiones sistemáticas [10 - 14]. La escala de Jadad, uno de los más utilizados instrumentos de evaluación de la calidad de los estudios terapéuticos, incorpora un nivel de calidad [15], al igual que uno de los comúnmente utilizados evaluación de la calidad de las herramientas de diagnóstico [16]. Una reciente revisión de los actuales instrumentos para la evaluación de la calidad de la precisión diagnóstica estudios encontraron que 12 de 67 herramientas (18%) incorporó un nivel de calidad [17]. Un nuevo examen de la manera en la evaluación de la calidad se ha incorporado en las revisiones sistemáticas encontraron que el 16% de los comentarios que realizan algún tipo de evaluación de la calidad de sus niveles de calidad, utilizados como parte de esta evaluación [18].

No tenemos conocimiento de cualquier trabajo que ha examinado el efecto de la utilización de diferentes coeficientes para el mismo instrumento de evaluación de la calidad para producir una puntuación global de calidad o que se ha hecho en el área de estudios de diagnóstico de la enfermedad. Este proyecto presenta un ejemplo práctico de los problemas asociados con el uso de sus niveles de calidad, en las revisiones sistemáticas. El objetivo es utilizar QUADAS, una evaluación de la calidad de la herramienta que hemos desarrollado para evaluar la calidad de la precisión diagnóstica estudios incluidos en las revisiones sistemáticas [19], para investigar el efecto de diferentes factores de ponderación sobre las estimaciones de la eficacia de las pruebas.

Métodos
Métodos de calificación

QUADAS no incorpora una puntuación de calidad. Por lo tanto, desarrolló cinco diferentes esquemas de ponderación QUADAS (Tabla 1] para producir una puntuación global de la calidad de los estudios:

Conjunto de datos

Hemos seleccionado un conjunto de datos que consta de 28 estudios que analizó la ecografía para el diagnóstico de reflujo vesico-ureteral en niños. Estos provenían de una revisión sistemática acerca del diagnóstico y de la investigación de la infección del tracto urinario (ITU) en niños menores de 5 años [21]. Los estudios fueron seleccionados, ya que ofrecían una serie de estudios que fueron heterogéneos en términos de calidad y los resultados de los estudios individuales. Ofrecen dos conjuntos de datos dentro de un más amplio conjunto de datos que pueden ser divididos según el tipo de ultrasonido usado: contraste mejorada (16 estudios) o estándar de ultrasonido (12 estudios). Aunque ambos tipos de estudio evaluó la participación de la ecografía y de modo similar las cuestiones de calidad, hay diferencias en la exactitud entre el ultrasonido tipos: mayor contraste de la ecografía es una prueba mucho más precisa para el reflujo vesico-ureteral en la infancia que el estándar de ultrasonido.

Así fuimos capaces de investigar si los diferentes niveles de calidad, tienen el mismo impacto en dos conjuntos de datos. QUADAS se utilizó en esta revisión para evaluar la calidad de los estudios. Todos los estudios anteriormente habían sido codificados usando QUADAS como sí, no o poco claros. Esta codificación se llevó a cabo por un revisor y verificados por un segundo revisor.

Análisis

Métodos de investigación de los efectos de los niveles de calidad en la prueba de rendimiento Hemos utilizado tres métodos diferentes para investigar los efectos de la prueba de calidad en el desempeño. Cada método se realizó por separado para el nivel de estudios de ultrasonido y para mejorar el contraste de los estudios de ultrasonido. Para cada uno de los pasos de la puesta en común de estudios, nivel SROC (resumen característica de funcionamiento del receptor) se utilizaron los métodos para poner en común los resultados de estudios [22]. SROC El modelo se estimó por regresión D (log (DOR), donde el diagnóstico es DOR odds ratio) contra S (logit (sensibilidad) + logit (1-especificidad)), la ponderación de acuerdo con el tamaño de la muestra, de cada estudio. Dar cuenta de cero células en el 2 × 2 mesas, 0,5 se agregó a cada una de las células de todos los cuadros de 2 × 2 con lo recomendado por Moses et al. [22]. Todos los análisis se realizaron utilizando STATA versión 8 (StataCorp, College Station, Texas).

Resultados

El cuadro 2 resume los resultados de los 28 estudios incluidos en este estudio. En él se presenta la tabla de 2 × 2 resultados de cada estudio, los resultados de la evaluación de la calidad, y el resumen de sus niveles de calidad, producidos con cada uno de los cinco regímenes de puntuación. Lectura de la tabla 2 verticalmente por artículo permite a los lectores a hacer algunos juicios acerca de los temas que podría contribuir a las variaciones en los resultados. La figura 1 muestra los resultados de los estudios dibujan en el receptor de funcionamiento característico (ROC) el espacio, dando una indicación de la heterogeneidad entre los estudios.

A. Ranking de los estudios

El ranking de los estudios de utilización de los diferentes niveles de calidad, se resume en la figura 2. Por norma ultrasonido, todos los esquemas de puntuación clasifican los mismos tres estudios como los mejores estudios, y clasifican estos en el mismo orden. Todos los esquemas de puntuación también ocupó el mismo estudio como de la peor calidad. Para mayor contraste de ultrasonido, las puntuaciones de 1, 2, 3 y 5 de la misma clasifican dos estudios como de la mejor calidad. Puntuación 4 clasifican estos dos estudios como el segundo más alto nivel de calidad. El estudio clasifica como el mejor estudio de la calidad del Resultado 4 se clasifican como de calidad intermedia por los otros esquemas de puntuación. Todos los resultados de la misma clasifican tres estudios como de peor calidad, con puntuaciones de 1, 2, 3 y 4 del ranking de ellos en el mismo orden. Para ambos tipos de ultrasonido los diferentes esquemas de puntuación del ranking de calidad intermedia más estudios en diferentes órdenes.

B. Diferencia en las estimaciones de la exactitud diagnóstica entre la alta y la baja calidad de los estudios

El RDOR comparación de los estudios clasificados como de "alta" a los clasificados como de "baja" calidad utilizando cada uno de los cinco regímenes de calificación se muestra en la Figura 3, por separado para los estándar de ultrasonido y el contraste mejorado de ultrasonido. Por norma ultrasonido, las puntuaciones de 1,2, y 3 dieron RDORs lo que sugiere que estudios de alta calidad producido estimaciones más bajas de la precisión diagnóstica de los estudios de baja calidad. En contraste, los resultados de los planes de 4 y 5 sugiere que no hay diferencia en las estimaciones de la DOR entre alta y baja calidad de los estudios. Por el contrario-una mayor ultrasonido, las puntuaciones de 1, 3, 4 y 5 de todos los clasificados de la misma serie de estudios como de alta y baja calidad. El RDORs para estos niveles de calidad, dijo que estudios de alta calidad que producen mayor DORs estudios de baja calidad. En cambio, el esquema 2 produjo un RDOR lo que sugiere que estudios de alta calidad producen estimaciones más bajas de la precisión diagnóstica de los estudios de baja calidad.

C. El nivel de calidad como una posible fuente de heterogeneidad

La figura 4 muestra la RDORs para un aumento de 10 puntos en el nivel de calidad para cada uno de los cinco niveles de calidad diferentes, por separado para el estándar de mayor contraste y ultrasonido. Por norma ultrasonido, todo sugiere que los sistemas de puntuación de estudios de alta calidad que producen menor DORs estudios de baja calidad. Por el contrario-una mayor ultrasonido, las puntuaciones de 1, 3, 4 y 5 sugirió que los estudios de mayor calidad que producen mayor DORs estudios de menor calidad, mientras Resultado 2 sugirió que se producen estimaciones más bajas. Sin embargo, los intervalos de confianza en torno a estas estimaciones fueron amplios y todo incluido.

Discusión

Este estudio ha demostrado que el uso de los diferentes métodos de ponderación de los distintos artículos de la misma calidad del instrumento de evaluación de la calidad puede producir diferentes resultados. La incorporación de estos niveles de calidad en los resultados de un examen puede llevar a conclusiones diferentes sobre el efecto de la calidad de los estudios sobre las estimaciones de la exactitud diagnóstica.

Aunque el orden de los estudios que utilizan los diferentes niveles de calidad, son similares en términos generales, hubo algunas diferencias que podrían dar lugar a conclusiones diferentes si se utiliza en una revisión sistemática. Por ejemplo, para mejorar el contraste de ultrasonido estudios, en caso de la calidad del sistema de puntuación 4 o 5 se utilizó entonces el estudio de Bergius y colegas [23] sería considerado como uno de los mejores estudios de calidad. Sin embargo, si los sistemas de puntuación 1, 2, ó 3 se utilizaron entonces este estudio se considera que un promedio de calidad de estudio. Esto sugiere que los niveles de calidad no debe utilizarse como un resumen de indicadores de calidad en las tablas de resultados en las revisiones sistemáticas. En lugar de cualquiera de los resultados de toda evaluación de la calidad, o de los componentes clave de la evaluación de la calidad, se debe denunciar.

Estratificar los estudios de alta y baja en la calidad de los estudios de acuerdo con el nivel de calidad también varía según el sistema de puntuación utilizado. Aunque los intervalos de confianza para todas las comparaciones fueron amplios y todos menos uno eran: uno, las conclusiones relativas a la asociación de la calidad de los estudios y el diagnóstico de la enfermedad difieren según el régimen de puntuación utilizado. Es importante señalar que en la práctica un revisor sólo uso y un sistema de puntuación por lo que los resultados de los otros esquemas de puntuación no estarían disponibles para ellos: tendrían que sacar conclusiones de los resultados para el único sistema de puntuación que ellos seleccionados. Por norma ultrasonido, dos de los regímenes evaluados produjo una puntuación global de calidad que sugiere ninguna asociación entre la calidad de los estudios de diagnóstico y de la odds ratio. Sin embargo, si los otros tres regímenes se utilizaron entonces, la conclusión habría sido que estudios de alta calidad tienden a producir estimaciones más bajas de la precisión diagnóstica de los estudios de baja calidad. Del mismo modo para mejorar el contraste de ultrasonido, la conclusión de cuatro de los esquemas de puntuación que se estudios de alta calidad tienden a producir mayores estimaciones de la exactitud diagnóstica de los estudios de baja calidad. En cambio, si el otro sistema de puntuación se han utilizado las conclusiones que se han invertido. Estos resultados sugieren que el uso de puntuaciones de calidad de estratificar los estudios de alta y baja en la calidad de los estudios debe evitarse.

La inclusión del nivel de calidad como variable continua en la meta-regresión mostró un menor número de diferencias entre los sistemas de puntuación. Hubo más amplio de las asociaciones entre el nivel de calidad y el estándar de ultrasonido para DOR que para mayor contraste de ultrasonido. Esto era de esperar ya que es más la heterogeneidad entre los estudios de ultrasonido y de la norma de modo que había más variaciones que se podrían haber explicado por las diferencias en la calidad. Por norma ultrasonido la dirección de la asociación entre la calidad de los estudios y la eficacia de las pruebas es la misma para todos los sistemas de puntuación. Por el contrario el aumento de la ecografía informó de las asociaciones para sus niveles de calidad, se estrecha a uno con intervalos de confianza amplios. Esto sugiere muy poca relación entre el nivel de calidad y precisión diagnóstica, aunque esquema de puntuación 2 de nuevo producido una asociación en la dirección opuesta a la de otros esquemas de puntuación. La investigación de la asociación de una puntuación global de calidad con un resumen efecto estimación puede ser complicado. En caso de que no se encontró asociación entre los dos, esto no significa que la calidad no afecta a la estimación de síntesis. Puede ser que no existe una asociación con cualquiera de los componentes de calidad incorporado en la puntuación; puede haber asociaciones con uno o más de estos componentes, pero que tienen muy poco peso y se pierden en la puntuación global de calidad, o puede ser que Hay asociación con dos o más componentes, sino que estos actúan en direcciones opuestas, la cancelación de unos a otros [7].

Es interesante observar que el contraste para mejorar los estudios de ultrasonido que es régimen general de puntuación 2, que producen resultados diferentes a los demás esquemas de puntuación. Todos los demás regímenes de puntuación anotó estudios que respondió "poco claro" a un tema de la misma manera que los estudios que respondieron "no". Sistema de puntuación 2 anotadas estos estudios superiores a los que respondieron "no". La diferencia de puntaje entre el 2 y el sistema de puntuación de otros regímenes pueden, por tanto, estar relacionada con la calidad de los informes de los estudios: estudios que se informó de manera deficiente y contestó "claro" a muchos de los temas se QUADAS valorados mayor uso de este sistema de puntuación que el Otros regímenes.

Los resultados de este estudio apoyan la conclusión de Junio y colegas de que el uso de las puntuaciones de resumen para identificar estudios de alta calidad es problemática [9]. No hemos encontrado diferencias tan grandes entre los diferentes esquemas de puntuación incluido en este estudio como Juni et al. Esto era de esperar ya que se utilizan diferentes métodos de ponderación de la misma herramienta de evaluación de la calidad que se utilizan diferentes herramientas de evaluación de la calidad, cada una de las cuales no sólo ponderada de los temas de diferente manera, pero también incluyó diferentes temas. Además, hemos utilizado solamente cinco diferentes esquemas de puntuación que Juni et al. Utilizado 25 diferentes escalas de calidad.

Nuestro estudio estaba limitado por el número relativamente pequeño de los estudios primarios incluidos: estándar de ultrasonido se incluyeron 12 estudios, y para mayor contraste de ultrasonido se incluyeron 16 estudios. Cuanto mayor sea el número de estudios incluidos en un meta-análisis, mayor será la potencia de detección de asociaciones entre la calidad de los estudios y estimaciones de la exactitud diagnóstica. Si otros estudios primarios ha estado disponible, las estimaciones más precisas de la asociación entre el nivel de calidad y precisión diagnóstica que se han producido y las diferencias entre estas asociaciones de los diferentes regímenes de calificación podría haber sido evaluado con más detalle. Otra limitación es la baja calidad de la presentación de informes de los estudios. Esto dio lugar a una gran proporción de "poco claras" las respuestas a la evaluación de la calidad.

Otra limitación de este estudio fue la falta de un estándar de oro contra el que comparar la calidad de los sistemas de puntuación. La falta de acuerdo entre los distintos sistemas de puntuación se puede esperar y no necesariamente la anulación de todos los sistemas de puntuación. El problema en esta situación es que la determinación de la calidad del sistema de puntuación es el más válido. Este es un problema inherente con el uso de un nivel de calidad, y no hay manera fiable de hacerlo.

Conclusión

Este estudio, en el ámbito de las revisiones sistemáticas de diagnóstico, apoya las pruebas de los trabajos anteriores en el ámbito de la terapéutica lo que sugiere que los niveles de calidad no debe ser incorporado en las revisiones sistemáticas. Incorporación de los resultados de la evaluación de la calidad en la revisión sistemática deben incluir un componente, en el que la asociación de cada uno de los temas de calidad de pruebas con exactitud son investigados individualmente, en lugar de utilizar una combinación de puntuación de la calidad.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

Penny merlán contribuido a la concepción y diseño del estudio, la adquisición de datos, el análisis y la interpretación de los datos, y redactó el manuscrito. Roger Harbord y Jos Kleijnen contribuido al análisis y la interpretación de datos y la revisión crítica del manuscrito de importante contenido intelectual.

Historia previa a la publicación

La historia previa a la publicación de este documento puede accederse en:

Agradecimientos

N financiera o material se prestó apoyo a este estudio. Queremos dar las gracias a Marie Westwood para ayudar en la realización de la evaluación de la calidad de los estudios primarios.