BMC Medical Research Methodology, 2006; 6: 52-52 (más artículos en esta revista)

Un sistema de calificación para la estabilidad y la fuerza de la evidencia médica

BioMed Central
Jonathan R Treadwell (jtreadwell@ecri.org) [1], Stephen J Tregear (stregear@ecri.org) [1], T James Reston (jreston@ecri.org) [1], Charles M Turkelson (turkelson @ AAOS. org) [2]
[1] ECRI La práctica basada en evidencias y Centro de Evaluación de Tecnologías Sanitarias Group, 5200 Butler Pike, Plymouth Meeting, Pensilvania 19462, EE.UU.
[2] American Academy of Orthopaedic Surgeons, 6300 North River Road, Rosemont, Illinois 60018, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Métodos para describir la confianza en las pruebas disponibles no son útiles para los usuarios finales de las pruebas comentarios. Los analistas, inevitablemente, hacer juicios sobre la calidad, cantidad coherencia, solidez, y la magnitud de los efectos observados en los estudios identificados. La subjetividad de estas resoluciones judiciales en varias zonas de relieve la necesidad de transparencia en las resoluciones judiciales.

Discusión

En este trabajo se introduce un nuevo sistema de calificación de las pruebas médicas. El sistema requiere explícita sentencias y proporciona normas explícitas para equilibrar estas sentencias. A diferencia de otros sistemas para la calificación de la fuerza de la evidencia, nuestro sistema establece una distinción entre dos tipos de conclusiones: cuantitativos y cualitativos. Una conclusión cuantitativa se refiere a la pregunta: "¿Qué tan bien funciona?", Mientras que una conclusión cualitativa aborda la cuestión, "¿Funciona?" En nuestro sistema, conclusiones cuantitativas están vinculados a la estabilidad puntuaciones, y las conclusiones cualitativas son vinculada a la fuerza puntuaciones. Nuestro sistema hace hincapié en extenso a priori criterios de las resoluciones judiciales para reducir la posibilidad de sesgo. Además, el sistema de manera explícita el impacto de la heterogeneidad de ensayo, meta-análisis, y los análisis de sensibilidad puntuaciones en las pruebas. Este artículo ofrece detalles de nuestro sistema, incluyendo la representación gráfica de cómo las numerosas resoluciones judiciales que hace que un analista se pueden combinar. También se describen dos ejemplos de cómo el sistema puede aplicarse a ambos de intervención y técnicas diagnósticas.

Resumen

Aunque las sentencias explícita y formal reglas de combinación son dos importantes pasos en el camino a un sistema global para la calificación de las pruebas médicas, muchas otras medidas también deben tenerse. Entre estos están la distinción entre cuantitativos y cualitativos conclusiones, un amplio conjunto de criterios a priori para hacer juicios, y el impacto directo de los resultados analíticos puntuaciones en las pruebas. Estos atributos son la base para establecer un sistema coherente que puede mejorar la utilidad de las pruebas comentarios.

Fondo

Las revisiones sistemáticas, evaluaciones de tecnología, y las guías de práctica clínica incorporar todas las conclusiones basadas en pruebas. El carácter multifacético de las pruebas, sin embargo, da lugar a diferentes grados de confianza en la eficacia de las pruebas apoya las conclusiones extraídas de ella. Por ejemplo, uno es más confianza en las conclusiones extraídas de varios bien diseñado ensayos controlados aleatorios que se encuentran los mismos efectos que en las conclusiones extraídas de unos mal diseñados ensayos con resultados dispares. En consecuencia, los métodos para describir la confianza en las pruebas disponibles no son útiles para los usuarios finales de las pruebas basadas en documentos. Esta confianza está consagrado en la fuerza de los fundamentos de la calificación.

En este artículo, presentamos un proyecto estructurado y transparente para la calificación de la fuerza de un conjunto de pruebas relativas a la tecnología médica (véase la Nota 1). También define el concepto de la estabilidad de la prueba a diferencia de la solidez de las pruebas. Identificamos los numerosos fallos inherentes en el proceso de realización de pruebas de exámenes y, a continuación, la nota la forma en que esas sentencias se han incorporado dentro de los dos sistemas de clasificación destacada: los EE.UU. Servicios Preventivos Task Force (USPSTF) y el sistema de Grados de la Recomendación de Evaluación, Desarrollo y Evaluación (GRADE ) Sistema [1 - 5]. A continuación, describimos nuestro sistema, y el detalle varios de sus atributos únicos. Se presentan ilustraciones gráficas de la forma en que nuestro sistema ofrece un marco lógico de combinar las sentencias inherentes a las pruebas comentarios. A continuación disponemos de dos completos ejemplos para ilustrar el sistema (un ejemplo de una intervención y otra para una prueba diagnóstica).

Las resoluciones judiciales necesarias

En el desempeño de una prueba de examen, un analista debe hacer numerosas sentencias sobre las pruebas disponibles. Para muchos de estos fallos, los analistas en diferentes centros podrían razonablemente en desacuerdo sobre el estado de las pruebas. Por ejemplo, un analista puede ver un cierto defecto metodológico como mortales, mientras que otro analista puede ver que el mismo defecto de menor importancia. Este problema puede ser abordado en parte mediante el uso de instrumentos normalizados de calidad. Sin embargo, los diferentes centros tienden a usar diferentes instrumentos, lo que puede dar lugar a diferentes evaluaciones de la calidad de los ensayos [6]. A falta de datos empíricos sobre la medida en que una falla metodológica particular influye los resultados, la evaluación de la calidad de los estudios pasa necesariamente por el fallo.

El reto de la sentencia en conflicto se magnifica cuando varios estudios están disponibles para su revisión. Con múltiples estudios, el analista debe también considerar el grado de coherencia entre los estudios de resultados. Una vez más, las sentencias deben ser realizados y diferentes analistas puedan razonablemente de acuerdo. Por ejemplo, diferentes analistas pueden definir "incoherencia" con diferentes valores umbral para I 2 (que es una medida estadística de la consistencia de los resultados del estudio). Otros componentes del análisis de las pruebas también requieren las resoluciones judiciales, incluida la cantidad, robustez, y la magnitud del efecto. Las definiciones de estos términos aparecen en el cuadro 1, y las sentencias adicionales que se realizan durante las revisiones sistemáticas se enumeran en el cuadro 2.

Además de estos componentes individuales (es decir, en general la calidad, cantidad, consistencia, robustez, y la magnitud del efecto de todas las pruebas que se estaba examinando), otra capa de sentencia se requiere: cómo combinar cada uno de estos cinco componentes para producir una puntuación de la "fortaleza" de las pruebas. Diferentes analistas de Mayo en desacuerdo acerca de la importancia relativa de cada uno de los componentes y su interacción. Por ejemplo, si hay un pequeño pero bien realizado ensayo controlado aleatorio, ¿qué podemos conciliar la alta calidad, pero baja la cantidad de esta base de pruebas para producir una fuerza de calificación? O bien, ¿cómo debemos interpretar un gran efectos observados en el estudio de diseños óptimos?

Con todas las sentencias necesarias, dos analistas diferentes, cuando se enfrenta con exactamente la misma pregunta clínica y exactamente la misma base de pruebas, pueden tener diferentes grados de confianza en sus conclusiones. En algunos casos, esta discrepancia podría ser tan grande que los dos analistas de llegar a diferentes conclusiones generales. En un estudio piloto de inter-revisor acuerdo, el grupo pidió GRADO 17 experimentaron los encuestados a la tasa del valor de las pruebas para cada una de 46 resultados dentro de las 12 revisiones sistemáticas [4]. Totalmente de acuerdo que hayan sido objeto de sólo tres resultados (6%). La mediana del estadístico kappa de acuerdo fue sólo 0,09, lo que sugiere sustancial entre revisor diferencias en puntuaciones de pruebas. Aunque este estudio se llevó a cabo cuando el sistema GRADE es relativamente nuevo (y, por lo tanto, estos resultados pueden subestimar el verdadero monto del acuerdo), los resultados muestran que los encuestados consideran incluso puede discrepar acerca de la solidez de las pruebas.

La subjetividad de las resoluciones judiciales en varios puntos en el proceso de revisión sistemática pone de relieve la necesidad de transparencia. Con sentencias transparente, los usuarios finales del examen (como los de otros analistas) puede decidir por sí mismos si las sentencias son razonables.

Se dispone en la actualidad los sistemas de clasificación

Numerosos sistemas de clasificación diseñado para evaluar la fuerza de un conjunto de pruebas se han propuesto. Varios de ellos fueron examinados en un informe de 2002 de la Research Triangle Institute-Universidad de Carolina del Norte basada en la evidencia Centro de Prácticas (RTI-UNC CPE) [7]. Este informe se centra en tres componentes de un sistema de clasificación: calidad, cantidad y coherencia. El informe incorporado magnitud del efecto en la cantidad categoría, y no se menciona explícitamente la robustez. A continuación, se destacan dos grandes sistemas de clasificación.

Un prominente sistema es la Tercera EE.UU. Servicios Preventivos Task Force (USPSTF) sistema [1]. Este sistema, que se describe en el cuadro 3, emplea puntuaciones de las pruebas en cada uno de los tres estratos: el estudio individual, el grupo de estudios de aportar pruebas en un solo resultado y el cuerpo lleno de pruebas sobre todos los resultados. Si la calificación general en el tercer estrato que es bueno o justo (es decir, al menos algunos beneficios netos), el USPSTF sistema incorpora entonces la magnitud del efecto, por separado para beneficios y los daños. En este sentido, el objetivo es ponderar los beneficios relativos y los daños a fin de estimar el beneficio neto global de la tecnología. Esa ponderación exige una nueva capa de la sentencia: la importancia relativa de varios resultados diferentes. Una crítica de la USPSTF sistema, y varios sistemas similares, es la falta de transparencia en las resoluciones judiciales [2]. A pesar de que el sistema de listas USPSTF un gran número de factores se debe considerar al hacer juicios, y texto narrativo se utiliza para explicar estas sentencias, no hay ningún mecanismo formal (por ejemplo, un sistema de puntos) que permitiría a los usuarios finales a reproducir estas sentencias. Por otra parte, la forma en que las sentencias se combinan en el sistema USPSTF no se ha especificado.

Un gran esfuerzo para crear un sistema de puntos formal es el sistema GRADE [2 - 5] El enfoque DE GRADOS (Cuadro 4], subraya la primacía del diseño del estudio, que se utiliza para fijar un grado de calidad a partir. A continuación, otros componentes se consideran que pueden aumentar o disminuir el grado (véase el cuadro 4 en virtud de la calidad de las pruebas para cada resultado). El enfoque GRADO resultados en uno de los cuatro resultados específicos de los grados: alto, moderado, bajo y muy bajo. Las definiciones de estos términos se basan en la probabilidad de que una prueba más que cambiar de confianza en el tamaño del efecto. El American College of Chest Physicians Grupo de Tareas descrito recientemente el uso de un sistema revisado GRADO combinado que baja y muy baja en una categoría (Bajo) [5].

Dentro de los diversos incrementos y decrements en GRADE, varios juicios implícitos son necesarias. Por ejemplo, ¿qué es una "grave" la limitación en la calidad de los estudios o un "importante" incoherencia entre los tamaños del efecto? Esa sentencia es una parte inevitable de la realización de revisiones sistemáticas, como se comenta anteriormente, y el grado grupo reconoce la necesidad de sentencia. Además, una de las principales motivaciones detrás de la GRADOS esfuerzo era necesario para "definiciones explícitas" y "secuencial, explícita sentencias," [2] y el sistema GRADE representa un importante avance hacia la transparencia.

Un sistema explícito para la combinación de estas sentencias (es decir, un sistema de puntos) es una particular fortaleza de la GRADOS. Este sistema define de forma precisa cómo los diversos aspectos de las pruebas se combinan para llegar a un grado global de las pruebas para cada resultado. Así, si un usuario diferentes sentencias que el analista, entonces el usuario puede aplicar el sistema de calificaciones en consecuencia, y posiblemente llegar a una calificación diferente de las pruebas. Por ejemplo, supongamos que un analista consideró que existen importantes incongruencias en los datos correspondientes a un determinado resultado, pero un usuario examinó los mismos datos y considera que la incoherencia es poco importante. Utilizando el sistema GRADE, el usuario podría aumentar la nota final de un nivel.

Además de USPSTF y GRADE, varios otros prominentes sistemas para la calificación de la fuerza de las pruebas han sido propuestos por el American College of Chest Physicians (ACCP) [8], el australiano Nacional de Salud e Investigaciones Médicas (ANHMRC) [9], la Oxford Centro de Medicina Basada en la Evidencia (OCEBM) [10], el escocés intercolegiales Directrices Network (SIGN) [11], y los EE.UU. Grupo de Trabajo sobre la Comunidad Servicios Preventivos (USTFCPS) [12]. Cada uno de estos sistemas han sido revisados por el grado grupo, que llegó a la conclusión de que todos estos sistemas tienen importantes deficiencias [2].

Un nuevo sistema

Ahora la designación de un nuevo sistema para la calificación de la fuerza de las pruebas. Al igual que el sistema GRADE, nuestro sistema se hace hincapié en la necesidad de hacer juicios explícitos, y utiliza el equivalente de un sistema formal punto para la calificación de la fuerza de un cuerpo de evidencia. Nuestro sistema, sin embargo, es única en varios aspectos fundamentales. A continuación, describimos los tres prominentes áreas de singularidad: 1) la distinción entre cuantitativos y cualitativos conclusiones; 2) el uso prolongado de un a priori criterios de las resoluciones judiciales, y 3) el impacto directo de meta-análisis y análisis de sensibilidad puntuaciones en las pruebas. A continuación los detalles sobre el sistema en sí, tales como la representación gráfica de cómo las sentencias se pueden combinar (Figura 1, Figura 2, Figura 3, Figura 4 y Figura 5].

Nuestro sistema está diseñado para puntuar la estabilidad y la fuerza de la evidencia para cada resultado un analista opta por evaluar (véase Nota 2), y no está destinado a producir recomendaciones generales para (o contra) una tecnología. Por el contrario, tanto USPSTF tipo y grado la fuerza de la evidencia global de la tecnología (que a menudo se basa en una serie de resultados), y la fuerza de una recomendación sobre la tecnología. El primero consiste en evaluar el beneficio neto global de equilibrar los beneficios y los daños. La segunda implica más sentencias (enumerados en el artículo métodos USPSTF) sobre la importancia y el impacto de costo, ética, derecho, expectativas de los pacientes, y las expectativas sociales [1]. Además, a diferencia de grado y USPSTF, nuestro sistema de pruebas de calificación se centra sólo en el interior de validez de las pruebas. Preguntas sobre generalizar pueden abordarse fuera del alcance del sistema de calificación. En estos momentos estamos estudiando qué tan bien nuestro sistema de pruebas de calificación se puede aplicar dentro del marco general GRADO.

Cuantitativos y cualitativos conclusiones

Nuestro sistema establece una distinción entre dos tipos de conclusiones: cuantitativos y cualitativos (véase la mitad inferior del cuadro 1]. La conclusión cuantitativa se refiere a la pregunta: "¿Qué tan bien funciona?", Y nos referimos a la correspondiente calificación como una "estabilidad". Por el contrario, la conclusión cualitativa aborda la cuestión más general, "¿Funciona?", Y nos referimos a la calificación de las pruebas correspondientes a esta conclusión como una "fuerza". De este modo, una conclusión cuantitativa caracteriza el tamaño del efecto, mientras que una conclusión cualitativa caracteriza a la dirección del efecto.

Esta clave permite una distinción para establecer una conclusión firme cualitativo en la cara de datos cuantitativamente heterogéneas. Esta situación se produce cuando los resultados de todos los estudios incluidos en una base empírica demostrar eficacia, pero la magnitud de medir el efecto del tratamiento difiere considerablemente entre los estudios.

Esta situación se ilustra en una reciente revisión sistemática sobre stents recubiertos de fármacos para la enfermedad arterial coronaria [13]. Esta revisión incluyó 14 ensayos aleatorios que compararan stents recubiertos de fármacos para stents de metal desnudo. Cada ensayo informó el porcentaje de pacientes en cada brazo que sufrió la lesión de revascularización objetivo (TLR) después de la implantación de stents (Figura 6]. Una prueba de homogeneidad de estos datos identificados heterogeneidad sustancial entre los resultados de los ensayos (Q = 59, p <0.0001, 2 = 78%), y la posterior meta-análisis de regresión no explica esta heterogeneidad. En consecuencia, se abstuvo de presentar una estimación del tamaño del efecto del tratamiento. Sin embargo, todos los ensayos encontró que las tasas TLR eran más bajos después de la implantación de un fármaco-elución de stent después de un stent de metal al descubierto, y el de efectos aleatorios meta-analíticos intervalo de confianza demostrado esta clara dirección del efecto (véase la parte inferior de la Figura 6]. Por lo tanto, aunque uno puede tener poca confianza en la exactitud de una sola estimación cuantitativa del tamaño del efecto, uno puede tener confianza alta que stents recubiertos de fármacos son eficaces para reducir las tasas de TLR. De este modo, los aspectos cuantitativos y cualitativos distinción también la base de dos conceptos de coherencia. La primera es cuantitativa la coherencia: ¿los estudios informe efecto similar tamaño? El segundo es la coherencia cualitativos: ¿el informe los estudios la misma dirección de efecto?

Otro importante objetivo de diferenciar cuantitativa de conclusiones cualitativas es reconocer las diferentes necesidades de las personas que utilizan las revisiones sistemáticas. Algunos usuarios están principalmente interesados en obtener una estimación del importe del beneficio (o perjuicio) se asocia con una tecnología. Otros usuarios están simplemente interesados en la tecnología si proporciona ningún beneficio en absoluto. Si una revisión sistemática proporciona dos tipos de conclusiones, y luego ambos se satisfagan las necesidades.

Ningún otro sistema de calificación de las pruebas médicas se distingue explícitamente entre cuantitativos y cualitativos conclusiones. Creemos que la distinción es crucial para asegurar que las revisiones sistemáticas proporcionan una visión completa de las pruebas. El grado grupo define su calificación como la probabilidad de que una prueba más que cambiar de confianza en el tamaño del efecto, lo que parece ser una definición puramente cuantitativa. La USPSTF sistema no establece si sus puntuaciones se refieren a conclusiones cuantitativas, cualitativas conclusiones, o ambas cosas.

En nuestro sistema, la estabilidad y la fuerza puntuaciones no son independientes. Lógicamente, las pruebas que permita una "muy estable" estimación del efecto del tratamiento (por ejemplo, un odds-ratio de 3,25 a favor del tratamiento), además, deben permitir una "fuerte" conclusión acerca de la dirección del efecto (por ejemplo, que la odds ratio favorece tratamiento). Por lo tanto, uno construido en función de nuestro sistema es que la estabilidad de calificación establece un límite inferior a la calificación de la fuerza. Esto significa que "moderada" la estabilidad puede ir acompañada de una fuerza de calificación no inferior a "moderado" y "baja" estabilidad puede ir acompañada de una fuerza de calificación no inferior a "débil".

Crucial para comprender los resultados de una revisión sistemática es el entendimiento si los resultados son clínicamente importantes; resultados estadísticamente significativos no representan necesariamente un efecto clínicamente importante. Esto ha sido mencionado en muchas revisiones sistemáticas [14 - 18], y nuestra cuantitativos y cualitativos distinción ofrece un enfoque analítico. Para hacer frente a importancia clínica en nuestro sistema, una primera define de forma precisa la magnitud del efecto que se considera clínicamente importante (por ejemplo, una diferencia de 0,5% en H b A 1c en los tratamientos para la diabetes). A continuación, importancia clínica puede abordarse como una cuestión cualitativa: "Es la diferencia clínicamente importante?" Esta cuestión se aborda analíticamente a través de una comparación de los tamaños del efecto a un tamaño del efecto predefinido como clínicamente importantes.

Amplia A priori los criterios de las resoluciones judiciales

La mayoría de las revisiones sistemáticas uso a priori los criterios de inclusión para reducir la posibilidad de parcialidad en las sentencias sobre las cuales los estudios a incluir. Algunos también hacer un juicio a priori sobre el instrumento que se utilizará para evaluar la calidad de los estudios. Sin embargo, muchas otras sentencias son todavía susceptibles al sesgo. Para reducir este potencial, nuestro sistema se especifica la utilización de sentencias, a priori, siempre que sea posible. Por ejemplo, el sistema requiere que uno especificar a priori cuantitativos definiciones de "coherentes" y "robusto" efectos. Por otra parte, el analista debe pre-especificar el porcentaje mínimo de los estudios incluidos informó de que los resultados de interés, a fin de permitir un meta-análisis estimación de tamaño del efecto. Si sólo un pequeño porcentaje de los estudios incluidos informó de los resultados, selectiva resultado la presentación de informes se hayan producido, con lo que sesgar el meta-análisis estadístico de resumen. Por la calidad de los estudios, el analista debe identificar no sólo el instrumento a ser utilizado, sino también el sistema de puntuación (si se utiliza) y los umbrales que definen la calidad de los estudios categorías (alta, moderada o baja calidad). Incluso el umbral de significación estadística (que no tiene que ser la convencional 0,05 en todos los contextos clínicos, ya que algunos contextos pueden justificar una mayor o menor preocupación por los errores de tipo 1) debe ser especificado de antemano. Para abordar la cuestión de importancia clínica, el mínimo nivel que se considera clínicamente importante también debe ser determinado a priori. Estas definiciones, y otros, se analiza con más detalle en la sección titulada "cómo funciona el sistema".

Consecuencias de Meta-Análisis y análisis de sensibilidad

Muchas revisiones sistemáticas informe sobre los resultados del meta-análisis, y también describir algunos análisis de sensibilidad. Sin embargo, a menudo los resultados de estos análisis estadísticos no son explícitamente vinculadas a las calificaciones de las pruebas. En esta sección se describe la forma en que nuestro sistema de vínculos resultados analíticos tanto a la estabilidad y la fuerza puntuaciones.

El propósito del meta-análisis no es sólo para obtener un resumen estimación del efecto del tratamiento, sino también para probar la consistencia de los datos (heterogeneidad de ensayo). Este último propósito es generalmente realizada utilizando el Q-estadística y, más recientemente, I-2 [19, 20] Si la heterogeneidad importante es detectado, nuestro sistema requiere que, en su caso (por ejemplo, cuando la base de pruebas es lo suficientemente grande), el analista explorar posibles fuentes de heterogeneidad utilizando este meta-regresión. Si la heterogeneidad no se puede explicar por meta-regresión, entonces nuestro sistema se opone a una presentación de un único resumen estimación del efecto del tratamiento (es decir, una estabilidad calificación de "inestable") (véase la Nota 3). Algunos investigadores abogan por el empleo de un resumen de efectos aleatorios estadística en esta situación. Sin embargo, la heterogeneidad no explicada podría deberse a diferencias en las poblaciones de pacientes, y / o la forma en que un tratamiento se administre. Nuestra opinión es que la informática un solo resumen estimación no se justifica cuando las pruebas demuestran la existencia de múltiples estimaciones.

Aunque nuestro sistema se opone a la utilización de modelos de efectos aleatorios para determinar un único resumen estimación del efecto del tratamiento, el uso de estos modelos tiene un papel importante. Este papel supone un resumen de las pruebas para apoyar una conclusión cualitativa. Aun cuando existe una considerable heterogeneidad no explicada, las pruebas aún puede indicar una dirección coherente de efecto. El intervalo de confianza (IC) en torno a la de efectos aleatorios resumen estadístico, que incorpora tanto dentro de entre estudio y estudio de la varianza, pueden coincidir plenamente por encima de 0 o por debajo de 0 (véase la Nota 4). Este CI, por lo tanto, es adecuado para determinar si los datos indican una clara dirección del efecto.

Otros sistemas, como el grado y la USPSTF, son en gran parte en silencio sobre el papel del meta-análisis de las revisiones sistemáticas. Nuestro sistema utiliza meta-análisis y meta-regresión (cuando clínicamente apropiado) para aumentar la potencia estadística y estudio preciso emplear pesos; además, el sistema es único en la incorporación de los resultados de estos análisis en las pruebas puntuaciones.

Pasamos ahora a la función de análisis de sensibilidad en nuestro sistema. En este contexto, consideramos que el objetivo de las pruebas de clasificación es evaluar la probabilidad de que las futuras pruebas indican algo diferente a lo que evidencia actual indica. Si una gran cantidad de pruebas consistentes ya ha acumulado, entonces el futuro las pruebas es poco probable que modifique la dotación o la estabilidad. Por el contrario, conclusiones basadas en sólo una pequeña cantidad acumulada de pruebas pueden cambiar fácilmente cuando un solo nuevo estudio se publica.

Considerada desde esta perspectiva, sostenemos que el análisis de sensibilidad (véase la Nota 5) puede sustituir a determinadas resoluciones sobre la cantidad. La idea es que si la celebración de un meta-análisis depende críticamente de sólo uno o unos pocos estudios en este análisis (o si hay razones para sospechar que no todos los estudios pertinentes están disponibles), entonces la conclusión no puede ser robusto. Esa dependencia sugiere que un futuro estudio puede alterar las conclusiones sobre la base de los estudios actualmente disponibles. En consecuencia, nuestro sistema reduzca la estabilidad o la fuerza puntuaciones en consecuencia. Aunque existe un sentimiento generalizado de que el análisis de sensibilidad deben ser incorporados en un análisis, el sistema es único en ofrecer normas explícitas para la forma de medir el impacto de los resultados de los análisis de sensibilidad sobre la confianza en las pruebas disponibles.

El análisis de sensibilidad puede obviar la necesidad de ciertos juicios subjetivos sobre la magnitud del efecto. Algunos sistemas de clasificación (por ejemplo, GRADE) emplear dichas sentencias, y si el efecto observado es muy grande, las pruebas recibe una calificación de mayor resistencia. Presumiblemente, esto se debe a que un gran efecto es poco probable que sea revocada por el futuro de prueba y, por tanto, más robusto. Sin embargo, si hay estudios suficientes para llevar a cabo pruebas de robustez directa a través de los análisis de sensibilidad, entonces estamos a favor de hacerlo, en lugar de hacer juicios acerca de los tamaños del efecto. Un meta-análisis de sensibilidad analítica incorpora los tamaños del efecto y los intervalos de confianza de todos los estudios, a fin de que la prueba es empírica basada en.

Al igual que ocurre con la coherencia, la cuantitativos y cualitativos distinción contribuye a aclarar dos nociones de solidez. Cuantitativas se refiere a la robustez del grado en que el tamaño del efecto resumen de meta-análisis tiende a cambio debido a la relativamente pequeñas alteraciones en los datos. Para evaluar la solidez cuantitativos, se puede realizar sucesivos meta-análisis y observar los cambios relativos en el resumen estimación. Si los cambios en la estimación superior a un determinado nivel de tolerancia, entonces la estimación original resumen cuantitativamente no es robusto. Robustez cualitativa se refiere a si la base de pruebas da el mismo cualitativo conclusión general a las alteraciones de los datos. Para su evaluación, se puede realizar de nuevo los sucesivos meta-análisis, pero en este caso la cuestión es si los intervalos de confianza alrededor de estadísticas resumidas constantemente indican la misma dirección del efecto.

Por ejemplo, una prueba de solidez cualitativa que hemos empleado utilizó acumulativo meta-análisis [21]. En un informe sobre los tratamientos para la bulimia [22], que incluyeron siete ensayos aleatorios que comparaban la eficacia del tratamiento farmacológico con el placebo y el consumo de purga frecuencia. A efectos aleatorios meta-análisis encontró que los medicamentos producido efectos significativamente mayor que el placebo (es decir, menor frecuencia de purga). Pusimos a prueba la solidez cualitativa de este hallazgo de la siguiente manera (ver Figura 7]. El 95% intervalo de confianza del estudio con el mayor peso (determinado por la inversa de la varianza) en el meta-análisis se trazó en primer lugar (la cima del segmento horizontal en la figura). Luego añade el estudio con la siguiente mayor peso, y trazó las correspondientes efectos aleatorios del 95% intervalo de confianza para el estudio de dos meta-análisis (el segundo segmento de la parte superior a la cifra). Luego continuamos añadiendo estudios, uno a la vez, hasta que todos los meta-análisis intervalos de confianza se trazan. A priori, que había definido el punto de vista cualitativo sólida base de pruebas como uno donde cada uno de los tres últimos acumulativo meta-análisis arrojó la misma conclusión cualitativa. Por lo tanto, consideró que esta base de pruebas para ser cualitativamente sólido.

¿Cómo funciona el sistema

El sistema se muestra gráficamente en cinco cifras:

• Entrada en el sistema (Figura 1]

• Reseña de la alta calidad brazo (Figura 2]

• datos homogéneos (Figura 3]

• datos heterogéneos (Figura 4]

• Pequeños base de pruebas (Figura 5]

Una característica importante de este sistema es que cada pregunta se ilustra en las figuras requiere un conjunto de criterios a priori. Casi todos estos criterios, a priori, son definiciones operativas que son cuantitativos. El uso de criterios a priori contribuye a reducir el sesgo y la subjetividad, como se ha mencionado anteriormente, y el uso de definiciones cuantitativos aumenta la transparencia. Este sistema supone que el evaluador ya ha aplicado adecuada inclusión / exclusión criterios y ha excluido del análisis de un estudio con fallas fatales.

La entrada inicial en el sistema se produce con una evaluación de la calidad de la evidencia de un resultado específico (Figura 1], que consideramos como el aspecto más importante de las pruebas. Calidad establece un límite superior sobre la estabilidad y la fuerza puntuaciones (por ejemplo, moderada fuerza sólo es posible para los datos que es, como mínimo, de calidad moderada). Aunque la evaluación de la calidad se puede realizar con una lista de verificación o escala, cualquier método razonable para separar la base de pruebas en diferentes categorías de calidad será suficiente. Después de una evaluación de la calidad de los estudios individuales, los estudios se consideran de alta, moderada, baja o muy baja calidad. Estudios de muy baja calidad son siempre excluidos de la base de pruebas, y el analista también puede optar por excluir de baja o incluso estudios de calidad moderada como así. El analista debe elegir un método de agregación de la calidad de los estudios individuales para obtener una calificación global de calidad para la base de pruebas y, a continuación, entrar en la alta, moderada o baja calidad brazo del sistema. Dentro de estas armas, el sistema evalúa la cantidad, consistencia, robustez, y (en algunos casos) la magnitud del efecto de determinar la estabilidad y la solidez de las pruebas.

Figura 2 a Figura 5 detalle el brazo de alta calidad del sistema. La mitad superior de cada cifra incluye a todas las preguntas y decisiones que tienen repercusiones en la estabilidad de las calificaciones (cuantitativa y conclusiones), mientras que la mitad inferior incluye todas las cuestiones y decisiones que tienen repercusiones en la fuerza puntuaciones (cualitativa y conclusiones). La moderada y baja calidad de armamentos del sistema no se muestran porque todos los aspectos de este sistema ya se está representada en el brazo de alta calidad.

En la parte superior de estas vías, una primera considera que si la base de pruebas es suficiente para proporcionar una única estimación cuantitativa del tamaño del efecto. En general, requieren al menos tres estudios, pero otros investigadores tal vez desee establecer este criterio mayor (por ejemplo, cinco estudios). Además, el sistema requiere que un determinado porcentaje de los estudios (por ejemplo, el 80% o más) debe tener calcular los tamaños del efecto (que puede determinarse sin imputación). Si estos criterios no se cumplen, entonces se procede a la figura 5 (pequeña base de pruebas). Si estos criterios se cumplen, entonces uno pone a prueba la consistencia cuantitativa de los datos utilizando una medida de heterogeneidad, como Q o I 2. En virtud de la homogeneidad, se procede a la Figura 3, mientras que en virtud de la heterogeneidad, se procede a la Figura 4.

Antes de detallar las medidas en las figuras 3 y 4, debemos definir primero el concepto de "informativeness", un concepto fundamental para interpretar los resultados de los estudios individuales y meta-análisis. Figura 8 ilustra cuatro diferentes tamaños del efecto (A través D) que se consideran informativo basado en los criterios examinados en Armitage y Berry [23]. Estos efectos son informativos ya que los intervalos de confianza alrededor del efecto resumen las estimaciones de apoyo una de las cuatro conclusiones cualitativas: A) el tratamiento es beneficioso y el efecto es clínicamente importante (es decir, menor del 95% intervalo de confianza alrededor de la meta-resumen analítico es mayor que el tamaño del efecto considera clínicamente importantes), B) el tratamiento es beneficioso, pero el efecto puede ser o no ser clínicamente importante (es decir, menor del 95% intervalo de confianza alrededor de la meta-resumen analítico es mayor que cero, pero menos de un cuadro clínico importante efecto), c) el tratamiento es beneficioso, pero el efecto no es clínicamente importante (el 95% intervalo de confianza está entre el cero y el efecto que considera clínicamente importante), o d) el tratamiento no es beneficioso (el 95% intervalo de confianza del solapamientos cero y no se superponga la línea de importancia clínica) (véase la Nota 6). Por el contrario, ejemplo E en la Figura 8 se consideran concluyentes (no informativos), ya que el 95% intervalo de confianza del solapamientos tanto cero y la línea de importancia clínica. Tenga en cuenta que este uso de "informativeness" representa el poder estadístico de la base de pruebas, otra característica singular de nuestro sistema (para una discusión relacionada con ver Armitage y Berry) [23]. Por otra parte, mediante la incorporación de importancia clínica en el sistema, ya que proporcionamos clínica significado para los usuarios finales de las revisiones sistemáticas y otros medios de prueba basado en documentos.

En la vía homogénea (Figura 3], uno lleva a cabo un meta-análisis para combinar los resultados del estudio. Si el meta-análisis estadístico de resumen no es informativo, no se llegó a conclusiones. Si el resumen estadístico es informativo, uno pone a prueba la solidez de los resultados a través de análisis de sensibilidad (por ejemplo, la eliminación de un estudio a la vez). Si la meta-analíticos resumen estadístico pasa por la solidez pruebas, la estimación es cuantitativamente sólido. Esto produce una alta estabilidad de clasificación para la estimación cuantitativa, lo que conduce directamente a una conclusión firme cualitativos. La lógica detrás de esta implicación es que si uno confía en la estimación concreta de los efectos, uno es automáticamente confía en la dirección general de ese efecto.

Continuando en la Figura 3, si los resultados no son cuantitativamente sólido, un re-examina el análisis de sensibilidad para determinar la solidez cualitativa (por ejemplo, hacer cualquiera de los tres últimos análisis acumulativo en un meta-análisis de un determinado conjunto de datos conducir a otra cualitativa conclusiones?). Análisis de sensibilidad adicionales que pueden ser utilizados incluyen la eliminación de cada estudio por separado o cambiar el tamaño del efecto estadístico (por ejemplo, utilizando Cohen's h en lugar de un odds-ratio). También consideramos que las pruebas de sesgo de publicación como una forma de análisis de sensibilidad, aunque el sesgo de publicación de pruebas requiere un número mínimo de estudios disponibles. Si los resultados son cualitativamente sólido determina si se llega a un fuerte o moderada conclusión cualitativa. Además, sólo se puede llegar a una conclusión firme de una alta calidad base de pruebas. En los casos moderados y de armas de baja calidad, los cualitativos conclusión no puede ser más fuerte que la moderada o débil, respectivamente.

Figura 4 ilustra la sucursal seguido cuando una base de pruebas suficientes estudios ha de calcular con los tamaños del efecto potencialmente alcanzar una estimación cuantitativa efecto, pero la prueba de heterogeneidad indica diferencias significativas entre los estudios. Si esta heterogeneidad puede explicarse mediante meta-regresión, aún se puede llegar a una conclusión cuantitativa. La conclusión cuantitativa es la conclusión a la que llegó sobre las coeficientes de regresión, incluida la interceptar. Por ejemplo, si el género es la variable que explica la heterogeneidad, se podría tener una conclusión, como "el tratamiento X mejorado en dos ocasiones los síntomas de la forma más eficaz en las mujeres que en hombres". Si meta-regresión no es posible o no explica la heterogeneidad, no cuantitativos conclusión es posible. Sin embargo, aún se puede realizar una de efectos aleatorios meta-análisis que, de ser informativo, podrá permitir una conclusión cualitativa.

Figura 5 ilustra lo que ocurre cuando la base de pruebas es demasiado pequeño o de otra manera insuficiente para permitir una conclusión cuantitativa. Algunos estudios no podrá informe efectos y tamaños estándar de errores (ni información suficiente para la analista para calcular ambas medidas). El analista debe reconocer y adaptarse a la existencia de este tipo de estudios. Este ajuste puede requerir la estimación o la imputación de los tamaños del efecto en algunos estudios [24]. El pleno base de pruebas se evaluaron en una de efectos aleatorios meta-análisis para determinar si el punto de vista cualitativo conclusión se puede llegar.

Si sólo hay dos estudios y ambos han de calcular los tamaños del efecto, uno realiza una de efectos aleatorios meta-análisis que, de ser informativa, permite una conclusión cualitativa. De nota, meta-análisis de un estudio de dos pruebas de base no es necesaria en la calidad moderada del brazo, cuando una conclusión requeriría para ambos estudios tienen un efecto estadísticamente significativo. En el brazo de baja calidad, un mínimo de tres estudios es necesario llegar a ninguna conclusión. Una conclusión cualitativa es también posible que dos estudios con tamaños del efecto imprecisa (que no se pueden combinar) si ambos estudios son informativos y muestran resultados cualitativamente coherentes. Si dos estudios son cualitativamente incompatible o no informativa cuando se combinan, los resultados no son concluyentes. Si sólo hay un estudio, un gran tamaño del efecto es necesaria para permitir una conclusión débil cualitativos (ten en cuenta que uno no puede llegar a una conclusión si el único estudio es de moderada o baja calidad).

Ejemplos

En esta sección, disponemos de dos aplicaciones de ejemplo de nuestro sistema de pruebas de calificación. Además de ilustrar diversos aspectos del sistema, nos muestran cómo el sistema puede ser usado en conjunción con una simple declarativo conclusiones a las que están vinculados a la estabilidad y la fuerza puntuaciones. El primer ejemplo trata de stents recubiertos de fármacos (DESS) para el tratamiento de enfermedad arterial coronaria, y el segundo ejemplo se trata de tomografía por emisión de positrones (PET) en la estadificación del linfoma.

Discusión

El sistema de clasificación descrito en el presente documento tiene varios atributos únicos. En primer lugar, se distingue la estabilidad valoraciones cuantitativas de fuerza valoraciones cualitativas. En segundo lugar, se hace un uso extensivo de las resoluciones judiciales, a priori, para evitar el sesgo. En tercer lugar, de manera explícita las consecuencias de los resultados del meta-análisis y análisis de sensibilidad para ambos ratings estabilidad y la fuerza puntuaciones. Nos han vinculado estos atributos, y muchos otros, lógicamente en un sistema coherente destinada a mejorar el proceso de revisión sistemática.

Nuestro sistema reconoce el papel fundamental de la sentencia al resumir las pruebas. El sistema se ve mejor como una forma lógica de organizar las propias resoluciones judiciales, no una lista predefinida de las resoluciones judiciales necesarias. Dado que diferentes analistas pueden tener diferentes resoluciones judiciales, sin embargo, hay una necesidad crítica para la transparencia. Esto permite al usuario localizar el camino de las resoluciones judiciales que dan lugar a una fuerza de estabilidad o de calificación. De hecho, para utilizar nuestro sistema, sin hacer juicios explícitos constituiría un uso indebido del sistema.

Explicitud en las resoluciones judiciales ha sido defendida por el grupo de GRADE [2], pero explicitación no es suficiente. Siempre que sea posible, las resoluciones judiciales debe hacerse a priori y debe empírica basada en. Juicios a priori, una extensión natural de, a priori, los criterios de inclusión, puede ayudar a reducir el sesgo de evitar la influencia de los datos observados en las definiciones operacionales. Por otra parte, basar las sentencias en los análisis empíricos, más que por sí sola opinión, puede reducir los prejuicios. Por ejemplo, las sentencias sobre la cantidad puede hacerse empíricamente basada formal a través de análisis de sensibilidad.

Si bien nuestro sistema permite que diferentes analistas para hacer diferentes sentencias, lo hace a cabo ciertos límites a las resoluciones judiciales. Si sólo hay uno o dos estudios, por ejemplo, la base de pruebas debe ser juzgado insuficientes para permitir una estimación cuantitativa del tamaño del efecto. Además, si estas uno o dos estudios son de baja calidad, entonces no es posible conclusión. Si hay un solo estudio, entonces debe haber sido una gran calidad de observación del estudio un gran efecto con el fin de permitir cualquier conclusión. Estas limitaciones para las pequeñas bases de las pruebas se basan en el principio de independencia de la replicación de los descubrimientos científicos.

El sistema también GRADO lugares determinados límites sobre los tipos de sentencias permitidas. En Educación, se debe dar alta prioridad a la asignación al azar: ECA son juzgados como inicialmente dos niveles más fuerte que los estudios observacionales, y tres niveles más fuerte que otros diseños de estudio. Asimismo, GRADE define un "fuerte" asociación como un riesgo relativo entre el 2 y el 5 (o entre 0,2 y 0,5) y una "muy fuerte" asociación como un riesgo relativo superior a 5 (o menos de 0.2) (véase Nota 8 ). Otras sentencias se deja en manos del analista, aunque GRADO recomienda que todas las sentencias se hizo explícito.

Estamos siguiente nota algunas limitaciones potenciales del sistema se describen en este documento. En primer lugar, el sistema es complejo. Comprender cómo funciona, y que es más importante ¿por qué funciona de esa manera, se requiere un estudio cuidadoso. En segundo lugar, el sistema es de uso intensivo de recursos, principalmente a causa de los numerosos juicios a priori. El analista es responsable de hacer juicios razonables antes de analizar los datos. Por ejemplo, la definición a priori de un "efecto clínicamente significativo" es un juicio crítico que puede ser de gran impacto las conclusiones de la revisión. Una de las estrategias que hemos empleado es tener más médicos y examinar la metodología del analista, a priori, las sentencias de su razonabilidad y, a continuación, para resolver los desacuerdos en conferencia. Estas sentencias son de consenso luego empleados en todo el paso a paso el sistema para producir pruebas puntuaciones. Independientemente de los fallos se acordó, sin embargo, deberían estar completamente explícito en la revisión. Esa transparencia, como se destacó a lo largo de este documento, puede aumentar la flexibilidad y la utilidad de la revisión.

En resumen, las sentencias explícita y formal reglas de combinación, como propugnó el grupo GRADE, representan dos pasos importantes en el camino a un sistema totalmente fiable para la calificación de las pruebas médicas. A lo largo de este documento, hemos argumentado que muchas medidas adicionales deben tomarse. Entre estos están distinguiendo entre cuantitativos y cualitativos conclusiones, hacer juicios a priori para evitar el sesgo, y que vinculan directamente a los resultados analíticos de pruebas puntuaciones.

Considerado en su conjunto, nuestro sistema constituye una herramienta flexible para incorporar toda la complejidad de las pruebas. A pesar de esta complejidad, el sistema de salidas sencillas conclusiones y valoraciones de los encargados de adoptar decisiones médicas a emplear, ya que encuentro difícil basadas en la evidencia decisiones.

Resumen

• sistemática los encuestados, inevitablemente, hacer juicios sobre la calidad, cantidad, consistencia, robustez, y la magnitud de los efectos observados en los estudios identificados

• Este documento introduce un sistema formal para la combinación de estas sentencias en un lógico y coherente marco

• únicos aspectos del sistema incluyen la distinción entre cuantitativos y cualitativos conclusiones, a priori amplia criterios de las resoluciones judiciales, y el impacto directo de meta-análisis y análisis de sensibilidad puntuaciones en las pruebas

• Estabilidad puntuaciones se refieren a la probabilidad de que las futuras pruebas indican un tamaño diferente de efecto

• La fuerza puntuaciones se refieren a la probabilidad de que las futuras pruebas se vuelque conclusiones acerca de si un dispositivo, o un procedimiento de drogas es efectivo (o nocivos)

Conflicto de intereses

El autor (s) declaran que no tienen intereses financieros en competencia. JRT, SJT, y JTR son cada empleado por la ECRI Evaluación de Tecnologías Sanitarias Servicio de Información, que produce las revisiones sistemáticas. ECRI pagado el artículo procesamiento cargo de este manuscrito.

Autores de las contribuciones

Todos los autores hecho contribuciones sustanciales a las ideas presentadas en este manuscrito. JT contribuido ampliamente al desarrollo del sistema de calificación, tal como se concibió el esquema manuscrito, y escribió el manuscrito. CT supervisado el proyecto y contribuyó ampliamente a desarrollar y probar el sistema. ST se originó la idea para el sistema de calificación y contribuyó ampliamente a su desarrollo. JR contribuido a través de la edición y las pruebas del sistema, y escribió la sección titulada "cómo funciona el sistema". Todos los autores participaron en el proceso de edición, todos los autores y leído y aprobado el manuscrito final.

Notas

1 - A lo largo de este documento, la palabra "tecnología" se utiliza genéricamente para referirse a las drogas, dispositivos o procedimientos.

2 - El resultado específico puede ser un sustituto o resultado de un paciente orientado a resultados.

3 - La presencia de heterogeneidad es una violación de la asunción de efectos fijos modelos: que los datos disponibles no son incluidos en la muestra de un centro de distribución que describe un único resumen estimación del efecto del tratamiento.

4 - El uso de 0 asume que el tamaño del efecto métricas se centra en torno a 0 (por ejemplo, la normalización de la diferencia entre los medios). Otras cifras de tamaño del efecto (por ejemplo, el riesgo relativo, odds-ratio) se centran en torno a 1, y para estos sería determinar si los efectos aleatorios intervalo de confianza son plenamente superiores a 1 o por debajo de 1.

5 - Nos referimos a una familia entera de los procedimientos diseñados para evaluar la sensibilidad de sus conclusiones a determinados aspectos de los datos analíticos o de determinados supuestos. Muchos de estos se enumeran en un documento de Olkin, [26] y algunos ejemplos incluyen pruebas de sesgo de publicación, [27 - 29] acumulativo meta-análisis, [21, 30] y la eliminación de determinados subconjuntos de los datos.

6 - Aunque no se ilustra en la figura, hay posibles efectos tamaños correspondientes a la A a la D que quedarían en el lado izquierdo del gráfico (por debajo de cero). Algunas de estas posibilidades llevaría a la conclusión de que el tratamiento fue bien nocivo o inferior a un tratamiento de comparación.

7 - TRICARE es el organismo gubernamental en el marco del Departamento de Defensa encargados de administrar los beneficios para la salud de los EE.UU. las fuerzas armadas y sus familiares a cargo.

8 - Tenga en cuenta que el grado del sistema de tratamiento de efecto magnitud no menciona específicamente el intervalo de confianza alrededor del efecto. En cambio, el sistema de direcciones imprecisas o escasos datos en una hoja separada. Nuestro sistema considera un tamaño del efecto y su intervalo de confianza al mismo tiempo.

Pre-publicación de la historia

La pre-publicación de la historia de este documento puede accederse en:

Agradecimientos

La financiación de este proyecto fue proporcionado por la ECRI, Plymouth Meeting, Pensilvania, EE.UU.. Damos las gracias a Wendy Bruening, Ph.D., Richard Chapell, Ph.D., David Doggett, Ph.D., Matthew Mitchell, Ph.D., David Snyder, Ph.D., y Karen Tappe, MA, por sus contribuciones al desarrollo de este sistema de calificación. También agradecemos los comentarios de los revisores, cuyos comentarios mejorado la calidad del manuscrito.