Emerging Themes in Epidemiology, 2005; 2: 8-8 (más artículos en esta revista)

La evaluación de los estudios observacionales de los tratamientos médicos

BioMed Central
Arthur Hartz (arthur-hartz@uiowa.edu) [1], Suzanne Bentler (suzanne-bentler@uiowa.edu) [2], María Charlton (CharltonME@wellmark.com) [3], Douglas Lanska (Douglas.Lanska @ Med.va.gov) [4], Yogita Butani (yogitabutani@yahoo.com) [5], G Mustafa Soomro (g.mustafa.soomro @ which.net) [6], Kjell Benson (kjell@superboy.org) [7]
[1] University of Iowa, College of Medicine, Department of Family Medicine, Iowa City, IA 52242 USA
[2] University of Iowa, College of Medicine, Department of Family Medicine, Iowa City, IA 52242 USA
[3] University of Iowa, College of Medicine, Department of Family Medicine, Iowa City, IA 52242 USA
[4] VA Medical Center, 500 East Veterans Street, Tomah, WI 54660 USA
[5] University of Iowa, College of Medicine, Department of Family Medicine, Iowa City, IA 52242 USA
[6] Sección de Psiquiatría de la Comunidad, St George's Hospital Medical School, Londres, Reino Unido
[7] Práctica Clínica de la Familia, el Centro Médico del Norte de Colorado, Greeley, Colorado, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Anteriores estudios han evaluado la validez del diseño del estudio de observación mediante la comparación de los resultados de los estudios que utilizan este diseño a los resultados de los ensayos controlados aleatorios. El presente estudio examinó características de diseño de los estudios observacionales que podrían haber influido en estas comparaciones.

Métodos

Para encontrar al menos 4 estudios observacionales que evaluaron el mismo tratamiento, hemos analizado los meta-análisis de comparación de los estudios observacionales y ensayos controlados aleatorios para la evaluación de los tratamientos médicos. Detalles crítico para la interpretación de estos estudios se resumieron y analizaron cualitativamente.

Resultados

Cada uno de los artículos revisados incluyeron 61 estudios observacionales que evaluaron 10 comparaciones de tratamientos evaluados en dos estudios que compararon los ensayos controlados aleatorios y los estudios observacionales. La mayoría de los estudios no informó de la siguiente información: datos primarios y secundarios de los tratamientos, resultados definiciones, la duración del seguimiento, criterios de inclusión y exclusión, las características de los pacientes con el pronóstico o la respuesta al tratamiento, o la evaluación de la posible confusión. Cuando se informó de la información, las variaciones en el tratamiento específicos, resultados o definición de confusión fueron identificados como posibles causas de las diferencias entre los estudios observacionales y ensayos controlados aleatorios, y de heterogeneidad en los estudios observacionales.

Conclusión

Presentación de informes de los estudios observacionales de los tratamientos médicos a menudo es inadecuada para comparar los diseños de los estudios o permitir que otros significativa interpretación de los resultados. Todos los estudios observacionales deben informar los detalles del tratamiento, la evaluación de los resultados, las características de los pacientes, y la evaluación de confusión.

Introducción

En comparación con los ensayos controlados aleatorios de las intervenciones médicas, los estudios observacionales (SOs) es probable que sea más oportuna y menos costosa, y los pacientes son más representativo de la práctica clínica habitual. Además, SOs evitar problemas éticos causados por comprometer la de los pacientes o médicos de las opciones terapéuticas. Sin embargo, su validez se debatieron vigorosamente [1, 2]. Las inquietudes acerca de la validez se hizo mayor por un bien conocidos ensayo controlado aleatorio (ECA) que encontró un aumento del riesgo de enfermedades del corazón para las mujeres sobre la terapia hormonal sustitutiva [3]. Este estudio contradice los resultados de varios SOs anterior de alto perfil [4 - 6].

Es posible que SOs son especialmente inadecuado para evaluar la terapia de reemplazo hormonal. La elección de este tratamiento está fuertemente influenciado por las ideas del paciente acerca de la juventud y de la feminidad, que podrá ser no muy confundida por los factores que afectan a la salud. No todos los SOs encontró una disminución en el riesgo, sin embargo [7, 8], y un estudio encontró pruebas de que el ajuste de los resultados para el estado socioeconómico arrojado resultados similares a los ensayos controlados aleatorios [9]. Otros factores que contribuyen a las diferencias entre los tipos de estudios pueden incluir características de diseño que no necesariamente influir en la validez, como el de mayor edad de la mujer en los ensayos aleatorios.

Incluso si SOs de la terapia de reemplazo hormonal se muestran como no válida, el estudio observacional de diseño pueden tener un papel en la evaluación de otros tratamientos médicos. Por ejemplo, estos estudios pueden dar buenos resultados para la evaluación de un procedimiento quirúrgico que está determinado principalmente por el conocimiento médico con un tratamiento específico o por la disponibilidad de tratamiento. El apoyo a la validez de algunos SOs proviene de los comentarios que encontró que estudios aleatorizados y observacionales suelen dar resultados similares [10 - 13].

El presente estudio investigó las comparaciones de los SOs y ECA en más profundidad. Además de las comparaciones, se examinaron las características de diseño de los SOs que podría haber influido en estas comparaciones. En el proceso de este examen, se evaluó la manera en que así SOs de los tratamientos médicos se informó.

Materiales y métodos

Cada uno de los estudios revisados en comparación de los resultados de un determinado tratamiento médico a los resultados de un grupo de comparación, que es la mayoría de las veces la terapia estándar. Los estudios fueron seleccionados de los artículos que comparaban los resultados de estudios aleatorizados y observacionales previamente evaluadas en los meta-análisis o revisiones sistemáticas [13, 14]. La razón para incluir sólo los estudios que ya se haya incluido en las revisiones sistemáticas o metaanálisis era aumentar la probabilidad de que todos los artículos sobre un tema dado se revisaron. Meta-análisis de menos de cuatro SOs fueron excluidos de nuestro examen, porque siempre limitada capacidad de evaluar influye en el diseño del estudio de las características en los resultados de los SOs.

Resumieron las características de los estudios

Para determinar las características que deben ser resumido, revisamos la literatura en cuanto a la forma ECA debe ser comunicado [15, 16] y [17] evaluado, ¿cómo SOs deben notificarse y evaluarse [18], y la forma y características del tratamiento de pacientes influencia ECA [ 19]. Parte de la información de ECA no era pertinente para SOs (por ejemplo, el cegamiento de la aleatorización proceso), algunos era pertinente pero no está disponible en SOs (por ejemplo, los protocolos de la administración del tratamiento primario y la gestión de los resultados intermedios), y algunos no era pertinente en la comparación de los estudios (Por ejemplo, el poder del estudio cuando los datos ya han sido recogidos).

Sobre la base de la literatura y nuestra propia experiencia con SOs, que desarrolló el esquema en el cuadro 1 para las características de los estudios que podrían influir en los resultados por cualquiera que influyen en el estudio de la aplicabilidad o validez. Los factores que podrían influir en la aplicabilidad incluyen características específicas de los tratamientos, los resultados, o los temas y resultados que se aplican a los estudios que utilizan determinados tipos de tratamientos, las medidas de resultado o de los sujetos puede ser válido, pero no puede ser reproducido por otros estudios que utilizaron diferentes tipos de tratamientos, Las medidas de resultado o temas.

Los factores que podrían influir en la validez incluyen aquellos que puedan contribuir a la confusión, la selección, o de información (también llamado de medición) sesgo [20]. Confusión surge cuando los sujetos que reciben un trato diferente en riesgo de los sujetos que recibieron otro, independiente de los efectos del tratamiento. El sesgo de selección se produce cuando la asociación entre la exposición y la enfermedad difiere entre los que completar el estudio y los de la población objetivo. En los estudios de cohortes de los tratamientos médicos, como los que se examinan a continuación, el tratamiento previo sesgo de selección conduce a la confusión post-tratamiento y el sesgo de selección de los resultados incompletos de seguimiento que varía en función de los resultados y el tratamiento. Sesgo de la información se produce cuando los errores se hacen en la evaluación o el tratamiento que un paciente había resultado. Aunque después del tratamiento el sesgo de selección y sesgos de información distorsionan las estimaciones del efecto del tamaño, que son difíciles de evaluar en los documentos revisados y no se registran en nuestro análisis.

Este esquema guiado el tipo de información que abstrae de los artículos revisados. A pesar de que no incluye los 27 temas considerados importantes para medir la calidad de SOs en un esquema [18], es conceptualmente simple y debería incluir más aspectos que influyen en el estudio de interpretación de los resultados. Para cada uno de los artículos revisados, observamos datos críticos elementos omitido en el artículo.

Hemos considerado que el riesgo de confusión sería mayor si el tratamiento de elección estaban relacionados con el tiempo, de modo que en general, los últimos pacientes recibieron un tratamiento, mientras que los pacientes desde hace varios años ha recibido otro. Confusión también puede ser más probable si el tratamiento se asignaron sobre la base de las características de los pacientes que contribuyen al fracaso del tratamiento, ya sea por el médico o el paciente a través de la libre selección. Confusión se considera menos probable si los médicos tratar a los pacientes que utilizan un solo procedimiento. Un supuesto implícito en este criterio es que el riesgo del paciente y la calidad de la atención son similares en todos los médicos; esta hipótesis puede no ser válida en todos los casos, pero hemos querido juzgar los estudios de la manera más generosa posible, de modo que los informes sobre las deficiencias de estos estudios se Conservadora. Otro criterio para la disminución del riesgo de confusión es un brusco cambio en la atención de los pacientes, a fin de que todos los pacientes recibieron un tratamiento antes de que el cambio y todos los pacientes que recibieron otro tratamiento después del cambio.

Todos los datos se abstracción de los artículos originales. Aunque la mayoría de los artículos fueron evaluados de forma independiente por los dos revisores, fueron sólo algunos de los artículos evaluados por el mismo revisor de varios meses de separación. Los desacuerdos entre los encuestados, entre los comentarios en momentos diferentes, o entre nuestros encuestados y el meta-análisis publicado se resolvieron mediante discusión.

Métodos estadísticos

Los resultados se informaron como estadísticamente significativo si p <0,05, aunque los valores de p son a menudo mucho más bajos. Se utilizó un 2-por-2 a la prueba χ 2 para tablas de contingencia para comparar OS y ECA combinaron temas de las tasas de fracaso en el mismo tratamiento. Significativamente diferentes tasas de fracaso para OS ECA y los estudios de un tratamiento en una comparación, pero no la otra es una delicada indicación de la posible confusión en SOs. Significativamente diferentes tasas de fracaso para ambos tratamientos indican que los dos tipos de estudios pueden variar con respecto a las características que influyen en las tasas de fracaso (por ejemplo, los pacientes, las medidas de resultado, las características específicas de tratamiento, o usos auxiliares de tratamientos). También se evaluó si podría ser útil para buscar importante estudiar los factores que causaron la heterogeneidad mediante el examen de la variación entre los SOs para las tasas de fracaso de un determinado tratamiento. El valor de p para la significación estadística de esta variación se determinó utilizando un 2-por-k-prueba χ 2 para tablas de contingencia, donde k es el número de estudios que evaluaron un determinado tratamiento. Coeficiente de correlación de Pearson, r denota, se utilizó para calcular el valor de p para la asociación entre las tasas de fracaso en el grupo de tratamiento y las tasas de fracaso en el grupo de control en el nivel de significación 0,05.

Se usaron métodos estadísticos para combinar los odds-ratios de varios estudios y para poner a prueba la diferencia entre los odds ratio de resumen de los estudios aleatorios y de observación. Para combinar los odds-ratios de varios estudios y encontrar el error estándar de la odds-ratio combinado, que utilizan un fijo efectos de cálculo [21]. Mediante el uso de fijo-en lugar de efectos aleatorios cálculos [22], que obtuvo más pequeños errores estándar y la disminución de las posibilidades de que los desaparecidos verdadera diferencias. Sin embargo, este método puede aumentar la probabilidad de encontrar diferencias espurias.

Hemos probado la diferencia entre dos odds ratios usando la ecuación

Z = (Ln 1 - Ln 2) / √ (SE 1 2 + SE 2 2)

Donde Z tiene una distribución normal con media cero y varianza 1, Ln Ln 1 y el 2 son logaritmos de los dos odds ratios, y la SE 1 y 2 son la SE errores estándar de estos logaritmos. La heterogeneidad en las odds ratio fue probado con la prueba de Breslow-Day de homogeneidad en el nivel de significación 0,05.

Resultados
Meta-análisis seleccionado para revisión

El análisis seleccionadas se muestran en la Tabla 2. Estos análisis abordado 10 temas: anticoagulantes para el tratamiento del infarto de miocardio, fibrilación auricular para quinidina, el juicio de la mano de obra para los pacientes con una de nalgas, en comparación con la colposuspensión colporrafia anterior para la incontinencia urinaria, la colposuspensión en comparación con la suspensión con agujas para la incontinencia urinaria, la estimulación nerviosa eléctrica transcutánea (ENET) para el tratamiento del dolor posquirúrgico, el alta temprana después del parto, hip tornillos de la fractura de cadera, la anestesia local para los pacientes con la endarterectomía carotídea, y hysterosalpingography (HSG) los medios de comunicación sobre el embarazo.

Con cinco excepciones, hemos considerado todos los estudios observacionales como los que se consideraba de observación en el meta-análisis revisados [13]: tres de ellos fueron excluidos debido a que los controles utilizados alternativamente asignado [23 - 25], y dos fueron ECA [26, 27] . Nosotros no excluye estudios que utilizan controles históricos. Siete estudios adicionales que no estaban en Inglés fueron excluidos porque no hemos podido resumen con precisión la información detallada sobre ellos.

Algunos estudios evaluaron más de un resultado. Con una excepción, que informaron los resultados de los mismos resultados que se evaluaron en el estudio por Ioannidis et al [13]. La excepción fue el meta-análisis de quinidina [28]. El resultado utilizado por Ioannidis et al. De ese análisis fue la mortalidad, que es cero o casi cero para la mayoría de los estudios. Se utilizó la recaída de la fibrilación auricular después de la cardioversión, que se utilizó por nuestra fuente de otros meta-análisis [14]. Las tasas de fracaso fueron utilizados para calcular las odds ratio no calculadas por los estudios originales. Para algunos estudios de las tasas de éxito y odds ratios en los estudios primarios [29 - 32] difieren de las indicadas por Ioannidis et al. [13] o en el meta-análisis [28]. Cuando existe una discrepancia, hemos utilizado los tipos en los estudios primarios. Tarifas en estudios primarios positivos para puntos finales (por ejemplo, el embarazo) se convirtieron en las tasas de fracaso (por ejemplo, no el embarazo).

Las comparaciones de estudios aleatorizados y observacionales

La comparación de los odds ratios combinados de los dos tipos de estudios se muestran en la Figura 1. En general, los intervalos de confianza fueron más amplio de la ECA que para los SOs, que reflejan el mayor tamaño de las muestras para los SOs. Intervalos de confianza amplios para los estudios controlados aleatorios de juicio del trabajo, la estimulación nerviosa eléctrica transcutánea (TENS), el alta temprana, y anestesia local impidió comparaciones significativas para estas zonas de tratamiento. La zona de tratamiento sólo para el que la odds ratio de estudios fue significativamente distintas de anticoagulantes después de un infarto agudo de miocardio.

Los estudios aleatorios y de observación difieren con respecto a varias tasas de fracaso (véase el cuadro 3]. Para algunas comparaciones de tratamientos existen diferentes tasas de fracaso entre los tipos de estudios para los dos grupos de tratamiento y control (TENS para el dolor postoperatorio y el alta temprana después del parto), y para otras comparaciones de tratamientos no se encontraron diferencias significativas entre los diseños de los estudios con respecto a las tarifas para Los pacientes con los nuevos tratamientos, pero no para los pacientes en los tratamientos de mayor edad (quinidina para el tratamiento de la fibrilación auricular y la colposuspensión de más edad frente a dos tratamientos de la incontinencia urinaria).

Como se indica en la Tabla 3, varios estudios muestran una heterogeneidad considerable en los resultados entre los SOs. Para cada tratamiento, hubo variación estadísticamente significativa en las tasas de fracaso por lo menos uno de los tratamientos. Hubo heterogeneidad estadísticamente significativa en los odds ratios para los estudios de los anticoagulantes, colporrafia, la suspensión con agujas, y hysterosalpingography. A pesar de un pequeño número de estudios en cada zona de tratamiento, las tasas de fracaso, se correlacionó significativamente de los estudios de los anticoagulantes (r = 0,79, p = 0,01), el juicio del trabajo (r = 0,75, p = 0,08), el alta temprana (r = 0,99, p = 0,01), tornillos de la cadera (r = 0,93, p = 0,02) y la anestesia local (r = 0,66, p = 0,03). Esta correlación se podría explicar por las diferencias sustanciales entre las características de estudio que influyen en las tasas de fracaso.

Presentación de informes de los tratamientos y los resultados en SOs

Detalles de la presentación de informes tratamiento primario, los tratamientos auxiliares, y la gestión de los resultados intermedios fue mal. La mayoría de los aspectos de los resultados fueron también informados de forma deficiente. Sin embargo, los resultados fueron en general bien definiciones. Incluso aquí hay excepciones: un estudio del tratamiento quirúrgico de la incontinencia se define el resultado subjetivo sólo como "curados" [33], y otro lo definió como "libres de síntomas" [34].

Duración del seguimiento, que pueden influir en los resultados y comparaciones de los tratamientos, por lo general, no fue así. De los estudios examinados, sólo dos estudios de hysterosalpingography y cinco del tratamiento quirúrgico de la incontinencia de esfuerzo proporcionado tanto la media (o mediana) y la variedad (u otra medida de propagación), de seguimiento de los tiempos. Once estudios no proporcionó información sobre el seguimiento, y el resto sólo un número (mediana, mínimo, o no definido).

Consideraciones de la selección de los pacientes en SOs

A pesar de que la mayoría de los estudios se basaron en el cuadro de la abstracción, ninguno se describe métodos para reducir el sesgo de selección o de la información.

Los resultados de los estudios son a veces combinados, a pesar de que difieren con respecto a las características de los pacientes potencialmente importante. Por ejemplo, los estudios del tratamiento quirúrgico de la incontinencia varía con respecto a las exclusiones anteriores debido a la cirugía de la incontinencia, la inestabilidad del detrusor, y otros hallazgos patológicos. Otro ejemplo es que los criterios para la realización de estudios de anestesia local para la endarterectomía carotídea varía en función de si se incluyeron los pacientes que fueron simultáneamente por un injerto de derivación coronaria o procedimiento que tuvo un accidente cerebrovascular agudo. Entre los estudios de alta temprana, un único criterios de inclusión fue cesárea [35] y otro fue primiparity [36]. De los dos estudios de HSG que proporcionó detalles sobre criterios de inclusión y exclusión, uno infertilidad requiere por lo menos dos años [37] y un segundo para la infertilidad requiere de sólo un año [38].

En el cuadro 4 artículos son calificados por su presentación de informes de las características de los pacientes en un cuadro descriptivo. Los artículos fueron clasificados como 'A' si se informó de al menos un elemento en cada una de las categorías de la historia médica, la demografía, y la evaluación clínica. Aun con estos criterios mínimos una minoría de los estudios fueron clasificados como 'A', el único tratamiento que había zonas principalmente 'A la anestesia local fueron para la endarterectomía carotídea y colporrafia o la suspensión con agujas para la incontinencia. Por una zona de tratamiento, temprano versus convencionales de alta, ninguno de los SOs proporcionó información sobre la maternidad comorbilidades o de otros aspectos pertinentes de la historia clínica.

Factores que influyen en la confusión

Cuadro 4 también se describe cómo se informó de las características de los estudios que podrían influir en la confusión. De confusión fueron mayores en los dos estudios, ya un tratamiento de los sujetos fueron tratados varios años en comparación con los sujetos sobre otro. Confusión; además en otros estudios (la mayoría de los juicios laborales y de la cirugía para la incontinencia y la mitad de los estudios de alta temprana [32, 33]], porque el tratamiento se asignaron sobre la base de las características de los pacientes que pueden influir en la posibilidad de que el fracaso del tratamiento . Confusión puede haber sido menos probable si los médicos tratar a los pacientes que utilizan un solo procedimiento. Esto ocurrió en unos pocos estudios de anestesia local para la endarterectomía carotídea, hip tornillos de la fractura de cadera, y los medios de contraste para la HSG. Confusión se considera menos probable en otro estudio debido a un brusco cambio en la atención de los pacientes [35]. En varios estudios no fue posible evaluar la forma en las preferencias del paciente pueden haber influido en la confusión [39 - 42].

Cuadro 4 muestra si los estudios se evaluó la posibilidad de confusión al comparar los pacientes con los dos tratamientos con respecto, al menos una variable de las categorías de la historia médica, la demografía, y la evaluación clínica. La mayoría de los estudios no se hacen estas comparaciones, los pocos que sí debería haber evaluado otros posibles factores de confusión. Además, una vez que se identificaron posibles factores de confusión, los estudios realizados sólo el mínimo uso de los métodos estadísticos en el control de la confusión. Algunos estudios tratado de control de la confusión por la estratificación sobre la base de algunos factores de riesgo, pero sólo un estudio que realizó un análisis de regresión múltiple para que los ajustes de los factores de riesgo [43].

Motivos de la heterogeneidad OS

Hemos encontrado pruebas de que la variación de los resultados y la duración de la definición de seguimiento causó heterogeneidad en los resultados. Por ejemplo, en los estudios de prueba del trabajo, el estudio con la menor tasa de fracaso [44], fue también el estudio que define pobres resultados en el recién nacido como a cinco minutos puntuación de Apgar inferior a cinco, en lugar de menos de siete, tal como se utiliza en Otros estudios (menor es la puntuación más probable es que la recién nacida es requerir reanimación). Para los estudios de alta temprana, la más baja tasa de fracaso vino de un estudio que examinó las complicaciones post-operatorias de la sección C de los pacientes, y las tasas más altas proceden de un estudio que incluyó muchos síntomas comunes en la definición de la morbilidad materna (por ejemplo, el frío, Gripe, y estreñimiento). En los estudios que compararon la colposuspensión ni a la suspensión con agujas o colporrafia, la menor tasa en la colposuspensión grupos procedían de los estudios en los que el seguimiento fue inferior a un año, y las bajas tasas de fracaso son muy similares a los ECA, que Ha de seguimiento de un año. Para el estudio de HSG con la odds ratio más baja (0,98) [37], la duración de seguimiento fue de dos años, en comparación con el de otros estudios que habían de seguimiento de un año o menos. Es posible que los problemas de infertilidad que con la mejora de los medios de contraste de petróleo pueden haber resuelto, en cualquier caso, durante un período de dos años.

Razones de las diferencias entre los estudios observacionales y aleatorizados

Las diferencias de los estudios de TENS para el dolor postoperatorio y el alta temprana después del parto puede haberse debido en parte a la falta de definiciones disímiles. Los SOs de la ENET define esto como si o no un paciente recibió medicamentos post-operatorio. Los ensayos controlados aleatorios que utilizan verbal puntuaciones de dolor que se dichotomized en "satisfactorio" o "insatisfactorio". Para los estudios de alta temprana, el ensayo controlado aleatorizado materna se define como la falta de problemas que necesitan médico de referencia. Estos problemas fueron principalmente las infecciones: infecciones del tracto urinario, infección de la episiotomía, mastitis, subinvolution, y endometritis. La mayoría de SOs materna se define como la falta de problemas de física determinada evaluación o auto-informe. Dado que estos problemas incluyen estreñimiento, síntomas gripales, y letargia, así como las infecciones, las tasas de fracaso fueron generalmente más altos para la observación que para los estudios aleatorios. La única excepción es un estudio observacional que examinó los resultados después de la cesárea y el fracaso se define como fiebre, infección de la herida, etc [35]. Las tasas de fracaso para este estudio fueron del 6% a principios de la gestión y el 7% para el grupo de convencionales, que son similares a los tipos de estudios aleatorizados. Sin este estudio de la sección C de los pacientes, el general de las tasas de fracaso para la observación y estudios aleatorios habría difieren aún más.

La principal preocupación por SOs es la confusión. Hubo pruebas de la evidente confusión que no se tuvo en cuenta en tres comparaciones de tratamientos: 1) la influencia de los anticoagulantes en la supervivencia de infarto de miocardio (controles históricos tratados varios años antes [45 - 47] y anticoagulantes preferentemente a los pacientes más jóvenes y los más bajos en los pacientes Riesgo por otros motivos [48, 49]], 2) quinidina para el tratamiento de arritmias (significativamente mayor [50, 51] de las tasas de enfermedades cardíacas valvulares en el grupo de quinidina), y 3) frente a la colposuspensión colporrafia anterior (sustancialmente y de manera significativa las tasas de En el grupo de colposuspensión grave pre-cirugía la incontinencia [52]]. [32, 34] En ningún estudio que muestra evidente de confusión hizo a los autores evaluar o ajustar de la confusión, o incluso plantear como una preocupación.

Discusión

Estudios anteriores han comparado los resultados de los SOs y ECA. La presente investigación fue el primero en evaluar qué características de diseño podría haber influido en los resultados de los SOs y, por lo tanto, las comparaciones de los resultados de los SOs y ECA. Se encontraron pruebas de que algunos factores no relacionados con la validez (de tratamiento específicos, características de los pacientes, y los métodos de medición de resultados) podría haber influido en algunos resultados de los estudios. Sin embargo, las comparaciones de la ECA y SOs (y, en muchos casos, el original de los meta-análisis que combina los estudios) no estudio estas características en cuenta. Por lo tanto, es posible que algunas diferencias entre algunos ECA SOs y puede deberse a factores distintos de la falta de validez de los SOs.

Es evidente, sin embargo, una cuestión crítica validez (confusión) influyó en los resultados de algunos SOs. Los pacientes en algunos tratamientos difieren sustancialmente de los pacientes en otro con respecto a los factores de riesgo o los tratamientos auxiliares que probablemente influyó en los resultados y una alteración de la eficacia relativa observada de los dos tratamientos. Desafortunadamente, pocos estudios evaluaron la posibilidad de confusión, y casi ninguno hizo un sofisticado esfuerzo en el control de ella. Debido a la posibilidad de confusión para invalidar los resultados de SOs, la falta de preocupación con confusión es sorprendente e inquietante.

La principal conclusión de esta investigación es que algunos de los tratamientos médicos SOs facilitado información suficiente para que sus resultados se interpretó adecuadamente. La información deficiente afectado a la capacidad de las revisiones sistemáticas y meta-análisis que incluyó estos artículos a explicar las diferencias en resultados o decidir cómo debe combinarse resultados. También puede haber contribuido a nuestra incapacidad de dar cuenta de la mayor parte de la variación de los resultados entre los SOs y las causas de las discrepancias entre SOs y ECA. Diferencias pueden deberse a que los SOs y ECA evaluaron diferentes tratamientos, resultados definidos de otra manera, o habían evidente de confusión. Los SOs revisado no presentó pruebas suficientes para evaluar si son nulas debido a la inevitable indetectable y la confusión. Este tipo de confusión es de la mayor preocupación en SOs y podría haber sido responsable de las diferencias entre SOs ECA y de la terapia de reemplazo hormonal. Indetectable de confusión puede ser menos probable cuando los pacientes tienen poca influencia en la elección de tratamiento, como las decisiones acerca de un procedimiento quirúrgico.

En resumen, nuestro estudio proporcionado pocas pruebas a favor o en contra de la validez de los SOs. Sin embargo, sugirió que las causas de las diferencias previamente encontradas entre SOs y ECA son difíciles de determinar. Los SOs hemos examinado puede no ser representativa de todos los SOs que evaluaron los tratamientos médicos. Sin embargo, los graves problemas de presentación de informes en los 61 estudios revisados sugieren que muchos otros estudios publicados proporcionar información insuficiente. Sin la mejora de los niveles de presentación de informes, que será difícil evaluar la forma en SOs sobre un determinado tema debe ser interpretado o, de manera más general, el papel apropiado de los SOs en la evaluación de los tratamientos médicos. Normas puede mejorarse mediante el desarrollo de criterios para la realización de estudios y la participación de un mayor número de investigadores con una fuerte antecedentes epidemiológicos en el diseño, la presentación de informes, y el examen de los SOs de los tratamientos médicos.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

AH fue responsable de gran parte del diseño del estudio y la escritura. SB, MC, YB, y KB revisado los artículos, ayudó a desarrollar el formato para la abstracción, y se examinaron las relaciones entre las características de los estudios y los resultados. DL y MS ayudado con la conceptualización y la escritura del artículo.

Agradecimientos

Apoyado en parte por la subvención 1 RO1 HS10739-01 a partir de la encuesta demográfica y de salud de la Agencia para Investigaciones y Calidad de Salud. Los autores agradecemos la ayuda de Laurie Wallace con manuscrito preparación.