Por un enfoque correcto en la investigación en medicina intensiva

Un artículo muy esclarecedor, recientemente publicado en Journal of Thoracic Diseases, a propósito del enfoque generalizado y aparentemente erróneo, en la investigación en medicina crítica. Quizás debemos replantear la forma de hacer investigación y las conclusiones que sacamos de ella. 

El artículo titulado en castellano Momento de detener los grandes ensayos pragmáticos y aleatorizados para los síndromes de medicina intensiva: Los casos de la sepsis y el síndrome de dificultad respiratoria aguda, es accesible en:

Girbes ARJ, de Grooth HJ. Time to stop randomized and large pragmatic trials for intensive care medicine syndromes: the case of sepsis and acute respiratory distress syndrome. J Thorac Dis 2020;12(Suppl 1):S101-S109. doi: 10.21037/jtd.2019.10.36

Lo reproduzco aquí, traducido al español, con autorización expresa del autor.

Introducción

La terminología clínica que describe síndromes, tales como sepsis, lesión renal aguda (AKI) o el síndrome de dificultad respiratoria agudo (SDRA) es extremadamente útil en la práctica diaria. Un diagnóstico de sepsis facilita el reconocimiento precoz, la comunicación concisa y el tratamiento apropiado de las infecciones serias, tal como el diagnóstico de SDRA puede ayudar a galvanizar un equipo médico para que inicie estrategias de ventilación protectora. Pero la utilidad clínica de estos síndromes puede no necesariamente extenderse a otros aspectos de la medicina, tales como la investigación aleatoria de una intervención. 

Se ha reportado que hasta el 95% de todos los estudios aleatorizados en cuidado crítico fallan en demostrar un efecto positivo y reproducible en la mortalidad (1). Esta abismal tasa de éxito tiene implicaciones éticas en el reclutamiento de pacientes y tiene importantes consecuencias para la asignación de recursos. Investigadores nos han señalado la heterogeneidad de los síndromes de cuidado crítico como causa principal de estudios negativos. Pero hasta ahora, los análisis estructurados de la heterogeneidad como causa de estudios “negativos” se han limitado al papel de los efectos diferenciales del tratamiento sobre el espectro de la severidad de la enfermedad (2).

En este artículo describimos porqué la sepsis y otros síndromes clínicos son inadecuados para estudios controlados aleatorizados con el objetivo de detectar una reducción en la mortalidad – o, inversamente, porqué la mortalidad es una variable principal deficiente para estudios con poblaciones definidas por síndrome. Los síndromes tales como la sepsis, AKI, SDRA o delirio son solo modelos reductores para procesos inherentemente multifactoriales y por ende son inapropiados para identificar poblaciones blanco para ensayos aleatorizados que demuestren beneficio en la mortalidad. 

En primer lugar, nosotros demostramos cómo la fracción de riesgo de mortalidad que es atribuible específicamente a los síndromes de cuidado crítico es habitualmente sobreestimada. Esto ha llevado a una sobreestimación de la magnitud asequible de los efectos del tratamiento y a la consecuente subestimación de los tamaños muestrales requeridos en varios órdenes de magnitud. En segundo término,  mostramos cómo los grandes ensayos “pragmáticos” aleatorizados no son una solución efectiva porque diluyen tanto los efectos del tratamiento como la precisión diagnóstica.

La importancia del riesgo atribuible al síndrome

Como una ilustración, nosotros podemos examinar un síndrome hipotético de enfermedad crítica que se asocia con una mortalidad de 35%; podría ser sepsis pero también SDRA. Cuando se prueba una intervención novel que potencialmente podría reducir las nocivas secuelas de este síndrome, puede parecer razonable impulsar un estudio controlado aleatorizado para detectar una reducción de riesgo relativo de 20%. Se necesitaría un ensayo de 1378 pacientes con un poder de 80% para demostrar este efecto (ver archivo Suplementario). Pero este diseño de ensayo habitual ignora la pregunta fundamental: ¿qué fracción del riesgo total de mortalidad es atribuible al síndrome más que a la enfermedad subyacente? Observar que el síndrome se asocia con una mortalidad de 35% no es suficiente. Las causas subyacentes e independientes del síndrome (incluyendo infecciones sistémicas, catástrofes abdominales, pancreatitis severa, etc.) están en la raíz de la alta tasa de mortalidad. 

La Figura 1 muestra cómo la mortalidad depende por una parte de las rutas patológicas que son independientes del síndrome, y por otra parte del riesgo de mortalidad atribuible al síndrome. Las condiciones subyacentes que pueden causar el síndrome son en sí mismas factores de riesgo importantes para la mortalidad. Para poner esto en una ejemplo práctico, si consideramos en un paciente el SDRA como el síndrome y el carcinoma de colon con perforación como la condición subyacente: la terapia para el SDRA puede ser excepcionalmente realizada por el mejor intensivista experto mundial en ventilación mecánica, pero si la perforación de colon no es bien tratada el paciente morirá sin importar cuán bien esté mecánicamente ventilado.  

Figura 1

Figura 1 Representación esquemática del riesgo atribuible al síndrome. Los síndromes en cuidado crítico se asocian con riesgos de mortalidad altos, pero las condiciones subyacentes que causan estos síndromes son en sí mismas causas raíz importantes de mortalidad. ARDS, síndrome de dificultad respiratoria aguda.

Estimar los posibles efectos en la mortalidad de una intervención específica de síndrome (ej, bajo volumen corriente en SDRA, bajas driving pressures) requiere información acerca del riesgo de mortalidad atribuible al síndrome y – una estimación – de la posible reducción de riesgo  atribuible de la intervención. El concepto e importancia del riesgo atribuible ya fue descrita en los 1970s pero parece no haber sido considerada lo suficiente en los ensayos de cuidado crítico (3). Si se confiere solamente una pequeña parte del riesgo de mortalidad a través de las vías específicas del síndrome, entonces las intervenciones específicas al síndrome pueden llevar solamente a efectos infinitesimales sobre la mortalidad. A una tasa de mortalidad de 35%, una fracción de mortalidad atribuible al síndrome alrededor de 0,50 a 0,25 requeriría realmente de 5700 a más de 23000 pacientes – dependiendo del efecto esperado del tratamiento (fig 2). Esto significa que la mayoría de los grandes ensayos aleatorizados en enfermos críticos – con tamaños de muestra entre 500 y 2000 – se basan en cálculos no realistas de poder muestral. 

Los  últimos criterios de sepsis se derivaron de patrones de riesgo en grandes cohortes, tal que la sepsis es por definición un factor de riesgo para pobres resultados. Un paciente ‘séptico’ amerita atención y tratamiento inmediatos de la causa subyacente. Pero ¿Cuál es la contribución causal de la sepsis al riesgo de mortalidad? El síndrome sepsis puede verse, por ejemplo, en un paciente de 70 años con enfermedad cardíaca y una gran perforación de intestino delgado o en uno de 45 años con aplasia inducida por quimioterapia y una infección de origen desconocido. No es sorprendente que con estas patologías subyacentes diferentes e independientemente catastróficas, la fracción causal de riesgo conferida a través del síndrome sepsis podría ser mucho más baja que la que se asume habitualmente. De hecho, la fracción de mortalidad atribuible a la sepsis fue estimada recientemente tan baja como 0,15 por Shankar-Hari et al (4). Pero como señalaremos, aún este modesto estimado sea probablemente una sobreestimación.  

Figura 2

Figura 2 Requerimientos de tamaño de muestra de ensayo como función de la fracción de mortalidad al síndrome para un ensayo de dos grupos a una tasa de mortalidad de grupo control de 35%, tasa de error tipo I de 5% y tasa de error tipo II de 20%. La relación entre los tamaños de muestra requeridos y la fracción de mortalidad atribuible al síndrome se muestra para tres tamaños de efecto hipotéticos. El eje vertical en escala logarítmica. 

Sobreestimación del riesgo de mortalidad atribuible: Un estudio de simulación de Monte Carlo

Nuestra impresión de la mortalidad atribuible puede ser errónea: Los riesgos atribuibles al síndrome son fácilmente sobreestimados porque los síndromes de enfermedad crítica están fuertemente asociados a la severidad de la enfermedad subyacente, como puede ser ilustrado con un ejemplo simulado por computadora, el cual es presentado en detalle en un suplemento técnico. 

Condicionados por una asociación entre el riesgo de desarrollar un síndrome y el riesgo subyacente de mortalidad, los métodos estadísticos comunes que ajustan los confundidores por severidad de enfermedad (tales como la regresión o el emparejamiento por propensión) llevarán a estimados significativamente inflados del riesgo atribuible al síndrome, aun cuando el riesgo real atribuible del síndrome sea cero. 

Nosotros generamos una cohorte simulada de 4000 pacientes con una distribución heterogénea de riesgo de mortalidad generada aleatoriamente y un riesgo mediano de mortalidad de 7% (IQR, 2 – 23%). EL riesgo de desarrollar un síndrome de enfermedad crítica hipotético fue generado semi-aleatoriamente para correlacionar con el riesgo basal de mortalidad (correlación = 80%). Usando un generador aleatorio binomial, a cada paciente le fue asignado un diagnóstico de síndrome (ausente o presente, basado en el riesgo de desarrollar el síndrome) y un resultado (muerte o supervivencia, basado en el riesgo real de mortalidad). A considerar, el riesgo de mortalidad no varió dependiendo de la presencia del síndrome, así que la presencia del síndrome no causó un incremento en el riesgo de mortalidad: El riesgo real atribuible fue cero (Fig 3A). 

Figura 3

Figura 3 Resultados de un estudio de simulación que demuestran cómo los riesgos atribuibles al síndrome son sobreestimados comparando por severidad de enfermedad. (A) En una cohorte simulada de 4000 pacientes, el riesgo de desarrollar un síndrome de enfermedad crítica se correlaciona con el riesgo de mortalidad, pero la presencia del síndrome no causa un aumento en el riesgo de mortalidad (no hay desplazamiento horizontal entre aquellos con el síndrome comparados con aquellos sin él). (B) Al ajustar para confundidos por severidad de la enfermedad, un investigador desea comparar pacientes con el síndrome con pacientes similares sin el síndrome sobre la base de la caracterización de la enfermedad (resumida por puntajes de severidad). (C) La comparación no ajustada muestra que pacientes con el síndrome tienen riesgo aumentado de morir. Después del ajuste por un puntaje de severidad bueno pero imperfecto, la mortalidad atribuible al síndrome parece ser de 11%, mientras que la caracterización completa del riesgo de mortalidad subyacente (independiente del síndrome) revela que el riesgo atribuible al síndrome es insignificante.

Para simular cómo los riesgos atribuibles al síndrome pueden ser estimados por los investigadores, construimos tres escenarios de análisis (Figuras 3B, C). En el primer escenario, un investigador hipotético hace una comparación de mortalidad cruda entre aquellos con el síndrome y aquellos sin él. El investigador observará que la tasa cruda de mortalidad de los pacientes con el síndrome es de 41% vesus 13% en aquellos sin él, tal que la mortalidad cruda atribuible al síndrome está severamente sobreestimada en 28% (P<0,0001).

En el segundo escenario, el investigador hace uso de un puntaje de severidad de enfermedad para emparejar cada paciente con el síndrome con una paciente sin el síndrome pero con similar puntaje de severidad. El puntaje de severidad no es un reflejo perfecto del riesgo de mortalidad real, pero está bien calibrado y tiene un área bajo la curva de características operativas de receptor (AUROC) de 0,84 para discriminar entre supervivencia y muerte. En esta corte emparejada, la tasa de mortalidad de los pacientes con el síndrome es de 37% versus 26% para aquellos sin el síndrome, tal que el riesgo atribuible ajustado se estima en 11% (P = 0,0006), todavía una sobreestimación significativa. 

En el escenario final, el investigador tiene información completa y una caracterización perfecta de las enfermedades subyacentes, así que puede hacer uso de un puntaje de severidad perfecto (o de cualquier otra métrica) para emparejar cada paciente con el síndrome con un paciente sin él. El AUROC máxima alcanzable para la distribución de riesgo subyacente es 0,88. Usando toda la información acerca de los riesgos de enfermedad subyacentes para construir una cohorte apareada, se encontró que la tasa de mortalidad de los pacientes con el síndrome  era de 30% versus 29% para aquellos sin el síndrome, tal que se estimó que el riesgo atribuible ajustado preciso era despreciable (P = 0,651).

Esta simulación muestra que, condicionado por una asociación entre el riesgo de desarrollar un síndrome y el riesgo de mortalidad subyacente, el riesgo de mortalidad atribuible al síndrome puede solo ser estimado con precisión cuando hay información perfecta del riesgo (o caracterización de la enfermedad) de las condiciones patológicas subyacentes. Obviamente, este no es un escenario realista y concluimos que los riesgos atribuibles al síndrome son frecuentemente sobreestimados. 

Los grandes estudios ‘pragmáticos’ en cuidado crítico no son la solución

Hemos demostrado cómo la tasa de mortalidad atribuible de síndromes tales como sepsis o SDRA es fácilmente sobrestimada, llevando a una correspondiente sobreestimación de los efectos alcanzables con el tratamiento y una subestimación de los tamaños de muestra requeridos. Tomando en cuenta las dificultades de los grandes RCTs (ECAs) en términos de reclutamiento de pacientes y recolección de datos, puede parecer tentador considerar grandes ensayos ‘pragmáticos? Como una solución razonable. Estos ensayos o estudios multicéntricos (frecuentemente internacionales) tienen amplios criterios de inclusión y relativamente escasos requerimientos de recolección de datos para los centros participantes. Además de menos recursos necesarios por paciente reclutado, los ensayos pragmáticos tienen la ventaja adicional de una buena validez externa al investigar la efectividad en el “mundo real” de una intervención. Pero nosotros mostraremos que esta tampoco es la vía. Datos recientes sobre SDRA nos ayudan a mostrar este punto. 

Desde la publicación del emblemático ensayo ARMA, la ventilación a bajo volumen corriente ha sido inequívocamente aceptada como estándar de atención para los pacientes con SDRA (5), pero la historia del SDRA podría haber sido diferente: La edición de 1991 del clásico de Harrison establecía que la meta de la ventilación en pacientes con SDRA era aumentar el volumen pulmonar aplicando volúmenes corriente de 10-15 ml/kg. ¿Qué sería si, en vez del ensayo ARMA, la ventilación a bajo volumen corriente hubiera sido probada de la misma manera que los recientes grandes ensayos pragmáticos? Por ejemplo, ¿cuáles serían los resultados de un ensayo que probara el beneficio de la ventilación a bajo volumen corriente en todos los pacientes ventilados mecánicamente usando un diseño de agrupaciones-aleatorizadas (cluster-randomized)? ¿Podría un gran estudio pragmático demostrar un efecto beneficioso de la ventilación a bajo volumen corriente?

Podemos responder este experimento pensado con la ayuda del reciente ensayo Protective Ventilation in Patients Without ARDS (PReVENT), en el cual 961 pacientes sin SDRA fueron aleatorizados a ventilación mecánica con volúmenes corriente de 6 versus 10 ml/kg (6). No se encontró diferencias significativas entre los brazos de tratamiento para ninguno de los resultados clínicos, incluyendo días libres de ventilación, estancia y mortalidad. Ahora conocemos la eficacia de la ventilación a bajo volumen corriente en dos poblaciones complementarias: En el ensayo ARMA, se prestó atención a incluir solo pacientes con SDRA, mientras que en el PReVENT esos pacientes fueron estrictamente excluidos. Combinando las poblaciones y resultados de ambos ensayos, podemos comenzar a ver lo que parecería un ensayo pragmático que incluyera a todos los pacientes mecánicamente ventilados. 

Para hacerlo, corrimos una simulación de Monte Carlo de ensayos dejando que el software genere ensayos con 1500 o 4000 pacientes incluidos, con una proporción variable de pacientes con SDRA. Usando los resultados de los ensayos ARMA y PReVENT, a los pacientes con y sin SDRA les fueron asignados riesgos basales de mortalidad de 40% y 32%, respectivamente (5,6). Luego fueron aleatoriamente asignados a tratamiento o control. De nuevo, usando los resultados de ARMA y PReVENT, el efecto del tratamiento en los pacientes con SDRA fue establecido como un riesgo relativo de 0,78 (IC 95%: 0,65 – 0,93), y el efecto del tratamiento en los pacientes sin SDRA fue un riesgo relativo de 1,09 (IC 95%: 0,90 – 1,33) (Fig 4A) (5,6). Finalmente, se generó un resultado de muerte o supervivencia para cada paciente usando un generador binomial aleatorio, con la probabilidad de muerte como función del riesgo de mortalidad basal (dependiente del status de SDRA) multiplicado por el efecto del tratamiento (dependiendo del status de SDRA y de la asignación a tratamiento o control). Corrimos la simulación 10000 veces con 1500 pacientes por ensayo y 10000 veces con 4000 pacientes por ensayo (Fig 4B).

La Figura 4C muestra la probabilidad de encontrar un beneficio significativo de los volúmenes corrientes bajos en los ensayos de 1500 y 4000 pacientes como función de la proporción de pacientes con SDRA en esos ensayos. A la prevalencia promedio mundial de SDRA de 23% (7), la probabilidad de que un ensayo de 1500 pacientes o un ensayo de 4000 pacientes encontrara un beneficio de la ventilación a volumen corriente bajo es de 7% y 11%, respectivamente (figura 4C). Solamente a una prevalencia de SDRA sobre 70% un ensayo de 4000 pacientes tiene el poder razonable (80%) de encontrar beneficio de los volúmenes corrientes bajos. 

Podemos entonces preguntar si la ventilación a bajo volumen corriente puede al menos ser identificada como beneficiosa en el subgrupo de pacientes con SDRA dentro de tal ensayo pragmático grande. Para responder a esta pregunta, evaluamos con qué precisión es diagnosticado el SDRA en la práctica. Los 10 sitios clínicos del ensayo ARMA que colaboraron en la red de SDRA estuvieron probablemente mucho mejor entrenados en promedio en el reconocimiento del SDRA. El ensayo ARMA en sí tendrá aumentado el foco de los clínicos e investigadores participantes hacia el diagnóstico preciso de SDRA: Los datos del mundo real pintan un cuadro más sombrío (8).  Un gran estudio de 459 unidades de cuidados intensivos (UCI) en 50 países indicó que el SDRA es severamente infradiagnosticado, con reconocimiento clínico de sólo 60% de los casos (7). Aún en el contexto de un ensayo pragmático hipotético con evaluaciones aumentadas de los datos de pacientes la precisión diagnóstica puede ser bastante menos que perfecta, por ejemplo debido a la gran variabilidad interobservador en interpretar el diagnóstico radiográfico de SDRA (9, 10). 

Figura 4

Figura 4 Simulación de grandes ensayos “pragmáticos” hipotéticos que investigan la ventilación a bajo volumen corriente. Los efectos de la ventilación a bajo volumen corriente en pacientes con SDRA y sin SDRA se basaron en dos grandes RCTs (A). Nosotros simulamos los resultados de grandes ensayos “pragmáticos” en poblaciones con diferentes incidencias de SDRA (B,C) y cambiando la precisión diagnóstica (D). SDRA (ARDS), síndrome de dificultad respiratoria aguda.

 

 

 

 

 

 

 

La figura 4D muestra que descubrir un efecto beneficioso significativo en el subgrupo de pacientes con SDRA con poder > 80% requiere que el SDRA sea diagnosticado con sensibilidad y especificidad perfectas. Con la sensibilidad y especificidad diagnósticas de 0,80 el poder de descubrir una interacción significativa es de solamente 43% a una incidencia de SDRA de 23%. Con una sensibilidad y especificidad de 0,60 tantos pacientes con SDRA serán confundidos con no SDRA (y viceversa) que la probabilidad de descubrir un efecto beneficioso permanecerá insignificante no importa cuán alta sea la prevalencia. 

En resumen, es nos dice que sería improbable que un ensayo pragmático grande con pacientes ventilados no seleccionados demostrara un efecto beneficioso de los volúmenes corrientes bajos. Muchos factores del mundo real disminuirán aún más la probabilidad de descubrir un efecto significativo. Por ejemplo, no hemos considerado que aún dentro de una población diana los ensayos más grandes tienden a demostrar efectos más pequeños, posiblemente debido a la falta de adherencia vigorosa al protocolo (11-13). Un estudio reciente encontró que el número limitado de estudios multicéntricos que reportan  efecto de mortalidad significativo tuvieron solo moderados tamaños de muestra y pocos centros participantes (mediana de 199 pacientes y 10 centros) (14).

Cómo proceder: Un foco renovado sobre la comprensión

En la segunda mitad del siglo pasado, ha habido un alejamiento epistemológico desde la medicina basada en fisiología y fisiopatología hacia la adquisición de conocimiento a través de ensayos clínicos. En la investigación en cuidados críticos, esto ha ido de la mano con la mortalidad como la variable gold-standard. Pero debemos reconocer que el rendimiento de este paradigma de investigación ha sido abismalmente pobre: Se han realizado más de 2000 ensayos controlados aleatorizados con pacientes en sepsis (15), todos loscuales no han resultado en una sola intervención beneficiosa (1, 14). Mientras tanto, los mecanismos detrás de la disfunción orgánica en la sepsis siguen siendo un gran misterio, dado que solo recientemente hemos descartado el modelo simplista de la sepsis como una reacción puramente hiperinflamatoria desordenada a la infección (16, 17). El carro ha sido puesto delante de los caballos invirtiendo fuertemente en ensayos aleatorizados sin comprender de manera adecuada la fisiopatología del síndrome. Nos preguntamos cuán lejos podría haber llegado nuestra comprensión de la sepsis si los recursos dedicados a tantos estudios aleatorizados hubieran sido consumidos en investigaciones mecánicas preclínicas y clínicas. 

Creemos que es necesario un reajuste riguroso de las prioridades de investigación. Solo si comprendemos apropiadamente los procesos nocivos en nuestros pacientes complejamente enfermos podemos esperar desentrañar las vías comunes. Un paciente agudo con sepsis en la fase hiperinflamatoria puede compartir más características fisiopatológicas con un paciente con pancreatitis severa no infectado (18), que con otro paciente séptico en la fase inmunoparalítica (19). Aglomerar juntos a pacientes porque reúnan una definición de consenso disminuye la proporción de vías compartidas y reduce la posibilidad de hallar una terapia que beneficie a todos. 

Nosotros no defendemos un retorno a la medicina basada únicamente en fisiopatología o únicamente “basada en la eminencia” sin más bien proponemos que los estudios clínicos aleatorizados con la mortalidad como variable principal deberán ser una piedra angular final en la cadena de evidencia cuando el equilibrio verdadero persiste después de que los efectos de una terapia son entendidos apropiadamente. Tal ha sido también la historia de la ventilación a alto versus bajo volumen corriente, los pros y contras de los cuales fueron ya entendidos antes del ensayo ARMA (20). Lo que persistió fue la duda acerca del balance neto de efectos – para lo cual el ensayo ARMA proporcionó la respuesta. Un ensayo, observamos, que parece haber sido decididamente no pragmático con muy estrecha adherencia al protocolo (volúmenes corriente alcanzados de 6,2 vs 11,8 ml/kg en volúmenes corriente protocolizados de 6,0 a 12 ml/kg) comparado con los escenarios del mundo real (7).

Al adoptar los valiosos principios de la medicina basada en la evidencia el péndulo ha oscilado demasiado lejos hacia los grandes ensayos aleatorizados como el método preferido de extracción de conocimientos en cuidado crítico. Un foco renovado sobre la comprensión requiere que la comunidad de cuidado crítico y las instituciones financiadoras reincentiven la investigación mecánica básica y traslacional. 

Conclusiones

La mortalidad es una variable principal de ensayo insensible porque la heterogeneidad de los pacientes encasillados en los diagnósticos de cuidado crítico no comparten a suficiente extensión las vías que independientemente llevan a la muerte. Estudios pragmáticos más y más grandes no son la solución porque un aumento del “pragmatismo” va de la mano con una reducida precisión diagnóstica y terapéutica, reduciendo así el riesgo atribuible, el tamaño del efecto terapéutico y la probabilidad de hallar un efecto de subgrupo beneficioso. La solución de este impase es dirigir más recursos a la investigación básica y traslacional para mejorar nuestra comprensión de los mecanismos de la enfermedad. 

Suplemento

Cálculos del tamaño de muestra

Los cálculos del tamaño de muestra en el lenguaje R (usando el paquete por de Champely et al) están disponibles al final de este suplemento técnico.

El tamaño de muestra requerido para demostrar una reducción de riesgo relativo de 20% con una tasa de grupo control de 35%, 80% de poder y tasa de error tipo I de 5% es 689 por grupo de 1379 para un ensayo de 2 grupos. 

Para una fracción atribuible de mortalidad de 0,25, y una reducción relativa de la fracción atribuible de 0,20, el efecto absoluto sobre la tasa de mortalidad de grupo control de 35% será de 1,75%: 0,35×0,25×0,20=0,0175. Por ende, la tasa de mortalidad esperada del grupo de intervención sería 33,25%: 0,35-(0,35×0,25×0,20=0,035)=0,3325. El tamaño de muestra requerido para comparar una tasa de grupo control de 35% con una tasa de grupo de intervención de 33,25% es 23042 (poder de 80%, tasa de error tipo I de 5%).

De manera similar, para una fracción atribuible de mortalidad de 0,50 y una reducción relativa de la fracción atribuible de 0,20, el efecto absoluto sobre una tasa de mortalidad de grupo control de 35% será 3,5%: 0,35×0,50×0,20=0,035. Por ende, la tasa de mortalidad de grupo de intervención esperada sería de 33,25%: 0,35-(0,35×0,50×0,20=0,035)=0,315. El tamaño requerido de muestra para comparar una tasa de grupo controle 35% con una tasa de grupo de intervención de 31,5% es 5685 (80% de potencia, tasa de error tipo I 5%).

En el ejemplo de la sepsis con una fracción atribuible de 0,15, a una tasa “óptima” de grupo control de 50% y una reducción relativa de la fracción atribuible de 0,20, el efecto absoluto será de 1,5%: 0,50×0,15×0,20=0,015. Una reducción desde 50% hasta 48,5% requeriría un tamaño muestra de 34873 (potencia de 80%, tasa de error tipo I 5%).

Estimación simulada del riesgo atribuible al síndrome, explicación de la Figura 3

Para demostrar cómo los riesgos atribuibles al síndrome son sobreestimados cuando el síndrome y la severidad de la enfermedad subyacente están correlacionadas, presentamos un ejemplo simulado por computadora desde el riesgo real atribuible al síndrome de un síndrome hipotético es cero. 

Generamos una cohorte simulada de 4000 pacientes con una distribución heterogénea (generada aleatoriamente) de riesgo de mortalidad, con un riesgo mediano de mortalidad de 7% (IQR, 2-23%) (Figura 3A). El riesgo de desarrollar un síndrome de enfermedad crítica hipotética fue generado semi-aleatoriamente para correlacionar con el riesgo de mortalidad basal (r 0,80). Usando un generador binomial aleatorio, cada paciente fue entonces asignado con un diagnóstico del síndrome (ausente o presente, basado en el riesgo de desarrollar un síndrome) y un resultado (muerte o vivo, basado en el riesgo real de mortalidad). De importancia, el riesgo de mortalidad no osciló dependiendo de la presencia del síndrome así que la presencia del síndrome no causó un aumento en el riesgo de mortalidad (el riesgo atribuible real fue cero) (Figura 3A).

Para simular cómo los riesgos atribuibles a síndrome pueden ser estimados por los investigadores, construimos 3 escenarios (Fig 3B). En el primer escenario, un investigador hipotético hace una comparación cruda de mortalidad entre aquellos con el síndrome y aquellos sin él. El investigador observará que la tasa cruda de mortalidad de los pacientes con el síndrome es de 41% y sin el síndrome de 13%, así que la mortalidad cruda atribuible al síndrome se estima en 28% (p<0,0001) (Fig 3C).

En el segundo escenario, el investigador hace uso del puntaje de severidad de la enfermedad para emparejar cada paciente con el síndrome con un paciente sin el síndrome pero con similar puntaje de severidad. El puntaje de severidad no es un reflejo perfecto del riesgo de mortalidad real, pero está bien calibrado y tiene un área bajo la curva ROC (AUROC) de 0,84 para discriminar entre supervivencia y muerte (Fig 3B). En esta cohorte apareada, la tasa de mortalidad de los pacientes con el síndrome es de 37% versus 26% en aquellos sin el síndrome, así que el riesgo atribuible ajustado se estima en 11% (p=0,0006) (Fig 3C).

En el escenario final, el investigador tiene información completa y caracterización perfecta de las enfermedades subyacentes, así que puede usar un puntaje perfecto de severidad (o cualquier otra métrica) para emparejar cada paciente con el síndrome con un paciente sin el síndrome. El AUROC máximo teórico alcanzable para la distribución de riesgo subyacente es 0,88 (Fig 3B). Usando la información total acerca de los riesgos de enfermedad subyacentes para construir una cohorte emparejada, la tasa de mortalidad de los pacientes con el síndrome se encontró que era de 30% versus 29% para aquellos sin el síndrome, así que el riesgo atribuible preciso ajustado se estima que era despreciable de 1,1% (p=0,0006) (Fig 3C).

Esta simulación muestra que, condicionado por una asociación entre el riesgo de desarrollar un síndrome y el riesgo de mortalidad subyacente, el riesgo de mortalidad atribuible al síndrome puede solo ser estimado de manera precisa cuando hay información perfecta del riesgo (o caracterización de enfermedad) de las condiciones patológicas subyacentes. 

El código completo para el estudio de simulación en lenguaje R está disponible de h.degrooth@amsterdamumc.nl. 

REFERENCIAS

  1. Laffey JG, Kavanagh BP. Negative trials in critical care: why most research is probably wrong. Lancet Respir Med 2018;6:659-60. [Crossref] [PubMed]
  2. Iwashyna TJ, Burke JF, Sussman JB, et al. Implications of Heterogeneity of Treatment Effect for Reporting and Analysis of Randomized Trials in Critical Care. Am J Respir Crit Care Med 2015;192:1045-51. [Crossref] [PubMed]
  3. Walter SD. The estimation and interpretation of attributable risk in health research. Biometrics 1976;32:829-49. [Crossref] [PubMed]
  4. Shankar-Hari M, Harrison DA, Rowan KM, et al. Estimating attributable fraction of mortality from sepsis to inform clinical trials. J Crit Care 2018;45:33-9. [Crossref] [PubMed]
  5. Acute Respiratory Distress Syndrome Network, Brower RG, Matthay MA, et al. Ventilation with lower tidal volumes as compared with traditional tidal volumes for acute lung injury and the acute respiratory distress syndrome. N Engl J Med 2000;342:1301-8. [Crossref] [PubMed]
  6. Simonis FD, Serpa Neto A, Binnekade JM, et al. Effect of a Low vs Intermediate Tidal Volume Strategy on Ventilator-Free Days in Intensive Care Unit Patients Without ARDS. JAMA 2018;320:1872. [Crossref] [PubMed]
  7. Bellani G, Laffey JG, Pham T, et al. Epidemiology, Patterns of Care, and Mortality for Patients With Acute Respiratory Distress Syndrome in Intensive Care Units in 50 Countries. JAMA 2016;315:788. [Crossref] [PubMed]
  8. Laffey JG, Misak C, Kavanagh BP. Acute respiratory distress syndrome. BMJ 2017;359:j5055. [Crossref] [PubMed]
  9. Rubenfeld GD, Caldwell E, Granton J, et al. Interobserver variability in applying a radiographic definition for ARDS. Chest 1999;116:1347-53. [Crossref] [PubMed]
  10. Peng JM, Qian CY, Yu XY, et al. Does training improve diagnostic accuracy and inter-rater agreement in applying the Berlin radiographic definition of acute respiratory distress syndrome? A multicenter prospective study. Crit Care 2017;21:12. [Crossref] [PubMed]
  11. Dechartres A, Trinquart L, Boutron I, et al. Influence of trial sample size on treatment effect estimates: meta-epidemiological study. BMJ 2013;346:f2304. [Crossref] [PubMed]
  12. Zhang Z, Hong Y, Liu N. Scientific evidence underlying the recommendations of critical care clinical practice guidelines: a lack of high level evidence. Intensive Care Med 2018;44:1189-91. [Crossref] [PubMed]
  13. Walkey AJ, Goligher EC, Del Sorbo L, et al. Low Tidal Volume versus Non-Volume-Limited Strategies for Patients with Acute Respiratory Distress Syndrome. A Systematic Review and Meta-Analysis. Ann Am Thorac Soc 2017;14:S271-9. [Crossref] [PubMed]
  14. Landoni G, Comis M, Conte M, et al. Mortality in Multicenter Critical Care Trials: An Analysis of Interventions With a Significant Effect. Crit Care Med 2015;43:1559-68. [Crossref] [PubMed]
  15. Embase search for Major Focus ‘Sepsis’ and study type ‘Randomized controlled trial’. Available online: (accessed 10 September 2019).https://www.embase.com
  16. Angus DC, van der Poll T. Severe Sepsis and Septic Shock. N Engl J Med 2013;369:840-51. [Crossref] [PubMed]
  17. McConnell KW, Coopersmith CM. Pathophysiology of septic shock: From bench to bedside. Presse Med 2016;45:e93-8. [Crossref] [PubMed]
  18. Wilson PG, Manji M, Neoptolemos JP. Acute pancreatitis as a model of sepsis. J Antimicrob Chemother 1998;41:51-63. [Crossref] [PubMed]
  19. Leentjens J, Kox M, van der Hoeven JG, et al. Immunotherapy for the Adjunctive Treatment of Sepsis: From Immunosuppression to Immunostimulation. Time for a Paradigm Change? Am J Respir Crit Care Med 2013;187:1287-93. [Crossref] [PubMed]
  20. Hall JB. Respiratory system mechanics in adult respiratory distress syndrome. Stretching our understanding. Am J Respir Crit Care Med 1998;158:1-2. [Crossref] [PubMed]