Estudios de Casos y Controles

Introducción

Un estudio de casos y controles es un diseño analítico observacional. Para valorar si existe asociación entre una enfermedad y la exposición a un determinado factor, su estrategia consiste en la selección de dos grupos de individuos, llamados casos o controles según padezcan o no la enfermedad objeto del estudio, que se comparan retrospectivamente con respecto a la presencia o ausencia de la exposición al factor de riesgo.

Por ejemplo, para estudiar la relación entre consumo de alcohol y cáncer de esófago mediante este tipo de diseño, se selecciona un grupo de enfermos de cáncer de esófago y otro grupo compuesto por personas que no presentan la enfermedad, y se investiga el consumo de alcohol que uno y otro grupo realizó en el pasado. Si existe asociación, la proporción de bebedores será mayor en el grupo de enfermos. A diferencia de los estudios de cohortes, en los que se parte de personas expuestas y no expuestas a un determinado factor y se les sigue prospectivamente para valorar la incidencia de la enfermedad en uno y otro grupo, los estudios de casos y controles parten de personas que ya padecen la enfermedad y del correspondiente grupo control, y se recaba posteriormente la información sobre la exposición.

Específicamente, los estudios de casos y controles se entienden mejor si comenzamos por considerar como punto de partida la población base, que representa una hipotética población de estudio en la que podría llevarse a cabo un estudio de cohortes. La población base es la población de la que surgen los casos incluidos en el estudio. Si se realizara un estudio de cohortes en esta población, se definiría la cohorte de expuestos y de no expuestos a un determinado factor, y a partir de ellas se obtendrían los denominadores para el cálculo de las medidas de frecuencia que se obtendrían para cada una de las cohortes. Posteriormente se identificaría el número de casos que ocurren en la cohorte de expuestos y en la de no expuestos y se calcularía para cada una de ellas las tasas de incidencia o las incidencias acumuladas. En un estudio de casos y controles se identifica a estos mismos casos y se les clasifica como expuestos o no expuestos (es decir, como si hubieran pertenecido a la cohorte de expuestos o a la de no expuestos).

Sin embargo, en vez de obtener los denominadores de población para el cálculo de tasas o riesgos basados en el número de personas de las cohortes de expuestos y no expuestos, se muestrea de manera aleatoria a la población base de la que surgen los casos para la obtención del grupo control. A las personas pertenecientes al grupo control posteriormente se las clasifica como expuestas o no expuestas de acuerdo con la información suministrada. La finalidad del grupo control es determinar la proporción de expuestos y no expuestos en la población base. Por lo tanto, un requisito esencial es que la selección de los controles no esté relacionada con la exposición.

En este tipo de estudios se compara la odds de exposición en el pasado a un determinado factor de riesgo entre los casos y los controles. Por consiguiente, su principal estrategia analítica consiste en el cálculo de la odds ratio de exposición, que es una estimación del riesgo relativo.

Este tipo de estudio constituye en la actualidad el diseño más utilizado en la investigación biomédica. Aunque existen antecedentes históricos previos, el uso de estos estudios comenzó a extenderse a partir de 1950 cuando Doll y Hill utilizaron esta metodología para analizar la relación entre tabaco y cáncer de pulmón, demostrando un mayor consumo de cigarrillos en los casos que en los controles. Aunque en algunos textos solían referirse a estos estudios como retrospectivos, lo cierto es que esta denominación está en desuso ya que pueden existir estudios de casos y controles retrospectivos, en los que todos los casos ya han sido diagnosticados y la información sobre los factores de riesgo ya se ha recogido, y prospectivos, en los que se va recogiendo la información de la exposición para los casos nuevos que se van diagnosticando y los controles que se van seleccionando.

Los estudios de casos y controles se desarrollaron inicialmente para el estudio etiológico de las enfermedades crónicas, ya que muchas de ellas no eran excesivamente frecuentes, tenían largos períodos de latencia y, en numerosas ocasiones, no existía una hipótesis etiológica definida. Sin embargo, constituyen una metodología adecuada para el estudio de los factores causales de enfermedades transmisibles.

En los últimos años, los estudios de casos y controles se han aplicado también para evaluar la eficacia de los programas de detección precoz, de los programas de vacunación y de los servicios sanitarios.

Diseño del estudio

Uno de los aspectos cruciales en el diseño de un estudio de casos y controles es la definición de la población base, a partir de la cual se originarán los dos tipos fundamentales de estudios de casos y controles. El principio básico que subyace a ambos tipos de estudios es que los controles deben representar a la población en la que se originan los casos.

El esquema general de este tipo de diseños, cuando la base del estudio es primaria, consiste, en primer lugar, en definir la población base en la que se generarán los casos y, posteriormente, en identificar los casos que surjan para finalmente seleccionar controles de esa población base previamente definida.

Un esquema igualmente frecuente consiste en definir la población base de manera secundaria a la identificación de los casos. Primero se establece la fuente de los casos y, partiendo de ella, se intenta identificar la base de población en la que se han generado, para extraer de ella una muestra de controles.

Véase con el ejemplo anterior sobre consumo de alcohol y cáncer de esófago la diferencia entre base primaria y secundaria. La existencia de un registro poblacional de cáncer permite la identificación de la base: la población cubierta por el registro (normalmente provincial). En este caso, sabemos que la base primaria es la población de la provincia de la que habrán surgido los casos notificados que identificaremos posteriormente por medio del registro. Por el contrario, el uso de cánceres diagnosticados en un hospital concreto obliga a identificar la población que es atendida en ese centro con respecto al cáncer de esófago, y que puede no corresponderse con la población general. Esto condiciona que el grupo control sea elegido entre una población que si desarrollara un cáncer de esófago sería atendida en ese centro y podría constituir un caso.

Por lo tanto, primero se identifican los casos y posteriormente se identifica la población base secundaria de estos casos de donde se obtienen los controles.

A lo largo de los últimos años se han venido consolidando una serie de términos, en relación con los estudios de casos y controles, que reflejan estrategias diferentes en la selección de los casos y de los controles. Los llamados estudios de casos y controles basados en los casos (case-based case-control study) constituyen la estrategia más sencilla para la selección de los grupos en este tipo de diseño, identificándose los casos y los controles en un mismo momento temporal entre las personas que están vivas en ese momento. Debe hacerse hincapié en que aunque el estudio se realice de manera transversal, es preciso que los casos se hayan producido a lo largo de un período precedente antes de ser incluidos en el estudio. Por ello, debe asumirse que los casos que sobreviven a lo largo del tiempo hasta el momento en que se realiza el estudio son representativos de todos los casos con respecto a la exposición. Los estudios de casos y controles basados en los casos son diseños de casos y controles de base secundaria. Permiten la estimación de la odds ratio de enfermedad como se explicará posteriormente.

Los estudios de casos y controles de base primaria, basados en una población base bien definida, permiten la identificación de los casos y de los controles a partir de una cohorte establecida en esta población base. Esta cohorte puede ser una muestra representativa de la población general, o de cualquier otro grupo bien definido. Cuando los casos de un estudio de casos y controles se identifican en una cohorte bien definida, pueden llevarse a cabo dos tipos de estudios: estudios de casocohorte (case-cohort studies) y estudios de casos y controles anidados (nested case-control studies). Estos diseños, en los que los casos y los controles surgen de la misma cohorte, tienen la ventaja con respecto a los casos y controles basados en los casos de disminuir la posibilidad de cometer sesgos de selección.

En los estudios caso-cohorte, los casos son todos aquellos que surgen a lo largo del período de seguimiento y los controles son una muestra aleatoria de la cohorte inicial. En este diseño, conocido como muestreo de incidencia acumulada en estudios de casos y controles, es posible que algunos de los controles seleccionados al inicio desarrollen posteriormente la enfermedad, por lo que pertenecerán tanto al grupo de los casos como al de los controles. Existen técnicas analíticas que toman en consideración este hecho en el contexto de los análisis de supervivencia. Estos estudios permiten la estimación del riesgo relativo.

En los estudios de casos y controles anidados, los casos son también todos aquellos que surgen a lo largo del período de seguimiento, pero los controles no son una muestra aleatoria de la cohorte inicial, sino una muestra aleatoria de los miembros que van quedando de esa cohorte en cada momento en que aparece un caso. Esta estrategia se conoce como muestreo por densidad de incidencia en estudios de casos y controles. Permiten la estimación de la razón de tasas.

Una vez descritas las características más sobresalientes del diseño, consideraremos a continuación la selección de los casos y de los controles, que es un aspecto crucial en este tipo de estudios.

Identificación de los casos

En la identificación de los casos debe prestarse atención a los criterios diagnósticos que definen la enfermedad, a la fuente de donde se extraen los casos, a la validez de la selección y a la condición de los casos.

Criterios diagnósticos

La sensibilidad y especificidad de los criterios diagnósticos utilizados conllevará la inclusión de un determinado tipo de casos. Si la especificidad es baja, se incluirán falsos positivos en el estudio, lo que diluirá la asociación. Del mismo modo, en la definición de la enfermedad puede optarse por incluir formas leves y/o graves del proceso. La inclusión de formas leves puede conducir a la incorporación de individuos sanos dado que el diagnóstico en estadios precoces del proceso suele ser más impreciso (alta sensibilidad, baja especificidad). Lo contrario puede ocurrir cuando sólo se incorporan formas graves del proceso en estudio. Esta estrategia impide que los casos que no hayan evolucionado a formas graves puedan ser estudiados (baja sensibilidad, alta especificidad), y que una proporción de individuos enfermos, más leves, puedan ser elegibles como controles. Ambas situaciones producirán un sesgo en la estimación del efecto.

En la selección de casos debe conseguirse un grupo lo más homogéneo posible desde el punto de vista diagnóstico utilizando criterios claros y reproducibles. Para ello, suele ser útil utilizar criterios estándar definidos por sociedades profesionales u organismos internacionales, y especificar de manera exhaustiva los criterios de inclusión y exclusión. De esta forma es posible minimizar la inclusión de procesos etiológicamente diferentes bajo un mismo epígrafe.

Evidentemente, si la enfermedad estudiada es nueva, resulta difícil establecer criterios definidos, tal como ocurrió en los primeros estudios sobre sida.

Selección de los casos

La serie de casos para un estudio de casos y controles generalmente proviene de una de estas dos fuentes:

  1. de todos los casos que surjan en una población claramente definida, como un país o una región, durante un período determinado de tiempo (base primaria del estudio), y
  2. de todos los casos que se diagnostiquen en un determinado centro (hospital, etc) durante un período determinado de tiempo (base secundaria del estudio).

La primera estrategia de selección de casos ofrece teóricamente un mayor atractivo por su representatividad poblacional y la posibilidad de calcular tasas de incidencia en la población total y en subgrupos definidos por su exposición. Sin embargo, en la práctica conlleva mayores dificultades, ya que requiere disponer de una serie de mecanismos que garanticen una cobertura adecuada de toda la población base (ej. un registro de tumores de base poblacional), disponer a su vez de medios eficientes y rápidos para identificar y entrevistar a los casos, evitando sesgos por la exclusión de aquellos que puedan fallecer antes de ser entrevistados, así como asegurar la colaboración de un elevado número de casos y controles.

La segunda estrategia de selección de casos se utiliza con más frecuencia debido a su mayor facilidad logística y a su menor coste. El problema en la selección de casos a partir de una base secundaria radica precisamente en la caracterización de la base que dio origen a los casos y en la obtención de una muestra aleatoria de lo que, en esencia, es una estructura imaginaria.

Validez de la selección

No es necesario incluir todos los casos que se produzcan dentro de una población bien definida, ya que es posible seleccionar una muestra de estos casos.

Tampoco es necesario que los casos incluidos sean representativos de todos los casos. En ocasiones puede realizarse un estudio con mayor validez interna restringiendo los casos a un determinado grupo que presente una característica de interés, aunque no sea representativo del total de casos. Por ejemplo, podemos restringir los casos a un determinado grupo de edad o a un determinado nivel socioeconómico.

Condición de los casos: casos incidentes o prevalentes

Un aspecto importante en la selección de los casos es su condición. Pueden incluirse sólo casos incidentes (casos recién diagnosticados) o casos prevalentes (casos ya existentes al comenzar el estudio). De manera general se recomienda que en los estudios de casos y controles se incluyan exclusivamente casos incidentes y preferiblemente vivos en el momento de la entrevista, para no tener que recurrir a obtener la información por medio de familiares del enfermo. Resulta obvio que los casos incidentes recuerdan mejor las exposiciones etiológicas ocurridas en el pasado, puesto que son más recientes.

La utilización de casos incidentes obliga a acotar la selección de participantes (casos y controles) en el tiempo. Si una exposición ambiental que sólo estuvo presente en un determinado momento en la colectividad es la responsable de la enfermedad, será más fácil identificarla a partir de los casos incidentes que cuando se incorporan al estudio casos procedentes de varias épocas.

La supervivencia de los casos prevalentes puede estar ligada a un determinado factor. Este factor estará más presente entre los casos que entre los controles, por lo que erróneamente podemos atribuirle un papel causal en la etiología de la enfermedad, cuando simplemente es responsable de la supervivencia.

La utilización de casos incidentes hace menos probable que la enfermedad pueda modificar la exposición objeto del estudio. En determinados estudios, como los relacionados con hábitos de vida, es frecuente que, una vez aparecida la enfermedad, el paciente modifique la exposición al factor de riesgo (ej. la dieta en diabéticos). Por ello, la utilización de casos prevalentes puede llevarnos erróneamente a valorar que los enfermos son los menos expuestos.

Por último, dado que es bastante probable que las pruebas y criterios diagnósticos cambien a lo largo del tiempo, la utilización conjunta de casos incidentes y prevalentes resta homogeneidad a la definición de caso.

Selección de los controles

Por las dificultades que entraña, la selección de los controles ha ocupado siempre un lugar central en el diseño de los estudios de casos y controles. El principio de la base del estudio implica que los controles deben ser una muestra representativa de la población subyacente o base del estudio de la que surgieron los casos, en el momento en que se determinaron los casos, ya sean personas o personas-tiempo. Por el contrario, la población base del estudio no necesita ser representativa de ninguna otra población. Por otra parte, cualquier criterio de exclusión que se aplique a los casos debe aplicarse también a los controles.

Los controles deberían ser seleccionados independientemente de la exposición. Es decir, los controles deberían ser representativos del nivel de exposición existente en la población base. Si un control tiene una mayor o menor probabilidad de ser seleccionado por estar expuesto, el estudio podrá estar sesgado en el sentido de no encontrar asociación cuando existe o de crearla cuando no existe.

Cuando la probabilidad de que los casos recuerden los antecedentes de su enfermedad de manera sesgada sea elevada, los controles deben elegirse de manera que la probabilidad de un recuerdo sesgado sea similar a la de los casos. Por ejemplo, en un estudio sobre espina bífida es probable que las madres recuerden exposiciones previas en mayor medida que las madres de hijos sanos, ya que la enfermedad de su hijo les hace reflexionar y recordar lo ocurrido en el pasado. En este caso, para equiparar el recuerdo, los controles podrían ser las madres de niños nacidos con otras anomalías congénitas.

Por último, recordar que como vimos anteriormente los controles pueden seleccionarse de diversas maneras dando lugar a los distintos tipos de diseño de casos y controles.

Fuentes para la selección de los controles

Controles procedentes de la población base primaria.

Esta fuente únicamente resulta adecuada cuando los casos seleccionados representan a todos o a la gran mayoría de los casos que aparecen en la población. Si los casos son una muestra representativa de todos los casos que aparecen en esta población bien definida, y los controles son una muestra obtenida de esta población general, se dice que el estudio de casos y controles es de base poblacional. Si existe un listado de la población base del estudio, resulta sencillo seleccionar a los controles por medio de un muestreo aleatorio. Si es posible, ésta debe ser la estrategia de elección.

La selección de los controles a partir de la población base plantea también algunos inconvenientes. La colaboración de los individuos seleccionados de la población general es siempre menor que la obtenida de controles que se encuentran hospitalizados. Por ejemplo, es común tener una participación superior al 90 o 95% para los controles hospitalarios; sin embargo, la participación de los controles poblacionales a los que suele entrevistarse en sus domicilios es generalmente mucho menor (60-70%), lo que puede generar un sesgo de selección importante por la diferente tasa de no respuesta. A su vez, la calidad de la información obtenida de los casos será superior a la de los controles, ya que en el primer caso la entrevista se realiza generalmente en el hospital y en el segundo, en el domicilio del control. Por último, seleccionar y entrevistar a una muestra de la población base es más laborioso y costoso que utilizar otras fuentes de controles.

Cuando no existe un listado de la población base del estudio, el muestreo aleatorio simple no es factible y deben buscarse otras alternativas.

Controles procedentes de la población base secundaria

En los estudios de casos y controles en los que los casos se seleccionan de un hospital, o de un registro que no tenga base poblacional, no puede identificarse con facilidad la población base, que viene definida por los casos, ya que representa al grupo de personas que serían tratadas en ese hospital si llegaran a sufrir la enfermedad.

En esas circunstancias, una muestra aleatoria de la población general no se correspondería necesariamente con una muestra aleatoria de la población base, ya que no tendría en cuenta la posibilidad de que determinados enfermos sean enviados a hospitales de referencia fuera del área sanitaria que les corresponde. Es decir, la población base no es el área sanitaria que le corresponde a ese hospital: incluye también otras áreas en las que, si surgiera un caso, sería enviado a ese hospital. Debido a la dificultad que entraña identificar la población base de la que podría extraerse una muestra de controles, resulta adecuado plantearse la posibilidad de seleccionar controles del mismo hospital que los casos. Seleccionar controles entre otro tipo de pacientes del mismo hospital aumenta la probabilidad de que los casos y los controles provengan de la misma población base, siempre y cuando los pacientes con otras enfermedades hayan estado sujetos a las mismas pautas y mecanismos que hicieron que los casos fueran referidos precisamente a ese hospital.

El mayor inconveniente de reclutar controles de una manera no aleatoria es la posibilidad de que su exposición (expuesto o no expuesto) influya en su selección. Así, los enfermos hospitalizados por otras enfermedades pueden no ser representativos de la distribución de la exposición en la población base, bien porque la exposición que estudiamos puede ser un factor de riesgo o un factor protector para la enfermedad que padece el control, bien porque los pacientes controles tienen mayor probabilidad de ser ingresados si están expuestos que si no lo están.

Una forma de limitar este problema consiste en restringir los controles a aquellas enfermedades que no guarden relación con la exposición de interés, es decir, seleccionarlos independientemente de su estado de exposición. Por ejemplo, si estamos interesados en analizar el papel del tabaco en relación con el cáncer de pulmón, y recurrimos al servicio de respiratorio para reclutar controles hospitalarios para un grupo de casos con cáncer de pulmón, es muy probable que incluyamos enfermos con otras enfermedades respiratorias crónicas que presenten una prevalencia de consumo de tabaco igual o superior que la de los propios casos. De esta forma se evitaría detectar un efecto nocivo del tabaco.

Una estrategia adecuada sería recurrir a pacientes cuyo motivo de ingreso hospitalario no guarde relación a priori con el consumo de tabaco (ej. enfermos crónicos de oftalmología, cirugía, traumatismo, etc). De esta forma, la prevalencia de consumo de tabaco en el grupo control deberá reflejar la que se da en la población base de referencia. Una implicación de esta estrategia es que no existe un grupo control válido para todas las situaciones. Dependiendo de la hipótesis del estudio o del factor de riesgo estudiado, será necesario seleccionar un grupo de control apropiado a cada situación, en todo caso, independientemente de su estado de exposición.

Por último, a veces puede estar indicado por conveniencia, accesibilidad o coste seleccionar controles basados en grupos especiales, como por ejemplo entre amigos, vecinos o familiares de los casos. En estas circunstancias hay que extremar la prudencia, ya que estos controles pueden compartir los mismos factores de riesgo que los casos. No obstante, si estuviéramos interesados en estudiar determinantes genéticos de enfermedad, un cónyuge o amigo puede suponer un grupo control adecuado para el estudio.

Número de controles por cada caso

Cuando el número de casos disponibles es limitado, un aumento del número de controles supone a su vez un aumento en la potencia del estudio para detectar asociaciones. En cualquier caso, cuando la potencia sea muy baja (ej. 0,1) o muy elevada (ej. 0,9), el aumento del número de controles no es adecuado. Asimismo, la potencia sólo se incrementa marginalmente a partir de 4 controles por cada caso.

Emparejamiento

En el contexto de un estudio de casos y controles, el emparejamiento (matching) describe un proceso de reclutamiento para seleccionar controles que sean idénticos a los casos con respecto a una o más posibles variables de confusión. El emparejamiento es una estrategia aplicable al diseño y análisis del estudio, y su utilidad no se deriva de su capacidad para prevenir el sesgo de confusión, sino que proviene de la mejora de la eficiencia estadística (mayor potencia estadística, mayor precisión de la estimación).

Existen diversas situaciones en las que el emparejamiento resulta aconsejable e incluso necesario. Si la obtención de información sobre la exposición y sobre las variables de confusión resulta cara, puede ser más eficiente optimizar la cantidad de información obtenida de cada individuo que tratar de aumentar el número de individuos.

El emparejamiento permite el control de factores de confusión no medidos o de otros factores aleatorios, como vecindario, etc. Tiende a aumentar la eficiencia por individuo estudiado, pero la ganancia sólo es notoria cuando la variable por la que se aparea es una variable de confusión importante. El emparejamiento puede resultar muy útil en estudios de reducido tamaño sobre enfermedades infrecuentes en los que existen diversas variables de confusión medidas en escala nominal, cada una de ellas con varias categorías, ya que el número de individuos potenciales disponibles para cada categoría será necesariamente muy pequeño.

Si en un estudio de casos y controles se empareja por una determinada variable, ya no puede estimarse el efecto de ésta sobre la enfermedad, puesto que el emparejamiento ha igualado la exposición a esa variable en ambos grupos. Por ello, el emparejamiento debe restringirse a aquellas variables que ya son factores de riesgo ampliamente aceptados.

Si se empareja simultáneamente por diversas variables, puede ocurrir que no se encuentren controles para algunos de los casos, por lo que tendrán que descartarse estos casos. Relacionado con este punto, debemos considerar lo costoso que puede resultar encontrar controles adecuados cuando el número de variables de confusión es amplio, ya que habrá que entrevistar a numerosos controles potenciales, muchos de los cuales finalmente deberán descartarse. Si la eficiencia de un estudio se juzga desde el punto de vista de la cantidad de información obtenida por individuo estudiado, podemos considerar el emparejamiento como un intento de mejorar la eficiencia del estudio. Pero si la eficiencia se juzga por la cantidad de información obtenida por unidad de coste, el emparejamiento puede disminuir la eficiencia del estudio, ya que el esfuerzo invertido en hallar controles apareados podría haberse dedicado a recoger información de un número mucho mayor de controles no apareados.

Existen dos tipos de emparejamiento:

  1. individual (emparejamiento caso a caso), en el que por cada caso seleccionado se elige un control con las mismas características para la variable de emparejamiento (si se usa emparejamiento por edad y sexo, se elegiría un control con la misma edad (±5 años) y sexo, y
  2. de frecuencia (emparejamiento por grupos o cuotas), en el que se elige una misma proporción de controles por categorías de la variable de emparejamiento (ej. si se empareja por frecuencia en tres grupos de edad, se debería seleccionar la misma proporción de casos y controles en cada categoría de edad).

El emparejamiento individual exige realizar un análisis emparejado individual bien en el análisis simple o bien en el multivariante, condicionando el análisis de regresión logística; el emparejamiento por frecuencias, si bien no necesita un análisis de emparejamiento individual, sí conviene controlar el efecto de las variables de emparejamiento en el análisis.

Análisis de los datos

Tras la recogida de la información, debe procederse al análisis de los datos, si bien previamente han de ser depurados de los posibles errores de codificación y transcripción.

El análisis se presenta según el diseño del estudio haya sido o no emparejado, y según el carácter dicotómico o politómico de la variable de exposición. En cada uno de estos apartados se calculan e interpretan las principales medidas de asociación e impacto.

El análisis de este tipo de estudios presenta peculiaridades derivadas de la imposibilidad de estimar de forma directa la incidencia acumulada y la tasa de incidencia, lo que los diferencia de los estudios de cohortes.

Presentaremos, en primer lugar, las medidas de asociación y, posteriormente, las medidas de impacto.

Casos y controles no emparejados (y emparejados por frecuencia). Análisis simple

Exposición dicotómica

En este tipo de diseño, los datos se representan mediante una tabla de contingencia similar a la tabla 12-1, en la que los casos y los controles se han subdividido según su exposición.

Por ejemplo, a representa el número de casos que están expuestos y d, el número de controles que no están expuestos.

El análisis de este tipo de estudios consiste en determinar si la proporción de expuestos en el grupo de casos (a/m1) difiere de la de los controles (c/m0).

Una forma de estimar si estas proporciones difieren es analizando la significación estadística de su diferencia.

Tabla 12-1. Presentación de los datos para un estudio de casos y controles no emparejados con exposición dicotómica.
 ExpuestosNo expuestosTotal
Casosabm1
Controlescdm0
Totaln1n0N
Significación estadística

Para analizar la significación estadística de la diferencia entre la proporción de expuestos en los casos y en los controles, se utiliza habitualmente la prueba χ² (chi cuadrado). En este contexto su cálculo se realiza de la siguiente manera:

$$χ² = \frac{\left (ab - bc \right )² \left (N - 1 \right )}{m_{1}n_{1}m_{0}n_{0}}$$

El valor obtenido se traslada a las tablas de distribución de χ² con un grado de libertad en este caso, en donde se determina el valor de p. El valor de p indica el grado de compatibilidad entre la hipótesis nula (la proporción de expuestos es similar en ambos grupos, por lo que la exposición no se asocia con la enfermedad) y los datos observados en el estudio. Es decir, representa la probabilidad de que el valor obtenido en la prueba estadística, o incluso un valor todavía más extremo, se hubiera producido por azar si la hipótesis nula fuera cierta. Valores de p pequeños (ej. p = 0,032) indican que la hipótesis nula no es una explicación aceptable de los datos observados.

Las pruebas de contraste de hipótesis sólo nos indican si las asociaciones encontradas entre una exposición y una enfermedad son estadísticamente significativas, pero no informan en absoluto sobre la magnitud del efecto de esa exposición, ni sobre la variabilidad aleatoria de la estimación puntual. Desde el punto de vista epidemiológico, resulta más interesante conocer en qué medida difieren las proporciones de expuestos entre los casos y los controles (lo que se realiza por medio de medidas relativas) que simplemente saber que difieren. Es decir, conocer la magnitud de la asociación resulta de mayor interés que su significación estadística.

Magnitud de la asociación

Las medidas relativas nos permiten establecer la magnitud de la asociación entre la exposición y la enfermedad. En el capítulo sobre estudios de cohortes se presentó el riesgo relativo (RR) como la medida adecuada para aquel tipo de diseño. En los diseños de casos y controles no puede estimarse directamente el riesgo relativo, ya que desconocemos los denominadores. Por ejemplo, en la tabla 12-1, al contrario de lo que sucede en estudios de cohortes, los a casos no han surgido de una población inicialmente expuesta (n1), sino que n1 se forma por la suma de casos y controles expuestos. Se comprende fácilmente que si el investigador decide seleccionar dos controles por cada caso en lugar de un único control, si se mantiene constante la proporción de controles expuestos, la razón a/n1 se modificaría consecuentemente sin guardar relación con una modificación en el riesgo de enfermedad.

En los estudios de casos y controles se utiliza la odds ratio (OR) como medida fundamental de asociación. Cuando la variable de exposición es dicotómica (expuestos-no expuestos), la odds de exposición en los casos (a/m1 / b/m1 = a/b) dividida por la odds de exposición en los controles (c/m0 / d/m0 = c/d) constituye la OR de exposición.

$$OR = \frac{\frac{a}{b}}{\frac{c}{d}} = \frac{ad}{bc}$$

Esta medida carece de unidades, y sus valores oscilan entre 0 e infinito. El significado es similar al del riesgo relativo. Cuando la odds ratio es igual a 1, la exposición estudiada no se asocia con la enfermedad; si su valor es superior a la unidad, el factor que se estudia puede ser considerado como de riesgo; y si es inferior a uno, el factor es valorado como protector (es lo que sucede cuando la exposición es un programa de vacunación).

En realidad, la odds ratio de exposición calculada a partir de un estudio de casos y controles lo que nos indica es el mayor o menor riesgo de estar expuesto comparando los casos con los controles. Entonces, ¿por qué habitualmente se realiza una interpretación distinta, en el sentido de que la odds ratio valora el mayor o menor riesgo de contraer la enfermedad según se esté o no expuesto a un determinado factor de riesgo? Esto sucede porque la odds ratio de exposición calculada a partir de un estudio de casos y controles es idéntica a la odds ratio de enfermedad obtenida en un estudio de cohortes, y ambas medidas son muy similares al riesgo relativo cuando, como suele ser habitual, la enfermedad es poco frecuente. Esta interpretación clásica y todavía vigente de la fundamentación de las medidas obtenidas en un estudio de casos y controles ha sido paulatinamente sustituida por la concepción de este tipo de estudio como un esquema de muestreo eficiente de la experiencia de enfermedad presente en una cohorte subyacente.

La odds ratio es un estimador consistente y no sesgado de la razón de las tasas de incidencia entre expuestos y no expuestos cuando el estudio se realiza con casos incidentes y controles adecuados en una población dinámica, independientemente de la frecuencia de la enfermedad. También constituye una excelente aproximación a la razón de las incidencias acumuladas entre las personas expuestas y no expuestas cuando el estudio se basa en una cohorte cerrada y la incidencia acumulada en cualquiera de los grupos comparados no excede del 10%.

Precisión de la asociación

La odds ratio así calculada constituye simplemente una estimación puntual de la asociación de un determinado factor con una enfermedad, por lo que resulta necesario calcular una medida de la variabilidad de esta estimación, es decir, construir un intervalo de confianza (IC) a la odds ratio. El intervalo de confianza es un indicador de la precisión de una estimación; cuanto más amplio sea el intervalo de confianza, menor será la precisión de la estimación.

Los intervalos de confianza para la odds ratio pueden calcularse de diversas maneras. Uno de los métodos utilizados, y quizá el más sencillo, es el que se conoce como «intervalo de confianza basado en la prueba» (basado en el resultado obtenido en la prueba de significación estadística):

$$IC 95\% = OR^{\left (1 \pm z_{1} - α/2/χ \right )}$$

donde IC 95% es el intervalo de confianza a este nivel, z1 – α/2, el valor de la distribución normal para el nivel de confianza deseado (el valor más empleado es de 1,96 para intervalos de confianza del 95%) y χ es la raíz cuadrada de χ². Este método de cálculo de intervalos de confianza no es el más adecuado cuando el tamaño de los grupos que hay que comparar es pequeño.

Otra forma de calcularlo es a partir de la fórmula del error estándar (e.e.) del logaritmo de la odds ratio:

$$ee = \left [ln \left (OR \right ) \right ] = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}$$

Para estimar el IC al 95%, se tomaría de nuevo un valor z1 – α/2 de 1,96, que es el que nos da la distribución normal para el nivel de confianza del 95%. Dado que la odds ratio es una medida asimétrica, la estimación se hace en escala logarítmica para poder aplicar la fórmula del teorema central del límite:

$$IC 95\% = ln \left (OR \right ) \pm 1,96 \times e.e. \left [ln \left (OR \right ) \right ]$$

y para recuperar la escala natural de los intervalos de confianza, se tomaría la exponencial:

$$IC 95\% = e^{ln \left (OR \right ) \pm 1,96 \times e.e. \left [ln \left (OR \right ) \right ]}$$

La interpretación habitual, cuestionada por algunos autores, es la de que un intervalo de confianza (ej. al 95%), calculado a partir de un determinado estudio, tiene una probabilidad del 95% de contener el verdadero valor de la asociación (el valor obtenido si se hubiera estudiado a toda la población).

El intervalo de confianza guarda relación con las pruebas de significación estadística. Si el intervalo de confianza al 95% no incluye el valor nulo (OR = 1), esto indica que puede rechazarse la hipótesis nula de no asociación para un valor de α = 0,05.

Lo anterior no implica que puedan sustituirse las pruebas de significación estadística por los intervalos de confianza ya que, aunque cierto, limitarse a esta interpretación empobrecería la información suministrada por el intervalo de confianza que ofrece simultáneamente una idea de la magnitud de la asociación y de la variabilidad que conlleva.

Para clarificar los conceptos expuestos anteriormente, se presentan los resultados obtenidos en un hipotético estudio de casos y controles realizado para valorar la posible asociación entre cáncer de pulmón y exposición a sílice. Se seleccionan 400 casos a partir del registro provincial de tumores y otros tantos controles de manera aleatoria entre la población residente en la provincia (tabla 12-2).

Tabla 12-2. Ejemplo hipotético de estudio de casos y controles.
 ExpuestosNo expuestosTotal
Casos250150400
Controles200200400
Total450350800

La significación estadística de la asociación se obtiene como sigue:

$$χ² = \frac{\left [\left (250 \times 200 \right ) - \left (150 \times 200 \right ) \right ]^{2} \times 799}{400 \times 450 \times 400 \times 350} = 12,68$$ $$p = 0,0003

La prueba de significación estadística indica que la proporción de expuestos a sílice es significativamente mayor entre los casos que entre los controles, por lo que los datos no son compatibles con la hipótesis nula que establece que no hay diferencias. Pero la prueba de significación estadística no indica en qué medida es mayor. Para ello, se recurre al cálculo de la magnitud de la asociación por medio de la odds ratio:

$$OR = \frac{250 \times 200}{150 \times 200} = 1,67$$

La medida se interpreta como que los expuestos a sílice tienen un 67% más de riesgo de presentar cáncer de pulmón que los no expuestos. Ésta es una estimación puntual, por lo que procedemos a determinar la precisión de la estimación calculando su intervalo de confianza (ej. al 95%). El valor de z1– α/2 cuando el intervalo confianza es del 95% es de 1,96 y χ es la raíz cuadrada de χ². Por ello:

$$IC 95\% = 1,67^{\left (1 \pm 1,96/3,56 \right )} = 1,27 a\ 2,21$$

Nuestros datos son compatibles con un incremento del riesgo de tan sólo un 27% hasta más de dos veces.

Calculado mediante la fórmula del error estándar, obtenemos:

$$e^{ln1,67 \pm 1,96 \times \sqrt{1/150 + 1/200 + 1/200}} = 1,26 a\ 2,21$$

Exposición politómica

En numerosas ocasiones, la variable de exposición no es dicotómica sino politómica (más de dos categorías). En este caso, cada una de las categorías de la exposición puede compararse con el nivel considerado como referencia. Por ejemplo, en vez de analizar de manera dicotómica el consumo de café (bebe café o no bebe), puede analizarse en función de la intensidad del hábito (no bebe, bebe menos de 3 tazas/día, de 3-5 tazas/día y más de 5 tazas/día). En este último ejemplo, cada uno de los niveles de consumo de café se comparará con el de los no bebedores. Para cada nivel de consumo (niveles 1, 2 y 3) puede calcularse una odds ratio, utilizando como referencia a los no bebedores (nivel 0).

Así, por ejemplo, la odds ratio para los bebedores de 3 a 5 tazas diarias de café (nivel 2) con respecto a los no bebedores se calcula como:

$$OR = \frac{a_{2}d}{bc_{2}}$$

Cuando la exposición tiene más de un nivel y es ordinal, como en el ejemplo del café del párrafo anterior, puede interesarnos calcular si existe o no una tendencia, para ver si se cumple el gradiente de dosis-respuesta (aumento de la odds ratio a medida que aumenta el consumo de café), ya que ello aumentaría la probabilidad de que la asociación encontrada fuera causal. Para valorar si esta tendencia es estadísticamente significativa existen numerosas pruebas, pero una de las que ha recibido mayor atención es la χ² de Mantel-Haenszel (χ²MH), que intenta comprobar la hipótesis nula de ausencia de tendencia lineal en el crecimiento del riesgo. Esta prueba no se aplica para establecer si en un determinado estrato hay diferencias significativas con respecto a otro, o con respecto al estrato de referencia, sino para establecer si la tendencia es uniforme (creciente o decreciente).

El cálculo se realiza por medio de la expresión:

$$χ² = \frac{\left [\sum \left (s_{i}a_{i} - \frac{n_{i}s_{i}m_{i}}{N} \right ) \right ]²}{\left (\frac{m_{1} \times m_{0} \times \left [ \left (N \times \sum n_{i}s_{i}^{2} \right ) - \left (\sum n_{i}s_{i} \right )^{2} \right ]}{N^{2} \left (N - 1 \right )} \right )}$$

donde las puntuaciones si tienen un carácter arbitrario y adquieren el valor que les asigna el investigador. Por ejemplo, puede asignarse valor 1 a los no expuestos, valor 2 a los bebedores de menos de 3 tazas de café, y así sucesivamente. Este estadístico tiene una distribución χ² con 1 grado de libertad.

Esta prueba para valorar la existencia de una tendencia es más potente que la χ² calculada en una tabla de contingencia. De hecho, es posible que la χ² para valorar la tendencia lineal sea estadísticamente significativa, lo que indicaría una genuina asociación entre exposición y enfermedad, incluso cuando los intervalos de confianza de las odds ratios de cada categoría de exposición incluyan el valor 1. Si χ² es estadísticamente significativa, se rechaza la hipótesis nula de que no hay tendencia lineal, lo que va a favor de que a mayor dosis de exposición, mayor nivel de enfermedad, reforzando la hipótesis causal.

Como en cualquier otra prueba estadística, el valor de p depende en gran medida del tamaño muestral. Si el tamaño muestral es grande, una asociación en forma de «J», o una asociación en la que el efecto se produzca a partir de un determinado umbral, podría dar un resultado estadísticamente significativo en la prueba de tendencia, aunque, como es obvio en estos dos casos, la asociación no sea lineal. Por ello, esta prueba sólo debe aplicarse tras examinar las odds ratios de los distintos niveles de exposición y verificar que verdaderamente existe una tendencia.

Medidas de impacto calculadas a partir de un estudio de casos y controles no emparejado

Las medidas relativas (odds ratio en estudios de casos y controles) resultan útiles para valorar la magnitud de una asociación, es decir, para investigar la posible asociación entre una exposición y una enfermedad. Sin embargo, no ofrecen una estimación del impacto que sobre la salud de la población tendría la eliminación de un determinado factor de riesgo. Por ejemplo, una odds ratio igual a 3, obtenida en un estudio de casos y controles realizado para valorar la asociación entre alcohol y cáncer de laringe, indica que las personas bebedoras tienen tres veces más riesgo de contraer la enfermedad que las no bebedoras, pero no informa en absoluto sobre el número de muertes de esta enfermedad que serían evitables si la población dejara de consumir alcohol.

Para sintetizar este tipo de información, es necesario recurrir a medidas absolutas (riesgo atribuible), que se engloban tradicionalmente bajo el epígrafe de «Medidas de impacto».

El riesgo atribuible en los expuestos (RAe) (también llamado exceso de riesgo) es la diferencia entre la incidencia de la enfermedad en los expuestos (I1) y los no expuestos (I0) al factor de riesgo (I1 – I0). La medida representa el exceso de riesgo de enfermar en los expuestos atribuible a la exposición, por lo que se asume de antemano una relación causal entre exposición y enfermedad. Sabiendo que la incidencia en los expuestos se relaciona con la de los no expuestos por medio del riesgo relativo: I1 = I0RR (ya que RR = I1 / I0), podemos expresar el riesgo atribuible en los expuestos como RAe = I1 – I0 = I0RR – I0 = I0 (RR – 1). En un estudio de casos y controles I1 = I0OR.

Al no poder estimar directamente la incidencia en los estudios de casos y controles, no es posible calcular el RAe.

Sin embargo, si se dispone de información ajena al estudio acerca de la incidencia de la enfermedad en la población general, es posible estimarlo de manera indirecta. La incidencia global de una enfermedad en una población (It) es la media ponderada de las tasas de incidencia en las diversas categorías de exposición (en este caso sólo en expuestos y no expuestos), ponderada de acuerdo con la proporción de personas existentes en cada categoría de exposición. Por ello:

$$It = \left [ \left (I_{1} \times Pe \right ) + \left (I_{0} \times \left [1 - Pe \right ] \right ) \right ]$$

donde Pe es la proporción de personas expuestas en la población.

En el contexto de un estudio de casos y controles, la expresión del riesgo atribuible en los expuestos sería RAe = I0 (OR – 1). Por lo tanto, necesitamos estimar I0 para poder calcularlo:

$$It = \left [ \left (I_{0} OR \times Pe \right ) + \left (I_{0} \times \left [1 - Pe \right ] \right ) \right ]$$

En términos de I0:

$$I_{0} = \frac{It}{OR \times Pe + \left (1 - Pe \right )}$$

Obteniendo I0 en la ecuación anterior obtendremos el resultado del RAe.

Una medida relacionada con la anterior es el porcentaje de riesgo atribuible en los expuestos (RAe %) (también denominada riesgo atribuible proporcional en los expuestos, proporción de riesgo atribuible en los expuestos, fracción etiológica o fracción atribuible en los expuestos). Es un parámetro, como el anterior, que sólo hace referencia al grupo de expuestos y no a la totalidad de la población que forma parte del estudio. Esta medida es, simplemente, el riesgo atribuible en los expuestos expresado como porcentaje del riesgo en los expuestos. Si denotamos la incidencia en los expuestos como I1 y la incidencia en los no expuestos como I0 , el porcentaje de riesgo atribuible en los expuestos puede formularse del siguiente modo:

$$RAe \% = \frac{I_{1} - I_{0}}{I_{1}} \times 100$$

Recordando que el riesgo relativo equivale a I1/I0, lógicamente I0/I1 es el inverso del riesgo relativo. Por ello, la anterior expresión puede reformularse como:

$$RAe \% = 1 - \frac{1}{RR} \times 100$$

$$= \frac{RR - 1}{RR} \times 100$$

El porcentaje de riesgo atribuible en los expuestos puede calcularse en los estudios de casos y controles cuando la odds ratio es una estimación razonable del riesgo relativo por medio de:

$$RAe \% = \frac{OR - 1}{OR} \times 100$$

Del mismo modo que ocurre con otras medidas, es posible calcular el intervalo de confianza del porcentaje de riesgo atribuible en los expuestos. Para ello, en la ecuación anterior se sustituye la estimación puntual de la odds ratio por el valor de los límites superior e inferior de su intervalo de confianza.

El porcentaje de riesgo atribuible en los expuestos refleja el grado de causalidad atribuible a la exposición en la producción de la enfermedad en el grupo de expuestos. Es decir, equivale a la proporción de casos que son producidos por la exposición en el grupo de los expuestos (ya que los casos pueden aparecer también por exposición a factores distintos al estudiado). El porcentaje de riesgo atribuible en los expuestos también puede definirse en términos de beneficio, como la proporción de riesgo que se eliminaría en el grupo de los expuestos si se les suprimiera la exposición.

Por ser el porcentaje de riesgo atribuible en los expuestos una proporción, sus valores oscilan entre 0 y 1 (o 100 si se expresa en porcentajes). Por ello, cuando la variable de exposición es protectora (ej. someterse a un programa de cribado, o a la vacunación), y por tanto la odds ratio obtenida es inferior a 1, no es posible proceder al cálculo del porcentaje de riesgo atribuible en los expuestos ya que daría una cantidad negativa. Sin embargo, en esta circunstancia puede calcularse una medida análoga que se conoce como fracción prevenida (FP) (o fracción preventiva) en los expuestos (FPe):

$$FPe = \frac{I_{0} - I_{1}}{I_{0}} \times 100$$

$$= 1 - RR \times 100$$

y en los estudios de casos y controles: 1 – OR × 100.

Su interpretación es similar al porcentaje de riesgo atribuible en los expuestos e implica la proporción de casos de la enfermedad evitados en los expuestos debido a la exposición.

El cálculo del intervalo de confianza de la FP se realiza del mismo modo que el del porcentaje de riesgo atribuible en los expuestos.

Hasta el momento se viene haciendo referencia al cálculo de medidas de impacto en relación con el grupo de personas expuestas. Otra de las estrategias preventivas se dirige a la población en su conjunto y no sólo al grupo de personas expuestas. Medidas similares existen para el conjunto de la población. El riesgo atribuible en la población (RAp) es la diferencia entre la incidencia de la enfermedad en la población general y en los no expuestos al factor de riesgo. La medida representa el exceso de riesgo de enfermar en la población general atribuible a la exposición:

$$RAp = It - I_{0}$$

siendo, como se recordará, It = [(I1 × Pe) + (I0 × [1 – Pe])] que representa la suma ponderada de la incidencia en los expuestos y no expuestos.

Su cálculo directo tampoco es posible en los estudios de casos y controles, a menos que, como ocurre para el cálculo del riesgo atribuible en los expuestos, se disponga de información ajena al estudio sobre la incidencia de la enfermedad en la población. El cálculo alternativo es posible por medio de:

$$RAp = Pe \times RAe$$

Finalmente, el porcentaje de riesgo atribuible en la población (RAp %) (o fracción atribuible en la población general) es otra de las medidas de impacto. Carece de unidades, y los límites, significado e interpretación de la medida son similares a los del porcentaje de riesgo atribuible en los expuestos, con la salvedad de que es un parámetro que se refiere a toda la colectividad y no solamente a los expuestos. Equivale a la proporción de casos que son producidos por la exposición en toda la comunidad, o como la proporción en que se reduciría el riesgo de enfermar en la población si se suprimiera la exposición. El porcentaje de riesgo atribuible en la población equivale a:

$$RAp \% = \left [\frac{\left (It - I_{0} \right )}{It} \right ] \times 100$$

Sustituyendo en esta ecuación It por su valor:

$$RAp \% = \frac{ \left [ \left (I_{1} \times Pe \right ) + \left ( I_{0} \times \left [1 - Pe \right ] \right ) \right ] - I_{0}}{ \left [ \left (I_{1} \times Pe \right ) + \left (I_{0} \times \left [1 - Pe \right ] \right ) \right ]}$$

$$= \frac{\left (I_{1} \times Pe \right ) - \left (I_{0} \times Pe \right )}{ \left (I_{1} \times Pe \right ) - \left (I_{0} \times Pe \right ) + I_{0}} \times 100$$

Dividiendo numerador y denominador por I0:

$$RAp \% = \frac{\left (\frac{I_{1}}{I_{0}} \right ) \times Pe - Pe}{\left (\frac{I_{1}}{I_{0}} \right ) \times Pe - \left (Pe + 1 \right )} \times 100$$

$$= \frac{Pe \times \left (\frac{I_{1}}{I_{0}} - 1 \right )}{Pe \times \left (\frac{I_{1}}{I_{0}} - 1 \right ) + 1} \times 100$$

$$= \frac{Pe \left (RR - 1 \right )}{Pe \left (RR - 1 \right ) + 1} \times 100$$

Esta última ecuación nos indica claramente que el porcentaje de riesgo atribuible en la población depende del riesgo relativo y de la prevalencia de la exposición en la población. Se puede estimar en un estudio de casos y controles si se conoce la proporción de expuestos en la población general. Si la enfermedad es infrecuente y el grupo control es representativo de todas las personas que no padecen la enfermedad, Pe puede estimarse a partir de la prevalencia de la exposición en los controles como (c / m0):

$$RAp \% = \frac{Pe \left (OR - 1 \right )}{Pe \left (OR - 1 \right ) + 1} \times 100$$

El porcentaje de riesgo atribuible en la población puede calcularse, asimismo, mediante la expresión: RAp % = Pc × RAe %, donde Pc es la proporción de casos que están expuestos, siempre que los casos sean representativos del total de casos existentes en la población.

Volviendo al ejemplo de la tabla 12-2 que presenta los resultados de un estudio de exposición a sílice y cáncer de pulmón, es posible calcular las medidas de impacto RAe% y RAp % a partir de estos datos:

$$RAe \% = \frac{1,67 - 1}{1,67} \times 100 = 40,1 \%$$

El resultado indica que la exposición a sílice es responsable del 40,1% de los cánceres de pulmón que aparecen entre las personas expuestas, y da por sentado que los expuestos y los no expuestos no difieren con respecto a la distribución de otros factores de riesgo; el 60% restante aparece por otras causas.

$$RAp \% = \frac{0,5 \left (1,67 - 1 \right )}{0,5 \left (1,67 - 1 \right ) + 1} \times 100 = 25,1 \%$$

Alternativamente RAp % = 0,625 × 40,1 = 25,1%.

En este caso, la cuarta parte del total de casos que aparecen en la población general son atribuibles a la exposición a sílice. Por ello, la eliminación de esta exposición reduciría el 25% el número de cánceres de pulmón.

Casos y controles emparejados

El análisis de los estudios de casos y controles emparejados depende del número de controles que se emparejen con cada caso. Para ilustrar este análisis, que es el pertinente cuando el emparejamiento es individual, recurriremos a la situación más sencilla en la que se empareja un único control con cada caso.

En este tipo de diseño, los datos se estructuran mediante una tabla de contingencia, en la que las celdas representan pares de individuos constituidos por un caso y un control. Por ejemplo, z11 representa el número de pares en los que tanto el caso como el control están expuestos, y z 00 representa el número de pares en los que ni el caso ni el control están expuestos.

Magnitud de la asociación, significación estadística y precisión

La odds ratio en un estudio de casos y controles emparejado se calcula por medio de la siguiente expresión:

$$OR = \frac{z_{10}}{z_{01}}$$

Se observa que la odds ratio equivale a la razón entre los pares discordantes (caso expuesto y control no expuesto; control expuesto y caso no expuesto). Existen alternativas que utilizan también los pares concordantes, lo que aumenta la precisión de la estimación pero introduce cierto sesgo. Una descripción pormenorizada de este método escapa al alcance de este capítulo.

La significación estadística de la medida de asociación se estima por la prueba de McNemar:

$$χ^{2}{McN} = \frac{\left (z{10} - z_{01} \right )^{2}}{\left (z_{10} + z_{01} \right )}$$

con un grado de libertad.

La varianza del parámetro se calcula por medio de la expresión:

$$V \left (ln OR \right ) = \frac{1}{z_{10}} + \frac{1}{z_{01}}$$

Conociendo la varianza, puede estimarse el intervalo de confianza al 95% del parámetro:

$$IC 95 \% = e^{lnOR \pm 1,96 \times \sqrt{V \left (ln OR \right )}}$$

Para ilustrar lo anterior, consideremos el siguiente ejemplo. En un estudio de casos y controles apareado 1:1, realizado para valorar la asociación entre factores sociodemográficos y de atención hospitalaria a pacientes ingresados, y posterior reingreso, se obtuvieron, entre otros, los siguientes resultados: con respecto al sexo de los pacientes, el número de parejas de hombres en los que el caso estaba expuesto, pero no el control, era de 34, y el número de parejas de hombres en los que el control estaba expuesto, pero no el caso, era de 16. Podemos calcular la magnitud, significación estadística y precisión de la asociación del siguiente modo:

$$OR = \frac{z_{10}}{z_{01}} = \frac{34}{16} = 2,13$$

$$χ^{2}{McN} = \frac{\left (z{10} - z_{01} \right )^{2}}{\left (z_{10} + z_{01} \right )} = \frac{\left (34 - 16 \right )^{2}}{\left (34 + 16} \right )} = 6,48$$

$$p < 0,01$$

$$V \left (ln OR \right ) = \frac{1}{z_{10}} + \frac{1}{z_{01}}$$

$$= \frac{1}{34} + \frac{1}{16} = 0,0919$$

$$IC 95 \% = e^{lnOR \pm 1,96 \times \sqrt{V \left (ln OR \right )}}$$

$$= e^{ln 2,13 \pm 1,96 \times \sqrt{0,0919}} = 1,18 - 3,85$$

Es decir, los hombres tenían 2,13 veces más riesgo de reingresar; esta asociación entre sexo y reingreso era estadísticamente significativa, y los datos eran compatibles con un efecto discreto (1,18) hasta un riesgo de reingreso casi cuatro veces superior en los hombres que en las mujeres.

Medidas de impacto calculadas a partir de un estudio de casos y controles emparejado

Del mismo modo que con los estudios no emparejados, es posible calcular medidas de impacto a partir de los estudios de casos y controles emparejados, si bien la interpretación se complica ya que al emparejar hacemos menos plausible la presunción de que los controles sean representativos de la distribución de la exposición en la población general.

El cálculo del porcentaje de riesgo atribuible en los expuestos y del porcentaje de riesgo atribuible en la población se obtiene de manera similar a la de un estudio de casos y controles no emparejado, con la salvedad de que en este diseño la proporción de casos expuestos se estima a partir de z1 + / T.

Asimismo, cuando la exposición estudiada sea un factor protector, se calculan las fracciones de prevención en expuestos y en población general del mismo modo que en los diseños no emparejados.

Análisis multivariante en los estudios de casos y controles

En la actualidad, la necesidad de estimar simultáneamente el efecto de varias variables a la vez y controlar el posible efecto de confusión o determinar la presencia de modificación de efecto, incluso estimando la odds ratio para varias categorías de una misma variable, aconseja utilizar algún tipo de análisis estadístico multivariante que supere las limitaciones del análisis simple presentado arriba. Si bien la regresión lineal múltiple permite controlar el efecto simultáneo de varias variables, su uso es apropiado cuando la variable dependiente o respuesta tiene carácter continuo. Cuando la variable respuesta o dependiente (ej. enfermedad) tiene un carácter binario o binomial (no enfermo-sí enfermo), se recomienda el uso de alguno de los tipos de regresión probabilística. En los estudios de casos y controles se suele utilizar la regresión logística múltiple que permite estimar directamente la magnitud de la asociación para una variable de exposición de cualquier tipo (continua o categórica) ajustando simultáneamente por el efecto de varias variables potencialmente de confusión. Una profundización en el uso de la regresión logística para los estudios de casos y controles escapa del alcance de este capítulo.

En la regresión logística para modelar el riesgo o probabilidad de enfermedad (p) en relación con un conjunto de variables independientes (exposición y otras variables de confusión) se utiliza la transformación basada en el logaritmo natural (ln) de la odds de enfermedad, lo que se conoce como unidad logística o logit (p), y se representa como:

$$logit \left (p \right ) = ln \left (\frac{p}{1 - p} \right )$$

$$= B_{0} + B_{1}x_{1} + B_{2}x_{2} + … + B_{i}x_{i}$$

Esta ecuación puede escribirse de otra forma algebraicamente equivalente para representar la probabilidad de enfermedad (p) como:

$$p = \frac{exp \left ( B_{0} + B_{1}x_{1} + … + B_{i}x_{i} \right )}{1 + exp \left ( B_{0} + B_{1}x_{1} + … + B_{i}x_{i} \right )}$$

$$= \frac{1}{1 + exp \left [ - \left ( B_{0} + B_{1}x_{1} + … + B_{i}x_{i} \right ) \right ]}$$

Un aspecto interesante del modelo logístico es que permite estimar directamente la odds ratio a partir de los coeficientes B del modelo. En concreto, la odds ratio para una variable de exposición (xi) se estimaría como la exp (Bi). En la actualidad, la mayoría de los programas estadísticos que incluyen la regresión logística facilitan estos cálculos de forma automatizada junto a sus respectivos intervalos de confianza del 95% y el valor de p (STATA, EPIINFO, SPSS, SAS, R, etc). El valor de p que se obtiene de dividir el valor del coeficiente B por su error estándar permite realizar una de las pruebas estadísticas que se utilizan para rechazar o no la hipótesis nula de no asociación (OR = 1 o exp [B] 0), a la que se suele denominar prueba de Wald. Existe otra prueba basada en el cociente de máxima verosimilitud (likelihood ratio statistic) que también se utiliza para determinar en qué medida una variable de exposición con una o más categorías predice de forma estadísticamente significativa el riesgo de enfermedad. Esta segunda prueba es más global y robusta que la prueba de Wald y permite derivar otras pruebas estadísticas, como las pruebas de dosis-respuesta o tendencia y la de modificación de efecto o interacción.

Por último, debemos mencionar que existen diferentes tipos de regresión logística como la no condicionada que se utiliza para los estudios de casos y controles no emparejado o emparejado por frecuencias (en este caso se deben incluir en el modelo las variables que se usaron para el emparejamiento), y la regresión logística condicionada que se aplica a los estudios de casos y controles en los que el emparejamiento es de tipo individual.

Sesgos en los estudios de casos y controles

Los estudios de casos y controles son más proclives a incurrir en sesgos que otros diseños, por lo que requieren especial atención. Dado que en otro capítulo de este libro se presentan los sesgos en profundidad, no haremos mayor hincapié aquí. Sin embargo, en la tabla 12-6 presentamos un listado de estrategias para minimizar los sesgos más frecuentes en los estudios de casos y controles.


Tabla 12-6. Estrategias para minimizar sesgos en los estudios de casos y controles

  1. Se debe intentar hacer una definición explícita de la población base de los casos
  2. Si la serie de casos se puede unir a una población fuente identificable, se puede entonces seleccionar un grupo control válido mediante muestreo aleatorio
  3. Si se usan controles hospitalarios (registros, etc.), las enfermedades de los controles deberían estar sujetas a los mismos mecanismos o procedimientos de detección que la enfermedad de interés, y no deben relacionarse con la exposición de interés
  4. En los estudios de base poblacional, se debe conseguir una indagación completa de todos los casos. Esto se puede facilitar por:
    • una definición apropiada de la enfermedad;
    • una detección de casos activa y uso de múltiples fuentes de datos, y
    • restringiendo la población base a aquéllos presumiblemente cubiertos por los procedimientos y sistemas habituales de evaluación
  5. Se pueden aplicar criterios de elegibilidad adicionales, a fin de mejorar la calidad de la información y prevenir el sesgo de participación
  6. Usar métodos aptos para obtener información, incluyendo cuestionarios
  7. La evaluación a ciegas es mejor para asegurar la comparación de información entre casos y controles. Si no es posible, se deben usar procedimientos estandarizados uniformes en todos los sujetos para la recogida de información
  8. A los sujetos y los entrevistadores no se les debe informar sobre las hipótesis del estudio. La verificación del diagnóstico debe hacerse ciegamente
  9. Es preciso obtener altas tasas de respuesta en casos y controles

Aspectos que hay que considerar en las publicaciones de los estudios de casos y controles

En los últimos años se viene desarrollando una iniciativa apoyada por investigadores y editores de revistas científicomédicas de prestigio que va encaminada a mejorar la calidad de la comunicación de los estudios científicos: la Declaración STROBE (Strengthening the Reporting of Observational studies in Epidemiology). Esta declaración se edita y actualiza en forma de guías y tablas accesible en el sitio web https://www.strobe-statement.org, o en https://journals.plos.org/plosmedicine/.

En STROBE se recogen los puntos clave del diseño que deberían indicarse cuando se publican estudios epidemiológicos, no sólo con la intención de mejorar su calidad, sino también para facilitar una mejor lectura crítica de este tipo de publicaciones.

Ventajas y limitaciones

Ventajas

Los estudios de casos y controles han contribuido de manera decisiva al desarrollo de la epidemiología a lo largo de las últimas décadas.

Estos diseños son útiles para abordar enfermedades infrecuentes, ya que los enfermos están disponibles y, por lo tanto, no se requiere esperar un largo período de tiempo desde el inicio del estudio para acumular el suficiente número de individuos que permita el adecuado análisis de los datos. Por ejemplo, un estudio analizó el riesgo de contraer la enfermedad de Creutzfeldt-Jakob (enfermedad neurodegenerativa muy poco frecuente) asociado al hecho de haber recibido transfusiones sanguíneas previas. Los casos se obtuvieron de entre los identificados, por notificación directa o por medio de los certificados de defunción, por el Programa Nacional de Vigilancia Epidemiológica de la enfermedad en el Reino Unido. Con otro diseño, reunir prospectivamente el número de casos necesario a partir de un momento determinado hubiera requerido un tiempo desmesuradamente largo.

Asimismo, el estudio de enfermedades con períodos de latencia prolongados no es fácil mediante estudios prospectivos, por lo que en esa circunstancia este tipo de diseño constituye una alternativa eficiente. Como la enfermedad de Creutzfeldt-Jakob presenta, presumiblemente, un largo período de latencia, su estudio también resulta adecuado por medio de este diseño.

Los estudios de casos y controles permiten valorar, en el contexto de una determinada enfermedad, diferentes factores etiológicos simultáneamente. Por ejemplo, otro estudio reciente estudiaba la asociación entre el síndrome de muerte súbita y diversos factores de riesgo, como el consumo de cafeína, alcohol y tabaco. Con otros diseños, la exposición se limita a un único factor de riesgo.

En numerosas ocasiones, el diseño abarca la práctica totalidad de los casos existentes, por lo que resulta factible valorar el espectro global de la enfermedad en cuanto a gravedad de los casos y ponerlo en relación con la exposición.

La ventaja principal de los estudios de casos y controles es la eficiencia. Los estudios de casos y controles suelen requerir menor tamaño muestral que los estudios de cohortes.

Es decir, para un mismo tamaño muestral, los estudios de casos y controles son más eficientes, siempre y cuando la enfermedad no afecte a más de un 50% de la población.

Un menor plazo de realización, unido a un menor tamaño muestral, supone un menor coste. En términos generales, los estudios de casos y controles son más baratos que otros diseños.

Limitaciones

Su mayor limitación, con respecto a cualquier otro tipo de diseño, reside en la dificultad de constituir un grupo adecuado de comparación. Esto es especialmente notorio en los estudios en los que se define la base de manera secundaria a los criterios de selección de los casos, como sucede en los estudios hospitalarios. La dificultad de seleccionar de manera correcta el grupo control, unido a una recogida retrospectiva de la información tras la enfermedad, supone una mayor posibilidad de sesgos, que a veces son difíciles de medir. Por ejemplo, en el estudio de la enfermedad de Creutzfeldt-Jakob se seleccionaron controles de los hospitales que habían declarado casos. Estos controles eran enfermos de otras patologías y muy probablemente tendrían una mayor probabilidad de haber recibido una transfusión sanguínea que el resto de la población, por lo que existe la posibilidad de que el estudio estuviera sesgado.

La información sobre la exposición se recoge de manera secundaria a la enfermedad, por lo que la validación de esta información es difícil y a veces imposible, sobre todo cuando se basa en la memoria de los individuos participantes o, peor aún, en la de sus familiares. Diversos estudios han comprobado que entre el 25 y el 40% de las personas que habían recibido una transfusión sanguínea no lo recordaban. Si los que informan son los familiares, como es el caso de este estudio, la posibilidad de olvido se incrementa notablemente, por lo que la información puede estar sesgada. A su vez, la presencia de la enfermedad puede influir en las respuestas de los participantes, en el sentido de recordar la exposición en mayor medida que los controles, aunque el grado de exposición fuera el mismo. Por lo tanto, este tipo de diseño es más susceptible a los sesgos que otros diseños.

Este tipo de estudios no es adecuado cuando los criterios diagnósticos de la enfermedad no están suficientemente establecidos. Este tipo de diseño comienza con la definición de caso, por lo que si existe indefinición, difícilmente se podrá continuar con el análisis de sus causas.

Los estudios de casos y controles no constituyen el diseño adecuado para valorar la asociación entre exposición y enfermedad cuando la exposición es poco frecuente.

Finalmente, estos estudios no permiten valorar los múltiples efectos de una misma exposición.

Anterior
Siguiente