Sección evidencias
¿Cómo utilizamos los puntajes de riesgo?

Recepción: 06 Julio 2021
Aprobación: 21 Agosto 2021
Publicación: 27 Septiembre 2021
Román Conroy comienza el capítulo "From epidemiological risk to clinical practice by way of statistics" del libro Therapeutic Strategies in Cardiovascular Risk con una frase de Tavia Gordon: "The power and elegance of the logistic function make it an attractive and elegant statistical instrument, but in the end we cannot push a button and hope that everything will come out all right. Because frequently it will not".1
En la medicina actual los puntajes de riesgo tienen una amplia difusión. Los utilizamos diagnosticar y estratificar el riesgo en la internación y nos orientan a la hora de tomar conductas y de evaluar el riesgo al alta y en el largo plazo. Dado que su aplicación está muy extendida y que se usan con mucha frecuencia, es crucial que sean poco complejos, fáciles de usar y que su utilización no demande mucho tiempo. Ahora bien, una vez que encontramos un puntaje de riesgo que cumple con estos atributos fundamentales, surgen otras preguntas: ¿cumple con las leyes a las que están sujetos los puntajes?, ¿funciona?, ¿siempre y en cualquier situación? ¿Por qué este y no otro?
Los puntajes funcionan de igual manera que un método de diagnóstico común (como pueden ser la troponina para el síndrome coronario agudo o el NT proBNP para la insuficiencia cardíaca) y se les aplican las mismas leyes de sensibilidad y especificidad. A su vez, tienen algunas particularidades a la hora de ser generados y de evaluar su funcionamiento.
En forma simplificada, y sin entrar en vericuetos estadísticos complejos, los dos requisitos más relevantes que deben cumplir son: en primer lugar, que el punto final que prediga sea claro, estandarizado y fácilmente replicable. Una cosa es la muerte como punto final, y otra la disnea. Este último no parece ser el mejor punto final a la hora de generar un puntaje de riesgo, puesto que el diagnóstico se presta a subjetividad en muchos casos.
En segundo lugar, debe surgir de una muestra representativa de la población sobre la cual va a aplicarse.2 A este respecto podemos utilizar dos de ellos a modo de ejemplo. El puntaje de Framingham deriva de una cohorte de 5345 personas oriundas de esa comunidad que fueron seguidas hasta por doce años, y el punto final pautado estaba compuesto de muerte atribuida a enfermedad coronaria, infarto de miocardio, angina o "insuficiencia" coronaria.3 Mientras tanto, más acá en el tiempo, el grupo del Proyecto SCORE utilizó una cohorte de 200.000 individuos de once países europeos, seguidos hasta por trece años, y el punto final evaluado fue la muerte cardiovascular. En su generación se utilizaron también factores genéticos y medioambientales subrogantes de las diferentes regiones geográficas en la función.4 A simple vista, parecería que el segundo requisito fue diseñado a partir de una muestra más representativa de la población sobre la cual iba a ser aplicado y que, además, su punto final era bien concreto. Aun considerando estas diferencias trascendentes, en su editorial sobre la publicación del puntaje SCORE, Topol y col. critican el punto final utilizado en ambos puntajes. En el primer caso por ambiguo y sensible a sesgos y en el segundo por insuficiente.5 Esto demuestra lo difícil que puede ser encontrar los puntos finales adecuados.
Una vez generado, la forma correcta de evaluar el desempeño de los puntajes de riesgo es mediante la medición de tres características: la eficacia de discriminación, la calibración y la capacidad de reclasificación que se da ante el agregado de variables al modelo original.
La primera de las cualidades, la eficacia de discriminación, es la idoneidad de la función para separar a aquellos que poseen una alta probabilidad de presentar el punto final evaluado de aquellos que no la poseen. Esto puede evaluarse dentro de la misma población que utilizamos para generar la función, a partir de una parte de la muestra que se reserva antes de la confección del puntaje a los fines de su validación: a esto llamaremos validez interna. También existe una validez externa, que es la más importante y surge de aplicar la función a otras poblaciones y evaluar su capacidad discriminativa.
Para entender cuán tan trascendente es que la población sobre la cual aplicamos el puntaje sea similar a aquella a partir de la cual se generó, podemos usar de ejemplo la edad. A la hora de aplicar los puntajes de riesgo a pacientes en rangos etarios extremos –por ejemplo, mayores de 65 años–, debemos tener cuidado, porque si estas edades no están bien representadas en la muestra a partir de la cual se generó el puntaje, podría suceder que el rendimiento de la función no sea del todo bueno si lo aplicamos a una población que en su mayoría es de edad igual o mayor. A su vez, estos modelos plantean un coeficiente beta idéntico para todos los rangos etarios y puede ser que en la práctica esto no ocurra. Incluso puede suceder que otros factores afecten la función de diferente manera según la edad. Esto podría corregirse, por lo menos parcialmente, generando un factor de interacción entre la edad y los demás factores incluidos en la función.9
La calibración, en cambio, es una medida de cuán fidedigna es la predicción. Es decir, ¿cuántos de los que se predijo que iban a presentar el punto final realmente lo presentaron? Tanto el lugar como el momento en los que se aplica la fórmula afectarán la calibración. Por ejemplo, si la aplicamos en un lugar que presenta una mayor prevalencia del evento que el lugar en donde fue generado el puntaje, habrá una tendencia a la infraestimación. Ocurrirá lo contrario si lo aplicamos en un lugar donde la incidencia del punto final es menor: en este caso habrá una tendencia a la sobreestimación. La mejor calibración se obtiene al aplicar la fórmula en una población de características similares a aquella a partir de la cual fue generada.2, 6 Esto es así porque la probabilidad previa, al aplicar cualquier tipo de test o puntaje, es trascendente en el rendimiento que este tendrá. ¿Será necesario, entonces, hacer algo con la fórmula para que calibre mejor en mi población? La respuesta es que muchas veces sí. En efecto, así lo han hecho con el puntaje de riesgo de Framingham países como China7 y el Reino Unido.8
Por último, está la reclasificación, que es una medida del porcentaje de individuos que presentaron o no presentaron un evento y que fueron correctamente reclasificados a una nueva categoría luego de añadirse alguna variable de riesgo a la fórmula.2 Es un concepto más nuevo que los anteriores, pero se encuentra muy en boga actualmente.
A modo de ejemplo conceptual, es cuestión de tiempo para que la genética nos muestre sustratos de riesgo para la enfermedad cardiovascular, como lo ha hecho con otras patologías. Hoy en día no encontramos ningún puntaje de riesgo que considere de manera directa variables genéticas en su fórmula. Es posible pensar que en el futuro el genotipo tendrá tanta o más relevancia que el fenotipo, en el cual nos basamos hoy para estratificar el riesgo de nuestros pacientes. Cuando la ciencia halle estas variables y se las incorpore a los modelos existentes, la cuantificación de la capacidad de reclasificación será trascendente para medir el aporte de estas variables a los diversos puntajes.
En conclusión, los puntajes de riesgo, sea cual fuere, están sujetos a las mismas leyes que los demás estudios o métodos diagnósticos. Los debemos utilizar teniendo siempre en cuenta la probabilidad previa de la población sobre la que estamos aplicándolo, puesto que el rédito que le extraeremos a la estimación depende de esa población. Incluso cuando la población posea características similares, la distribución etaria dentro de ella debe ser tenida en cuenta, puesto que, al ser un predictor de los más importantes, si el rango etario está poco representado la función no va a rendir adecuadamente. La capacidad discriminativa, la calibración y el poder de reclasificación son las tres características que debemos evaluar en un puntaje de riesgo.
Los puntajes, si bien son una herramienta, nunca podrán reemplazar el criterio médico del profesional que lo está aplicando. La frase de Tavia Gordon con la que iniciamos el texto, quizá con algunos matices y complejidades mayores, continúa siendo cierta en nuestros días.
Luciano Oscar Lucas. Correo electrónico: luciano.lucas@hospitalitaliano.org.ar