Resumen: La apendicitis aguda (AA) es ampliamente reconocida como la emergencia quirúrgica más frecuente, aunque clásicamente su diagnóstico se considera eminentemente clínico y relativamente claro y sencillo; en la práctica son frecuentes los diagnósticos errados. En efecto, la frecuencia de las apendicectomías negativas sigue siendo alarmantemente elevada, oscilando entre 12-66%. Ante esta problemática, se han desarrollado numerosas herramientas clínicas para refinar el diagnóstico de la AA. No obstante, la implementación de estas herramientas constituye un tema controversial, en relación a aspectos como su validez y precisión diagnóstica. El Puntaje de Alvarado (PDA) fue la primera prueba diseñada para este fin y representó el prototipo para muchas pruebas originadas subsecuentemente, como el Puntaje de Alvarado Modificado, el Puntaje de Respuesta Inflamatoria en Apendicitis y el Puntaje Pediátrico de Apendicitis. A pesar de su aplicación ampliamente aceptada, el PDA y sus derivados presentan variaciones significativas en su precisión diagnóstica entre diferentes poblaciones, especialmente en Asia y el Medio Oriente. En respuesta a esta situación nace el Puntaje RIPASA; que si bien muestra ser útil en estas latitudes, ofrece resultados dispares en otras poblaciones. Muchos otros puntajes han sido propuestos intentando subsanar estas fallas, pero la evidencia actualmente disponible no es generalizable. En el futuro, es importante evaluar los factores condicionantes de las fallas de las pruebas disponibles con el fin de recalibrarlas o diseñar nuevas opciones optimizadas. Asimismo, deben priorizarse aspectos como la simplicidad y accesibilidad para la aplicación, especialmente para su implementación en atención primaria. En esta revisión se presenta una visión integrada de la evidencia actualmente disponible en lo concerniente a la utilidad práctica de las escalas diagnósticas para la AA.
Palabras clave:apendicitis agudaapendicitis aguda,apendicectomías negativasapendicectomías negativas,escalas diagnósticasescalas diagnósticas,precisión diagnósticaprecisión diagnóstica.
Abstract: Acute appendicitis (AA) is widely recognized as the most frequent surgical emergency, responsible for a high proportion of surgical procedures and emergency department visits, as well as the underlying cause of numerous cases of abdominal pain. Although the diagnosis of AA is classically considered to be eminently clinical and relatively clear and simple, misdiagnosis is frequent in practice. Indeed, the frequency of negative appendectomies remains alarmingly high, oscillating between 12-66%. In response to these problems, multiple clinical tools have been developed to refine the diagnosis of AA. Nevertheless, the implementation of these tools is controversial regarding aspects such as validity and diagnostic accuracy. The Alvarado Score (AS) was the first test designed for the diagnosis of AA, and represents the prototype for many subsequent tests, such as the Modified Alvarado Score, the Appendicitis Inflammatory Response Score, and the Pediatric Appendicitis Score. Despite their widespread acceptance, AS and its derivatives have shown significant variations in their diagnostic accuracy across different populations, especially in Asia and the Middle East. As a result, the RIPASA Score was developed, which has shown great utility in these demographics, yet also shows abundant fluctuations in other populations. Many other scores have been proposed in an effort to remedy these pitfalls. However, currently available evidence on these scales is inconclusive. At present, no “ideal test” has been identified for the diagnosis of AA, and none of the available alternatives appears to surpass expert specialized medical opinion. In the future, it is important to assess the factors underlying the aforementioned flaws in order to recalibrate existing tests or design novel optimized options. Likewise, aspects such as the ease of use and accessibility should be prioritized, especially for their application in primary care. This review presents an integrative vision of current views on the practical utility and accuracy of the diagnostic scales for AA.
Keywords: acute appendicitis, negative appendectomy, diagnostic scales, diagnostic accuracy.
Artículos
Escalas diagnósticas para apendicitis aguda: situación actual
Diagnostic scales for acute appendicitis: Current situation
La apendicitis aguda (AA) es ampliamente reconocida como la emergencia quirúrgica más frecuente, responsable de una alta proporción de visitas a departamentos de urgencias, causante de una gran cantidad de casos de dolor abdominal y de realización de intervenciones quirúrgicas1. En la actualidad, la incidencia anual de la AA a nivel mundial se ha calculado en aproximadamente 100 casos por cada 100.000 personas, de las cuales alrededor de 5% evoluciona a apendicitis aguda perforada (AAP)2.
Aunque clásicamente el diagnóstico de la AA se considera eminentemente clínico y relativamente claro y sencillo; en el ejercicio profesional son frecuentes los diagnósticos errados. Diversos estudios han reportado una discrepancia significativa entre los diagnósticos clínicos y patológicos3. En efecto, la frecuencia de las apendicectomías negativas (AN) sigue siendo alarmantemente elevada, oscilando entre 12-66%, lo cual es particularmente relevante en pacientes femeninas jóvenes4. Más allá de los riesgos implícitos de la intervención quirúrgica innecesaria, las AN suponen un costo adicional significativo sumado a la ya pesada carga económica que la AA representa para los sistemas de salud pública5.
Ante esta problemática, se han desarrollado numerosas herramientas clínicas para refinar el diagnóstico de la AA, priorizando los hallazgos objetivos, incluyendo alternativas bien conocidas como el Puntaje de Alvarado (PDA) y el Puntaje de Apendicitis Pediátrica (PAP), entre muchas otras escalas emergentes6. No obstante, la implementación de estas herramientas constituye un tema controversial en relación a aspectos como su validez y precisión diagnóstica. En esta revisión se presenta una visión integrada de la evidencia actualmente disponible en lo concerniente a la utilidad práctica de las escalas diagnósticas para la AA.
¿POR QUÉ SON NECESARIAS LAS ESCALAS DIAGNÓSTICAS PARA LA APENDICITIS AGUDA?
La introducción del PDA en 1986 constituyó un hito significativo en la historia del abordaje clínico de la AA, ya que representó una de las primeras medidas contundentes dirigidas a reducir la frecuencia de las AN. Aunque originalmente fue diseñada para orientar el diagnóstico de AA en pacientes embarazadas7, con el tiempo, esta prueba ha sido validada para población general8, y ha impulsado el desarrollo de múltiples escalas similares.
A pesar de estos esfuerzos, el problema del diagnóstico errado de la AA continúa vigente hasta la actualidad. En este sentido, la diferencia entre la incidencia clínica y patológica de la AA sigue siendo importante, disminuyendo sólo en los casos de AAP3. De manera preocupante, la frecuencia de las AN se ha incrementado en los últimos años de manera paralela al aumento en la incidencia de la AA9. Como consecuencia, los gastos asociados también se han multiplicado, correspondiendo a varios miles de dólares adicionales por cada caso de AN5.
Este panorama refleja una falla aparente de las medidas disponibles para la reducción de las AN. En este sentido, el impacto de técnicas de imagenología como ultrasonografía (US) y tomografía axial computarizada (TAC) parece ser limitado10; excepto en los casos con presentaciones clínicas atípicas11. Asimismo, el uso de marcadores bioquímicos y analíticos más allá del hemograma simple —como los niveles séricos de proteína C-Reactiva (PCR), IL-6 y procalcitonina, entre otros— no parecen ser costo-efectivos de manera consistente en este contexto12.
En contraste, el uso del PDA y otras herramientas clínicas se ha identificado como un factor preventivo para las AN, positivamente correlacionado con menor incidencia de las mismas13. Adicionalmente, su uso permite un manejo economizado más eficiente de los pacientes con AA14. Sin embargo, cada herramienta diagnóstica clínica para el diagnóstico de la AA exhibe características epidemiológicas particulares, las cuales se discuten a continuación.
PUNTAJE DE ALVARADO: PIONERO Y PROTOTIPO
La introducción del PDA constituyó una evolución importante en el manejo clínico de la apendicitis, que se mantiene hasta la actualidad. Además, fue un modelo prototipo para el surgimiento posterior de otras herramientas similares6. Uno de los principales motivadores de la gran aceptación del PDA es que engloba múltiples aspectos clínicamente significativos, manteniendo un equilibrio con la facilidad de acceso a la evaluación de los mismos15. El PDA incluye tres síntomas (patrón migratorio del dolor, anorexia y náuseas/vómitos), tres signos clínicos (dolor en el cuadrante inferior derecho, dolor al rebote, y temperatura oral ≥37,3°C) y dos hallazgos en el hemograma: presencia de leucocitosis o recuento diferencial de los leucocitos con desviación a la izquierda. Cada uno de estos componentes corresponde a la suma de una cantidad de puntos variables, cuyo total puede oscilar entre 0-10 puntos. El PDA modificado (PDAM) no incluye el último componente y el puntaje máximo es 9; siendo diseñado para su uso en centros que no disponen de los recursos para determinar la proporción leucocitaria diferencial16.
A pesar de su uso ampliamente diseminado, el PDA se ha vinculado con varias limitaciones diagnósticas en la práctica, al someterse a evaluación estadística con poblaciones a gran escala17. Uno de los principales problemas identificados es la correlación clínica del puntaje con distintos puntos de corte. En una revisión sistemática por Ohle y cols.8 que incluyó 42 estudios, se determinó que el PDA ofrece mayor sensibilidad y especificidad para la exclusión del diagnóstico de PDA al fijar la puntuación de 5 como punto de corte. No obstante, su precisión es desigual entre distintos grupos de pacientes; muestra la mejor calibración en los pacientes masculinos, pero tiende a sobreestimar la probabilidad de AA en mujeres y los resultados son inconsistentes en niños. Notoriamente, su especificidad disminuyó marcadamente al elevar el punto de corte a 7; la problemática de la utilidad variable entre distintas poblaciones se acentúa al considerar la ausencia de meta-análisis concluyentes, al igual que la gran heterogeneidad metodológica en la literatura actualmente disponible.
Debido a esta variabilidad, el poder diagnóstico del PDA debe someterse a evaluación rigurosa en cada grupo demográfico donde sea aplicado. A pesar de esta marcada variedad, los patrones de precisión diagnóstica de los componentes aislados del PDA tienden a reservarse similares entre distintas poblaciones6; teniendo mayor poder predictivo el dolor localizado en el cuadrante inferior derecho, la leucocitosis y el patrón migratorio del dolor.
De manera similar, la experiencia con el PDAM también es heterogénea. En un estudio en Tanzania, el PDAM mostró muy alta sensibilidad y especificidad en adultos, disminuyendo ligeramente en niños y ancianos24. Por otro lado, en un grupo de 136 pacientes, Shuaib y cols.25 determinaron una sensibilidad de 82,8% y especificidad de 56% al fijar el corte en 7 puntos. Shafi y cols.26 consiguieron resultados similares en una población india, con 98% de sensibilidad y 54% de especificidad para las puntuaciones entre 7-9.
Se ha observado que el poder diagnóstico del PDA incrementa significativamente al complementarse con otras herramientas, especialmente en mujeres27. En una cohorte turca, Aydin y cols.28 encontraron que el PDA ofrece mayor sensibilidad para el diagnóstico de AA que el uso aislado de US o la determinación aislada PCR y que la combinación de los tres elementos aumenta notoriamente la especificidad diagnóstica. La determinación de PCR parece elevar de forma notoria la sensibilidad del PDAM, especialmente en pacientes con puntuaciones de 5-626; mientras que la complementación con US parece incrementar la especificidad en particular29. El uso de TAC es particularmente controversial en este contexto, algunos reportes que han encontrado alta precisión diagnóstica para el PDAM promocionan la priorización de esta prueba antes que la realización de TAC30. En general, la TAC tiende a mostrar mayor sensibilidad y especificidad para el diagnóstico de AA en diversas poblaciones31,32, aunque asociada a mayores costos.
Otras pruebas derivadas del Puntaje de Alvarado
El Puntaje Pediátrico de Apendicitis (Pediatric Appendicitis Score; PPA) se ideó para subsanar las limitaciones del PDA y PDAM en la población infantil. El PPA se fundamenta en el PDA, pero sustituye el signo de rebote por la presencia de dolor en el cuadrante inferior derecho ante la tos, percusión o salto, y eleva el punto de corte para fiebre a temperatura oral ≥38°C33. Esta herramienta se enfrenta a problemas similares a los del PDA y PDAM, en niños el PPA tiende a mostrar sensibilidad alta-moderada y muy baja especificidad para el diagnóstico de AA34. Aunque se reconoce la utilidad del PPA para la exclusión de AA, especialmente debido a que permite evitar la exposición innecesaria a radiación que implica la TAC, esta última sigue mostrando la mayor precisión diagnóstica en la población pediátrica35; esto es especialmente notorio al evaluar pacientes con menos de 4 años de edad36.
Finalmente, el Puntaje de Respuesta Inflamatoria en Apendicitis (Appendicitis Inflammatory Response Score; PRIA) no incluye la evaluación del patrón migratorio del dolor, incorpora la evaluación de PCR sérica y estratifica el dolor al rebote en leve, moderado y fuerte17. Aunque son relativamente escasos los estudios poblaciones evaluando el PRIA, éste parece mostrar mayor precisión diagnóstica que el PDA de manera consistente37,38. El nivel de PCR y la proporción diferencial leucocitaria parecen ser los componentes con mayor poder predictivo para AA en esta herramienta39.
PUNTAJE RAJA ISTERI PENIGRAN ANAK SALEHA PARA APENDICITIS: UNA SEGUNDA OPINIÓN
El puntaje Raja Isteri Penigran Anak Saleha para Apendicitis (RIPASA) lleva el nombre del hospital donde fue diseñado y fue creado en respuesta a los resultados poco satisfactorios derivados de la implementación del PDA en poblaciones asiáticas y del Medio Oriente6. El RIPASA toma en cuenta 14 aspectos clínicos, incluyendo la edad y sexo del paciente, síntomas como dolor en el cuadrante inferior derecho y su identificación objetiva, el patrón migratorio, anorexia, náuseas, vómitos, junto con su duración; signos como dolor al rebote, posición antiálgica, el signo de Rovsing y fiebre6.
Gran parte de los estudios sobre el RIPASA han sido especialmente alentadores con reportes 98% de concordancia con los hallazgos patológicos40 y altos valores de sensibilidad y especificidad en poblaciones del Medio Oriente con 97,7% y 77,4%, respectivamente41. Además, la complementación del RIPASA con US permite alcanzar especificidad absoluta para el diagnóstico de AA42. Asimismo, múltiples estudios han determinado mayor sensibilidad y especificidad para el RIPASA que el PDA en varias poblaciones a nivel mundial43,44.
No obstante, no todos los estudios son uniformemente positivos; en un reporte mexicano el uso del RIPASA se asoció con una proporción elevada de AN con 18,6%45; mientras que en otro análisis, el RIPASA mostró una precisión diagnóstica similar al PDA46. La relación entre estas pruebas es compleja, en un estudio amplio por Golden y cols.47, se encontró alta sensibilidad y baja especificidad para el RIPASA y valores inversos para el PDA. Además, ambos fueron comparables al poder predictivo de la opinión médica experta. Estos resultados resaltan la importancia de continuar el proceso de calibración de las herramientas diagnósticas para AA; no sólo en relación a diferencias demográficas, sino también evaluar su papel en la práctica clínica como complemento de la observación médica y las técnicas de imagen.
OTRAS ALTERNATIVAS EMERGENTES
Se han propuesto otras escalas diagnósticas para AA más recientemente, para las cuales la evidencia clínica poblacional es aún incipiente. El Puntaje de Apendicitis para Adultos (Adult Appendicitis Score; PAA) de Sammalkorpi y cols.48, que incluye cuatro signos y síntomas y dos pruebas de laboratorio, el recuento leucocitario y los niveles séricos de PCR, permite estratificar los pacientes en grupos de alto, mediano y bajo riesgo. En su estudio piloto, el PAA mostró sensibilidad y especificidad comparable al PDA, pero con frecuencia elevada de AN. No obstante, en un estudio subsecuente del mismo grupo de investigación con una población más amplia de 908 pacientes, el PAA logró disminuir la proporción de AN a sólo 8,7%49. En relación a la complementación con técnicas de imagen, se ha observado que la probabilidad pre-test para TAC y US es sólo de 9-16% en pacientes clasificados como bajo riesgo por el PAA, sugiriendo que estas pruebas no serían necesarias en este grupo clínico50.
El Puntaje de Tzanakis (PT) incluye sólo los hallazgos de dolor en el cuadrante inferior derecho, dolor al rebote y leucocitosis; además de los hallazgos con US a los cuales asigna 6 puntos de una puntuación máxima posible de 1551. Varios estudios han conseguido mayor sensibilidad y especificidad para el PT que para el PDA52,53. Además, se ha asociado con una frecuencia de AN muy baja con sólo 6%54. Aunque esta característica se atribuye al gran peso del US en el PT, esto también constituye una de sus principales críticas. En este sentido, Sharma et al.55 consiguieron mayor precisión diagnostica para el PDAM que el PT, asociado a un grado severo de sesgo de los observadores en la evaluación por US. Kumar et al.56 reportaron resultados similares y resaltaron la necesidad de disponibilidad de US y laboratorio como limitante para la aplicación generalizada del PT.
El Puntaje de Lintula (PL) fue ideado para el diagnóstico de AA en la población infantil y se diferencia por su alta complejidad en comparación con los anteriores57. Además de las dificultades prácticas relacionadas con su aplicación debido a la cantidad de aspectos a evaluar, la precisión diagnóstica del PL parece ser particularmente susceptible a fluctuaciones según la población estudiada. En este sentido, existen reportes que le atribuyen alta precisión diagnóstica58, otros lo han conseguido inferior al PDA59, y otros con precisión similar a la del PAA60. Aunque el PL se ha validado para su uso en la población adulta61, la escasa evidencia de diferencias poblacionales atribuyen menor sensibilidad y especificidad en comparación con su uso en la población infantil59.
Los reportes disponibles evaluando otras herramientas como el Puntaje de Ohmann62, el Puntaje de Eskelinen63, así como el Puntaje de Ramathibodi (RAMA-AS)64, son particularmente escasos. Entre éstos, los dos primeros parecen ser más precisos que el PDA65, aunque en menor grado que el RIPASA66. Sin embargo, el RAMA-AS parece ser menos efectivo que todas las pruebas anteriores64. Son necesarias más investigaciones para esclarecer el rol de este grupo de puntajes en la práctica clínica en distintos grupos demográficos.
Actualmente, los hallazgos no permiten identificar una “prueba ideal” para el diagnóstico de AA. A pesar de que el PDA y el RIPASA parecen exhibir la mayor precisión diagnóstica en general6, siguen siendo alternativas imperfectas y muestran alta variabilidad en su utilidad en distintas poblaciones. En el futuro, es importante evaluar los factores condicionantes de esta variabilidad a fin de recalibrar las pruebas disponibles, o diseñar nuevas alternativas optimizadas.
Asimismo, deben priorizarse aspectos como la simplicidad y accesibilidad para la aplicación, especialmente para su implementación en atención primaria. En efecto, ninguna prueba parece superar la opinión diagnóstica de un experto, por lo cual el escenario clave para la aplicación de las mismas podría ser la atención primaria67. En este sentido, el uso de varias escalas y el mayor número de recursos diagnósticos posibles, como el US y la PCR, podría ser lo más recomendado en atención primaria para optimizar la precisión diagnóstica del personal de salud no especializado.
jesly_23_10@hotmail.com