Por qué los algoritmos médicos deben basarse en guías oficiales, no en IA

Hay una pregunta que cualquier desarrollador de software médico debería hacerse antes de escribir un solo algoritmo: ¿de dónde viene este criterio? Si la respuesta es "lo generó una IA" o "lo encontré en un artículo de internet", hay un problema serio.

En el ámbito de las apps sanitarias, los algoritmos no son solo código. Son protocolos clínicos traducidos a lógica computacional. Y esa traducción tiene que partir de algún sitio fiable.

Qué es la medicina basada en evidencia

La medicina basada en evidencia (MBE) es el uso consciente, explícito y juicioso de la mejor evidencia científica disponible para tomar decisiones sobre el cuidado de cada paciente. No es una moda: es la metodología que ha permitido que la medicina moderna sea predecible, reproducible y segura.

La mejor evidencia disponible se organiza en una jerarquía. En la cúspide están los metaanálisis y las revisiones sistemáticas; debajo, los ensayos clínicos aleatorizados controlados; y después, los estudios observacionales, las series de casos y la opinión de expertos. Las Guías de Práctica Clínica (GPC) sintetizan toda esa evidencia en recomendaciones accionables para los profesionales.

Qué son las Guías de Práctica Clínica

Una Guía de Práctica Clínica es un documento desarrollado sistemáticamente por equipos multidisciplinares de expertos para ayudar a profesionales sanitarios y pacientes en las decisiones clínicas sobre condiciones específicas. No son opiniones: son el resultado de revisar miles de estudios, evaluar su calidad y consensuar recomendaciones graduadas según el nivel de evidencia disponible.

En España, el Sistema Nacional de Salud publica y centraliza las GPC a través del portal GuíaSalud, coordinado por el Ministerio de Sanidad. Es la referencia oficial para cualquier protocolo clínico en nuestro país.

A nivel internacional, organismos como la Organización Mundial de la Salud (OMS), el NICE del Reino Unido, o las grandes sociedades científicas (Sociedad Española de Medicina de Urgencias y Emergencias — SEMES, Sociedad Española de Cardiología, etc.) publican sus propias guías con el mismo rigor metodológico.

En MedQuick Urgencias, cada criterio diagnóstico, cada escala de riesgo y cada protocolo de actuación está referenciado a su guía oficial de origen. Si la guía cambia, la app cambia. Así de simple.

El problema de usar IA generativa para crear algoritmos médicos

Los grandes modelos de lenguaje (LLM) como GPT o Gemini son herramientas extraordinariamente capaces de generar texto coherente y convincente. Pero tienen un problema estructural para el ámbito clínico: no garantizan la veracidad de lo que generan.

Un LLM puede generar un criterio diagnóstico de sepsis que suene perfectamente plausible pero que difiera sutilmente de los criterios Sepsis-3 publicados por la Society of Critical Care Medicine. Esa diferencia puede ser clínicamente irrelevante... o puede suponer no detectar una sepsis a tiempo.

Riesgo real: Varios estudios han documentado que los LLMs cometen errores en preguntas médicas de examen a un nivel inaceptable para uso clínico, especialmente en especialidades con alta variabilidad o criterios muy específicos. La confianza en su salida sin verificación es peligrosa.

Las alucinaciones en contexto médico

El fenómeno conocido como "alucinación" en IA generativa —cuando el modelo inventa información que no existe— es especialmente peligroso en medicina. Un fármaco inventado, una dosis incorrecta o un criterio diagnóstico modificado pueden parecer perfectamente reales en el texto generado, sin ninguna señal de advertencia.

La falta de trazabilidad

Cuando un algoritmo está basado en una guía oficial, la trazabilidad es total: sabes exactamente de dónde viene cada criterio, cuándo se publicó, quién lo firmó y qué nivel de evidencia tiene. Con un algoritmo generado por IA, esa trazabilidad desaparece. Y sin trazabilidad, no hay posibilidad de auditoría ni de actualización sistemática cuando cambia la evidencia.

Cómo se construye un algoritmo médico fiable

El proceso correcto es laborioso pero no tiene atajo. En términos generales:

Identificar la guía de referencia más actualizada y de mayor jerarquía para el problema clínico en cuestión
Extraer los criterios exactamente como aparecen en la guía, sin interpretación ni simplificación
Someter el algoritmo resultante a revisión por profesionales sanitarios del ámbito correspondiente
Documentar cada criterio con su referencia exacta (guía, año, número de recomendación)
Establecer un proceso de actualización cuando las guías de referencia se revisen

Este proceso es el que diferencia una app sanitaria responsable de una que simplemente parece útil.

El papel de herramientas como Open Evidence

Merece mención el caso de Open Evidence, una herramienta diseñada específicamente para profesionales sanitarios que combina IA con fuentes médicas verificadas. A diferencia de los LLMs generalistas, Open Evidence está entrenado y validado sobre literatura médica indexada, con un enfoque explícito en la trazabilidad de fuentes. Es un ejemplo de cómo la IA puede ayudar en medicina sin sustituir la evidencia: como herramienta de búsqueda y síntesis, no como generadora de criterios clínicos.

Conclusión

Los algoritmos médicos no son funcionalidades: son responsabilidades. Un algoritmo incorrecto en una app de uso clínico puede retrasar un diagnóstico, sugerir un tratamiento inadecuado o dar una falsa sensación de seguridad. Construirlos sobre guías oficiales y evidencia científica revisada no es un lujo técnico: es la única forma éticamente aceptable de hacerlo.