Publicado en JAMA Internal Medicine, un grupo de investigadores científicos del Centro Médico Beth Israel Deaconess (BIDMC) compararon las capacidades de razonamiento de un modelo de lenguaje grande (LLM) directamente con el desempeño humano utilizando estándares desarrollados para evaluar a los médicos. Los resultados arrojaron pocas dudas: ChatGPT-4 superó a los residentes de medicina interna y a los médicos tratantes de dos centros médicos académicos en el procesamiento de datos médicos y la demostración de razonamiento clínico.
No solo eso. El programa de inteligencia artificial diseñado para comprender y generar texto similar al humano lo hizo sin fallo alguno, con una puntuación de 10 sobre 10. Como explicó Adam Rodman, médico de medicina interna e investigador en el departamento de medicina de BIDMC:
Quedó claro desde el principio que los LLM pueden hacer diagnósticos, pero cualquiera que practique la medicina sabe que la medicina es mucho más que eso. Hay varios pasos detrás de un diagnóstico, por lo que queríamos evaluar si los LLM son tan buenos como los médicos a la hora de realizar ese tipo de razonamiento clínico. Es un hallazgo sorprendente que estas cosas sean capaces de mostrar un razonamiento equivalente o mejor que las personas a lo largo de la evolución del caso clínico.
Al parecer, Rodman y sus colegas utilizaron una herramienta previamente validada desarrollada para evaluar el razonamiento clínico de los médicos llamada r-IDEA. Luego, reclutaron a 21 médicos tratantes y 18 residentes, cada uno de los cuales trabajó en uno de los 20 casos clínicos seleccionados compuestos por cuatro etapas secuenciales de razonamiento diagnóstico.
En la siguiente fase ordenaron a los médicos que escribieran y justificaran sus diagnósticos diferenciales en cada etapa. Chatbot GPT-4 recibió un mensaje con instrucciones idénticas y ejecutó los 20 casos clínicos. Luego, sus respuestas se calificaron según el razonamiento clínico (puntuación r-IDEA) junto a otras medidas de razonamiento.
Tal y como ha explicado la autora principal Stephanie Cabral, residente de tercer año de medicina interna en BIDMC:
La primera etapa son los datos de clasificación, cuando el paciente le dice lo que le molesta y obtienes los signos vitales. La segunda etapa es la revisión del sistema, cuando se obtiene información adicional del paciente. La tercera etapa es el examen físico y la cuarta son las pruebas de diagnóstico y las imágenes.
¿Qué encontraron tras las pruebas? Sorprendentemente, o quizás no tanto, descubrieron que el chatbot obtuvo las puntuaciones más altas de r-IDEA, con una puntuación media de 10 sobre 10 para el LLM, de 9 para los médicos tratantes y de 8 para los residentes.
Los investigadores cuentan que hubo un empate entre los humanos y la IA en lo que respecta a la precisión del diagnóstico (lo alto que estaba el diagnóstico correcto en la lista de diagnósticos que proporcionaron) y el razonamiento clínico correcto.
Sin embargo, no todo fue perfecto para la IA. En el estudio se encontró que el chatbot también estaba “simplemente equivocado”: tenía más casos de razonamiento incorrecto en sus respuestas, significativamente más a menudo que los residentes, encontraron los investigadores.
Dicho de otra forma, el hallazgo subraya la noción de que la IA probablemente será más útil, al menos en el corto plazo, como herramienta para aumentar, no reemplazar, el proceso de razonamiento humano.
Sea como fuere, estamos ante un momento fascinante para la medicina con la inclusión de la IA para mejorar el trabajo. Como recuerdan los propios autores, “se necesitan más estudios para determinar cómo se pueden integrar mejor los LLM en la práctica clínica, pero incluso ahora, podrían ser útiles como punto de control, ayudándonos a asegurarnos de que no nos perdemos nada“. Para Cabral:
Mi máxima esperanza es que la IA mejore la interacción médico-paciente al reducir algunas de las ineficiencias que tenemos actualmente y nos permita centrarnos más en la conversación que tenemos con nuestros pacientes.
Con este estudio se pone de manifiesto que la IA demuestra un razonamiento real, tal vez mejor que el de las personas a través de múltiples pasos del proceso. Un mejor entrenamiento en los próximos años acelerará su integración en el “equipo” médico, lo que, en teoría, ofrecerá una oportunidad única de mejorar la calidad y la experiencia de la atención médica de los pacientes.
Fuentes:
No hay comentarios:
Publicar un comentario