El sistema de inteligencia artificial logra un aprobado muy raspado, aunque de la prueba se eliminaron las preguntas que incluían imágenes
10 feb 2023 . Actualizado a las 09:05 h.«En su opinión, ¿cuál es el motivo de la asimetría pupilar del paciente?». Esta es una de las 376 preguntas públicas disponibles para evaluar a los candidatos que se presentan para obtener la licencia médica en Estados Unidos (USMLE), el requisito indispensable para poder ejercer la profesión. De ellas, se escogieron un total de 350 -se eliminaron las que incluían imágenes- para evaluar el rendimiento de ChatGPT, el sistema de inteligencia artificial diseñado por OpenAI para generar una escritura similar a la humana mediante la predicción de secuencias de palabras próximas y que, a diferencia de la mayoría de los charbots, no puede buscar en Internet.
¿Y cuál fue el resultado? Aprobado raspado, aunque no en todos los niveles que conforman la prueba. Después de eliminar las respuestas indeterminadas obtuvo una puntuación de entre el 52,4 % y el 75 % en los tres exámenes USMLE. Para aprobar se necesita un mínimo de un 60 %. El estudio realizado por médicos de AnsibleHealt, se ha publicado en la revista científica Plos Digital Health.
ChatGPT, según se recoge el artículo científico, demostró una concordancia del 94,6 % en todas sus respuestas y produjo al menos una idea significativa -algo nuevo que va más allá de lo obvio y clínicamente validado- en el 88,9 % de sus respuestas.
Los autores de la investigación, liderada por Tiffany Kung y Victor Tseng, destacan que sus hallazgos brindan una idea del potencial de ChatGPT para mejorar la educación médica y, eventualmente, la práctica clínica. De hecho, los médicos de AnsibleHealth ya utilizan el sistema para reescribir informes llenos de jerga científica y facilitar así la comprensión del paciente.
«Alcanzar un aprobado para este examen experto es notoriamente difícil, y hacerlo sin ningún refuerzo humano marca un hito notable en la maduración clínica de la inteligencia artificial», resaltan los autores. Es más, los investigadores también se apoyaron en la tecnología para redactar su artículo. «Interactuamos con ChatGPT como un colega, pidiéndole que sintetice, simplifique y que nos ofreciera contrapuntos a los borradores en curso. Todos los coautores valoramos su contribución», explica Tiffany Kung.
En una valoración del estudio, Alfonso Valencia, profesor Icrea y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona, advierte que ChatGPT ni «razona» ni «piensa», ya que «solo devuelve un texto basado en un modelo de probabilidad enorme y muy sofisticado».
El examen para lograr la licencia de médico en Estados Unidos al que se sometió la inteligencia artificial tiene tres niveles: a) estudiantes de medicina de segundo año con unas 300 horas de estudio, b) estudiantes de Medicina de cuarto año con unos 2 años de experiencia en servicios rotatorios, y c) estudiantes que han completado más de medio año de educación de posgrado.
Los resultados fueron evaluados por dos médicos con experiencia y las discrepancias, revisadas por un tercer experto.
«Resumiendo mucho los resultados -dice Valencia- podemos decir que las respuestas fueron precisas en una medida que es equivalente al nivel mínimo de los humanos aprobados ese año». Aprobado muy raspado.
A juicio de Alfonso Valencia, «el estudio es cuidadoso en aspectos claves, como comprobar que las preguntas y respuestas no estaban en la web y no se podían haber usado para entrenar el sistema o que no retenía memoria de respuestas anteriores». Pero advierte que el trabajo también tiene limitaciones como un tamaño de casos limitado (con 350 preguntas: 119, 102 y 122 para cada uno de los niveles del 1 al 3). También representa un escenario limitado, puesto que solo trabaja con textos. De hecho, se eliminaron 26 preguntas que contenían imágenes u otra información no textual.
Lucía Ortiz de Zárate, investigadora predoctoral en Ëtica y Gobernanza de la Inteligencia Artificial de Ciencia Política y Relaciones Internacionales de la Universidad Autónoma de Madrid, destaca, por su parte, que «lo novedoso del artículo reside no solo en el hecho de que se trata del primer experimento que se usa para estos fines, sino en los resultados del mismo. Según los responsables de la investigación, ChatGPT se encuentra muy cerca de aprobar este examen, que necesitaría alcanzar, al menos, el 60% de aciertos», según explica en declaraciones recogidas por Science Media Center España.
En la nueva prueba, ChatGPT superó el 36,7 % de aciertos de exámenes anteriores con los que se probó a otros sistemas de inteligencia artificial.
«Este tipo de estudios -apunta Ortiz de Zárate- evidencian, por un lado, el potencial de la IA para las aplicaciones médicas y, por otro lado, la necesidad de repensar los métodos de evaluación del conocimiento. De cara a la práctica médica, las tecnologías de IA pueden suponer una ayuda muy significativa para los médicos a la hora de realización de diagnósticos, prescripción de tratamientos y medicamentos. Del lado de los sistemas de evaluación, no solo en medicina, la aparición y progresiva mejora de sistemas de IA como ChatGPT evidencian la necesidad de repensar los métodos de evaluación del conocimiento y las habilidades, además de contenidos, que necesitan los profesionales del futuro».