Los modelos de Inteligencia Artificial con los que interactuamos en nuestro día a día, como ChatGPT o Gemini, nos ayudan a simplificar una gran cantidad de tareas que abarcan diferentes áreas. En unos pocos segundos, tenemos la respuesta a la gran mayoría de dudas que podemos tener y nos proporciona todo lo que necesitamos para tomar cualquier tipo de decisión. Sin embargo, confiar ciegamente en sus respuestas, entraña sus riesgos.
Así lo afirma el último estudio llevado a cabo por la Facultad de Psicología de la Universidad de Deakin (Australia) sobre la fiabilidad de la IA, publicado en la revista especializada, JMIR. Según los investigadores que se han encargado de analizar el caso en concreto, se han encontrado con que la mayoría de las referencias biográficas que propone al usuario son falsas o inexactas.
Las alucinaciones de la IA
El problema sobre las alucinaciones de la IA no es nuevo. Con este término, se hace referencia a las afirmaciones que realizan los grandes modelos de IA y que, si no se comprueban o no se tienen los conocimientos adecuados, podrían pasar por válidas. Sin embargo, cuando se hace un trabajo científico que requiere que todos los datos estén respaldados por su correspondiente fuente, esto puede suponer un importante problema.
Dicho análisis se realizó utilizando ChatGPT – 4o y se le solicitó que realizara una serie de trabajos sobre tres trastornos de salud mental: trastorno depresivo mayor, trastorno por atracón y el trastorno dimórfico corporal. La instrucción que tenía la IA era que generara una revisión de 2.000 palabras, aproximadamente, e incluyera 20 citas bibliográficas como mínimo.
Gran parte de las citas eran erróneas
Una vez la IA realizó todo el trabajo, se comprobaron los resultados para asegurar la veracidad de las fuentes. Las consecuencias fueron las siguientes:
- Una quinta parte de las citas (35 de 176) eran completamente falsas.
- De las 141 que eran verdaderas, la mitad contenían, como mínimo, un error.
- Dos tercios del total eran completamente falsas o contenían errores, lo que impedía que se pudieran utilizar en estudios científicos.
- La tasa de citas falsas se correspondía con la complejidad del tema. Cuando el trastorno estaba más estudiado, únicamente un 6% de las citas eran falsas. Cuando era más complejo y había menos información, las referencias falsas alcanzaron el 29%.
| Tipo de Error | Cantidad | Porcentaje sobre el total |
|---|---|---|
| Citas completamente falsas | 35 | 19.9% |
| Citas reales con errores | 64 | 36.4% |
| Total citas problemáticas | 99 | 56.3% |
| Citas precisas | 77 | 43.7% |
Únicamente se utilizó ChatGPT
En las conclusiones de los resultados también se destaca que el análisis solo tuvo en cuenta el modelo de ChatGPT, por lo que no quiere decir que todos los modelos de Inteligencia Artificial tengan el mismo número de fallos y esa tasa de error. Sin embargo, es bastante llamativo que el modelo más utilizado tenga una tasa de fallo tan alta como la que nos hemos encontrado.
En próximas investigaciones, el mismo grupo de estudio ha afirmado que trabajará para examinar una gama de modelos más amplia y comparará sus resultados con los de ChatGPT. No obstante, esto supone una importante advertencia a la hora de confiar en ChatGPT como única fuente de análisis cuando realizamos cualquier trabajo con él. Comprobar a posteriori los resultados es clave para asegurar la validez de todos los datos que se han añadido en el estudio.
