Los 8 puntos calientes de la IA que hay que vigilar según el gobierno alemán

Un informe recoge de manera clara y detallada los posibles riesgos que conlleva usar o poseer esta tecnología, como son el uso de ingeniería social, la extracción de datos privados de usuarios o administraciones públicas o la infección con malware.

Información falsa, falta de confidencialidad y dependencia de las big tech. Estos son algunos de los mayores riesgos que traen consigo los nuevos modelos grandes de lenguaje como ChatGPT, según un informe recientemente actualizado publicado por la Oficina Federal de Seguridad de la Información de Alemania (BSI).

El documento de 33 páginas analiza exactamente qué son los grandes modelos de lenguaje (LLMs por sus siglas en inglés), qué amenazas pueden suponer para empresas y gobiernos y qué contramedidas pueden adoptarse para evitar estos riesgos.

Su intención es servir a agentes gubernamentales o industriales para que tengan en cuenta las limitaciones de esta tecnología, sobre todo en el caso de que se planteen utilizarla ellos mismos.

Así, el organismo alemán alerta de posibles ataques que pueden dirigirse a estos modelos con la intención de vulnerar la seguridad de la empresa o administración que lo usa. Distingue entre tres tipos: ataques de privacidad, ataques de evasión y ataques de envenenamiento.

Los ataques de privacidad, a los que también se les denomina ataques de extracción de información, son aquellos en los que los hackers podrían obtener información confidencial utilizada durante el entrenamiento o construcción del modelo. Para ello, pueden usar prompts o instrucciones específicas para recavar información sobre el funcionamiento del LLM.

Por otro lado, los ataques de evasión tienen el objetivo de «modificar el input a un LLM de tal manera que el comportamiento dé respuesta del LLM sea manipulado deliberadamente o se eludan los mecanismos de protección existentes».

Finalmente, los ataques de envenenamiento pretenden degradar o inducir fallos en un modelo de lenguaje. Para ello, los atacantes podrían tratar de engañar a la IA con informaciones o instrucciones falsas que publicarán en fuentes a las que el modelo recurre para alimentarse cada cierto tiempo. Esto sería algo así como sustituir las fuentes originales de las que aprende la IA por otras que la manipulen.

A modo de resumen, los aspectos de esta tecnología de generación de lenguaje hacia los que debería dirigirse especial atención son:

Sensibilizar a los usuarios.
Realización de pruebas.
Gestión de datos sensibles.
Transparencia.
Auditoría de inputs y outputs.
Atención a las inyecciones de prompt indirectas.
Selección y gestión de datos de entrenamiento.
Desarrollar conocimiento experto práctico.

Algunas de las aseveraciones del texto hacen referencia a uno de los problemas más conocidos, y es la inclusión de información errónea en sus bases de datos. «Los LLM se entrenan sobre la base de enormes corpus de texto. El origen de estos textos y su calidad generalmente no están completamente verificados debido a la gran cantidad de datos», dice el informe.

«Por lo tanto, los datos personales o protegidos por derechos de autor, así como los textos con contenido cuestionable, falso o discriminatorio (por ejemplo, desinformación, propaganda o mensajes de odio) puede verse incluido en el conjunto de [datos de] entrenamiento», puede leerse en la página 9.

Precauciones y soluciones a estos aspectos

Tanto para desarrolladores como instituciones, resulta interesante revisar las contramedidas propuestas por el organismo para evitar vulnerabilidades y comportamientos indeseables por parte de la IA. Algunas de ellas son: asegurar la integridad y calidad de los datos de entrenamiento, protección de datos sensibles a los que ha tenido acceso el modelo, protección contra el robo del código del modelo en sí, o uso de «entrenamiento adversario» (adversarial training) para que la IA pueda reconocer textos falsos.

Dicho todo esto, el documento no solo habla de aspectos negativos de esta tecnología. Según el BSI, los modelos de lenguaje inteligentes pueden automatizar satisfactoriamente una serie de tareas, como son la generación, procesamiento y edición de texto o ayuda a la programación de código.

También destaca oportunidades que pueden aprovechar, concretamente, los equipos de seguridad informática, por ejemplo: detección de contenido no deseable, creación de código utilizado en seguridad y análisis del tráfico de datos.

El informe, que puede consultarse en este enlace, fue publicado por primera vez en mayo de 2023, ha sido actualizado el pasado 4 de abril para recoger información actual sobre los LLM y para reestructurar y clarificar toda la información contenida.

Fuente: adslzone