Musk, que es también fundador de la empresa xAI, proveedora del chatbot Grok que se ha incorporado a la red social X recientemente, explica que el uso de datos sintéticos parece ser la única forma de superar este problema, que impediría a las startups de inteligencia artificial mejorar sus modelos a un ritmo más rápido. «La única forma de complementar [los datos del mundo real] es con datos sintéticos, donde la IA crea [datos de entrenamiento]”, explicó el empresario.
«Con los datos sintéticos… [la IA] se calificará a sí misma y pasará por este proceso de autoaprendizaje«, señala Musk, aunque el argumento a favor del uso de datos artificiales suscita muchas críticas por los posibles efectos que este tipo de datos puede tener sobre la calidad final de las respuestas de IA.
Musk no es el único que ha hablado ya sobre esta problemática. Hace un mes, el cofundador de OpenAI Ilya Sutskever ya alertó de que las fuentes de información en Internet con las que entrenar a su IA se estaban agotando, y que esto obligará a la industria a cambiar la forma en la que desarrollan inteligencia artificial.
Más allá de usar datos disponibles en Internet y de usar datos generados artificialmente, otra opción sería la de capturar datos a tiempo real mediante dispositivos IoT.
Estas empresas podrán seguir recogiendo los nuevos datos que se generen en aquellas plataformas con las que hayan firmado convenios de colaboración, como pueden ser medios de comunicación, redes sociales o foros como Reddit. No obstante, la generación de nuevos datos no ocurre a un ritmo suficientemente rápido, por lo que los algoritmos de IA tendrán que ser capaces de aprender con mayor profundidad a partir de los datos ya disponibles. Esto pasa por hacerlos más inteligentes.
Otras grandes empresas como Microsoft, OpenAI y Meta ya están usando datos artificiales para entrenar sus modelos. Según la consultora Gartner, el 60% de los datos utilizados para proyectos de inteligencia artificial y análisis en 2024 se generaron de forma sintética.
El problema de los datos sintéticos
Diversos expertos critican el uso de datos sintéticos ya que podrían crear una suerte de bucle de retroalimentación que impida a la IA aprender cosas realmente nuevas, volviéndose en su lugar menos creativo y sesgado. Esto se conoce como «colapso del modelo»; momento en que un modelo de IA se deteriora por una mala calidad de sus fuentes de información.
Algunos efectos de este fenómeno, tal y como indica IBM, son una peor toma de decisiones, desinterés por parte de los usuarios por unas respuestas más limitadas, y un conocimiento más limitado y afectado por inclinaciones políticas particulares.
Fuente: Techcrunch | adslzone