La guerra entre Musk y Microsoft no es nada nuevo. Ha acusado a Microsoft de tomar el control de OpenAI, compañía que él mismo fundó y convertir un proyecto que originalmente era de código abierto en todo un negocio sustentado por el éxito de herramientas como ChatGPT y DALL-E.

Las acusaciones de Musk contra Microsoft

Para añadir contexto a esta nueva refriega, hay que aclarar que ambas partes han formado parte de OpenAI. Musk fue cofundador de OpenAI antes de dejar su puesto en 2018. En los últimos tiempos se ha quedado del cambio de rumbo de dicha compañía de un modelo sin fines de lucro a un negocio muy valioso influenciado por Microsoft, que invirtió 10.000 millones de dólares el año pasado.

Sin embargo, esta amenaza de ir a juicio contra Microsoft no es por esta diferencia de pareceres entre el modelo inicial y el comercial de la actualidad. El ahora CEO de Twitter se está quejando específicamente de que los grandes modelos lingüísticos (LLM) de OpenAI “entrenaron ilegalmente usando datos de Twitter”. A esto añadió “Tiempo de juicio”.

+++++++++

La amenaza se produjo después de que Mashable y otras publicaciones informaran que Microsoft eliminaría a Twitter de su plataforma publicitaria. La acusación al gigante del software de usar ilegalmente los datos de la compañía de redes sociales para entrenar su modelo de inteligencia artificial es el último ejemplo de una guerra que parece no tener fin.

Ya en diciembre, el también CEO de Tesla dijo que pausaría el acceso de OpenAI a la base de datos de Twitter. Parece que ser que es precisamente esto lo que ha debido de vulnerar el gigante tecnológico de Windows. Relacionado con sus quejas por el control de Microsoft tras su inversión en OpenAI, también anunció esta misma semana planes para construir su propio modelo de lenguaje grande en una de sus empresas llamada TruthGPT.

¿A quién pertenecen los datos de entrenamiento?

Los LLM como GPT requieren terabytes de datos para la capacitación, muchos de los cuales se extraen de sitios web como Reddit, StackOverflow y Twitter. Los datos de entrenamiento de las redes sociales son valiosos porque capturan conversaciones informales de ida y vuelta.

La propiedad de los datos se está convirtiendo rápidamente en un campo de batalla tenso en la fiebre de la IA generativa. Las grandes empresas tecnológicas están trabajando para desarrollar modelos de inteligencia artificial de vanguardia y los propietarios de datos buscan detenerlos o cobrar por el uso de su contenido.

TruthGPT

A medida que estos nuevos modelos de IA pasan de los laboratorios de investigación y las universidades al mundo corporativo, los propietarios de los datos comienzan a hacer demandas. Reddit ya avisó esta misma semana que empezará a cobrar a las empresas de Inteligencia Artificial

Por ejemplo, Reddit dijo a principios de esta semana que cobraría a las empresas por el acceso a su interfaz de programación utilizada para alimentar las conversaciones entre los usuarios de Reddit en el software de capacitación de IA.

Universal Music Group también se ha pronunciado esta semana que el entrenamiento de la música de sus artistas representaría «tanto un incumplimiento de nuestros acuerdos como una violación de la ley de derechos de autor» en respuesta a un vídeo viral de una canción que afirmaba usar IA para imitar al rapero Drake.

También existe este problema con la generación de imágenes. La base de datos de fotografías de archivo Getty Images está demandando a Stable Diffusion, alegando que la compañía copió su contenido protegido por derechos de autor para entrenar su generador de imágenes de IA.

 

Fuente: CNBC | adslzone