Reka Core, el nuevo modelo de IA capaz de analizar vídeo que planta cara a ChatGPT

Tras el lanzamiento de sus dos primeros modelos, Flash y Edge, la firma fundada por profesionales tecnológicos provenientes de círculos de Silicon Valley lanza un LMM que busca competir con los más grandes de la industria.

Un grupo de investigadores de grandes tecnológicas como Google y Meta han lanzado este lunes un nuevo modelo de lenguaje a través de su startup Reka, que con solo un año de entrenamiento está mostrando resultados comparables o incluso mejores que los modelos de OpenAI, DeepMind o Anthropic, según la empresa.

Así se desprende del documento que la compañía ha publicado este 15 de abril, en el que anuncia el estreno de Reka Core, su modelo multimodal «más grande y capaz» hasta la fecha. El producto de inteligencia artificial busca diferenciarse rápidamente de rivales como ChatGPT ofreciendo interactividad no solo con texto sino también con imágenes y vídeos.

«Core no es solo un modelo de lenguaje grande. Tiene una potente comprensión contextualizada de imágenes, vídeos y audio y es una de las dos únicas soluciones multimodales integrales disponibles comercialmente», señala el texto. El modelo ofrece soporte para 32 idiomas y una ventana de contexto de 128.000 tokens. También permiten el uso de Reka Core vía API o en dispositivo para facilitar el despliegue y uso de la herramienta.

Desde la startup, que tiene una plantilla de 22 empleados, señalan las ventajas que su modelo presenta frente a las soluciones de este tipo más conocidas actualmente. «Core supera a Claude-3 Opus en nuestra evaluación humana multimodal realizada por un tercero independiente, supera a Gemini Ultra en tareas de vídeo, un enfoque clave dado nuestro enfoque multimodal, y es comparable a GPT-4V en MMMU. En tareas de lenguaje, Core es competitivo con otros modelos de frontera en puntos de referencia bien establecidos», aseguran.

Otras de las fortalezas del modelo, según sus creadores, son su capacidad de razonamiento matemático sofisticado y su habilidad con la elaboración de código.

Dani Yogatama, cofundador y CEO de Reka, ha indicado en declaraciones a medios que el único servicio de IA que ofrece la misma cantidad de prestaciones que Core es el Gemini Ultra de Google. Yogatama ha indicado también que, de momento, no tienen planes de liberar el modelo en código abierto, buscando mantener un equilibrio que asegure mantener la viabilidad del negocio.

En cuanto al coste que tendrá usar su modelo, el documento recoge que «el precio de nuestro lanzamiento de API es de 10$ por millón de tokens de entrada y 25$ por millón de tokens de salida». La empresa la considera una tarifa «competitiva» respecto a las aplicaciones rivales teniendo en cuenta su rendimiento.

Capacidades para vídeo, imagen y audio

La principal diferencia entre los grandes modelos de lenguaje (LLM) como ChatGPT y los modelos grandes multimodales (LMM) como el que presenta Reka, es la capacidad de los segundos de procesar inputs en más formatos aparte del texto, como son archivos de vídeo, imagen o sonido. Con esta tecnología, la startup se sitúa a la vanguardia de las empresas de su sector.

Para mostrar al público las utilidades de Reka Core, la empresa ha publicado un vídeo en X en el que su IA analiza el tráiler de la serie de Netflix «El problema de los 3 cuerpos». Según se aprecia en el clip, Core puede identificar a los actores, describir escenas, o incluso escribir un script de Python en el que se visualiza el problema matemático al que hace referencia la serie.

La firma ya está colaborando con las empresas Snowflake y Oracle y con la organización AI Singapore. Además del anuncio, la startup también ha compartido otro documento disponible en este enlace en el que se detallan el entrenamiento, datos y estructuras de los modelos de Reka. El modelo en sí puede probarse desde su página de inicio de sesión.

Entre la plantilla de Reka se encuentra un español, el matemático e ingeniero vasco Aitor Ormazabal, que ocupa un puesto en el equipo técnico.

Fuente: adslzone