Runway eclipsa a OpenAI con el video mientras ElevenLabs, Suno y Character.ai refuerzan el audio en el móvil

La startup francesa Kyutai lanza su asistente de IA multimodal Moshi, que funciona con la voz que GPT-4o acaba de posponer a octubre. Apple sigue los pasos de Microsoft y también vigilará a Sam Altman

Saül Gordillo
7 min read2 days ago
Imagen generada por Saül Gordillo con Midjourney.

Hemos estado 15 días en la Costa Oeste y volvemos de California y Silicon Valley con las pilas cargadas. No pudimos dejar constancia de la presentación de Apple Intelligence, pero algunos de los anuncios se han ido desvaneciendo. Apple sigue los pasos de Google y OpenAI, que tras sus últimos lanzamientos no tardaron en rectificar o matizar algunos detalles. OpenAI nos acaba de quitar de la boca el caramelo de la voz de GPT-4o, y el lanzamiento de mediados de febrero de Sora forma parte de un recuerdo e ilusión empañados por los competidores chinos y norteamericanos que le han salido a la IA de video que tenía que revolucionar Hollywood. Esta misma semana el GEN-3 Alpha de Runway supone un órdago en toda regla al Sora de una OpenAI que aplaza lanzamientos anunciados (la voz multimodal de GPT-4omni) y usa otros como globos sonda para poner tiritas a las heridas antes de tiempo (Sora y los contactos de la organización de IA con la industria del cine y los creadores). Con este boletín, pues, recuperamos el formato de recopilación de la mejor actualidad de IA de la semana y nos comprometemos a dejar escrita la crónica del viaje a San Francisco, Silicon Valley, Las Vegas y Los Ángeles para una entrega más pausada y desapegada de los impactos noticiables ya en agosto.

Antes de entrar de nuevo en materia, agradecer a los nuevos suscriptores que han ido llegando los últimos días y semanas a Algoritmo Transparente, y a todos los que comparten nuestro contenido y nos ayudan a hacer más grande la comunidad de IA. En San Francisco tuvimos la oportunidad de probar las Apple Vision Pro (ya compartiremos nuestra experiencia aquí) y ahora leemos que Mark Gurman de Bloomberg apunta a dos novedades interesantes: le van a meter Apple Intelligence a las gafas y van a comercializar una versión más económica, unas Apple Vision sin ‘Pro’. Vamos bien.

Esta semana, como decía, hemos vivido una experiencia tipo Sora de OpenAI en Twitter pero con los vídeos y demos que ha lanzado Runway de GEN-3 Alpha. Nos quedará en la memoria una asociación de ideas entre los spaghetti y la IA Generativa de video en el salto brutal que estamos viendo (nada parecido a aquellos primeros de Will Simth). Si la industria del cine y los creadores audiovisuales pretendían frenar o controlar los daños del impacto de Sora — que ya tiene su primer anuncio comercial con su tecnología — , con lo nuevo de Runway y el modelo de video chino Kling esto cobra velocidad y no pinta que tenga vuelta atrás. También ha salido Hedra, que transforma imágenes estáticas en personajes animados. Y si el video va, el audio no se queda corto porque ElevenLabs acaba de estrenar una app para iOS con voces de Hollywood. ElevenLabs incorpora voces icónicas a su aplicación Reader: ahora la IA Judy Garland puede leerte El mago de Oz. Suno, la herramienta más nueva y popular para generar canciones con letras y estilos musicales a golpe de ‘prompt’, acaba de lanzar una app en Estados Unidos para iPhone. Y Character.ai, la aplicación de IA más usada en el mundo tras ChatGPT, con 250 millones de usuarios mensuales, presenta una nueva función de llamadas a nuestros chatbots preferidos.

Pulso geoestratégico interesante. A la francesa Mistral AI que compite con OpenAI ahora se une la parisina Kyutai para eclipsar con Moshi, aunque sea modestamente, la multimodalidad de GPT-4o. Francia, en solitario y testimonialmente, plantando cara a Silicon Valley.

Para acabar de rematar los fantasmas que le aparecen a OpenAI, Kyutai, una startup francesa ha lanzado su asistente de IA multimodal con una latencia extremadamente baja (200 milisegundos) que hace las funciones de voz que GPT-4o pospone a octubre-noviembre. La IA de voz del multimillonario Xavier Niel se enfrenta a ChatGPT con acento francés. Aquí vemos un pulso geoestratégico interesante, ya que a la francesa Mistral AI que se alía con Microsoft para competir con OpenAI ahora se une la parisina Kyutai para eclipsar con Moshi aunque sea modestamente la multimodalidad de GPT-4o. Francia, en solitario y testimonialmente, plantando cara a Silicon Valley. La Francia que este domingo se acerca al abismo político de las urnas es la excepción tecnológica de una Europa que precisamente estos días mantiene a Microsoft y Google bajo la lupa y que acusa a Meta de violar la Acta de Mercados Digitales (DMA) con su ‘consiente o paga’. Bruselas intensifica su cruzada para que las grandes tecnológicas cumplan con la regulación.

Imagen generada por Saül Gordillo con Midjourney.

España se enreda con el ‘pajaporte’ y los ‘pseudomedios’

Mientras Europa aprieta a las tecnológicas y Francia se envalentona con sus ‘startups’, el Gobierno de España se enreda con lo que ya se ha denominado periodísticamente como el ‘pajaporte’. Un lío que enturbia antes de las vacaciones la buena gestión en IA del ministro José Luis Escrivá. Y a este enredo se le podría añadir este mismo mes de julio el de la ofensiva del Ejecutivo contra lo que el presidente Pedro Sánchez ha llamado ‘pseudomedios’. Parece extraño intentar evitar que las administraciones gobernadas por PP y Vox tengan menos margen de maniobra que la propia Moncloa para ayudar a sus medios afines. Por muy de acuerdo que pudiéramos estar en el fondo, y sin caer en ingenuidades, las formas preocupan porque indican nerviosismo ante el caso de Begoña Gómez y un tic poco compatible con la libertad, la pluralidad y la democracia. ¿Quién controlará al controlador de la publicidad o subvenciones institucionales a los supuestos medios digitales? ¿En qué ámbito institucional, territorial o político pondremos el límite? Ni la pornografía sexual ni la política se pueden combatir con ‘pajaportes’ ni leyes concebidas contra artefactos digitales ideológicos y partidistas concretos.

Los días del viaje a California en Algoritmo Transparente no pudimos dejar constancia de un par de decisiones del Gobierno de España en materia de IA. La elección de Ignasi Belda como nuevo director de la Agencia de Supervisión de Inteligencia Artificial, con sede en A Coruña. Y otro nombramiento: El exministro de Universidades Manuel Castells presidirá el consejo asesor en IA de España. Manuel Castells, que fue ministro después de su apoyo a los Comunes de Ada Colau, apareció hace unas semanas durante la noche electoral catalana en el despacho del candidato socialista Salvador Illa siguiendo el recuento de los comicios y celebrando su victoria. A ver qué aconseja el académico Castells al próximo president de la Generalitat, quien sea, en relación al cuestionado algoritmo que decide el destino de los presos en Catalunya. Hemos sabido que el algoritmo que evalúa la peligrosidad de los presos catalanes funciona de forma “azarosa”.

Imagen generada por Saül Gordillo con Midjourney.

Apple entra en la nueva junta directiva de OpenAI como observadora y vigilará a Sam Altman como hizo Microsoft

Vuelvo a la IA y voy acabando. La aplicación de ChatGPT para Mac (Apple) tiene una vulnerabilidad importante. La seguridad es una de las grandes carencias actuales de la IA. Y eso que ahora OpenAI ha sacado una IA que “critica” los errores de GPT-4. Así funciona CriticGPT. Para evitar nuevos sustos como los de noviembre pasado con el despido fallido de Sam Altman, y siguiendo los pasos de Microsoft, Apple tendrá un puesto equivalente al de Microsoft en el consejo de administración de OpenAI. Phil Schiller, de Apple, ocupará una silla de observador sin voto en la nueva junta directiva de OpenAI al estilo de la incorporación de Dee Templeton, vicepresidenta de Microsoft. El aceleracionismo de esta OpenAI post-Ilya Sutskever — Sam Altman dice que GPT-5 ridiculizará a GPT-4cuenta con la vigilancia de los grandes aliados de la compañía, la Microsoft de Satya Nadella y la Apple de Tim Cook con quien acaba de pactar la integración de ChatGPT en el iPhone para resucitar a Siri y reforzar Apple Intelligence.

OpenAI y TIME se asocian para expandir el acceso a información fiable. La revista también incorpora audio a sus artículos de la mano de ElevenLabs. Bien jugado. Un par de apuntes finales de la semana. Las declaraciones del hombre fuerte de Microsoft AI, Mustafa Suleyman, que defiende que cualquiera puede usar el contenido abierto en Internet — también para entrenar los modelos de IA — , y Google contamina un 48% más que hace cinco años.

Gracias por llegar hasta aquí y por compartir. ¡Hasta la semana que viene con las últimas novedades!

[Este artículo también está traducido al catalán en Algoritme Transparent.]

Algoritmo Transparente #40

--

--

Saül Gordillo

🤖 IA 🎙️ Ex director Catalunya Ràdio, Mitjans Digitals CCMA, Agència Catalana Notícies, web El Periódico, El Punt, Repòrter, Principal. Cofundador Poliblocs 🚀