NEO
Tendencias
·Cannes Lions 2026 abre convocatoria a shortlists·IA generativa supera 40% de adopcion en agencias MX·Inversion publicitaria digital crece 18% en Q1 2026·Effie Mexico anuncia nuevas categorias para edicion 2026·WPP reporta resultados en Latam·Meta lanza nuevas APIs para retail media·Cannes Lions 2026 abre convocatoria a shortlists·IA generativa supera 40% de adopcion en agencias MX·Inversion publicitaria digital crece 18% en Q1 2026·Effie Mexico anuncia nuevas categorias para edicion 2026·WPP reporta resultados en Latam·Meta lanza nuevas APIs para retail media
Inteligencia Artificial

El nuevo modelo de IA abierto DiffusionGemma de Google viene con una aceleración de 4x

Redaccion NEO·10/6/2026
Compartir:LinkedInXWhatsAppFacebook
El nuevo modelo de IA abierto DiffusionGemma de Google viene con una aceleración de 4x

Un día más, otro modelo de IA de Google. Esta vez, Google DeepMind ha lanzado un nuevo miembro de la familia de modelos abiertos Gemma 4, pero es fundamentalmente diferente del resto de la alineación. DiffusionGemma no genera salidas de forma lineal como la mayoría de los modelos de IA. En cambio, puede producir un bloque completo de texto en paralelo. Google dice que esto lo hace más rápido y eficiente cuando se ejecuta en hardware local como un Nvidia DGX o una humilde GPU para juegos.

La mayoría de los modelos de IA están diseñados para ser autorregresivos: generan texto de izquierda a derecha un token a la vez. DiffusionGemma tiene más en común con los modelos de generación de imágenes, que comienzan con ruido estático y luego lo desnudan para crear el contenido deseado. Este modelo toma un campo de tokens de marcador de posición que se ejecuta sobre el lienzo varias veces para generar tokens probables y usar esos para mejorar la estimación de otros. Al final del proceso, el modelo finaliza sus salidas de tokens en un bloque grande: el "lienzo de texto desruidado".

DiffusionGemma es bastante grande en el ámbito de los modelos abiertos de Google. Es un modelo de Mezcla de Expertos (MoE) con un total de 26 mil millones de parámetros, pero solo 3.8 mil millones se activan durante la inferencia. Eso significa que debería caber en la asignación de 18GB de RAM de una GPU de alta gama. En pruebas con una RTX 5090, DiffusionGemma produce alrededor de 700 tokens por segundo. Con un único acelerador de IA Nvidia H100, DiffusionGemma puede producir más de 1,000 tokens por segundo. Eso es aproximadamente cuatro veces el rendimiento de los modelos Gemma autorregresivos de tamaño similar.

Este enfoque para la generación de texto cambia el cuello de botella de ancho de banda de memoria a computación, generando hasta 256 tokens en paralelo. Google dice que esto ofrece un aumento medible en tareas no lineales como edición en línea, secuenciación molecular y gráficos matemáticos. La animación anterior muestra cómo DiffusionGemma fue ajustado para resolver acertijos de Sudoku, que es una tarea notoriamente desafiante para los modelos de IA autorregresivos estándar porque cada token depende de tokens futuros. La capacidad de DiffusionGemma para autocorregirse continuamente grandes conjuntos de tokens lo facilita.

Sigue leyendo