El último modelo de IA abierto DiffusionGemma de Google llega con una aceleración de 4x

Un día más, otro modelo de IA de Google. Esta vez, Google DeepMind ha lanzado un nuevo miembro de la familia de modelos abiertos Gemma 4, pero es fundamentalmente diferente al resto de la alineación. DiffusionGemma no genera resultados de manera lineal como la mayoría de los modelos de IA. En cambio, puede producir un bloque completo de texto en paralelo. Google dice que esto lo hace más rápido y eficiente cuando se ejecuta en hardware local como una Nvidia DGX o una humble GPU de juegos.
La mayoría de los modelos de IA están diseñados para ser autorregresivos: generan texto de izquierda a derecha un token a la vez. DiffusionGemma tiene más en común con modelos de generación de imágenes, que comienzan con estática y luego la desnivelen para crear el contenido deseado. Este modelo toma un campo de tokens de marcador de posición que se ejecuta sobre el lienzo varias veces para generar tokens probables y usarlos para mejorar la estimación de otros. Al final del proceso, el modelo finaliza sus salidas de tokens en un bloque grande: el "lienzo de texto desnoisado".
DiffusionGemma es bastante grande en el ámbito de los modelos abiertos de Google. Es un modelo de Mezcla de Expertos (MoE) con un total de 26 mil millones de parámetros, pero solo 3.8 mil millones se activan durante la inferencia. Eso significa que debería caber en la asignación de 18GB de RAM de una GPU de alta gama. En pruebas con un RTX 5090, DiffusionGemma genera alrededor de 700 tokens por segundo. Con un único acelerador de IA Nvidia H100, DiffusionGemma puede producir más de 1,000 tokens por segundo. Eso es aproximadamente cuatro veces la salida de los modelos Gemma autorregresivos de tamaño similar.
Crédito: Google Crédito: Google
Este enfoque para la generación de texto desplaza el cuello de botella de la memoria al ancho de banda de cómputo, generando hasta 256 tokens en paralelo. Google dice que esto ofrece un aumento medible en tareas no lineales como edición en línea, secuenciación molecular y gráficos matemáticos. La animación anterior muestra cómo DiffusionGemma fue sintonizado para resolver acertijos de Sudoku, que es una tarea notoriamente desafiante para modelos de IA autorregresivos estándar porque cada token depende de tokens futuros. La capacidad de DiffusionGemma de autocorrección continua de grandes conjuntos de tokens lo hace más fácil.
