Noul model DiffusionGemma oferă inferență de până la 4 ori mai rapidă pe GPU-urile NVIDIA

11.06.2026 - 15:03

Listen to this article

NVIDIA aduce suport și accelerare încă din prima zi pentru noul model DiffusionGemma dezvoltat de Google DeepMind pe platformele GeForce RTX, NVIDIA RTX PRO, DGX Spark, DGX Station și GPU-urile NVIDIA H100, permițând dezvoltatorilor să ruleze aplicații AI rapide și responsive local, de la desktopuri până la centre de date.

Spre deosebire de modelele lingvistice tradiționale, care generează text token cu token, DiffusionGemma utilizează o abordare bazată pe difuzie (diffusion-based denoising) pentru a genera text în paralel, oferind o viteză de procesare de până la patru ori mai mare pe GPU-uri comparativ cu un model autoregresiv echivalent.

Printre principalele beneficii se numără:

Performanță superioară:DiffusionGemma generează 256 de tokeni în paralel, atingând viteze de până la 1.000 de tokeni pe secundă pe un singur GPU NVIDIA H100 Tensor Core, 150 de tokeni pe secundă pe NVIDIA DGX Spark și oferind cele mai bune performanțe locale pe NVIDIA DGX Station.

Bazat pe Gemma 4: Modelul acceptă atât inputuri text, cât și imagini și poate procesa contexte de până la 256.000 de tokeni, deschizând noi posibilități pentru aplicații AI multimodale și agenți inteligenți.

Deschis și disponibil local: DiffusionGemma este distribuit sub licență Apache 2.0 și beneficiază de suport încă din prima zi în Hugging Face Transformers, vLLM și Unsloth. Dezvoltatorii îl pot rula local, fără dependență de cloud și fără costuri per token. Pentru implementări enterprise, modelul este disponibil prin NVIDIA NIM, iar accesul prin API pentru prototipare este oferit prin platforma build.nvidia.com.
Pentru mai multe informații, consultați articolul publicat pe blogul RTX AI Garage și materialul dedicat de pe blogul tehnic NVIDIA.

LĂSAȚI UN MESAJ

Urmați-ne pe Instagram @MovieNews.ro