Săptămâna aceasta în AI Decoded vorbim despre optimizările AI pe care NVIDIA TensorRT le oferă celor peste 100 de milioane de PC-uri și stații de lucru RTX.
De asemenea, noul benchmark Procyon AI Image Generation de la UL Solutions este acum disponibil și măsoară performanța hardware-ului pentru generarea de imagini AI. Testele noastre interne au demonstrate viteze cu 50% mai mari pe o placă video GeForce RTX 4080 SUPER comparat cu cea mai rapidă implementare non-TensorRT. Cei care fac review de plăci video pot testa folosind noul UL Procyon Reviewer’s Guide disponibil aici.
Înainte să continuăm cu știrile să facem o scurtă recapitulare:
=> Nucleele Tensor Cores sunt acceleratoarele AI dedicate de pe plăcile video RTX care livrează eficient AI local de înaltă performanță.
=> NVIDIA TensorRT este setul de unelte — ex: un software development kit (SDK) — care permite dezvoltatorilor să acceseze hardware-ul pentru a oferi experiențe AI complet optimizate.
=> NVIDIA TensorRT-LLM este o librărie open-source care permite LLM-urilor să înțeleagă și să răspundă la cereri mai rapid și mai eficient. ChatRTX este construit pe TensorRT-LLM pentru performanță optimizată pe plăcile video RTX și oricine poate experimenta cu modele optimizate TensorRT-LLM în NVIDIA AI Foundation models.
Pentru LLM-uri, TensorRT accelerează unele dintre cele mai populare modele de AI generativ printre care Stable Diffusion și SDXL. Nou săptămâna aceasta, optimizarea TensorRT care accelerează popularul Stable Diffusion WebUI de la Automatic 1111 se extinde acum la ControlNets, un set de modele AI care funcționează ca asistenți speciali pentru a oferi utilizatorilor mai mult control asupra imaginilor generate – oferind un spor de performanță de până la 40%. Extensia este disponibilă pentru utilizatori și poate fi descărcată chiar acum de pe GitHub.
Citește blogul complet aici și află mai multe despre accelerările TensorRT, printre care și optimizările pentru creatori.