Ascultă acest articol


Pe scurt:

  • Zyphra ZAYA1 este primul model AI de tip Mixture-of-Experts (MoE) la scară largă antrenat complet pe GPU-uri AMD Instinct™ MI300X, rețelistică AMD Pensando™ și platforma software deschisă ROCm.
  • ZAYA1-base depășește Llama-3-8B și OLMoE în numeroase teste de performanță și se apropie de nivelul Qwen3-4B și Gemma3-12B.
  • Capacitatea extinsă de memorie a AMD Instinct MI300X a permis Zyphra să simplifice procesul de antrenare și să reducă de 10 ori timpul de salvare al modelului.

AMD anunță că Zyphra a atins un reper important în antrenarea modelelor AI la scară largă, prin dezvoltarea ZAYA1, primul model Mixture-of-Experts (MoE) antrenat pe o platformă AMD ce combină GPU-uri și soluții de rețelistică. Această realizare este detaliată într-un raport tehnic Zyphra publicat astăzi, după ce au fost utilizate GPU-urile AMD Instinct™ MI300X și tehnologia AMD Pensando™, susținute de ecosistemul software deschis AMD ROCm™.

Rezultatele Zyphra arată că modelul oferă performanțe competitive sau chiar superioare față de cele mai bune modele open-source în teste de raționament, matematică și programare — ceea ce demonstrează scalabilitatea și eficiența GPU-urilor AMD Instinct pentru sarcini AI la nivel de producție.

„Liderul AMD în calcul accelerat le oferă inovatorilor precum Zyphra puterea de a depăși limitele a ceea ce este posibil în AI”, a declarat Emad Barsoum, vicepreședinte corporativ AI și inginerie, Artificial Intelligence Group, AMD. „Acest reper evidențiază puterea și flexibilitatea GPU-urilor AMD Instinct și a rețelisticii Pensando pentru antrenarea modelelor complexe, la scară largă.”

„Eficiența a fost întotdeauna un principiu fundamental la Zyphra. Ea ne ghidează modul în care proiectăm arhitecturi de model, dezvoltăm algoritmi pentru antrenare și inferență și alegem hardware-ul cu cel mai bun raport preț-performanță pentru a livra inteligență artificială de ultimă generație clienților noștri”, a declarat Krithik Puthalath, CEO Zyphra. „ZAYA1 reflectă această filozofie și suntem încântați să fim prima companie care demonstrează antrenarea la scară largă pe o platformă AMD. Rezultatele noastre subliniază puterea co-proiectării arhitecturilor de model împreună cu siliciul și sistemele, iar noi suntem entuziasmați să aprofundăm colaborarea cu AMD și IBM pe măsură ce construim următoarea generație de modele multimodale avansate.”

Antrenare eficientă la scară largă, cu puterea GPU-urilor AMD Instinct

Cele 192 GB de memorie cu lățime de bandă ridicată ale GPU-ului AMD Instinct MI300X au permis antrenarea eficientă a modelelor la scară mare și au eliminat nevoia fragmentării costisitoare a experților sau tensorilor. Astfel, s-a redus complexitatea și s-a îmbunătățit performanța pe întreaga arhitectură a modelului. Zyphra a raportat, de asemenea, timpi de salvare ai modelului de peste 10 ori mai rapizi datorită I/O distribuit optimizat de AMD, ceea ce a crescut stabilitatea și eficiența procesului de antrenare. Cu doar o fracțiune din parametrii activi, ZAYA1-Base (8,3 miliarde în total, 760 milioane activi) egalează sau depășește performanța modelelor precum Qwen3-4B (Alibaba), Gemma3-12B (Google), Llama-3-8B (Meta) și OLMoE.

Pe baza colaborărilor anterioare, Zyphra a lucrat îndeaproape cu AMD și IBM pentru a proiecta și implementa un cluster de antrenare la scară largă, alimentat de GPU-urile AMD Instinct™ și interconectarea de rețea AMD Pensando™. Sistemul dezvoltat la comun de AMD și IBM, anunțat la începutul acestui trimestru, combină GPU-urile AMD Instinct™ MI300X cu infrastructura de rețea și stocare de înaltă performanță a IBM Cloud și oferă fundația pentru pre-antrenarea la scară largă a ZAYA1.

Pentru mai multe detalii despre rezultate, consultați raportul tehnic Zyphra, blogul Zyphra și blogul AMD, care oferă prezentări complete despre arhitectura modelului ZAYA1, metodologia de antrenare și tehnologiile AMD care au făcut posibilă această realizare.

LĂSAȚI UN MESAJ

Please enter your comment!
Please enter your name here

This site uses Akismet to reduce spam. Learn how your comment data is processed.