Casa Casi

AMD Instinct MI355X raggiunge MLPerf Inference v6.0 con oltre 1 milione di token al secondo e supporta ROC scalabile

Tutti i prodotti

Server di stoccaggio di scaffale
(179)

Server di fusione di Huawei
(31)

Dell Poweredge Server
(59)

Server di H3C
(31)

Commutatori di Datacom
(96)

Dispositivo di WLAN
(21)

Router senza fili astuto
(17)

Disco rigido HDD
(78)

SSD interno del disco rigido
(16)

Carta grafica di Geforce
(27)

Unità di elaborazione del CPU di INTEL
(20)

Memoria RAM del server
(6)

Server ristrutturato di stoccaggio
(6)

Modulo del ricetrasmettitore di SFP
(4)

Selettore di canale della fibra
(125)

Certificazione

Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni

Rassegne del cliente

Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

AMD Instinct MI355X raggiunge MLPerf Inference v6.0 con oltre 1 milione di token al secondo e supporta ROC scalabile

April 15, 2026

AMD ha annunciato i risultati del benchmark MLPerf Inference v6.0, posizionando la GPU Instinct MI355X come una piattaforma di inferenza altamente scalabile in grado di supportare singolo nodo, multinodo,e diffusioni eterogeneeOltre a incrementare le prestazioni, la presentazione introduce nuovi carichi di lavoro, dimostra un throughput su scala di cluster superiore a 1 milione di token al secondo,e convalida la riproducibilità coerente delle prestazioni in un ecosistema di partner in espansione.

CDNA 4 Architettura obiettivi di alta capacità di inferenza

L'Instinct MI355X è basato sull'architettura CDNA 4 di AMD, sfruttando un design di chiplet a doppio processo TSMC: le matrici di calcolo (XCD) utilizzano un nodo a 3 nm, mentre le matrici di I / O utilizzano la tecnologia FinFET a 6 nm.Il pacchetto multichiplet integra 185 miliardi di transistor e supporta i formati di dati FP4 e FP6Ogni GPU è dotata di una memoria HBM3E fino a 288 GB (con 8 TB/sec di larghezza di banda di memoria), consentendo il supporto di modelli fino a 520 miliardi di parametri su un singolo dispositivo.AMD sottolinea che questa combinazione di densità di calcolo e capacità di memoria elimina la necessità di una partizione eccessiva del modello, un vantaggio fondamentale per carichi di lavoro di inferenza su larga scala.

Disponibile nelle configurazioni UBB8, la piattaforma offre opzioni sia raffreddate ad aria che direttamente raffreddate a liquido, allineandosi ai diversi requisiti di distribuzione dei data center.il MI355X dispone di una TBP (Thermal Design Power) da 1400W con raffreddamento a liquido, offrendo prestazioni superiori rispetto alla sua controparte raffreddata ad aria, il MI350X.

Il throughput multinode supera il milione di token al secondo

Un risultato straordinario del round MLPerf v6.0 è il throughput su scala di cluster di AMD che supera 1 milione di token al secondo.AMD ha raggiunto questo traguardo con Llama 2 70B in entrambi gli scenari Server e Offline, così come con GPT-OSS-120B in modalità offline.

AMD MLPerf 1M token al secondo grafico

Questi risultati riflettono un crescente spostamento del settore verso la valutazione delle prestazioni di inferenza a livello di cluster, piuttosto che per ogni singolo acceleratore.La produttività aggregata e il tempo di servizio sono diventati metriche primarie per determinare la prontezza di produzione nelle distribuzioni di IA su larga scala.

AMD ha anche dimostrato un'eccezionale efficienza di scalabilità. per Llama 2 70B, una configurazione di 11 nodi e 87 GPU ha raggiunto oltre 1 milione di token al secondo in scenari offline, server e interattivi,con un'efficienza di scalabilità compresa tra il 93% e il 98%Per GPT-OSS-120B, un cluster di 12 nodi e 94 GPU ha fornito un throughput simile con un'efficienza di scalabilità superiore al 90% dimostrando prestazioni che si traducono efficacemente man mano che le distribuzioni si espandono oltre un singolo sistema.

Guadagni generativi e prestazioni competitive del singolo nodo

AMD ha riportato significativi miglioramenti generazionali, con l'Instinct MI355X che offre prestazioni 3,1 volte migliori sul Llama 2 70B Server rispetto all'Instinct MI325X di generazione precedente, raggiungendo il 100,282 token al secondoQuesto miglioramento deriva sia dai miglioramenti architettonici di CDNA 4 che dalle ottimizzazioni del software ROCm.guidato principalmente dalla quantizzazione FP4 una caratteristica chiave del MI355X che sblocca un maggiore throughput per i carichi di lavoro dell'IA.

I risultati di AMD Inference rispetto al grafico della generazione precedente

In confronto con le piattaforme NVIDIA, il MI355X ha dimostrato una forte competitività.raggiunto quasi parità nelle prestazioni del serverRispetto a NVIDIA B300, il MI355X ha fornito il 92% delle prestazioni Offline, il 93% delle prestazioni Server e lo ha superato del 4% in modalità Interattiva.L' MI355X offre anche una migliore efficienza economica., fornendo il 40% in più di token per dollaro rispetto all'NVIDIA B200.

L'abilitazione del modello per la prima volta amplia la copertura

MLPerf Inference v6.0 ha introdotto diversi nuovi carichi di lavoro, e AMD ha utilizzato questo round per mostrare l'attivazione del modello rapido.conseguimento di risultati competitivi rispetto ai sistemi NVIDIA in scenari sia Offline che Server.

AMD ha anche presentato risultati per la generazione di testo-video Wan-2.2, segnando il suo ingresso nell'inferenza video multimodale e generativa.i risultati sono stati alla pari delle piattaforme esistentiLa messa a punto post-invio ha ulteriormente migliorato le prestazioni, evidenziando la possibilità di ottimizzazione man mano che lo stack di software matura.

Queste aggiunte sottolineano l'impegno di AMD di espandersi oltre i benchmark tradizionali LLM per supportare i carichi di lavoro emergenti di IA in diversi casi di utilizzo.

Il software ROCm consente la scalabilità e l'inferenza eterogenea

AMD attribuisce gran parte delle prestazioni e della scalabilità del MI355X al suo software ROCm.e supporto per la distribuzione dinamica del carico di lavoro in ambienti eterogenei.

AMD MLPerf risultati di inferenza istinto mI355x grafico

Un'importante presentazione eterogenea sviluppata da Dell e MangoBoost ha utilizzato tre modelli di GPU AMD Instinct: MI300X, MI325X e MI355X.521 token al secondo su Llama 2 70B Server e 151In particolare, la piattaforma MI355X si trovava nel laboratorio statunitense di Dell.mentre i sistemi MI300X e MI325X erano in Corea, dimostrando la capacità di coordinare i sistemi distribuiti in diverse posizioni geografiche..

Crescita e riproducibilità degli ecosistemi

L'ecosistema dei partner di AMD si è notevolmente ampliato in questo round MLPerf, con nove aziende che hanno presentato risultati su più generazioni di GPU Instinct.Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, e Red Hat, riflettendo l'ampia adozione del settore delle soluzioni di inferenza di AMD.

Le comunicazioni dei partner sono strettamente in linea con i risultati interni dell'AMD, in genere entro il 4% e in alcuni casi entro l'1%.Questa coerenza conferma che le prestazioni del MI355X sono riproducibili su piattaforme OEM e cloud., riducendo il rischio di implementazione e aumentando la fiducia nei risultati delle prestazioni reali.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!

PREV: VDURA introduce RDMA e context-aware tiering per le piattaforme di dati IA al GTC 2026

NEXT: Supermicro presenta tre nuovi sistemi di AI basati su AMD EPYC 4005

Dettagli di contatto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

AMD Instinct MI355X raggiunge MLPerf Inference v6.0 con oltre 1 milione di token al secondo e supporta ROC scalabile

Server di stoccaggio di scaffale

Server di fusione di Huawei

Dell Poweredge Server

Server di H3C

Commutatori di Datacom

Dispositivo di WLAN

Router senza fili astuto

Disco rigido HDD

SSD interno del disco rigido

Carta grafica di Geforce

Unità di elaborazione del CPU di INTEL

Memoria RAM del server

Server ristrutturato di stoccaggio

Modulo del ricetrasmettitore di SFP

Selettore di canale della fibra

AMD Instinct MI355X raggiunge MLPerf Inference v6.0 con oltre 1 milione di token al secondo e supporta ROC scalabile

CDNA 4 Architettura obiettivi di alta capacità di inferenza

Il throughput multinode supera il milione di token al secondo

Guadagni generativi e prestazioni competitive del singolo nodo

L'abilitazione del modello per la prima volta amplia la copertura

Il software ROCm consente la scalabilità e l'inferenza eterogenea

Crescita e riproducibilità degli ecosistemi

Server di stoccaggio di scaffale

12 server Rackmount dello scaffale di Lenovo ThinkSystem SR630 del server delle baie 1U

Unità di elaborazione di Intel Xeon E-2378G del server di stoccaggio di scaffale di ThinkSystem SR250 V2 4SFF

Server del supporto di scaffale di Inspur NF5180M6 1U del server di stoccaggio di scaffale di Intel C621A

Server di fusione di Huawei

Server 32 DDR4 DIMMs dello scaffale di FusionServer 5288 V6 4U 44 dischi rigidi a 3,5 pollici

Server ultra ad alta densità 1288H V5 di stoccaggio della rete del server 1U di fusione di Huawei

Stoccaggio istantaneo ibrido del nuovo di Gen OceanStor 5310 Huawei server dello scaffale