Due tratti distintivi si distinguono per l'NVIDIA DGX Spark: memoria unificata da 128 GB in un'unità desktop da 4.000 dollari e una rete datacenter di 200 GB integrata.Il tessuto ad alta velocità lo distingue dalle normali postazioni di lavoro, che consente il clustering multi-nodo una volta esclusivo dei server montati su rack.e varianti HP Spark in cluster 200GbE a due nodi su diversi modelli e carichi di lavoroAnalizza anche il parallelismo di pipeline (PP), un metodo di divisione alternativo che supera il parallelismo del tensore predefinito (TP) di NVIDIA.
Fabbrica di rete da 200 Gb
Ogni Spark è dotato di due gabbie QSFP56 abbinate a un SmartNIC ConnectX-7 integrato.con una porta sufficiente per la piena larghezza di bandaLa seconda porta offre flessibilità di topologia: sono disponibili tre configurazioni comuni: collegamenti diretti Spark-to-Spark da 200 Gb, topologia anello senza switch tramite doppie porte da 100 Gb,e clustering ibrido con accesso di storage ad alta velocità NVMe-oF. NVIDIA vende desktop a unità singola, cluster a due nodi convalidati e nuove configurazioni a quattro nodi.La configurazione a doppia scintilla è la più pratica per l'inferenza in stile di produzione e l'obiettivo di questa prova.
Ragionamento per il raggruppamento delle scintille
Il vantaggio principale è l'espansione della capacità del modello: due Sparks collegati possono eseguire modelli con parametri 120B che superano i limiti di memoria di un'unica unità.la piattaforma funge da strumento educativo convenienteNVIDIA progetta Spark per i principianti per imparare i flussi di lavoro dell'IA, con guide ufficiali che coprono la distribuzione del modello, il fine-tuning e lo sviluppo di PyTorch / JAX.I cluster a doppio nodo insegnano ulteriormente il parallelismo multi-nodo e l'analisi dei colli di bottiglia della rete senza hardware costoso del datacenterIn particolare, Spark non è ottimizzato per l'inferenza di produzione.Gli aggregati più grandi subiscono un grave degrado delle prestazioni, con un basso throughput di token, limitandoli all'uso educativo piuttosto che al servizio commerciale.
Prova delle prestazioni: PP vs TP
Selezione della strategia di parallelizzazione
NVIDIA imposta per impostazione predefinita TP, che divide ogni strato di trasformatore in due GPU con frequenti scambi di dati all-reduced.trasferimento di attivazioni una sola volta tra i nodiSu collegamenti 200GbE, PP riduce al minimo la comunicazione tra nodi. Per i grandi modelli a grandi dimensioni di lotto, PP supera notevolmente TP; TP eccelle solo negli scenari di chat a singola richiesta a bassa latenza.
I test su GPT-OSS-120B confermano questo divario. A batch size 128, PP raggiunge 554.69 tok/s (2.20× più veloce di TP) in carichi di lavoro bilanciati, 310.63 tok/s vs 164.99 tok/s in compiti pre-riempimento pesanti.Conduci TP solo per il lotto di dimensione 1Per i modelli di piccole dimensioni come Llama-3.1-8B, TP domina la maggior parte delle dimensioni di lotto a causa del calcolo dei livelli leggeri, con PP che supera TP solo ad alta concurrenza.
Risultati di benchmark multi-modello (PP=2)
Serie GPT-OSS
Per GPT-OSS-120B, HP ha superato il picco di throughput in carichi di lavoro bilanciati (504,88 tok/s) e pre-riempimento pesanti (441,63 tok/s); GIGABYTE ha condotto test decodificativi pesanti (494,37 tok/s).Dell dominato equilibrato (976.77 tok/s) e scenari pre-riempimento pesante (852.39 tok/s), mentre GIGABYTE ha guidato le attività di decodifica (945.55 tok/s).
Llama 3.1 8B Varianti
Nella precisione BF16, Dell ha portato carichi di lavoro bilanciati (689.53 tok/s) e decodificati (581.43 tok/s); GIGABYTE ha vinto i test pre-riempimento pesanti (539.27 tok/s).GIGABYTE LED bilanciato (1458Per il FP8, Dell ha mantenuto un numero limitato di lead in scenari bilanciati (1105.42 tok/s) e decodificati (862.33 tok/s).
Modelli Mistral & Qwen
Mistral Small 3.1 24B ha visto lacune minime: GIGABYTE ha raggiunto il picco di 255,09 tok/s nei carichi di lavoro bilanciati.Dell eccelleva negli scenari di decodifica.Sotto la quantizzazione FB8, GIGABYTE ha superato il throughput pre-fill-heavy (3088.62 tok/s), mentre Dell ha guidato le attività di decodifica (705.77 tok/s).
Riassunto dei picchi di produzione dei sistemi a doppia scintilla
|
Modello
|
Scenario (BS 64)
|
Dell Output di picco
|
Gigabyte Pico di uscita
|
HP Pico di uscita
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL uguali
|
4630,97 tok/s
|
497.26 tok/s
|
5040,88 tok/s
|
|
GPT-OSS-120B
|
Prepieno pesante
|
419.56 tok/s
|
417.34 tok/s
|
4410,63 tok/s
|
|
GPT-OSS-120B
|
Decodifica pesante
|
451.18 tok/s
|
494.37 tok/s
|
4740,85 tok/s
|
|
GPT-OSS-20B
|
ISL/OSL uguali
|
976.77 tok/s
|
952.31 tok/s
|
915.72 tok/s
|
|
GPT-OSS-20B
|
Prepieno pesante
|
852.39 tok/s
|
802.37 tok/s
|
7570,05 tok/s
|
|
GPT-OSS-20B
|
Decodifica pesante
|
938.65 tok/s
|
945.55 tok/s
|
865.78 tok/s
|
|
Llama-3.1-8B-Instruzione
|
ISL/OSL uguali
|
689.53 tok/s
|
687.48 tok/s
|
618.87 tok/s
|
|
Llama-3.1-8B-Instruzione
|
Prepieno pesante
|
515.45 tok/s
|
539.27 tok/s
|
463.39 tok/s
|
|
Llama-3.1-8B-Instruzione
|
Decodifica pesante
|
581.43 tok/s
|
576.91 tok/s
|
5310,07 tok/s
|
|
Llama-3.1-8B-FP4
|
ISL/OSL uguali
|
1427.39 tok/s
|
14580,86 tok/s
|
1413.51 tok/s
|
|
Llama-3.1-8B-FP4
|
Prepieno pesante
|
884.22 tok/s
|
954.23 tok/s
|
843.57 tok/s
|
|
Llama-3.1-8B-FP4
|
Decodifica pesante
|
10080,98 tok/s
|
1007.23 tok/s
|
943.73 tok/s
|
|
Llama-3.1-8B-FP8
|
ISL/OSL uguali
|
1105.42 tok/s
|
10890,85 tok/s
|
1076.68 tok/s
|
|
Llama-3.1-8B-FP8
|
Prepieno pesante
|
759.50 tok/s
|
827.40 tok/s
|
725.51 tok/s
|
|
Llama-3.1-8B-FP8
|
Decodifica pesante
|
862.33 tok/s
|
855.81 tok/s
|
800.78 tok/s
|
|
Mistral-Small-3.1-24B
|
ISL/OSL uguali
|
249.77 tok/s
|
2550,09 tok/s
|
2390,09 tok/s
|
|
Mistral-Small-3.1-24B
|
Prepieno pesante
|
216.01 tok/s
|
214.38 tok/s
|
197.92 tok/s
|
|
Mistral-Small-3.1-24B
|
Decodifica pesante
|
238.44 tok/s
|
2370,97 tok/s
|
221.41 tok/s
|
Conclusioni
Le unità Dell, GIGABYTE e HP Spark offrono differenze di prestazione trascurabili, con minori vantaggi specifici del lotto.e supporto post-vendita rispetto alle differenze di riferimento banaliLa strategia di parallelizzazione ha un impatto molto maggiore rispetto alle varianti OEM: PP supera TP per l'inferenza batch, mentre TP si adatta all'interazione a basso ritardo di un singolo flusso.La raccomandazione del TP di NVIDIA si allinea con il posizionamento di Spark come dispositivo di apprendimento interattivo piuttosto che infrastruttura di produzioneUn cluster Spark a due nodi funge da piattaforma didattica conveniente per l'IA distribuita.in attesa di implementazione dello switch 800Gb del laboratorio.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!



