logo
Casa Casi

Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP

Certificazione
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Rassegne del cliente
Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: “Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP

May 15, 2026
Due tratti distintivi si distinguono per l'NVIDIA DGX Spark: memoria unificata da 128 GB in un'unità desktop da 4.000 dollari e una rete datacenter di 200 GB integrata.Il tessuto ad alta velocità lo distingue dalle normali postazioni di lavoro, che consente il clustering multi-nodo una volta esclusivo dei server montati su rack.e varianti HP Spark in cluster 200GbE a due nodi su diversi modelli e carichi di lavoroAnalizza anche il parallelismo di pipeline (PP), un metodo di divisione alternativo che supera il parallelismo del tensore predefinito (TP) di NVIDIA.

ultimo caso aziendale circa Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP  0

Fabbrica di rete da 200 Gb


Ogni Spark è dotato di due gabbie QSFP56 abbinate a un SmartNIC ConnectX-7 integrato.con una porta sufficiente per la piena larghezza di bandaLa seconda porta offre flessibilità di topologia: sono disponibili tre configurazioni comuni: collegamenti diretti Spark-to-Spark da 200 Gb, topologia anello senza switch tramite doppie porte da 100 Gb,e clustering ibrido con accesso di storage ad alta velocità NVMe-oF. NVIDIA vende desktop a unità singola, cluster a due nodi convalidati e nuove configurazioni a quattro nodi.La configurazione a doppia scintilla è la più pratica per l'inferenza in stile di produzione e l'obiettivo di questa prova.

ultimo caso aziendale circa Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP  1

Ragionamento per il raggruppamento delle scintille


Il vantaggio principale è l'espansione della capacità del modello: due Sparks collegati possono eseguire modelli con parametri 120B che superano i limiti di memoria di un'unica unità.la piattaforma funge da strumento educativo convenienteNVIDIA progetta Spark per i principianti per imparare i flussi di lavoro dell'IA, con guide ufficiali che coprono la distribuzione del modello, il fine-tuning e lo sviluppo di PyTorch / JAX.I cluster a doppio nodo insegnano ulteriormente il parallelismo multi-nodo e l'analisi dei colli di bottiglia della rete senza hardware costoso del datacenterIn particolare, Spark non è ottimizzato per l'inferenza di produzione.Gli aggregati più grandi subiscono un grave degrado delle prestazioni, con un basso throughput di token, limitandoli all'uso educativo piuttosto che al servizio commerciale.

Prova delle prestazioni: PP vs TP


Selezione della strategia di parallelizzazione


NVIDIA imposta per impostazione predefinita TP, che divide ogni strato di trasformatore in due GPU con frequenti scambi di dati all-reduced.trasferimento di attivazioni una sola volta tra i nodiSu collegamenti 200GbE, PP riduce al minimo la comunicazione tra nodi. Per i grandi modelli a grandi dimensioni di lotto, PP supera notevolmente TP; TP eccelle solo negli scenari di chat a singola richiesta a bassa latenza.
I test su GPT-OSS-120B confermano questo divario. A batch size 128, PP raggiunge 554.69 tok/s (2.20× più veloce di TP) in carichi di lavoro bilanciati, 310.63 tok/s vs 164.99 tok/s in compiti pre-riempimento pesanti.Conduci TP solo per il lotto di dimensione 1Per i modelli di piccole dimensioni come Llama-3.1-8B, TP domina la maggior parte delle dimensioni di lotto a causa del calcolo dei livelli leggeri, con PP che supera TP solo ad alta concurrenza.

Risultati di benchmark multi-modello (PP=2)


Serie GPT-OSS


Per GPT-OSS-120B, HP ha superato il picco di throughput in carichi di lavoro bilanciati (504,88 tok/s) e pre-riempimento pesanti (441,63 tok/s); GIGABYTE ha condotto test decodificativi pesanti (494,37 tok/s).Dell dominato equilibrato (976.77 tok/s) e scenari pre-riempimento pesante (852.39 tok/s), mentre GIGABYTE ha guidato le attività di decodifica (945.55 tok/s).

Llama 3.1 8B Varianti


Nella precisione BF16, Dell ha portato carichi di lavoro bilanciati (689.53 tok/s) e decodificati (581.43 tok/s); GIGABYTE ha vinto i test pre-riempimento pesanti (539.27 tok/s).GIGABYTE LED bilanciato (1458Per il FP8, Dell ha mantenuto un numero limitato di lead in scenari bilanciati (1105.42 tok/s) e decodificati (862.33 tok/s).

Modelli Mistral & Qwen


Mistral Small 3.1 24B ha visto lacune minime: GIGABYTE ha raggiunto il picco di 255,09 tok/s nei carichi di lavoro bilanciati.Dell eccelleva negli scenari di decodifica.Sotto la quantizzazione FB8, GIGABYTE ha superato il throughput pre-fill-heavy (3088.62 tok/s), mentre Dell ha guidato le attività di decodifica (705.77 tok/s).

Riassunto dei picchi di produzione dei sistemi a doppia scintilla


Modello
Scenario (BS 64)
Dell Output di picco
Gigabyte Pico di uscita
HP Pico di uscita
GPT-OSS-120B
ISL/OSL uguali
4630,97 tok/s
497.26 tok/s
5040,88 tok/s
GPT-OSS-120B
Prepieno pesante
419.56 tok/s
417.34 tok/s
4410,63 tok/s
GPT-OSS-120B
Decodifica pesante
451.18 tok/s
494.37 tok/s
4740,85 tok/s
GPT-OSS-20B
ISL/OSL uguali
976.77 tok/s
952.31 tok/s
915.72 tok/s
GPT-OSS-20B
Prepieno pesante
852.39 tok/s
802.37 tok/s
7570,05 tok/s
GPT-OSS-20B
Decodifica pesante
938.65 tok/s
945.55 tok/s
865.78 tok/s
Llama-3.1-8B-Instruzione
ISL/OSL uguali
689.53 tok/s
687.48 tok/s
618.87 tok/s
Llama-3.1-8B-Instruzione
Prepieno pesante
515.45 tok/s
539.27 tok/s
463.39 tok/s
Llama-3.1-8B-Instruzione
Decodifica pesante
581.43 tok/s
576.91 tok/s
5310,07 tok/s
Llama-3.1-8B-FP4
ISL/OSL uguali
1427.39 tok/s
14580,86 tok/s
1413.51 tok/s
Llama-3.1-8B-FP4
Prepieno pesante
884.22 tok/s
954.23 tok/s
843.57 tok/s
Llama-3.1-8B-FP4
Decodifica pesante
10080,98 tok/s
1007.23 tok/s
943.73 tok/s
Llama-3.1-8B-FP8
ISL/OSL uguali
1105.42 tok/s
10890,85 tok/s
1076.68 tok/s
Llama-3.1-8B-FP8
Prepieno pesante
759.50 tok/s
827.40 tok/s
725.51 tok/s
Llama-3.1-8B-FP8
Decodifica pesante
862.33 tok/s
855.81 tok/s
800.78 tok/s
Mistral-Small-3.1-24B
ISL/OSL uguali
249.77 tok/s
2550,09 tok/s
2390,09 tok/s
Mistral-Small-3.1-24B
Prepieno pesante
216.01 tok/s
214.38 tok/s
197.92 tok/s
Mistral-Small-3.1-24B
Decodifica pesante
238.44 tok/s
2370,97 tok/s
221.41 tok/s


Conclusioni


Le unità Dell, GIGABYTE e HP Spark offrono differenze di prestazione trascurabili, con minori vantaggi specifici del lotto.e supporto post-vendita rispetto alle differenze di riferimento banaliLa strategia di parallelizzazione ha un impatto molto maggiore rispetto alle varianti OEM: PP supera TP per l'inferenza batch, mentre TP si adatta all'interazione a basso ritardo di un singolo flusso.La raccomandazione del TP di NVIDIA si allinea con il posizionamento di Spark come dispositivo di apprendimento interattivo piuttosto che infrastruttura di produzioneUn cluster Spark a due nodi funge da piattaforma didattica conveniente per l'IA distribuita.in attesa di implementazione dello switch 800Gb del laboratorio.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
“Utilizzare la tecnologia per costruire un mondo intelligente”Il vostro fornitore di servizi di prodotti ICT di fiducia!
Dettagli di contatto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

Invia la tua richiesta direttamente a noi (0 / 3000)