Casa Casi

Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP

Tutti i prodotti

Server di stoccaggio di scaffale
(165)

Server di fusione di Huawei
(31)

Dell Poweredge Server
(59)

Server di H3C
(31)

Commutatori di Datacom
(96)

Dispositivo di WLAN
(21)

Router senza fili astuto
(10)

Disco rigido HDD
(78)

SSD interno del disco rigido
(16)

Carta grafica di Geforce
(27)

Unità di elaborazione del CPU di INTEL
(20)

Memoria RAM del server
(6)

Server ristrutturato di stoccaggio
(6)

Modulo del ricetrasmettitore di SFP
(4)

Selettore di canale della fibra
(42)

Certificazione

Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni

Rassegne del cliente

Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP

May 15, 2026

Due tratti distintivi si distinguono per l'NVIDIA DGX Spark: memoria unificata da 128 GB in un'unità desktop da 4.000 dollari e una rete datacenter di 200 GB integrata.Il tessuto ad alta velocità lo distingue dalle normali postazioni di lavoro, che consente il clustering multi-nodo una volta esclusivo dei server montati su rack.e varianti HP Spark in cluster 200GbE a due nodi su diversi modelli e carichi di lavoroAnalizza anche il parallelismo di pipeline (PP), un metodo di divisione alternativo che supera il parallelismo del tensore predefinito (TP) di NVIDIA.

Fabbrica di rete da 200 Gb

Ogni Spark è dotato di due gabbie QSFP56 abbinate a un SmartNIC ConnectX-7 integrato.con una porta sufficiente per la piena larghezza di bandaLa seconda porta offre flessibilità di topologia: sono disponibili tre configurazioni comuni: collegamenti diretti Spark-to-Spark da 200 Gb, topologia anello senza switch tramite doppie porte da 100 Gb,e clustering ibrido con accesso di storage ad alta velocità NVMe-oF. NVIDIA vende desktop a unità singola, cluster a due nodi convalidati e nuove configurazioni a quattro nodi.La configurazione a doppia scintilla è la più pratica per l'inferenza in stile di produzione e l'obiettivo di questa prova.

Ragionamento per il raggruppamento delle scintille

Il vantaggio principale è l'espansione della capacità del modello: due Sparks collegati possono eseguire modelli con parametri 120B che superano i limiti di memoria di un'unica unità.la piattaforma funge da strumento educativo convenienteNVIDIA progetta Spark per i principianti per imparare i flussi di lavoro dell'IA, con guide ufficiali che coprono la distribuzione del modello, il fine-tuning e lo sviluppo di PyTorch / JAX.I cluster a doppio nodo insegnano ulteriormente il parallelismo multi-nodo e l'analisi dei colli di bottiglia della rete senza hardware costoso del datacenterIn particolare, Spark non è ottimizzato per l'inferenza di produzione.Gli aggregati più grandi subiscono un grave degrado delle prestazioni, con un basso throughput di token, limitandoli all'uso educativo piuttosto che al servizio commerciale.

Prova delle prestazioni: PP vs TP

Selezione della strategia di parallelizzazione

NVIDIA imposta per impostazione predefinita TP, che divide ogni strato di trasformatore in due GPU con frequenti scambi di dati all-reduced.trasferimento di attivazioni una sola volta tra i nodiSu collegamenti 200GbE, PP riduce al minimo la comunicazione tra nodi. Per i grandi modelli a grandi dimensioni di lotto, PP supera notevolmente TP; TP eccelle solo negli scenari di chat a singola richiesta a bassa latenza.

I test su GPT-OSS-120B confermano questo divario. A batch size 128, PP raggiunge 554.69 tok/s (2.20× più veloce di TP) in carichi di lavoro bilanciati, 310.63 tok/s vs 164.99 tok/s in compiti pre-riempimento pesanti.Conduci TP solo per il lotto di dimensione 1Per i modelli di piccole dimensioni come Llama-3.1-8B, TP domina la maggior parte delle dimensioni di lotto a causa del calcolo dei livelli leggeri, con PP che supera TP solo ad alta concurrenza.

Risultati di benchmark multi-modello (PP=2)

Serie GPT-OSS

Per GPT-OSS-120B, HP ha superato il picco di throughput in carichi di lavoro bilanciati (504,88 tok/s) e pre-riempimento pesanti (441,63 tok/s); GIGABYTE ha condotto test decodificativi pesanti (494,37 tok/s).Dell dominato equilibrato (976.77 tok/s) e scenari pre-riempimento pesante (852.39 tok/s), mentre GIGABYTE ha guidato le attività di decodifica (945.55 tok/s).

Llama 3.1 8B Varianti

Nella precisione BF16, Dell ha portato carichi di lavoro bilanciati (689.53 tok/s) e decodificati (581.43 tok/s); GIGABYTE ha vinto i test pre-riempimento pesanti (539.27 tok/s).GIGABYTE LED bilanciato (1458Per il FP8, Dell ha mantenuto un numero limitato di lead in scenari bilanciati (1105.42 tok/s) e decodificati (862.33 tok/s).

Modelli Mistral & Qwen

Mistral Small 3.1 24B ha visto lacune minime: GIGABYTE ha raggiunto il picco di 255,09 tok/s nei carichi di lavoro bilanciati.Dell eccelleva negli scenari di decodifica.Sotto la quantizzazione FB8, GIGABYTE ha superato il throughput pre-fill-heavy (3088.62 tok/s), mentre Dell ha guidato le attività di decodifica (705.77 tok/s).

Riassunto dei picchi di produzione dei sistemi a doppia scintilla

Modello	Scenario (BS 64)	Dell Output di picco	Gigabyte Pico di uscita	HP Pico di uscita
GPT-OSS-120B	ISL/OSL uguali	4630,97 tok/s	497.26 tok/s	5040,88 tok/s
GPT-OSS-120B	Prepieno pesante	419.56 tok/s	417.34 tok/s	4410,63 tok/s
GPT-OSS-120B	Decodifica pesante	451.18 tok/s	494.37 tok/s	4740,85 tok/s
GPT-OSS-20B	ISL/OSL uguali	976.77 tok/s	952.31 tok/s	915.72 tok/s
GPT-OSS-20B	Prepieno pesante	852.39 tok/s	802.37 tok/s	7570,05 tok/s
GPT-OSS-20B	Decodifica pesante	938.65 tok/s	945.55 tok/s	865.78 tok/s
Llama-3.1-8B-Instruzione	ISL/OSL uguali	689.53 tok/s	687.48 tok/s	618.87 tok/s
Llama-3.1-8B-Instruzione	Prepieno pesante	515.45 tok/s	539.27 tok/s	463.39 tok/s
Llama-3.1-8B-Instruzione	Decodifica pesante	581.43 tok/s	576.91 tok/s	5310,07 tok/s
Llama-3.1-8B-FP4	ISL/OSL uguali	1427.39 tok/s	14580,86 tok/s	1413.51 tok/s
Llama-3.1-8B-FP4	Prepieno pesante	884.22 tok/s	954.23 tok/s	843.57 tok/s
Llama-3.1-8B-FP4	Decodifica pesante	10080,98 tok/s	1007.23 tok/s	943.73 tok/s
Llama-3.1-8B-FP8	ISL/OSL uguali	1105.42 tok/s	10890,85 tok/s	1076.68 tok/s
Llama-3.1-8B-FP8	Prepieno pesante	759.50 tok/s	827.40 tok/s	725.51 tok/s
Llama-3.1-8B-FP8	Decodifica pesante	862.33 tok/s	855.81 tok/s	800.78 tok/s
Mistral-Small-3.1-24B	ISL/OSL uguali	249.77 tok/s	2550,09 tok/s	2390,09 tok/s
Mistral-Small-3.1-24B	Prepieno pesante	216.01 tok/s	214.38 tok/s	197.92 tok/s
Mistral-Small-3.1-24B	Decodifica pesante	238.44 tok/s	2370,97 tok/s	221.41 tok/s

Conclusioni

Le unità Dell, GIGABYTE e HP Spark offrono differenze di prestazione trascurabili, con minori vantaggi specifici del lotto.e supporto post-vendita rispetto alle differenze di riferimento banaliLa strategia di parallelizzazione ha un impatto molto maggiore rispetto alle varianti OEM: PP supera TP per l'inferenza batch, mentre TP si adatta all'interazione a basso ritardo di un singolo flusso.La raccomandazione del TP di NVIDIA si allinea con il posizionamento di Spark come dispositivo di apprendimento interattivo piuttosto che infrastruttura di produzioneUn cluster Spark a due nodi funge da piattaforma didattica conveniente per l'IA distribuita.in attesa di implementazione dello switch 800Gb del laboratorio.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!

PREV: Ricerca ORICO X50: Thunderbolt 5 velocità in un contenitore SSD portatile

NEXT: Seagate IronWolf Pro 32TB Review: Capacità di punta per NAS multi-Bay

Dettagli di contatto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP

Server di stoccaggio di scaffale

Server di fusione di Huawei

Dell Poweredge Server

Server di H3C

Commutatori di Datacom

Dispositivo di WLAN

Router senza fili astuto

Disco rigido HDD

SSD interno del disco rigido

Carta grafica di Geforce

Unità di elaborazione del CPU di INTEL

Memoria RAM del server

Server ristrutturato di stoccaggio

Modulo del ricetrasmettitore di SFP

Selettore di canale della fibra

Recensione NVIDIA DGX Spark Cluster: inferenza distribuita su Dell, GIGABYTE e HP

Fabbrica di rete da 200 Gb

Ragionamento per il raggruppamento delle scintille

Prova delle prestazioni: PP vs TP

Selezione della strategia di parallelizzazione

Risultati di benchmark multi-modello (PP=2)

Serie GPT-OSS

Llama 3.1 8B Varianti

Modelli Mistral & Qwen

Riassunto dei picchi di produzione dei sistemi a doppia scintilla

Conclusioni

Server di stoccaggio di scaffale

12 server Rackmount dello scaffale di Lenovo ThinkSystem SR630 del server delle baie 1U

Unità di elaborazione di Intel Xeon E-2378G del server di stoccaggio di scaffale di ThinkSystem SR250 V2 4SFF

Server del supporto di scaffale di Inspur NF5180M6 1U del server di stoccaggio di scaffale di Intel C621A

Server di fusione di Huawei

Server 32 DDR4 DIMMs dello scaffale di FusionServer 5288 V6 4U 44 dischi rigidi a 3,5 pollici

Server ultra ad alta densità 1288H V5 di stoccaggio della rete del server 1U di fusione di Huawei

Stoccaggio istantaneo ibrido del nuovo di Gen OceanStor 5310 Huawei server dello scaffale