Principali insegnamenti
- Trasmissione senza precedenti in un singolo nodo:Il R7725xd ha sostenuto oltre 300 GB/s di larghezza di banda interna e 160 GB/s su NVMe-oF RDMA, rivaleggiando con i cluster di storage multi-nodo all'interno di un telaio 2U.
- Verità di architettura Gen5, senza interruttori, senza fan-out:Tutti i 24 Micron 9550 PRO SSD ricevono corsie dedicate x4 PCIe Gen5 direttamente dal complesso CPU, consentendo la scalabilità della velocità di linea senza contesa.
- Alimentato da AMD EPYC 9005 Serie:Due processori AMD EPYC 9575F forniscono il numero di corsie, la larghezza di banda della memoria e la topologia NUMA necessarie per un'I/O ad alta concurrenza sostenuta.
- Progettato per AI, Analytics e carichi di lavoro con punti di controllo elevati:Il sistema elimina i colli di bottiglia I/O che bloccano le moderne pipeline GPU, consentendo una consegna continua di dati ad alta larghezza di banda.
- PEAK: AIO sblocca il pieno parallelismo:PEAK: lo stack software di AIO mantiene le strutture di coda sature sotto carico, offrendo prestazioni aziendali ad un rapporto dollaro per GB convincente.
La sezione di archiviazione di iDRAC 10 presenta una panoramica completa di tutti i dischi fisici installati nel R7725xd. Il pannello di riassunto mostra un conteggio di alto livello di tutti gli drive connessi,con un grafico a torta visivo che illustra gli stati di azionamentoIn questa configurazione, 24 SSD NVMe sono attivi e segnalati come pronti, con due dispositivi di avvio aggiuntivi presenti nel sistema, separati dal banco NVMe principale.
A destra, il pannello Riassunto dei Dischi li suddivide in dischi fisici e eventuali dischi virtuali associati.,tutte le unità sono segnalate come non RAID e individualmente indirizzabili, in linea con la progettazione del sistema per grandi pool NVMe e piattaforme SDS.
Sotto il riassunto dello stato, l'area Eventi di archiviazione registrati di recente elenca i registri di inserimento per ciascun SSD PCIe, organizzati per bacino e slot.Questo record conferma il corretto rilevamento in tutti i bacini di trazione e aiuta a identificare eventuali problemi con sedutePer le grandi implementazioni, questi registri sono utili per monitorare il provisioning dell'unità o verificare che la capacità sia stata riempita come previsto.
La schermata finale mostra la vista dettagliata del dispositivo NVMe all'interno di iDRAC10. Ogni unità NVMe installata nel sistema è elencata con lo stato, la capacità e la posizione della baia.La selezione di un'unità individuale apre una completa ripartizione delle sue caratteristiche.
In questo esempio, il pannello di informazioni dell'unità visualizza la stringa completa del modello, il protocollo del dispositivo, il fattore di forma e le impostazioni PCIe negoziate.I dispositivi NVMe funzionano a 32 GT/s con una connessione x4 negoziata, che conferma che le unità funzionano a piena larghezza di banda sul backplane PCIe Gen5 del sistema.aiutare gli amministratori a monitorare le aspettative di salute e ciclo di vita del veicolo.
Questa segnalazione granulare dell'unità è preziosa nelle configurazioni NVMe ad alta densità in cui la larghezza del collegamento, la velocità negoziata e lo stato dei media influenzano direttamente il comportamento del carico di lavoro e le prestazioni di archiviazione.
Nel complesso, l'interfaccia iDRAC 10 fornisce una visione chiara e hardware-centrica dell'architettura di archiviazione NVMe R7725xd, consentendo una facile convalida dello stato del collegamento, dello stato dell'unità,e l'integrità del sistema in un'occhiata.
Dell PowerEdge R7725xd prestazioni
Prima dei test, il nostro sistema è stato configurato con un carico equilibrato ma ad alte prestazioni, dotato di due processori AMD EPYC 9575F, ciascuno con 64 core ad alta frequenza,e abbinato a 24 DDR5 DIMM da 32 GB che funzionano a 6400 MT/sPer l'archiviazione, il telaio è completamente popolato da 24 SSD Micron 9550 PRO U.2 NVMe da 15,36 TB, ciascuno collegato tramite un collegamento PCIe Gen5 x4 dedicato.e le unità Micron 9550 PRO offrono velocità di lettura sequenziale fino a 14,000 MB/s e velocità di scrittura sequenziale fino a 10.000 MB/s. La rete è gestita da quattro adattatori Broadcom BCM57608 che forniscono un totale di otto porte da 200Gb,con una BCM57412 OCP NIC che offre due porte aggiuntive da 10 gigabit.
Specifiche del sistema di prova
- CPU:2x processori ad alta frequenza a 64 core AMD EPYC 9575F
- Memoria:24x 32GB DDR5 @ 6400MT/s
- Immagazzinamento:24x 15.36TB Micron 9550 PRO U.2 drive (connessi a 4x corsie di PCIe Gen5 ciascuno); supporta fino a 128TB drive oggi con maggiori capacità all'orizzonte
- Rete:4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb NIC OCP
- Interruttore:Dell PowerSwitch Z9664
FIO Performance Benchmark
Per misurare le prestazioni di archiviazione del PowerEdge R7725xd, abbiamo utilizzato metriche standard del settore e lo strumento FIO.
- 4K casuale 1M
- Sequenziale 4K 1M
FIO ️ locale ️ larghezza di banda
Durante il test dell'accesso locale alle 24 unità NVMe PCIe Gen5 all'interno del Dell PowerEdge R7725xd,il sistema mostra esattamente ciò che ci si aspetterebbe da una piattaforma in cui ogni unità è collegata alle CPU utilizzando un collegamento full x4 lane PCIe Gen5Senza coinvolgere alcun livello di rete, questo è il puro throughput interno del layout di archiviazione Dell's Gen5 e la larghezza di banda PCIe della piattaforma AMD EPYC che funziona senza restrizioni.
Le letture sequenziali iniziano a 184 GB/s con blocchi 4K e si ridimensionano rapidamente man mano che la dimensione del blocco aumenta.che è una forte indicazione di quanto il sistema possa aggregare tutte le corsie 24 × 4 Gen5 in larghezza di banda di lettura sostenuta senza ostacoli al livello del controller.
Le scritture sequenziali seguono una curva diversa, ma rimangono saldamente nel range atteso.Questo si allinea con il comportamento di scrittura degli SSD Micron 9550 PRO e il sovraccarico inerente alle scritture NVMe in alto parallelo su così tanti dispositivi indipendenti.
Le prestazioni di lettura casuale sono un altro punto saliente: il sistema raggiunge velocità di quasi 300 GB/s alle dimensioni più piccole dei blocchi, scende leggermente nella gamma media,e poi si riprende a 200s superiore e 300s basso a blocchi più grandiA 1M, le letture casuali raggiungono un massimo di 318 GB/s, dimostrando la capacità della piattaforma di distribuire le operazioni miste uniformemente su tutti i 24 drive.
Le scritture casuali arrivano ad un tasso inferiore, che è tipico per i metadati dispersi e le attività di allocazione di scrittura in un ampio set NVMe.I risultati rimangono nell'intervallo da 140 a 160 GB/s per la maggior parte del test e diminuiscono a poco meno di 100 GB/s a 1 M.
FIO local IOPS
Quando si esamina il lato IOPS, il R7725xd dimostra robuste prestazioni di piccolo blocco,con tassi di richiesta che raggiungono ben in decine di milioni prima che i blocchi più grandi spostino il carico di lavoro verso un profilo basato sulla larghezza di banda.
A 4K, le letture raggiungono i 44,9 milioni di IOPS e le scritture arrivano a 36,3 milioni.Dimostrare la capacità del sistema di distribuire in modo efficiente i carichi di lavoro in fila su tutte le unitàQuesti valori diminuiscono naturalmente con l'aumentare delle dimensioni dei blocchi, ma la progressione rimane costante attraverso gli intervalli di 8K, 16K e 32K.
Per i blocchi 16K e 32K, le letture si stabiliscono a 17,4 milioni e 8,35 milioni di IOPS, con letture casuali che corrispondono a 16,5 milioni e 8,15 milioni.Tracciamento inferiore ma stabile in entrambi i modelli di accesso sequenziale e casuale.
Man mano che ci spostiamo verso 64K e oltre, i test passano da puro IOPS a uno scenario più legato alla larghezza di banda.A dimensioni di blocco 1M, legge IOPS terra intorno a 300K, scrive a circa 174K, e operazioni casuali fine nello stesso quartiere.
Nel complesso, i risultati locali dell'IOPS mostrano chiaramente la capacità del sistema di sostenere carichi di lavoro con una profondità di coda molto elevata su piccoli blocchi,con scalabilità prevedibile man mano che i trasferimenti crescono e la larghezza di banda diventa il fattore dominante.
PEAK: AIO: Perché il Dell PowerEdge R7725xd si adatta a questo carico di lavoro
PEAK: AIO è progettato per ambienti che richiedono un accesso estremamente veloce e a bassa latenza a grandi set di dati, in genere per la formazione dell'IA, le condotte di inferenza, la modellazione finanziaria e l'analisi in tempo reale.La piattaforma prospera con lo storage NVMePer soddisfare questi requisiti, è necessario un'ampiezza di banda PCIe equilibrata e una latenza prevedibile su scala.l'hardware sottostante deve fornire un throughput costante mantenendo prestazioni costanti e ripetibili sotto carichi pesanti simultanei.
Questo è il punto in cui il Dell PowerEdge R7725xd si allinea naturalmente con PEAK: AIO. L'architettura del sistema è progettata per massimizzare le risorse PCIe Gen5, esponendo la piena larghezza di banda dei suoi 24 U montati sul fronte.2 bacini NVMe direttamente alle CPUQuesto layout conferisce a PEAK:AIO il profilo di parallelismo e latenza che si aspetta dalle moderne condotte di dati basate su NVMe.La configurazione del sistema ha diviso gli SSD NVMe in due gruppi RAID0.
Nello scenario testato, abbiamo usato due sistemi client collegati al R7725xd, ciascuno dotato di NIC Broadcom BCM57608 2x 200G.spingendo il R7725xd in una configurazione realistica ad alte prestazioni che rispecchia ciò che PEAKQuesto livello di larghezza di banda di rete ci ha dato il margine di manovra per sottolineare completamente il sottosistema NVMe, la topologia PCIe,e l'interconnessione della CPU senza strozzatura allo strato NIC.
Il risultato è una piattaforma che si allinea efficacemente con i carichi di lavoro PEAK:AIO.e la capacità di rete per sostenere l'ingestione di dati multi-client a centinaia di gigabit per clientTutte queste caratteristiche sono fondamentali per raggiungere le aspettative di performance di PEAK:AIO.
PEAK:AIO ️ NVMe-of RDMA ️ Larghezza di banda
Esaminando i risultati della larghezza di banda NVMe-oF RDMA sul PowerEdge R7725xd con PEAK: AIO, la tendenza generale è esattamente ciò che ci aspettiamo da un sistema con così tanta larghezza di banda PCIe e di rete.Man mano che la dimensione del blocco aumenta, la portata aumenta rapidamente fino a stabilizzarsi vicino al limite pratico della piattaforma.
Nelle piccole dimensioni del blocco, le prestazioni iniziano a metà del range di 20 GB / s sia per le letture che per le scritture, il che è normale perché i trasferimenti 4K e 8K spingono il percorso IOPS molto più duramente del percorso di throughput.Una volta arrivati ai blocchi 16K e 32K, la pipeline si apre. Le letture saltano a circa 154 GB/s a 32K e continuano a salire al range di 160 GB/s, che è proprio dove ci aspetteremmo una configurazione dual-client su quattro collegamenti 200 Gb/s a terra.
PEAK: AIO fa un buon lavoro nel mantenere le code di comando alimentate.Quindi la larghezza di banda di lettura casuale essenzialmente traccia la larghezza di banda di lettura sequenziale fino in alto, che si stabilisce a circa 159 a 161 GB/s da 32K a 1M. Ciò indica che la pila di archiviazione non presenta strozzature nei modelli di accesso misto,e la topologia PCIe R7725xd?? s distribuisce il carico uniformemente tra i 24 drive NVMe Gen5.
Le prestazioni di scrittura seguono una curva simile, sebbene sia leggermente inferiore rispetto alle letture.abbassando a circa 117 GB/s a 128K ma recuperando con l'aumento delle dimensioni del bloccoLe scritture casuali si comportano in modo diverso e si appiattiscono più vicino a 110-117 GB/s, che è normale per carichi di lavoro a coda mista che introducono costi aggiuntivi.
Il punto chiave di questa sezione è che l'R7725xd non ha problemi a mantenere una larghezza di banda estremamente elevata su NVMe-oF, anche con più client che portano il sistema ai suoi limiti.Una volta che le dimensioni dei blocchi raggiungono 32K o superiore, il server satura costantemente la sua rete disponibile e la larghezza di banda di archiviazione.rendendo questi risultati una forte convalida della capacità di scalabilità della piattaforma in condizioni reali.
PEAK AIO ¢ NVMe-of RDMA IOPS
Sul lato IOPS, il PowerEdge R7725xd mostra una buona performance a piccoli blocchi, anche se inizialmente abbiamo osservato numeri inferiori alle aspettative;Questo problema dovrebbe essere risolto con un supporto migliorato per i driver di rete in futuro.Anche con questo in gioco, la tendenza di scalabilità complessiva appare esattamente come NVMe-oF RDMA si comporta in genere quando la dimensione del blocco aumenta.
Al più piccolo blocco, il sistema può fornire più di 6 milioni di IOPS su carichi di lavoro sequenziali e casuali.e random scrivere tutti seduti in circa lo stesso intervallo a 4K e 8K, indicando che i client front-end, l'infrastruttura PCIe e le unità NVMe non hanno problemi a tenere il passo con il tasso di richiesta.
Con l'aumentare delle dimensioni dei blocchi, inizia il calo atteso degli IOPS. A 32K, le letture raggiungono circa 4,7 milioni di IOPS, mentre le scritture sono leggermente indietro a circa 4,4 milioni.,Il tasso di accesso a Internet è diminuito a circa 3,3 milioni di IOPS, che si allinea con la coda aggiuntiva e il sovraccarico della CPU introdotto dai modelli di accesso misto.
Passando ai blocchi di grandi dimensioni, l'IOPS continua a diminuire in modo lineare e prevedibile.e IOPS naturalmente scende a metà centinaia di migliaiaA una dimensione di blocco di 1M, tutti i carichi di lavoro convergono a 140K-153K IOPS, coerente con i numeri di larghezza di banda che abbiamo visto nella sezione precedente.
Performance di archiviazione GPUDirect
Uno dei test che abbiamo condotto sulla R7725xd è stato il test Magnum IO GPUDirect Storage (GDS).GDS è una funzionalità sviluppata da NVIDIA che consente alle GPU di bypassare la CPU quando accedono ai dati memorizzati su unità NVMe o altri dispositivi di archiviazione ad alta velocitàInvece di indirizzare i dati attraverso la CPU e la memoria di sistema, GDS consente la comunicazione diretta tra la GPU e il dispositivo di archiviazione, riducendo significativamente la latenza e migliorando il throughput dei dati.
Come funziona il GPUDirect Storage
Tradizionalmente, quando una GPU elabora i dati memorizzati su un'unità NVMe, i dati devono prima attraversare la CPU e la memoria di sistema prima di raggiungere la GPU.Come la CPU diventa un intermediarioGPUDirect Storage elimina questa inefficienza consentendo alla GPU di accedere ai dati direttamente dal dispositivo di archiviazione tramite il bus PCIe.Questo percorso diretto riduce il movimento dei dati, consentendo trasferimenti di dati più rapidi ed efficienti.
I carichi di lavoro dell'IA, in particolare quelli che coinvolgono l'apprendimento profondo, richiedono molto dati.e qualsiasi ritardo nel trasferimento dei dati può portare a GPU sottoutilizzate e tempi di formazione più lunghi. GPUDirect Storage affronta questa sfida garantendo che i dati vengano consegnati alla GPU il più rapidamente possibile, riducendo al minimo il tempo di inattività e massimizzando l'efficienza computazionale.
Inoltre, il GDS è particolarmente utile per i carichi di lavoro che comportano lo streaming di grandi set di dati, come l'elaborazione video, l'elaborazione del linguaggio naturale o l'inferenza in tempo reale.Riducendo la dipendenza dalla CPU, GDS accelera il movimento dei dati e libera le risorse della CPU per altre attività, migliorando ulteriormente le prestazioni complessive del sistema.
Oltre alla larghezza di banda grezza, GPUDirect con NVMe-oF (TCP/RDMA) offre anche I/O a latenza ultra-bassa. Ciò garantisce che le GPU non siano mai affamate di dati, rendendo il sistema ideale per l'inferenza AI in tempo reale,condotte di analisi, e riproduzione video.
GDSIO Read Sequential
Quando si esamina PEAK:AIO con un client che utilizza GDSIO, il throughput di lettura mostra un chiaro modello di scalabilità in quanto aumentano sia le dimensioni del blocco che il numero di thread.Questo singolo client è stato collegato tramite due collegamenti 400G, limitando la sua potenza totale a 90 GB/s.
Le dimensioni dei blocchi più piccoli e il basso numero di thread, le prestazioni sono modeste, con letture 4K a partire da circa 189 MiB/s su un singolo thread.il sistema risponde immediatamente, spingendo 691MiB/s a quattro fili e rompendo nel range multi-GiB/s mentre entriamo in blocchi più grandi.
Le dimensioni dei blocchi di fascia media mostrano la maggiore sensibilità al numero di thread.con solo un leggero affine oltre questoUn modello simile appare a 64K e 128K, dove il sistema passa da un basso GiB/s a una singola cifra a un basso parallelismo a oltre 30 GiB/s man mano che il carico di lavoro aumenta.
Una volta raggiunte le dimensioni dei blocchi più grandi, il throughput inizia a stabilizzarsi man mano che il sistema si avvicina al suo limite di performance per un singolo client.le prestazioni aumentano da 11 GiB/s ad un filo a circa 88 GiB/s ad un numero elevato di filiI trasferimenti di 5 MiB e 10 MiB mostrano lo stesso plateau, raggiungendo il massimo intorno a 89 ‰ 90 GiB/s indipendentemente dal fatto che il test sia eseguito a 64, 128 o 256 thread.
GDSIO Scrivere in sequenza
Sul lato della scrittura, il comportamento di scalazione segue un modello simile a quello delle letture, ma con prestazioni leggermente inferiori nella maggior parte delle dimensioni dei blocchi, come previsto per i carichi di lavoro di scrittura sequenziali.Le dimensioni più piccole dei blocchi, il throughput inizia a 165 MiB/s per un singolo thread a 4K e aumenta costantemente man mano che aumenta il parallelismo.
Le dimensioni dei blocchi di fascia media mostrano guadagni più forti con l'aumento del numero di thread.Le gamme 64K e 128K continuano la tendenza, passando da un basso GiB/s a una media di 30 GiB/s e 50 GiB/s man mano che il carico di lavoro diventa più parallelo.
I trasferimenti più grandi sono quando il sistema si stabilisce nel suo naturale tetto di scrittura.I test di 5 MiB e 10 MiB seguono uno schema simile, con risultati di picco intorno a 90 GiB/s indipendentemente dal fatto che il sistema sia in esecuzione a 64, 128 o 256 thread.
Ridefinire le prestazioni nell'era della Gen5
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!



