Principali insegnamenti
- Flash-first NVMe RAID:PERC13 H975i si allontana completamente da SAS/SATA, basato su Broadcom SAS51xx per un'architettura nativa NVMe, pronta per l'IA.
- Un grande salto generazionale:PCIe Gen5 x16 con fino a 16 unità NVMe per controller (32 con due) ha fornito 52,5 GB/s e 12,5 M IOPS per controller nei test, con guadagni rispetto a PERC12 tra cui +88% di larghezza di banda di lettura,+318% larghezza di banda di scrittura, +31% 4K legge IOPS, e +466% 4K scrive IOPS.
- Adatta al server AI:Il design integrato frontale libera le slot PCIe posteriori per le GPU, accorcia le esecuzioni MCIO e consente un tubo di archiviazione dedicato per acceleratore per un throughput più stabile e deterministico senza sovraccarico della CPU.
- Resilienza allo stress:La cache protetta da supercondensatore e le ricostruzioni più veloci riducono il tempo fino a 10 min/TiB mantenendo alti livelli di performance durante le ricostruzioni (fino a 53,7 GB/s di lettura, 68 GB/s di scrittura, 17,3M/5,33M 4K IOPS).
- Sicurezza end-to-end:Hardware Root of Trust, identità del dispositivo SPDM e crittografia a spettro completo che copre le unità, i dati in volo e la cache del controller.
Dell PERC12 H965i e PERC13 H975i
| Caratteristica | PERC12 H965i Fronte | PERC13 H975i Fronte |
|---|---|---|
| Livelli di RAID | 0, 1, 5, 6, 10, 50, 60 | 0, 1, 5, 6, 10, 50, 60 |
| Non-RAID (JBOD) | - Sì, sì. | - Sì, sì. |
| Tipo di bus ospitante | PCIe Gen4 x16 | PCIe Gen5 x16 |
| Gestione della banda laterale | I2C, PCIe VDM | I2C, PCIe VDM |
| Recinti per porto | Non applicabile | Non applicabile |
| Processore / chipset | Broadcom RAID-on-Chip, SAS4116W | Broadcom RAID-on-Chip, SAS5132W |
| Energy Pack / Power-backup | Batteria | Supercondensatore |
| Sicurezza della gestione delle chiavi locali | - Sì, sì. | - Sì, sì. |
| Gestione chiave aziendale sicura | - Sì, sì. | - Sì, sì. |
| Profondità di coda del controller | 8,192 | 8,192 |
| Cache non volatile | - Sì, sì. | - Sì, sì. |
| Memoria di cache | 8 GB DDR4 3200 MT/s | Cache RAID integrato |
| Funzioni di cache | Scrivere indietro, leggere avanti, scrivere attraverso, sempre scrivere indietro, senza leggere avanti | Scrivere indietro, scrivere attraverso, sempre scrivere indietro, senza lettura in anticipo |
| Dischi virtuali complessi max | 64 | 16 |
| Max Dischi virtuali semplici | 240 | 64 |
| Gruppi di dischi massimi | 64 | 32 |
| Max VD per gruppo di dischi | 16 | 8 |
| Dispositivi di ricambio a caldo | 64 | 8 |
| Dispositivi di scambio a caldo supportati | - Sì, sì. | - Sì, sì. |
| Configurazione automatica (primaria ed esecuzione una volta) | - Sì, sì. | - Sì, sì. |
| Motore XOR hardware | - Sì, sì. | - Sì, sì. |
| Espansione della capacità online | - Sì, sì. | - Sì, sì. |
| Dedicato & Global Hot Spare | - Sì, sì. | - Sì, sì. |
| Tipi di unità supportati | NVMe Gen3 e Gen4 | NVMe Gen3, Gen4 e Gen5 |
| Dimensione dell'elemento della striscia VD | 64KB | 64KB |
| Supporto NVMe PCIe | Gen4 | Gen5 |
| Configurazione Max NVMe Drives | 8 unità per controllore | 16 unità per controller |
| Dimensioni dei settori sostenuti | 512B, 512e, 4Kn | 512B, 512e, 4Kn |
| Supporto per l'avvio dello storage | Solo UEFI | Solo UEFI |
Il controller frontal PERC13 H975i nei server Dell PowerEdge è progettato per un'integrazione senza soluzione di continuità nell'architettura del sistema.l'H975i si collega direttamente al backplane anteriore e si interfaccia con i connettori MCIO anteriori sulla scheda madre tramite PCIe 5 dedicatoQuesta progettazione integrata conserva gli slot PCIe posteriori per GPU ad alte prestazioni e l'ulteriore espansione PCIe, riducendo significativamente la lunghezza dei cavi.Questo aiuta a mantenere l'integrità del segnaleIl risultato è un layout interno più pulito e un flusso d'aria migliorato per implementazioni dense e ad alta intensità di calcolo.
L'H975i implementa un'architettura di sicurezza completa che spazia dall'attestazione hardware a livello di silicio attraverso la crittografia dei dati a spettro completo dei dati in atto con le unità SED.,Hardware Root of Trust stabilisce una catena immutabile di verifica crittografica dalla ROM di avvio interna attraverso ogni componente del firmware,garantire che solo il firmware certificato Dell autenticato possa essere eseguito sul controllerQuesta sicurezza basata sull'hardware si estende attraverso l'implementazione del protocollo di sicurezza e del modello di dati (SPDM),quando ciascun controller contiene un certificato di identità del dispositivo unico che consente a iDRAC di eseguire la verifica di autenticazione in tempo realeIl controller estende la protezione crittografica oltre i tradizionali scenari di data-at-rest per includere la memoria cache.Mantiene le chiavi di crittografia in aree di memoria sicure inaccessibili a firmware non autorizzatiDi conseguenza, i dati sensibili rimangono protetti, sia che risiedano su unità o siano attivamente elaborati in cache.
La protezione della potenza nell'H975i è un'altra significativa evoluzione rispetto ai sistemi tradizionali a batteria attraverso l'integrazione di un supercondensatore.Il supercondensatore fornisce un'alimentazione istantanea durante eventi di perdita di potenza inaspettatiInoltre, a differenza dei sistemi basati su batteria che richiedono 4-8 ore per i cicli di apprendimento, i sistemi basati su batterie sono in grado di fornire un'esperienza di apprendimento più completa.il supercondensatore H975i ′ completa il suo ciclo di apprendimento trasparente entro 5-10 minuti senza alcun deterioramento delle prestazioni durante la taraturaQuesta progettazione elimina i costi di manutenzione e i problemi di degrado inerenti alle soluzioni per batterie, fornendo al contempo un'affidabilità superiore per la protezione dei dati mission-critical.
Monitoraggio e gestione integrati
Il controller Dell's PERC13 RAID, come molte delle soluzioni Dell's RAID, può essere gestito e monitorato in molti modi, incluso durante l'avvio della piattaforma tramite la configurazione del sistema nel BIOS, attraverso la GUI web di iDRAC,la utilità PERC12, e persino Dell OpenManage UI e CLI.
Gestione del controllore di iDRAC
Quando si visualizza l'interfaccia di gestione di iDRAC, la scheda Controller offre una panoramica dell'hardware di archiviazione del server.completo con informazioni sulle versioni del firmwareQuesto riassunto consente di verificare rapidamente la prontezza e la configurazione dei controller senza bisogno di accedere al BIOS o utilizzare gli strumenti CLI.
La scheda Dischi virtuali in iDRAC mostra le matrici di archiviazione create, compresi il loro livello RAID, le dimensioni e la politica di cache.Da questo punto di vista, gli amministratori possono confermare che i volumi sono online, creare nuovi dischi virtuali o utilizzare il menu Azioni per regolare o eliminare le configurazioni esistenti.
Utilità di configurazione del controller RAID
L'immagine in alto mostra un esempio di inserimento della configurazione anteriore di PERC H975i Utility System Setup sulla piattaforma PowerEdge R7715.Puoi gestire tutte le impostazioni del controller RAID, compresa la gestione della configurazione, la gestione del controller, la gestione dei dispositivi e altro ancora.Questa utilità fornisce un modo semplificato per configurare dischi virtuali e monitorare i componenti hardware direttamente durante il processo di avvio della piattaforma.
Dopo aver selezionato il livello RAID, passiamo alla scelta dei dischi fisici per l'array. In questo esempio tutti gli SSD NVMe disponibili sono elencati e contrassegnati come RAID-compatibili. Selezioniamo più di 3.2 unità TiB Dell DC NVMe dal pool di capacità non configurato. Filtri come tipo di supporto, interfaccia e dimensione del settore logico aiutano a restringere la selezione.possiamo procedere facendo clic su OK per completare la selezione del disco e continuare a creare il disco virtuale.
Prima di completare la creazione del disco virtuale, il sistema visualizza un avviso che conferma che tutti i dati sui dischi fisici selezionati saranno cancellati in modo permanente.selezioniamo la casella "Conferma" e "Sì" per autorizzare l'operazioneQuesta protezione aiuta a prevenire la perdita accidentale di dati durante il processo di creazione di RAID.
Una volta creato il disco virtuale, appare sotto il menu "Virtual Disk Management". In questo esempio, il nostro nuovo disco virtuale RAID 5 è elencato con una capacità di 43.656 TiB e uno stato di "Ready".Con pochi semplici passaggi, il serbatoio è configurato e pronto per l'uso.
Mentre il PERC BIOS Configuration Utility e l'interfaccia iDRAC offrono opzioni intuitive per la gestione locale e remota, Dell fornisce anche un potente strumento a riga di comando chiamato PERC CLI (perccli2).Questa utilità supporta Windows, Linux e VMware, rendendolo ideale per lo scripting, l'automazione o la gestione dei controller PERC in ambienti senza testa.Dell fornisce anche documentazione dettagliata sull'installazione e l'uso dei comandi per PERC CLI sul loro sito di supporto.
Dell PERC13 Performance Testing
Prima di iniziare i test di performance, abbiamo preparato il nostro ambiente utilizzando la piattaforma Dell PowerEdge R7715 configurata con doppi controller frontali PERC H975i.Le unità Dell NVMe da 2 TB, ciascuno con capacità di lettura sequenziale fino a 12.000 MB/s e di scrittura sequenziale fino a 5.500 MB/s, utilizzando blocchi di 128 KiB.Questa base ad alte prestazioni ci consente di spingere i limiti del controllo PERC13's throughput e valutare il comportamento RAID a scala.
- Piattaforma:Dell PowerEdge R7715
- CPU:Processore AMD EPYC 9655P a 96 core
- Ram:768 GB (12 x 64 GB) DDR5-5200 ECC
- Controller di raid:2 x PERC13 H975i
- Immagazzinamento:32 x 3,2TB Dell CD8P NVMe Drive
- Acceleratori PCIe:2 x GPU NVIDIA H100
NVIDIA Magnum IO GPU Direct Storage: AI incontra lo storage
Le pipeline di IA moderne sono spesso legate all'I/O, non al calcolo.Il Magnum IO GDS di NVIDIA (via cuFile) corta il tradizionale percorso SSD → CPU DRAM → GPU e consente ai dati DMA di passare direttamente dalla memoria NVMe alla memoria GPUQuesto rimuove la sovraccarica del buffer di rimbalzo della CPU, riduce la latenza, e rende il throughput più prevedibile sotto carico, il che si traduce in una maggiore utilizzazione della GPU, tempi di epoca più brevi,e cicli di salvataggio/carico dei punti di controllo più rapidi.
Il nostro test GDSIO è orientato a misurare il percorso di dati da storage a GPU stesso, spazzando le dimensioni dei blocchi e i numeri di thread per mostrare quanto velocemente il set NVMe supportato da PERC13 può fluire nella memoria H100.Con ogni H975i su PCIe 5.0 x16 link (teoricamente ~ 64 GB/s per controller, unidirezionale), due controller impostano un massimale aggregato vicino a ~ 112 GB/s; dove il nostro plateau di curve ti dice se sei link o limitato ai media.Per i professionisti, legge i grafici come proxy per carichi di lavoro reali: grande sequenza legge la mappa per il flusso di set di dati e ripristina il punto di controllo; grande sequenza scrive la mappa per il punto di controllo salva;Trasferimenti più piccoli con concomitanza riflettono dataloader shuffles e prefetchIn breve, una forte scalabilità GDSIO significa meno blocchi della GPU e prestazioni più costanti sia durante l'addestramento che durante l'inferenza ad alto throughput.
GDSIO Read Sequential Throughput (Leggere il flusso sequenziale)
A partire dalla lettura sequenziale, il throughput è iniziato modestamente a dimensioni di blocco e conteggi di thread inferiori, a partire da circa 0,3 GiB/s a blocchi 8K con un singolo thread.Le prestazioni sono notevolmente aumentate tra i blocchi 16K e 512K, in particolare quando si aumenta il numero di filettini da 4 a 16.un picco di 103 GiB/s a 10M di dimensione di blocco con 256 filiQuesta progressione mostra che l'array PERC13 beneficia di blocchi di dimensioni maggiori e di parallelismo multithreaded, con saturazione ottimale intorno a 64-128 thread, oltre il quale guadagna plateau.
GDSIO Leggere differenziale di throughput sequenziale
Nel test di lettura sequenziale su blocchi da 8K a 10M, il PERC13 (H975i) ha costantemente superato il PERC12 (H965i),con guadagni percentuali che si riducono drasticamente alle dimensioni dei blocchi più grandi e al numero di filettini più elevati.
A dimensioni di blocchi più piccole (8K-16K), i miglioramenti sono stati modesti (in genere compresi tra 0-20%), e in alcuni casi isolati l'H975i è rimasto leggermente indietro a causa della variabilità dei test a basse profondità di coda.Per dimensioni di blocchi 32K-64K, il vantaggio è diventato più consistente, con l'H975i che offre un throughput superiore del 30-50% nella maggior parte dei filettini.
Le differenze più significative sono state osservate a blocchi di dimensioni maggiori (128K a 10M), dove il controller PERC13 ha sbloccato il pieno potenziale di lettura sequenziale del sistema.l'H975i ha dimostrato guadagni di 50-120% rispetto all'H965iAd esempio, a blocchi di dimensioni 1M con 8-16 thread, il throughput era superiore a 55 GiB/s, pari a circa un aumento del 90%.con alcune configurazioni che mostrano quasi il doppio delle prestazioni rispetto alla generazione precedente.
Nel complesso, il PERC13 (H975i) ha stabilito un vantaggio dominante nei carichi di lavoro di lettura sequenziali, soprattutto quando la dimensione del blocco e il numero di thread sono stati ridimensionati.a 256 K e oltre, il nuovo controller ha fornito costantemente prestazioni superiori del 50-100%, evidenziando chiaramente i progressi architettonici nella piattaforma RAID più recente di Dell.
GDSIO Legge latenza sequenziale
Con l'aumento del throughput di lettura sequenziale, la latenza è rimasta gestibile a dimensioni di blocco più piccole e conteggi di thread più bassi.mostrando una gestione efficiente delle letture in tale intervalloUna volta che le dimensioni dei blocchi e il numero di thread sono aumentati, specialmente a 5M e 10M con 64 o più thread, la latenza è aumentata rapidamente, raggiungendo il picco di 211,8 ms a una dimensione di blocco di 10M con 256 thread.Questo evidenzia come i colli di bottiglia del controller o della coda emergono sotto carichi di lavoro estremi, anche se la produttività rimane elevata.
Il miglior equilibrio tra prestazioni ed efficienza è stato osservato alla dimensione del blocco 1M con 8-16 thread, dove l'array ha mantenuto un throughput di 87,5-93,7 GiB/s mantenendo la latenza tra 179-334 μs.Questa zona rappresenta il punto ideale per massimizzare la larghezza di banda mantenendo i ritardi ben al di sotto di un millisecondo.
GDSIO Scrivere throughput sequenziale
Le prestazioni di scrittura hanno mostrato una forte scalabilità iniziale con l'aumento delle dimensioni dei blocchi, con un throughput che è salito da 1,2 GiB/s a 8K e 1 thread a 13,9 GiB/s da 256K.La crescita più sostanziale è apparsa tra le dimensioni di blocchi da 128K a 1MLe prestazioni massime sono state raggiunte alle dimensioni di blocco 5M e 10M, sostenendo da 100 a 101 GiB/s da 8 thread in poi.
Performance appiattita tra 8 e 64 thread per questi blocchi più grandi, indicando che i controller hanno raggiunto la saturazione all'inizio della curva di scalazione.,la stabilità del throughput è variabile, mantenendo stabile i blocchi di grandi dimensioni 5M e 10M a 101 GiB/s ma diminuendo per le dimensioni dei blocchi di fascia media, come 256K, passando da 61,2 GiB/s a 32 thread a 45.3 GiB/s a 256 fili.
GDSIO Scrivere differenziale di throughput sequenziale
Nei test di scrittura sequenziali, il PERC13 (H975i) ha fornito guadagni sostanziali rispetto al PERC12 (H965i), in particolare quando le dimensioni dei blocchi e il numero di thread sono stati ridimensionati.i miglioramenti sono stati modesti, generalmente entro lo spettro dello 0-10%, con occasionali differenze di rumore trascurabili.
Da 64K in poi, il vantaggio dell'H975i è diventato più pronunciato.,il sollevamento è diventato più forte, dove l'H975i ha costantemente fornito un throughput superiore del 50-70% a numeri di filo da moderati a elevati.
Il divario di prestazioni più drammatico è apparso alle dimensioni dei blocchi più grandi (512K a 10M).A dimensioni di blocco 1M, il vantaggio si è ulteriormente esteso, con salti di throughput da +40 a +68 GiB/s, che rappresentano guadagni del 70-90%.con delta da +75 a +79 GiB/s, che si traduce in un miglioramento del 100% in alcuni scenari ricchi di fili.
Nel complesso, il controller PERC 13 ha mostrato un chiaro salto generazionale nelle prestazioni di scrittura sequenziale.l'H975i fornisce costantemente un throughput superiore del 50% al 100%, stabilendo fermamente la sua superiorità rispetto all'H965i nei carichi sequenziali ad alta intensità di scrittura.
GDSIO Scrivere latenza sequenziale
La latenza durante le scritture sequenziali è rimasta impressionantemente bassa a dimensioni di blocco più piccole e conteggi di thread più bassi, spesso rimanendo sotto i 50 μs attraverso blocchi 128K con fino a 8 thread.Con l'aumentare del numero di filiPer esempio, la latenza ha raggiunto 392 μs a 512K con 32 thread e ha superato 1 ms a 1M di dimensione di blocco con 64 thread.
Gli effetti di saturazione sono diventati più evidenti alle dimensioni dei blocchi più grandi e ai più alti livelli di concurrenza.
Il punto di funzionamento più efficiente per i carichi di lavoro di scrittura sequenziale si è verificato alle dimensioni di blocco 1M o 5M con 8 a 16 thread, dove il throughput ha raggiunto 87,9 a 101.2 GiB/s, mentre la latenza è rimasta entro 178 μs0,7 ms, fornendo prestazioni forti e prolungate senza causare eccessivi ritardi nella coda di scrittura.
MLPerf Storage 2.0 Performance
Per valutare le prestazioni del mondo reale in ambienti di addestramento AI, abbiamo utilizzato la suite di test MLPerf Storage 2.0.carichi di lavoro simulati di apprendimento profondo. Fornisce informazioni su come i sistemi di archiviazione affrontano sfide come il controllo dei punti di controllo e la formazione dei modelli.
Valore di riferimento di controllo
Quando si addestrano modelli di apprendimento automatico, i checkpoint sono essenziali per salvare periodicamente lo stato del modello.permette di fermarsi in anticipo durante l'allenamento, e consente ai ricercatori di ramificarsi da vari punti di controllo per esperimenti e ablazioni.
Il confronto della durata di salvataggio del checkpoint ha rivelato che il Dell PERC13 ha costantemente superato il PERC12 in tutte le configurazioni di modello.mentre PERC12 richiedeva 10La differenza di prestazioni è stata più pronunciata con il modello a parametro 1T,dove PERC13 completa salvi in poco più di 10 secondi rispetto a PERC12 ′s 20+ secondiCiò rappresenta una riduzione del tempo di risparmio del 50% circa per i modelli più grandi.
Esaminando i risultati del throughput di Save, i dati mostrano l'utilizzo della larghezza di banda superiore di PERC13, fornendo costantemente tassi di trasferimento dati più elevati.81 GB/sPer contro, PERC12 raggiunge i 9,49 GB/s e scende a 6,98 GB/s per la configurazione più grande.Il nuovo controller mantiene prestazioni più stabili tra le diverse dimensioni del modello, suggerendo una migliore ottimizzazione per la gestione di grandi scritte sequenziali tipiche delle operazioni di checkpoint.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!



