Utilizziamo un Dell PowerEdge R760 con Ubuntu 22.04.02 LTS come piattaforma di test per tutti i carichi di lavoro in questa recensione. Dotato di cavi seriali Gen5 JBOF, offre un'ampia compatibilità con SSD U.2, E1.S, E3.S e M.2. La nostra configurazione di sistema è descritta di seguito:
Prestazioni della CDN
Per simulare un carico di lavoro CDN realistico e con contenuti misti, gli SSD sono stati sottoposti a una sequenza di benchmark multifase progettata per replicare i modelli I/O dei server edge ad alto contenuto. Il processo di test copre una gamma di dimensioni di blocchi, sia grandi che piccole, distribuite su operazioni casuali e sequenziali, con diversi livelli di concorrenza.
Prima dei test prestazionali principali, ogni SSD ha completato il riempimento completo del dispositivo tramite un passaggio di scrittura sequenziale al 100% utilizzando blocchi da 1 MB. Questo processo utilizzava I/O sincrono e una profondità di coda di quattro, consentendo quattro lavori simultanei. Questa fase garantisce che l'unità entri in una condizione di stato stazionario che rispecchia l'utilizzo nel mondo reale. Dopo il riempimento sequenziale, è stata eseguita una fase secondaria di saturazione di scrittura randomizzata di tre ore, utilizzando una distribuzione ponderata delle dimensioni dei blocchi (dimensione dei blocchi/percentuale) con una forte attenzione ai trasferimenti da 128.000 (98,51%), integrata da contributi minori da blocchi inferiori a 128.000 fino a 8.000. Questo passaggio emula i modelli di scrittura frammentati e irregolari comunemente riscontrati negli ambienti con cache distribuita.
La suite di test principale si è concentrata su operazioni di lettura e scrittura casuali scalate per misurare le prestazioni dell'unità in profondità di coda variabili e simultaneità dei lavori. Ogni test è stato eseguito per cinque minuti (300 secondi), seguito da un periodo di inattività di tre minuti per consentire ai meccanismi di ripristino interni di stabilizzare i parametri delle prestazioni.
I test sono stati condotti utilizzando una distribuzione di dimensioni di blocco fisse a favore di 128K (98,51%), mentre il restante 1,49% delle operazioni consisteva in dimensioni di trasferimento più piccole, comprese tra 64K e 8K. Ciascuna configurazione variava tra 1, 2 e 4 processi simultanei, con profondità di coda di 1, 2, 4, 8, 16 e 32, per profilare la scalabilità e la latenza del throughput in condizioni tipiche di scrittura edge.
È stato utilizzato anche un profilo di dimensioni dei blocchi fortemente misto, che imitava il recupero dei contenuti CDN, iniziando con un componente dominante da 128K (83,21%), seguito da una lunga coda di oltre 30 dimensioni di blocchi più piccole (da 4K a 124K), ciascuno con rappresentazione della frequenza frazionaria. Questa distribuzione riflette i diversi modelli di richiesta incontrati durante il recupero dei segmenti video, l'accesso alle miniature e le ricerche dei metadati. Questi test sono stati eseguiti anche sull'intera matrice dei conteggi dei lavori e della profondità delle code.
Questa combinazione di precondizionamento, saturazione e test di accesso randomizzato di dimensioni miste è progettata per rivelare le prestazioni degli SSD in ambienti prolungati simili a CDN, enfatizzando la reattività e l'efficienza in scenari con larghezza di banda elevata e altamente parallelizzati.
Carico di lavoro CDN Lettura 1
Nei nostri test di lettura del carico di lavoro CDN (1 lavoro), Kingston DC3000ME ha fornito prestazioni solide che si sono adattate in modo efficace all'aumentare della profondità della coda. A QD1, ha raggiunto 940 MB/s, dietro al SanDisk SN861 di circa il 26%. Tuttavia, con l'aumento della profondità della coda, il DC3000ME ha ridotto il divario e ha sovraperformato diverse unità Gen5. A QD4, il Kingston DC3000ME ha raggiunto 3.390 MB/s—circa il 42% più veloce del Micron 9550, il 40% più veloce del Pascari X200P e circa il 25% più veloce del Solidigm PS1010, anche se leggermente dietro il SanDisk SN861 di circa il 2,6%. A QD16, il DC3000ME ha raggiunto 9.645 MB/s, superando il Solidigm PS1010 di circa il 13% e il Micron 9550 di circa il 20%. Alla profondità massima del test di QD32, Kingston ha raggiunto 14.131 MB/s, eguagliando di fatto il Micron 9550 e superando il Solidigm PS1010 di circa il 15% e il SanDisk SN861 di quasi il 10%.
Kingston DC3000ME - Carico di lavoro CDN Leggi 1 lavoro
Carico di lavoro CDN Lettura 2
Nel carico di lavoro di lettura CDN da 2 lavori, Kingston DC3000ME ha mantenuto ottime prestazioni su tutte le profondità di coda. Al QD1, ha registrato 1.854 MB/s, più veloce del Micron 9550 (1.548 MB/s) del 20%, del Pascari X200P (1.519 MB/s) del 22% e del Solidigm PS1010 (2.011 MB/s) di circa l'8%, anche se dietro al SanDisk SN861 (2.487 MB/s) di circa l'8%. 34%.
Al QD4, Kingston ha raggiunto 6.335 MB/s, superando notevolmente Micron (5.337 MB/s), Pascari (5.249 MB/s) e Solidigm (5.609 MB/s). Tuttavia, è ancora indietro rispetto a SanDisk, che ha preso il primo posto con 6.996 MB/s.
Entro QD16, Kingston ha raggiunto 14.131 MB/s, guidando il gruppo a questo punto. Al punto di test finale (QD32), ha ottenuto un leggero aumento a 14.336 MB/s, dietro Pascari (15.257 MB/s) e Micron (15.052 MB/s) rispettivamente di circa il 6% e il 5%, pur mantenendo un solido vantaggio su SanDisk (13.619 MB/s) e Solidigm (13.721 MB/s).
Carico di lavoro CDN Lettura 4
Con quattro job attivi, il Kingston DC3000ME ha continuato a mantenere le proprie prestazioni in lettura CDN. A QD1, ha raggiunto 3.639 MB/s, superando il Micron 9550 (3.070 MB/s) e il Pascari X200P (2.982 MB/s), ma ancora del 22% dietro al SanDisk SN861, che guidava questa fascia con 4.443 MB/s. Entro QD4, Kingston ha raggiunto 10.854 MB/s: un miglioramento del 15% rispetto a Micron (9.427 MB/s), del 20% in più rispetto a Pascari (9.070 MB/s) e leggermente superiore a Solidigm (9.627 MB/s). Tuttavia, è ancora inferiore agli 11.161 MB/s di SanDisk.
Al QD8, Kingston ha registrato 13.926 MB/s, quasi identico a Micron e più o meno in linea con SanDisk (13.619 MB/s) e Solidigm (12.800 MB/s). A QD16 e QD32, il throughput si è attestato intorno a 14.131–14.233 MB/s per Kingston, leggermente dietro Micron e Pascari (entrambi intorno a 15.052–15.257 MB/s), ma ancora comodamente davanti a SanDisk (13.619 MB/s) e Solidigm (13.721 MB/s).
Scrittura carico di lavoro CDN 1
Nel nostro carico di lavoro di scrittura CDN (1 lavoro), il Kingston DC3000ME ha mostrato una scalabilità costante tra le profondità della coda. A QD1, ha raggiunto 2.118 MB/s, più veloce del Micron 9550 (2.004 MB/s), Pascari X200P (1.885 MB/s) e Solidigm PS1010 (1.718 MB/s), mentre è dietro al SanDisk SN861 di un soffio (2.164 MB/s). Al QD4, Kingston ha registrato 4.318 MB/s: il 55% più veloce di Solidigm (2.789 MB/s), il 26% più veloce di Pascari (3.437 MB/s), ma il 10% più lento di Micron (4.807 MB/s) e il 19% dietro SanDisk (5.353 MB/s).
Entro il QD16, ha raggiunto 5.880 MB/s, superando Pascari (4.921 MB/s) del 20% e più che raddoppiando Solidigm (2.664 MB/s), ma ancora inferiore dell'11% a Micron (6.686 MB/s) e inferiore del 15% a SanDisk (6.939 MB/s). A QD32, Kingston ha raggiunto il limite di 5.987 MB/s, ancora una volta vicino a Pascari (5.913 MB/s), ma dietro Micron (7.422 MB/s) e SanDisk (7.521 MB/s) rispettivamente di circa il 20% e il 25%.
Kingston DC3000ME - Scrittura del carico di lavoro CDN delle prestazioni 1 lavoro
Scrittura del carico di lavoro CDN 2
Nel carico di lavoro di scrittura CDN a 2 lavori, il Kingston DC3000ME ha dimostrato prestazioni costanti, anche se generalmente è stato dietro agli SSD Gen5 di classe enterprise più veloci. Al QD1, ha registrato 2.651 MB/s, appena sotto il Micron 9550 (2.813 MB/s) e il Pascari X200P (2.762 MB/s), e circa il 33% dietro al SanDisk SN861 (3.972 MB/s).
Con l'aumento della profondità della coda, il DC3000ME ha tenuto il passo. A QD4, ha raggiunto 4.807 MB/s, circa il 23% più lento del Micron 9550 (5.902 MB/s) e il 13% dietro il SanDisk SN861 (5.508 MB/s), ma davanti al Solidigm PS1010 con 3.154 MB/s.
Al QD16, Kingston ha consegnato 5.772 MB/s, ancora dietro a Micron (7.896 MB/s) e SanDisk (6.709 MB/s), ma continuando a sovraperformare modelli di livello inferiore come Solidigm PS1010 (3.820 MB/s) e Pascari X200P (5.417 MB/s). A QD32, il DC3000ME ha raggiunto il picco di 5.870 MB/s, circa il 32% dietro il Micron 9550 (8.670 MB/s) e il 22% sotto il SanDisk SN861 (7.537 MB/s), ma ancora davanti al Solidigm PS1010 (2.817 MB/s) e al Pascari (4.585 MB/s).
Scrittura del carico di lavoro CDN 4
Nel carico di lavoro di scrittura CDN da 4 lavori, il Kingston DC3000ME ha scalato costantemente su tutte le profondità della coda, anche se generalmente è rimasto dietro alle prime due unità Gen5. A QD1, ha raggiunto 2.202 MB/s, posizionandosi dietro Pascari X200P (2.845 MB/s), Micron 9550 (2.703 MB/s) e SanDisk SN861 (3.544 MB/s), ma davanti a Solidigm PS1010 (2.020 MB/s). Al QD2, Kingston ha raggiunto 3.165 MB/s, restando ancora una volta dietro SanDisk (4.863 MB/s) e Micron (4.457 MB/s), ma mantenendo un vantaggio su Solidigm (2.872 MB/s).
A QD di fascia media, il Kingston DC3000ME ha raggiunto 3.647 MB/s a QD4 e 4.410 MB/s a QD8. Anche se ha mostrato una scalabilità decente, è rimasto dietro all'unità Micron (5.539 MB/s e 6.478 MB/s) e all'unità SanDisk (5.177 MB/s e 5.575 MB/s) in entrambi i punti di test. A QD16, Kingston ha fornito 4.865 MB/s, un guadagno modesto rispetto a QD8 ma ancora dietro all'unità SanDisk (6.011 MB/s) e all'unità Micron (7.474 MB/s). A QD32, il DC3000ME ha raggiunto il suo picco a 5.307 MB/s, mantenendosi ben al di sopra di Solidigm (3.894 MB/s) ma significativamente dietro a Micron (7.941 MB/s) e SanDisk (7.212 MB/s). Pur non essendo leader in termini di prestazioni, l'unità Kingston ha mantenuto una scalabilità e un'efficienza costanti.
Benchmark di controllo DLIO
Per valutare le prestazioni reali degli SSD negli ambienti di formazione basati sull'intelligenza artificiale, abbiamo utilizzato lo strumento di benchmark Data and Learning Input/Output (DLIO). Sviluppato dall'Argonne National Laboratory, DLIO è progettato specificamente per testare modelli I/O nei carichi di lavoro di deep learning, fornendo approfondimenti su come i sistemi di storage gestiscono sfide come checkpoint, acquisizione di dati e training di modelli. Il grafico seguente illustra come entrambe le unità gestiscono il processo attraverso 36 checkpoint. Quando si addestrano modelli di machine learning, i checkpoint sono fondamentali per salvare periodicamente lo stato del modello, prevenendo la perdita di progressi durante interruzioni o interruzioni di corrente. Questa richiesta di storage richiede prestazioni robuste, soprattutto in caso di carichi di lavoro sostenuti o intensivi. Abbiamo utilizzato il benchmark DLIO versione 2.0 della versione del 13 agosto 2024.
Per garantire che il nostro benchmarking riflettesse gli scenari del mondo reale, abbiamo basato i nostri test sull'architettura del modello LLAMA 3.1 405B. Abbiamo implementato il checkpoint utilizzando torch.save() per acquisire parametri del modello, stati dell'ottimizzatore e stati dei layer. La nostra configurazione ha simulato un sistema a otto GPU, utilizzando una strategia di parallelismo ibrido con parallelismo del tensore a 4 vie ed elaborazione parallela della pipeline a 2 vie distribuita sulle otto GPU. Questa configurazione ha prodotto dimensioni del checkpoint di 1.636 GB, rappresentative dei moderni requisiti di formazione del modello linguistico di grandi dimensioni.
Nei risultati medi del DLIO, il Kingston DC3000ME da 7,68 TB è rimasto leggermente dietro ai principali contendenti, piazzandosi al centro del gruppo di cinque unità. I tempi del checkpoint sono stati in media di 465,04 secondi nel primo passaggio, 584,38 secondi nel secondo passaggio e 590,30 secondi nel terzo passaggio. Pur essendo costantemente più veloce del Pascari X200P da 7,68 TB (che ha registrato i tempi più alti in tutti e tre i passaggi, raggiungendo 674,48 secondi nel passaggio 3), il Kingston DC3000ME è rimasto indietro rispetto al Micron 9550 da 7,68 TB e al Solidigm PS1010 da 7,68 TB, entrambi rimasti sotto i 565 secondi nel passaggio finale.

Come mostrato nella tabella seguente, il Kingston DC3000ME è partito alla grande, con tempi di checkpoint iniziali molto simili a quelli dei concorrenti di alto livello. Al checkpoint 1, ha registrato 469,27 secondi, appena dietro al Micron 9550 con 464,01 secondi e davanti al Pascari X200P con 472,65 secondi. Dal checkpoint 2 al 4, ha mantenuto un range costante compreso tra 461,92 e 465,44 secondi, rimanendo ancora una volta vicino al Micron 9550 e al Solidigm PS1010, entrambi nella fascia 453-465 secondi.
Verso la metà del test (checkpoint da 5 a 8), il Kingston DC3000ME ha sperimentato un balzo nei tempi di checkpoint, con un picco di 613,01 secondi durante il checkpoint 7. Questo valore è superiore a quello del Micron 9550 (570,42s) e del SanDisk SN861 7,68TB (559,56s), anche se ancora significativamente migliore del Pascari X200P (che ha raggiunto fino a 694,38 secondi durante lo stesso intervallo). Verso la fine del test, il Kingston DC3000ME si è stabilizzato leggermente, finendo a 571,36 secondi per il checkpoint 12: circa 28 secondi più lento del Micron 9550 ma superando comunque il Pascari X200P (che ha chiuso a 689,68 secondi). Nel complesso, il Kingston DC3000ME da 7,68 TB ha dimostrato prestazioni costanti e si è mantenuto in un range competitivo durante tutto il carico di lavoro di checkpoint, posizionandosi al centro del gruppo.
Benchmark delle prestazioni FIO
Per misurare le prestazioni di archiviazione di ciascun SSD in base ai parametri comuni del settore, abbiamo utilizzato FIO. Ogni unità è stata sottoposta allo stesso processo di test, inclusa una fase di precondizionamento di due riempimenti completi dell'unità con un carico di lavoro di scrittura sequenziale, seguita dalla misurazione delle prestazioni in stato stazionario. Man mano che ogni tipo di carico di lavoro cambiava, eseguivamo un altro riempimento di precondizionamento della nuova dimensione di trasferimento.
In questa sezione ci concentriamo sui seguenti benchmark FIO:
-128K sequenziale
-64K casuale
-16K casuale
-4K casuale
Con gli SSD QLC ad alta capacità progettati per grandi dimensioni di trasferimento, i nostri test di velocità di scrittura sono limitati a 16K casuali. Per il 4K, abbiamo utilizzato lo stato precompilato del carico di lavoro 16K per misurare solo le prestazioni di lettura casuale 4K.
Precondizione sequenziale 128K (IODepth 256/NumJobs 1)
In questo pesante test di precondizionamento della profondità della coda, Kingston DC3000ME ha mantenuto una larghezza di banda di scrittura costante di 8.944,9 MB/s per tutta la corsa di 1.000 secondi (finendo appena oltre la soglia degli 800 secondi). Pur non essendo il più veloce (leggermente dietro al Micron 9550, che ha raggiunto il picco di 10,3 GB/s), il Kingston DC3000ME ha dimostrato un throughput costante con una variazione minima.
Latenza precondizione sequenziale di 128K (IODepth 256/NumJobs 1)
Nel test di latenza di precondizione di scrittura sequenziale di 128K, il Kingston DC3000ME ha mostrato una latenza media di 3,577 ms (rimanendo stabile nel tempo con fluttuazioni minime), posizionandosi al secondo posto dietro l'unità Micron.
Scrittura sequenziale 128K (IODepth 16 / NumJobs 1)
Nel test di scrittura sequenziale da 128K, il Kingston DC3000ME ha raggiunto 8.477,4 MB/s, posizionandosi subito dietro al Micron 9550 (che guidava il gruppo con 10.354,6 MB/s). Il Kingston DC3000ME ha sovraperformato il Pascari X200P e ha mantenuto un solido vantaggio sia sul Solidigm PS1010 che sul SanDisk SN861 (ciascuno intorno ai 7.100 MB/s). Le prestazioni di Kingston riflettono un forte equilibrio tra velocità e coerenza.
Latenza di scrittura sequenziale di 128K (IODepth 16/NumJobs 1)
Nel test di latenza di scrittura sequenziale di 128K, il Kingston DC3000ME ha fornito un risultato solido con una latenza media di 235,6μs. Questo lo colloca davanti sia al SanDisk SN861 (280.7μs) che al Solidigm PS1010 (280.3μs), mentre supera leggermente il Pascari X200P (238.6μs). Anche se non così veloce come il Micron 9550 (che era in testa a 192,9μs), il Kingston DC3000ME è rimasto competitivo.
Lettura sequenziale 128K (IODepth 64/NumJobs 1)
Nel test di lettura sequenziale da 128K con una profondità di coda di 64 con un lavoro, il Kingston DC3000ME ha raggiunto 13.513,8 MB/s. Pur piazzandosi al quarto posto tra le unità testate, ha comunque fornito un rendimento elevato (con differenze minime nel mondo reale). Ha seguito il Pascari X200P (14.242,1 MB/s) del ~5,1%, il Solidigm PS1010 (14.163,3 MB/s) del 4,6% e il Micron 9550 (14.050,1 MB/s) del ~3,8%, ma ha ampiamente superato il SanDisk SN861 (12.631,2 MB/s). Nel complesso, i risultati del Kingston DC3000ME sono stati ottimi, con un calo minimo rispetto alle unità più testate.
Latenza di lettura sequenziale di 128K (IODepth 64/NumJobs 1)
Per quanto riguarda la latenza, il Kingston DC3000ME ha registrato una media di 591,6μs—posizionandosi al centro del gruppo. Questo risultato è stato del 5,4% superiore rispetto al Micron 9550 (569,0μs) e del 5,4% inferiore rispetto al Solidigm PS1010 (564,5μs). Il Pascari X200P è arrivato marginalmente a 561.4μs, mentre il SanDisk SN861 ha mostrato la risposta più lenta a 633.0μs. In definitiva, il Kingston DC3000ME ha mantenuto una latenza relativamente bassa in condizioni di lettura con code elevate.
Scrittura casuale 64K
Nel test di scrittura casuale a 64K, Kingston DC3000ME ha costantemente offerto prestazioni elevate su varie profondità di coda e combinazioni di thread, raggiungendo un picco di 6.649 MB/s nella configurazione 32 (profondità IO)/8 (numjobs), tra i più alti tra tutti i carichi di lavoro e punti di test.
In tutto il grafico, Kingston DC3000ME ha mantenuto un trend stabile della larghezza di banda compreso tra 4.000 e 5.000 MB/s, con risultati particolarmente forti nelle configurazioni di concorrenza medio-alta (ad esempio, 32/4 a 5.380 MB/s e 16/8 a 5.017 MB/s). Anche in condizioni più leggere (1/4 e 2/4), si è mantenuta sopra i 4.200 MB/s. Rispetto ad altri drive, il Kingston DC3000ME ha generalmente guidato o è rimasto vicino ai vertici nella maggior parte dei test, offrendo sia un throughput di picco elevato che prestazioni costanti.
Latenza di scrittura casuale di 64K
Nel test di latenza di scrittura casuale di 64K, Kingston DC3000ME ha costantemente fornito tempi di risposta bassi nella maggior parte delle profondità di coda e combinazioni di lavori, dimostrando una forte efficienza di scrittura anche in condizioni di carico pesante.
Per esempio:
- A 4/1, ha mostrato 49μs
- A 8/1, la latenza è rimasta bassa a 102μs
- A 16/4 misurava 1.486 µs
- E al carico testato più elevato, 32/8, ha raggiunto 2.402 µs
Questi risultati indicano che il Kingston DC3000ME ha scalato in modo prevedibile, evitando i gravi picchi di latenza osservati in altri drive, in particolare i modelli Pascari e Solidigm, che hanno mostrato salti irregolari sopra i 3.000–6.000 µs (in particolare a 16/8).
Lettura casuale 64K
Nel test di lettura casuale a 64K, Kingston DC3000ME ha fornito prestazioni solide e costanti nell'intera matrice IO Depth/NumJobs, classificandosi quarto alla fine del test (con un piccolo margine). La larghezza di banda di picco ha raggiunto 13.515 MB/s a 32/4, con un throughput altrettanto elevato a 16/4 (13.482 MB/s) e 32/8 (13.512 MB/s), dimostrando un'eccellente scalabilità con carichi di lavoro di lettura parallela pesanti. Con carichi inferiori (1/4 e 2/2), il Kingston DC3000ME ha misurato rispettivamente 2.298 MB/s e 2.234 MB/s.
Latenza di lettura casuale di 64K
La latenza di 64K del Kingston DC3000ME è rimasta relativamente bassa in tutti i punti di test. Tutte le unità hanno funzionato in modo simile, anche se il SanDisk SN861 ha raggiunto un picco notevolmente più alto rispetto agli altri alla fine del test. A partire da 1/2, il Kingston DC3000ME ha misurato 106μs, seguito da 108μs a 1/4, 131μs a 8/1, 133μs a 4/4 e 177μs a 8/4. Con una concorrenza più elevata, è aumentato a 305μs a 16/4, 174μs a 32/1, 301μs a 32/2 e ha raggiunto il picco a 1.184μs sotto 32/8, allineandosi con il resto del gruppo. Nel complesso, il profilo di latenza del Kingston DC3000ME si è allineato a quello dei dispositivi con prestazioni migliori, con jitter minimo o picchi anomali (comuni a tutte le unità testate).
Scrittura casuale 16K
Nel test di scrittura casuale a 16K, Kingston DC3000ME ha fornito una larghezza di banda elevata su tutta la gamma di profondità di coda e conteggi di thread, classificandosi secondo tra le unità concorrenti. Ha raggiunto i 427.592 IOPS con la configurazione 32/16. Altri punti ad alte prestazioni includevano 338.521 IOPS a 32/8, 251.428 IOPS a 16/4 e 226.606 IOPS a 1/8, tutti con un'eccellente efficienza del controller sotto carichi paralleli variabili. Anche in configurazioni di carico moderato (2/16 e 1/4), l'unità ha raggiunto rispettivamente 218.300 IOPS e 204.867 IOPS. Nel complesso, il Kingston DC3000ME ha raggiunto costantemente IOPS superiori a 160.000 nella matrice di test (tranne in alcune aree), rendendolo una delle unità più bilanciate in questo carico di lavoro.
Latenza di scrittura casuale di 16K
Le prestazioni di latenza di scrittura a 16K del Kingston DC3000ME sono state eccellenti, finendo in cima alla classifica (con l'unità Pascari leggermente in svantaggio). I punti salienti includevano 14μs a 1/1, 18μs a 2/1, 19μs a 1/4 e 29μs a 1/2. All'aumentare del carico, Kingston ha mantenuto un profilo di latenza elevato: 126μs a 8/4, 146μs a 2/16, 254μs a 16/4 e 575μs a 16/8. Anche nella configurazione più pesante (32/16), la latenza è rimasta controllata a 1.197μs.
Lettura casuale 16K
In condizioni di lettura casuale a 16K, il Kingston DC3000ME ha dimostrato prestazioni costantemente elevate fino a raggiungere 8/8, a quel punto ha iniziato a rimanere leggermente indietro. Il picco di IOPS è arrivato a poco meno di 800.000 (648.686) a QD32 con quattro lavori, seguito da 641.000 IOPS a QD4 con 16 lavori e 623.000 a QD16 con quattro lavori. Sfortunatamente, il Kingston DC3000ME è finito in fondo alla classifica insieme al drive SanDisk.
Latenza di lettura casuale di 16K
Al picco di throughput (QD8/8), la latenza del Kingston DC3000ME è stata di appena 99μs, rimanendo all'interno di una banda stretta e bassa nella maggior parte delle configurazioni fino a circa 16/8, quando ha iniziato a vacillare. La migliore latenza è stata osservata a QD1/4 (74μs), con molti altri risultati inferiori a 80μs con profondità di coda da basse a moderate. Con carichi più pesanti (ad esempio, QD32/16), il Kingston DC3000ME ha registrato 826μs—significativamente più alto rispetto ad altri drive testati (eccetto SanDisk).
Lettura casuale 4K
Nel test di lettura casuale 4K, il Kingston DC3000ME ha mostrato un'eccellente scalabilità su tutto l'intervallo di test, con un picco di 1.957,92K IOPS nella configurazione 16/16. Ha mantenuto un throughput elevato pari a 1.923.420 IOPS a 32/8, 1.361.32.000 IOPS a 8/16 e 1.326.03.000 IOPS a 16/8, posizionandosi costantemente in cima alla classifica insieme a Solidigm e Micron.
Latenza di lettura casuale 4K
Il Kingston DC3000ME ha mantenuto una bassa latenza durante il test di lettura casuale 4K, a partire da 60μs con la configurazione 1/1. A 1/4 è migliorato leggermente a 61μs, e a 1/8 è rimasto stabile a 63μs. Con l'aumento della concorrenza, la latenza è cresciuta in modo prevedibile: 66μs a 2/4, 67μs a 2/16, 71μs a 4/4 e 80μs a 8/4. Le configurazioni più pesanti hanno visto aumenti modesti: 94μs a 16/4, 99μs a 16/8, 135μs a 32/8 e un picco di 266μs a 32/16.
Scrittura casuale 4K
Nella scrittura casuale 4K, il Kingston DC3000ME ha fornito ottimi risultati con un massimo di 979.636 IOPS a 32/16 e 979.173 IOPS a 32/8, posizionandosi ben dietro il top performer (Pascari X200P, che ha superato 1,6 milioni di IOPS al picco). Detto questo, il Kingston DC3000ME ha registrato numeri decenti nei carichi di fascia media: 879.000 IOPS a 8/16, 944.000 IOPS a 16/16 e 745.000 IOPS a 16/4.
Latenza di scrittura casuale 4K
Nella latenza di scrittura casuale, il Kingston DC3000ME ha iniziato a 11μs sotto 1/1, è rimasto intorno a 20–50μs fino a raggiungere la profondità di 8/8, ed è scalato a 261μs a 32/8 e 522μs a 32/16. Pur non essendo il più basso in termini di latenza, Kingston DC3000ME ha mantenuto uno scaling moderato e prevedibile, senza i picchi osservati in unità come Solidigm e Pascari, che hanno mostrato una maggiore volatilità oltre i 16 thread.
Archiviazione diretta GPU
Uno dei test che abbiamo condotto su questo banco di prova è stato il test Magnum IO GPU Direct Storage (GDS). GDS è una funzionalità sviluppata da NVIDIA che consente alle GPU di bypassare la CPU quando accedono ai dati archiviati su unità NVMe o altri dispositivi di archiviazione ad alta velocità. Invece di instradare i dati attraverso la CPU e la memoria di sistema, GDS consente la comunicazione diretta tra la GPU e il dispositivo di archiviazione, riducendo significativamente la latenza e migliorando il throughput dei dati.
Come funziona l'archiviazione diretta della GPU
Tradizionalmente, quando una GPU elabora i dati archiviati su un'unità NVMe, i dati devono prima viaggiare attraverso la CPU e la memoria di sistema prima di raggiungere la GPU. Questo processo introduce colli di bottiglia, poiché la CPU funge da intermediario, aggiungendo latenza e consumando preziose risorse di sistema. GPU Direct Storage elimina questa inefficienza consentendo alla GPU di accedere ai dati direttamente dal dispositivo di archiviazione tramite il bus PCIe. Questo percorso diretto riduce il sovraccarico dello spostamento dei dati, consentendo trasferimenti più rapidi ed efficienti.
I carichi di lavoro dell’intelligenza artificiale, in particolare il deep learning, sono ad alta intensità di dati. L’addestramento di reti neurali di grandi dimensioni richiede l’elaborazione di terabyte di dati e qualsiasi ritardo nel trasferimento dei dati può portare a GPU sottoutilizzate e tempi di addestramento più lunghi. GPU Direct Storage affronta questa sfida garantendo che i dati vengano consegnati alla GPU il più rapidamente possibile, riducendo al minimo i tempi di inattività e massimizzando l'efficienza computazionale.
Inoltre, GDS è particolarmente vantaggioso per i carichi di lavoro che comportano lo streaming di set di dati di grandi dimensioni (ad esempio, elaborazione video, elaborazione del linguaggio naturale o inferenza in tempo reale). Riducendo la dipendenza dalla CPU, GDS accelera lo spostamento dei dati e libera le risorse della CPU per altre attività, migliorando ulteriormente le prestazioni complessive del sistema.
Leggi produttività
Durante i nostri test di lettura sequenziale GDSIO, Kingston DC3000ME ha dimostrato una scalabilità del throughput coerente ed efficiente su dimensioni di blocco da 16K, 128K e 1MB, anche se le tendenze delle prestazioni variavano leggermente in base alla dimensione di trasferimento. Con blocchi da 16.000, il throughput è aumentato costantemente con l'aumento del numero di thread, raggiungendo un picco di 3,70 GiB/s con 32 thread prima di ridursi gradualmente a 3,41 GiB/s con 128 thread. Per i trasferimenti da 128K, l'unità ha ottenuto il suo miglior risultato di 5,88 GiB/s a 16 thread, mantenendo quel livello per 32 thread prima di scendere a ~5,35 GiB/s per 128 thread. A 1 MB, il throughput si è stabilizzato in precedenza, raggiungendo 6,54 GiB/s a 16 thread e scendendo modestamente a 5,91 GiB/s a 128 thread.
Leggi latenza
In termini di latenza, il DC3000ME ha mostrato uno scaling prevedibile (coerente con tutte le unità testate): un numero inferiore di thread ha prodotto tempi di risposta inferiori su tutte le dimensioni dei blocchi, con una latenza che aumenta man mano che i thread aumentano. A 16K, la latenza è iniziata a 504μs ed è gradualmente aumentata fino a 582μs in 128 thread. Per 128K, la latenza è iniziata a 260μs ed è aumentata a 3.228μs al massimo numero di thread. Con blocchi da 1 MB, la latenza ha mostrato un aumento maggiore a causa del carico utile più pesante, partendo da 2.609 µs con un thread e aumentando fino a 2.703 µs con 128 thread.
Velocità di scrittura
Per le operazioni di lettura, la latenza media con blocchi da 16.000 è iniziata a 2.247 µs con un singolo thread ed è scesa a 504 µs con 128 thread, dimostrando una scalabilità efficiente in condizioni di concorrenza. Per i blocchi da 128K, la latenza inizialmente