| NVIDIA L4 Specifications | |
|---|---|
| PQ 32 | 30.3 teraFLOP |
| TF32 Tensor Core | 60 teraFLOP |
| FP16 Tensor Core | 121 teraFLOP |
| BFLOAT16 Tensor Core | 121 teraFLOP |
| FP8 Tensor Core | 242.5 teraFLOP |
| INT8 Tensor Core | 242.5 TOP |
| Memoria GPU | 24 GB GDDR6 |
| Larghezza di banda della memoria GPU | 300 GB/s |
| Potenza di progettazione termica massima (TDP) | 72W |
| Fattore di forma | PCIe a basso profilo a 1 slot |
| Interconnessione | PCIe Gen4 x16 |
| Grafico delle specifiche | L4 |
Naturalmente, con il prezzo del L4 vicino ai 2500 dollari, l'A2 arriva a circa la metà del prezzo, e il vecchio (ma ancora abbastanza capace) T4 disponibile per meno di 1000 dollari usato,la domanda ovvia è qual è la differenza tra queste tre GPU di inferenza.
| NVIDIA L4, A2 e T4 Specificazioni | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| PQ 32 | 30.3 teraFLOP | 4.5 teraFLOP | 8.1 teraFLOP |
| TF32 Tensor Core | 60 teraFLOP | 9 teraFLOP | N/A |
| FP16 Tensor Core | 121 teraFLOP | 18 teraFLOP | N/A |
| BFLOAT16 Tensor Core | 121 teraFLOP | 18 teraFLOP | N/A |
| FP8 Tensor Core | 242.5 teraFLOP | N/A | N/A |
| INT8 Tensor Core | 242.5 TOP | 36 TOPS | 130 TOPS |
| Memoria GPU | 24 GB GDDR6 | 16 GB GDDR6 | 16 GB GDDR6 |
| Larghezza di banda della memoria GPU | 300 GB/s | 200 GB/s | 320+ GB/s |
| Potenza di progettazione termica massima (TDP) | 72W | 40 a 60 W | 70W |
| Fattore di forma | PCIe a basso profilo a 1 slot | ||
| Interconnessione | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Grafico delle specifiche | L4 | A2 | T4 |
Una cosa da capire quando si guardano queste tre carte è che non sono esattamente sostituzioni generazionali uno-a-uno, il che spiega perché il T4 rimane ancora, molti anni dopo,una scelta popolare per alcuni casi d'usoL'A2 è uscito come sostituto per il T4 come opzione a bassa potenza e più compatibile (x8 vs x16 meccanica).con l'A2 a cavallo un in-tra che può o non può ottenere aggiornato ad un certo punto in futuro.
MLPerf Inferenza 3.1 Performance
MLPerf è un consorzio di leader dell'IA provenienti dal mondo accademico, dalla ricerca e dall'industria istituito per fornire benchmark di hardware e software IA equi e pertinenti.Questi benchmark sono progettati per misurare le prestazioni dell'hardware di apprendimento automatico, software e servizi su vari compiti e scenari.
I nostri test si concentrano su due specifici parametri MLPerf: Resnet50 e BERT.
- Resnet50: si tratta di una rete neurale convoluzionale utilizzata principalmente per la classificazione delle immagini.
- BERT (Bidirectional Encoder Representations from Transformers): questo benchmark si concentra sui compiti di elaborazione del linguaggio naturale,offrendo informazioni su come funziona un sistema nella comprensione e nell'elaborazione del linguaggio umano.
Entrambi questi test sono cruciali per valutare le capacità dell'hardware AI in scenari del mondo reale che coinvolgono l'elaborazione di immagini e linguaggio.
Valutare la NVIDIA L4 con questi parametri di riferimento è fondamentale per aiutare a comprendere le capacità della GPU L4 in specifiche attività di IA.Esso offre anche informazioni su come le diverse configurazioni (singolaQuesta informazione è vitale per i professionisti e le organizzazioni che desiderano ottimizzare la loro infrastruttura di IA.
I modelli funzionano in due modalità chiave: server e offline.
- Modalità offline: misura le prestazioni di un sistema quando tutti i dati sono disponibili per l'elaborazione contemporaneamente.quando il sistema elabora un grande set di dati in un singolo lottoLa modalità offline è cruciale per scenari in cui la latenza non è una preoccupazione primaria, ma la capacità di produzione e l'efficienza lo sono.
- Modalità server: Al contrario, la modalità server valuta le prestazioni del sistema in uno scenario che imita un ambiente server reale, dove le richieste arrivano una alla volta.misurare la rapidità con cui il sistema può rispondere a ciascuna richiestaÈ essenziale per le applicazioni in tempo reale, quali server web o applicazioni interattive, dove è necessaria una risposta immediata.
1 x NVIDIA L4 Dell PowerEdge XR7620
Come parte della nostra recente recensione del Dell PowerEdge XR7620, dotato di un singolo NVIDIA L4, l'abbiamo portato al bordo per eseguire diverse attività, tra cui MLPerf.
La configurazione del nostro sistema di prova comprendeva i seguenti componenti:
- 2 x Xeon Gold 6426Y ¢ 16-core 2.5GHz
- 1 x NVIDIA L4
- 8 x 16 GB DDR5
- 480 GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA driver 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Punteggio |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 13,010.20 |
| BERT K99 Server | 898.945 |
| BERT K99 Offline | 973.435 |
Le prestazioni in scenari server e offline per Resnet50 e BERT K99 sono quasi identiche, indicando che l'L4 mantiene prestazioni coerenti tra diversi modelli di server.
1, 2 e 4 NVIDIA L4 ¢ ¢ Dell PowerEdge T560
La nostra configurazione dell'unità di revisione comprendeva i seguenti componenti:
- 2 x Intel Xeon Gold 6448Y (32 core/64 thread ciascuno, TDP di 225 watt, 2,1-4,1 GHz)
- 8 x 1,6TB Solidigm P5520 SSD con scheda RAID PERC 12
- 1-4x GPU NVIDIA L4
- 8 x 64 GB RDIMM
- Ubuntu Server 22.04
- NVIDIA driver 535
| Dell PowerEdge T560 1x NVIDIA L4 | Punteggio |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 12,872.10 |
| Bert K99 Servitore | 898.945 |
| Bert K99 Offline | 945.146 |
Nei nostri test con due L4 nel Dell T560, abbiamo osservato questa scalazione quasi lineare delle prestazioni sia per i benchmark Resnet50 che BERT K99.Questa scalabilità è una testimonianza dell'efficienza delle GPU L4 e della loro capacità di lavorare in tandem senza perdite significative dovute a spese generali o inefficienza.
| Dell PowerEdge T560 2x NVIDIA L4 | Punteggio |
|---|---|
| Resnet50 Server | 24,407.50 |
| Resnet50 Offline | 25,463.20 |
| BERT K99 Server | 1,801.28 |
| BERT K99 Offline | 1,904.10 |
La scala lineare costante che abbiamo assistito con due GPU NVIDIA L4 si estende in modo impressionante a configurazioni con quattro unità L4. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.
| Dell PowerEdge T560 4x NVIDIA L4 | Punteggio |
|---|---|
| Resnet50 Server | 48,818.30 |
| Resnet50 Offline | 51,381.70 |
| BERT K99 Server | 3,604.96 |
| BERT K99 Offline | 3,821.46 |
Per un elenco completo dei risultati ufficiali, visitare la pagina dei risultati MLPerf.
Oltre a convalidare la scalabilità lineare delle GPU NVIDIA L4, i nostri test in laboratorio gettano luce sulle implicazioni pratiche della distribuzione di queste unità in diversi scenari operativi.Per esempio..., la coerenza nelle prestazioni tra modalità server e offline in tutte le configurazioni con le GPU L4 rivela la loro affidabilità e versatilità.
Questo aspetto è particolarmente rilevante per le imprese e gli istituti di ricerca in cui i contesti operativi variano notevolmente. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructureQueste intuizioni vanno oltre i semplici numeri di riferimento, offrendo una comprensione più profonda di come tale hardware può essere utilizzato in modo ottimale in scenari del mondo reale.Guidare migliori decisioni architettoniche e strategie di investimento nelle infrastrutture IA e HPC.
NVIDIA L4 Performance delle applicazioni
Abbiamo confrontato le prestazioni del nuovo NVIDIA L4 con quelle del NVIDIA A2 e NVIDIA T4 che lo hanno preceduto.Abbiamo distribuito tutti e tre i modelli all'interno di un server nel nostro laboratorio, con Windows Server 2022 e gli ultimi driver NVIDIA, sfruttando l'intera nostra suite di test GPU.
Queste schede sono state testate su una Dell Poweredge R760 con la seguente configurazione:
- 2 x Intel Xeon Gold 6430 (32 Core, 2.1GHz)
- Windows Server 2022
- Driver NVIDIA 538.15
- ECC disattivato su tutte le carte per il campionamento 1x
Mentre iniziamo i test di prestazioni tra questo gruppo di tre GPU aziendali, è importante notare le differenze di prestazioni uniche tra i precedenti modelli A2 e T4.Quando l'A2 è stato rilasciato, ha offerto alcuni notevoli miglioramenti come un minore consumo energetico e il funzionamento su uno slot PCIe Gen4 x8 più piccolo, invece dello slot PCIe Gen3 x16 più grande richiesto dal vecchio T4.All' inizio gli ha permesso di inserirsi in altri sistemi., soprattutto con l'impronta minore necessaria.
Blender OptiX 4.0
Blender OptiX è un'applicazione di modellazione 3D open-source. Questo test può essere eseguito sia per CPU che per GPU, ma abbiamo fatto solo GPU come la maggior parte degli altri test qui.Questo benchmark è stato eseguito utilizzando l'utilità CLI di Blender BenchmarkIl punteggio è campioni al minuto, con maggiore è meglio.
| Mixer 4.0 (Più alto è meglio) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| CLI di GPU Blender Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
Testiamo le CPU e le GPU con Blackmagic's RAW Speed Test che testa le velocità di riproduzione video.Questi vengono visualizzati come risultati separati ma ci stiamo concentrando solo sulle GPU qui, quindi i risultati della CPU sono omessi.
| Blackmagic RAW Speed Test (Più alto è meglio) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon's Cinebench 2024 è un benchmark di rendering per CPU e GPU che utilizza tutti i core e thread della CPU.Punteggi più alti sono migliori.
| Cinebench 2024 (Più alto è meglio) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 è una versione dell'utility di benchmarking leggero progettato per calcolare π (pi) a miliardi di decimali utilizzando l'accelerazione hardware attraverso GPU e CPU.Sfrutta la potenza di calcolo di OpenCL e CUDA che include sia unità di elaborazione centrali e graficaAbbiamo eseguito CUDA solo su tutte e 3 le GPU e i numeri qui sono il tempo di calcolo senza tempo di riduzione aggiunto.
| Tempo di calcolo del GPU PI in secondi (Più basso è meglio) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 1B | 3.732s | 19.799s | 7.504s |
| GPUPI v3.3 32B | 244.380 | 1,210.801 | 486.231s |
Mentre i risultati precedenti hanno esaminato solo una singola iterazione di ciascuna scheda, abbiamo anche avuto la possibilità di guardare una distribuzione 5x NVIDIA L4 all'interno del Dell PowerEdge T560.
| Tempo di calcolo del GPU PI in secondi (Più basso è meglio) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) con 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 1B | 0sec 850ms |
| GPUPI v3.3 32B | 50 secondi 361 minuti |
Octanebench
OctaneBench è un'utilità di benchmarking per OctaneRender, un altro renderer 3D con supporto RTX simile a V-Ray.
| Octano (maggiore è meglio) | ||||
| Scena | Nucleo | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Interni | Canali di informazione | 15.59 | 4.49 | 6.39 |
| Illuminazione diretta | 50.85 | 14.32 | 21.76 | |
| Tracciamento del percorso | 64.02 | 18.46 | 25.76 | |
| Un'idea. | Canali di informazione | 9.30 | 2.77 | 3.93 |
| Illuminazione diretta | 39.34 | 11.53 | 16.79 | |
| Tracciamento del percorso | 48.24 | 14.21 | 20.32 | |
| ATV | Canali di informazione | 24.38 | 6.83 | 9.50 |
| Illuminazione diretta | 54.86 | 16.05 | 21.98 | |
| Tracciamento del percorso | 68.98 | 20.06 | 27.50 | |
| Casella | Canali di informazione | 12.89 | 3.88 | 5.42 |
| Illuminazione diretta | 48.80 | 14.59 | 21.36 | |
| Tracciamento del percorso | 54.56 | 16.51 | 23.85 | |
| Punteggio totale | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6 è un benchmark multipiattaforma che misura le prestazioni complessive del sistema.Abbiamo solo esaminato i risultati della GPU..
Puoi trovare i confronti con qualsiasi sistema tu voglia nel browser Geekbench.
| Geekbench 6.1.0 (Più alto è meglio) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark è uno strumento di benchmarking cross-platform OpenCL di coloro che mantengono il motore di rendering 3D open-source LuxRender.Per la presente revisione, abbiamo usato la versione più recente, v4alpha0. in LuxMark, più alto è meglio quando si tratta di punteggio.
| Luxmark v4.0alpha0 GPU OpenCL (Più alto è meglio) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Banchiera della sala | 14,328 | 3,759 | 5,893 |
| Banchiera alimentare | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Abbiamo anche compilato GROMACS, un software di dinamica molecolare, specificamente per CUDA.essenziale per accelerare le simulazioni computazionali.
Il processo ha coinvolto l'utilizzo di nvcc, il compilatore CUDA di NVIDIA,insieme a molte iterazioni delle appropriate bandiere di ottimizzazione per garantire che i binari fossero adeguatamente sintonizzati all'architettura del serverL'inclusione del supporto CUDA nella compilazione GROMACS consente al software di interfacciarsi direttamente con l'hardware GPU, il che può migliorare drasticamente i tempi di calcolo per simulazioni complesse.
Il test: interazione delle proteine personalizzate nei Gromacs
Sfruttando un file di input fornito dalla comunità dal nostro diverso Discord, che conteneva parametri e strutture su misura per uno studio specifico sulle interazioni proteiche,Abbiamo avviato una simulazione di dinamica molecolare.I risultati sono stati notevoli: il sistema ha raggiunto una velocità di simulazione di 170,268 nanosecondi al giorno.
| GPU | Sistema | ns/giorno | tempo (s) di funzionamento del nucleo |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Piu' che IA
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!



