Specifiche complete:
| Specifiche | Dettagli |
|---|---|
| Processore | Fino a due processori Intel® Xeon® Scalable di 5a generazione (64 core per CPU) Fino a due processori Intel® Xeon® Scalable di 4a generazione (56 core per CPU) |
| Opzioni GPU | XE9680: – NVIDIA HGX H200 (141 GB) SXM5 700W – NVIDIA HGX H100 (80 GB) SXM5 700W – AMD Instinct MI300X (192 GB) OAM 750W – Intel Gaudi3 (128 GB) OAM 900W |
| Memoria | 32 slot DIMM 5600 MT/s (5a Gen) 4800 MT/s (4a Gen) |
| Storage | Bay unità anteriori: 8x NVMe/SAS/SATA da 2,5" (max 122,88 TB) 16x NVMe E3.S (max 122,88 TB) |
| Controller di storage | Controller interni: PERC H965i (non supportato con Intel Gaudi3)Avvio interno: Sottosistema di storage ottimizzato per l'avvio (NVMe BOSS-N1): HWRAID 1, 2 SSD M.2 |
| Slot PCIe | Slot PCIe Fino a 10 slot PCIe Gen5 x16 (8 slot con Intel Gaudi3) |
| Rete | 1x OCP 3.0 (opzionale) 2x 1GbE LOM |
| Alimentatori | Titanium da 3200W (277 VAC) Titanium da 2800W (200-240 VAC) |
| Dimensioni | Altezza: 10,36" (263,20 mm) Larghezza: 18,97" (482,00 mm) Profondità: 39,71" (1008,77 mm) con cornice |
| Peso | Fino a 251,44 libbre (114,05 kg) |
| Fattore di forma | Server rack 6U |
| Gestione | Integrato / Sul server: iDRAC9 iDRAC Direct iDRAC RESTful API con RedfishiDRAC Service ModuleConsole: Plugin CloudIQ per PowerEdge OpenManage Enterprise Plugin OpenManage Power Manager Plugin OpenManage Service Plugin OpenManage Update Manager Strumenti: Dell System Update Dell Repository Manager Cataloghi Enterprise iDRAC RESTful API con Redfish IPMI RACADM CLIIntegrazioni OpenManage: BMC Truesight Integrazione OpenManage con ServiceNow |
| Sicurezza | Firmware firmato crittograficamente Crittografia dei dati a riposo (SED con gestione chiavi locale o esterna) Avvio sicuro Verifica componenti sicura (controllo integrità hardware) Cancellazione sicura Root of Trust in silicio Blocco sistema (richiede iDRAC9 Enterprise o Datacenter) |
| Raffreddamento | Raffreddato ad aria |
Costruzione e design del Dell PowerEdge XE9680
Il PowerEdge XE9680 è un imponente pezzo di hardware, che misura 10,36 pollici (263,20 mm) di altezza, 18,97 pollici (482,00 mm) di larghezza e 39,71 pollici (1008,77 mm) di profondità con la sua cornice attaccata. A pieno carico, pesa 251,44 libbre (114,05 kg). La scelta della GPU avrà l'ultima parola sul peso, con il modello NVIDIA H100/H200 che pesa 238 libbre, mentre l'unità AMD MI300X pesa 251 libbre.
Questo è stato il primo server che ha richiesto un'attenta considerazione per essere caricato correttamente nel nostro ambiente di test. Considerando il peso del server e il numero di persone necessarie per installare l'hardware, c'è un certo margine per andare oltre i limiti, ma a un certo punto, una o due persone non lo sollevano da sole. Dell è abbastanza gentile da fornirti una "sollevatore" per aiutarti a capire come si adatta questa piattaforma. Per tutti coloro che si chiedono, Kevin ha caricato da solo l'XE9680 nel rack.
| Peso chassis | Descrizione |
|---|---|
| 40-70 libbre | Si consiglia di sollevare in due. |
| 70-120 libbre | Si consiglia di sollevare in tre. |
| ≥ 121 libbre | È necessario un sollevatore per server. |
Nonostante la sua complessità e la raccomandazione di Dell per tecnici specializzati, l'XE9680 presenta elementi di servizio notevolmente intuitivi. I pannelli del server includono istruzioni di servizio dettagliate e grafiche chiare, rendendo le procedure di manutenzione sorprendentemente accessibili per il personale IT esperto. Queste guide visive si sono rivelate preziose durante il nostro tempo pratico con il sistema, permettendoci di assistere vari componenti con sicurezza.
Dopo aver aperto il coperchio del PowerEdge XE9680, una volta superati i numerosi cavi di alimentazione dalla piccola sottostazione di alimentazione in alto, assomiglia molto a un PowerEdge R760. La nostra unità era alimentata da due processori Intel Xeon Platinum 8468, ciascuno con 48 core a 2,1 GHz. Ogni processore offre 80 linee PCIe, che fluiscono attraverso diversi switch PCIe in questa unità per supportare le GPU, le NIC e altro hardware caricato nell'XE9680.
Una delle caratteristiche ingegneristiche più impressionanti è il design della PCIe Switch Board (PSB). Queste schede forniscono connettività per fino a 10 schede PCIe full-height, half-length aggiuntive (due delle quali possono superare i 75W di assorbimento) e si integrano direttamente con la scheda base GPU. Questa integrazione diretta abilita la tecnologia GPU-direct, consentendo alle unità SSD e alle schede di rete di comunicare direttamente con le GPU, bypassando la CPU e riducendo la latenza per i carichi di lavoro AI intensivi di I/O.
Ogni slot di espansione supporta un'interfaccia PCIe Gen5 x16 completa, inclusi i due slot inferiori all'estrema sinistra e destra del layout. Mentre gli otto slot superiori sono collegati tramite il proprio PSB, i due slot inferiori si collegano direttamente alla PCIe Base Board (PBB). Questi due slot supportano anche schede ad alto assorbimento di potenza. Inoltre, va notato che il layout PCIe varia leggermente a seconda del tipo di GPU scelto per il PowerEdge XE9680. I modelli equipaggiati con AMD non supportano SmartNIC/DPU, e i modelli Intel Gaudi3 hanno due slot bloccati a causa di problemi di flusso d'aria.
Il raffreddamento è un'altra area in cui l'esperienza ingegneristica di Dell brilla. Il sistema impiega fino a 16 ventole ad alte prestazioni di grado oro, sei nel vassoio centrale e dieci nella parte posteriore. Il PowerEdge XE9680 supporta un'ampia gamma di scenari di installazione, con temperature ambiente comprese tra 10 e 35°C (30°C con le GPU Intel Gaudi3). A pieno regime, il server sposta impressionanti 1.200 CFM nell'area calda.
Questa robusta soluzione di raffreddamento gestisce anche i carichi termici più esigenti, incluse le GPU AMD MI300X, Intel Gaudi3 o NVIDIA H100, mantenendo temperature operative ottimali. Il PowerEdge XE9680 canta parecchio sotto carico in termini di emissione sonora. Dell offre una scheda tecnica acustica completa per l'XE9680 in diverse situazioni, ma è abbastanza facile dire che sarà una piattaforma rumorosa sotto carico.
Gestione
Le capacità di gestione dell'XE9680 sono costruite attorno all'iDRAC9, collaudato in ambito enterprise da Dell, che fornisce una gestione e un monitoraggio completi del ciclo di vita del server. Questa iterazione di iDRAC porta diverse funzionalità ottimizzate per l'AI, tra cui telemetria GPU dettagliata, analisi del consumo energetico e monitoraggio termico esteso progettato per carichi di lavoro AI ad alta densità.
Lo stack di gestione della piattaforma è particolarmente degno di nota per le implementazioni di infrastrutture AI. Tramite l'API RESTful di iDRAC9 con supporto Redfish, le organizzazioni possono monitorare e gestire programmaticamente l'utilizzo della GPU, la larghezza di banda della memoria e le condizioni termiche, metriche critiche per mantenere prestazioni ottimali di training e inferenza AI. L'integrazione del sistema con OpenManage Enterprise consente la gestione dell'intera flotta di più XE9680 tramite una console unificata, essenziale per cluster AI su larga scala.
La sicurezza e la conformità sono elementi fondamentali dell'architettura di gestione. La piattaforma implementa Root of Trust in silicio e Verifiche dei componenti sicuri, garantendo l'integrità hardware dall'avvio all'operatività. Queste funzionalità sono particolarmente preziose quando si eseguono carichi di lavoro AI sensibili o si gestiscono pesi di modelli proprietari.
La capacità di analisi predittiva dei guasti, potenziata dall'integrazione CloudIQ, utilizza il machine learning per prevedere potenziali problemi hardware prima che influiscano sui carichi di lavoro. Questo approccio proattivo è particolarmente cruciale per i lavori di training AI di lunga durata, dove tempi di inattività imprevisti possono comportare giorni di calcolo persi. Se combinata con il servizio ProSupport Plus di Dell, questa capacità predittiva attiva la creazione automatica di casi e la spedizione di parti, spesso con conseguente manutenzione preventiva prima che si verifichi un degrado del sistema.
Per le organizzazioni che richiedono l'integrazione con gli strumenti di gestione esistenti, l'XE9680 supporta vari framework di gestione tramite integrazioni OpenManage, tra cui ServiceNow e BMC TrueSight, consentendo un'integrazione senza interruzioni nei flussi di lavoro di gestione dei servizi IT consolidati.
L'interfaccia iDRAC9 fornisce un monitoraggio dettagliato in tempo reale dei componenti critici tramite una dashboard intuitiva. Il monitoraggio della GPU visualizza metriche complete, tra cui temperatura, consumo energetico e tassi di utilizzo su tutti gli otto acceleratori, essenziali per ottimizzare la distribuzione dei carichi di lavoro AI.
L'interfaccia di monitoraggio dello storage offre visibilità immediata sullo stato delle unità, sulla temperatura e sulle metriche di prestazioni dell'array NVMe, particolarmente prezioso nella gestione di cache di inferenza ad alto throughput e set di dati di training.
Memoria, storage e scalabilità
Le otto GPU AMD MI300X all'interno del Dell PowerEdge XE9680 rappresentano un salto significativo nella capacità di memoria GPU, offrendo 192 GB di memoria HBM3 per scheda rispetto ai 141 GB della NVIDIA H200. Questo aumento del 36% della capacità di memoria non è solo un numero su una scheda tecnica, ma è fondamentale per il deployment di modelli linguistici di grandi dimensioni.
Questo enorme pool di memoria, unito alla larghezza di banda di memoria di 5,3 TB/s della MI300X, consente alle organizzazioni di eseguire più istanze di modelli più piccoli o di partizionare modelli più grandi tra le GPU mantenendo un elevato throughput e una bassa latenza.
Per metterlo in prospettiva, il modello Llama 3.1 405B di Meta, che richiede oltre 1 TB di VRAM in BF16, può essere distribuito comodamente su un singolo XE9680 con GPU MI300X senza quantizzazione e con una lunghezza di contesto completa di 128k. Ciò elimina la potenziale perdita di qualità associata alle tecniche di quantizzazione e consente più Token/Secondo rispetto alla distribuzione del modello su due server.
Per massimizzare la nostra impronta di storage, abbiamo utilizzato le unità Solidigm da 61,44 TB per fungere da estensione sofisticata della memoria, colmando il divario tra la memoria GPU ad alta velocità e lo storage tradizionale. Le unità SSD eccellono nell'archiviazione di coppie chiave-valore durante l'inferenza, estendendo efficacemente la capacità di memoria della GPU per generazioni a lungo contesto. La loro enorme capacità e le prestazioni NVMe le rendono ideali per un rapido accesso ai pesi del modello, consentendo un efficiente cambio di modello e avvii a caldo.
In applicazioni come il Metrum AI Healthcare Assistant che descriviamo di seguito, le unità SSD svolgono un doppio ruolo come backend di storage per database vettoriali, fornendo le prestazioni necessarie per ricerche di similarità in tempo reale mantenendo la capacità per l'archiviazione di embedding estesa.
Il valore di queste unità ad alta capacità si estende oltre l'inferenza ai flussi di lavoro di training. Forniscono uno storage locale ideale per la coda dei batch di training, riducendo l'overhead di rete mantenendo i dati più vicini alle risorse di calcolo. Durante il training, queste unità eccellono nell'archiviazione locale dei checkpoint del modello, fondamentale per mantenere il progresso del training e consentire un rapido recupero. Questa strategia di storage locale aiuta anche a ottimizzare l'utilizzo della rete riducendo il traffico di rete immediato dopo ogni layer e batch elaborato.
Sebbene la capacità di 61,44 TB su otto bay nell'XE9680 sembri promettente, c'è molta più capacità in arrivo. Con la nuova unità da 122,88 TB annunciata da Solidigm, la densità di storage nell'XE può essere raddoppiata a quasi un petabyte per ulteriori ottimizzazioni di training e cache di inferenza di maggiore durata.
Metrum AI Healthcare Assistant – Rivoluzionare l'assistenza sanitaria
Il settore sanitario affronta costantemente la sfida di gestire la documentazione dei pazienti e la gestione delle cartelle cliniche, che richiedono molto tempo e spesso distolgono l'attenzione dall'assistenza diretta al paziente. Il Metrum AI Healthcare Assistant, distribuito su server Dell PowerEdge XE9680 con acceleratori AMD, esemplifica come un'infrastruttura AI avanzata possa trasformare i flussi di lavoro sanitari, migliorando l'efficienza e i risultati per i pazienti.
Il sistema utilizza Llama 3.1 70B Instruct come modello linguistico principale, rinomato per la sua comprensione dei contesti medici. Ciò gli consente di elaborare facilmente dati complessi dei pazienti. Questo modello linguistico è abbinato al modello di embedding gte-v1.5 e a Milvus Vector DB, fornendo una solida base per l'elaborazione del linguaggio naturale e la comprensione contestuale essenziale per la gestione dei dati medici.
Il Metrum AI Healthcare Assistant include anche un approccio multimodale che incorpora HistoGPT per l'analisi di immagini istopatologiche e Whisper di OpenAI per la trascrizione in tempo reale delle note dei medici. Insieme, questi modelli semplificano i flussi di lavoro clinici, consentendo ai medici di parlare in modo naturale mentre il sistema trascrive, categorizza e integra le informazioni nelle cartelle cliniche in tempo reale.
Metrum AI riconosce che, sebbene i dati dei singoli pazienti possano essere relativamente piccoli, le esigenze di storage combinate di ospedali ad alto traffico possono aumentare a centinaia di terabyte. Il Dell PowerEdge XE9680 può affrontare questo problema con il suo storage NVMe locale integrato. La nostra configurazione offre otto bay di storage NVMe U.2 da 2,5 pollici che operano a velocità PCIe Gen4. Sebbene abbiamo testato l'XE9680 con SSD QLC Soldigim D5-P5336 da 61,44 TB, questa capacità può aumentare ulteriormente. Soldigim ha recentemente lanciato i suoi nuovi modelli QLC D5-P5336 da 122,88 TB, che raddoppiano la capacità dei loro già enormi SSD mantenendo le stesse prestazioni.
Metrum ha fornito stime su come i dati dei pazienti si traducono nel tempo in diversi scenari. Quando si calcola la capacità di storage totale, si può vedere quanti pazienti aggiuntivi un'unità potrebbe supportare utilizzando gli SSD di maggiore capacità. Prendendo l'impronta di dati stimata per paziente e confrontandola con la capacità utilizzabile per ciascun SSD (57 TB per l'SSD da 61 TB e 114 TB per l'SSD da 122 TB), possiamo vedere che avere SSD densi aumenta notevolmente ciò che si può archiviare sul server in modo significativo all'anno.
| Stima annuale totale per paziente | Note | Storage stimato | Pazienti per SSD da 61 TB | Pazienti per SSD da 122 TB |
|---|---|---|---|---|
| Esigenze di storage potenziate (immagini DICOM/varianti, aumenti, copie elaborate, trascrizioni audio, registri dettagliati) | Include copie multiple di immagini, trascrizioni audio e registri | ~8,4 GB | 6.786 | 13.571 |
| Scenario di storage elevato (elaborazione intensiva, visite frequenti) | Visite frequenti, elevati requisiti di elaborazione delle immagini | ~10,5 GB | 5.428 | 10.857 |
Sebbene le stime iniziali di 1 anno sembrino piuttosto elevate, è importante notare che i dati dei pazienti non sono statici. Verranno acquisiti nuovi dati e programmate nuove visite, aumentando la domanda di storage. È qui che lo storage gioca un ruolo significativo nello spazio dell'imaging medico. La capacità di storage aggiuntiva influisce direttamente su quanti pazienti una soluzione può supportare efficacemente.
| Stima totale di storage a 10 anni per paziente | Note | Storage stimato | Pazienti per SSD da 61 TB | Pazienti per SSD da 122 TB |
|---|---|---|---|---|
| Scenario potenziato (copie multiple, registri dettagliati, audio, aumenti) | Registri ampliati, imaging e elaborazione frequenti | ~84 GB | 679 | 1.357 |
| Scenario elevato (elaborazione intensiva, cronologia completa) | Massime esigenze di elaborazione e storage nel corso di 10 anni | ~105 GB | 543 | 1.086 |
Il Dell PowerEdge XE9680, dotato di acceleratori AMD MI300X e integrato con il Metrum AI Healthcare Assistant, fornisce una soluzione scalabile ed efficiente per i fornitori di assistenza sanitaria. Automatizzando le attività che richiedono tempo e consentendo un rapido accesso a informazioni critiche, questa configurazione consente ai medici di concentrarsi maggiormente sull'assistenza ai pazienti gestendo le crescenti esigenze. Attraverso l'integrazione senza interruzioni di componenti AI attraverso modalità linguistiche, visive e vocali, l'Healthcare Assistant rappresenta un significativo progresso nelle soluzioni sanitarie basate sull'AI, riducendo gli oneri amministrativi e migliorando i risultati complessivi per i pazienti.
Conclusione
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
"Usare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!



