Il sistema di file parallelo IBM Storage Scale supporta la gestione della cache KV distribuita abbinata a NVIDIA Dynamo, soddisfacendo scenari di inferenza AI su larga scala con carichi di lavoro di contesto massicci.
IBM ha rilasciato un Redbook ufficiale intitolatoContext Without Limits: una piattaforma KV Cache ad alte prestazioni per l'inferenza AI su larga scala, fornendo un'architettura di riferimento completa e convalidata per questa soluzione congiunta.e IBM Storage Scale Erasure Coding Edition (ECE) per costruire un livello di storage condiviso ad alte prestazioni per l'inferenza AIIn quanto documenti tecnici autorevoli pubblicati dall'IBM ITSO (International Technical Support Organization), gli IBM Redbooks offrono un'esperienza pratica.Guida approfondita per l'implementazione di prodotti di infrastruttura IBM di livello enterprise.
Co-autore di team di ingegneri di IBM, Supermicro e NVIDIA, il Redbook affronta un punto di forza centrale dei carichi di lavoro di IA a lungo contesto.Applicazioni di recupero RAG e pipeline di agenti autonomi generano dati di cache KV massicci all'interno della GPU HBMUna volta che i dati memorizzati in cache vengono espulsi dalle risorse limitate di HBM, il ricomputamento ripetuto innescherà gravi aumenti di latenza, rendendo indispensabile l'archiviazione di cache KV di richiesta incrociata.
La soluzione adotta un'architettura di cache KV gerarchica a cinque livelli che copre diverse richieste di latenza e capacità:
-
Strato G1: nodo GPU locale HBM
-
Strato G2: DRAM del sistema di nodi della CPU
-
Strato G3: SSD locale collegato direttamente
-
G3.5 Strato: Memoria flash condivisa a livello di pod, con le DPU NVIDIA BlueField con interconnessione diretta alle DPU del server GPU
-
Strato G4: Pool di archiviazione condiviso cross-Ethernet esterno collegato a tutti i server di calcolo GPU
Questa configurazione multi-livello, che copre la gerarchia di memoria e di archiviazione end-to-end, offre una latenza continua e gradienti di capacità.evacuazione automatica e ricarica dinamica dei dati su tutta la pila di archiviazione, adattandosi in modo flessibile ai vari modelli di accesso al carico di lavoro e ai bilanci dei costi totali delle infrastrutture.
Distribuito su Supermicro Petascale Storage Server, Storage Scale ECE serve come livello di cache fredda G4.compresi gli stati di conversazione multi-turn inattivi, dati di contesto degli agenti condivisi e record di query storici che non richiedono una risposta immediata.
Secondo i risultati dei test registrati nel Redbook, questa architettura di riferimento pronta per la produzione accelera efficacemente i servizi di inferenza di IA generativa e agentica.Nei test TTFT (Time To First Token) a singola richiesta rispetto ai server GPU indipendenti senza cache KV di scala di archiviazione esterna, il sistema integrato mantiene un TTFT stabile indipendentemente da rapidi cambiamenti di lunghezza.Accelerazione di 56xsotto 130k sequenze di input di token ed elimina completamente le fluttuazioni di latenza di inferenza causate da lunghezze estese dei prompt.
Sotto la pressione di inferenza simultanea di più utenti, la soluzione ottiene un drammatico miglioramento delle prestazioni: la portata della richiesta aumenta da 0,19 RPS a 4,26 RPS, segnando un incremento diAumento di potenza di 22 volteNel frattempo, il tempo totale di elaborazione per 200 richieste di inferenza scende del 95%, aumentando notevolmente l'efficienza di utilizzo della GPU e la scalabilità complessiva del cluster di inferenza.
Lo stack mantiene anche prestazioni robuste sotto duri test di stress con vicini rumorosi.il sistema integrato funziona ancora in modo stabile a 3.6 RPS, completando tutte le 200 richieste di inferenza in 55,56 secondi.18 volte più altorispetto all'architettura di ricalcolo basata solo sulla GPU.
Il team di ricerca ha concluso nel Redbook: "Per le imprese che mirano a massimizzare il ROI sugli investimenti costosi in hardware GPU, questa architettura integrata verificata fornisce una soluzione semplice,approccio pronto per la produzione per aumentare il throughput di inferenza, riducendo la latenza end-to-end, supportando una maggiore concurrenza dei servizi e costruendo un'infrastruttura di inferenza AI su larga scala più conveniente.
Parole chiave: SUPERMICRO, IBM Storage Scale,
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
Utilizzare la tecnologia per costruire un mondo intelligenteIl vostro fornitore di servizi di prodotti ICT di fiducia!