logo
Casa Notizie

notizie sull'azienda Redbook di Big Blue sulla gestione della cache KV su scala di archiviazione

Certificazione
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Rassegne del cliente
Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: “Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat
società Notizie
Redbook di Big Blue sulla gestione della cache KV su scala di archiviazione

Il sistema di file parallelo IBM Storage Scale supporta la gestione della cache KV distribuita abbinata a NVIDIA Dynamo, soddisfacendo scenari di inferenza AI su larga scala con carichi di lavoro di contesto massicci.

ultime notizie sull'azienda Redbook di Big Blue sulla gestione della cache KV su scala di archiviazione  0

IBM ha rilasciato un Redbook ufficiale intitolatoContext Without Limits: una piattaforma KV Cache ad alte prestazioni per l'inferenza AI su larga scala, fornendo un'architettura di riferimento completa e convalidata per questa soluzione congiunta.e IBM Storage Scale Erasure Coding Edition (ECE) per costruire un livello di storage condiviso ad alte prestazioni per l'inferenza AIIn quanto documenti tecnici autorevoli pubblicati dall'IBM ITSO (International Technical Support Organization), gli IBM Redbooks offrono un'esperienza pratica.Guida approfondita per l'implementazione di prodotti di infrastruttura IBM di livello enterprise.

Co-autore di team di ingegneri di IBM, Supermicro e NVIDIA, il Redbook affronta un punto di forza centrale dei carichi di lavoro di IA a lungo contesto.Applicazioni di recupero RAG e pipeline di agenti autonomi generano dati di cache KV massicci all'interno della GPU HBMUna volta che i dati memorizzati in cache vengono espulsi dalle risorse limitate di HBM, il ricomputamento ripetuto innescherà gravi aumenti di latenza, rendendo indispensabile l'archiviazione di cache KV di richiesta incrociata.

La soluzione adotta un'architettura di cache KV gerarchica a cinque livelli che copre diverse richieste di latenza e capacità:
  • Strato G1: nodo GPU locale HBM
  • Strato G2: DRAM del sistema di nodi della CPU
  • Strato G3: SSD locale collegato direttamente
  • G3.5 Strato: Memoria flash condivisa a livello di pod, con le DPU NVIDIA BlueField con interconnessione diretta alle DPU del server GPU
  • Strato G4: Pool di archiviazione condiviso cross-Ethernet esterno collegato a tutti i server di calcolo GPU
Questa configurazione multi-livello, che copre la gerarchia di memoria e di archiviazione end-to-end, offre una latenza continua e gradienti di capacità.evacuazione automatica e ricarica dinamica dei dati su tutta la pila di archiviazione, adattandosi in modo flessibile ai vari modelli di accesso al carico di lavoro e ai bilanci dei costi totali delle infrastrutture.

Distribuito su Supermicro Petascale Storage Server, Storage Scale ECE serve come livello di cache fredda G4.compresi gli stati di conversazione multi-turn inattivi, dati di contesto degli agenti condivisi e record di query storici che non richiedono una risposta immediata.

Secondo i risultati dei test registrati nel Redbook, questa architettura di riferimento pronta per la produzione accelera efficacemente i servizi di inferenza di IA generativa e agentica.Nei test TTFT (Time To First Token) a singola richiesta rispetto ai server GPU indipendenti senza cache KV di scala di archiviazione esterna, il sistema integrato mantiene un TTFT stabile indipendentemente da rapidi cambiamenti di lunghezza.Accelerazione di 56xsotto 130k sequenze di input di token ed elimina completamente le fluttuazioni di latenza di inferenza causate da lunghezze estese dei prompt.

Sotto la pressione di inferenza simultanea di più utenti, la soluzione ottiene un drammatico miglioramento delle prestazioni: la portata della richiesta aumenta da 0,19 RPS a 4,26 RPS, segnando un incremento diAumento di potenza di 22 volteNel frattempo, il tempo totale di elaborazione per 200 richieste di inferenza scende del 95%, aumentando notevolmente l'efficienza di utilizzo della GPU e la scalabilità complessiva del cluster di inferenza.

Lo stack mantiene anche prestazioni robuste sotto duri test di stress con vicini rumorosi.il sistema integrato funziona ancora in modo stabile a 3.6 RPS, completando tutte le 200 richieste di inferenza in 55,56 secondi.18 volte più altorispetto all'architettura di ricalcolo basata solo sulla GPU.

Il team di ricerca ha concluso nel Redbook: "Per le imprese che mirano a massimizzare il ROI sugli investimenti costosi in hardware GPU, questa architettura integrata verificata fornisce una soluzione semplice,approccio pronto per la produzione per aumentare il throughput di inferenza, riducendo la latenza end-to-end, supportando una maggiore concurrenza dei servizi e costruendo un'infrastruttura di inferenza AI su larga scala più conveniente.

Parole chiave: SUPERMICRO, IBM Storage Scale,

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, direttore della strategia globale
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Affari:
Distribuzione di prodotti TIC/integrazione di sistemi e servizi/soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
“Utilizzare la tecnologia per costruire un mondo intelligente”Il vostro fornitore di servizi di prodotti ICT di fiducia!
Tempo del pub : 2026-06-12 11:09:46 >> lista di notizie
Dettagli di contatto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

Invia la tua richiesta direttamente a noi (0 / 3000)