logo
Casa Notizie

notizie sull'azienda Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x

Certificazione
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Rassegne del cliente
Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: “Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat
società Notizie
Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x
Lightbits Labs e ScaleFlux hanno ottenuto unaumento delle prestazioni da 100x a 280xper i carichi di lavoro della cache KV sfruttando il software di cache LightInferra per leggere i dati dagli SSD di archiviazione computazionale ScaleFlux.

Le due aziende hanno fornito dati della cache KV a GPU distribuite in un ambiente di data center FarmGPU e presenteranno questa innovazione alla prossima conferenza GTC di Nvidia. Una cache KV memorizza i vettori token nella memoria ad alta larghezza di banda (HBM) di una GPU. Una volta esaurita la capacità HBM, i blocchi di dati della cache KV devono essere ricalcolati, un processo che consuma tempo e degrada le velocità di addestramento e inferenza dell'IA. Questo rallentamento diventa particolarmente pronunciato quando i carichi di lavoro dell'IA scalano, portando a un rapido aumento del numero di token utilizzati per generare vettori.

Il software della cache KV espande logicamente lo strato di cache verso l'esterno: prima alla CPU x86 e alla sua DRAM sul server GPU, poi alle unità NVMe locali nello stesso sistema x86 e ulteriormente agli SSD NVMe esterni. Questa espansione a livelli elimina la necessità di ricomputare i vettori token. Sebbene gli SSD NVMe abbiano naturalmente una latenza di accesso più elevata rispetto all'HBM o alla DRAM, il recupero di vettori token precalcolati è molto più veloce rispetto al ricalcolo di decine di migliaia di essi da zero. Lightbits e ScaleFlux affermano che la loro soluzione accelera drasticamente il recupero dei dati della cache KV dagli SSD.

Arthur Rasmusson, Director of AI Architecture presso Lightbits Labs, ha dichiarato: "Stiamo trasformando la memoria di inferenza da una cache reattiva a uno strato di dati intelligente e in streaming."

Come?


"Pre-caricando solo i dati che contano e fornendoli alle GPU tramite RDMA ad alta velocità prima che siano necessari, eliminiamo i blocchi che tradizionalmente limitano le prestazioni a lungo contesto. Il risultato è un Time-to-First-Token (TTFT) inferiore, un throughput più stabile sotto carico reale e un utilizzo effettivo della GPU significativamente più elevato."

Keith McKay, Senior Director of Solutions Architecture and Technical Partnerships presso ScaleFlux, ha commentato: "Ciò che stiamo mostrando alla GTC è un'anteprima di come un posizionamento dei dati più intelligente e una gestione persistente dello stato di attenzione potrebbero aiutare i sistemi di inferenza a rimanere reattivi man mano che le finestre di contesto crescono. Questa è una collaborazione che vogliamo plasmare insieme agli operatori reali."

Sia Lightbits che ScaleFlux mirano a incoraggiare gli operatori cloud e infrastrutturali ad adottare il loro software e i loro SSD, eliminando costosi tempi di inattività delle GPU.

Esamineremo prima il contributo di ScaleFlux, quindi passeremo allo strato software più sofisticato di Lightbits.

ScaleFlux fornisce SSD NVMe e unità di archiviazione computazionale (CSD) dotate di tecnologia di riduzione della scrittura (WRT) basata su hardware. Alimentate da compressione accelerata dall'hardware e gestione dei metadati guidata da SoC, queste unità offrono fino a quattro volte più capacità logica rispetto allo storage fisico, rimanendo completamente trasparenti ai sistemi host. L'azienda è membro del consorzio Open Flash Platform (OFP), che sta lavorando per ridefinire l'infrastruttura dati dell'IA con sistemi densi, a bassa latenza ed efficienti dal punto di vista energetico, offrendo 10 volte la densità dello storage IA convenzionale basato su file e solo un decimo del consumo energetico.

Basandosi su queste unità di archiviazione, Lightbits aggiunge il pre-caricamento intelligente dei dati della cache KVprimache le GPU li richiedano, prevenendo blocchi causati da una capacità KV insufficiente o da costosi ricalcoli di vettori token. Il suo software LightInferra utilizza algoritmi di caching ottimizzati per la cache KV per trasferire i dati richiesti nella memoria della GPU a velocità RDMA prima della domanda effettiva.

Ancora, come?


Il software viene eseguito sull'host x86 integrato nei server GPU e monitora i modelli di accesso ai blocchi di dati della cache KV. Utilizzando questa telemetria, gestisce un motore Sub-Linear Sparse Attention Prefetch (SLSAP) per identificare i blocchi KV più probabili da utilizzare successivamente.

Questo motore combina il hashing sensibile alla località (LSH) con la modellazione statistica del riutilizzo, analizzando la località di accesso storica nei calcoli di attenzione per valutare e dare priorità ai blocchi KV, quindi seleziona quelli con la maggiore probabilità di essere richiesti dalle GPU.

Questo processo di selezione sfrutta la sparsità intrinseca nell'accesso ai dati delle GPU: la maggior parte dei token è significativamente correlata solo a un piccolo sottoinsieme di token precedenti. Isolando questi blocchi ad alta probabilità, la soluzione riduce drasticamente il volume di vettori token che devono essere trasmessi alle GPU.

Un secondo algoritmo si concentra sui modelli di riutilizzo: token recenti, token semanticamente simili e modelli strutturali comuni negli scenari di chat RAG o multi-turno vengono riutilizzati frequentemente e prioritizzati di conseguenza.

LightInferra recupera questi blocchi di token prima dalla DRAM del server x86, o dagli SSD ScaleFlux esterni se necessario, quindi li precarica nella HBM della GPU tramite collegamenti RDMA.

Lightbits ha confrontato questo approccio con il ricalcolo da zero del contenuto memorizzato nella cache utilizzando carichi di lavoro di modelli linguistici di grandi dimensioni, misurando miglioramenti nel Time-to-First-Token (TTFT). Le cifre di accelerazione da 100x a 280x riportate derivano direttamente da questi risultati dei test.

ultime notizie sull'azienda Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x  0

Naturalmente, ci piacerebbe vedere i risultati dei benchmark che confrontano l'accelerazione della cache KV Lightbits-ScaleFlux

 con gli acceleratori di cache KV di DDN, Hammerspace, VAST Data, WEKA e altri, ma non

sono disponibili.


Ci sono grafici che mostrano come LightInferra-ScaleFlux abbia progressivamente migliorato il TTFT di rigenerazione della cache

 all'aumentare delle dimensioni del modello. Ad esempio:


ultime notizie sull'azienda Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x  1


Tutti i dati di benchmark correlati sono presentati in grafici in scala logaritmica, pensati principalmente per professionisti dell'informatica, ma un linguaggio semplice rende l'impatto reale molto più facile da comprendere: "Il risultato è una performance sostenuta del Time-to-First-Token (TTFT) man mano che il contesto scala da 100k token verso 1 milione e oltre."
Come afferma Jonmichael Hands di FarmGPU, quando una conversazione di 400k token riprende e il sistema deve rigenerare l'intera cache KV da zero, ciò significa due minuti completi di runtime della GPU senza token prodotti. LightInferra cambia completamente il modello economico: lo stesso carico di lavoro genera il suo primo token in meno di mezzo secondo, trasformando un livello di prodotto non redditizio in uno redditizio.

Lightbits e ScaleFlux hanno progettato questa soluzione congiunta specificamente per le fattorie GPU neocloud di prossima generazione, dove grandi pod GPU eseguono centinaia o addirittura migliaia di carichi di lavoro di modelli IA concorrenti. Quasi tutti questi carichi di lavoro raggiungeranno il limite della capacità della cache KV nella memoria ad alta larghezza di banda (HBM) della GPU.

 Nei setup tradizionali, i team affrontano due opzioni costose: recuperare lentamente i vettori token da uno storage esterno generico, o il processo molto più dispendioso in termini di tempo di ricomputare quei vettori da zero, entrambi i quali lasciano le GPU inattive per ore. La combinazione LightInferra e ScaleFlux elimina completamente questo punto dolente critico del settore.

Il CEO di FarmGPU, Jonmichael Hands, ha aggiunto: "Lo storage di rete veloce di Lightbits sblocca una miriade di nuovi casi d'uso per l'inferenza a lungo contesto. Accoppiando il nostro servizio gestito con lo storage ad alte prestazioni di Lightbits su unità NVMe ScaleFlux, possiamo ridurre il tempo per il primo token e aumentare l'utilizzo della GPU, abbassando drasticamente il costo totale di proprietà (TCO) per i carichi di lavoro di inferenza."

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com

Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
"Usare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!
Tempo del pub : 2026-03-18 11:34:46 >> lista di notizie
Dettagli di contatto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

Invia la tua richiesta direttamente a noi (0 / 3000)