Casa Notizie

notizie sull'azienda Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x

Tutti i prodotti

Server di stoccaggio di scaffale
(179)

Server di fusione di Huawei
(31)

Dell Poweredge Server
(59)

Server di H3C
(31)

Commutatori di Datacom
(96)

Dispositivo di WLAN
(21)

Router senza fili astuto
(17)

Disco rigido HDD
(78)

SSD interno del disco rigido
(16)

Carta grafica di Geforce
(27)

Unità di elaborazione del CPU di INTEL
(20)

Memoria RAM del server
(6)

Server ristrutturato di stoccaggio
(6)

Modulo del ricetrasmettitore di SFP
(4)

Selettore di canale della fibra
(125)

Certificazione

Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni

Rassegne del cliente

Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

società Notizie

Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x

Lightbits Labs e ScaleFlux hanno ottenuto unaumento delle prestazioni da 100x a 280xper i carichi di lavoro della cache KV sfruttando il software di cache LightInferra per leggere i dati dagli SSD di archiviazione computazionale ScaleFlux.

Le due aziende hanno fornito dati della cache KV a GPU distribuite in un ambiente di data center FarmGPU e presenteranno questa innovazione alla prossima conferenza GTC di Nvidia. Una cache KV memorizza i vettori token nella memoria ad alta larghezza di banda (HBM) di una GPU. Una volta esaurita la capacità HBM, i blocchi di dati della cache KV devono essere ricalcolati, un processo che consuma tempo e degrada le velocità di addestramento e inferenza dell'IA. Questo rallentamento diventa particolarmente pronunciato quando i carichi di lavoro dell'IA scalano, portando a un rapido aumento del numero di token utilizzati per generare vettori.

Il software della cache KV espande logicamente lo strato di cache verso l'esterno: prima alla CPU x86 e alla sua DRAM sul server GPU, poi alle unità NVMe locali nello stesso sistema x86 e ulteriormente agli SSD NVMe esterni. Questa espansione a livelli elimina la necessità di ricomputare i vettori token. Sebbene gli SSD NVMe abbiano naturalmente una latenza di accesso più elevata rispetto all'HBM o alla DRAM, il recupero di vettori token precalcolati è molto più veloce rispetto al ricalcolo di decine di migliaia di essi da zero. Lightbits e ScaleFlux affermano che la loro soluzione accelera drasticamente il recupero dei dati della cache KV dagli SSD.

Arthur Rasmusson, Director of AI Architecture presso Lightbits Labs, ha dichiarato: "Stiamo trasformando la memoria di inferenza da una cache reattiva a uno strato di dati intelligente e in streaming."

Come?

"Pre-caricando solo i dati che contano e fornendoli alle GPU tramite RDMA ad alta velocità prima che siano necessari, eliminiamo i blocchi che tradizionalmente limitano le prestazioni a lungo contesto. Il risultato è un Time-to-First-Token (TTFT) inferiore, un throughput più stabile sotto carico reale e un utilizzo effettivo della GPU significativamente più elevato."

Keith McKay, Senior Director of Solutions Architecture and Technical Partnerships presso ScaleFlux, ha commentato: "Ciò che stiamo mostrando alla GTC è un'anteprima di come un posizionamento dei dati più intelligente e una gestione persistente dello stato di attenzione potrebbero aiutare i sistemi di inferenza a rimanere reattivi man mano che le finestre di contesto crescono. Questa è una collaborazione che vogliamo plasmare insieme agli operatori reali."

Sia Lightbits che ScaleFlux mirano a incoraggiare gli operatori cloud e infrastrutturali ad adottare il loro software e i loro SSD, eliminando costosi tempi di inattività delle GPU.

Esamineremo prima il contributo di ScaleFlux, quindi passeremo allo strato software più sofisticato di Lightbits.

ScaleFlux fornisce SSD NVMe e unità di archiviazione computazionale (CSD) dotate di tecnologia di riduzione della scrittura (WRT) basata su hardware. Alimentate da compressione accelerata dall'hardware e gestione dei metadati guidata da SoC, queste unità offrono fino a quattro volte più capacità logica rispetto allo storage fisico, rimanendo completamente trasparenti ai sistemi host. L'azienda è membro del consorzio Open Flash Platform (OFP), che sta lavorando per ridefinire l'infrastruttura dati dell'IA con sistemi densi, a bassa latenza ed efficienti dal punto di vista energetico, offrendo 10 volte la densità dello storage IA convenzionale basato su file e solo un decimo del consumo energetico.

Basandosi su queste unità di archiviazione, Lightbits aggiunge il pre-caricamento intelligente dei dati della cache KVprimache le GPU li richiedano, prevenendo blocchi causati da una capacità KV insufficiente o da costosi ricalcoli di vettori token. Il suo software LightInferra utilizza algoritmi di caching ottimizzati per la cache KV per trasferire i dati richiesti nella memoria della GPU a velocità RDMA prima della domanda effettiva.

Ancora, come?

Il software viene eseguito sull'host x86 integrato nei server GPU e monitora i modelli di accesso ai blocchi di dati della cache KV. Utilizzando questa telemetria, gestisce un motore Sub-Linear Sparse Attention Prefetch (SLSAP) per identificare i blocchi KV più probabili da utilizzare successivamente.

Questo motore combina il hashing sensibile alla località (LSH) con la modellazione statistica del riutilizzo, analizzando la località di accesso storica nei calcoli di attenzione per valutare e dare priorità ai blocchi KV, quindi seleziona quelli con la maggiore probabilità di essere richiesti dalle GPU.

Questo processo di selezione sfrutta la sparsità intrinseca nell'accesso ai dati delle GPU: la maggior parte dei token è significativamente correlata solo a un piccolo sottoinsieme di token precedenti. Isolando questi blocchi ad alta probabilità, la soluzione riduce drasticamente il volume di vettori token che devono essere trasmessi alle GPU.

Un secondo algoritmo si concentra sui modelli di riutilizzo: token recenti, token semanticamente simili e modelli strutturali comuni negli scenari di chat RAG o multi-turno vengono riutilizzati frequentemente e prioritizzati di conseguenza.

LightInferra recupera questi blocchi di token prima dalla DRAM del server x86, o dagli SSD ScaleFlux esterni se necessario, quindi li precarica nella HBM della GPU tramite collegamenti RDMA.

Lightbits ha confrontato questo approccio con il ricalcolo da zero del contenuto memorizzato nella cache utilizzando carichi di lavoro di modelli linguistici di grandi dimensioni, misurando miglioramenti nel Time-to-First-Token (TTFT). Le cifre di accelerazione da 100x a 280x riportate derivano direttamente da questi risultati dei test.

Naturalmente, ci piacerebbe vedere i risultati dei benchmark che confrontano l'accelerazione della cache KV Lightbits-ScaleFlux

con gli acceleratori di cache KV di DDN, Hammerspace, VAST Data, WEKA e altri, ma non

sono disponibili.

Ci sono grafici che mostrano come LightInferra-ScaleFlux abbia progressivamente migliorato il TTFT di rigenerazione della cache

all'aumentare delle dimensioni del modello. Ad esempio:

ultime notizie sull'azienda Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x 1

Tutti i dati di benchmark correlati sono presentati in grafici in scala logaritmica, pensati principalmente per professionisti dell'informatica, ma un linguaggio semplice rende l'impatto reale molto più facile da comprendere: "Il risultato è una performance sostenuta del Time-to-First-Token (TTFT) man mano che il contesto scala da 100k token verso 1 milione e oltre."

Come afferma Jonmichael Hands di FarmGPU, quando una conversazione di 400k token riprende e il sistema deve rigenerare l'intera cache KV da zero, ciò significa due minuti completi di runtime della GPU senza token prodotti. LightInferra cambia completamente il modello economico: lo stesso carico di lavoro genera il suo primo token in meno di mezzo secondo, trasformando un livello di prodotto non redditizio in uno redditizio.

Lightbits e ScaleFlux hanno progettato questa soluzione congiunta specificamente per le fattorie GPU neocloud di prossima generazione, dove grandi pod GPU eseguono centinaia o addirittura migliaia di carichi di lavoro di modelli IA concorrenti. Quasi tutti questi carichi di lavoro raggiungeranno il limite della capacità della cache KV nella memoria ad alta larghezza di banda (HBM) della GPU.

Nei setup tradizionali, i team affrontano due opzioni costose: recuperare lentamente i vettori token da uno storage esterno generico, o il processo molto più dispendioso in termini di tempo di ricomputare quei vettori da zero, entrambi i quali lasciano le GPU inattive per ore. La combinazione LightInferra e ScaleFlux elimina completamente questo punto dolente critico del settore.

Il CEO di FarmGPU, Jonmichael Hands, ha aggiunto: "Lo storage di rete veloce di Lightbits sblocca una miriade di nuovi casi d'uso per l'inferenza a lungo contesto. Accoppiando il nostro servizio gestito con lo storage ad alte prestazioni di Lightbits su unità NVMe ScaleFlux, possiamo ridurre il tempo per il primo token e aumentare l'utilizzo della GPU, abbassando drasticamente il costo totale di proprietà (TCO) per i carichi di lavoro di inferenza."

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com

Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
"Usare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!

Tempo del pub : 2026-03-18 11:34:46 >> lista di notizie

Dettagli di contatto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

notizie sull'azienda Lightbits e ScaleFlux dimostrano un'accelerazione della cache KV da 100x a 280x

Server di stoccaggio di scaffale

Server di fusione di Huawei

Dell Poweredge Server

Server di H3C

Commutatori di Datacom

Dispositivo di WLAN

Router senza fili astuto

Disco rigido HDD

SSD interno del disco rigido

Carta grafica di Geforce

Unità di elaborazione del CPU di INTEL

Memoria RAM del server

Server ristrutturato di stoccaggio

Modulo del ricetrasmettitore di SFP

Selettore di canale della fibra

Come?

Ancora, come?

Server di stoccaggio di scaffale

12 server Rackmount dello scaffale di Lenovo ThinkSystem SR630 del server delle baie 1U

Unità di elaborazione di Intel Xeon E-2378G del server di stoccaggio di scaffale di ThinkSystem SR250 V2 4SFF

Server del supporto di scaffale di Inspur NF5180M6 1U del server di stoccaggio di scaffale di Intel C621A

Server di fusione di Huawei

Server 32 DDR4 DIMMs dello scaffale di FusionServer 5288 V6 4U 44 dischi rigidi a 3,5 pollici

Server ultra ad alta densità 1288H V5 di stoccaggio della rete del server 1U di fusione di Huawei

Stoccaggio istantaneo ibrido del nuovo di Gen OceanStor 5310 Huawei server dello scaffale