WEKA ha annunciato l'integrazione della sua piattaforma NeuralMesh con l'architettura di riferimento NVIDIA STX, stabilendo la sua Augmented Memory Grid come un blocco fondamentale per l'infrastruttura AI di prossima generazione. La soluzione combinata affronta uno dei colli di bottiglia più significativi negli ambienti di inferenza su larga scala: i vincoli di memoria che influiscono direttamente sulle prestazioni, sul costo totale di proprietà e sulla crescita scalabile.
Operando tramite NeuralMesh, l'Augmented Memory Grid di WEKA espande la memoria GPU esternalizzando e persistendo le cache key-value. Quando distribuita con NVIDIA STX, questa architettura offre storage di memoria contestuale ad alto throughput per carichi di lavoro AI agentivi, supportando il ragionamento a lungo contesto attraverso sessioni, strumenti e flussi di lavoro end-to-end. Secondo l'azienda, le configurazioni che combinano sistemi NVIDIA Vera Rubin NVL72, DPUs BlueField-4 e Ethernet Spectrum-X possono aumentare il throughput dei token di memoria contestuale da 4x a 10x. La piattaforma dovrebbe inoltre fornire un throughput di lettura di almeno 320 GB/s e di scrittura di 150 GB/s, più che raddoppiando le prestazioni delle architetture di storage AI tradizionali.
L'infrastruttura di memoria diventa il collo di bottiglia dell'inferenza
WEKA concentra questa integrazione sulla crescente sfida del "muro della memoria" nelle moderne implementazioni AI. All'interno delle pipeline di inferenza odierne, la limitata memoria GPU ad alta larghezza di banda impone frequenti eviction della cache KV, portando a ripetute ricompilazioni e a una ridotta efficienza operativa. All'aumentare della concorrenza del sistema, queste inefficienze si moltiplicano, aumentando le spese infrastrutturali e riducendo la prevedibilità delle prestazioni.
L'azienda promuove l'infrastruttura di cache KV condivisa come soluzione. Preservando il contesto persistente tra utenti e sessioni, la cache condivisa elimina l'elaborazione ridondante e stabilizza il throughput dei token. NVIDIA STX fornisce l'architettura di riferimento validata per questo modello, mentre WEKA fornisce lo strato di estensione dello storage e della memoria.
Architettura NeuralMesh e Augmented Memory Grid
NeuralMesh funge da piattaforma di storage distribuito di WEKA, costruita per integrarsi perfettamente nell'intero stack NVIDIA STX. Offre servizi dati ad alte prestazioni ottimizzati per i carichi di lavoro AI, mentre l'Augmented Memory Grid funge da strato di espansione della memoria dedicato che consolida la cache KV al di fuori della memoria GPU.
Questo design consente agli ambienti di inferenza di sostenere sessioni a lungo contesto senza sovraccaricare le risorse GPU. Mantenendo lo stato della cache e consentendo il riutilizzo tra i carichi di lavoro, la piattaforma mantiene un elevato utilizzo e prestazioni costanti all'aumentare delle implementazioni.
WEKA osserva che l'Augmented Memory Grid, presentata per la prima volta al GTC 2025 e ora generalmente disponibile, è stata validata su piattaforme CPU NVIDIA Grace abbinate a DPUs BlueField. L'architettura offre guadagni misurabili nell'efficienza dell'inferenza, tra cui un tempo di risposta al primo token drasticamente più veloce, un throughput di token per GPU più elevato e prestazioni stabili in condizioni di maggiore concorrenza. L'offloading del percorso dati su BlueField-4 riduce inoltre l'overhead della CPU e allevia i colli di bottiglia I/O.
Guadagni di prestazioni ed efficienza
In ambienti simili alla produzione, la piattaforma è progettata per migliorare la reattività e l'efficienza dell'infrastruttura. WEKA afferma che l'Augmented Memory Grid può ridurre il tempo di risposta al primo token da 4x a 20x, aumentando al contempo l'output di token per GPU fino a 6,5x. Questi miglioramenti derivano da tassi di successo della cache KV più elevati e da cicli di ricompilazione ridotti, consentendo ai sistemi di mantenere le prestazioni all'aumentare delle dimensioni del contesto e del numero di utenti.
Firmus, un fornitore di infrastrutture AI, è evidenziato come un primo adottante che utilizza NeuralMesh con infrastrutture basate su NVIDIA. L'azienda riporta un miglioramento del throughput dei token e una latenza ridotta su larga scala, con guadagni derivanti da un uso più efficiente delle GPU esistenti piuttosto che da ulteriori implementazioni hardware.
Implicazioni per la progettazione dell'infrastruttura AI
Questa integrazione evidenzia un cambiamento nella progettazione dei sistemi AI, dove le strategie di memoria e storage definiscono sempre più le prestazioni complessive e l'efficienza dei costi. Con l'espansione dei carichi di lavoro AI agentivi e l'allargamento delle finestre contestuali, gli approcci basati esclusivamente su DRAM diventano insostenibili a causa dei crescenti costi di ricompilazione e delle GPU sottoutilizzate.
WEKA posiziona la cache KV persistente e condivisa come una capacità fondamentale per le "AI factory". Le organizzazioni che adottano questo modello possono ottenere un maggiore utilizzo delle GPU, un minor consumo energetico per attività di inferenza e una scalabilità più prevedibile. Al contrario, gli ambienti che si affidano esclusivamente alla memoria GPU locale affronteranno probabilmente costi operativi crescenti e rendimenti decrescenti all'aumentare dei carichi di lavoro.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione e Servizi di Sistema/Soluzioni Infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
"Usare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione e Servizi di Sistema/Soluzioni Infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
"Usare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!



