Casa Casi

WEKA integra NeuralMesh con NVIDIA STX per affrontare i colli di bottiglia della memoria nell'inferenza AI

Tutti i prodotti

Server di stoccaggio di scaffale
(179)

Server di fusione di Huawei
(31)

Dell Poweredge Server
(59)

Server di H3C
(31)

Commutatori di Datacom
(96)

Dispositivo di WLAN
(21)

Router senza fili astuto
(17)

Disco rigido HDD
(78)

SSD interno del disco rigido
(16)

Carta grafica di Geforce
(27)

Unità di elaborazione del CPU di INTEL
(20)

Memoria RAM del server
(6)

Server ristrutturato di stoccaggio
(6)

Modulo del ricetrasmettitore di SFP
(4)

Selettore di canale della fibra
(125)

Certificazione

Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni

Rassegne del cliente

Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

WEKA integra NeuralMesh con NVIDIA STX per affrontare i colli di bottiglia della memoria nell'inferenza AI

April 10, 2026

WEKA ha annunciato l'integrazione della sua piattaforma NeuralMesh con l'architettura di riferimento NVIDIA STX, stabilendo la sua Augmented Memory Grid come un blocco fondamentale per l'infrastruttura AI di prossima generazione. La soluzione combinata affronta uno dei colli di bottiglia più significativi negli ambienti di inferenza su larga scala: i vincoli di memoria che influiscono direttamente sulle prestazioni, sul costo totale di proprietà e sulla crescita scalabile.

Operando tramite NeuralMesh, l'Augmented Memory Grid di WEKA espande la memoria GPU esternalizzando e persistendo le cache key-value. Quando distribuita con NVIDIA STX, questa architettura offre storage di memoria contestuale ad alto throughput per carichi di lavoro AI agentivi, supportando il ragionamento a lungo contesto attraverso sessioni, strumenti e flussi di lavoro end-to-end. Secondo l'azienda, le configurazioni che combinano sistemi NVIDIA Vera Rubin NVL72, DPUs BlueField-4 e Ethernet Spectrum-X possono aumentare il throughput dei token di memoria contestuale da 4x a 10x. La piattaforma dovrebbe inoltre fornire un throughput di lettura di almeno 320 GB/s e di scrittura di 150 GB/s, più che raddoppiando le prestazioni delle architetture di storage AI tradizionali.

L'infrastruttura di memoria diventa il collo di bottiglia dell'inferenza

WEKA concentra questa integrazione sulla crescente sfida del "muro della memoria" nelle moderne implementazioni AI. All'interno delle pipeline di inferenza odierne, la limitata memoria GPU ad alta larghezza di banda impone frequenti eviction della cache KV, portando a ripetute ricompilazioni e a una ridotta efficienza operativa. All'aumentare della concorrenza del sistema, queste inefficienze si moltiplicano, aumentando le spese infrastrutturali e riducendo la prevedibilità delle prestazioni.

L'azienda promuove l'infrastruttura di cache KV condivisa come soluzione. Preservando il contesto persistente tra utenti e sessioni, la cache condivisa elimina l'elaborazione ridondante e stabilizza il throughput dei token. NVIDIA STX fornisce l'architettura di riferimento validata per questo modello, mentre WEKA fornisce lo strato di estensione dello storage e della memoria.

Architettura NeuralMesh e Augmented Memory Grid

NeuralMesh funge da piattaforma di storage distribuito di WEKA, costruita per integrarsi perfettamente nell'intero stack NVIDIA STX. Offre servizi dati ad alte prestazioni ottimizzati per i carichi di lavoro AI, mentre l'Augmented Memory Grid funge da strato di espansione della memoria dedicato che consolida la cache KV al di fuori della memoria GPU.

Questo design consente agli ambienti di inferenza di sostenere sessioni a lungo contesto senza sovraccaricare le risorse GPU. Mantenendo lo stato della cache e consentendo il riutilizzo tra i carichi di lavoro, la piattaforma mantiene un elevato utilizzo e prestazioni costanti all'aumentare delle implementazioni.

WEKA osserva che l'Augmented Memory Grid, presentata per la prima volta al GTC 2025 e ora generalmente disponibile, è stata validata su piattaforme CPU NVIDIA Grace abbinate a DPUs BlueField. L'architettura offre guadagni misurabili nell'efficienza dell'inferenza, tra cui un tempo di risposta al primo token drasticamente più veloce, un throughput di token per GPU più elevato e prestazioni stabili in condizioni di maggiore concorrenza. L'offloading del percorso dati su BlueField-4 riduce inoltre l'overhead della CPU e allevia i colli di bottiglia I/O.

Guadagni di prestazioni ed efficienza

In ambienti simili alla produzione, la piattaforma è progettata per migliorare la reattività e l'efficienza dell'infrastruttura. WEKA afferma che l'Augmented Memory Grid può ridurre il tempo di risposta al primo token da 4x a 20x, aumentando al contempo l'output di token per GPU fino a 6,5x. Questi miglioramenti derivano da tassi di successo della cache KV più elevati e da cicli di ricompilazione ridotti, consentendo ai sistemi di mantenere le prestazioni all'aumentare delle dimensioni del contesto e del numero di utenti.

Firmus, un fornitore di infrastrutture AI, è evidenziato come un primo adottante che utilizza NeuralMesh con infrastrutture basate su NVIDIA. L'azienda riporta un miglioramento del throughput dei token e una latenza ridotta su larga scala, con guadagni derivanti da un uso più efficiente delle GPU esistenti piuttosto che da ulteriori implementazioni hardware.

Implicazioni per la progettazione dell'infrastruttura AI

Questa integrazione evidenzia un cambiamento nella progettazione dei sistemi AI, dove le strategie di memoria e storage definiscono sempre più le prestazioni complessive e l'efficienza dei costi. Con l'espansione dei carichi di lavoro AI agentivi e l'allargamento delle finestre contestuali, gli approcci basati esclusivamente su DRAM diventano insostenibili a causa dei crescenti costi di ricompilazione e delle GPU sottoutilizzate.

WEKA posiziona la cache KV persistente e condivisa come una capacità fondamentale per le "AI factory". Le organizzazioni che adottano questo modello possono ottenere un maggiore utilizzo delle GPU, un minor consumo energetico per attività di inferenza e una scalabilità più prevedibile. Al contrario, gli ambienti che si affidano esclusivamente alla memoria GPU locale affronteranno probabilmente costi operativi crescenti e rendimenti decrescenti all'aumentare dei carichi di lavoro.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione e Servizi di Sistema/Soluzioni Infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
"Usare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!

PREV: HP Espande la Linea di Workstation Z con Nuovi Sistemi per AI, Lavoro Mobile e IT Ibrido

NEXT: Veeam Rilascia il Server MCP Open-Source per l'Intelligenza di Backup e Ripristino

Dettagli di contatto

Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

WEKA integra NeuralMesh con NVIDIA STX per affrontare i colli di bottiglia della memoria nell'inferenza AI

Server di stoccaggio di scaffale

Server di fusione di Huawei

Dell Poweredge Server

Server di H3C

Commutatori di Datacom

Dispositivo di WLAN

Router senza fili astuto

Disco rigido HDD

SSD interno del disco rigido

Carta grafica di Geforce

Unità di elaborazione del CPU di INTEL

Memoria RAM del server

Server ristrutturato di stoccaggio

Modulo del ricetrasmettitore di SFP

Selettore di canale della fibra

WEKA integra NeuralMesh con NVIDIA STX per affrontare i colli di bottiglia della memoria nell'inferenza AI

L'infrastruttura di memoria diventa il collo di bottiglia dell'inferenza

Architettura NeuralMesh e Augmented Memory Grid

Guadagni di prestazioni ed efficienza

Implicazioni per la progettazione dell'infrastruttura AI

Server di stoccaggio di scaffale

12 server Rackmount dello scaffale di Lenovo ThinkSystem SR630 del server delle baie 1U

Unità di elaborazione di Intel Xeon E-2378G del server di stoccaggio di scaffale di ThinkSystem SR250 V2 4SFF

Server del supporto di scaffale di Inspur NF5180M6 1U del server di stoccaggio di scaffale di Intel C621A

Server di fusione di Huawei

Server 32 DDR4 DIMMs dello scaffale di FusionServer 5288 V6 4U 44 dischi rigidi a 3,5 pollici

Server ultra ad alta densità 1288H V5 di stoccaggio della rete del server 1U di fusione di Huawei

Stoccaggio istantaneo ibrido del nuovo di Gen OceanStor 5310 Huawei server dello scaffale