MinIO ha rilasciato MemKV, un archivio di memoria di contesto dedicato creato per risolvere un collo di bottiglia critico all'interno delle pipeline di inferenza AI su larga scala. Fungendo da seconda soluzione di punta di MinIO insieme ad AIStor, MemKV espande l'infrastruttura dati dell'azienda al livello di memoria. È progettato per fornire dati contestuali persistenti e condivisi per carichi di lavoro di intelligenza artificiale agenti in esecuzione su cluster GPU distribuiti.
MiniIO AIstor
Man mano che i sistemi di intelligenza artificiale passano dalle risposte una tantum al ragionamento a più turni e all’esecuzione automatizzata delle attività, sostenere un contesto continuo attraverso i cicli di inferenza è diventato sempre più essenziale. Nelle architetture esistenti, i dati di contesto vengono spesso scartati a causa della capacità limitata dei livelli di memoria adiacenti alla GPU, tra cui HBM e DRAM. Ciò costringe le GPU a ricalcolare ripetutamente il contesto esistente, aumentando la latenza, l’utilizzo del calcolo e il consumo energetico. MinIO definisce questo carico di lavoro ridondante come la "tassa di ricalcolo", un'inefficienza che peggiora esponenzialmente negli ambienti cloud iperscalabili.
MemKV è progettato per alleviare questo punto critico tramite uno strato di memoria persistente condiviso in grado di archiviare su scala petabyte con latenza di accesso a livello di microsecondi. Conservando i dati contestuali durante i flussi di lavoro di inferenza, la piattaforma riduce i calcoli ridondanti e aumenta l'efficienza complessiva dell'infrastruttura. I dati di benchmark interni di MinIO verificano una migliore latenza time-to-first-token in simultaneità a livello di produzione. In un'implementazione tipica dotata di 128 GPU e finestre di contesto di 128.000 token, l'utilizzo della GPU è passato da circa il 50% a oltre il 90%, traducendosi in sostanziali riduzioni annuali dei costi di elaborazione.
I dirigenti di MinIO hanno affermato che il sovraccarico di ricalcolo rimane impercettibile nelle implementazioni su piccola scala, ma si trasforma in un difetto strutturale fondamentale su scala aziendale. Man mano che i cluster GPU si espandono, la rigenerazione ripetuta del contesto comporta un maggiore consumo energetico e spese infrastrutturali, rendendo i sistemi di memoria specializzati indispensabili per un funzionamento IA sostenibile.
Affrontare il compromesso su scala di memoria
L'infrastruttura AI legacy costringe gli sviluppatori a scendere a compromessi tra velocità di accesso e capacità di archiviazione. I livelli di memoria ad alte prestazioni come HBM e DRAM offrono una latenza dell'ordine dei microsecondi ma presentano limiti di capacità ristretti e costi elevati. Al contrario, i sistemi di storage convenzionali offrono un’enorme scalabilità ma soffrono di una latenza di millisecondi, che li rende incompatibili con l’inferenza in tempo reale e le attività di ragionamento a lungo contesto.
Micron HBM4
MemKV colma questa lacuna del settore introducendo un livello di memoria condivisa intermedio che bilancia una latenza ultra-bassa e un'ampia scalabilità di archiviazione. Nativamente compatibile con NVIDIA BlueField-4 STX e integrata con NVIDIA Dynamo insieme agli strumenti NIXL, la soluzione consente a interi cluster GPU di accedere a pool di dati contestuali unificati a velocità di trasmissione allineate all'inferenza. Questo design elimina la frequente migrazione dei dati di contesto tra la memoria isolata e i livelli di storage, riducendo la latenza e aumentando il throughput del sistema.
NVIDIA BlueField-4
Architettura ottimizzata per carichi di lavoro di inferenza
Progettato esclusivamente per pipeline di dati di inferenza, MemKV si inserisce nel livello G3.5 del framework gerarchico della memoria GPU di MinIO. Basato su un'infrastruttura di storage NVMe, raggiunge una capacità di petabyte mantenendo una latenza di accesso di microsecondi, disaccoppiando con successo la scalabilità della memoria dalle risorse di elaborazione della GPU.
Il sistema abbandona le ingombranti astrazioni di archiviazione tradizionali, trasferendo i dati direttamente dalle unità NVMe alle pipeline di dati AI tramite trasmissione RDMA end-to-end. Ciò elimina il sovraccarico prestazionale causato dai protocolli HTTP, dalla conversione del file system e dai server di storage intermedi, colli di bottiglia comuni nelle architetture di storage basate su oggetti e file.
Fonte: Google
Le principali ottimizzazioni dell'architettura includono l'esecuzione binaria ARM64 nativa su NVIDIA BlueField-4 STX, integrata direttamente nel livello di storage per ridurre la dipendenza dai nodi di storage x86 esterni. Tutti i trasferimenti di dati tra la memoria GPU e lo storage NVMe adottano la trasmissione RDMA, bypassando gli stack di storage convenzionali ridondanti. Inoltre, MemKV utilizza dimensioni di blocchi ingrandite che vanno da 2 MB a 16 MB, che sono ottimizzate per le caratteristiche di throughput della GPU invece dei blocchi di archiviazione legacy da 4 KB. Supporta tessuti di interconnessione all'avanguardia ad alta velocità come NVIDIA Spectrum-X Ethernet e PCIe Gen6, facilitando la trasmissione di dati quasi a velocità wire-speed tra cluster.
Disponibilità
MinIO MemKV è ora disponibile in commercio per la distribuzione aziendale.
Pechino Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direttore della strategia globale
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Sito Web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con marchi leader a livello mondiale per fornire prodotti affidabili e servizi professionali.
"Utilizzare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!
Sandy Yang/Direttore della strategia globale
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Sito Web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con marchi leader a livello mondiale per fornire prodotti affidabili e servizi professionali.
"Utilizzare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!



