logo
Casa Casi

IBM Introduce Content-Aware-Storage per i Carichi di Lavoro RAG

Certificazione
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Rassegne del cliente
Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: “Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

IBM Introduce Content-Aware-Storage per i Carichi di Lavoro RAG

April 24, 2026
IBM ha presentato un'architettura di storage consapevole dei contenuti (CAS) che integra l'elaborazione dei dati AI direttamente nello strato di storage. Questo approccio è pensato per i flussi di lavoro di generazione aumentata dal recupero (RAG), poiché integra la vettorizzazione dei documenti nel sistema di storage stesso, riducendo la necessità di pipeline di pre-elaborazione esterne.

CAS trasferisce una funzione chiave di RAG, l'embedding dei documenti tramite metodi basati su modelli linguistici di grandi dimensioni (LLM), nell'infrastruttura di storage. Ciò consente alle aziende di elaborare e indicizzare i dati nella loro posizione esistente, allineando i sistemi di storage con i carichi di lavoro guidati dall'AI e minimizzando lo spostamento dei dati tra diversi livelli infrastrutturali. IBM posiziona questo come un mezzo per semplificare il deployment, aumentando al contempo le prestazioni e migliorando la località dei dati per le applicazioni AI.

Database vettoriale su larga scala


Al centro dell'implementazione CAS di IBM si trova un database vettoriale ottimizzato per la ricerca semantica. I database vettoriali supportano la ricerca approssimata del vicino più prossimo (ANN), consentendo ai sistemi AI di recuperare blocchi di dati pertinenti in base a metriche di somiglianza come la somiglianza del coseno o la distanza L2. Questa capacità è fondamentale per RAG, dove le query degli utenti vengono convertite in vettori e confrontate con i dati aziendali indicizzati per fornire risposte contestuali.


ultimo caso aziendale circa IBM Introduce Content-Aware-Storage per i Carichi di Lavoro RAG  0
                                                                             Grafico IBM CAS Fonte: IBM

IBM Research, in collaborazione con Samsung e NVIDIA, ha presentato un sistema prototipo in grado di scalare fino a 100 miliardi di vettori su un singolo server. Il sistema ha raggiunto oltre il 90% di richiamo e precisione, con una latenza media delle query inferiore a 700 millisecondi. Questa scala si adatta agli ambienti aziendali in cui i set di dati possono coprire miliardi di file e, una volta completamente indicizzati, crescere fino a centinaia di miliardi di vettori.

Integrazione della pipeline RAG


RAG sta diventando un approccio preferito per l'AI aziendale, poiché migliora l'accuratezza dell'output senza la necessità di riaddestrare il modello. Funziona integrando i prompt con dati specifici dell'azienda recuperati da un database vettoriale.

La pipeline inizia con l'ingestione dei dati, dove documenti come PDF e presentazioni vengono analizzati, suddivisi in blocchi e convertiti in embedding. Questi embedding vengono archiviati in un database vettoriale che organizza i dati per una ricerca di somiglianza efficiente. Durante la query, l'input dell'utente viene sottoposto a embedding e confrontato con i vettori archiviati, con il contenuto pertinente passato al modello linguistico come contesto. Questo meccanismo di grounding riduce le allucinazioni e aumenta la fiducia nei risultati generati dall'AI.

Il CAS di IBM integra l'intera pipeline direttamente nello storage, consolidando l'ingestione, l'indicizzazione e il recupero in stretta prossimità ai dati.

Affrontare le sfide di scala e costo


I sistemi di storage aziendali operano già su scala petabyte. Se estesi al CAS, ogni file può generare centinaia di vettori, espandendo rapidamente le dimensioni del set di dati. I database vettoriali tradizionali scalano tipicamente su più server, introducendo costi aggiuntivi e complessità operativa. Anche l'indicizzazione e la ri-indicizzazione di grandi set di dati diventano attività dispendiose in termini di tempo.

L'approccio di IBM si concentra sul miglioramento della densità vettoriale e sulla riduzione dell'overhead di indicizzazione per limitare la proliferazione dell'infrastruttura. L'architettura separa lo storage vettoriale e degli indici dal calcolo delle query, consentendo una scalabilità indipendente delle risorse di storage e di calcolo. Ciò è reso possibile da IBM Storage Scale e dal suo file system parallelo ad alte prestazioni.

Architettura di storage e hardware


L'implementazione CAS sfrutta l'IBM Storage Scale System 6000 (ESS 6000), una piattaforma all-flash progettata per carichi di lavoro AI e ad alte prestazioni. Il sistema supporta fino a 48 unità NVMe per enclosure 4U, con capacità delle singole unità che vanno da 7 TB a 60 TB. Integra connettività PCIe Gen5, InfiniBand da 400 Gb o Ethernet da 200 Gb, offrendo fino a 340 GB/s di throughput in lettura e 175 GB/s in scrittura per nodo, oltre a fino a 7 milioni di IOPS.

La piattaforma supporta anche NVIDIA GPUDirect Storage, facilitando percorsi dati diretti tra storage e GPU, nonché DPUs BlueField-3 per scaricare attività di rete ed elaborazione dati.

Le unità SSD NVMe Samsung PM9D3a PCIe Gen5 forniscono storage ad alta velocità e alta densità. Basate su V-NAND TLC di ottava generazione, queste unità offrono fino a 30,72 TB per dispositivo, con velocità di lettura sequenziale fino a 12 GB/s e velocità di scrittura fino a 6,8 GB/s. L'uso di SSD aziendali disponibili in commercio consente all'architettura di scalare utilizzando componenti standard.

Indicizzazione gerarchica e accelerazione GPU


Per affrontare l'indicizzazione su larga scala, IBM ha sviluppato un modello di indicizzazione gerarchica composto da più sotto-indici che possono essere ottimizzati in modo indipendente. Questa struttura consente aggiornamenti incrementali e ri-indicizzazione localizzata senza interrompere l'intero set di dati, migliorando sia la disponibilità che l'efficienza operativa.

L'accelerazione GPU riduce drasticamente i tempi di indicizzazione rispetto agli approcci basati solo su CPU. Attività che richiederebbero ore sulle CPU possono essere completate in pochi minuti utilizzando le GPU NVIDIA. Nei test, la creazione di indici per 100 miliardi di vettori ha richiesto 4 giorni con 6 GPU NVIDIA H200, rispetto ai 120 giorni stimati su un sistema CPU dual-socket.

L'intero set di dati, inclusi vettori e indici, ha consumato circa 153 TiB di storage. Il caricamento e il partizionamento iniziali dei dati hanno richiesto nove giorni. Il sistema risultante ha fornito una latenza media delle query di 694 ms con un richiamo del 90%, validato rispetto a calcoli di verità assoluta brute-force.

Roadmap


IBM e NVIDIA continuano a ottimizzare la piattaforma, concentrandosi sulla riduzione della latenza di indicizzazione e di query. Gli obiettivi attuali includono l'indicizzazione di 100 miliardi o più di vettori entro un singolo giorno, la riduzione del tempo di ingestione dei dati da nove giorni a un giorno e l'abbassamento della latenza di query nell'intervallo di 50-100 millisecondi mantenendo un richiamo del 90%.

L'integrazione dell'indicizzazione vettoriale nei file system standard mira a semplificare il deployment e ad abbassare le barriere all'adozione dell'AI aziendale. Integrando le capacità RAG direttamente nello storage, IBM posiziona CAS come uno strato fondamentale per l'infrastruttura abilitata all'AI.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Sito web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con i principali marchi globali per fornire prodotti affidabili e servizi professionali.
“Usare la tecnologia per costruire un mondo intelligente” Il tuo fornitore di servizi di prodotti ICT di fiducia!
Dettagli di contatto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

Invia la tua richiesta direttamente a noi (0 / 3000)