Per numerose aziende, il data warehouse si è trasformato da una risorsa strategica in un onere operativo. Piattaforme proprietarie di lunga data come Teradata, insieme a servizi esclusivi del cloud come Snowflake, hanno offerto scalabilità e prestazioni, ma a scapito del vincolo del fornitore, di prezzi imprevisti e di un'adattabilità architetturale limitata.
Con l’intensificarsi del controllo normativo e l’analisi basata sull’intelligenza artificiale che diventa centrale per il vantaggio competitivo, le organizzazioni stanno rivalutando se le loro attuali piattaforme di magazzino sono realmente in linea con gli obiettivi aziendali a lungo termine.
EDB Postgres® AI (EDB PG AI) affronta queste sfide direttamente con WarehousePG, un data warehouse open source su scala petabyte creato per ripristinare controllo, prevedibilità e sovranità dei dati, il tutto senza compromettere le prestazioni. Basato su Postgres e progettato per analisi parallele su larga scala, WarehousePG offre un modo moderno per liberarsi da sistemi restrittivi riducendo al contempo il costo totale di proprietà (TCO) fino al 58%.
Analisi open source su scala petabyte con Postgres al centro
I data warehouse aziendali vengono ora ampliati oltre i limiti di progettazione originali. Set di dati delle dimensioni di petabyte, esigenze di distribuzione ibrida, requisiti di sovranità dei dati e analisi basate sull'intelligenza artificiale coesistono tutti in ambienti di produzione che richiedono prestazioni eccezionali e flessibilità dell'architettura.
Le piattaforme proprietarie tradizionali e i warehouse esclusivamente cloud faticano a soddisfare queste esigenze contemporaneamente, costringendo le organizzazioni a scendere a compromessi tra costi, controllo e funzionalità.
EDB Postgres AI per WarehousePG colma questa lacuna fornendo un data warehouse completamente open source, su scala petabyte, basato su Postgres. Progettato per analisi ad alte prestazioni, intelligenza artificiale nel database e implementazione flessibile in ambienti locali, cloud e ibridi, risolve i limiti dei sistemi legacy ed esclusivi del cloud.
Architettura: MPP basato su Postgres su larga scala
L'architettura di elaborazione massicciamente parallela (MPP) di WarehousePG gli consente di scalare su centinaia di nodi. Invece di fare affidamento su un modello di scale-up a server singolo, distribuisce sia i dati che l’esecuzione delle query su più nodi di segmento, supervisionati da un nodo coordinatore centrale.
Il coordinatore gestisce l'analisi, l'ottimizzazione e la pianificazione dell'esecuzione delle query. Una volta finalizzato un piano di query, le attività vengono distribuite ai segmenti, che operano in parallelo sulle rispettive partizioni di dati locali. Questo approccio consente a WarehousePG di eseguire in modo efficiente query analitiche complesse, inclusi join di grandi dimensioni, aggregazioni, funzioni di finestra e trasformazioni, su set di dati su scala petabyte.
Questa architettura elimina i colli di bottiglia intrinseci dei database monolitici mantenendo al tempo stesso la piena compatibilità SQL con Postgres, riducendo notevolmente la curva di apprendimento per i team di dati esistenti.
Prestazioni prevedibili senza restrizioni proprietarie
A differenza dei warehouse nativi del cloud che si basano su prezzi basati sul consumo e su una gestione opaca delle risorse, WarehousePG offre un comportamento deterministico del carico di lavoro e prestazioni coerenti. L'allocazione delle risorse e l'esecuzione delle query sono completamente controllate all'interno del cluster, garantendo tempi di risposta costanti anche con carichi di lavoro analitici misti.
Essendo una soluzione con licenza Apache 2.0 basata su Postgres open source, WarehousePG libera le aziende dai formati di archiviazione proprietari e dai motori di esecuzione controllati dal fornitore. I dati rimangono completamente accessibili, portabili e distribuibili ovunque l'organizzazione ne abbia bisogno: on-premise per la conformità normativa, nel cloud pubblico per elasticità o in configurazioni ibride per l'ottimizzazione dei costi.
Questa indipendenza architetturale, combinata con i prezzi basati sul core di EDB, consente una riduzione fino al 58% del TCO, soprattutto per le organizzazioni che migrano da piattaforme proprietarie ad alto costo o da cloud warehouse imprevedibili.
Archiviazione ibrida e accesso SQL ai data Lake
Gli ambienti analitici moderni sono sempre più distribuiti su più livelli di storage. WarehousePG risolve questo problema attraverso il suo Platform Extension Framework (PXF), che consente l'accesso SQL diretto ai dati esterni archiviati in archivi di oggetti e file system distribuiti, come Amazon S3 e Hadoop Distributed File System (HDFS).
Con PXF, i data engineer possono eseguire query su formati come Parquet, AVRO, JSON e CSV senza copiare i dati nel warehouse. Ciò riduce significativamente la complessità ETL e la ridondanza dello storage, consentendo al tempo stesso una strategia ibrida di “dati caldi e freddi”: i set di dati a cui si accede di frequente rimangono nello storage ad alte prestazioni di WarehousePG, mentre i dati utilizzati di rado risiedono nello storage di oggetti a basso costo.
Da un punto di vista tecnico, questo approccio preserva la semantica SQL su diversi livelli di archiviazione, consentendo ai team di analisi di lavorare con un unico modello di dati logico.
Ingestione in tempo reale con FlowServer
Le pipeline solo batch non sono più sufficienti per molti casi d'uso analitici. WarehousePG include un componente FlowServer dedicato per l'acquisizione di dati in tempo reale e quasi in tempo reale.
FlowServer supporta lo streaming di eventi ad alto rendimento da piattaforme come Apache Kafka e RabbitMQ, consentendo casi d'uso come analisi operativa, rilevamento di frodi e monitoraggio in tempo reale. Inserendo i dati in streaming direttamente nel warehouse, le organizzazioni eliminano la latenza tra i sistemi operativi e gli insight analitici.
Questa architettura consente la coesistenza di carichi di lavoro in streaming e batch all'interno della stessa piattaforma analitica, semplificando l'infrastruttura e riducendo lo spostamento dei dati.
AI, ML ed elaborazione vettoriale nel database
Una caratteristica chiave di EDB Postgres AI per WarehousePG è il supporto per l'analisi e l'intelligenza artificiale nel database, eliminando la necessità di spostare set di dati di grandi dimensioni su piattaforme di machine learning (ML) esterne.
WarehousePG integra MADlib per l'apprendimento automatico basato su SQL, consentendo agli utenti di addestrare e valutare i modelli direttamente all'interno del database utilizzando strutture relazionali familiari. Per casi d'uso più avanzati, la piattaforma supporta framework Python ML nel database, consentendo ai data scientist di operare su larga scala senza esportare dati.
Il supporto vettoriale nativo tramite l'estensione pgvector consente carichi di lavoro di ricerca per similarità, ricerca semantica e generazione aumentata di recupero (RAG) direttamente all'interno del warehouse. Questa funzionalità sta diventando sempre più critica per le applicazioni basate sull’intelligenza artificiale che combinano dati aziendali strutturati con contenuti non strutturati come documenti e registri.
Centralizzando dati, analisi e intelligenza artificiale, WarehousePG riduce la complessità della pipeline e accelera i tempi di acquisizione delle informazioni.
Elevata disponibilità e preparazione aziendale
WarehousePG è progettato per garantire affidabilità a livello di produzione. L'elevata disponibilità viene ottenuta tramite un coordinatore di standby, garantendo un funzionamento ininterrotto in caso di guasto del coordinatore primario. La tolleranza agli errori a livello di segmento consente ai carichi di lavoro di continuare a essere eseguiti anche quando i singoli nodi non sono disponibili.
Le funzionalità aziendali includono la gestione del carico di lavoro, la pianificazione prevedibile delle query e l'osservabilità completa, garantendo un funzionamento stabile in caso di forte domanda analitica.
Fondamentalmente, le organizzazioni ottengono l'accesso al supporto 24 ore su 24, 7 giorni su 7 da parte degli esperti Postgres di EDB, colmando il divario tra la flessibilità open source e le esigenze operative aziendali.
Migrazione senza interruzioni
Per le organizzazioni che si modernizzano da piattaforme analitiche legacy, WarehousePG offre un percorso a basso rischio. I carichi di lavoro Greenplum esistenti possono essere migrati tramite uno scambio binario, consentendo una rapida modernizzazione senza riscrivere le query o riqualificare i team. L'elevata parità SQL semplifica inoltre le migrazioni da altri data warehouse proprietari basati su SQL.
Questo approccio consente alle aziende di modernizzarsi in modo incrementale, preservando la continuità aziendale e riacquistando al tempo stesso il controllo sul proprio stack di analisi.
Ricostruire il warehouse per l'analisi moderna
EDB PG AI per WarehousePG dimostra che l'analisi su scala petabyte, la disponibilità dell'intelligenza artificiale e la sovranità dei dati non richiedono piattaforme proprietarie o lock-in nel cloud. Combinando compatibilità Postgres, scalabilità MPP, storage ibrido, acquisizione in tempo reale e funzionalità AI e ML nel database, WarehousePG offre una base tecnicamente solida per l'analisi aziendale moderna.
Per le organizzazioni che cercano un data warehouse che dia priorità al controllo dell'architettura, alle prestazioni prevedibili e all'economia open source, WarehousePG offre un'alternativa convincente e a prova di futuro.
Pechino Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direttore della strategia globale
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Sito Web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con marchi leader a livello mondiale per fornire prodotti affidabili e servizi professionali.
"Utilizzare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!