Al Google Cloud Next, Google ha presentato i suoi acceleratori AI di ottava generazione: il TPU v8t “Sunfish” per l’addestramento e il TPU v8i “Zebrafish” per l’inferenza, insieme al nuovo tessuto del data center Virgo. Progettati su misura per l'era dell'intelligenza artificiale degli agenti, questi chip sono ottimizzati per l'addestramento di modelli di grandi miscele di esperti (MoE) e per la fornitura di token a bassa latenza con prezzi convenienti. Pur condividendo la stessa piattaforma host e struttura di interconnessione, v8t e v8i differiscono per memoria, SRAM, topologia e specializzazione hardware.
Un superpod v8t supporta 9.600 chip con 2 PB HBM e fornisce 121 EFLOPS di calcolo FP4, quasi il triplo delle prestazioni della precedente generazione Ironwood. Il v8i è scalabile fino a 1.152 chip con 288 GB di HBM e 384 MB di SRAM su chip, offrendo un'efficienza in termini di costi di inferenza migliore dell'80% rispetto a Ironwood. Il tessuto Virgo interconnette oltre 134.000 chip v8t, fornendo una larghezza di banda non bloccante di 47 Pb/s con un throughput per acceleratore 4 volte più elevato e una latenza inferiore del 40%.
Architettura TPU fondamentale rispetto alla GPU
I TPU sono ASIC personalizzati caratterizzati da grandi unità di moltiplicazione della matrice (MXU), SRAM gestita dal software e compilazione anticipata. A differenza della pianificazione dinamica small-core della GPU, le TPU presentano un flusso di dati deterministico con array sistolici, eliminando il jitter della cache e il sovraccarico della pianificazione warp per un maggiore utilizzo dei FLOPS su carichi di lavoro a matrice densa. Tuttavia, le TPU lottano con forme dinamiche, scarsità irregolare e reti grafiche complesse, offrendo al tempo stesso un supporto più ristretto per l’ecosistema software dominato da JAX e XLA.
La differenza strutturale nel supporto della scarsità distingue chiaramente TPU e GPU. Gli NVIDIA Tensor Core supportano nativamente la sparsità strutturata 2:4 tramite compressione a livello di istruzione. Al contrario, gli array sistolici in TPU funzionano in modo rigido, rendendo inefficiente il salto dello zero senza stalli della pipeline o hardware di decompressione aggiuntivo. AWS Trainium2 adotta una via di mezzo con decompressori sparsi dedicati per mantenere la velocità effettiva dell'array.
Le TPU integrano SparseCores per gestire attività di raccolta-dispersione irregolari per l'incorporamento di tabelle e il routing MoE. Questi core specializzati eccellono nell'ordinamento, nella permutazione e nella riorganizzazione dei dati, coprendo carichi di lavoro di raccomandazioni e invio di token esperti che gli MXU standard non sono in grado di elaborare in modo efficiente.
TPU v8t “Sunfish”: acceleratore di allenamento
Il chip di allenamento v8t equipaggia 216 GB di memoria HBM3e e 128 MB di SRAM. La precisione nativa FP4 raddoppia il throughput per ciclo, spingendo il calcolo a chip singolo a 12,6 PFLOPS. Mantiene un'interconnessione toroidale 3D e una larghezza di banda ICI aggiornata da 19,2 Tb/s, ideale per le comunicazioni collettive ad anello nella formazione su larga scala.
Gli SparseCore ereditati ottimizzano la trasmissione dati irregolare all-to-all MoE. Due aggiornamenti critici risolvono i colli di bottiglia su larga scala: TPUDirect RDMA e TPUDirect Storage bypassano la CPU host per consentire l'accesso diretto alla memoria TPU, offrendo un throughput I/O 10 volte più veloce. Inoltre, v8t adotta le CPU Axion basate su Arm di Google come processori host, isolando il jitter dell'host e migliorando la stabilità della preelaborazione per l'addestramento multi-chip sincronizzato.
TPU v8i “Zebrafish”: acceleratore di inferenza
Progettato per carichi di lavoro di inferenza legati alla larghezza di banda della memoria, v8i dà priorità alla generazione di token a bassa latenza. Dispone di 384 MB di SRAM, il triplo di quella di Ironwood, per memorizzare la cache KV su chip e ridurre le letture HBM ripetute. Con due TensorCore e HBM3e da 288 GB, raggiunge 10,1 PFLOPS di calcolo FP4, sovrapponendo attività di inferenza a batch brevi per un utilizzo più sostenuto.
Sostituendo gli SparseCores, il Collectives Acceleration Engine (CAE) dedicato riduce la latenza di sincronizzazione su chip fino a 5 volte, ottimizzando le frequenti operazioni collettive di piccoli batch. Il v8i abbandona il toro 3D per la topologia Boardfly basata su Dragonfly, riducendo il numero massimo di hop chip-to-chip da 16 a 7 e abbassando la latenza MoE all-to-all del 50%.
Gerarchia del tessuto Vergine e Giove
Virgo funge da struttura scalabile all'interno del data center, adottando un'architettura non bloccante a due livelli per eliminare l'eccesso di abbonamenti per il traffico AI est-ovest. Alimentato da interruttori ottici MEMS, consente il reindirizzamento degli errori a livello di millisecondo e mantiene un buon rendimento del 97% per i superpod v8t. In combinazione con Jupiter, il tessuto cross-data center a lunga distanza di Google, il sistema di interconnessione a più livelli supporta oltre un milione di chip TPU in un unico cluster logico con 1,7 ZFLOPS di calcolo FP4 totale.
Prestazioni, TCO e posizione di mercato
L'elevato rendimento e l'utilizzo stabile dei Model FLOPs Utilization (MFU) garantiscono ai TPU vantaggi in termini di costi convincenti. Con un MFU del 40%, i costi di formazione del TPU sono inferiori del 62% rispetto a NVIDIA GB300. Nel confronto hardware, le prestazioni FP4 ad alta densità v8t si collocano tra GB200 e GB300, mentre Google domina nel clustering su larga scala con un singolo pod da 9.600 chip, superando di gran lunga il dominio NVLink da 72 GPU di NVIDIA.
Guardando al futuro, Vera Rubin, Rubin Ultra e Kyber di NVIDIA ridurranno il divario prestazionale di TPU dal 2026 al 2027. I punti deboli di TPU includono HBM più piccolo per chip, assenza di scarsità hardware e compatibilità limitata dell'ecosistema. Ciononostante, Google mantiene i punti di forza nel clustering massiccio, nella latenza deterministica e nell’efficienza dei costi per i carichi di lavoro del MoE.
Google sta espandendo sia l'infrastruttura TPU che quella GPU NVIDIA. Meta pianifica un accordo multimiliardario per l'adozione di TPU a partire dal 2027. Essendo una generazione a doppio chip ottimizzata per l'era degli agenti, TPU v8 garantisce la competitività di Google contro NVIDIA Grace-Blackwell per l'implementazione di frontiera dell'IA su larga scala.
Pechino Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direttore della strategia globale
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Sito Web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con marchi leader a livello mondiale per fornire prodotti affidabili e servizi professionali.
"Utilizzare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!
Sandy Yang/Direttore della strategia globale
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Sito Web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con marchi leader a livello mondiale per fornire prodotti affidabili e servizi professionali.
"Utilizzare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!



