logo
Casa Casi

Google annuncia TPU v8t Sunfish e TPU v8i Zebrafish

Certificazione
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Cina Beijing Qianxing Jietong Technology Co., Ltd. Certificazioni
Rassegne del cliente
Il personale di vendita della tecnologia il Co., srl di Pechino Qianxing Jietong è molto professionale e paziente. Possono fornire rapidamente le citazioni. La qualità e l'imballaggio dei prodotti sono inoltre molto buoni. La nostra cooperazione è molto regolare.

—— LLC del》 di Festfing DV del 《

Quando stavo cercando urgentemente il CPU di Intel e lo SSD di Toshiba, sabbioso dalla tecnologia il Co., srl di Pechino Qianxing Jietong mi ha dato molto aiuto e mi ha ottenuto i prodotti che ho avuto bisogno di rapidamente. Realmente la apprezzo.

—— Kitty Yen

Sabbioso della tecnologia il Co., srl di Pechino Qianxing Jietong è un rappresentante molto attento, che può ricordarmi degli errori di configurazione a tempo in cui compro un server. Gli ingegneri sono inoltre molto professionali e possono realizzare rapidamente il processo difficile.

—— Strelkin Mikhail Vladimirovich

Siamo molto soddisfatti della nostra esperienza di lavoro con Beijing Qianxing Jietong. La qualità del prodotto è eccellente e la consegna è sempre puntuale. Il loro team di vendita è professionale, paziente e molto disponibile con tutte le nostre domande. Apprezziamo molto il loro supporto e non vediamo l'ora di una partnership a lungo termine. Altamente raccomandato!

—— Ahmad Navid

Qualità: “Grande esperienza con il mio fornitore. Il MikroTik RB3011 era già usato, ma era in ottime condizioni e tutto funzionava perfettamente.e tutte le mie preoccupazioni sono state affrontate rapidamente- Un fornitore molto affidabile.

—— Geran Colesio

Sono ora online in chat

Google annuncia TPU v8t Sunfish e TPU v8i Zebrafish

May 11, 2026
Al Google Cloud Next, Google ha presentato i suoi acceleratori AI di ottava generazione: il TPU v8t “Sunfish” per l’addestramento e il TPU v8i “Zebrafish” per l’inferenza, insieme al nuovo tessuto del data center Virgo. Progettati su misura per l'era dell'intelligenza artificiale degli agenti, questi chip sono ottimizzati per l'addestramento di modelli di grandi miscele di esperti (MoE) e per la fornitura di token a bassa latenza con prezzi convenienti. Pur condividendo la stessa piattaforma host e struttura di interconnessione, v8t e v8i differiscono per memoria, SRAM, topologia e specializzazione hardware.

ultimo caso aziendale circa Google annuncia TPU v8t Sunfish e TPU v8i Zebrafish  0

Un superpod v8t supporta 9.600 chip con 2 PB HBM e fornisce 121 EFLOPS di calcolo FP4, quasi il triplo delle prestazioni della precedente generazione Ironwood. Il v8i è scalabile fino a 1.152 chip con 288 GB di HBM e 384 MB di SRAM su chip, offrendo un'efficienza in termini di costi di inferenza migliore dell'80% rispetto a Ironwood. Il tessuto Virgo interconnette oltre 134.000 chip v8t, fornendo una larghezza di banda non bloccante di 47 Pb/s con un throughput per acceleratore 4 volte più elevato e una latenza inferiore del 40%.

Architettura TPU fondamentale rispetto alla GPU


I TPU sono ASIC personalizzati caratterizzati da grandi unità di moltiplicazione della matrice (MXU), SRAM gestita dal software e compilazione anticipata. A differenza della pianificazione dinamica small-core della GPU, le TPU presentano un flusso di dati deterministico con array sistolici, eliminando il jitter della cache e il sovraccarico della pianificazione warp per un maggiore utilizzo dei FLOPS su carichi di lavoro a matrice densa. Tuttavia, le TPU lottano con forme dinamiche, scarsità irregolare e reti grafiche complesse, offrendo al tempo stesso un supporto più ristretto per l’ecosistema software dominato da JAX e XLA.

La differenza strutturale nel supporto della scarsità distingue chiaramente TPU e GPU. Gli NVIDIA Tensor Core supportano nativamente la sparsità strutturata 2:4 tramite compressione a livello di istruzione. Al contrario, gli array sistolici in TPU funzionano in modo rigido, rendendo inefficiente il salto dello zero senza stalli della pipeline o hardware di decompressione aggiuntivo. AWS Trainium2 adotta una via di mezzo con decompressori sparsi dedicati per mantenere la velocità effettiva dell'array.

Le TPU integrano SparseCores per gestire attività di raccolta-dispersione irregolari per l'incorporamento di tabelle e il routing MoE. Questi core specializzati eccellono nell'ordinamento, nella permutazione e nella riorganizzazione dei dati, coprendo carichi di lavoro di raccomandazioni e invio di token esperti che gli MXU standard non sono in grado di elaborare in modo efficiente.

TPU v8t “Sunfish”: acceleratore di allenamento


Il chip di allenamento v8t equipaggia 216 GB di memoria HBM3e e 128 MB di SRAM. La precisione nativa FP4 raddoppia il throughput per ciclo, spingendo il calcolo a chip singolo a 12,6 PFLOPS. Mantiene un'interconnessione toroidale 3D e una larghezza di banda ICI aggiornata da 19,2 Tb/s, ideale per le comunicazioni collettive ad anello nella formazione su larga scala.

Gli SparseCore ereditati ottimizzano la trasmissione dati irregolare all-to-all MoE. Due aggiornamenti critici risolvono i colli di bottiglia su larga scala: TPUDirect RDMA e TPUDirect Storage bypassano la CPU host per consentire l'accesso diretto alla memoria TPU, offrendo un throughput I/O 10 volte più veloce. Inoltre, v8t adotta le CPU Axion basate su Arm di Google come processori host, isolando il jitter dell'host e migliorando la stabilità della preelaborazione per l'addestramento multi-chip sincronizzato.

ultimo caso aziendale circa Google annuncia TPU v8t Sunfish e TPU v8i Zebrafish  1

TPU v8i “Zebrafish”: acceleratore di inferenza


Progettato per carichi di lavoro di inferenza legati alla larghezza di banda della memoria, v8i dà priorità alla generazione di token a bassa latenza. Dispone di 384 MB di SRAM, il triplo di quella di Ironwood, per memorizzare la cache KV su chip e ridurre le letture HBM ripetute. Con due TensorCore e HBM3e da 288 GB, raggiunge 10,1 PFLOPS di calcolo FP4, sovrapponendo attività di inferenza a batch brevi per un utilizzo più sostenuto.

Sostituendo gli SparseCores, il Collectives Acceleration Engine (CAE) dedicato riduce la latenza di sincronizzazione su chip fino a 5 volte, ottimizzando le frequenti operazioni collettive di piccoli batch. Il v8i abbandona il toro 3D per la topologia Boardfly basata su Dragonfly, riducendo il numero massimo di hop chip-to-chip da 16 a 7 e abbassando la latenza MoE all-to-all del 50%.

Gerarchia del tessuto Vergine e Giove


Virgo funge da struttura scalabile all'interno del data center, adottando un'architettura non bloccante a due livelli per eliminare l'eccesso di abbonamenti per il traffico AI est-ovest. Alimentato da interruttori ottici MEMS, consente il reindirizzamento degli errori a livello di millisecondo e mantiene un buon rendimento del 97% per i superpod v8t. In combinazione con Jupiter, il tessuto cross-data center a lunga distanza di Google, il sistema di interconnessione a più livelli supporta oltre un milione di chip TPU in un unico cluster logico con 1,7 ZFLOPS di calcolo FP4 totale.

Prestazioni, TCO e posizione di mercato


L'elevato rendimento e l'utilizzo stabile dei Model FLOPs Utilization (MFU) garantiscono ai TPU vantaggi in termini di costi convincenti. Con un MFU del 40%, i costi di formazione del TPU sono inferiori del 62% rispetto a NVIDIA GB300. Nel confronto hardware, le prestazioni FP4 ad alta densità v8t si collocano tra GB200 e GB300, mentre Google domina nel clustering su larga scala con un singolo pod da 9.600 chip, superando di gran lunga il dominio NVLink da 72 GPU di NVIDIA.

Guardando al futuro, Vera Rubin, Rubin Ultra e Kyber di NVIDIA ridurranno il divario prestazionale di TPU dal 2026 al 2027. I punti deboli di TPU includono HBM più piccolo per chip, assenza di scarsità hardware e compatibilità limitata dell'ecosistema. Ciononostante, Google mantiene i punti di forza nel clustering massiccio, nella latenza deterministica e nell’efficienza dei costi per i carichi di lavoro del MoE.

Google sta espandendo sia l'infrastruttura TPU che quella GPU NVIDIA. Meta pianifica un accordo multimiliardario per l'adozione di TPU a partire dal 2027. Essendo una generazione a doppio chip ottimizzata per l'era degli agenti, TPU v8 garantisce la competitività di Google contro NVIDIA Grace-Blackwell per l'implementazione di frontiera dell'IA su larga scala.

Pechino Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direttore della strategia globale
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Sito Web: www.qianxingdata.com/www.storagesserver.com
Focus aziendale:
Distribuzione prodotti ICT/Integrazione di sistemi e servizi/Soluzioni infrastrutturali
Con oltre 20 anni di esperienza nella distribuzione IT, collaboriamo con marchi leader a livello mondiale per fornire prodotti affidabili e servizi professionali.
"Utilizzare la tecnologia per costruire un mondo intelligente" Il tuo fornitore di servizi di prodotti ICT di fiducia!
Dettagli di contatto
Beijing Qianxing Jietong Technology Co., Ltd.

Persona di contatto: Ms. Sandy Yang

Telefono: 13426366826

Invia la tua richiesta direttamente a noi (0 / 3000)