9月3日,一則消息在科技圈引起了軒然大波:谷歌開始對外出售TPU了。
據報道,谷歌近期已在接觸那些主要租賃英偉達芯片的小型云服務提供商,敦促他們在其數據中心也托管谷歌自家的AI處理器,也就是TPU。
谷歌已與至少一家云服務提供商——總部位于倫敦的Fluidstack——達成協議,將在紐約的一個數據中心部署其TPU。
谷歌的努力不止于此。據報道,該公司還向其他以英偉達為核心的服務商尋求類似的合作,其中包括正在為OpenAI建造數據中心的Crusoe,以及向微軟租賃芯片并與OpenAI簽有供應合同的英偉達“親兒子”CoreWeave。
9月9日,花旗分析師因TPU競爭加劇將英偉達目標價下調至200美元,預計2026年GPU銷售額將因此減少約120億美元。
明眼人都能看出來的是,谷歌和英偉達之間的大戰,已經開始了。而它們爭奪的,將是AI計算這個真正的萬億美元市場。
然而,谷歌對這一戰的準備,其實比我們想象的都要久。
TPU,AI計算的最優解?
早在2006年,谷歌的內部就討論過在自家的數據中心中部署GPU、FPGA或ASIC的可能性。不過,當時只有少數應用程序能夠在這些特殊硬件上運行,而谷歌大型數據中心的過剩算力也完全夠它們使用了。因此,部署特殊硬件的計劃被擱置。
然而,到了2013年,谷歌的研究人員發現:如果人們每天使用語音搜索并通過深度神經網絡進行3分鐘的語音識別,那么當時谷歌的數據中心需要雙倍的算力才能滿足日益增長的計算需求。
而如果僅通過擴大數據中心規模來滿足算力需求,不但耗時,而且成本高昂。于是,在這個背景下,谷歌開始了TPU的設計。
谷歌的TPU是為AI計算而生的ASIC芯片,它專注于實現兩個核心目標:極高的矩陣乘法吞吐量與卓越的能效。
為了實現高吞吐量,TPU在硬件層面采用了“脈動陣列”(Systolic Array)架構。該架構由大量簡單的處理單元(PE)構成網格。數據流從陣列的邊緣輸入,在每個時鐘周期同步地、一步步地流經相鄰的處理單元。每個單元執行一次乘法累加運算,并將中間結果直接傳遞給下一個。
這種設計使得數據在陣列內部被高度復用,最大限度地減少了對高延遲、高功耗主內存的訪問,從而實現了驚人的處理速度。
而其卓越能效的秘訣,則在于軟硬件協同的“提前編譯”(Ahead-of-Time Compilation)策略。傳統的通用芯片需要高能耗的緩存來應對多樣的、不可預測的數據訪問。TPU則不同,它的編譯器在程序運行前就完整規劃好了所有數據路徑,這種確定性使其無需復雜的緩存機制,從而大幅降低了能耗。
在TPU的設計上,谷歌主導整體架構與功能定義,博通Broadcom參與了部分芯片的中后端設計工作,目前,Google TPU主要由臺積電代工生產。
隨著大語言模型參數的急劇擴張,AI計算任務正在從“訓練”走向“推理”。這時,作為通用算力單元的GPU,開始顯露出成本以及功耗過高的問題。
而TPU從設計之初就專門瞄準了AI計算,具有很高的性價比優勢。據報道,谷歌TPU算力成本僅為OpenAI使用GPU成本的1/5,性能功耗比更是優于同代GPU。
因此,為了抓住市場,谷歌圍繞著自己的TPU架構,打造了一系列產品與生態。
谷歌造芯這十年
谷歌第一代TPU (v1) 于2015年推出,通過高度簡化的專用設計,實現了超越同期CPU與GPU的能效比,并在AlphaGo等項目中展示了其高效能,從而驗證了AI ASIC的技術路徑。
隨著研發深入,訓練環節的算力瓶頸日益凸顯,促使TPU的設計方向轉向系統級解決方案。2017年發布的TPU v2為此引入了BF16數據格式以支持模型訓練,并配置了高帶寬內存(HBM)。
更為關鍵的是,v2通過定制的高速網絡將256個芯片單元互聯,首次構建了TPU Pod系統。隨后的TPU v3通過增加計算單元數量和引入大規模液冷技術,實現了性能的顯著提升。
TPU v4的發布帶來了互聯技術的重大革新,其核心是采用了光學電路交換(OCS)技術,實現了TPU Pod內部網絡拓撲的動態重構,從而提升了大規模訓練任務的容錯能力與執行效率。進入v5與v6 (Trillium) 階段,TPU產品線呈現出分化策略,形成了分別側重于極致性能的'p'系列與能效比的'e'系列,以適應多樣化的AI應用場景。
2025年Google TPU的全年出貨量預計為250萬片。v5系列總出貨量預計為190萬?,其中v5e占?約120萬?,v5p占?約70萬?, v6系列預計總出貨量為60萬?,?前僅v6e在市場上銷售,?v6p將在第四季度上市,約10-20萬?左右。預計到2026年,總體TPU銷量將超過300萬片。
在今年的谷歌云大會上,谷歌發布了第七代TPU,代號“Ironwood”。
Ironwood是谷歌迄今為止性能最強、能效最高且最節能的TPU芯片,其峰值算力達到4614 TFLOPs,內存容量為192GB,帶寬高達7.2 Tbps,每瓦峰值算力為29.3 TFLOPs。此外,Ironwood首次支持FP8計算格式,并在張量核和矩陣數學單元中實現這一功能,這使得其在處理大規模推理任務時更加高效。
Ironwood最高配集群可擁有9216個液冷芯片,峰值算力可達42.5 ExaFLOPS,是世界上最大的超級計算機El Capitan的24倍以上。其支持大規模并行處理和高效內存訪問,適用于復雜的推理任務如大型語言模型和混合專家模型。
事實上,Ironwood的整體性能已經十分接近英偉達B200,甚至在一些方面還有所超越。
當然,英偉達的統治力不僅在于其硬件性能,更在于整個CUDA生態。谷歌深知這一點,因此,它也構建了JAX這樣的,能在TPU上運行的高性能計算Python庫。
谷歌還發布了其模型流水線解決方案“Pathway”,用于向外部開發者訓練大型語言模型(LLM)。將其作為訓練模型的必備手冊,研究人員無需重新設計模型即可開發Gemini等LLM。
有了上述的一整個“軍火庫“,谷歌終于可以和英偉達掰掰手腕了。
谷歌vs英偉達
投資銀行D.A. Davidson分析師Gil Luria在最新報告中指出,過去一年以來谷歌母公司Alphabet大幅縮小與英偉達的差距,如今已成為“最好的英偉達替代方案”。
報告顯示,過去半年,圍繞Google Cloud TPU的開發者活躍度激增了約96%。
Gil Luria與前沿AI實驗室的研究人員和工程師交流后發現,業內普遍看好谷歌TPU。因此Luria認為,若谷歌將TPU業務與DeepMind部門合并并將它們分拆上市,估值或將高達9000億美元。
AI獨角獸Anthropic此前使用亞馬遜的Trainium芯片來訓練模型,最近,該公司被發現正在招聘TPU內核工程師;馬斯克旗下的人工智能公司xAI也對采購TPU表現出興趣。這一切都說明了業界對于TPU的認可。
而谷歌自身也在積極行動。首先,谷歌有意在公司內部進行從英偉達GPU到自研TPU的迭代。Omdia數據顯示,2024年估計谷歌訂購16.9萬臺Hopper 架構GPU,在五大云廠商中排名最后,約為微軟的三分之一。同時,谷歌內部已部署了約150萬顆TPU。
谷歌的對外戰略,就是文章開頭提到的,對那些使用英偉達芯片的數據中心供應TPU。據報道,為了與Floydstack達成合作,谷歌將提供最高32億美元的備選擔保支持,若Fluidstack無力支付紐約新數據中心的租賃費用,谷歌將補足差額。
根據野村證券最新報告,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。
英偉達需要緊張起來了。
結語
市場對谷歌TPU的積極接受,反映出越來越多的公司想擺脫英偉達“一卡難求“的困境,尋求更高的性價比和更多元、穩定的供應鏈。
而借此機會挑戰英偉達的,也不只有谷歌一家公司。供應鏈數據顯示,Meta將于2025年第四季度推出其首款ASIC芯片MTIA T-V1。它由博通設計,具有復雜的主板架構,并采用液冷和風冷混合技術。
到2026年年中,MTIA T-V1.5將進行進一步升級,芯片面積將翻倍,超過英偉達下一代GPU Rubin的規格,其計算密度將直接接近英偉達的 GB200 系統。2027年的MTIA T-V2可能會帶來更大規模的CoWoS封裝和高功率機架設計。
報告指出,根據供應鏈估計,Meta的目標是到2025年底至2026年實現100萬至150萬件ASIC出貨量。
微軟、亞馬遜同樣有自研的ASIC芯片,正在對這片被GPU霸占的市場虎視眈眈。
對此,英偉達也有自己的反擊手段。今年5月,英偉達正式發布NVLink Fusion。NVLink Fusion允許數據中心將英偉達GPU與第三方CPU或定制化AI加速器混合使用,標志著英偉達正式打破硬件生態壁壘。
近日,英偉達執行副總裁暨首席財務官Colette Kress在高盛組織的會議上談及了對于AISC芯片所帶來的競爭看法,稱英偉達GPU更具性價比。
一場大戲已經拉開了帷幕。無論是萬億美元的市場規模,還是未來AI時代硬件結構的定義權,都值得幾大巨頭為之瘋狂。
這一戰,誰都有不能輸的理由。