feature picture
NotebookLM

拒當輝達打工仔!Google 佈局十年的秘密武器 TPU,如何靠「只做一件事」稱霸 AI 戰場?

2026-01-02 撰文 李岱君
分享
收藏
已完成
已取消

這幾年,好像全世界都在搶輝達(NVIDIA)的圖形處理器(GPU)。微軟(Microsoft)、Meta、亞馬遜(Amazon),這些手握千億美元的科技巨頭,得排隊等黃仁勳點頭才能拿到 H100 晶片。

配貨權、價格都在輝達手上。這場 AI 軍備競賽裡,誰能拿到更多算力,誰就能訓練出更強的模型。

但有一家公司早在 2015 年,就布局晶片自主,在自家資料中心部署一款從未對外販售的晶片,代號 TPU(Tensor Processing Unit,張量處理單元)。它不像輝達的 GPU 那樣萬能,不能用來挖礦,也不能渲染遊戲畫面。TPU 只會做一件事:跑神經網路(編按:生成式AI訓練大型語言模型所需要用到的基礎理論)。

但就是這個「只會一件事」的晶片,讓 Google 在 2016 年用它的算力支撐 AI 模型 AlphaGo,擊敗韓國職業棋手李世乭;也讓 Google 在 10 年後的今天,成為唯一一家不用完全看輝達臉色的雲端巨頭。

一個只會做一件事的晶片,砍掉多餘運算能力

2013年,Google的工程師團隊算出一個數字。

如果每個安卓(Android)用戶每天使用 3 分鐘的語音搜尋,以當時的運算架構(CPU 加上少量 GPU),Google 必須將全球的資料中心數量翻倍,才有辦法支撐使用者的用量。

而資本支出如果這樣擴張,實在不符合經濟效益。更何況這還只是語音搜尋,如果再加上圖片辨識、影片推薦、即時翻譯,這個數字會繼續膨脹。

當時的選擇是,要就放棄這些功能的普及化,要就找到一個更便宜、更高效的解決方案,Google 選擇了後者。

CPU 什麼都能算,但速度不夠快。而 GPU 原本是為了畫面渲染設計的,後來發現它的平行運算能力也適合跑AI,但它保留了很多圖形處理的電路,對 Google 來說是浪費。

TPU 應運而生,設計哲學是不做通用運算,只做矩陣乘法。TPU 則是徹底的ASIC(特殊應用積體電路),把所有不需要的功能都拿掉,晶片面積全部用來做矩陣運算。

結果是效率的差異。TPU v1 的效能功耗比是當時 CPU和 GPU 的 30 到 80 倍。意思是同樣的電力,Google 能處理幾十倍的運算量。

晶片比較圖
NotebookLM

Google的資料處理狂燒算力,自己做比買現成划算

但如果只是「比較好用」,Google 不會堅持自己做晶片,真正的原因藏在 2 筆帳當中。

先論技術推進,AI 分為訓練和推論兩大類別,才能構成更強的能力。訓練是高強度、低頻率的工作,通常在模型升級或推出新版本時進行,可能耗費數周甚至數月,決定模型能力的上限。

推論(Inference,也就是讓已經訓練好的 AI 模型回答問題)則是 7×24 小時、每秒數百萬次的持續需求。每一次 Google 搜尋、YouTube 推薦、Google 相簿的圖片辨識,都是推論。真正讓 AI 能被大規模使用、形成商業價值的,往往不是訓練,而是推論能否在成本與效能間取得平衡。

根據 Google 內部數據,Google 的流量中推論佔比超過 90%。而 TPU v1 就是專為推論設計的。Google 翻譯每天處理 10 億次請求,YouTube 推薦系統服務 20 億用戶,Google 相簿每月分析 280 億張圖片。這些都跑在 TPU 上。

對於推論場景,GPU 其實是「過度配備」的。因為輝達早期主攻遊戲玩家,GPU 保留大量用於圖形渲染和科學計算的電路,這些在跑神經網路時用不到。TPU則是它砍掉所有不需要的功能,把晶片面積和電力預算全部投注在矩陣運算上。

這是TPU存在的第一個理由,在Google最需要的場景裡,它比GPU便宜、省電、更適合大規模部署。

不想再繳輝達稅,擺脫市場遊戲規則

再者,是成本帳。2023 年之後,自研晶片成了科技巨頭的標準配備。微軟推出 Maia、亞馬遜發表 Trainium、Meta 開發 MTIA。推敲背後原因,大家都在做同一件事:擺脫對輝達的依賴。

輝達 GPU 的毛利率超過 75%,例如外媒推估,一顆 B200 的製造成本大約是 5700 到 7300 美元,市場售價卻是 3 到 4 萬美元,中間的差距就是所謂的「輝達稅」。

這不是輝達會對企業徵稅的意思,而是當每個想要發展AI的企業,都繞不過輝達,那對企業而言,是某部分的咽喉,被供應鏈給掐住了。

對一般企業來說,這是能接受的成本,因為輝達提供了完整的軟體生態(CUDA)和技術支援。但對 Google 這種需要部署數十萬顆晶片的公司,每一顆晶片的溢價,都會累積成天文數字。

因此,Google 選擇建立自己的供應鏈體系。它把 ASIC 設計交給博通(Broadcom)和聯發科,晶圓代工與先進封裝交給台積電和 Amkor,模組組裝交給系統整合商,再加上 PCB 板材、光模組、散熱系統等數十家供應商。這個龐大的供應鏈網絡,讓 Google 能繞過輝達的品牌溢價,直接掌控從設計到製造的每個環節。

打造晶片生態系,榨乾TPU效能

但這盤生意不只要自家做,Google認知到,如果AI真的要成為所有服務的基礎,那麼整個運算堆疊,從晶片、編譯器、網路架構到資料中心,都必須為AI重新設計。

Google 不只設計晶片,還開發了專門的編譯器 XLA(用來把AI模型翻譯成TPU能理解的指令)、發明了 JAX 框架(讓研究人員能榨乾TPU的效能)、甚至重新設計了資料中心的網路架構,他們用光學電路交換(OCS)取代傳統的電氣交換機,讓數千顆 TPU 能像一台超級電腦那樣協同工作。

且 TPU 不對外販售硬體,只透過 Google Cloud 提供服務。用 TPU 的客戶只能用 Google Cloud,而用 Google Cloud 的客戶更可能選擇 Google 的模型。

Google 沒有完全不用輝達的產品,因為雲端客戶仍然習慣用 CUDA(輝達推出的計算平台)生態。但在內部核心業務上,Google 已經盡可能轉向 TPU。即便所費不貲,Google 仍然堅持投資 TPU。因為如果不這麼做,這些成本會更高。

這就是為什麼雲端巨頭都開始自研晶片,因為他們都在算同一筆帳,誰能掌握算力的成本和供應,誰就能在 AI 時代站穩腳跟。只是相對其他科技巨頭,Google 已經率先把這場競賽的距離拉得更遠了。

參考資料:Google Cloud(1)(2)(3)、OrhanErgunTrendForceTom's HardwarewevolverLambdaMBI
核稿編輯:陳書榕

相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們