

今年過年,每條大街小巷,每個人的嘴裡,見面第一句話,不再是恭喜恭喜,而是 DeepSeek。 為什麼 DeepSeek 能引發現象級的關注,這就要講回到 AI 燒錢這件事。
AI 燒錢是經由擴展定律(scaling law)而來的結果。擴展定律是指模型的效果會與模型參數大小、訓練數據量和耗用算力三者有關。也就是說,當我們想要煉成一個超厲害的 AI 模型,過去有 3 條路徑:一是把模型弄大、二是增加數據量、三是增加訓練投入的算力,當然模型變大以及數據量增加也都會耗用算力。
透過擴展定律,我們還能評估出每次燒錢能換來 AI 效果多大的提升。最容易達成的路徑,也是過去幾年 AI 界的重點是「模型搞大」。所以,為了要做出更厲害的 AI,就要根據擴展定律公式把神經網路做更大,投入更多的 GPU,輝達也因此賺得盆滿缽滿。但投入會有邊際效應遞減的問題,這也是為何美國幾個巨頭在比大小時,忽然驚覺電力可能不夠。
那麼從數據量規模呢?基本上谷歌與微軟各自擁有搜索引擎,意味著這些模型早就用了全球規模的公開數據訓練了,也很難再擠出大規模沒用過的數據。
模型便宜又好用?別抹煞前人的努力
加上美國限制 GPU 出口中國,DeepSeek 在有限的硬體與預算的規格,竟然能做出與 GPT o1 效果相當的模型,這正是它引起旋風的關鍵。在此釐清一下常看到的關於 DeepSeek 的傳聞。
傳聞1:只用了560萬美元就造出和GPT O1相當的模型?
從結果論來看,是的,DeepSeek R1 是非常優秀的模型,在中文英文的範疇中,推論、寫作、寫程式的表現完全不輸 o1,但是如果你說用 560 萬美元做出來,成本僅 1/10 不到,這就有欠公允了。這就好像去鼎泰豐買年菜回來,加熱 10 分鐘擺盤上桌,然後宣稱做年夜飯只花了 1/10 的時間一樣。DeepSeek R1 是前一代模型 DeepSeek V3 的微調,而DeepSeek V3 又來自阿里巴巴旗下雲端運算公司的通義千問模型,要算成本,別忘記把阿里雲耗費在這基礎模型的心力與訓練成本加回去。
「蒸餾」就是「偷學」?提煉的是自己的大模型
傳聞2:用知識蒸餾偷了OpenAI的模型?
知識蒸餾是機器學習中很特殊的技術,過去我們主要是讓機器學習人類給的答案,為了讓學習有效率,過去我們多半是把題型定義成有明確答案的是非題或選擇題。但真實世界存在模糊曖昧灰色的區域,一個複雜的大模型可以從它過去學過的數據,理解這些模糊地帶,但是小模型本身資質不夠,很難靠自己頓悟。知識蒸餾正是雙管齊下,同時讓小模型學習人類給的答案,還要直接灌輸它無法自己頓悟的潛知識,訓練出與原來老師模型效果相當的小模型,這過程稱之為知識蒸餾。
知識蒸餾這概念 2015 年就被提出,也是 AI 界很成熟被使用的技術,所以並非 DeepSeek 特有,但要說到他們會不會用這個技巧偷了 OpenAI 的模型。基本上,答案是不會,因為知識蒸餾的前提是要取得老師模型輸出的機率分布,但是 OpenAI 沒有公布過這些,所以無從蒸餾起。DeepSeek R1 主要是將「自己家」的完整 R1,透過知識蒸餾,在效果不會有明顯衰退的前提下,能在算力更少的設備上執行的小版本。這讓最強大的推理模型可以因為蒸餾而大幅瘦身,舊時王謝堂前燕,飛入尋常百姓家。
傳聞3:以後不需要那麼多算力,輝達慘了?
但仔細一想,DeepSeek 是用什麼訓練出來的,答案還是輝達的顯卡。輝達會不會因此沒人用了?工業革命的開始是來自於珍妮紡紗機的發明,機器的織布效率是人工的 8 倍,所以那時認為將造成大量失業,但實際情況是紡織品的消費者從王公貴族擴及到所有民眾,市場變大了,需要的人工反而更多。我認為輝達也是一樣,過去是幾個巨頭購買 GPU,現在因為 DeepSeek 降低了語言模型的進入門檻,所以中大型企業的市場會蓬勃發展,在未來3~5年內尚無技術可以替代的情況下,我認為輝達的市場需求只會增不會降。
核稿編輯:張玉琦