經理人用戶成長中心 支琬清
OpenAI 如何管理天才?研究副總裁:讓 600 人團隊「知道所有事」,風險比機密外洩更低
分享
OpenAI 研究副總裁傑瑞・特沃雷克(Jerry Tworek)近期接受《The Mad Podcast》專訪時,談到個人的職涯轉變,打破外界對頂尖 AI 科學家的刻板印象,還罕見地揭露 OpenAI 內部獨特的協作文化。
從華爾街交易員到 AI 推手 —— 這段故事樸實無華得令人意外
特沃雷克受訪時表示,他從小立志成為科學家,但在華沙大學(University of Warsaw)攻讀數學時,卻發現自己無法適應學術界的僵化體制,開始陷入迷惘、覺得自己失去人生目標。
「我做了一個非常簡單的『第一原理』(First Principles)思考:我有數學學位,我需要吃飯,什麼工作可以用到數學又可以養活自己?」特沃雷克回憶道。這個務實的思考讓他踏入金融圈,先後在倫敦摩根大通(JPMorgan Chase & Co.)與阿姆斯特丹的避險基金擔任交易員。
但在數年的交易員生涯後,特沃雷克再次感到停滯。儘管工作充滿挑戰且收入豐厚,但他發現自己停止成長。正是在這個時刻,他讀到 DeepMind 的論文,被強化學習(RL)能夠訓練 AI 玩遊戲的潛力深深震撼。
所以特沃雷克做了一件最樸實的事:在 2019 年打開 OpenAI 官網,直接在求職頁面投遞履歷,「這可能是世界上最無聊的故事,我就只是投了履歷,希望能得到回應。」當時 OpenAI 還是一家致力於讓機器人玩魔術方塊的非營利組織,這份對於「成長」的渴望,讓他成功跨界,成為如今 AI 革命的推手之一。
OpenAI 讓天才們通力合作的文化:極端透明、沒有個人英雄主義
外界常認為擁有全球最重要 IP 的 OpenAI,內部肯定充滿機密與隔閡。但特沃雷克透露,在約 600 人的研究團隊中,實行的是「每個人都知道所有事」的極端透明政策。
他坦承確實有洩密風險,但「讓研究員因資訊不足,而無法做出最佳決策」的風險其實更高。因此,OpenAI 選擇讓資訊完全流動,打破傳統企業常見的穀倉效應(Silo Effect,指組織內部因過度分工而缺乏溝通)。
「我們都在同一個大腦裡,而這個大腦比我們任何一個人都大。」特沃雷克如此形容 OpenAI 的協作文化。
在這個體系下,沒有個人英雄主義,只有為了共同目標而努力的緊密協作。身為研究副總裁,他每天的工作幾乎全是「與人交談」,確保數百名天才科學家的目標一致,而非各自為政。這種高度協作與透明的文化,正是 OpenAI 能在短短一年內將模型從 o1 快速迭代至 o3 與 GPT-5 的關鍵原因。
AI 是如何被訓練的?特沃雷克:像訓練狗狗一樣
談及 OpenAI 的產品策略,特沃雷克直言 2024 年 9 月發布的 o1 模型,在當時其實更像是一個技術展示,雖然擅長解謎但實用性有限;直到後來的 o3 模型,AI 才真正具備工具使用與深入思考的能力。
他也承認,中國競爭對手 DeepSeek 在 o1 發布後迅速跟進,甚至開源類似的推理算法,讓許多美國實驗室感到驚訝,也證明全球 AI 競爭白熱化。
為了讓非技術背景的大眾理解 OpenAI 的核心技術「強化學習」,特沃雷克用「訓練狗狗」來比喻。模型預訓練(Pre-training)只是讓 AI 會預測下一個字,但要讓它符合人類需求,就必須透過強化學習:就像是狗做對了,就給餅乾當作獎勵;做錯了,就不理它作為懲罰。
特沃雷克提到 GPT-4 剛訓練完成時,內部對於模型表現非常失望,之後是不斷透過這種獎懲機制,才成功將 GPT-4 早期那種「不連貫」的表現,打磨成如今能與人類流暢對話、甚至進行複雜推理的 AI 模型。
資料來源:The Mad Podcast;本文初稿由 AI 協助整理,編輯:支琬清