本科畢業(yè)于北大工學(xué)院,早期研究聚焦于自動(dòng)駕駛;博士后期間在卡內(nèi)基梅隆大學(xué),利用強(qiáng)化學(xué)習(xí)解決核聚變反應(yīng)堆控制問題。陳佳玉的科研生涯,始終圍繞著復(fù)雜系統(tǒng)的智能控制展開。
2025 年,陳佳玉開啟了全新的階段:他同時(shí)擔(dān)任博導(dǎo)與原力無限資深研究科學(xué)家,研究對(duì)象從核聚變轉(zhuǎn)向了通用家用機(jī)器人。他試圖結(jié)合學(xué)術(shù)界的理論深度與產(chǎn)業(yè)界的工程資源,尋找通往通用智能的路徑。
在本次專訪中,陳佳玉回應(yīng)了關(guān)于“天才少年”標(biāo)簽、中美科研環(huán)境差異以及具身智能落地路徑等話題。他認(rèn)為,標(biāo)簽并不重要,重要的是能否精準(zhǔn)地定義研究問題,并在有限的資源下找到最優(yōu)解。
核聚變與機(jī)器人,在數(shù)學(xué)本質(zhì)上是一樣的
DeepTech:回望你的學(xué)術(shù)生涯,從自動(dòng)駕駛到強(qiáng)化學(xué)習(xí)理論,再到核聚變控制,最后回歸具身智能。每一次方向轉(zhuǎn)變背后的邏輯是什么?
陳佳玉:我剛開始做科研是從技術(shù)角度出發(fā)的。起初做自動(dòng)駕駛的感知,后來做決策,自然而然地接觸到了強(qiáng)化學(xué)習(xí)。博士階段,我希望能把這個(gè)方向做深,于是轉(zhuǎn)向了偏理論和算法的設(shè)計(jì),暫時(shí)與具體應(yīng)用解綁。
到了博后階段,我又想把算法重新落地到應(yīng)用層面。無論是核聚變里的等離子體控制,還是具身智能里的機(jī)器人控制,本質(zhì)上都是用強(qiáng)化學(xué)習(xí)去求解復(fù)雜的控制問題。一旦鎖定了強(qiáng)化學(xué)習(xí)這個(gè)方向,我就一直在沿著它做。
DeepTech:為什么對(duì)強(qiáng)化學(xué)習(xí)這么情有獨(dú)鐘?
陳佳玉:強(qiáng)化學(xué)習(xí)起源于認(rèn)知科學(xué),后來經(jīng)由 Richard Sutton 引入計(jì)算機(jī)科學(xué)。它的學(xué)習(xí)過程是非常類人的(Human-like)。如果說人工智能的終極目標(biāo)是發(fā)展類人智能,我認(rèn)為強(qiáng)化學(xué)習(xí)研究的問題比其他范式更本質(zhì)。
同時(shí),它也是一個(gè)非常綜合的學(xué)科,涉及到控制理論、統(tǒng)計(jì)學(xué)、優(yōu)化理論,對(duì)數(shù)理基礎(chǔ)要求很高。這一點(diǎn)我也比較喜歡。
DeepTech:可以理解為你比較喜歡挑戰(zhàn)難題、追求本質(zhì)意義上的問題嗎?
陳佳玉:關(guān)于挑戰(zhàn)難題,這可能是我剛讀博時(shí)的一個(gè)誤區(qū),認(rèn)為最難的東西必定是最有用的東西。但我現(xiàn)在的 Philosophy 是不要單純?yōu)榱俗鲭y的問題而做難的問題。如果單純?yōu)榱颂魬?zhàn)最難的問題而做研究,其實(shí)有點(diǎn)太自我了。我現(xiàn)在更傾向于從需求出發(fā),從實(shí)用主義出發(fā),用一個(gè)有用的技術(shù),解決大家最想解決的問題,這才是做工程、做企業(yè)需要著力的點(diǎn)。
關(guān)于本質(zhì),我認(rèn)為這也跟你想做的研究的最終目標(biāo)有關(guān)系。我們最終要發(fā)展類人智能,所以我認(rèn)為強(qiáng)化學(xué)習(xí)是一個(gè)有前景的方向,這是本質(zhì)的。當(dāng)然,做研究和做企業(yè)不同。做研究是追求用最簡(jiǎn)潔的方式解決最本質(zhì)的問題。因?yàn)榻鉀Q了本質(zhì)問題,影響的點(diǎn)會(huì)很多,所以本質(zhì)也是有用的一個(gè)方面。
DeepTech:你在 CMU 做核聚變控制是非常硬核的物理科學(xué),現(xiàn)在做人形機(jī)器人拿水杯是日常生活場(chǎng)景。這兩類問題在數(shù)學(xué)本質(zhì)和決策邏輯上有什么異同?
陳佳玉:方法論是一樣的。無論是基于真實(shí)交互數(shù)據(jù),還是基于模擬器建模,從數(shù)學(xué)本質(zhì)上講,它們都可以建模成一個(gè)馬爾可夫決策過程(MDP)。