關於 吳沛遠 老師的〈機器學習與核方法〉到底在講什麼?

最近在台大課程網上看到這門〈機器學習與核方法〉,課名聽起來很 ML、又很理論,內容介紹也寫得一副「很硬但很高級」的樣子,但老實說,應該有不少人其實看不太出來這門課到底在幹嘛、適不適合自己修。 小弟身為一個業餘 AI 理論愛好者,剛好對 kernel、RKHS、learning theory 這套世界觀還算熟一點,就想用比較白話、非官方說法,幫大家解釋一下「這門課真正想教的是什麼。」 接下來的內容會偏心得與觀察,不是招生文,也不是黑特文,純粹是給還在觀望的人一個比較清楚的心理預期。 這門課是想要釐清機器學習底層邏輯的人,很適合去修,不過前提是你的數學底子要非常好。 什麼是底層邏輯架構?我自己的理解是:核方法把「學習」統一成在函數空間(RKHS)裡做正則化的風險(Risk)最小化。資料點透過核函數被隱式嵌入到一個(可能無限維的)特徵空間後,我們在這個空間裡找一個既能貼近資料、又不至於太複雜的函數。更精準地說,許多常見目標函數的最優解都可以寫成訓練點 x_i 對應之核函數 k(x_i, ⋅ ) 的線性組合,這正是 Representer 定理的核心:模型的表示形式其實被資料與核函數的幾何結構牢牢限制住。 另外這門課也會帶到簡化版的 RL:Bandit。這裡 kernel 的用途是用來建模「未知回饋函數」的平滑性/複雜度,並自然導出信賴區間;例如 Kernel UCB 會用核回歸的預測均值加上不確定性上界來平衡 exploration 與 exploitation,而自正規化集中不等式則提供後悔值(Regret)分析的關鍵工具。 另外 Kernel Method 也有許多理論上的延伸,是這門課沒講到的,例如近年很多人在研究的 Neural Tangent Kernel(NTK),可在特定條件下把寬深度網路的訓練動態近似成核回歸,進而分析收斂行為與(在假設下的)泛化界;這條線也能跟更系統化的分析框架(如 Tensor Programs)產生連結。至於 Kernel Bandit,本身確實也有不少近年的工作;只是經典設定(如Sub-Gaussian noise、Fixed Kernel)已相對成熟。 --- 以上段落如果看不懂,其實完全沒關係,因為那些本來就是偏理論的說法。我換一個更白話、比較直覺的例子來講。 你有沒有想過,大型語言模型為什麼能回答你提出的各種問題?不管是數學題、寫程式,還是一些很怪、感覺資料庫裡不太可能直接存過的問題?那它到底是「記住答案」,還是「學會怎麼回答」? 比較貼近現實的理解是:大型語言模型會把複雜問題拆成很多比較局部、比較簡單的子問題(例如 Chain-of-Thought 就是一種顯式呈現),而這些子問題在模型內部,其實就很像落在某個高維表示空間中的一個個「點」。透過海量資料訓練,模型等於是在把這個高維空間慢慢填密,學會哪些結構、哪些模式會一起出現。 當新的問題進來時,模型並不是在「查表」,而是在這個已經被大量資料塑形過的空間裡,找到結構上相近的區域,然後產生一個合理的回應。這也解釋了為什麼大型模型需要「極大量的訓練資料」來覆蓋足夠多的結構,以及「超多參數」來表示這個複雜的高維函數空間——參數本質上就是在幫模型刻畫一個超高維、極度彈性的函數族。 如果你從這個角度看,核方法其實是在做一件概念上很像,但數學上更乾淨的事情:它直接假設答案來自某個結構良好的函數空間(RKHS),再用嚴謹的幾何與正則化來控制「相似輸入要有相似輸出」。差別只在於,核方法把這套邏輯攤在陽光下講清楚,而大型語言模型則是用規模與參數,把同樣的事情隱涵地做完。 而這也正是為什麼 「kernel 的世界觀對理解 LLM 的泛化行為很有啟發性,卻又不能被直接套用」:它提供了一個乾淨的視角,讓我們理解「泛化其實來自於函數空間的幾何結構與正則化偏好」,但大型語言模型的特徵表示是受資料驅動、有複雜的動態變化、且高度非線性的,遠比固定核所能描述的結構複雜得多;因此 kernel 更像是一個理想化的理論模型,幫助我們看懂大方向,而不是一個可以原封不動拿來解釋 LLM 的完整模型。 --- 再來補一些八卦(以下純屬個人觀察,請自行判斷) 身為一個 AI 理論業餘愛好者,小弟當然也會稍微注意一下台大有哪些老師在碰 AI 理論。 以一個長期吃瓜群眾的角度來看,吳沛遠老師的實驗室走的是那種「許多學生在做應用、只有少數學生在走 AI 理論」的路線。且過去八年裡,真正願意找他當指導而且想走 kernel/learning theory 的人,數量其實很少,過程也不算輕鬆。 實驗室裡少數跟純理論相關的成果,基本上都高度集中在特定學生與其國外合作圈,並不是那種「整個lab都在衝AI 理論」的氛圍。 講得更現實一點,這八年來吳老師實驗室的博班規模非常精簡。其中有一位博班後來中途離開,而僅存的一位博班學長則撐起了幾乎所有的 AI 理論產出,而且不少成果其實也是仰賴他與國外前同事的合作網絡。更有趣的是,最近滑到他fb,感覺他的人生志向也已經明顯轉向,對繼續研究 AI 理論興趣似乎不大。說實話這也不太意外,畢竟純理論這條路本來就又硬又窄,甚至單純鑽研數學和做 AI 理論研究,也是有很大的差異。 所以修吳老師的課是完全 OK 的,尤其如果你是想練數學、補 functional analysis、搞清楚 RKHS 在幹嘛,或是「用乾淨的數學,理解相對簡單的機器學習模型」,那這門課其實很補;但如果你心裡想的是「我要做 machine learning theory、我要投 ICLR / NeurIPS / ICML 理論 track」,那就真的要冷靜想一下。畢竟,「數學很強的老師,不一定能帶你玩懂AI理論研究的遊戲規則」。 AI 理論研究說穿了是個很內圈的社群,很多東西不是數學推得多漂亮,而是你知不知道現在大家在 care 什麼、哪些假設是「政治正確」、哪些證明是 reviewer 會買單的。這些東西,沒有在圈內滾過、沒人帶路,其實很難自己摸出來。 最後講句比較現實的: 把數學框架訂得太完美,常常不是優點,而是直接把自己鎖死。 假設一多、條件一嚴,理論漂亮是漂亮,但適用範圍小到沒人敢用,論文也會難投上。這也是為什麼,單純的數學愛好者,要硬切進 AI 理論這條線,難度其實比想像中高很多。 就小弟個人的觀察而言,吳老師更偏向於愛好純數學本身,會投入相當多心力在研讀漂亮完美的數學結構與定理;相較之下,對於當前較為主流、以機器學習社群為核心的 AI 理論投稿方向——例如 ICLR、NeurIPS 或 ICML 的理論取向議題——似乎關注度相對有限,他的興趣也不完全以這些場域的發表脈絡為導向。
愛心
42
21
全部留言