關於吳沛遠老師的〈機器學習與核方法〉到底在講什麼？

國立臺灣大學

最近在台大課程網上看到這門〈機器學習與核方法〉，課名聽起來很 ML、又很理論，內容介紹也寫得一副「很硬但很高級」的樣子，但老實說，應該有不少人其實看不太出來這門課到底在幹嘛、適不適合自己修。小弟身為一個業餘 AI 理論愛好者，剛好對 kernel、RKHS、learning theory 這套世界觀還算熟一點，就想用比較白話、非官方說法，幫大家解釋一下「這門課真正想教的是什麼。」接下來的內容會偏心得與觀察，不是招生文，也不是黑特文，純粹是給還在觀望的人一個比較清楚的心理預期。這門課是想要釐清機器學習底層邏輯的人，很適合去修，不過前提是你的數學底子要非常好。什麼是底層邏輯架構？我自己的理解是：核方法把「學習」統一成在函數空間（RKHS）裡做正則化的風險（Risk）最小化。資料點透過核函數被隱式嵌入到一個（可能無限維的）特徵空間後，我們在這個空間裡找一個既能貼近資料、又不至於太複雜的函數。更精準地說，許多常見目標函數的最優解都可以寫成訓練點 x_i 對應之核函數 k(x_i, ⋅ ) 的線性組合，這正是 Representer 定理的核心：模型的表示形式其實被資料與核函數的幾何結構牢牢限制住。另外這門課也會帶到簡化版的 RL：Bandit。這裡 kernel 的用途是用來建模「未知回饋函數」的平滑性/複雜度，並自然導出信賴區間；例如 Kernel UCB 會用核回歸的預測均值加上不確定性上界來平衡 exploration 與 exploitation，而自正規化集中不等式則提供後悔值（Regret）分析的關鍵工具。另外 Kernel Method 也有許多理論上的延伸，是這門課沒講到的，例如近年很多人在研究的 Neural Tangent Kernel（NTK），可在特定條件下把寬深度網路的訓練動態近似成核回歸，進而分析收斂行為與（在假設下的）泛化界；這條線也能跟更系統化的分析框架（如 Tensor Programs）產生連結。至於 Kernel Bandit，本身確實也有不少近年的工作；只是經典設定（如Sub-Gaussian noise、Fixed Kernel）已相對成熟。 --- 以上段落如果看不懂，其實完全沒關係，因為那些本來就是偏理論的說法。我換一個更白話、比較直覺的例子來講。你有沒有想過，大型語言模型為什麼能回答你提出的各種問題？不管是數學題、寫程式，還是一些很怪、感覺資料庫裡不太可能直接存過的問題？那它到底是「記住答案」，還是「學會怎麼回答」？比較貼近現實的理解是：大型語言模型會把複雜問題拆成很多比較局部、比較簡單的子問題（例如 Chain-of-Thought 就是一種顯式呈現），而這些子問題在模型內部，其實就很像落在某個高維表示空間中的一個個「點」。透過海量資料訓練，模型等於是在把這個高維空間慢慢填密，學會哪些結構、哪些模式會一起出現。當新的問題進來時，模型並不是在「查表」，而是在這個已經被大量資料塑形過的空間裡，找到結構上相近的區域，然後產生一個合理的回應。這也解釋了為什麼大型模型需要「極大量的訓練資料」來覆蓋足夠多的結構，以及「超多參數」來表示這個複雜的高維函數空間——參數本質上就是在幫模型刻畫一個超高維、極度彈性的函數族。如果你從這個角度看，核方法其實是在做一件概念上很像，但數學上更乾淨的事情：它直接假設答案來自某個結構良好的函數空間（RKHS），再用嚴謹的幾何與正則化來控制「相似輸入要有相似輸出」。差別只在於，核方法把這套邏輯攤在陽光下講清楚，而大型語言模型則是用規模與參數，把同樣的事情隱涵地做完。而這也正是為什麼「kernel 的世界觀對理解 LLM 的泛化行為很有啟發性，卻又不能被直接套用」：它提供了一個乾淨的視角，讓我們理解「泛化其實來自於函數空間的幾何結構與正則化偏好」，但大型語言模型的特徵表示是受資料驅動、有複雜的動態變化、且高度非線性的，遠比固定核所能描述的結構複雜得多；因此 kernel 更像是一個理想化的理論模型，幫助我們看懂大方向，而不是一個可以原封不動拿來解釋 LLM 的完整模型。 --- 再來補一些八卦（以下純屬個人觀察，請自行判斷）身為一個 AI 理論業餘愛好者，小弟當然也會稍微注意一下台大有哪些老師在碰 AI 理論。以一個長期吃瓜群眾的角度來看，吳沛遠老師的實驗室走的是那種「許多學生在做應用、只有少數學生在走 AI 理論」的路線。且過去八年裡，真正願意找他當指導而且想走 kernel/learning theory 的人，數量其實很少，過程也不算輕鬆。實驗室裡少數跟純理論相關的成果，基本上都高度集中在特定學生與其國外合作圈，並不是那種「整個lab都在衝AI 理論」的氛圍。講得更現實一點，這八年來吳老師實驗室的博班規模非常精簡。其中有一位博班後來中途離開，而僅存的一位博班學長則撐起了幾乎所有的 AI 理論產出，而且不少成果其實也是仰賴他與國外前同事的合作網絡。更有趣的是，最近滑到他fb，感覺他的人生志向也已經明顯轉向，對繼續研究 AI 理論興趣似乎不大。說實話這也不太意外，畢竟純理論這條路本來就又硬又窄，甚至單純鑽研數學和做 AI 理論研究，也是有很大的差異。所以修吳老師的課是完全 OK 的，尤其如果你是想練數學、補 functional analysis、搞清楚 RKHS 在幹嘛，或是「用乾淨的數學，理解相對簡單的機器學習模型」，那這門課其實很補；但如果你心裡想的是「我要做 machine learning theory、我要投 ICLR / NeurIPS / ICML 理論 track」，那就真的要冷靜想一下。畢竟，「數學很強的老師，不一定能帶你玩懂AI理論研究的遊戲規則」。 AI 理論研究說穿了是個很內圈的社群，很多東西不是數學推得多漂亮，而是你知不知道現在大家在 care 什麼、哪些假設是「政治正確」、哪些證明是 reviewer 會買單的。這些東西，沒有在圈內滾過、沒人帶路，其實很難自己摸出來。最後講句比較現實的：把數學框架訂得太完美，常常不是優點，而是直接把自己鎖死。假設一多、條件一嚴，理論漂亮是漂亮，但適用範圍小到沒人敢用，論文也會難投上。這也是為什麼，單純的數學愛好者，要硬切進 AI 理論這條線，難度其實比想像中高很多。就小弟個人的觀察而言，吳老師更偏向於愛好純數學本身，會投入相當多心力在研讀漂亮完美的數學結構與定理；相較之下，對於當前較為主流、以機器學習社群為核心的 AI 理論投稿方向——例如 ICLR、NeurIPS 或 ICML 的理論取向議題——似乎關注度相對有限，他的興趣也不完全以這些場域的發表脈絡為導向。

關於 吳沛遠 老師的〈機器學習與核方法〉到底在講什麼？

關於吳沛遠老師的〈機器學習與核方法〉到底在講什麼？