#分享 監督式學習的好夥伴:自然標籤🏷️(Natural Labels )
Hi, 明天就放假了,先跟大家拜個早年,新年快樂!
在新年開始玩耍之前,先一起來看看資料科學、機器學習重要的資料本身。
---
今天想跟大家介紹資料科學、機器學習常需要用到的標籤資料,裡面有一個特殊的好夥伴 – 自然標籤🏷️。
*目錄*
- 前言
- 標籤資料是什麼?
- 自然標籤是什麼?
- 總結
---
*前言*
資料科學、機器學習領域中,通常可以將任務分為監督式、非監督式的任務。兩者之間的區別在於有無正確答案(ground truth/labels),監督式有;而非監督式則無。
監督式仰賴標籤資料讓模型去學習如何分辨各個標籤的判斷規則,如垃圾郵件,常見模型有隨機森林、簡單貝氏、深度學習模型BERT等等。
y = f(X),其中X代表預測特徵,y代表預測值
y = label = 1,是垃圾郵件
y = label = 0,不是垃圾郵件
非監督式則仰賴資料中(X)之間自然的相似性去做分群,常見有KMeans模型。
而監督式的強大在於有標籤的明確信號,會讓模型可以經由資料學習出預測模型,進而協助自動化判斷或者提前預估。
---
*標籤資料是什麼?*
以上述的垃圾郵件為例子:
X:知名商場的促銷優惠,快來撿便宜!!!
一般來說,資料為以上的形式,我們需要人工去標記對使用者而言可能是垃圾郵件或者不是:
y:1/0,是垃圾郵件/不是垃圾郵件。
但這樣的人工標記通常會耗費大量人力,有的時候不是那麼容易的任務,尤其在資料量很大的時候,標籤成本就變得很高!
但不是任何標籤資料都需要人工標籤,有的標籤會被使用者或者隨著時間自動產生,這種類型也被稱為「自然標籤Natural Labels」
---
*自然標籤是什麼?*
根據Designing ML System的定義所述:
"Tasks with natural labels are tasks where the model’s predictions can be automatically evaluated or partially evaluated by the system."
簡單來說,就是可以自動化、不需人工去標記取得標籤,就是自然標籤。
這種自然標籤是特別適合去執行資料科學、機器學習的任務,因為少了人工標籤的困擾,可持續得到供後續驗證/訓練的新資料。
常見的自然標籤有:
- 推薦系統:使用者點擊的資料。
- 垃圾郵件:使用者主動標記是否為垃圾郵件。
- 股價預測:幾天後的股價。
- 預估里程所需時間:Google Map/Uber等抵達花費時間。
- 更多…(歡迎大家也提供)
可以發現我們常使用的服務中,就有許多擁有自然標籤,就是相當適合的任務,而這邊特別提到垃圾郵件。
透過「設計機制」讓使用者可以主動替我們產生標籤資料也是常用的手法,如:
- 翻譯系統:翻譯修正建議。
- ChatGPT:內容產生按讚/不喜歡,
- 郵件系統:使用者主動標記是否為垃圾郵件。
因此在建置資料科學/機器學習應用時,如果可以在適當的條件下,加入主動標記機制,可以減少很多成本,也讓整個系統更完善,可持續隨著時間運作下去,以免發生 Data Shifts 時,手邊沒有立即的訓練資料去更新模型。
Data Shifts:資料隨著時間產生訓練資料與真實環境產生分布的偏移,造成現有模型效能的下降,常見如Covid-19造成使用者使用習慣改變。
---
*總結*
這篇文章與大家簡單介紹了監督式以及非監督式的區別,再來介紹了什麼是監督式的標籤資料,以及標籤資料裡面的自然標籤的好處。也稍微提到了一些應用透過設計機制使得可以得到自然標籤。
希望這篇文章有讓大家更了解自然標籤,也歡迎大家分享曾經參與過的自然標籤唷!
也可以從Medium上觀看唷(內容都是一樣的)