LINK

#分享 監督式學習的好夥伴:自然標籤🏷️(Natural Labels )

Hi, 明天就放假了,先跟大家拜個早年,新年快樂! 在新年開始玩耍之前,先一起來看看資料科學、機器學習重要的資料本身。 --- 今天想跟大家介紹資料科學、機器學習常需要用到的標籤資料,裡面有一個特殊的好夥伴 – 自然標籤🏷️。 *目錄* - 前言 - 標籤資料是什麼? - 自然標籤是什麼? - 總結 --- *前言* 資料科學、機器學習領域中,通常可以將任務分為監督式、非監督式的任務。兩者之間的區別在於有無正確答案(ground truth/labels),監督式有;而非監督式則無。 監督式仰賴標籤資料讓模型去學習如何分辨各個標籤的判斷規則,如垃圾郵件,常見模型有隨機森林、簡單貝氏、深度學習模型BERT等等。 y = f(X),其中X代表預測特徵,y代表預測值 y = label = 1,是垃圾郵件 y = label = 0,不是垃圾郵件 非監督式則仰賴資料中(X)之間自然的相似性去做分群,常見有KMeans模型。 而監督式的強大在於有標籤的明確信號,會讓模型可以經由資料學習出預測模型,進而協助自動化判斷或者提前預估。 --- *標籤資料是什麼?* 以上述的垃圾郵件為例子: X:知名商場的促銷優惠,快來撿便宜!!! 一般來說,資料為以上的形式,我們需要人工去標記對使用者而言可能是垃圾郵件或者不是: y:1/0,是垃圾郵件/不是垃圾郵件。 但這樣的人工標記通常會耗費大量人力,有的時候不是那麼容易的任務,尤其在資料量很大的時候,標籤成本就變得很高! 但不是任何標籤資料都需要人工標籤,有的標籤會被使用者或者隨著時間自動產生,這種類型也被稱為「自然標籤Natural Labels」 --- *自然標籤是什麼?* 根據Designing ML System的定義所述: "Tasks with natural labels are tasks where the model’s predictions can be automatically evaluated or partially evaluated by the system." 簡單來說,就是可以自動化、不需人工去標記取得標籤,就是自然標籤。 這種自然標籤是特別適合去執行資料科學、機器學習的任務,因為少了人工標籤的困擾,可持續得到供後續驗證/訓練的新資料。 常見的自然標籤有: - 推薦系統:使用者點擊的資料。 - 垃圾郵件:使用者主動標記是否為垃圾郵件。 - 股價預測:幾天後的股價。 - 預估里程所需時間:Google Map/Uber等抵達花費時間。 - 更多…(歡迎大家也提供) 可以發現我們常使用的服務中,就有許多擁有自然標籤,就是相當適合的任務,而這邊特別提到垃圾郵件。 透過「設計機制」讓使用者可以主動替我們產生標籤資料也是常用的手法,如: - 翻譯系統:翻譯修正建議。 - ChatGPT:內容產生按讚/不喜歡, - 郵件系統:使用者主動標記是否為垃圾郵件。 因此在建置資料科學/機器學習應用時,如果可以在適當的條件下,加入主動標記機制,可以減少很多成本,也讓整個系統更完善,可持續隨著時間運作下去,以免發生 Data Shifts 時,手邊沒有立即的訓練資料去更新模型。 Data Shifts:資料隨著時間產生訓練資料與真實環境產生分布的偏移,造成現有模型效能的下降,常見如Covid-19造成使用者使用習慣改變。 --- *總結* 這篇文章與大家簡單介紹了監督式以及非監督式的區別,再來介紹了什麼是監督式的標籤資料,以及標籤資料裡面的自然標籤的好處。也稍微提到了一些應用透過設計機制使得可以得到自然標籤。 希望這篇文章有讓大家更了解自然標籤,也歡迎大家分享曾經參與過的自然標籤唷! 也可以從Medium上觀看唷(內容都是一樣的)
愛心
10
留言 0
encourage first comment
有些話想說嗎 快分享出來彼此交流吧!