IMBD經驗分享。

國立清華大學

拿了點小錢．來回饋社群與後進。 IMBD(全國智慧製造大數據分析競賽)由教育部指導、東海大學主辦、國網和一些其他大學協辦，是國內常態性獎金最高的數據競賽，aicup就是個零頭，感謝業界金主。獎金分布和賽制等官網有的資訊不再贅述，今天來講一些其他東西，以下綜合了與數屆參賽者、得獎者的觀點、經驗交流： 1. IMBD的特色在於賽事數據來自工業現場，保密的要因很強，因此很多賽制上毛毛角角的不方便都來自於此。不過各種機制只防君子不防小人。 2. 主辦釋疑與解決賽事執行上問題的效率與態度，對於行政單位來說是一等一的敬業，毫不拖沓。 3. 初賽會選60組進決賽，填滿東海大禮堂，就算近年總報名隊伍數量降低也一樣。 4. 複賽要預留賽事出包的餘裕和因應策略，歷史上有國網平台的環境相依性問題搞了半個賽程、現場的網路連線問題大爆炸、資料釋放順序出錯...各種想得到的想不到的都有可能會使絆子，不得不防。現場出問題的時候，繳交時限會延長半小時或一小時不等。 5. 這兩年平台容器從4c+64GB+P100進步到4c+64GB+V100，儲存空間約200GB，隨機讀取IO大概是單顆HDD的等級。開發環境提供權限鎖死的ubuntu 22，還有以pipenv虛擬化的tf 2.15 + keras 2和torch 2.3 + ultralytics 8.2，可以看到版本以穩定為主使用一年到兩年前的套件，文件得翻一下。另外tf keras裡面的torch有到2.7 ¯\_(ツ)_/¯。 6. 複賽內容通常是一題迷你大小(training sample size 6 ~ 100的表格或者時序資料)，一題小 ~ 中型大小(sample size 1e+4 ~ 1e+5，多半是視覺任務)。以計算資源來說幾乎不可能在現場對視覺任務的第二批訓練資料進行訓練或模型微調。 7. 賽事的執行上，我相信是公平的，各種凹都凹不動；然而透明性是「零」，測試分數排名、評審過程與評審決議，完完全全地一點資訊都不會讓參賽者知道，頂多賽後向主辦詢問團隊的測試分數。 8. 辛勞的主辦會在便當時間計算測試分數與排名，最後由不知道的人、依未知的方式挑一個謎樣的比例的參賽者入圍，從4隊~14隊都有可能。便當時間結束之後工讀生會通知入圍隊伍去排隊上台報告。 9. 評審比例每年不一樣，由金主代表、金主技術主管、教授組成10人(或是12個，在台上數人頭有些失禮...)。 10. 上台報告的投影片和稍早繳交的會是同一份。報告時間扣掉流程大概7分鐘，這7分鐘還包含與評審交流的QA時間。 11. 最終敘獎的排名比照報告內容還挺公道的，但依然充滿謎團。經驗上不完全靠排名成績。謎團就是謎團。 12. 報告完會有半個小時的空檔，強烈建議在便當會或者這段時間和其他團隊交流－－畢竟簡報都做了，用不上太可惜。 13. 在那之後就會像通知入圍一樣，工讀生通知得獎隊伍去排隊，有時候會照敘獎排名排，有時候不會，從優等獎(佳作)開始頒。有入圍大概就有七成的機會獲獎，這有可能有倖存者偏差。接下來是主觀性較強的部分： 1. 把小數據的解析度提的再高都不會變成大數據。 2. 因公平性而原則性的禁止參賽團隊安裝額外套件是條搞笑規則，一來沒有落實查驗、二來無法分辨套件作者是不是參賽團隊、三奈何我把包拆了直接用。 3. 下次還請國網限個網速或者做流量管控，有些圖片的解析度明顯不是畫在terminal上面。 4. 在迷你資料集上比ACC鑑別度太差了，和擲骰沒兩樣。二分類比AUC不好嘛。 5. 要進複賽門檻不高，只要cross validation有做對、代送個兩三代解答就能過，不超過ISL半本的內容。有些複賽參賽者還沒聽過train test split¯\_(ツ)_/¯，能打的大概5~6組。 6. 敘獎門檻大概落在kaggle 2~3萬鎂比賽的10~30名，撇除領先組公開的那些code，對硬實力的要求不算頂高，體感上很大的程度取決於評審的喜好。 IMBD好比一個地區的農產品競標會，從形式回推的目的是讓買家挑到好的農產品，而沒有擔起培養地區農家水準與改善土壤的工作的意思。作為一個教育競賽，完全可以做得更多。在現行的賽制上，賽期當中(從開賽到決賽當天中午繳交的繳交期限)原則上是禁止隊伍與隊伍之間的交流的，和隔壁隊伍喇賽還被警告，賽方的裡由是基於公平性和原創性的保證¯\_(ツ)_/¯。培植與發掘智慧製造與大數據分析之優秀人才的意思是只培育優秀人才，聚光燈完全打在領先族群上面。賽制、賽程、獎金分佈不關心那些上不了台的隊伍。絕大多數的參賽隊伍也十分閉俗，沒能入圍就摸摸鼻子值接回家，沒有想要與其他參賽者交流的意思，連自己怎麼輸的也不知道。這樣的競賽社群是十分不健康的，或者說是十分可惜的，大量的、可被利用的試錯失敗經歷直接被放水流。主辦不想把握、參賽者也不懂得把握。我個人認為，在主辦的監管下適度的開放參賽者之間的交流是合宜的，譬如在國網平台上架個mailbox或者留言版，並且增設一個社群貢獻獎(3萬、5萬)，鼓勵參賽者之間交流。平台內的公開的場合是封閉且公平的，原創性是分享時自當負責的，同時這樣的交流將大幅提升最終入圍的解答質量。人類文明本來就不該獎勵閉門造車，助長良性的競爭交流，對台灣的資料科學人才養成更有幫助。最後再感謝一次主辦和金主把拔。