Kaggle 是目前最大的資料科學競賽平台,這裡匯集世界各地超過 10 萬名資料科學家,解決各大企業公開於平台上面的資料及問題。Kaggle 曾經舉辦過總獎金一百萬美金的競賽,尋求各路好手解決癌症影像辨識的問題;也曾經有參賽者因為解決了一家壽險公司在 Kaggle 上發布的問題,因此順利進入該公司工作。因此,Kaggle 無疑是展現高超技術力,同時也是尋求優渥獎金、薪資、更好職位的途徑。
對於人工智慧的工程師、學生來說,Kaggle 平台提供了大量免費的資源:真實世界的資料集、各路好手的討論分享、以及累積實際操作的經驗等等。這些資源在一般課堂上幾乎很難取得,卻也是這領域最需要的知識與技能。
本書作者為四位 Kaggle 資料科學競賽專家,他們不僅透過實務上的角度解析各種特徵工程技術,超越一般教科書的視野;更重要的是提供各種技術、流程使用心得,讓讀者可以直接跳過嘗試、摸索的階段。試想下列的這些問題,不就是實務上經常會碰到的難處!而作者將會在書中闡述他們如何看待、解決這些事情:
● 如何最佳化模型的閾值來獲得最高的評價分數?
● 如何將資料經過編碼、降維等等轉換,以彰顯資料的特性?
● 如何依據問題的型態選擇模型,且依照模型的特性來提取適當的特徵?
● 如何正確進行時序資料的驗證以避免過度配適或資料外洩?
● 如何調整梯度提升決策樹、類神經網路的參數?
● 如何將自己所學的各種技術,進行有效的模型集成?
我們也在書中適時加上小編補充,讓讀者可以完整吸收四位專家的思想精髓,希望讀者閱讀本書之後,不僅可以在 Kaggle 競賽中締造絕佳成績,也相信讀者可以解決工作、研究中複雜且混亂的資料集。
讓我們一同走上資料科學的巔峰吧!
本書特色
● 國立成功大學資訊工程學系特聘教授 陳培殷博士 推薦
● 本書由施威銘研究室監修,內容易讀易懂,並加入大量「編註」與「小編補充」以幫助理解及補充必要知識。
● 集結 4 位 Kaggle 高手累積共 37 面獎牌的實戰經驗
● 整理當前實務上各種特徵工程的困難問題以及解決的方法
● 分享各種技術使用時機與實踐結果的寶貴心得
● 揭露 Kaggle 競賽高人一等的制勝精華
● 提供書中 Python 範例程式下載