從標註到資料科學的人類監督
掌握訓練資料的訣竅,提升AI專案成功率
您的訓練資料對於資料專案的成功與否與演算法本身一樣重要,因為人工智慧系統的大多數失敗都與訓練資料有關。儘管訓練資料是成功的人工智慧與機器學習的基礎,但鮮少有全面的資源可以幫助您掌握這一過程。
在這本實用指南中,作者Anthony Sarkis(Diffgram AI訓練資料軟體的首席工程師)向技術專業人員、管理者和相關領域專家展示如何處理和擴展訓練資料,同時闡述監督機器的人性面。無論是工程領導者、資料工程師或是資料科學專業人士,都能從本書獲得成功使用訓練資料所需之概念、工具和流程的深入理解。
透過這本書,您將學會:
‧有效地處理訓練資料,包括綱要、原始資料和標註
‧將工作、團隊或組織轉型為更以人工智慧/機器學習資料為中心
‧向其他員工、團隊成員和利益相關者清楚解釋訓練資料概念
‧為生產級別的人工智慧應用設計、部署和交付訓練資料
‧識別並修正基於新訓練資料的失敗模式,如資料偏差
‧完全掌握自動化技術,更有效地建立訓練資料
‧成功維護、操作和改進訓練資料的記錄系統
好評推薦
「本書以全方位的視角解說如何產生高品質的訓練資料以及啟動新專案。」— Anirudh Koul,Pinterest機器學習、資料科學負責人
「要做好機器學習,必須學習如何訓練資料。本書的價值比黃金還要珍貴。」— Neal Linson,InCite Logix首席資料與分析長,LLM超級明星
機器學習的訓練資料
內容描述
目錄大綱
前言
第 01 章 訓練資料導論
訓練資料的意圖
訓練資料的機會
訓練資料的重要性
真實的訓練資料
生成式人工智慧
總結
第 02 章 快速上手
引言
快速上手
工具概述
取捨
歷史
總結
第 03 章 綱要
深入介紹綱要
標籤和屬性:內容
空間表達法:在哪裡?
關係、序列、時間序列:何時?
指南和說明
機器學習任務與訓練資料的關係
通用概念
總結
第 04 章 資料工程
引言
原始資料儲存
格式和映射
資料存取
安全性
預標記
總結
第 05 章 工作流程
引言
技術和人之間的黏合劑
開始人類任務
品質保證
分析
模型
資料流
直接標註
總結
第 06 章 理論、概念和維護
引言
理論
一般概念
樣本建立
維護
訓練資料管理
總結
第 07 章 人工智慧轉型與應用案例
引言
人工智慧轉型
任命領導者:人工智慧資料主管
使用案例發現
新的「群眾外包」:您自己的專家
現代訓練資料工具
總結
第 08 章 自動化
引言
入門
取捨
預標記
互動式標註自動化
品質保證自動化
資料發掘:應該標記的內容
擴增
模擬和合成資料
媒體特定
特定於領域
總結
第 09 章 案例研究和故事
引言
產業
訓練資料的學術方法
總結
索引
作者介紹
作者簡介
Anthony Sarkis
Anthony Sarkis 是Diffgram AI訓練資料軟體的首席工程師,也是Diffgram Inc.技術長兼創始人。在此之前,他曾是Skidmore、Owings & Merrill軟體研發工程師,並共同創立了DriveCarma.ca。