*分散式機器學習機礎,包括資料、模型、管線的並行
*集合通訊的重要性、參數伺服器PS-Lite
*PyTorch DataParalle、PyTorch DDP的基礎及動態邏輯
*Uber Horovod的原理及實作
*GPipe、PyTorch的管線並行及PipeDream基礎架構及實作
*Megatron原理及實作、PyTorch的模型並行原理實作
*分散式運算的最佳化器
*TensorFlow的分散式環境,靜態架構、動態邏輯
*分散式架構的策略基礎、MirroredStrategy、ParameterServerStrategy
本書書以PyTorch為主體講解,從系統和實踐的角度對分散式機器學習進行整理。
包括了第1篇分散式基礎,介紹了分散式機器學習的基本概念、基礎設施,以及機器學習並行化的技術、框架和軟體系統,然後對集合通訊和參數伺服器PS-Lite進行了介紹。
第2篇介紹資料並行,將計算負載切分到多張卡上,實作為PyTorch及Horovod。
第3篇介紹模型並行,主要說明了張量模型並行及管線模弄並行,讓模型可以放入多節點上。
第4篇NVIDIA Megatron進行分析,講解如何進行層內分割模型並行,然後學習PyTorch如何支援模型並行。
第5篇則是將全書的內容用TensorFlow實作,讓已經熟悉TensorFlow的使用者不必重新學習新的框架。