首頁 搜尋 我的知識庫
LLM的大開源時代 - Llama模型精讀實戰

LLM的大開源時代 - Llama模型精讀實戰

作者: 張俊祺
出版社: 深智數位
出版日期: 2024/09/19
ISBN-13: 9786267569009
書店 1






內容描述


LLM的大開源時代 - Llama模型精讀實戰

  在當前的人工智慧發展浪潮中,語言模型扮演著舉足輕重的角色。而在這場競賽中,Llama語言模型以其卓越的表現和創新技術,迅速崛起成為新興的焦點。

  Llama語言模型的誕生,不僅標誌著技術上的突破,更代表著人工智慧在理解和生成自然語言方面邁向新的高度。不僅具備強大的語言理解能力,還能生成流暢、自然的文字,這對於各類應用場景,包括對話系統、內容創作、翻譯等,都具有重要的意義。

  本書深入剖析了Llama語言模型的架構、訓練方法以及實際應用,還討論了Llama語言模型在實際應用中的挑戰和前景。這種理論與實踐相結合的寫作方式,使得本書在科學性與實用性之間達到了一個完美的平衡。總結來說,這本書不僅是一部關於Llama語言模型的專業指導書,更是一部啟發未來創新的重要參考文獻。我相信,無論是對人工智慧領域的專家學者,還是對語言模型技術感興趣的廣大讀者,這本書都將帶來豐富的收穫和啟迪。


目錄大綱


第 1 章 大型模型的基礎理論
1.1    大型模型發展歷史
1.1.1 從語言模型到預訓練大型模型
1.1.2 預訓練大型模型的發展
1.1.3 大型模型的進化
1.2 大型模型的核心框架
1.2.1 Transformer
1.2.2 位置編碼
1.2.3 多頭自注意力機制
1.3 資料收集和資料處理
1.3.1 資料收集
1.3.2 資料處理
1.4 大型模型的預訓練及微調
1.4.1 無監督預訓練
1.4.2 指令微調
1.4.3 基於人類回饋微調
1.5 大型模型的評測
1.5.1 評測任務
1.5.2 評測資料集
1.5.3 微調評測方法
1.5.4 評測中的挑戰

第 2 章 部署 Llama 大型模型
2.1 部署前的準備
2.1.1 硬體準備
2.1.2 環境準備
2.2 模型的匯入與載入
2.2.1 下載程式
2.2.2 下載模型
2.3 模型部署
2.3.1 API 部署
2.3.2 text-generation-webui部署
2.3.3 使用text-generation-webui

第 3 章 微調 Llama 大型模型
3.1 微調的資料集準備和標注
3.1.1 資料集準備
3.1.2 資料集標注
3.2  Llama大型模型載
3.3 微調策略設計及模型重新訓練
3.3.1 微調策略設計
3.3.2 模型參數高效微調
3.4 模型評估、測試和模型最佳化
3.4.1 模型評估、測試
3.4.2 模型最佳化
3.5 模型儲存、模型部署和推理加速
3.5.1 模型儲存
3.5.2 模型部署
3.5.3 推理加速

第 4 章 解決 Llama 大型模型多輪對話難題
4.1 訂製多輪對話資料集和建構方法
4.1.1 準備微調訓練資料的7個原則
4.1.2 訂製微調訓練資料集
4.1.3 多輪對話的3個場景
4.2 實際操作構造多輪對話微調訓練資料集
4.3 透過多輪對話儲存解決資訊流失問題
4.3.1 拼接歷史與當前輸入
4.3.2 上下文向量
4.3.3 對話狀態追蹤
4.3.4 狀態壓縮
4.3.5 增量學習和線上學習
4.4 提高大型模型多輪對話應對能力
4.4.1 針對性的資料集與微調
4.4.2 即時回饋與自我調整
4.4.3 強化學習最佳化
4.4.4 上下文感知與個性化
4.4.5 多模態與多工學習
4.4.6 錯誤處理與恢復策略
4.5 模型評估與持續改進
4.5.1 微調Llama大型模型評估
4.5.2 持續改進
4.6 適合Llama大型模型多輪對話的prompt建構

第 5 章 基於 Llama 訂製行業大型模型
5.1 業務資料分析指導行業大型模型訂製
5.1.1 行業大型模型的訂製策略
5.1.2 模型性能的評估
5.2 行業資料的獲取與前置處理
5.2.1 資料獲取
5.2.2 資料前置處理
5.3  Llama大型模型匯入初始化
5.4 微調獲得行業特定大型模型
5.4.1 領域預訓練
5.4.2 微調策略
5.5 模型測試、評估和最佳化

第 6 章 Llama + LangChain 文件問答模型建構
6.1  LangChain 介紹
6.2  LangChain 的主要概念與範例
6.2.1 模型
6.2.2 提示
6.2.3 輸出解析器
6.2.4 索引
6.2.5 記憶體
6.2.6 鏈
6.2.7 代理
6.2.8 工具
6.3  LangChain 環境設定
6.3.1 Python 環境架設
6.3.2 LangChain 主要模組
6.4  Llama+LangChain 文件問答模型評估
6.4.1 設定虛擬環境和建立檔案結構
6.4.2 Llama和LangChain的互動流程
6.4.3 具體案例

第 7 章 多語言大型模型技術介紹及其工業應用
7.1 多語言大型模型的研究現狀和技術方向
7.1.1 為什麼進行多語言研究
7.1.2 多語言在NLP社區的發展
7.1.3 多語言模型技術方向
7.2 多語言大型模型的預訓練資源和評測任務
7.2.1 多語言大型模型的預訓練資源介紹
7.2.2 評測任務介紹
7.3 多語言大型模型的最佳化方向
7.3.1 資料前置處理流程
7.3.2 Tokenizer
7.3.3 訓練資料格式和採樣策略
7.3.4 多語言大型模型的訓練任務
7.3.5 多語言大型模型的最佳化方向總結(以Llama為例)
7.4 多語言大型模型的工業應用
7.4.1 智慧客服
7.4.2 搜尋引擎
7.4.3 機器翻譯


作者介紹


作者簡介

張俊祺

  清華大學計算機系博士,曾獲CIKM 2018 唯一最佳論文獎。

曲東奇

  東南大學畢業,德國亥姆霍茲研究中心訪問學者。

張正

  清華大學計算機系畢業,對於深度學習、自然語言處理技術有著極其豐富的研究和產業經驗,研發了原子大模型。

占冰強

  AIGCLINK發起人,中關村超互聯聯盟副秘書長,行行AI合伙人,曾聯合創辦算法和數學建模交流平臺數學中國。






相關書籍

Autodesk AutoCAD電腦繪圖與輔助設計(適用AutoCAD 2017~2020,含國際認證模擬試題)

ChatGPT與AI繪圖效率大師:從日常到職場的全方位應用總整理,48小時迎接減壓新生活!

AI世代必備!Python×ChatGPT高效率工作術:從網路爬蟲到辦公室自動化超實務

即學即用!精選 30 招辦公室超高效 AI 生產術:使用 ChatGPT × Copilot × Word × Excel × Gamma,從 AI 小白躍升職場霸主(iThome鐵人賽系列書)