fbpx

[email protected]

购物车

 查看订单

  • 我的帐户
东东购 | EasternEast
  • 中文书店
    • 畅销排行榜
      • 小说 畅销榜
      • 童书 畅销榜
      • 外语畅销榜
      • 管理畅销榜
      • 法律畅销榜
      • 青春文学畅销榜
    • 热门分类
      • 社会小说
      • 成功/励志 畅销榜
      • 人物传记
      • 大陆原创
      • 绘本童书
      • 影视小说
    • 文学推荐
      • 文集
      • 戏剧
      • 纪实文学
      • 名家作品
      • 民间文学
      • 中国现当代随笔
    • 新书热卖榜
      • 小说 新书热卖榜
      • 青春文学 新书热卖榜
      • 童书 新书热卖榜
      • 管理 新书热卖榜
      • 成功/励志 新书热卖榜
      • 艺术 新书热卖榜
  • 精选分类
    • 小说
    • 保健养生
    • 烹饪/美食
    • 风水/占卜
    • 青春文学
    • 童书
    • 管理
    • 成功/励志
    • 文学
    • 哲学/宗教
    • 传记
    • 投资理财
    • 亲子家教
    • 动漫/幽默
    • 法律 Legal
    • 经济 Economics
    • 所有分类
  • 关于东东
  • 帮我找书
搜索
首页计算机/网络人工智能大语言模型:原理、应用与优化 苏之阳 王锦鹏 姜迪 宋元峰

大语言模型:原理、应用与优化 苏之阳 王锦鹏 姜迪 宋元峰

微软等大厂4位博士撰写,详解大模型原理、训练和应用的工程化方法,零基础理解、构建、使用大模型

作者:苏之阳 王锦鹏 姜迪 宋元峰 出版社:机械工业出版社 出版时间:2024年10月 

ISBN: 9787111762768
年中特卖用“SALE15”折扣卷全场书籍85折!可与三本88折,六本78折的优惠叠加计算!全球包邮!
trust badge

EUR €53.99

类别: 计算机/网络 新书热卖榜, 人工智能 SKU:675014f6358b38fec0cf6eb6 库存: 有现货
  • 描述
  • 评论( 0 )

描述

开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111762768

产品特色

编辑推荐

(1)作者背景资深:4位作者都是博士,现在或曾在国内微软、百度等大厂从事AI相关技术的研究与开发。

(2)作者经验丰富:4位作者在大厂工作多年,在自然语言处理、推荐搜索、对话系统等领域积累了丰富的项目经验。

(3)工程化视角:本书从工程化的角度讲解了大语言模型的核心技术、训练方法、在各领域的应用,展示了这一系统性工程的复杂性与实现路径。

(4)从入门到进阶:从大模型的原理和基础构件入手,到大模型的分布式训练和各场景应用,再到大模型的优化,零基础入门,成为大模型高手。

(5)从当下到前沿:既详细讲解了当下主流的大模型技术和实操方法,又梳理和盘点了大模型前沿技术理论和实战应用。

 

内容简介

这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。

除了基座模型的训练方案,本书还涵盖了大模型在各领域的落地应用方法,包括低参数量微调、知识融合、工具使用和自主智能体等,展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外,书中进一步介绍了大模型优化的高级话题和前沿技术,如模型小型化、推理能力和多模态大模型等。最后,本书讨论了大模型的局限性与安全性问题,展望了未来的发展方向,为读者提供了全面的理解与前瞻性的视角。

无论是人工智能领域的研究员、工程师,还是对前沿技术充满好奇的读者,本书都将是您了解和掌握大模型技术的必 备指南。  

作者简介

苏之阳,博士,毕业于香港科技大学,现任小冰公司研发总监,专注于自然语言处理产品的研发工作。他主导了小冰框架、小冰智能评论和XEva等项目的架构设计和开发,特别是在大语言模型的研发与应用方面具有丰富的经验。他曾任微软公司资深研发工程师,并在国际学术会议和期刊上发表多篇高水平学术论文。他的研究兴趣涵盖自然语言处理、深度学习以及云计算等领域。

王锦鹏,博士,致力于自然语言处理和推荐系统的研发,拥有在微软亚洲研究院等科技公司担任关键技术岗位的经验,参与了Office文档预训练、推荐大模型等多个重要项目的研发和优化工作。在国际会议和学术期刊上发表了逾30篇高质量论文,并在ACL、EMNLP、AAAI等顶级会议中担任审稿人。

姜迪,博士,拥有十余年工业界研发和管理经验,在雅虎、百度等知名互联网企业工作期间,为企业的多个关键业务研发了核心解决方案。在自然语言处理和数据挖掘领域的会议和期刊上发表了数十篇论文并出版了多部学术专著,获得了多个最佳论文奖和CCF奖项,还在IJCAI、WWW、AAAI、CIKM、COLING等多个会议担任委员会成员。

宋元峰,博士,曾就职于百度、腾讯等互联网公司,在人工智能产品开发领域拥有丰富的经验,研究涉及自然语言处理、数据挖掘与可视化等方向,并在KDD、ICDM等国际学术会议和期刊上发表多篇论文。

目  录

CONTENTS
目  录
前言
第1章 语言模型简介 1
1.1 传统语言模型 2
1.1.1 n-gram语言模型 2
1.1.2 神经网络语言模型 5
1.1.3 传统语言模型的应用 7
1.2 大语言模型 8
1.2.1 大模型的发展历程 9
1.2.2 训练大模型的挑战 11
1.2.3 大模型的应用 12
1.3 大模型实例 14
1.3.1 基座模型实例 15
1.3.2 对齐模型实例 16
1.4 小结 18
第2章 大模型网络结构 19
2.1 Seq2Seq结构 19
2.2 注意力机制 21
2.3 Transformer架构 22
2.3.1 Transformer模型结构 23
2.3.2 编码器单元 24
2.3.3 解码器单元 26
2.3.4 位置编码 27
2.4 词元化 29
2.4.1 BPE 30
2.4.2 字节级BPE 32
2.4.3 WordPiece 32
2.4.4 Unigram语言模型 33
2.4.5 SentencePiece 34
2.5 解码策略 34
2.5.1 贪心搜索 35
2.5.2 集束搜索 35
2.5.3 Top-k采样 36
2.5.4 核采样 38
2.5.5 温度采样 39
2.6 小结 41
第3章 大模型学习范式的演进 43
3.1 预训练与微调的原理和典型模型 44
3.1.1 预训练与微调 44
3.1.2 三个典型模型 46
3.2 多任务学习的原理和典型模型 51
3.2.1 多任务学习 52
3.2.2 两个典型模型 53
3.3 大规模模型的能力 55
3.3.1 少样本学习 55
3.3.2 提示学习 57
3.3.3 上下文学习 59
3.4 小结 61
第4章 大模型对齐训练 63
4.1 对齐 63
4.1.1 对齐的定义 63
4.1.2 对齐的衡量指标 65
4.2 基于人类反馈的强化学习 67
4.2.1 监督微调的原理 68
4.2.2 训练奖励模型的原理 71
4.2.3 强化学习的原理 73
4.3 基于AI反馈的强化学习 77
4.4 直接偏好优化 79
4.5 超级对齐 80
4.6 小结 80
第5章 大模型评测与数据集 83
5.1 大模型评测方法 83
5.1.1 人工评测 84
5.1.2 自动评测 85
5.2 大模型评测指标 86
5.2.1 准确率、精确率、召回率与F1分数 86
5.2.2 困惑度 88
5.2.3 BLEU与ROUGE 90
5.2.4 pass@k 92
5.3 大模型能力评测基准 92
5.3.1 MMLU 93
5.3.2 GSM8K 94
5.3.3 C-Eval 95
5.3.4 HumanEval 97
5.4 数据集及预处理方法 98
5.4.1 预训练数据集 98
5.4.2 指令微调数据集 102
5.4.3 人工反馈数据集 105
5.4.4 数据预处理方法 106
5.5 小结 107
第6章 分布式训练与内存优化 109
6.1 大模型扩展法则 110
6.2 分布式训练策略 112
6.2.1 数据并行 113
6.2.2 张量并行 113
6.2.3 流水线并行 114
6.2.4 混合并行 116
6.3 大模型训练中的不稳定现象 116
6.4 分布式训练集群架构 117
6.4.1 中心化架构:参数服务器 118
6.4.2 去中心化架构:集合
通信 119
6.5 内存优化策略 127
6.5.1 混合精度训练 127
6.5.2 梯度检查点 131
6.5.3 梯度累积 132
6.5.4 FlashAttention 134
6.6 分布式训练框架 135
6.7 小结 137
第7章 大模型的垂直场景适配方案 139
7.1 从零开始训练新模型 140
7.2 全量参数微调 140
7.3 低参数量微调 142
7.3.1 适配器方法 142
7.3.2 提示词微调 144
7.3.3 前缀微调 146
7.3.4 LoRA 147
7.4 超低参数量微调的探索 149
7.5 小结 150
第8章 知识融合与工具使用 151
8.1 知识融合 152
8.1.1 检索增强生成 152
8.1.2 解码器融合 154
8.1.3 提示融合 156
8.2 工具使用 157
8.2.1 WebGPT 157
8.2.2 LaMDA 162
8.2.3 Toolformer 164
8.3 自主智能体 170
8.3.1 自主智能体的组件 172
8.3.2 自主智能体的工作流程 173
8.4 小结 174
第9章 大模型的进阶优化 175
9.1 模型小型化 175
9.1.1 模型量化 176
9.1.2 知识蒸馏 179
9.1.3 参数剪枝 182
9.2 推理能力及其延伸 184
9.2.1 思维链 185
9.2.2 零样本思维链 188
9.2.3 最少到最多提示 190
9.2.4 ReAct:推理能力 行动能力 191
9.3 代码生成 193
9.3.1 Codex 194
9.3.2 代码生成的要素 197
9.4 多模态大模型 198
9.4.1 BEiT-3 199
9.4.2 CLIP 202
9.4.3 Flamingo 204
9.4.4 MiniGPT-4 207
9.5 高质量数据的作用与构建 208
9.5.1 LIMA 209
9.5.2 教科书级数据 212
9.6 模型能力“涌现”的原因 216
9.7 小结 220

第10 章 大模型的局限性与未来发展方向221

10.1 大模型的局限性222

10.1.1 事实性错误222

10.1.2 理解和推理缺陷223

10.1.3 知识更新问题224

10.1.4 安全性问题224

10.1.5 计算资源限制225

10.2 大模型的未来发展方向226

10.2.1 更强的记忆:从通用到个性化226

10.2.2 装上“手脚”:赋予模型使用工具的能力228

10.2.3 多模态交互:穿越文本的边界229

10.3 小结230

参考文献231

抢先评论了 “大语言模型:原理、应用与优化 苏之阳 王锦鹏 姜迪 宋元峰” 取消回复

评论

还没有评论。

相关产品

加入购物车

揭秘深度强化学习 机器学习 神经网络与深度学习人工智能丛书 AlphaGo核心算法揭秘 C语言描述机器深度学习 应用于机器人决策 量化投资 自动驾驶

EUR €53.99
加入购物车

21个项目玩转深度学习——基于TensorFlow的实践详解

EUR €48.99
加入购物车

新未来简史:区块链、人工智能、大数据陷阱与数字化生活

EUR €38.99
加入购物车

机器人学中的状态估计(人工智能与机器人系列)

EUR €55.99

东东购的宗旨是服务喜爱阅读中文书籍的海外人民,提供一个完善的购书平台,让国人不论何时何地都能沉浸在书香之中,读着熟悉的中文字,回忆着家乡的味道。


安全加密结账 安心网络购物 支持Paypal付款

常见问题

  • 货物配送
  • 退换货政策
  • 隐私政策
  • 联盟营销

客户服务

  • 联系东东
  • 关于东东
  • 帮我找书
  • 货物追踪
  • 会员登入

订阅最新的优惠讯息和书籍资讯

选择币别

EUR
USD
CAD
AUD
NZD
NOK
GBP
CHF
SEK
CNY
UAH
ILS
SAR
MXN
KRW
MYR
SGD
HUF
TRY
JPY
HKD
TWD
facebookinstagram
©2020 东东购 EasternEast.com

限时特卖:用“SALE15”优惠券全场书籍85折!可与三本88折,六本78折的优惠叠加计算。 忽略