描述
是否套装: 否国际标准书号ISBN: 9787302705796

本书详细介绍了Transformer大模型算法基础,内容丰富,案例经典
在人工智能迅猛发展的背景下,Transformer作为大模型的核心架构,已成为推动智能技术变革的重要引擎。本书梳理了Transformer的技术脉络与典型应用,旨在帮助读者全面理解这一划时代的信息机器。全书共6章,系统阐述Transformer模型的核心机制与演进路径。第1章介绍自注意力机制等基础构件;第2~4章分别探讨Transformer在自然语言处理、计算机视觉和多模态学习中的应用,涵盖BERT、ViT、CLIP等代表性模型;第5章聚焦自动驾驶场景,展示Transformer在感知、预测与规划等模块中的统一建模潜力;第6章则讨论基于Transformer的AI智能体构建,展望其在通用智能系统中的未来发展方向。本书适合人工智能、计算机科学、认知科学等相关领域的高校师生、研究人员、开发工程师及行业从业者阅读,也为关注AI技术发展的管理者与决策者提供了清晰的技术脉络与应用图景。
目录
第1章Transformer的基本原理
1.1Transformer编码器结构
1.1.1自注意力层
1.1.2前馈层
1.1.3位置编码
1.1.4层归一化
1.1.5残差连接
1.2Transformer解码器结构
1.2.1互注意力层
1.2.2序列掩码
1.3Transformer特点分析
1.3.1Transformer与CNN、RNN的区别和联系
1.3.2Transformer的优劣势分析
小结
参考文献
第2章语言Transformer
2.1自然语言处理
2.1.1自然语言理解
2.1.2自然语言生成
2.1.3自回归与自编码模型
2.1.4Word2Vec模型
2.1.5基于RNN的Seq2Seq方法
2.1.6基于注意力的Seq2Seq方法
2.2基于Transformer的自然语言处理模型
2.2.1BERT模型
2.2.2GPT模型
2.2.3XLNet模型
2.2.4BART模型
2.2.5T?5模型
2.2.6MoE模型
2.2.7Switch Transformer模型
2.3预训练语言模型
2.3.1预训练方式
2.3.2预训练任务
2.4微调与迁移
2.4.1微调方法
2.4.2Prompt方法
2.5大语言模型
2.5.1大模型训练策略
2.5.2大模型训练平台
2.5.3大语言模型微调策略
小结
参考文献
第3章视觉Transformer
3.1ViT模型
3.1.1基本结构
3.1.2图像序列化
3.1.3类别token
3.1.4位置编码
3.1.5编码器结构
3.2视觉Transformer的一般框架及变体
3.2.1视觉Transformer的一般框架
3.2.2计算代价
3.2.3表达能力
3.2.4结构设计
3.3基于Transformer的目标检测模型
3.3.1DETR方法
3.3.2YOLOS方法
3.3.3Pix2Seq方法
3.3.4研究总结
3.4基于Transformer的图像分割模型
3.4.1SETR方法
3.4.2SegFormer方法
3.4.3Segmenter方法
3.4.4MaskFormer方法
3.4.5QueryInst方法
3.4.6ISTR方法
3.4.7Panoptic SegFormer方法
3.4.8研究总结
3.5基于Transformer的预训练视觉模型
3.5.1iGPT方法
3.5.2BEIT方法
3.5.3MAE方法
3.5.4SAM模型
小结
参考文献
第4章多模态Transformer
4.1多模态数据类型及序列化方法
4.1.1视觉数据序列化
4.1.2语言数据序列化
4.1.3点云数据序列化
4.2多模态数据融合
4.2.1对齐与非对齐式融合
4.2.2不同时期的融合
4.2.3对称与非对称式融合方法
4.3多模态预训练
4.3.1多模态掩码预测
4.3.2跨模态关联任务
4.3.3跨模态生成
4.3.4多模态顺序预测
4.4多模态预训练模型
4.4.1ViLBERT模型
4.4.2CLIP模型
4.4.3Flamingo模型
4.4.4DALL?E 2模型
4.4.5BLIP模型
4.4.6BLIP?2模型
4.4.7InstructBLIP模型
4.4.8MiniGPT?4模型
4.4.9Meta?Transformer模型
4.4.10LLaVA模型
小结
参考文献
第5章Transformer在自动驾驶中的应用
5.1基于Transformer的自动驾驶感知
5.1.1基于Transformer的多模态融合感知
5.1.2基于Transformer的BEV感知
5.1.3基于Transformer的占用网格预测
5.2基于Transformer的自动驾驶轨迹预测
5.2.1mmTransformer模型
5.2.2AgentFormer模型
5.2.3WayFormer模型
5.3基于Transformer的自动驾驶行为与轨迹规划
5.3.1HMIL模型
5.3.2PlanT模型
5.3.3VTT模型
5.4基于Transformer的端到端自动驾驶
5.4.1UniAD模型
5.4.2FusionAD模型
5.4.3VistaGPT模型
小结
参考文献
第6章基于Transformer的AI智能体
6.1AI智能体组成与结构
6.1.1AI智能体配置模块: 角色塑造
6.1.2AI智能体记忆模块: 知识接入
6.1.3AI智能体工具模块: 功能拓展
6.1.4AI智能体感知模块: 信息分析
6.1.5AI智能体规划模块: 决策生成
6.1.6AI智能体行动模块: 动作产生
6.2典型的AI智能体系统
6.2.1LangChain
6.2.2HuggingGPT
6.2.3CHATDEV
6.2.4RoboGen
6.2.5Stanford AI Town
小结
参考文献
前〓〓言
在人工智能技术蓬勃发展的当下,大模型及其核心架构Transformer,已然成为智能系统与应用的前沿力量。从自然语言处理到多模态学习,大模型正在各领域展现出前所未有的潜力。
这一切源于几十年来数学理论和计算模型的不断发展。从“希尔伯特纲领”燃起的数学公理化之火,到罗素(Bertrand Russell)与怀特海(Alfred North Whitehead)的《数学原理》打造的机械化的数字世界,再到循环因果启发下,由维纳(Norbert Wiener)等创立的控制论(Cybernetics),以及麦卡洛克(Warren McCulloch)和皮茨(Walter Pitts)构建的人工神经元模型(McCulloch?Pitts Model,MP模型),认知科学和神经元网络研究的大门逐渐打开。1955年,麦卡锡(John McCarthy)首次用“人工智能”(Artificial Intelligence,AI)定义了智能机器,并于1956年组织召开了标志人工智能诞生的达特茅斯会议,至此,人工智能由“三起三落”起步,开启了智能科技发展的壮阔历程。
正如工业时代的内燃机和电动机等工业机器推动了生产力的飞跃,在信息时代,随着数据和算力的进步,信息机器也在迅速崛起,成为推动智能化变革的核心力量。其中,罗森布拉特(Frank Rosenblatt)于1958年推广了感知机模型(Perceptron),为早期神经网络研究开辟了道路。随后,威德罗(Bernard Widrow)和霍夫(Marcian Hoff)在1960年提出了自适应线性元件网络模型(Adaptive Linear Element,ADALINE),标志着神经网络自适应学习的初步探索。1974年,韦尔博斯(Paul Werbos)首次提出了反向传播(Backpropagation Algorithm, BP)算法,为神经网络的训练奠定了基础。1976年,格罗斯伯格(Stephen Grossberg)提出了自适应共振理论(Adaptive Resonance Theory,ART),进一步丰富了神经网络的学习机制。1982年,霍普菲尔德(John J.Hopfield)提出了著名的霍普菲尔德网络(Hopfield Network),与同期科霍宁(Teuvo Kohonen)构建的Kohonen网络,以及此前阿不思(James Albus)提出的小脑功能模型(Cerebellar Model)一道,开启了神经网络在记忆与优化问题中的应用。1984年,辛顿(Geoffrey Hinton)等提出了玻尔兹曼机模型(Boltzmann Machine),为随机性和能量模型在神经网络中的应用奠定了基础。1986年,鲁梅尔哈特(David Rumelhart)和麦克利兰(James McClelland)推出了多层神经网络(Multilayer Neural Network),为今天的深度学习种下了火种,成为现代神经网络研究的重要里程碑。进入21世纪,辛顿于2006年提出了深度信念网络(Deep Belief Network,DBN),解决了深度网络的训练难题,并在2012年,率领团队使用卷积神经网络(Convolutional Neural Network,CNN)取得了图像识别领域的巨大突破,深度学习时代由此悄然到来。
在当下海量数据和强大算力的支持下,诸如BERT、ChatGPT、SORA等大模型展示出了出色的理解力、通用性和可拓展性,并引发了人工智能的新一轮高潮。而在大模型所取得的瞩目成就的背后,由Vaswani等在2017年设计的基于自注意力机制的Transformer模型起到了关键支撑作用,也成了当前最为强大和重要的信息机器之一。
本书在此前发表的自动化学报论文(《视觉Transformer研究的关键问题: 现状及展望》)的基础上,进一步系统介绍了Transformer模型的技术原理和应用进展,涵盖自然语言处理、计算机视觉、多模态学习等不同任务,以及自动驾驶和AI智能体等不同应用。各章节内容安排如下。
第1章详细阐述了Transformer的基本原理,介绍了自注意力层、前馈层、位置编码、层归一化和残差连接等关键组件,并通过与传统卷积神经网络和循环神经网络的对比,分析了Transformer的特点和优势。
第2章聚焦语言Transformer,系统介绍自然语言处理中的关键任务和基于Transformer的各类模型,如BERT、GPT、XLNet、BART和T?5等,并讨论了基于Transformer的语言模型的预训练策略及其迁移学习方法。
第3章探讨了视觉Transformer的基本结构和研究进展,重点介绍其在图像分类、目标检测和图像分割中的应用。详细分析了视觉Transformer的基本框架及其在不同任务中的具体实现,如ViT、DETR、YOLOS和SegFormer等,表明了Transformer能够拓展至计算机视觉领域并取得领先性能。
第4章围绕多模态Transformer,介绍视觉、语言和点云等多种类型数据的编码与融合方法,介绍了如CLIP、DALL?E 2等典型多模态模型的结构与预训练方法,展示Transformer在多模态数据统一建模和深度信息交互方面的独特优势。
第5章介绍了Transformer在自动驾驶中的应用,针对感知、预测、规划等多个任务,给出了Transformer在各任务模块中的典型方法,如BEVFormer、AgentFormer和PlanT等,展示了Transformer在不同任务中的应用潜力,并以端到端自动驾驶任务为例,介绍了基于Transformer所构建的更具拓展性和通用性的自动驾驶架构。
第6章梳理了基于Transformer的AI智能体的一般性结构,通过LangChain、HuggingGPT和CHATDEV等典型多智能体系统研发平台,展示了Transformer在应用程序构建、工具组合、软件开发、机器人训练、以及社会模拟等复杂任务中的应用案例。
希望本书能够为读者理解和掌握Transformer的原理,进而拥抱大模型时代提供帮助。同时,由于时间和精力有限,本书在撰写过程中难免存在疏漏和不足之处,诚挚邀请广大读者和同行专家提出宝贵意见和建议。
编者
2025年10月













评论
还没有评论。