描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302514589丛书名: 普通高校本科计算机专业特色教材精选·图形图像与多媒体技术
本书包括初等数论、抽象代数、椭圆曲线论等方面的内容,该书选材合理、难度适中、层次分明、内容系统。书中以大量例题深入浅出地阐述信息安全数学基础各分支的基本概念、基本理论与基本方法。注重将抽象的理论与算法和实践相结合,并强调理论在信息安全特别是密码学中的具体应用实例。本书语言通俗易懂,容易自学。
本书可作为高等院校信息安全、网络空间安全、计算机科学与技术、密码学、通信工程、信息对抗、电子工程等领域的研究生和本科生相关课程的教科书,也可作为这些领域的教学、科研和工程技术人员的参考书。
通过近170个实例的介绍,使读者不仅能够掌握多媒体项目开发的方法,还能使用Soundbooth CS5、Photoshop CC 2017、Flash CS5、After Effects CS4等软件对声音、图像、动画、视频等多媒体元素进行处理。
本书可作为高等院校计算机类、信息类、电子类等相关专业多媒体技术课程的教材,也可供从事多媒体项目开发的读者参考。
在“多媒体技术”精品课程网站中提供了教学所需的各种材料,实现了纸质教材、电子教材和网络教材的有机结合,可以供读者参考。
第1章多媒体及其开发技术概述1
1.1多媒体技术概述1
1.1.1多媒体技术的基本概念1
1.1.2多媒体技术的发展3
1.1.3多媒体技术的应用6
1.2多媒体开发技术概述9
1.2.1多媒体项目开发方法9
1.2.2多媒体项目开发工具9
本章小结12
习题112
第2章基于Authorware的多媒体项目开发13
2.1Authorware 7.0简介13
2.1.1Authorware概述13
2.1.2Authorware开发多媒体项目的方法15
2.1.3Authorware 开发多媒体项目的过程16
2.2使用快速原型法制作多媒体项目 17
2.2.1运行环境设置17
2.2.2视频播放18
2.2.3背景图片的添加19
2.2.4背景音乐的添加21
2.2.5标题的添加22
2.2.6目录的选择与返回23
2.2.7退出运行27
2.2.8打包与发行28
2.2.9制作可自动播放的多媒体光盘34多媒体技术实用教程(第4版)目录2.2.10网络应用36
2.3多媒体的集成40
2.3.1图像和文本的集成40
2.3.2音频、视频和动画的集成43
2.3.3动画的制作46
2.4多媒体的交互52
2.4.1交互响应方式52
2.4.2分支程序的设计67
2.4.3框架与导航68
本章小结73
习题273
第3章基于Web的多媒体项目开发75
3.1超文本标记语言75
3.1.1HTML概述75
3.1.2HTML文件基本结构76
3.1.3超链接标记76
3.1.4多媒体标记77
3.1.5表单标记81
3.1.6HTML文件的保存81
3.2使用Dreamweaver CC 2017开发多媒体网页82
3.2.1在Dreamweaver CC 2017中新建站点82
3.2.2在Dreamweaver CC 2017中新建网页84
3.2.3导入Word文本86
3.2.4超链接的添加87
3.2.5多媒体元素的添加91
3.2.6交互功能的实现94
3.2.7站点管理100
3.3虚拟现实造型语言102
3.3.1VRML概述103
3.3.2VRML发展历程103
3.3.3VRML工作原理104
3.3.4VRML文件的编写与浏览104
3.3.5VRML文件结构105
3.3.6使用VRML语言实现静态三维页面的制作106
3.3.7三维页面中加入多媒体元素112
3.3.8三维页面中交互功能的实现119
3.4使用可视化工具开发三维多媒体网页127
3.4.1使用Cosmo Worlds设计VRML文件127
3.4.2使用3ds max导出VRML文件128
3.4.3VRML文件优化129
3.5HTML5130
3.5.1HTML5视频与音频130
3.5.2canvas136
3.5.3表单154
本章小结156
习题3156
第4章基于微信小程序的移动多媒体项目开发157
4.1微信小程序的基本概念157
4.1.1微信小程序的功能158
4.1.2微信小程序的发展历程159
4.1.3微信小程序开发准备159
4.2微信小程序开发工具的使用161
4.2.1创建项目162
4.2.2编辑项目163
4.2.3调试项目166
4.2.4编译169
4.2.5前台和后台169
4.3微信小程序的框架172
4.3.1微信小程序的目录结构172
4.3.2微信小程序如何绑定数据179
4.3.3微信小程序视图层的渲染184
4.3.4微信小程序视图层的模板188
4.3.5微信小程序的引用功能189
4.4微信小程序的组件195
4.4.1视图容器组件195
4.4.2基础内容组件200
4.4.3表单组件204
4.5微信小程序的多媒体功能226
4.5.1图片功能226
4.5.2音频功能231
4.5.3视频功能236
本章小结240
习题4240
第5章音频信息及处理技术241
5.1音频基本概念241
5.1.1多媒体中的音频信息241
5.1.2数字音频的产生242
5.1.3数字音频格式244
5.1.4音频卡245
5.1.5语音合成技术简介246
5.1.6语音识别技术简介249
5.2音频处理技术254
5.2.1音频录制254
5.2.2音频格式转换254
5.2.3音频处理255
5.3音频处理软件Soundbooth CS5256
5.3.1音频录制与格式转换256
5.3.2音频编辑处理258
5.3.3音频特效265
5.3.4多轨混音269
本章小结270
习题5271
第6章图像信息及处理技术273
6.1图像基本概念273
6.1.1图像的分类与特点273
6.1.2图像基本属性275
6.1.3图像压缩275
6.1.4图像文件格式277
6.2图像处理技术277
6.2.1图像的获取277
6.2.2图像的处理278
6.3图像处理软件Photoshop CC 2017278
6.3.1Photoshop基础278
6.3.2图层298
6.3.3滤镜305
6.3.4通道310
6.3.5蒙版312
6.3.6路径317
6.3.7全景图像合成318
本章小结321
习题6321
第7章动画及处理技术323
7.1动画基本概念323
7.1.1计算机动画概述323
7.1.2计算机动画分类324
7.2动画制作软件Flash CS5.5324
7.2.1时间轴325
7.2.2形状补间动画326
7.2.3运动补间动画327
7.2.4图层328
7.2.5引导层动画329
7.2.6遮罩层动画331
7.2.7发布作品332
本章小结334
习题7334
第8章视频信息及处理技术335
8.1视频基本概念335
8.1.1视频压缩技术简介335
8.1.2MPEG简介336
8.1.3视频文件格式338
8.2视频处理技术339
8.2.1视频的获取339
8.2.2视频的编辑345
8.2.3视频格式转换345
8.3视频处理软件After Effects CS4346
本章小结354
习题8354
为了适应21世纪人才培养的需要,培养具有特色的计算机人才,急需一批适合各种人才培养特点的计算机专业教材。目前,一些高校在计算机专业教学和教材改革方面已经做了大量工作,许多教师在计算机专业教学和科研方面已经积累了许多宝贵经验。将他们的教研成果转化为教材的形式,向全国其他学校推广,对于深化我国高等学校的教学改革是一件十分有意义的事。
清华大学出版社在经过大量调查研究的基础上,决定编写出版一套“普通高校本科计算机专业特色教材精选”。本套教材是针对当前高等教育改革的新形势,以社会对人才的需求为导向,主要以培养应用型计算机人才为目标,立足课程改革和教材创新,广泛吸纳全国各地的高等院校计算机优秀教师参与编写,从中精选出版确实反映计算机专业教学方向的特色教材,供普通高等院校计算机专业学生使用。
本套教材具有以下特点:
1. 编写目的明确
本套教材是在深入研究各地各学校办学特色的基础上,面向普通高校的计算机专业学生编写的。学生通过本套教材,主要学习计算机科学与技术专业的基本理论和基本知识,接受利用计算机解决实际问题的基本训练,培养研究和开发计算机系统,特别是应用系统的基本能力。2. 理论知识与实践训练相结合
根据计算学科的三个学科形态及其关系,本套教材力求突出学科理论与实践紧密结合的特征,结合实例讲解理论,使理论来源于实践,又进一步指导实践得到自然的体现,使学生通过实践深化对理论的理解,更重要的是使学生学会理论方法的实际运用。
3. 注意培养学生的动手能力
多媒体技术实用教程(第4版)出版说明每种教材都增加了能力训练部分的内容,学生通过学习和练习,能比较熟练地应用计算机知识解决实际问题。既注意培养学生分析问题的能力,也注重培养学生解决问题的能力,以适应新经济时代对人才的需要,满足就业要求。
4. 注重教材的立体化配套
大多数教材都将陆续配套教师用课件、习题及其解答提示、学生上机实验指导等辅助教学资源,有些教材还提供能用于网上下载的文件,以方便教学。
由于各地区各学校的培养目标、教学要求和办学特色均有所不同,所以对特色教学的理解也不尽一致,我们恳切希望大家在使用教材的过程中,及时地给我们提出批评和改进意见,以便我们做好教材的修订改版工作,使其日趋完善。
我们相信经过大家的共同努力,这套教材一定能成为特色鲜明、质量上乘的优秀教材,同时,我们也希望通过本套教材的编写出版,为“高等学校教学质量和教学改革工程”作出贡献。
清华大学出版社前言多媒体技术是一门新兴的计算机应用学科,也是一门飞速发展的学科。根据《2005中国数字媒体技术发展》的定义,数字媒体是数字化的内容作品,以现代网络为主要传播载体。因此,本书第4版在兼顾传统多媒体项目开发技术的同时,加大了网络多媒体技术的篇幅,对各种多媒体开发软件的使用作了详细的讲述。
本书可以分成3部分内容,分别由第1章、第2~4章、第5~8章组成。
第1部分介绍了多媒体技术的基本概念,网络多媒体技术和虚拟现实技术的发展与应用,多媒体项目开发的方法和工具。
第2部分讲述了各种多媒体开发工具的使用,包括使用Authorware 7开发多媒体项目,使用HTML标记语言、Dreamweaver CC 2017、HTML5开发多媒体网页,使用VRML开发三维网页,使用微信小程序开发移动多媒体项目等内容。各个章节内容相对独立,可以根据各个学校的教学安排和学时数,选择其中的部分或全部内容进行教学。
第3部分讲述了声音、图像、动画、视频等多媒体元素的基本概念和处理方法,介绍了Soundbooth CS5、Photoshop CC 2017、Flash CS5、After Effects CS4等软件的基本使用方法。
本教材由上海电力大学贺雪晨、孙锦中编写,根据几十所高校使用第3版教材的反馈情况以及多媒体技术相关软件不断更新的需要,考虑到大部分学校机房还在使用32位操作系统,在第4版中进行了如下修订: 第3章使用Dreamweaver CC 2017替换原版本;第4章用微信小程序替换流媒体内容;第6章使用Photoshop CC 2017替换原版本;同时修改了实验指导书,实验内容在教材主要内容的基础上有所拓展,体现了一定的综合性和设计性。
多媒体技术是一门实践性很强的学科,在教学过程中可以通过“课程设计”或“非笔试”考核提高学生的实际动手能力,作者在这方面作了一些尝试,有兴趣的教师、学生可以通过作者的新浪博客(http://blog.sina.com.cn/heinhe)一起探讨。此外,在上海市精品课程网站(http://jpkc.shiep.edu.cn/?courseid=20085401)“多媒体技术”课程中还提供了教学大纲、电子教案、模拟试卷、习题答案、学生作品、教学视频、素材程序等供各位教师、学生参考。精品课程网站与配套出版的《多媒体技术实用教程实验指导》和《多媒体技术毕业设计指导与案例分析》实现了纸质教材、电子教材和网络教材的有机结合。
本书在编写过程中得到了多媒体技术教研室全体同仁和多所高校相关教师的大力支持,在此表示衷心的感谢。
作者
2018年10月多媒体技术实用教程(第4版)前言
5.1音频基本概念
声音是通过空气传播的一种连续的波,自然界中的声音是由于物体的振动产生的,通过空气传递振动,最后这种机械运动被传递到人的耳膜而被人感知。听觉是人类感知自然的一种重要手段,所以音频也就成为多媒体范畴中一个重要部分。
5.1.1多媒体中的音频信息
声音是多媒体中最敏感的元素,多媒体应用的很多方面都需要用到声音。声音可以是按钮的反馈声、背景音乐、解说词、电影或动画配音、特殊效果等。
1. 声音三要素
在任何时刻,模拟声波信号曲线都可以分解为一系列正弦波的线性叠加,声波信号由基音和泛音组成,其中频率最低的声波称为基频或基音,除此以外的声波都称为泛音,其频率是基音的整数倍。
从听觉角度讲,声音媒体具有3个要素: 音调、音强和音色。
(1) 音调。在物理学中,把声音的高低称为音调。音调与声音的频率有关,声源振动的频率越高,声源的音调就越高。所谓声音的频率是指每秒声音信号变化的次数,用赫兹(Hz)表示。例如,20Hz表示声音信号在每秒周期性地变化20次。通常把音调高的声音称为高音,音调低的声音称为低音。多媒体技术实用教程(第4版)第5章音频信息及处理技术并不是所有频率发出的声音信号都能够被人感觉到,人的听觉范围大约为 20~20 000Hz,这个频率范围内的信号被称为音频或声音,多媒体技术主要研究的是这部分音频信息的使用。
(2) 音强。音强又称为响度,即声音的响亮程度,它取决于声音的振幅,与声音信号的幅度成正比,振幅越大,声音就越响亮。人耳在辨别声音的能力方面,只有在音强适中时最灵敏。由于人的听觉响应与声音信号强度不是线性关系,所以一般用声音信号幅度取对数后再乘以20所得值来描述声强,以分贝(dB)为单位,称为音量。
(3) 音色。音色是指声音的感觉特性,与波形相关,取决于声波的频谱,即由混入基音的泛音所决定。每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音,都是由音色不同造成的。例如,小号的中、高频泛音丰富,音色明亮;低音贝斯的低音泛音丰富,音色就低沉。
2. 声音质量
声音的质量与声音的频率范围有关,即频率范围越宽,声音的质量就越好。表51是几种常见的声音频宽。表51几种常见的声音频宽
声音类型频宽/Hz声音类型频宽/Hz电话语音200~3400调频广播20~15000调幅广播50~7000宽带音响20~20000衡量声音质量的另一种方法是主观打分法,它的具体操作过程与近几年在电视节目中流行歌手大奖赛评分方法类似。
5.1.2数字音频的产生
自然界的声音经过麦克风后,机械运动被转化为电信号,在计算机处理和存储声音之前,必须把这些电信号转换为二进制数,这个转换过程称为模数转换。
模数转换的过程可以分成两个部分: 第一部分是采样,第二部分是量化。经过这个过程处理后的音频电信号就变成了可以被计算机存储和处理的二进制序列。这个过程在计算机中通过声卡完成。
声音数字化有两个步骤: 第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值,如图51所示。
图51模拟信号数字化
1. 采样
在某些特定时刻对这种模拟信号进行测量称为采样(Sampling),采样的过程就是抽取某点的幅度值,很显然,每秒抽取的点越多,获取的频率信息越丰富。目前通用的标准采样频率有8kHz、11.025kHz、22.05kHz、44.1kHz和48kHz。11.025kHz对应于AM音质,22.05kHz对应于FM音质,44.1kHz对应于CD音质,48kHz对应于DVD音质。
2. 量化
采样得到的信号,其幅度还是连续的,把这些幅度值为无穷个的采样数值加以限定,这个过程就称为量化。采样精度指每个声音样本需要用多少位二进制数来表示,它反映出度量声音波形幅度值的精确程度。CD的量化位数是16位,DVD音频的量化位数是24位。
3. 声道数
声道数是指所使用的声音通道的个数,它表明声音记录是产生一个波形(即单音或单声道)还是两个波形(即立体声或双声道)。虽然立体声听起来要比单音丰满优美,但需要两倍于单音的存储空间。
立体声技术在三维音效面前显得无能为力,4声道环绕音频技术规定了4个发音点: 前左、前右、后左、后右,同时还建议增加一个低音音响,以加强对低频信号的回访处理,可以获得身临各种不同环境的听觉感受。
5.1声道已广泛应用于各类传统影院和家庭影院中,在4.1环绕中增加了一个中置单元,负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增加整体效果。
在5.1声道的基础上增加中左和中右两个发音点,形成的7.1系统,可以达到更加完美的境界。
4. 数据量
采样频率和采样精度的值越大,记录的波形更接近原始信号。采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用。存储容量与上述三要素之间的关系可用下列公式表示:
存储容量=采样频率×量化倍数×声道数8
其中,存储容量的单位为字节(Byte,B),采样频率的单位为赫兹(Hz),量化位数的单位为比特(bit,b)。
一般来说,希望音质越高越好,磁盘存储空间越少越好,这本身就是一个矛盾。必须在音质和磁盘存储空间之间取得平衡。在多媒体开发与制作中,声音文件一般推荐质量是22.050kHz、16bit。它的数据量是44.1kHz声音的一半,但音质却很相似。
5.1.3数字音频格式
将采样和量化后的数字化声音信息以二进制形式并按照一定的数据格式进行表示,这个过程称为编码。编码的作用主要有两个,一方面是采用一定的格式来记录数字数据,另一方面是采用一定的算法来压缩数字数据以减少存储空间和提高传输效率。将编码后的数据存储在磁盘上,就形成不同格式的音频文件。
用Windows附件的“录音机”打开某个音频文件,选中“文件”|“另存为”菜单选项,在如图52所示的“另存为”对话框中单击“更改”按钮,可以看到采样频率、量化位数和编码等信息,如图53所示。
图52“另存为”对话框
图53采样频率、量化位数和编码
下面是几种常见的音频文件格式。
1. PCM编码格式
PCM是把模数转换得到的二进制数直接记录下来而形成的文件格式。PCM编码的最大的优点是音质好,最大的缺点是体积大。Audio CD就采用了PCM编码,一张光盘的容量只能容纳72min的音乐信息。
2. WAV格式
WAV是Microsoft公司开发的一种声音文件格式,也叫波形声音文件。由于Windows本身的影响力,这个格式已成为事实上的通用音频格式。基于PCM 编码的WAV被作为一种中介格式,大多数压缩格式的声音都是在它的基础上经过数据的重新编码来实现的,各种压缩格式的声音信号在压缩前和回放时都要使用WAV格式,只不过感觉不到罢了。
3. MP3编码格式
MP3(Moving Picture Experts Group Audio Layer3)是MPEG1的衍生编码方案,可以做到12∶1的惊人压缩比并保持基本可听的音质。MP3之所以能够达到如此高的压缩比例,同时又能保持相当不错的音质,是因为使用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。
4. WMA格式
WMA是Windows Media Audio编码后的文件格式。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到18∶1。WMA支持网络流媒体播放,还支持防复制功能,支持通过Windows Media Rights Manager加入保护,可以限制播放时间、播放次数、播放机器。
5. ASF格式
ASF(Audio Steaming Format)支持音频、视频及其他多媒体类型,而WMA是只包含音频的ASF文件。ASF格式在录制时可以对音质进行调节,同一格式,音质好的可与CD媲美,压缩比较高的可用于网络广播。由于Microsoft公司的大力推广,这种格式在高音质领域直逼MP3,并且压缩速度比MP3提高1倍,在网络广播方面可与Real公司相竞争。
6. RA、RM、RMX格式
RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured)是 Real Media 面向音频方面的,是由Real Networks公司开发的,特点是可以在非常低的带宽下(低达28.8kbps)提供足够好的音质。这3种格式都属于网络流媒体格式,大部分音乐网站都采用了这3种格式。
7. MIDI格式
记录MIDI音乐的文件格式。与波形文件相比,它记录的不是实际声音信号采样、量化后的数值,而是演奏乐器的动作过程及属性,因此数据量很小。
在以下两种情况下,使用MIDI文件比使用WAV文件更合适: 需要播放长时间高质量音乐;需要以音乐作背景音响效果,实现音乐和语音的同时输出。
8. OGG文件格式
OGG(Ogg Vorbis)是一个完全免费、开放和没有专利限制的自由编解码器。在压缩技术上,Ogg Vorbis最主要特点是使用了VBR(可变比特率)和ABR(平均比特率)方式进行编码,与MP3的CBR(固定比特率)相比可以达到更好的音质。
5.1.4音频卡
音频卡(也称为声卡,声效卡)是多媒体计算机中不可缺少的重要部件,它直接决定了多媒体计算机对声音数据的处理能力。现在的音频卡已不仅仅作为发声之用,还兼备声音的采集、编辑、语音识别、网络电话等功能。
音频卡有各种各样的类型,但在相应软件的支持下,一般应具备以下大部分或全部功能。
1. 录制、编辑和回放数字声音文件
音频卡上都预留了麦克风、录放机等外设的插孔,可以将来自这些设备的模拟声音信号经过采集、量化,然后再将得到的数值序列以文件的形式存储到磁盘上。
2. 控制各声源的音量并混合在一起
通常随声卡提供的软件有一个称为Mixer的程序。它显示一个具有多个滑键的控制面板,用来控制调节话筒、激光唱盘和其他音源的输入音量,以及调节MIDI、声音文件和主输出电路的回放音量。
3. 对声波文件进行压缩和解压缩
立体声的数字声音文件,每分钟要占据10MB左右的磁盘空间,因此声音文件的压缩与解压缩是多媒体领域研究的一个重要课题。为加速压缩过程,声音的压缩算法可由硬件完成(固化在声卡上),也可以由软件进行压缩。
4. 语音合成技术
在相应软件的支持下,可以让大部分声卡发声,例如朗读英文文本。由于声音是合成的,听起来不太自然,但可以用来帮助用户检查文章中句法和语法错误,这是一般的拼写功能所无法做到的。
5. 乐器数字接口
乐器数字接口(MIDI)用于外部电子乐器与计算机之间的通信,实现对多台具有MIDI接口的电子乐器的控制和操作。
5.1.5语音合成技术简介
语音合成技术(Text To Speech,TTS)是实现人机语音通信所必需的两项关键技术之一,它的目的是使计算机具有说话能力。
语音合成技术是利用计算机按人们预定的程序和指令,人为地产生出音素、音节、词和句子的技术。它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科,是中文信息处理领域的一项前沿技术,主要处理如何将文字信息转化为语音信息,以实现动态的、及时的语音朗读等功能。目前常用的语音合成技术主要有: 共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术。
语音合成技术通常分为两大部分,一部分是文本分析部分,这部分对输入文本进行词法分析、语法分析甚至语义分析,从文本中抽取音素和韵律等发音信息。另一部分是语音合成部分,这部分根据文本分析部分得到的信息去控制合成单元的谱特征来控制语音音色,并且通过控制韵律特征来控制语音的基频、时长和幅度,最后,这些特征传入声音合成器发出语音,其框图如图54所示。
图54语音合成原理框图
语音合成技术解决的主要问题就是如何将文本状态的文字信息转化为可听的声音信息,使以往只能用眼睛看的文字信息,也可以用耳朵来听。
科大讯飞、NeoSpeech、ScanSoft都处于业界领先的地位,其语音合成的音质和音感都非常出色,合成的语音自然度超过普通人说话的水平。其中,科大讯飞被国内外专家公认为具有世界最高水平的汉语语音合成技术。
【例51】应用科大讯飞文语通实现语音合成。
(1) 运行科大讯飞文语通,程序界面如图55所示。
图55文语通程序界面
(2) 单击“打开”按钮,在“打开”对话框中选中要播放的HTM、HTML、TXT或RTF格式的文件,即可实现朗读功能。
(3) 文语通安装后,已经作为插件嵌入Word和IE软件中,实现在线播放的功能。
(4) 在Word中,单击如图56所示的“朗读全文”或“朗读选定”工具按钮,可以对全文或选定部分朗读。
图56嵌入Word中的插件
(5) 右击浏览的网页,从弹出的快捷菜单中选中“使用文语通朗读选定内容”或“使用文语通朗读链接”选项,如图57所示,即可实现朗读功能。
图57嵌入浏览器中的插件
【例52】应用微软TTSAPP将朗读文本输出为WAV文件。
(1) 运行TTSAPP,程序界面如图58所示。
图58TTSAPP程序界面
(2) 单击Open File按钮选中文本文件,或直接在图中的文本框内输入文字。根据要输出的声音文件的质量选中Format中的采样频率、量化位数和声道数;在Voice中选中下载的高质量音库。单击Save to .wav按钮,将文本合成为音频文件,如图59所示。
图59合成WAV音频文件
5.1.6语音识别技术简介
语音识别技术是实现人机语音通信所必需的另一项关键技术,它的目的是使计算机具有听懂人说话的能力。
语言是人与人之间进行交流的一种最简单、最直接、最方便的工具,人们迫切地希望计算机能够对语言进行识别。虽然每个语种的发音都具有各自的特征,但进行语音识别的基本原理是类似的,如图510所示。
图510语音识别的基本原理
语音识别分为训练和识别两个阶段: 训练阶段是在机器中建立被识别语音的样板或模型库,或者对已存在机器中的样板或模型做特定发音人的适用性修整;在识别阶段,将被识别的语音特征参量提取出来进行模式匹配,相似度最大者即为被识别语音。在大词汇、连续语音识别和口语理解的情况下,使用语言模型对提高识别速度和正确率会起到很大作用。
针对中文同音字多、有声调、词界不明、新词不断出现的特点,IBM在20世纪90年代之后率先推出的ViaVoice 给我国的中文连续语音识别技术的推广注入了催化剂,也标志着大词汇量、非特定人和连续语音识别技术趋于成熟,它使计算机向人性化迈出了重要的一步,是中文信息处理技术发展的一个重要里程碑。
ViaVoice 中文语音识别系统是在Windows上使用的中文普通话语音识别听写系统及相应的开发工具。由于采用连续语音识别技术,汉字输入速度快且识别率高,无须指定说话人,无须专门训练,可采取自由句式输入,每分钟可输入150个汉字,平均识别率超过90%,自带词组32 000个,用户可添加词组28 000个。可以说,ViaVoice中文版代表了当前汉语语音识别的最高水平。另外,ViaVoice语音识别系统本身是智能化的,在不断使用的过程中,识别率也会不断地提高。
除了Via Voice外,较好的语音识别软件还有微软的语音识别系统 Speech SDK、Dragon 的Naturally Speaking等,Google在2010年利用语音识别技术为YouTube视频自动生成字幕。
【例53】应用微软语音识别系统 Speech SDK实现语音输入。
(1) 运行控制面板中的“区域和语言选项”,在如图511所示的“区域和语言选项”对话框中单击“详细信息”按钮,出现“文字服务和输入语言”对话框,如图512所示。
图511“区域和语言选项”对话框
图512“文字服务和输入语言”对话框
评论
还没有评论。