描述
开 本: 32开纸 张: 胶版纸包 装: 精装是否套装: 否国际标准书号ISBN: 9787559626912
“文学没有标准答案,数据可以帮我们寻找答案。
伟大作家有什么样的创作偏好?
统计学视角下的经典作品有何规律?
用大数据分析文学,探究黄金写作法则。
1.从大数据的独特视角分析文学的写作指导书、文学评论集;
2.作者文笔流畅,讲述风趣,同时有大数据作为理论支撑,图文并茂,干货满满。
3.分析伟大作家的经典、畅销作品,对这些作家的读者来说是一次特别的阅读体验,对想成为作家的读者来说更是一部得以窥见大家写作法则的作品。
4.装帧精美,极具文学风味,护封的热熔工艺极具质感。
“
“将文学大数据视为文学标准,探究出隐藏在世界上伟大作家作品里的有趣之处。作者收集了数千本书籍的数据库,和数百万个单词,并提出一些重要的问题来启发爱书人和怀有好奇心的人:我们*喜欢的作家*喜欢用的是什么词?男性与女性的写作会有不同吗?畅销书会变不畅销吗?当代哪位作家喜欢用“陈词滥调”?*棒的开篇*个句子有何特征?如何从封面判断一本书?哪些写作建议值得遵守,哪些可以一笑置之?
作者运用现有的统计技巧,加上自己设计的适用方法,所有调查与实验都原创亲自执行,读者不需特殊数学知识也可以轻松理解得出的结果。作者将发现以清晰幽默的语言、充满说服力的视觉呈现,提供了一个认识经典作家作品——不论是其中隐含的模式结构,或者令人难以忘怀的词藻——的全新观点,对写作者而言也能有所启发。
“
“序言:汉密尔顿(Alexander Hamilton),麦迪逊(James Madison),还是杰伊(John Jay)?
章 简洁“地”用词
第二章 男女作家
第三章 搜寻指纹
第四章 向榜样学习
第五章 罪疚的快感
第六章 英国与美国
第七章 陈词滥调,重复以及偏好
第八章 如何通过封面判断一本书
第九章 开头与结尾
结语
致谢
注释 “
“序言:汉密尔顿(Alexander Hamilton),麦迪逊(James Madison),还是杰伊(John Jay)?
《联邦党人文集》 为美国走向民主打下基础,其中有十二篇文章的作者未明,历史学家们为此争论了一百五十多年。尽管这些文章在美国史的语汇中是世人皆知的标志性作品,但每一篇的作者究竟是谁却一直是团疑云。哪一位开国元勋撰写了这些篇章?这个问题激起了无尽的争论,后来甚至成了历史学家聚会时客厅里一个广为流行的猜谜游戏。美国的治国框架建立在这些振奋人心的论述之上,可到底是谁写下了这些文章呢?
答案隐藏在文章的词语中,但要找到这些词语,学者们无须精读文本,只要细细地数一下数。他们所要看的只是数字。
疑云始于1787年末,当时纽约的报纸刊登了一系列鼓吹新宪法的文章,用的笔名是普布利乌斯(Publius,源自古罗马执政官Publius Valerius Publicola)。用一个具有爱国含义的笔名来隐藏自己的身份似乎有点可笑。实际上,在当时美国近四百万居民中,只有三个人才有资格进入这场关于作者身份争议的角逐。
汉密尔顿,麦迪逊和杰伊撰写了这些文章——这在当时是一个公开的秘密,但三个人都不想站出来承认写过哪些特定文章。他们都有自己的政治抱负,后来分别升任财政部长、总统和法院首席大法官,所以他们有充足的理由隐藏自己的作者身份。但他们过分的谨慎留下了难以攻破的疑云,在之后的时日中,同时撩动着历史教授和热心的业余爱好者的神经。
你也许会以为,当时的学者和精明政客应能确定作者是谁。毕竟只有三个潜在的候选人,每人都有自己的政治倾向,交流表述的风格也各不相同。如果放在今天,这个问题可能相当于《纽约时报》刊登了一篇匿名社论,执笔者可能是奥巴马、希拉里或桑德斯,也可能是小布什、麦凯恩或特朗普,我们或许可以分辨出作者来自哪个阵营(前三人是民主党,后三人是共和党),但肯定无法准确落实到某个人身上。
时间来到1804年,答案似乎终于浮现。汉密尔顿给他的朋友本森(Egbert Benson)写了一封信,信中列出每一篇文章的作者。当时汉密尔顿正准备与美国副总统伯尔(Aaron Burr)决斗 ,突然意识到了《联邦党人文集》的重要历史意义,也明白自己可能无法从决斗中生还。终,他决定不让这些答案随他一同逝去。
疑云本应就此告终,全国上下关注此事的人没有理由怀疑汉密尔顿的手信息。但十三年后,麦迪逊在结束他的第二个总统任期后不久列出了他的著作清单,与汉密尔顿当年所说有出入。其中,汉密尔顿认领的十二篇,麦迪逊声称是他的作品。
此事点燃了群众的新一波热情,历史学家们为此又争吵了一个多世纪。1892年,洛奇(Henry Cabot Lodge,后担任参议员)为此问题著文,赞同汉密尔顿的说法,而著名历史学家伯恩(E. G. Bourne)则认为那十二篇文章的作者是麦迪逊。
大多数历史学家试图根据每篇文章的政治理念进行梳理,确定作者——麦迪逊真的会用那些措辞主张设立中央银行?汉密尔顿会如此直接地支持针对国会的限制?也许这一篇是杰伊写的?
直到两个世纪以后的1963年,问题才终得以解决。两位受人尊敬的教授——哈佛大学的莫斯特勒(Frederick Mosteller)和芝加哥大学的华莱士(David Wallace)——给出了明确的答案。然而,与之前试图解决这个问题的许多教授不同,两人并非历史学家,不以早期美国学术研究工作闻名,甚至从未发表过一篇关于历史人物的论文。莫斯特勒和华莱士都是统计学家。
莫斯特勒为人瞩目的一篇论文是关于“美国职业棒球大联盟总冠军赛”的,他在论文中提出:从统计学的角度来看,七场比赛是否能够决出好的棒球队。在着手研究十二篇文章著作权的前几年,华莱士也发表过一篇论文,题目是《T分布和卡方分布的正态近似界限》。听上去很难以置信吧?有人想用概率方程解决历史难题,1963年的历史学教授大概会认为这是一派胡言。
莫斯特勒和华莱士所用的方法与政治或意识形态无关,他们只是首批利用词频和概率展开研究的统计学家。
他们解决问题的过程在某些方面较为复杂,比如采用了含有阶乘的方程、指数、求和、对数以及T分布,但核心方法却是惊人的简单:
• 根据确定是汉密尔顿或麦迪逊所写的文章,分别统计某些常用词出现的频率。
• 在需要进行研究的文章里统计相同词汇出现的频率。
• 通过比较上述两个频率,确定争议文章的作者。
事后回头看,即便不使用那些玄妙的概率方程,两位统计学家的研究结果似乎也是显而易见的。《联邦党人文集》里麦迪逊的文章中,超过一半文章使用了“whilst”这个词,但从未用过“while”。相反,汉密尔顿大约三分之一的文章中使用了“while”,但从未用过“whilst”。
莫斯特勒和华莱士并不是只依靠一个词的分析,从统计学上来讲那样做是不充分的。他们选择了几十个基本单词,然后在有争议的文章中观察每个词的使用频率。许多词没有任何政治含义,两位不同作者的使用率竟然出现明显的不同。比如,麦迪逊用“also”这个词的频率是汉密尔顿的两倍,而汉密尔顿使用“according”的频率则比麦迪逊高很多。
莫斯特勒和华莱士采用的方法具有可证伪性 。研究结果表明,如果在已知作者身份的文章中使用相同的方法,他们可以准确无误地识别作者。而对于那些有争议的文章,他们得出结论:麦迪逊是十二篇文章的实际作者 。
在总结研究结果时,也许担心惹恼一代又一代苦恼不已的历史学家,两位数学家的立论和措辞十分谨慎,但展示的数字却毫不含糊,两人对自己的统计方法有十足的信心。所有已知作者身份的文章的测试分析都毫无瑕疵,作者未明的文章也与其一致。由此得出终结论,汉密尔顿所言为虚,那十二篇文章的作者并不是他。
经过无数统计和非统计的研究后,莫斯特勒和华莱士的分析结果(麦迪逊是作者)已经成为目前统计学家和历史学家们的共识。他们超前于所处的时代,他们的研究虽然涉及一些复杂公式,但本质上还是依靠的统计统计。如果是今天,通过计算机统计单词和频率是件简单的小事,但在1963年,情形却并非如此。
当时统计单词是靠手工完成的。比如,要找出每一篇文章中“upon”出现的次数,他们得一页页、一个个地找出来。为了感受和理解莫斯特勒和华莱士(至少是他们的研究助理)都经历了什么,我打印了一本完整的《联邦党人文集》,开始数“upon”这个词出现的次数。三十分钟后,我只进展到全文的八分之一,在大约四十页里有三十七个upon。没过多久,我的眼皮狂跳,脑子发木——Upon在哪里?这种痛苦就像在漫漫人海中寻找某张人脸。
活在1963年实在有些辛苦,后我放弃了,转而采用二十一世纪的技术进行计数:我打开谷歌,搜索“联邦党人文集完整文本”,点进个搜索结果进行下载,再用Microsoft Word打开文件。两分钟后,我选定部分内容,再使用菜单里“查找”命令,随后发现“Upon”出现了四十六次。借助电脑后,不仅在速度上快了二十八分钟,而且结果远比疲惫的肉眼来得准确。
再找一个词汇结果也还是一样,一个人浏览一遍《联邦党人文集》全文的时间在四小时左右,电脑所需时间几乎可以忽略。不管是莎士比亚文集、《圣经》、《白鲸》,还是英语文学集,对当时的莫斯特勒和华莱士来说,进行类似的分析是无法想象的难题。现在情况就完全不一样了,在电脑上统计某个单词在大部头文本里出现的次数,绝大多数十来岁的青少年皆可轻松完成。
莫斯特勒和华莱士公布研究结果的五十年后,电脑的文本辅助功能发展迅速。谷歌在其搜索结果中运用文本分析,以此决定对哪些用户投放哪些广告。目前还有研究人员试图用文本分析进行判断,是什么原因让一条Twitter像病毒一样传播。媒体也经常对同类型的内容进行措辞上的细微调整,以期实现页面浏览量的化。但是到目前为止,这些科技公司对文本分析的应用还比较单一,它还有更大的可能性。
莫斯特勒和华莱士使用的统计方法虽然比较简单,但实验获得的成功却产生了深远的影响。作家们确实有各自的风格,而且是可以进行预测的。事实证明,留下个人风格印记的不仅仅是十八世纪的政客,所有书籍的作者——无论广受欢迎远近闻名,还是晦涩难懂饱受批评——都在数十年的写作中不断重复自己的遣词造句,这便是他们留下的印记。
莫斯泰勒和华莱士提出的问题和作出的解答虽有一定局限性,但文本分析确实可以回答各种各样的问题,那些让一代代作家和读者感到疑惑的问题:相比其他作家,海明威真的更少使用副词吗?书籍的阅读难易程度对其受欢迎程度有什么样的影响?男性和女性作家的写作方式有何不同?作家提出的创作建议有用吗?他们自己会遵循那些建议吗?除了一些明显不同的拼法问题,还有什么原则可以用来区分美国小说家和英国小说家?从纳博科夫到E.L.詹姆斯(E. L. James) ,我们喜欢的作家喜欢用的词是什么?
虽然学术界已经开始研究成功作家的写作模式,但仍有许多问题有待探索。对普通读者、主修文学的大学生以及野心勃勃的作家来说,这些问题既有趣又有用。你可能不关心泊松分布 ,也不在乎解读语言的程序,但你也许想知道自己喜爱的作家是如何写作的,以及这对你来说可能意味着什么。
用数据分析来研究写作不仅妙趣横生,还能提供丰富的信息,有时也会非常搞笑。此外,我们也能借此了解平时阅读的作家,思考我们自己写作时使用的词句,这一切正是本书要深入探讨的。在这本书里,每一章都专注于一个文学新问题的研究。
这些研究并不会达到令人痛苦的复杂地步。实际上,只要具有真正价值,研究无须也不应那般复杂。关于经典文学或现代畅销书的许多有趣问题是可以通过统计的透视镜来观察的,但针对这些问题的统计分析尚未形成体系。本书将用一种崭新的方法来攻克这些简单而独特的问题。这是一本关于“文字”的书,但却是用“数字”写成的。
“
“极具启发性和趣味性的阅读体验……是一部基于数据的文学评论。
——《科克斯书评》
太有趣了!本·布拉特这本书充满魅力,利用数学技巧解答文学风格的问题,梳理了诸如悬念、副词、美国人比英国人“写作嗓门”更大等观点。(没错!我们就是嗓门大!)
——《数学教你不犯错》作者乔丹·埃伦贝格
与其说是文学史研究,不如说是统计学著作。这本书只用了点儿纸和笔,便揭开了困扰世人几个世纪的《联邦党人文集》谜案。本·布拉特以专注的调查精神、令人意想不到的揭示能力和洞察力探索了文学的标准,*终出版了这样一本书:有节奏感的、发人深省的、有趣的文学侦探故事。
——《生存算法》(Algorithms to Live by)合著者布莱恩·克里斯蒂安
本·布拉特这本可爱的书给了我们一个研究伟大作家作品的新颖视角——大数据。它的幽默、洞见和对数据的应用十分迷人,甚至能够鼓励我们开始自己的写作生涯。
——哈佛大学统计学系荣誉教授卡尔·N. 莫里斯
“
“简洁“地”用词
在有关文学的传说中,好的故事之一只有区区六个单词:Forsale:babyshoes,neverworn(出售:婴儿鞋,未穿过)。这是“少即是多”的范例,人们经常将其归功于海明威。
这几个单词是否真为海明威所写已无从考证,但有一点可以确定——这个故事写于1991年。作家和读者都愿意相信它是海明威这位诺贝尔奖获得者写的。这也正常,因为海明威一直以文辞简洁而闻名,起码这部短的短篇小说与他的风格很像。
简洁风格是海明威有意的选择。他曾在给编辑的一封信中写道:
“葛底斯堡演说①如此之短,实非偶然。写作的法则和飞行、数学、物理学一样,是有章可循的。”海明威坚信,作品应尽可能精简,只留核心的部分,多余的文辞只会损害作品。
持此信念的并非只有海明威一人。高中课堂上、各种各样的写作指南里都能接触到同样的观点。任何一个人(只要他的英语老师要求严格)都知道副词是违反简洁原则的罪魁祸首。
听多了相关专家和爱好者的说法,我们产生了这样的印象——海明威是简洁的典范。但究竟是为什么呢?因为别人的作品免不了冗余,只有海明威能抵制这种惯性?还是海明威当真极其简洁?我们不如做个调查,在副词的使用频率上,海明威和其他作家比起来能排多少名呢?
真实的海明威是否真的与那些广为流传的说法一致呢?我想搞清楚这个问题。如果不一致,副词谁用得少?谁用得多?此外,终我们是否会发现,伟大的作品确实符合那些高效的“写作法则”?好的作品中,副词真的都用得比较少吗?我做了些简单的调查,发现没有人搜寻和确认过这些问题的相关数字。于是我从海明威着手,分析了他的十部长篇小说,近一百万字,找到了一些答案。既然海明威相信“写作的法则和飞行、数学、物理学一样,是有章可循的”,我想他也会觉得用数学来分析他的文学是一件既怪异,又有启发性的事情。
当年初高中和大学的英语课上,我们都花过不少时间分解和剖析海明威小说中的动人片段。如果你想研究伟大作家的某部作品,从令人难忘的段落开始往往是好的选择。虽然这种文学研究方式看起来有些奇怪。不过,如果你想知道海明威这样的作家如何创作小说,一个列出副词使用频率的表格应该无法提供太多有用信息。
男女作家
假设有两条Facebook状态,一条是女生发的,另一条是男生发的。如果能正确猜出性别,你将赢得五美元,但你只能通过每条状态中的几个词来判断。在下面的例子中,你能赢这五美元吗?
组:shit(屎,胡说八道,经常是表示恼怒和厌恶等含义的语气词)
league(运动联盟)
shave(刮脸)
第二组:shopping(购物)
boyfriend(男朋友)
<3
能猜中吧?再接着看下面两组词:
第三组:actually(实际上)
everything(每一件事)
their(他们的,她们的)
第四组:above(以上)
something(某事)
the(定冠词)
第三四组提供的线索似乎比二组少得多。但如果我告诉你,我有办法能相当准确地猜出第三四组的性别,你信吗?
一代代研究人员一直在分析男女写作的区别,却难以找到坚实的证据来表现这种区别。但近年来,计算机科学家有条件梳理大量社交媒体数据,精确找出男女间的细微区别。这不只是学术研究,也不仅仅是五美元奖金,其事关目标市场的广告投放,所涉金额高达几十亿美元。一些研究结果已是老生常谈,比如谈“购物”的女性居多,聊“体育联盟”的则多是男性。但有些结果让人疑惑,例如上面第三四组中那些平淡无奇的词语,在不同性别中的使用情况确实不同,研究人员已经能够利用它们来进行准确得惊人的预测。
我想用同样的方法来分析文学,而不是Twitter和Facebook。在踏入文学世界之前,我们先来探究一下,如何在上述Facebook的例子中区分男女。
前两组中的词,shit,league,shave,shopping,boyfriend,<3,都来自宾夕法尼亚大学研究人员发表的论文。他们爬梳了数百万条Facebook状态,挑选出能显示性别的一些词。可能你已经猜到,前面三个词是为“男性”的词,后面三个则为“女性”。
当然,这并不是说所有男性在发Facebook状态时都会爆粗口用到shit,或所有女性都在谈论shopping。实际上,shopping这个词男女都不常用。所谓“能显示性别”,是指某些词,男性用得比女性多得多,或女性用得比男性多得多,呈现的是两性间使用这些词的区别。shopping属于“能显示性别”的词之一,从某种意义上是在说明一个事实:男性不像女性那样喜欢谈论购物。这种区分性别的方法实际上是在寻找男女发言时为明显的区别。上面所说的以及下图所显示的,都是能体现男女差别和性别模式的一些词。
下图包含了Facebook状态中能显示男女性别的词,以及从其他社交媒体中得到的类似分析结果。
英国与美国
一个关于“巫师”“家伙”和“短裤”的故事
对许多年轻的美国读者来说,哈利·波特把他们带进了一个新世界。我说的不只是霍格沃茨的魔法世界,还包括英式英语的美妙世界。美国的孩子们每读到一个Muggle(麻瓜,没有魔法能力的普通人)这样的虚构词,都能学到一个类似bloke(家伙)这样的英式英语词;每读到一句wingardiumleviosa(音译:羽加迪姆勒维奥萨,使东西飞起来)这样的魔法咒语,都能学到一个类似blimey(啊呀)的英式感叹词。书里到处都是角色们在学校交谊厅的壁炉边snog(亲热拥吻,英式英语词)的描写。吸引美国读者的并不光是魔法,还有生动多彩的英国语言。
分析数据后我们看到,和英国读者相比,美国读者将英式英语与对《哈利·波特》的记忆纠缠在一起,甚至对作品人物的看法也不一样。
我们来看一下英式英语中三个B打头的词:bloke(家伙),blimey(啊呀),brilliant(杰出的)。说这些都是英国词可能过于轻率,但很多人确实是这么认为的。bloke和blimey都在《美式英式英语区别词典》(AtoZed,AtoZee)中出现过,这本书实际上是英式英语和美式英语的相互翻译词典。在《被通用语言一分为二》(DividedbyaCommonLanguage)这本书中,我们看到了brilliant这个词——“不要在美国说这个词”,因为它“在美国意思可能大不一样”。
针对这几个词,可以提出不同意见,比如blimey是英国大多数人不会说的伦敦东区土话;bloke也用于其他英语国家,例如澳大利亚;“Brilliant!”作为感叹词“太好了!”的意思在其他国家并不常见,其本身有一个通用的含义。
但这些词至少不是典型的美式英语。如果你听到有人这样描述另一个人:“Poorbloke.Brilliantmind.”(可怜的家伙,他很聪明)你会猜说话的是个英国人,而非美国人。实际上,这句话是《哈利·波特》部中,海格描述奇洛教授的原话。
如果查看具体数据,英国作家真的更喜欢用这些词吗?大西洋同一侧的所有作者都有共同的用词风格吗?不看数据,我们很难判断有多少短语和单词是美国或英国作品所特有的,又有哪些其实是夸大的刻板印象。
就统计而言,检验数据后我们发现,人们对这几个B打头词的刻板印象没有错。查一下英国国家语料库(1980—1993)和当代美国英语语料库(COCA,CorpusofContemporaryAmericanEnglish,1990—2015)你就能看到差异。两个语料库都收集了数以亿计的词语,是英美两国实际运用语言的基准。在这些样本中,英国使用bloke的次数是美国的27倍,blimey为30倍,brilliant为45倍。
但我想更进一步探索这些差异是如何给读者留下深刻印象的。先看bloke,虽然英国用得更多,但它并不是英国日常语言的重要组成部分。在英国的语料库里,每10万词中block平均只出现1.2次,在美国语料库中更少,只有0.045次,因为如此之少,人们听到或读到时也许会格外注意。在《哈利·波特》的七本书里,罗琳在这个词的使用上比普通英国人更为频繁,每10万词中将近3次,也因此给美国读者留下了深刻印象。
为了感受其引人注意的效果有多显著,我决定比较一下英美两国作者试图模仿罗琳时,使用bloke的情况。我从FanFiction.net上下载了所有将背景设定在“霍格沃茨”的6万字以上的《哈利·波特》同人小说,这差不多是长篇小说的篇幅。其中有144位作者将自己的所在地标为英国,555位为美国。
这些都不是一般写手或一般的《哈利·波特》迷。他们至少写了6万个字,相较《哈利·波特》册,这个分量只少了20%,书中的人物和背景都与罗琳的作品相同。换句话说,他们是“铁粉”中的“铁粉”。
你的反应可能是这样的:如果美国人不会在日常会话中使用这些词,那么美国的同人小说作者也不会在其作品中使用这些词。但事实恰恰相反,相比英国的同人小说作者,美国作者更多地使用了bloke这个词。英国作者的同人作品中,每10万词中使用block超过3次的作品只有10%,而美国则有近25%。
其中还有一个美国作者,每10万词中出现的block超过了60次,是罗琳的20倍。所以,尽管bloke在美国更少见,但痴迷于用这个词的美国人比英国人要多。
blimey的情况也一样,用得多的也是美国人。有一个美国同人作者(不是上面那个爱用bloke的人),每10万词中也用了超过60次的blimey。平均来看,美国同人小说中的blimey用得仍比罗琳多,是英国同人小说的2倍。就连brilliant,美国人用得都比英国人多,尽管程度不同。(但如果只看“Brilliant!”,即只把它当感叹词使用,美英差别在1%以内。)
我们也再次看到,使用brilliant多的是一个美国人。
“
评论
还没有评论。