描述
开 本: 32开纸 张: 胶版纸包 装: 精装是否套装: 否国际标准书号ISBN: 9787302655428
本书全面而系统地介绍互联网内容风控业务,是互联网内容风控领域,尤其是政策制定、监管、运营、审核及相应产品技术岗位工作的读物。
本书将数字内容风控落脚在信息化流程设计中,互联网企业可依据本书指导形成数字内容风控的智能化产品设计框架。
本书首次利用博弈论作为基础理论指导互联网内容风控业务,形成有效的内容风险管理机制。
本书将数字内容风控能力作为企业波特五力之外的第六种竞争力,将数字内容风控提升到企业管理的高度进行分析。
随着数字经济的发展,数字内容成为人们生活中不可或缺的存在。本书着眼于识别
和管理互联网上的有害风险内容,基于互联网技术和算法理论,融合了以策略互动为研
究对象的博弈分析,深入浅出地介绍了数字内容生态治理的背景、目标、路径及衡量手
段。本书尝试探讨以下问题:①互联网平台面临哪些复杂的内容生态环境?这些有害内
容对社会和平台的危害分别是什么?社会与互联网平台为此做了哪些努力?②内容风控
机制是如何构建的?在其中如何贯彻“自由而负责”的互联网平台理念?③各利益主体
之间的策略互动如何影响风控机制的建立?怎样找到落地的现实路径?④不同发展阶段
的内容风控机制是如何逐步建立和演化的?内容风控中台建立的必要性是什么?智能风
控策略与分发策略如何结合才能产生更大的效用?
本书可作为互联网公司内容风控(含商业与非商业)部门审核、运营、产品、法务
和研发人员的读物,也可作为政府监管部门(如中华人民共和国国家互联网信息办
公室、国家市场监督管理总局等)工作人员、内容创作者、商业广告从业人员以及对互
联网感兴趣的研究者的参考用书。
第1章
概述
1.1 平台与政府 003
1.1.1 原则 004
1.1.2 协调 008
1.1.3 界限 013
1.2 内容之祸 018
1.2.1 库存之险 019
1.2.2 平台之尬 023
1.2.3 预期之外 025
1.2.4 广告之非 027
1.2.5 生产之源 031
1.3 内容之治 035
1.3.1 中共中央政策指导文件 036
1.3.2 网络信息内容生态治理规定 038
1.3.3 信息网络传播权保护条例 039
1.3.4 民法典 041
1.3.5 广告法及互联网广告管理暂行办法 042
第2章
风险知识体系 044
2.1 风险知识 046
2.1.1 社会知识与风险治理事件 048
2.1.2 治理知识与风险治理方案 051
01
02
数字内容风控
与智能机制设计
XVI
2.1.3 状态知识与风险治理效果 055
2.2 风险知识的多面性 066
2.2.1 从风险集合到风险准则 068
2.2.2 商业广告的风险准则 074
2.2.3 人工审核的一致性 078
2.2.4 风险标签 081
2.3 主体的风险准则 085
2.3.1 一般的主体准则 085
2.3.2 复杂关系的主体准则 090
2.4 风险知识的透明度 094
第3章
机器识别 100
3.1 机器识别概述 103
3.1.1 关于机器识别的思考 104
3.1.2 系统架构 107
3.1.3 产品架构 110
3.2 风险词表 115
3.2.1 中文分词 115
3.2.2 匹配效率 120
3.2.3 附加规则 124
3.2.4 变体词 131
3.3 机器学习 140
3.3.1 回归分析 141
03
XVII
目录
3.3.2 聚类分析 147
3.3.3 深度学习 151
3.3.4 色情图像识别 155
3.3.5 风险词表转模型 158
3.3.6 构建或迭代效率 162
3.3.7 误杀处理 167
3.4 事件管理 169
3.4.1 事件管理方案 171
3.4.2 事件管理方案的好处 174
3.4.3 风险治理事件库的架构 175
第4章
人工审核 180
4.1 审核员及培训系统 182
4.1.1 审核员画像 182
4.1.2 审核员培训系统 185
4.2 人工审核系统 189
4.2.1 审核业务目标的多元性 190
4.2.2 人工审核系统的产品架构 191
4.2.3 人机交互设计 195
4.3 任务分配 198
4.3.1 M/M/n任务模型 199
4.3.2 Little定律 205
4.3.3 派单策略 210
04
4.4 智能排班 215
4.4.1 送审量预估 215
4.4.2 仿真实验 219
4.5 人机协同 223
4.5.1 相似命中审核 224
4.5.2 机器识别提示 225
第5章
事后风控 228
5.1 事后风险识别 230
5.2 风险矩阵法 234
5.2.1 风险事件发生的概率 235
5.2.2 风险事件产生的后果 239
5.2.3 风险矩阵R值色块图 240
5.3 风险处理的产品设计框架 241
5.3.1 工单系统 241
5.3.2 引入工单系统的风险处理 244
第6章
风控中台 248
6.1 独立团与大中台 251
05
06
6.1.1 核心业务流程 252
6.1.2 中台化的产品形态 254
6.2 管控与赋能 259
6.3 内容风控策略与内容分发策略 262
第7章
风险暴露率 267
7.1 抽审比例 269
7.1.1 简单示例 270
7.1.2 一般化表述 272
7.1.3 审核风险暴露率 275
7.2 误杀率和误过率 280
7.2.1 考虑到误杀与误过的一般博弈形式 281
7.2.2 考虑到误杀与误过的风险暴露率 283
7.3 本章部分结论的数学证明 286
7.3.1 结论7-9的证明 286
7.3.2 结论7-10的证明 287
第8章
博弈论基础简介 289
8.1 占优策略 291
07
08
8.1.1 新闻PUSH 291
8.1.2 囚徒困境 294
8.2 纳什均衡 296
8.3 协调博弈 298
8.3.1 聚点定律 298
8.3.2 猎鹿博弈 299
8.4 混合策略 301
8.4.1 监督博弈 301
8.4.2 鹰鸽博弈 304
附录A
与数字内容有关的重要法规一览 306
附录B
术语索引 310
参考文献 314
1996年2月8日,49岁的美国诗人巴洛写了一篇激情澎湃的
雄文《网络空间独立宣言》。在这篇当时的网红文中,巴洛写道:
“(互联网将开创)一个新世界,任何人在任何地方都可以表达信仰,
无论这种信仰多么奇葩,而表达者无须担心被胁迫而沉默或服从。”
这是数字时代早期网络极客心中的乌托邦。
配合这个乌托邦理想,同年美国的《通信规范法》
(Communication Decency Act)出台。其中的第230条规定“任
何交互式计算机服务的提供商或者用户不应被视为另一信息内容
提供商提供的任何信息的发布者和发言人。”(原文:No provider
or user of an interactive computer service shall be treated as
the publisher or speaker of any information provided by another
information content provider.)把这句拗口的法律条款翻译得通俗
一点:互联网平台无须为用户发布的内容承担责任。
这就是著名的“230条款”。230条款是巴洛独立宣言的另一
种表达方式,成为此后20多年美国以至全球互联网飞速发展的保
护伞。
直到今天,互联网毋庸置疑是有史以来最伟大的发明之一。它
无比深刻地改造了全球几十亿居民的社会、经济和政治生活。但是,
数字内容风控
与智能机制设计
VI
自由主义意志的表达远远超出以巴洛独立宣言为代表的乌托邦的理
想场景。我们在互联网上享受信息便利的同时,也在遭受着网上极
端仇恨、亵渎信仰、宣扬暴力、庸俗不堪,以及虚假欺骗等恶性内
容生态的强暴。
人性中的这些“恶”借助互联网的能量放大了它们的破坏力。
一旦恶性事故发生,就会通过互联网平台迅速传遍全球。此时,互
联网平台往往处在舆论的风暴中心,被指责助纣为虐和处置不力。
全球Top的互联网巨头(如谷歌、推特、腾讯及抖音等)对此都有
深刻的体会。每一次网络舆情风暴,都会动摇人们对高科技温暖与
善良的信仰,都会动摇230条款的合理性。推特治国的美国总统特
朗普甚至在推特上愤怒地写道:REVOKE 230!
最近几年,对互联网平台的这种情绪反应是全球性的,中国也
不例外。2018年以来,互联网平台的内容生态治理——从联合国
到欧盟,从美国到中国——几乎成为全球的一致行动。互联网巨头
们开始意识到,技术不可能中立,超大平台必须承担起“守门人”
的社会责任。
这一进程是循序渐进的,是被一个个舆情事件、诉讼案例以及
大大小小的社会冲突推进着的,至今这个进程还未完成。互联网巨
头并非比其他社会角色更缺乏道德,而是它们也面对着人类发展史
上前所未有的信息技术的超高速成长期和由此带来的越来越复杂的
社会生态。相反,这些巨头们为了缓和与社会的矛盾,明确提出各
VII
前言
自的社会责任目标。谷歌2004年就立下“即使放弃一些短期收益,
也要为世界谋福利”的志向。Facebook的创始人马克·扎克伯格
(Mark Zuckerberg)希望“发展社会基础设施,让人们有能力建
设一个适合所有人的全球社区”。推特承诺采取措施,“促进而非破
坏自由的全球性对话”。俄罗斯社交媒体公司VKontakte“将世界
各地的人们相互连接”,而腾讯“为构建和谐社会出一份力,成为
良好企业公民”的目标体现了中国人的美好愿望。
很明显,超大型互联网平台存在两个社会角色。
一个是资本支持下的“逐利企业”,目标是收入或市场份额的
增长。为了这个目标,内容生态就退居其次了,成为平台实现利益
的可调节参数。如果确实能带来可观的流量和收入,那么在内容上
进行试探,打出法律的和道德的擦边球必然是平台最优的选择。
超大型平台的另一个角色是责任驱使下的“社会企业”,我们
暂先不论这个责任是来自平台的道德感,还是社会的压力使然,这
个角色的目标是使平台的内容生态符合社会的、法律的和道德的规
范,有时甚至会迁就民众的非理性诉求(如在反日情绪高涨期间,
下架来自日本品牌的产品等)。
这两个角色使得互联网平台的产品兼具了私人物品(类似手机
这样的商品)和公共产品(类似城市道路这样的物品和服务)的特
点,以往针对市场或政府的各种法律规范都显得不够用或不适用。
市场需要获利和自由,而政府需要为整个社会负责。借用哈钦
斯委员会1的说法,社会对超大型互联网公司的期望是“一个自由
而负责”的平台,而不是成为依赖业已形成的垄断地位疯狂赚钱的
巨无霸。
自由而负责,这个表述对互联网公司目前的发展阶段而言特别
应景。当互联网公司凭借科技创新、商业组织和集体努力的力量自
由长大后,“负责”就成为公司必需的属性和能力。只有这样,互
联网公司才能突破人口红利消失、创新能力干涸以及社群固化停滞
增长的瓶颈,从社会认同与信任中获得更多的自由和成长的空间。
用户规模越大,公共产品的属性越强,越需要互联网公司将“负责”
内化为一种增长动力,而不是视为一种不得不做的成本投入。
这不是传统意义上PR或GR所能解决的。PR或GR是在不
改变公司既有战略、产品和运营决策机制的前提下,通过关系维护、
正面传播、公益活动等行为刷社会面的好感。传统意义上的PR或
GR是让公司与社会相互理解,减少公司在既有发展路径上的社会
约束。自由而负责的战略能力却是让公司与社会取得相互信任,在
公司承担一定社会责任的同时构建公司新的增长动力。
1 又称新闻自由委员会(The Commission on Freedom of the Press),是1943年由美国出版家
亨利·卢斯提议并资助,为调查分析美国报刊自由状况和前景而成立的非官方、临时性新
闻研究机构。新闻自由委员会由芝加哥大学校长罗伯特·梅纳德·哈钦斯担任主席,故又称
哈钦斯委员会,共13名成员。经过三年的调查,1947年3月,哈钦斯委员会发表了《一个
自由而负责任的新闻界》的总报告。
互联网公司在这条道路上存在绝佳的机会。减少或避免有害内
容传播,为用户构建清朗的网络空间,会促进平台与政府、用户之间
的相互信任,化解政府对互联网平台垄断的过分忌惮,以及民众对互
联网商业化的非理性反感。在这一演进过程中,互联网公司将社会民
众和政府视角考虑的因素揉合进管理决策中,包括技术的、产品的、
运营的及销售的等公司运转的各个环节。互联网公司的目标是成为一
个社会良好的企业公民,打开自己自然垄断之外的发展空间。
这种企业能力,我总结为互联网平台与社会的互动能力,这是
超越波特五力之外的第六种企业竞争力(见图I)。
图I表示了六种企业竞争力的不同层次,从下往上分别是:
(1)成本层。企业在供应商以及购买者的议价能力上胜出,表
明企业拥有成本上的优势,这时企业将赚取财务上的收益。
(2)创新层。这里的创新既包括技术创新,也包括市场、运营
和管理等层面的创新。只有不断创新,才能构建企业壁垒,让潜在
进入者和替代门槛增高。这时企业将赚取垄断利润。
(3)规则层。具备前面两层的能力,可以保障企业资源有效转
化为企业的内驱增长动力,促进企业自身的发展。但是,只有打败
了行业内的竞争对手,企业的核心能力才能输出,显性或隐性地成
为行业标准。这时企业将通过制定游戏规则使自己始终处于最有利
的位置。
图Ⅰ 第六种企业竞争力——与社会的互动能力
(4)信任层。当企业越来越大时,尤其是像互联网平台影响到
社会的方方面面,来自外行的、非商业组织的、政府的以及民众的
质疑和约束力量会成长。如上所述,企业需要重构自身角色,取得
社会的信任,在推进社会发展的各个力量中间努力成为对社会贡献
不可或缺的一环。
今天,超大型互联网公司已经到了角色重构的重要阶段。互联
网公司未来的战略目标一定是构建“自由而负责”的平台。与此同时,
互联网公司将建立超越垄断意义上的更高阶的坚不可摧的竞争力。
我在互联网公司工作期间深刻感受到,围绕构建“自由和负责”
的平台是一个内涵丰富、意义深远且还在不断探索中的话题。我个
人能力有限,但却很有必要将我的粗浅思考沉淀下来,抛砖引玉,
为我所热爱的互联网事业贡献一份力量。于是,在离开百度后就有
了这本小册子。
图Ⅱ概括了“自由而负责”的平台涉及的主要内容。
图Ⅱ 构建“自由而负责”的平台
图Ⅱ中左右两侧表达的业务互相依赖与牵制。左侧是互联网平
台的基础业务,在自利的经济规律驱使下,平台创造了多层次的、
多媒体的海量内容,也为互联网平台自身带来了可观的财富。但是,
这个“自由”要依赖右侧的“负责”为其规避风险,在平台基础上
增强企业取得社会信任的竞争力。
右侧是我想在本书中和读者讨论的重点内容,它为左侧丰富多
彩的自由业务划定边界,识别越界的内容风险,以及处理这些越界
的内容。在互联网公司内部,左右两侧共同服务于公司新的战略目
标——“自由而负责”的平台。
巴洛的宣言“任何人在任何地方都能表达任何信仰”无法实现,
根本原因在于极客的眼中世界只有极客。他们将左侧的自由发挥到
了极致,而没考虑社会中其他非极客的感受和力量。同样,右侧的“负
责”也不是单纯站在自由的对立面,不是简单地对越界的内容一删
了之。负责的本质是在不同利益群体之间找到最佳的平衡点。这正
是一门学科——博弈论所研究的中心内容。于是,我借用博弈论的
分析方法解读不同利益方之间的行为,在利益的策略互动中找到了
自由主义理想的现实路径。
当然,互联网公司最雄厚的知识基础是信息技术与人工智能,
这是“自由而负责”的平台的能力。在博弈分析的基础上,本
书试图构建一套以“自由而负责”为核心理念的内容风控管理机制,
实现平台内容生态治理的智能化。这也是我写本书的目的。
本书的章节安排如下。
第1章采用经济学和博弈论的方法探讨在内容风险治理上平台
与政府的责任界限。同时,我们还通过实际案例探讨内容风险产生
的多方面原因,以及我国制定的与内容风险治理相关的法规。为对
此补充,我们还在附录A中罗列了对内容风险治理有管辖效力的法
律法规,作为参考资料供读者查询。
第2章提出风险知识体系的概念。内容风险治理通常遵循“知
识—事件—方案—效果”这样的逻辑框架。因此,这一章的内容是
本书最基础的部分。
第3章和第4章分别介绍机器识别和人工审核的工作,这是内
容风险治理的两个基本手段。在机器识别部分,重点介绍在内容风
险治理领域常用的规则、算法及机器学习的基本原理,目的是使读
者破除对机器识别的神秘感,抛砖引玉,启迪读者建设更高效的机
器识别风控能力。在人工审核部分,围绕效率提升的话题展开,讨
论培训系统、审核系统、任务分配、智能排班以及人机协同等理论
分析与实战经验。
第5章介绍事后风险治理的内容。延续前面两章介绍的风险识
别能力,本章重点讨论事后风险的巡查机制。我们将业界成熟的风
险矩阵评估方法和工单系统引入事后风险治理的领域,使得事后风
险的处理能够标准化、自动化和智能化。
第6章探讨风控中台的话题,从风控与业务的耦合、管控与赋
能不同定位,以及内容风控策略与内容分发策略的联系三个角度跟
读者分享对风控中台的观点。
第7章应用博弈均衡分析对互联网公司风控的核心目标——风
险暴露率进行理论探讨,本章引入误杀率、误过率、抽审以及风险
暴露后承担的成本等多种因素,分析这些因素对风险暴露率的影响,
对于合理认识风险暴露率有特别重要的意义。
第8章介绍博弈论基础知识。这些博弈论的内容在很多地方都
能获得,但是我们特意编写了与内容风险治理相关的例子,这样能
更好地帮助读者理解博弈论的知识,以及让那些没有博弈论基础的
读者也能顺利读完本书而有收获。
在我写作本书的过程中,得到很多朋友的鼓励与帮助,在此衷
心表示感谢。原百度公司副总裁王路、原百度商业风控中心和渠道
销售发展部总经理赵坤拨冗为本书写了序,闻宠若惊。
小荷健康医疗合规专家张馨怡以及百度业务监察部专家穆杰伟
对本书亦有贡献。
最后,感谢清华大学出版社的编辑,在本书的出版过程中,
他们的敬业精神、专业能力以及高度的责任感给我留下了深刻的
印象。
作者
2023年5月
评论
还没有评论。