描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787523505793
目标专利的权利要求项给无效掉,这不就实现人工智能自动判定专利无效了么?一切似乎
很简单。但照着这个思路来,我们的结果始终不行。
直到后来的一件事改变了我的想法。
那是 2019年 6月 24日,我旁观了在清华大学举办的第三届中国专利检索技能大赛决赛,这是一个国内专利检索领域顶尖高手齐集的盛会,专利无效的检索和判定是竞技重点。赛后我意识到,我把专利无效流程想得过于简单了。
那么一线审查员眼里的专利无效流程究竟是个什么样子呢?
步骤仍然是专利检索和无效判定两步,但操作和想象中完全不同。
先说专利检索,照我原来的想法,就是从一次检索的结果中挑出可能的若干件对比文件就 OK了。事实上,即便对于领域知识和检索经验极其丰富的审查员,一出手就能写出精确匹配到对比文件的检索条件也是件极其困难的事情,但一旦找出第一件有效的对比文件,利用它的信息去查找其他对比文件就会容易很多,换句话说,专利检索用的是一种类似探案的方式在查找对比文件,难点在于找到突破口,但一旦突破口有了,其他对比文件的发现只是顺藤摸瓜的事。
再说无效判定,它的原因很多。例如,某项专利的说明书不支持它的权利要求项,权利要求项中提及的必要技术特征和当前技术现状之间缺乏必要环节,对比文件对目标专利的启发作用显而易见等。外加一方面专利对文字表述要求宽松,如吸尘器可以写成“龙卷风制造装置”、文件扫描仪被描述为“光线扫描装置”;另一方面又对文字表述要求极严,如刀片制作工艺中的“切削”和“冲压”,一词之差,千差万别。用机器学习技术实现专利无效判定,需要超出专利本身的书面描述,通过综合常识和领域知识来发现不同技术之间的联系和区别,而这些早已超出了目前机器学习在专利挖掘上的研究水平。
虽然现实冰冷,但这并不妨碍我们站在人工智能的肩膀上,去做一些力所能及的事情,这也构成了这本书的内容。虽然从形式上说,它是一系列机器学习技术的汇总,但从内容上说,更多是在智能算法和数据视角下,对一些专利挖掘任务的解剖和重新解读。当然,人工智能和专利数据这对组合所昭示的蓝海极其浩瀚,我们的研究范围不能覆盖其万一,而现阶段基本成形、可以写到专著中的内容就更少了。但我也不可能等手头上的研究都有了明确结论再考虑出书的事,那样的话这本书将永远完不成,因为走得越远就越会引出精彩的问题,而之前的研究就会越发显得无足轻重。于是,我决定将一部分内容先整理出来,至于其他内容,可以以版本更新或者另起炉灶的方式补充进来。
但即便是这一部分内容,也充斥着各种失败、复盘、问题诊断和算法迭代更新。毕
竟我们耕耘的是一个横跨知识产权和人工智能两大学科的交叉领域,我们需要一方面和知识产权从业的人们一起感受大数据带来的困扰;另一方面紧随人工智能不断扩大的技术边界,去实时刷新解决这些困扰的可能性。虽然放眼望去硬骨头俯拾皆是,有些甚至在短期内看不到解决的希望,但长远来看及早耕耘是必需的,即便没有坦途,沿着曲径通幽的小路我们依然能做很多事情,并且在不断深化对问题的认识基础上逼近真实答案。
这是最好的时代,每天涌现的智能技术和信息资源都有机会和知识产权服务发生激烈碰撞和融会贯通,并实现之前认为是不可能的任务。实际上,我们团队面临的是海量灵感和人丁单薄之间的矛盾。这并不奇怪,在整个行业要解决的问题面前,一个小小的团队实在微不足道。但换个角度来说,能在喜欢的事情上去投入、去思考、去提出问题和寻找答案、去一睹历经曲折才得以尽收眼底的美景,这本身就是一种极大的乐趣,你经常有机会去重新审视、反思目前的专利挖掘方法、工具和实践经验,条件合适时还可以动手建模和实证分析,从而获得更深刻的理解和启示。但话说回来,这也是一种折磨,如影随形、无法摆脱,毕竟建模型、推公式、“撸”代码、做实验、复盘查错、撰写论文意味着巨大的工作量和结果并不确定的过程,在正向实验结果出现之前,甚至在研究成果正式出版之前,研究者始终处于一种受苦受难的状态:先被科学规律“吊打”,后被审稿人“吊打”。
但最终这本记录我一个阶段工作的书籍得以完成,需要感谢的人很多。首先是我的家人,感谢你们的宽容、理解和支持,我才得以免除家务活的“劳役”,业余时间宅在家里心安理得地“打电脑”;然后是我的良师益友张静副研究员、曹燕研究员、雷孝平研究员、贠强研究员、王弋波副研究员、牟琳高级工程师和魏超博士,也许只有被蜗居、内卷、摇号等关键词缠身,才更能体会跟知识丰富、思维敏捷、豁达开朗且乐于分享的人共事是一件多么幸运的事;感谢北京工业大学的徐硕教授、中国人民大学的杨冠灿副教授和山东理工大学的许海云教授,没有你们,我将在天花板前踯躅相当长一段时间,而学术探索道路也会少了很多乐趣;感谢姚长青副所长、桂婕主任、屈宝强副主任等单位和部门领导的支持和信任,让我得以参与与知识产权相关的重要工作,这些工作极大丰富了知识、开阔了视野;再就是我可爱的研究生们,他们是郭诗琪、何晓敏、苟妍、师英昭、陈利利、刘聪、余池等同学,感谢你们的辛勤工作和刻苦钻研,许多想法才能在较短时间内完成落地验证,更重要的是,在感受你们优秀的同时,也在倒逼着我不断提升自己,告诫自己不要成为学生眼里的“大废物”;除了上述领导、老师、朋友和同学以外,还有许多指导和帮助过我,甚至在某个阶段起到至关重要作用的人,这里一并表示感谢。
最后,这本书是以研促教、教研相长的产物,它可以供从事专利挖掘、机器学习研究的高年级本科生、研究生、教师阅读,也可以作为相关领域研究者的参考书。本书在成书过程中得到了国家自然科学基金(项目编号:71704169)、国家科学技术学术著作出版基金和我所在单位研究生部的资助,尤其感谢研究生部在这本书拟题阶段经费不足时雪中送炭,为我免除了后顾之忧。本书内容涉及领域技术、法律法规、数据科学、机器学习等方方面面的知识,对研究者的能力和素质要求很高,而我水平有限,更兼国内外在这一方向的研究工作虽然百花齐放,但就现阶段而言并未形成占据主导地位的方法技术、研究范式和行业生产力,可供参考的内容繁多杂乱、水平参差不齐。虽然我在本书写作中投入了大量时间精力,但书中仍然难免存在不足和疏漏,我真诚期待各位专家学者和读者朋友们提出宝贵的意见和建议,也希望与更多业界同人形成合力,来发现行业真问题、解决用户真痛点,让人工智能技术深度赋能专利挖掘,创造更为广阔的价值空间。
第1章绪论:专利挖掘研究进展一览 001
第2章信息抽取:从专利文本中抽取结构化信息 032
第3章联合模型:利用专利特点提升语义关系的分类效果 052
第4章主题模型:利用技术分类号辅助专利主题抽取 072
第5章姓名消歧:让计算机高效、精准地辨别发明人 091
第6章语义主路径:让知识演化脉络主题分明 106
第7章对比文件查找:知识产权领域的智慧法律实践 125
第8章前瞻:大语言模型时代的专利挖掘研究 144
附录一各类任务上的专利数据集汇总151
附录二PC-LDA推导过程 156
附录三DP-BFS算法的空间复杂度推导 158
参考文献160
评论
还没有评论。