#本文仅代表作者观点,不代表IPRdaily立场,未经作者许可,禁止转载#
“基于专利关联度分析的专利地图有其特定价值,专利分析不是固定的模板,不是固定的标准,通过方法改进结论是一个有趣的过程。”
来源:IPRdaily中文网(iprdaily.cn)
作者:闫文龙
段晓玲 苏州京昀知识产权代理事务所
PART 01
背景
“专利地图”是将多件专利投射到二维空间的形象名称,每件专利在二维空间的绝对坐标可以不具有实际含义,但彼此之间的位置关系应该与专利之间的关系特征存在关联。因此作者认为按照一维方向展开的柱状图、二维方向展开的气泡图、以及具有时间序列属性的趋势图,甚至将地区申请量投射到世界地图的地区热力图不符合上述“专利地图”的定义。
目前为止,专利与二维空间的映射主要基于专利之间的关联度信息创建,专利之间的距离是专利之间关联度的函数。专利在二维空间中形成具有不同密度的区域分布,一个区域内的专利可以具有相同的技术主题,不同区域的专利密度表征技术热度。技术主题可以通过人工概括或利用算法抽取的方式得到。
基于专利关联度的专利地图相对于传统的柱状图实现存在如下挑战:
a.实现更复杂。
b.通常需要对原始数据进行预处理,实现过程中还需根据技术领域进行人工干预。
c.需要熟悉数据挖掘技术和工具。
d.了解专利数据与科技文献、文学作品之间的差异,及其对数据挖掘技术造成的影响。
尽管如此,基于专利关联度的专利地图仍具有其他分析方法所无法比拟的优势:
a.从多维度展现专利之间的关系。
基于柱状图的分析需要对专利进行一维归类,本质相当于将每个专利放入对应的封闭抽屉,一旦放入就再无法体现抽屉之间的关联。
例如柱状图中横坐标轴可以采用技术环节分类展开,如器件类,量测标定,软件算法,驱动电路等,不同的分类之间的关联被完全忽略。而在产品研发过程中,针对同一问题会有多个环节的部门共同参与讨论,确认问题可能的原因有哪些,通常情况下,问题可能是多个环节共同作用的结果,例如需要器件方面、量测标定方面、软件算法方面、驱动电路方面分别做出各自的改进,才能使得问题得到彻底解决。相应输出的专利中,同一个技术问题往往具有不同技术环节的专利方案。这类相关性信息无法通过柱状图体现。
当然二维气泡图可以实现两个维度(如技术环节和技术问题)交叉点上的专利数量统计,但无法进一步展开交叉点气泡内的专利之间的关联度和差异大小,因此其结果仍然是相对粗糙的。
b.作为统计图表和专利全文展示之间的过渡
目前我们所熟知的专利分析框架中,第一部分是专利宏观分析,包含趋势、技术、主体类的分析,分析类型包括时间序列分析(如申请趋势)、类别比较分析(如技术分布柱状图/雷达图/饼状图、专利申请主体和发明人主体柱状图)、地理空间分析(如世界各区域专利申请热力图、同一国家内各区域申请热力图)、层次关系分析(如技术分类鱼骨图/树状图/旭日图)。这部分的特点是“宏观”,如果宏观结论是已知的,又或者宏观结论受外在环境影响而与实际产业发展情况不符,都会影响其实际价值,但这一部分在数据处理和标引所投入的时间和人力成本往往是最大的,为此需要进一步挖掘宏观分析输出数据的利用价值。
第二部分是微观分析,涉及选取至少一个子主题、筛选业界关键/基础专利或使用对象更关注的专利作为数据集,进行第二轮精细阅读和分析。微观分析是聚焦思想、和分阶段项目推进理念的体现,也是有限时间预算内输出可用结论的现实选择。这一部分的输出尽管有技术路线图等图表的辅助,但最终仍然无法省略对专利全文或部分实现细节的展示。实际上,微观分析目前证明切实有用的部分仍然是“展示全文”。
由此可见,宏观分析和微观分析在分析方法、结论、和展现形式方面存在巨大的差别,二者能够被读懂的对象群体完全不同,前者偏向技术管理人员,后者倾向技术实现人员。产品的成功离不开管理和实现的密切配合和相互了解,相应地,专利分析报告中的宏观分析和微观分析应该力求可以让两类人群都感兴趣。专利关联度分析的专利地图可以在宏观分析和微观分析之间架起一座桥梁,让报告使用者更容易理解报告的全部内容。
PART 02
专利关联度模型
本文采用的专利关联度模型分为三类:
1.基于多维分类的专利关联度模型;
2.基于文本的专利关联度模型;
3.将1和2叠加的专利关联度模型。
PART 03
基于多维分类的专利关联度模型
在没有文本挖掘技术基础,或者没有高质量专利文本数据的情况下,基于多维分类的专利关联度模型是一个不错的选择,其与目前的“宏观分析”工作相兼容,几乎无需额外数据加工工作,并且当多维分类标引由人工给出时,基于其进行计算的专利关联度结果准确性也更高。
这里定义基于多维分类的专利关联度Sc如下式
(公式1)
ki为第i个维度近似度占总的专利关联度Sc的权重系数,Si为专利之间在第i个维度上的近似度,由专利之间在第i个维度的分类计算得出 。
以下图示出的分类框架为例,每件专利至少从四个维度进行分类,包括技术领域,技术分类,技术问题和技术环节等。每个维度进一步以树形结构形成相应的分类结构。对每件专利进行分类的策略是:尽量分到树形结构中靠近叶子节点对应的类别,除非专利涵盖多个节点对应的类别,这时可以赋予对应的多个分类,也可以赋予其共同的父节点对应的分类,例如一件专利的技术方案同时适用于快门式眼镜和偏振眼镜式3D产品,则可以将其技术分类赋予父节点对应的分类“眼镜式3D”。
接下来将分类框架中的描述型文字转换为代码类型的标识,以方便后续定量计算。
如下图所示,将四个分类维度对应的代码分别为F,T,P和S。每个维度下的树形分类结构的描述型文字及其对应的代码如每个方框中的第一行和第二行文本所示。例如领域A1对应分类代码F11。分类代码的格式应与其树形分类框架存在对应。如本文中的分类代码通过字符串中从左到右逐位表示各层的分类标识。例如F111对应技术领域的第三层节点,其是第二层节点F11的一个子节点,而节点F11又是第一层节点F1的一个子节点,F11和F12是兄弟节点。
下面确定节点之间的近似度计算方法,即基于分类结果确定两两专利在每个维度上的近似度。
本文中定义同一维度内节点之间近似度为:(节点向上最近的共同父节点所在的层数)/(两个节点所在层数的最大值)。
例如领域A11和领域A2节点之间的近似度可以定义为:2/3。本文将分类代码的每一位含义定义为分类框架树形结构完全对应,因此可以通过字符串逐位比对,计算上述近似度,以简化实现逻辑。
简化后的近似度计算公式为:(两个节点代码之间从左侧第一位字符开始连续匹配的数量)/(两个节点代码长度的最大值)。
示例如下图所示,左侧的专利在四个维度的分类代码分别为F111,T11,P1和S1,右侧的专利在四个维度的分类代码分别为F12,T12,P1和S2。需要说明的是,分类代码中的第一位表示仅用于提示的维度信息,计算近似度时应忽略。由此不断得出,左右两个专利在F代表的维度的近似度=1/3,在T代表的维度的近似度=1/2,在P代表的维度的近似度=1/1,在S代表的维度的近似度=0/1。
通过上述过程确定各个维度的近似度后,可以代入公式1计算两两专利之间总的关联度Sc。
当一件专利在同一个维度赋予多个分类时,两两专利之间在该维度上的近似度计算从两个分类之间的近似度计算,扩展为两个分类集合之间的近似度计算问题。本文采用的方案是将两个专利的分类集合中的元素两两计算近似度,以最大的近似度数值作为两个专利之间的近似度。
PART 04
专利地图-基于专利关联度的可视化
为了便于了解专利关联度在专利可视化中的应用,在介绍其他两类专利关联度模型之前,首先提供基于多维分类的专利关联度进行可视化的示例结果,如下图所示。
实验条件如下:
a.输入:带有多维分类代码结果的专利清单Excel文件,编写VBA函数计算两两专利之间的关联度。
b.工具支撑:本地网页文件嵌入Javascript,导入Excel数据,完成数据预处理;嵌入Echarts组件,以专利数据作为节点,以关联度数据做为节点之间的连接属性,创建力导图进行显示。
c.主题提取:人工完成,预览各个簇内部的专利摘要,确定各个簇的专利主题。
上述实现条件借助Excel+Javascript+Echarts的工具组合可以实现数据量小于300条以内的专利地图绘制,超过300条以上的数据集,建议更换为后文将介绍的R语言进行处理和可视化,否则可能出现渲染不成功的现象。
PART 05
基于专利IPC分类号计算专利近似度的陷阱
采用专利自有的IPC分类号作为上述模型中的分类代码输入,看起来可以省去人工标引的工作量,尤其专利数据量非常庞大的情况,但是需要正视如下问题:
a.专利IPC分类与产业界或报告使用者认同的分类体系有一定差异。
b.专利IPC分类号(即便同级别分类)之间存在涵义重叠问题,不能够完全区分某些技术的多个技术分支。
c.专利IPC分类号整体上属于一个维度的分类,无法映射多个维度的分类信息。
d.专利IPC分类号小组层面的树形结构分类体系依托于分类号中的“."点符号的层级构建,而不是IPC分类号的号码格式,因此无法直接使用本文中提到的字符串匹配方式计算近似度,仍需要根据小组内的树形结构分类构建一套直接对应的分类代码体系,考虑到前三点的问题,这类重建工作所耗费的精力未必有价值。
e.某些专利的IPC分类号不是很准。
因此,作者不推荐直接或间接使用IPC分类号计算专利之间近似度。
PART 06
基于文本的专利关联度模型
基于文本的专利关联度计算是将文本挖掘技术转用到专利分析领域的产物。
文本挖掘是从文本数据中抽取有价值的信息和知识的计算机处理技术,是自然语言处理(NLP)的热门话题。基于文本挖掘例如可以分析文章的情感信息、确认文章之间的相关性、对文章进行分类。计算文章之间的相关性的主要处理流程如下:
S1.对文章分词,统计词频。
S2.去掉停用词,以避免无实际含义的虚词,连词等对后续计算结果造成不利影响。
S3.利用文章的词频数据通过Pearson公式等相关性公式计算进文章之间的相关性。
S4.基于相关性数据进行可视化。
将文章替换为专利的文本数据,即可实现基于文本的专利关联度计算。
由于R语言提供了丰富的文本挖掘工具包和完善的数据可视化工具包,作者建议在R语言环境下完成一站式专利文本导入、专利关联度计算、以及力导图渲染。
下图是实际的一个算例。
基于文本的专利关联度计算强烈依赖专利的文本特征,为此需要了解专利文本与常见的文章类文本之间的不同,以及对关联度计算造成的影响,尤其是为了提升效率,只将专利摘要或权利要求作为专利文本参与计算的情况。
a.专利摘要,权利要求的语言抽象,部分词汇含义需结合说明书上下文或附图方可理解,与自然语言中的通常含义存在差别。
b.专利权利要求中的语言有上下位关系,而基于词频统计的专利近似度计算,无法识别上位词汇和下位词汇之间的关系,这使得上位专利和下位专利之间的关联度计算不准确。
以上两点可以看出需要重写摘要的必要性,一方面实现统一的术语表述,另一方面将下位概念的列举补入重写的摘要中,当然也可以补入技术问题技术效果的描述。
c.文本挖掘技术中通用的停用词集合,对于具体主题的专利分析是不够用的。还需结合专利的检索式,专利的词频统计结果增加一些额外的停用词,例如检索式中的关键词、本主题专利普遍携带的词汇(如“显示”,“设备”“方法”……)。在实际操作中,停用词的增补需要根据具体主题的专利实际情况进行人工干预,类似一种“调试”操作。
PART 07
基于多维分类和文本的专利关联度模型
考虑基于多维分类和文本的两种关联度模型可以优势互补,在实际中可以将二者采用线性加权求和方式计算综合专利关联度信息。
以下是该方法的实际算例。
代码下载
本文算例示例代码已通过Gitee平台开源,访问链接如下:
https://gitee.com/yanwenlongair/patent-analysis-r
PART 08
小结
综上,基于专利关联度分析的专利地图有其特定价值,专利分析不是固定的模板,不是固定的标准,通过方法改进结论是一个有趣的过程。目前的方法显然不是专利分析的终点。
(原标题:专利关联度模型及应用)
来源:IPRdaily中文网(iprdaily.cn)
作者:闫文龙 段晓玲
编辑:IPRdaily辛夷 校对:IPRdaily纵横君
注:原文链接:专利关联度模型及应用(点击标题查看原文)
「关于IPRdaily」
IPRdaily是全球领先的知识产权综合信息服务提供商,致力于连接全球知识产权与科技创新人才。汇聚了来自于中国、美国、欧洲、俄罗斯、以色列、澳大利亚、新加坡、日本、韩国等15个国家和地区的高科技公司及成长型科技企业的管理者及科技研发或知识产权负责人,还有来自政府、律师及代理事务所、研发或服务机构的全球近100万用户(国内70余万+海外近30万),2019年全年全网页面浏览量已经突破过亿次传播。
(英文官网:iprdaily.com 中文官网:iprdaily.cn)
本文来自IPRdaily中文网(iprdaily.cn)并经IPRdaily.cn中文网编辑。转载此文章须经权利人同意,并附上出处与作者信息。文章不代表IPRdaily.cn立场,如若转载,请注明出处:“http://www.iprdaily.cn