一种专利自动推荐方法的算法设计

作者:唐国利 黄奕 李春波 更新时间:2013-09-23 21:46 点击:
【论文发表关健词】专利推荐 关联度 推荐算法
【职称论文摘要】
针对中学生创新活动的不断开展以及科技研发人员从事创新活动而需要频繁检索专利的需求,要为自己的发明和设计申请专利,要从已经有的发明和创造中吸取有益的营养,我们都需要对现有专利进行查询,然而目前专利检索智能程度不高,本文提出一种专利智能推荐算法。算法的输入是用户输入的检索内容,输出结果中不仅包括检索系统输出的专利还包括一批推荐的专利。本算法首先实现专利间的关联,进而计算专利关联度,并根据关联度对推荐专利进行排序,构成一个有序的推荐专利集合。本设计要解决的技术问题是要在已有专利检索平台的基础上根据专利检索者提供

      中图分类号:G064 文献标识码:A
  在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站(www.sipo.gov.com)、中国知识产权网(www.cnipr.com)、中国专利网(www.cnpatent. Com等七大检索平台以及中国期刊网(www.cnki.net)。这七大专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号等。
  目前主流的推荐算法主要包含以下几大类:基于内容的推荐,协同过滤的推荐,基于知识的推荐和组合推荐。仲伟炜通过跟踪和记录用户的访问操作行为,分析专利查询者经常一起查阅的专利文献,利用关联规则来分析专利文献的相关性,以实现专利文献的个性化推荐。该算法本质上属于协同过滤推荐,需要跟踪大量用户的专利检索行为,所推荐专利是一群专利用户的共同兴趣。而对于科技研发人员来说,经常需要检索与本身研究目的相关的专利。通过专利检索,了解当前研究现状,同时拓展研究思路。在这种情况下以上文献提出算法将变得不再适应。
  在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站(www.sipo.gov.com)、中国知识产权网(www.cnipr.com)、中国专利网(www.cnpatent. Com)、中国专利信息网(www.patent.com.cn)等七个检索平台。这七个专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号、发明人、申请人、公开日等。根据以上检索网络平台这些字段特点,本文提出的算法向用户推荐专利标题以及摘要中不包含检索词,但其在内容上又和检索词存在一定语义关联的专利。本文提出的算法将依据类容上的关联度推荐,在已有专利检索平台的基础上根据专利检索者提供的检索内容,实现对与专利检索平台返回结果相关的其他专利的自动推荐。
  一、专利自动推荐方法相关概念及设计思想
  (一)目标专利特征向量生成。
  首先根据用户输入的检索式通过某个专利检索平台获得一个专利集合,称为C,提取C中各篇专利的专利名、专利分类号、专利摘要等信息,然后采用下面的方法提取C中专利的目标专利特征向量:
  1、提取C中全部专利的专利分类号所覆盖的专利分类号的最长的公共部分,设此字符串为Si,此类字符串的数量为m,并根据Si将C中专利进行分组,也就是有C=Ci;
  2、根据C中专利的分组,分别提取各组Ci(1≤i≤m)中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量TFi(1≤i≤m),将这K个词语构成的集合分别定义为词表Vi(1≤i≤m)。
  (二)推荐专利集生成。
  1、根据专利分类的等级结构——部、大类、小类、大组和小组, 确定每个最长的公共部分Si(1≤i≤m)所覆盖的专利分类等级;
  2、对各个专利分组Ci中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成各组专利对应的检索词集合Wi(1≤i≤m);
  3、利用检索词集合Wi(1≤i≤m)中的各个词,通过专利在线检索平台在专利分类号=Si+’*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m)。从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
  4、在1中,其特征在于:第一个关键步骤中,提取C中全部专利的专利分类号所覆盖的专利分类号的最长的公共部分,以实现对C中专利的分组。第二个关键步骤中,利用检索词集合Wi(1≤i≤m)中的各个词,通过专利在线检索平台在专利分类号=Si+’*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m),从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
  二、具体实施算法描述(如图1)
  (一)专利数据获取。
  根据用户输入的检索式通过某个专利在线检索平台检索得到专利集合C,并获取C中专利的专利名、专利分类号、专利摘要等信息。专利数据获取流程如图2所示。在此图中,选取的专利在线检索平台可为前面提及的七大专利检索平台中的任何一个。
  (二)目标专利特征向量生成。
  目标专利特征向量的计算方法如图3所示,主要步骤如下:
  1、取C中各专利的专利分类号最长的公共部分,设此字符串为Si,设此类字符串的数量为m,并根据Si将C中专利进行分组,也就是有C=Ci;
  2、根据C中专利的分组,分别提取各组中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量。构成TFi,这K个词语构成的集合分别定义为词表Vi。比如可取K=10。

    (三)推荐专利集生成。
  推荐专利集生成如图4所示,主要步骤如下:
  1、根据专利分类的等级结构——部、大类、小类、大组和小组, 确定每个最长的公共部分Si(1≤i≤m)所覆盖的专利分类等级;
  2、对各个专利分组Ci(1≤i≤m)中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成各组专利对应的检索词集合Wi(1≤i≤m);
  3、利用检索词集合Wi中的各个词通过专利在线检索引擎平台在专利分类号=Si+’*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m)。从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
  (四)推荐专利排序
  推荐专利排序的方法如图5所示。
  用于描述推荐专利的内容特征的K维向量被称为专利特征向量。专利特征向量的构造方法是:在推荐专利集合Ci(1≤i≤m)中提取第j篇专利的摘要;对其进行中文分词,过滤掉量词和副词等词语,留下名词和动词两类词语;然后统计各个词语的词频,根据词表Vi中词语的顺序,定义一个K维向量。若词表Vi中的某词不在分词结果中,则填入0,否则填入该词的词频。用F表示专利集合Ci(1≤i≤m)中第j篇专利的专利特征向量,则该推荐专利与目标专利特征向量之间的关联度计算如式(1)所示: (责任编辑:论文发表网)转贴于八度论文发表网: http://www.8dulw.com(论文网__代写代发论文_论文发表_毕业论文_免费论文范文网_论文格式_广东论文网_广州论文网)

发表评论
本站模板均经测试成功,请放心下载,遇到任何问题或者需要购买付费论文请联系本站。
表情:
验证码:点击我更换图片