基于专家知识的评审专家推荐算法研究

作者:冷昕阳 更新时间:2017-03-27 11:50 点击:
【论文发表关健词】推荐系统;主题提取;评审专家推荐
【职称论文摘要】
科研论文是科学研究的重要表现方式,是引领技术发表的指南针。对论文发表流程的把控是保证论文质量的关键。在论文的发表过程中,为其寻找特定的评审专家又是论文发表中关键的一环。因此,为了保证论文的质量,应为投稿论文选择合适的评审专家。本研究首先收集候选专家已发表的科技论文作为分析专家知识的基础,然后,分析投稿论文的研究内容,提取投稿论文的研究主题,最后,把专家推荐的问題建模成一个信息检索的问题,采用向量空间模型(Vector Space Model, VSM)来计算投稿论文的研究内容与专家知识的相关性,并以此为依

       1.引言
信息过载是各行各业所面临的一个严重问题,如电子商务网站,需要针对每位用户的需要,在海量的商品信息中,判断出用户更倾向于要购买的商品;如公司的招聘人员,需要在大量的求职者中,识别有能力的求职者给予进行面试机会;如期刊的编辑需要面对庞大的评审专家库,识别出合适的评审专家来对投稿论文进行审稿。推荐系统的出现在一定程度缓解了过量的信息给人们所带来的压力,在一定程度上提高了工作的效率,并迅速扩展到其它领域。然而,目前关于推荐系统大多都应用到电子商务、社交网络以及数字图书馆等领域,而较少对评审专家推荐的研究,即根据投稿论文的研究特征来推荐合适的评审专家。
在学术环境下,同样也暴露出信息过载等问题,许多的科研成果需要依靠论文的形式来让其他同一领域的科研人员也了解到,这时期刊编辑部对于论文的评选应该更加细致认真,以防止投稿论文审稿工作分配不当导致出现偏差。然而若单纯的靠人工的遴选便会有许多弊端。比如:在选择上会带有不可避免的主观性以及对于专家信息的更新不够及时等因素,这些都会导致有些真正有价值的论文没有及时发表从而导致学术领域的发展减缓。而且在海量的信息面前仅依靠人去识别区分显然工作效率很低也浪费时间。在这种情况下专家推荐系统应运而生,评审专家推荐系统使这份工作变得十分简单。
评审专家推荐系统能够针对投稿论文遴选出合适的审稿专家,该系统首先提取专家知识并分析投稿论文的研究内容,理解编辑需求,并为编辑推荐合适的评审专家。随着投稿论文的数量持续增长以及专家知识的扩散性,充分准确的理解专家知识对于编辑来说是十分困难,因此,能够自动分析专家知识,为投稿论文遴选出合适的审稿专家的系统显得尤为必要。
本研究首先收集候选专家已发表的科技论文作为分析专家知识的基础,然后,分析投稿论文的研究内容,提取投稿论文的研究主题,最后,把专家推荐的问题建模成一个信息检索的问题,采用向量空间模型(Vector Space Model, VSM)来计算投稿论文的研究内容与专家知识的一个相关性和匹配度,并以此为依据为投稿论文推荐出特定的审稿专家。
2.相关研究
专家推荐系统的构建,主要包括专家的选择以及专家特长的识别,从而基于专家的特长属性与查询条目的匹配相关性进行推荐。目前,就专家特长角度而言,主要来源于两个方面,一种是专家个人提供关于自身特长和经验的准确和综合的文档描述;另一种则是通过文章、Email交流以及学术论坛挖掘专家的特长信息;由于第一种方法主观性较高,所以大多数学者都是从第二种角度出发对于专家特长识别进行研究。
基于主题信息的专家推荐主要是借助于关键词、作者的学科标签等信息为稿件遴选相关的专家。例如,刘一星[1]等学者把评审专家推荐的问题视为一个分类问题,该研究首先把投稿论文对应到相应类别中,再从该类别中寻找相关的专家对投稿论文进行评审。余峰[2]等学者首先把利用文本相似度的计算方法,首先把专家知识和投稿论文的研究内容向量的形式表示出来,然后,再利用相似度公式计算投稿论文与专家知识的相关性。巩军[3]等学者引入知识图的方法来为投稿论文推荐相关的评审专家,该研究首先把投稿论文的研究内容和专家知识映射到反映知识相似性的知识地图中去,然后,计算投稿论文和候选专家在在知识地图的相关性距离为投稿论文遴选合适的专家。Gollapalli[4]等人通过ADT(Author- Document- Topic)以及主题模型建模工具,建立作者、文档以及主题之间的权重关系图,进而通过计算图和路径计算任何一对节点的相似度,进而发现在不一定具有合作作者关系的情况下,达到基于内容的专家发现,从而用以进行专家推荐。
3.研究方法
3.1 研究思路
本研究主要包括三大步骤:数据准备、数据预处理、计算专家与论文的匹配度以及专家推荐。
(1)数据准备:该部分主要收集两部分的数据:一个是专家库,其中包括专家的个人信息(隐私信息除外)比如名字、年龄、主要的成就等等,并遴选出专家被引量较高的几篇论文作为其代表作。另一方面就是投稿论文的数据库的建立,本研究从万方数据库中随机遴选出几篇论文作为投稿论文。
(2)数据预处理:从“万方数据库”中爬取专家发表的论文后,遴选出高被引的论文作为其知识的表示。另外,从“万方数据库”中随机遴选出投稿论文作为评审专家推荐算法的输入数据。本研究首先通过停用词表将常用词筛选出去,停用词表是人为的建立的常用语集合的一个文档,将常用词,没有实际意义,没有实际指代的词生成一个集合,形成一个停用词表。筛选出去之后会得到专家论文的词表以及投稿论文的词表,然后用TF- IDF算法分别计算每个词针对于专家知识和投稿论文研究内容的权重。
(3)计算专家与论文的匹配度以及专家推荐:利用空间向量模型计算投稿论文与专家适应的余弦相似性,并降序排列计算出的结果,排在最前面的专家就说明这些专家与投稿论文匹配度高,最后只需将论文送至这些专家然审阅。
3.2数据获取与数据预处理
数据获取主要是从“万方数据库”中获取专家姓名、专家的主题标签、专家发表的论文等数据。依据论文被引数来评价论文质量,遴选出专家被引量较高的几篇论文作为其代表作,将其作为提取专家知识、分析专家研究方向的基础。另一方面就是投稿论文的数据库的建立,本研究从万方数据库中随机遴选出几篇论文作为投稿论文,作为评审专家算法的输入。

        数据获取后,需要对专家发表的论文以及专家主题关系词等信息进行分词操作。为了使计算机更好的理解语句的含义,我们应该把一句话变为一个个独立的词。我们知道,在英文的书写习惯中,空格是分隔词与词的主要标志。然而,在中文的行文习惯中,没有明顯的标志区分不同的词。因此,本研究需要首先对专家发表论文以及专家兴趣描述等数据进行分词处理。在这里,我们使用IK Analyzer作为分词工作,IK Analyzer是一个基于Java语言开源的中文分词工具。 

  3.3特征选择
这里介绍一个TF- IDF(Term Frequency–Inverse Document Frequency)算法,该算法是一种常用关键词遴选工具,TF- IDF算法的思想如果一个词在一篇文章中出现的频率越高,则说明该词对于该篇文章越重要;如果这个词在其它文章中出现的次数很少,则认为此词或短语具有越高的区分能力。在本研究中,我们借助IF- IDF计算每个词的权重。 (责任编辑:论文发表网)转贴于八度论文发表网: http://www.8dulw.com(论文网__代写代发论文_论文发表_毕业论文_免费论文范文网_论文格式_广东论文网_广州论文网)

发表评论
本站模板均经测试成功,请放心下载,遇到任何问题或者需要购买付费论文请联系本站。
表情:
验证码:点击我更换图片