买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:暨南大学
摘要:本发明公开了一种中文文献综述自动生成的方法,具体涉及文献综述领域,具体包括以下步骤:S1、数据预处理;S2、特征提取;S3、句子重要性评分及主题信息提取;S4、句子选择;S5、句子排序。本发明提出的解决方案适用于中文并支持中英文混杂的综述生成,可结合不同的语料库词典进行不同学科专业的综述生成,而且能根据不同的学科专业的习惯和需要自动生成文献综述,按照学科不同要求提供更合理和灵活的陈述安排。
主权项:1.一种中文文献综述自动生成的方法,其特征在于:具体包括以下步骤:S1、数据预处理;对文本进行分句分词,构建各个学科的专业词典,同时,利用专业词典提取与学科相关的特征,以对句子重要性做出更合理的评估;S2、特征提取;分析学术文献的文本特点,以句子为单元提取特征,提取的特征包括句子语义特征、非语义特征以及学科相关的特征;S3、句子重要性评分及主题信息提取;具体包括:S3.1、以候选句子与标准综述的句子相似度作为句子重要性的度量,将计算得到的句子相似度和提取到的句子特征输入到回归模型;S3.2、利用训练好的回归模型预测句子的重要性;S3.3、将候选句子输入到LDA主题模型,用训练好的LDA模型计算句子的主题分布;S4、句子选择;在综合考虑句子的重要性和句子的主题信息的基础上,设计句子选择的最优化策略,然后进行句子选择;所述步骤S4中,选择最佳句子的步骤如下:在句子选择过程中综合考虑句子的重要评分和句子主题分布,将句子选择转化为一个最优化问题,通过对目标函数进行最优化求解得到最优的句子集合;目标函数的第一部分公式如下: 其中n表示候选句子的数量,m表示主题数,表示候选句子的长度,表示候选句子的重要性评分,表示句子i与主题j的相关度,表示句子i是否被选中且最终分配的主题为j;目标函数的第二部分公式如下: 其中B表示候选句子中包含的bigram集合,bi表示集合B中的bigram,表示bi出现的次数,yi表示bi是否包含在的已生成的综述;添加作为bigram的权重以求包含更重要的bigram;结合以上两部分,得到目标函数公式如下: xij,yi∈{0,1}其中,公式一保证生成的综述文本长度不会超过预先设定的值,Lmax表示生成综述的文本长度;公式二确保在生成文本时,每个句子只能属于一个主题;公式三保证如果句子si被选择,那么其所有的bigram也应该被选择,Bi表示候选句子i中的bigram集合;公式四保证如果被bk被选择,那么包含该bigram的所有句子也应该被选择,表示包含bk的句子集;将句子的最优化选择问题转化成一个线性规划问题,然后对这个线性规划问题进行求解得到句子选择的最优结果;S5、句子排序;根据排序策略对句子进行排序,生成国内外文献综述。
全文数据:
权利要求:
百度查询: 暨南大学 一种中文文献综述自动生成的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。