首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度阅读识别的电子文档阅读方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州励普科技有限公司

摘要:本发明公开了一种基于深度阅读识别的电子文档阅读方法和系统,属于数据处理技术领域,方法包括:获取电子文档的文本特征;根据各个文本特征,计算电子文档在阅读时的注视影响系数;获取读者阅读电子文档时的各个注视点的注视信息;构建样本数据集;根据当前注视点的特征向量,计算与各个聚类中心点的距离;根据电子文档的注视影响系数,计算当前注视点与各个聚类中心点的分类距离;将当前注视点划分到分类距离较小的聚类中,得出深阅读片段和浅阅读片段;展示用户的深阅读时长;当读者关闭电子文档时,将深阅读片段中的最后一个注视点所在的阅读位置作为记忆位置并存储;当读者重新打开电子文档时,自动跳转到记忆位置。

主权项:1.一种基于深度阅读识别的电子文档阅读方法,其特征在于,包括:S101:获取电子文档的文本特征,所述文本特征包括:文本难度、文字拥挤程度、文字属性和低频文字比例;S102:根据各个所述文本特征,计算所述电子文档在阅读时的注视影响系数ρ;S103:获取读者阅读所述电子文档时的各个注视点的注视信息,所述注视信息包括:注视点持续时间、眼跳距离、眼跳纵向距离、眼跳方向和瞳孔直径;S104:构建样本数据集,所述样本数据集包括各个注视点的特征向量x,x={x1,x2,x3,x4,x5},x1表示注视点持续时间,x2表示眼跳距离,x3表示眼跳纵向距离,x4表示眼跳方向,x5表示瞳孔直径;S105:随机生成深阅读聚类中心点c1和浅阅读聚类中心点c2;S106:根据当前注视点的特征向量,计算与各个聚类中心点的距离dij: 其中,dij表示第i个注视点到第j个聚类中心点的距离,j=1或2,xik表示第i个注视点的第k个特征值,cjk表示第j个聚类中心的第k个特征值,k=1,2,…,5;S107:根据所述电子文档的注视影响系数ρ,计算所述当前注视点与各个聚类中心点的分类距离 其中,表示第i个注视点到深阅读聚类中心点c1的分类距离,表示第i个注视点到浅阅读聚类中心点c2的分类距离;S108:将所述当前注视点划分到所述分类距离较小的聚类中,并更新所述深阅读聚类中心点c1和所述浅阅读聚类中心点c2;S109:继续选取下一个注视点,重复S106和S108,直至完成所有注视点的聚类,得出深阅读片段和浅阅读片段;S110:展示用户的深阅读时长;S111:当读者关闭所述电子文档时,将所述深阅读片段中的最后一个注视点所在的阅读位置作为记忆位置并存储;S112:当读者重新打开所述电子文档时,自动跳转到所述记忆位置;其中,所述S101具体包括:S1011:通过计算所述电子文档中的句子长度的平均值确定所述文本难度;S1012:通过计算所述电子文档中的文字间隔和行间距确定所述文字拥挤程度;S1013:通过分析所述电子文档中的文字的字体、字号、颜色确定所述文字属性;S1014:通过计算所述电子文档中的低频词汇占总词汇的比例确定所述低频文字比例;其中,所述S102具体包括:S1021:对所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例进行归一化处理;S1022:根据所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例对于深度阅读的影响程度,设置所述文本难度、所述文字拥挤程度、所述文字属性和所述低频文字比例的权重;S1023:根据以下公式计算所述电子文档在阅读时的注视影响系数ρ: 其中,μi表示第i个文本特征的权重,ai表示第i个文本特征;其中,S113:根据所述深阅读片段中第一个注视点所在的阅读位置,分析所述读者的阅读模式,所述阅读模式包括正文导向型、问题导向型、辅助导向型;S114:当所述读者打开新的电子文档时,根据所述读者的阅读模式,自动跳转到相应的区域;其中,所述S114具体包括:S1141:在所述读者的阅读模式为正文导向型的情况下,自动跳转到正文区域;S1142:在所述读者的阅读模式为问题导向型的情况下,自动跳转到问题区域;S1143:在所述读者的阅读模式为辅助导向型的情况下,自动跳转到目录区域。

全文数据:

权利要求:

百度查询: 杭州励普科技有限公司 一种基于深度阅读识别的电子文档阅读方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。