南京邮电大学盛雪晨获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利基于分布式机器学习的文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115329075B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210945562.8,技术领域涉及:G06F16/353;该发明授权基于分布式机器学习的文本分类方法是由盛雪晨;陈丹伟设计研发完成,并于2022-08-08向国家知识产权局提交的专利申请。
本基于分布式机器学习的文本分类方法在说明书摘要公布了:本发明公开了一种基于分布式机器学习的文本分类方法,包括:S1、输入数据集并进行预处理;S2、将数据集进行分块,并提出Word2Vec的分布式文本数据流分类方法;S3、训练Word2Vec模型,将单词表示为在连续空间上的低维稠密向量形式,生成词向量,并自定义权重矩阵;S4、主节点将分类器权重广播到子节点,数据流通过分布式文件管理系统将数据块分发至子节点,主节点轮询等待子节点对数据块的处理结果,以获取权重梯度之和,更新后处理下一个数据块;S5、初始化CNN参数,输入至卷积神经网络进行并行化训练,在Spark平台下构建基于分布式机器学习的文本分类模型。本发明通过ApacheSpark框架的适应性来探索卷积神经网络,充分利用Spark框架的并行优势,提高了文本分类的精度。
本发明授权基于分布式机器学习的文本分类方法在权利要求书中公布了:1.一种基于分布式机器学习的文本分类方法,其特征在于,包括以下步骤: S1、输入数据集,并对数据集进行预处理; S2、将数据集进行分块,并基于Word2Vec的分布式文本数据流分类方法进行分类;包括以下步骤: S21、按定长的时间窗口机制,将给定的数据流分为固定大小的数据块; S22、为了缓解短文本数据流中的稀疏信息和高维特征,利用外部语料库建立扩展Word2vec模型,采用固定大小的N维词向量Vec对短文本进行向量表示; S23、对t时刻数据流中数据块Dt使用词向量集合完成向量化,获得向量化表示VecDt,然后在VecDt上进行模型的训练,并对下一个数据块Dt+1进行预测; S24、对文本进行预测;具体为:t时刻的数据块Dt+1中的短文本表示为通过以下公式预测向量化的文本: 其中,为预测标签;为算法集成模型Ft在第t时刻中第r个分类器的特征权重,σ·表示为对应激活函数;最后使用文本上下文信息更新扩展Word2vec词向量集合VecE; S3、训练Word2Vec模型,将单词表示为在连续空间上的低维稠密向量形式,生成词向量,并自定义权重矩阵; S4、在一个主节点和三个子节点构成的标准集群中,主节点将分类器权重广播到所述子节点,数据流通过分布式文件管理系统将所述数据块分发至所述子节点,主节点轮询等待所述子节点对数据块的处理结果,随后获取每个子节点处理的权重梯度之和,更新主节点,随后处理下一个数据块,直至数据流结束;包括以下步骤: S41、机器学习算法通常来说通过给定数据和模型,对目标函数进行迭代直至收敛,具体公式为: Mt=FMt-1,ΔLMt-1,D; 其中,t表示迭代次数,ΔL为目标函数,F做模型更新;具体为:当数据量较大时,需要对数据进行切分在多节点上并行,此时,每个工作节点利用本地数据进行训练,并通过一定的通信算法同步更新,此时的迭代公式为: 当机器学习模型较大时,需要对模型进行划分并在工作节点上分别训练时,此时的迭代函数可表示为: 其中,是模型调度函数;目标函数在各个节点训练的子模型上,对参数进行选择; S42、数据流通过HDFS分布式文件系统将所有数据块均衡的分发到各子节点进行分布式参数训练;具体为:主节点将分类器Ft的各个特征权重广播至所有的子节点,并等待所有子节点完成对短文本dd∈Dt+1的预测,同时将本地短文本中存在的新词文本回传给主节点,主节点获取所有子节点对训练数据块的预测信息与数据块中存在的新词文本集合信息,输出预测结果; S5、初始化CNN参数,输入至卷积神经网络进行并行化训练,在Spark平台下构建基于分布式机器学习的文本分类模型,以对文本进行分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210000 江苏省南京市鼓楼区新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励