买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上交所技术有限责任公司
摘要:本发明是一种基于小样本分类的企业挂靠产业方法,包括:S1获取原始文本数据,进行标签标注;S2利用中文预训练模型作为编码器,将文本数据转化为向量表示;S3扩充标签文本向量;S4使用原型网络算法结合文本向量与扩充后的标签文本向量进行支持集生成,调整支持集样本向量;S5定义原型向量,计算查询集样本向量与各类原型向量之间的欧氏距离;S6选择欧氏距离最小的原型向量对应的产业标签作为查询集样本分类结果;S7计算交叉熵损失函数并采用反向传播算法更新编码器参数以优化分类模型;S8进行企业挂靠科创板六大产业的分类任务。本发明优点在于:在小样本任务上带来显著的性能提升,减少在小数据集上过拟合的风险。
主权项:1.一种基于小样本分类的企业挂靠产业方法,其特征在于所述方法如下:S1.从已上市科创板企业的招股说明书中获取原始文本数据,并根据科创板六大产业进行标签标注;S2.利用中文预训练模型bert-base-chinese作为编码器,将所述文本数据转化为向量表示;S3.对于每个产业标签,通过爬虫技术在wiki百科上检索其语义信息,并将该信息与产业标签组合,得到扩充后的标签文本向量;S4.在原型网络中,结合文本向量与扩充后的标签文本向量,通过向量运算调整得到支持集样本向量;S5.结合每类支持集样本向量求平均值得到的新向量作为该类的原型向量,并计算查询集样本向量与各类原型向量之间的欧氏距离;S6.根据欧氏距离选择距离最小的原型向量对应的产业标签作为查询集样本的分类结果;S7.通过计算交叉熵损失函数并采用反向传播算法更新编码器参数以优化分类模型;S8.使用6-way1-shot的数据训练分类模型,训练完成后固定模型参数,进行企业挂靠科创板六大产业的分类任务。
全文数据:
权利要求:
百度查询: 上交所技术有限责任公司 一种基于小样本分类的企业挂靠产业方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。