买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中电万维信息技术有限责任公司
摘要:本发明公开一种大语言模型驱动GPT小模型的智能文本多标签方法。通过设计合适的prompt结合语义检索模型,给数据库中的网民留言内容生成多个标签。可以实现通过大模型预标注网民留言和标签库建立训练集构造方法,解决了语义检索推荐标签的不可控性,通过prompt指令解释一定程度回避了语义检索中长留言内容搜索短标签的技术问题,通过语义检索预推荐一定数量的标签,降低了大语言模型推荐标签的难度,提高了预标注留言内容生成标签的质量。
主权项:1.一种大语言模型驱动GPT小模型的智能文本多标签方法,其特征在于包括如下步骤:S1.文本数据源包括留言文本和文本标签,针对留言文本语义给出文本标签,文本标签组成文本标签库;S2.训练集构造利用大语言模型将留言文本和文本标签库建立对应关系,形成小模型GPT训练数据集,基于留言内容即通过语义检索小模型text2vec-base-chinese-paraphrase推荐对应的文本标签,因留言内容为长文本,长文本的长度为30字至50字,推荐对应的文本标签为短文本,短文本的长度为10字以内,短文本采用开源的大语言模型Qwen1.5-14B或ChatGLM3-6B将文本标签全部通过prompt进行事件标签解释,形成长文本,形成留言文本和文本标签解释的映射关系;经过标签解释至通过语义检索模型,text2vec-base-chinese-paraphrase推荐多个标签,将事件标签和留言内容通过prompt进行事件标签解释,首先将事件标签的解释通过text2vec-base-chinese-paraphrase全部向量化,然后针对留言文本也通过text2vec-base-chinese-paraphrase向量化,然后语义向量化检索最相关的事件标签解释多个,并取出多个对应标签,所有留言文本均采用上述方法进行处理,从而形成对应的训练集,形成的训练集训练小GPT模型;S3.制作token训练基于留言文本的GPT模型需要制作对应的token,收集开源大语言模型的token,其中n_tokens为开源大模型token中个数,即收集尽可能多的开源大模型的token,然后放入一个文件token_LLM.txt.txt中,然后将留言文本全部经过token化,统计token的高频词,保留40000个token,同时统计网民留言事件标签的高频标签,保留8000个标签作为token,放在一个文件中作为词表,同时[CLS]作为GPT模型训练中的文本起始token,[PAD]为GPT模型长度不够的文本填充符,[UNK]为网民留言内容在定义词典中的未出现符,[SEP]为文本分割符;S4.构建GPT模型留言文本{Text}和文本标签{Labels}的数据通过[SEP]做分割,作为GPT的训练数据;S5.诉求内容标签预测通过GPT模型处理实现留言文本生成多个文本标签,所有标签全部经过制作的token进行token化,然后放入标签token列表,在小模型GPT生成多标签过程中,不在标签token列表中的GPT每次token候选项的概率进行系数惩罚,即乘以系数0.9,生成的token不属于标签token列表中。
全文数据:
权利要求:
百度查询: 中电万维信息技术有限责任公司 一种大语言模型驱动GPT小模型的智能文本多标签方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。