买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖南师范大学
摘要:本发明属于数据合成技术领域,尤其涉及一种基于大语言模型的蜂窝用户App使用数据合成方法,分为以下步骤:1文本编码方法,对真实的表格数据进行文本编码,将App表格数据转换为文本序列表示;2预训练微调,使用文本数据集对预训练生成式大语言模型进行微调;3App数据采样合成,使用微调好的预训练生成式大语言模型采样生成文本序列数据,并将文本序列数据转换为表格数据,得到合成的表格数据集;本发明具有以下有益效果:该方法允许用户通过多种输入提示设置对数据生成过程进行概率控制,用户可以根据自己的需求,灵活定义条件实现App使用数据的可控合成,合成数据的质量和在下游应用中的可用性更高。
主权项:1.一种基于大语言模型的蜂窝用户App使用数据合成方法,其特征在于,该方法分为以下步骤:S1蜂窝用户App使用数据文本编码标准的预训练生成式大语言模型通常以单词序列作为输入,本发明提出了一种特定于蜂窝用户App使用数据集的文本编码方法,将App表格数据中的每一行数据样本转换为文本序列表示,具体如下:S1.1给定原始表格数据集Dreal,其包含p个用户属性特征列和q个App使用流量特征列,每一行表示对应的特征值;通过异常值筛选和数据聚合预处理操作后,得到数据集D′real,共包含n行样本,其中用户属性特征列定义为App使用流量特征列为S1.2为了进行后续的模型训练,首先进行特征转换,具体而言,对于数据集D′real中的每一行数据样本,将其转换为文本序列表示,步骤如下:S1.2.1令表示第i行数据样本的第j个用户属性特征的值,其中i∈{1,2,…,n},j∈{1,2,…,p},用户属性文本编码特征子句表示为: S1.2.2令表示第i行数据样本的第k个用户App使用流量特征的集合,其中k∈{1,2,…,q},用户App使用流量文本编码特征子句表示为: 包含了用户属性特征及其对应值,包含了App使用流量特征及其对应集合,将D′real的每行数据样本转换为文本序列表示ti: S1.3通过步骤S1.2将数据集D′real中的每一行数据样本转换成文本序列表示ti后,在和中分别添加标记符号",",伪位置信息被引入到文本序列表示ti中,以标识数据集D′real中每一行数据样本在文本序列表示ti中的位置;为了保证特征顺序的独立性,设计一个随机特征顺序置换函数Z·来随机排列文本表示ti,步骤如下:S1.3.1对于输入的文本序列表示创建一个长度为p+q的随机置换列表perm,其中包含从1到p+q的所有随机数字;S1.3.2将perma定义为perm的前p个元素,permb定义为perm的后q个元素;S1.3.3函数Z·将输入的文本序列表示ti进行随机特征顺序置换,表示为Zti: 得到将文本序列表示ti进行随机特征顺序置换后的文本数据集T={Zti}i=1,2,…,n;S2预训练生成式大语言模型微调使用文本数据集T对预训练生成式大语言模型进行微调,得到适用于App数据合成的大模型,具体如下:S2.1微调前,获得预训练生成式大语言模型的词汇表W,词汇表W由该模型的开发者在预训练过程中给定,且在模型的参数中被固定;W包含了预训练生成式大语言模型在预训练数据中需要的所有词条token;S2.2将每一行输入文本序列t∈T采用基于空格的标记化方法进行编码,即将句子按空格进行划分,每个单词作为一个独立的token,得到token序列ttoken=[w1,w2,...,wl],l表示编码后的输入文本序列ttoken所需的token数;对于ttoken中的每一个token:w1,w2,...,wl∈W;按行将文本数据集T编码,得到了由ttoken构成的token序列形式的数据集Ttoken;S2.3设置模型微调所需的超参数,包括学习率β、训练轮次epoch和训练批次大小batch_size;S2.4将数据集Ttoken按训练批次大小batch_size输入到预训练生成式大语言模型中进行模型微调训练;具体如下:S2.4.1对于数据集Ttoken中每batch_size个ttoken=[w1,w2,...,wl],使用条件自回归生成方式迭代训练,条件自回归生成方式可表示为将真实token作为条件来迭代生成新token的概率分布的乘积: pw′k|w1,w2,…,wk-1表示将ttoken输入到预训练生成式大语言模型按条件自回归生成方式迭代训练生成w′k的概率分布,因此就得到将ttoken输入到预训练生成式大语言模型按条件自回归生成方式进行迭代训练后概率分布的乘积pttoken;S2.4.2将w1,w2,...,wl分别使用独热编码方法表示为高维向量pw1,pw2,…,pwl,计算pw1,pw2,…,pwl的乘积,得到pttoken的真实token高维向量的乘积preal,计算pttoken和preal的交叉熵损失,并根据交叉熵损失使用梯度下降算法更新模型的权重矩阵;S2.5不断调整学习率β、训练轮次epoch、训练批次大小batch_size超参数,通过步骤S2.4的迭代训练,最终得到使用文本数据集T微调后用于App数据合成的预训练生成式大语言模型M;S3蜂窝用户App使用数据合成S3.1通过设置输入提示,使用微调的模型M对表格数据集Dreal的特征联合分布采样生成文本序列数据,并将文本序列数据转换为表格数据,得到合成的蜂窝用户App使用数据集;所述特征联合分布指Dreal中用户属性特征行和App使用流量特征行的数量分布,用pv1,…,vn表示,其中vi代表了第i个特征名称;S3.2对输入提示进行预处理,将输入提示编码成条件token序列[w1,w2,…,wk]输入到模型M,k表示输入提示被编码后的token数量,其输出为ω的logits分布z,ω表示下一个待生成的token;具体使用一个温度参数T0来调节ω的随机性,通过对logits分布z进行归一化处理,ω的概率分布表示为: 其中,zi表示logits分布z中将ω预测为词汇表W中每个token的logits,是logits分布z中将ω预测为词汇表W中每个token的指数logits之和,它作为归一化因子,确保所有token的概率之和为1;S3.3使用sample函数对概率分布pω|w1,w2,…,wk进行随机采样,以从词汇表W选择一个token作为最终的生成结果,得到下一个待生成的tokenω;sample函数按以下步骤来实现:S3.3.1对于给定的概率分布pω|w1,w2,…,wk,计算每个token的累积概率,通过将概率分布pω|w1,w2,…,wk降序排列后按顺序相加,得到一个递增的累积概率分布;S3.3.2生成一个介于0和1之间的随机数r;S3.3.3从累积概率分布中找到第一个大于随机数r的概率值对应的token,选择该token作为最终的生成结果;S3.4将ω作为第k+1个tokenwk+1添加到条件token序列[w1,w2,…,wk]中,重复执行步骤S3.2到S3.3,以此不断生成新的token,直到从条件token序列[w1,w2,…,wk]采样出第k+1到第l个token,其中l表示步骤S2.2中编码输入文本序列t所需的token数;最后将所有token拼接在一起,组成输入提示和按输入提示生成的token序列,得到合成的蜂窝用户App使用文本序列数据;S3.5将文本序列数据进行正则表达式解码,以提取用户属性特征列名和App流量使用特征列名及其对应的值,根据解码得到的特征和值,构建相应的表格数据,得到了合成的蜂窝用户App使用数据集。
全文数据:
权利要求:
百度查询: 湖南师范大学 一种基于大语言模型的蜂窝用户App使用数据合成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。