一种基于大语言模型的蜂窝用户App使用数据合成方法

导航：龙图腾网> 最新专利技术> 一种基于大语言模型的蜂窝用户App使用数据合成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：湖南师范大学

摘要：本发明属于数据合成技术领域，尤其涉及一种基于大语言模型的蜂窝用户App使用数据合成方法，分为以下步骤：1文本编码方法，对真实的表格数据进行文本编码，将App表格数据转换为文本序列表示；2预训练微调，使用文本数据集对预训练生成式大语言模型进行微调；3App数据采样合成，使用微调好的预训练生成式大语言模型采样生成文本序列数据，并将文本序列数据转换为表格数据，得到合成的表格数据集；本发明具有以下有益效果：该方法允许用户通过多种输入提示设置对数据生成过程进行概率控制，用户可以根据自己的需求，灵活定义条件实现App使用数据的可控合成，合成数据的质量和在下游应用中的可用性更高。

主权项：1.一种基于大语言模型的蜂窝用户App使用数据合成方法，其特征在于，该方法分为以下步骤：S1蜂窝用户App使用数据文本编码标准的预训练生成式大语言模型通常以单词序列作为输入，本发明提出了一种特定于蜂窝用户App使用数据集的文本编码方法，将App表格数据中的每一行数据样本转换为文本序列表示，具体如下：S1.1给定原始表格数据集Dreal，其包含p个用户属性特征列和q个App使用流量特征列，每一行表示对应的特征值；通过异常值筛选和数据聚合预处理操作后，得到数据集D′real，共包含n行样本，其中用户属性特征列定义为App使用流量特征列为S1.2为了进行后续的模型训练，首先进行特征转换，具体而言，对于数据集D′real中的每一行数据样本，将其转换为文本序列表示，步骤如下：S1.2.1令表示第i行数据样本的第j个用户属性特征的值，其中i∈{1,2,…,n},j∈{1,2,…,p}，用户属性文本编码特征子句表示为： S1.2.2令表示第i行数据样本的第k个用户App使用流量特征的集合，其中k∈{1,2,…,q}，用户App使用流量文本编码特征子句表示为：包含了用户属性特征及其对应值，包含了App使用流量特征及其对应集合，将D′real的每行数据样本转换为文本序列表示ti： S1.3通过步骤S1.2将数据集D′real中的每一行数据样本转换成文本序列表示ti后，在和中分别添加标记符号","，伪位置信息被引入到文本序列表示ti中，以标识数据集D′real中每一行数据样本在文本序列表示ti中的位置；为了保证特征顺序的独立性，设计一个随机特征顺序置换函数Z·来随机排列文本表示ti，步骤如下：S1.3.1对于输入的文本序列表示创建一个长度为p+q的随机置换列表perm，其中包含从1到p+q的所有随机数字；S1.3.2将perma定义为perm的前p个元素，permb定义为perm的后q个元素；S1.3.3函数Z·将输入的文本序列表示ti进行随机特征顺序置换，表示为Zti：得到将文本序列表示ti进行随机特征顺序置换后的文本数据集T＝{Zti}i＝1,2,…,n；S2预训练生成式大语言模型微调使用文本数据集T对预训练生成式大语言模型进行微调，得到适用于App数据合成的大模型，具体如下：S2.1微调前，获得预训练生成式大语言模型的词汇表W，词汇表W由该模型的开发者在预训练过程中给定，且在模型的参数中被固定；W包含了预训练生成式大语言模型在预训练数据中需要的所有词条token；S2.2将每一行输入文本序列t∈T采用基于空格的标记化方法进行编码，即将句子按空格进行划分，每个单词作为一个独立的token，得到token序列ttoken＝[w1,w2,...,wl]，l表示编码后的输入文本序列ttoken所需的token数；对于ttoken中的每一个token：w1,w2,...,wl∈W；按行将文本数据集T编码，得到了由ttoken构成的token序列形式的数据集Ttoken；S2.3设置模型微调所需的超参数，包括学习率β、训练轮次epoch和训练批次大小batch_size；S2.4将数据集Ttoken按训练批次大小batch_size输入到预训练生成式大语言模型中进行模型微调训练；具体如下：S2.4.1对于数据集Ttoken中每batch_size个ttoken＝[w1,w2,...,wl]，使用条件自回归生成方式迭代训练，条件自回归生成方式可表示为将真实token作为条件来迭代生成新token的概率分布的乘积： pw′k|w1,w2,…,wk-1表示将ttoken输入到预训练生成式大语言模型按条件自回归生成方式迭代训练生成w′k的概率分布，因此就得到将ttoken输入到预训练生成式大语言模型按条件自回归生成方式进行迭代训练后概率分布的乘积pttoken；S2.4.2将w1,w2,...,wl分别使用独热编码方法表示为高维向量pw1,pw2,…,pwl，计算pw1,pw2,…,pwl的乘积，得到pttoken的真实token高维向量的乘积preal，计算pttoken和preal的交叉熵损失，并根据交叉熵损失使用梯度下降算法更新模型的权重矩阵；S2.5不断调整学习率β、训练轮次epoch、训练批次大小batch_size超参数，通过步骤S2.4的迭代训练，最终得到使用文本数据集T微调后用于App数据合成的预训练生成式大语言模型M；S3蜂窝用户App使用数据合成S3.1通过设置输入提示，使用微调的模型M对表格数据集Dreal的特征联合分布采样生成文本序列数据，并将文本序列数据转换为表格数据，得到合成的蜂窝用户App使用数据集；所述特征联合分布指Dreal中用户属性特征行和App使用流量特征行的数量分布，用pv1,…,vn表示，其中vi代表了第i个特征名称；S3.2对输入提示进行预处理，将输入提示编码成条件token序列[w1,w2,…,wk]输入到模型M，k表示输入提示被编码后的token数量，其输出为ω的logits分布z，ω表示下一个待生成的token；具体使用一个温度参数T0来调节ω的随机性，通过对logits分布z进行归一化处理，ω的概率分布表示为：其中，zi表示logits分布z中将ω预测为词汇表W中每个token的logits，是logits分布z中将ω预测为词汇表W中每个token的指数logits之和，它作为归一化因子，确保所有token的概率之和为1；S3.3使用sample函数对概率分布pω|w1,w2,…,wk进行随机采样，以从词汇表W选择一个token作为最终的生成结果，得到下一个待生成的tokenω；sample函数按以下步骤来实现：S3.3.1对于给定的概率分布pω|w1,w2,…,wk，计算每个token的累积概率，通过将概率分布pω|w1,w2,…,wk降序排列后按顺序相加，得到一个递增的累积概率分布；S3.3.2生成一个介于0和1之间的随机数r；S3.3.3从累积概率分布中找到第一个大于随机数r的概率值对应的token，选择该token作为最终的生成结果；S3.4将ω作为第k+1个tokenwk+1添加到条件token序列[w1,w2,…,wk]中，重复执行步骤S3.2到S3.3，以此不断生成新的token，直到从条件token序列[w1,w2,…,wk]采样出第k+1到第l个token，其中l表示步骤S2.2中编码输入文本序列t所需的token数；最后将所有token拼接在一起，组成输入提示和按输入提示生成的token序列，得到合成的蜂窝用户App使用文本序列数据；S3.5将文本序列数据进行正则表达式解码，以提取用户属性特征列名和App流量使用特征列名及其对应的值，根据解码得到的特征和值，构建相应的表格数据，得到了合成的蜂窝用户App使用数据集。

全文数据：

权利要求：

百度查询：湖南师范大学一种基于大语言模型的蜂窝用户App使用数据合成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：内窥镜管路的堵塞判定装置及堵塞判定方法

下一篇：一种考虑电氢耦合下能源共享中心参与的优化调度方法

相关技术

内窥镜管路的堵塞判定装置及堵塞判定方法

一种考虑电氢耦合下能源共享中心参与的优化调度方法

旋转电机的定子

一种用于富含黏粒泥浆固液分离的有机-无机絮凝剂及其制备方法和使用方法

一种柔性多线圈电感式压力传感检测系统及制作方法

一种用于冷却塔的清理装置

一种改善互补型忆阻器存储窗口的方法

用于X射线荧光系统中的X射线光学元件的调节单元和X射线荧光系统

一种通电发热纺织品及其制备方法和制备系统

一种模态传感器门控方法及控制系统

钢渣固碳搅拌设备及其固碳工艺

在分布式基站架构中配置用于多播和/或广播服务的资源

App相关技术

一种APP控制方法、霓虹灯电路和控制方法_中山成其美工艺品有限公司_202411149790.X

一种基于大语言模型的蜂窝用户App使用数据合成方法_湖南师范大学_202410945664.9

一种APP语音控制方法、系统和计算机设备_五八到家有限公司_202110426130.1

一种对台区智能融合终端APP数据规范性测试方法_国网陕西省电力有限公司电力科学研究院_202410843727.X

一种基于元数据和代码特征的伪装App识别方法及系统_中国科学院信息工程研究所_202410900563.X

一种单个APP实现不同系统签名设备的自升级方法及系统_北京智象信息技术有限公司_202411364732.9

一种基于智能化程序分析的安卓APP自动化合规检测方法_浙江大学计算机创新技术研究院_202410899345.9

一种验证app版本的测试方法及其系统_福建天泉教育科技有限公司_202010659584.9

一种基于知识图谱的App推荐算法_山西农业大学_202410811479.0

蓝牙广播的APP上锁和解锁方法、装置和存储介质_广东保伦电子股份有限公司_202410834727.3

使用相关技术

使用可穿戴设备来控制设备_苹果公司_202410533164.4

一种机房使用静电地板_青岛视讯通智能科技有限公司_202420419136.5

电木铣及其使用方法_浙江德硕科技股份有限公司_202010410598.7

使用扩散模型进行视频编辑_谷歌有限责任公司_202480001938.7

一种板材切割设备及其使用方法_翰诺威智能科技(东台)有限公司_202410099573.8

一种柔印装置及其使用方法_上海出版印刷高等专科学校_202010051422.7

一种便于使用的发票存放装置_郴州职业技术学院_202323400668.9

一种组合使用的储能电源_湖南纽思曼新能源科技有限公司_202420438483.2

种植导板固定组件及其使用方法_雅客智慧(北京)科技有限公司_201910176800.1

传输带防跑偏装置及其使用方法_国能蒙西煤化工股份有限公司_202411011501.X

用户相关技术

用户设备定位方法及装置、用户设备、存储介质_北京小米移动软件有限公司_202080001383.8

通信方法和用户设备_京瓷株式会社_202380027741.6

预测用户申告方法及装置_中国电信股份有限公司_202111598078.4

定制的用户控制的媒体覆盖_斯纳普公司_202310814928.2

用户终端以及无线通信方法_株式会社NTT都科摩_201880091049.9

用户装置及无线通信方法_株式会社NTT都科摩_201880086448.6

一种智能预测用户用电的采集终端_中电装备山东电子有限公司_202410248800.9

基于用户需求的资源配置方法_南京安夏电子科技有限公司_202411085302.3

针对交叉链路干扰的用户装备测量_高通股份有限公司_202080031643.6

一种用户登录管理方法及系统_中国华能集团有限公司北京招标分公司_202410800657.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于大语言模型的蜂窝用户App使用数据合成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务