首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种标题预测模型的处理方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本发明实施例涉及一种标题预测模型的处理方法和装置,所述方法包括:构建标题预测模型、模型训练网络;基于模型训练网络对音频特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集;并基于二阶段训练数据集对文本向量解码模型进行二阶段训练;标题预测模型训练结束后,接收任意音频作为对应的第一音频;并设置对应的第一反向扩散总步数为预设的总步数阈值;并将第一音频和第一反向扩散总步数输入标题预测模型进行标题文本预测处理得到对应的第一标题文本;并对第一标题文本进行显示。通过本发明可以提高预测标题文本的多样性。

主权项:1.一种标题预测模型的处理方法,其特征在于,所述方法包括:构建标题预测模型;所述标题预测模型包括音频特征提取模型、文本向量初始化模块、文本向量去噪模型、DDIM反向扩散算法模块、反向扩散计数模块和文本向量解码模型;构建模型训练网络;所述模型训练网络包括文本向量编码模型、文本向量噪声添加模块、所述音频特征提取模型、所述文本向量去噪模型、所述DDIM反向扩散算法模块、所述反向扩散计数模块和所述文本向量解码模型;基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集;并基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练;所述标题预测模型训练结束后,接收任意音频作为对应的第一音频;并设置对应的第一反向扩散总步数为预设的总步数阈值;并将所述第一音频和所述第一反向扩散总步数输入所述标题预测模型进行标题文本预测处理得到对应的第一标题文本;并对所述第一标题文本进行显示;其中,所述音频特征提取模型用于根据模型输入的音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本;所述音频特征提取模型的输入端与所述标题预测模型的第一输入端连接,输出端与所述文本向量去噪模型的第一输入端连接;所述音频特征提取模型用于对所述标题预测模型输入的音频进行音频特征提取处理生成对应的音频特征张量A向所述文本向量去噪模型发送;所述文本向量初始化模块的第一输出端与所述文本向量去噪模型的第二输入端连接、第二输出端与所述DDIM反向扩散算法模块的第一输入端连接;所述文本向量初始化模块用于向预设的文本向量模板中添加随机噪声得到一个对应的输入文本向量Xt=T,并将所述输入文本向量Xt=T分别向所述文本向量去噪模型和所述DDIM反向扩散算法模块发送;所述随机噪声满足高斯噪声特征;所述文本向量去噪模型的第三输入端与所述DDIM反向扩散算法模块的输出端连接,所述文本向量去噪模型的输出端与所述反向扩散计数模块的第一输入端连接;所述文本向量去噪模型用于在所述DDIM反向扩散算法模块的输出端没有反馈时,根据所述输入文本向量Xt=T和所述音频特征张量A进行文本向量去噪处理得到对应的去噪文本向量Zt向所述反向扩散计数模块发送;所述文本向量去噪模型还用于在所述DDIM反向扩散算法模块的输出端反馈了输入文本向量Xt-1时,根据所述输入文本向量Xt-1和所述音频特征张量A进行文本向量去噪处理得到对应的去噪文本向量Zt-1向所述反向扩散计数模块发送;所述反向扩散计数模块的第二输入端与所述标题预测模型的第二输入端连接,所述反向扩散计数模块的第一输出端与所述DDIM反向扩散算法模块的第二输入端连接、第二输出端与所述文本向量解码模型的输入端连接;所述反向扩散计数模块用于在接收到所述标题预测模型输入的所述反向扩散总步数T时,将本地的第一计数器的计数值初始化为所述反向扩散总步数T;所述反向扩散计数模块还用于在每次接收到所述文本向量去噪模型发送的去噪文本向量时对所述第一计数器减1,并对减1后的所述第一计数器是否为1进行识别,若是则将当次接收到的去噪文本向量作为对应的去噪文本向量Zt=1向所述文本向量解码模型发送,若否则将将当次接收到的去噪文本向量作为对应的去噪文本向量Zt1向所述DDIM反向扩散算法模块发送;所述DDIM反向扩散算法模块用于根据DDIM模型的反向扩散算法对所述去噪文本向量Zt1进行反向扩散处理得到对应的所述输入文本向量Xt-1向所述文本向量去噪模型反馈;所述文本向量解码模型的输出端与所述音频特征提取模型的输出端连接;所述文本向量解码模型用于对所述去噪文本向量Zt=1进行文本向量解码处理得到对应的向量解码文本,并将所述向量解码文本作为对应的所述预测标题文本向所述音频特征提取模型的输出端发送;所述DDIM模型的反向扩散算法为: 其中,Xt、Xt-1分别为前一步和下一步的输入文本向量,Zt为所述输入文本向量Xt对应的去噪文本向量,αt、αt-1分别为前一步和下一步的噪声计划,ε为一个新增的随机高斯噪声,εt为与所述输入文本向量Xt和所述去噪文本向量Zt相关的噪声,σt为前一步的随机性控制参数;所述模型训练网络用于根据网络输入的标签标题文本、音频和反向扩散总步数T进行标题文本预测处理并输出对应的预测标题文本;所述文本向量编码模型的输入端与所述模型训练网络的第一输入端连接,输出端与所述文本向量噪声添加模块的输入端连接;所述文本向量编码模型用于对所述模型训练网络输入的所述标签标题文本进行编码处理得到对应的文本编码向量,并将所述文本编码向量作为对应的标签文本向量X*向所述文本向量噪声添加模块发送;所述音频特征提取模型的输入端与所述模型训练网络的第二输入端连接,输出端与所述文本向量去噪模型的第一输入端连接;所述音频特征提取模型用于对所述模型训练网络输入的音频进行音频特征提取处理生成对应的音频特征张量A向所述文本向量去噪模型发送;所述文本向量噪声添加模块的第一输出端与所述文本向量去噪模型的第二输入端连接、第二输出端与所述DDIM反向扩散算法模块的第一输入端连接;所述文本向量噪声添加模块用于向所述标签文本向量X*中添加随机噪声得到一个对应的目标文本向量Xa,t=T,并将所述目标文本向量Xa,t=T分别向所述文本向量去噪模型和所述DDIM反向扩散算法模块发送;所述随机噪声满足高斯噪声特征;所述文本向量去噪模型的第三输入端与所述DDIM反向扩散算法模块的输出端连接,所述文本向量去噪模型的输出端与所述反向扩散计数模块的第一输入端连接;所述文本向量去噪模型用于在所述DDIM反向扩散算法模块的输出端没有反馈时,根据所述目标文本向量Xa,t=T和所述音频特征张量A进行文本向量去噪处理得到对应的预测文本向量Zp,t向所述反向扩散计数模块发送;所述文本向量去噪模型还用于在所述DDIM反向扩散算法模块的输出端反馈了目标文本向量Xa,t-1时,根据所述目标文本向量Xa,t-1和所述音频特征张量A进行文本向量去噪处理得到对应的预测文本向量Zp,t-1向所述反向扩散计数模块发送;所述反向扩散计数模块的第二输入端与所述模型训练网络的第三输入端连接,所述反向扩散计数模块的第一输出端与所述DDIM反向扩散算法模块的第二输入端连接、第二输出端与所述文本向量解码模型的输入端连接;所述反向扩散计数模块用于在接收到所述模型训练网络输入的所述反向扩散总步数T时,将本地的第一计数器的计数值初始化为所述反向扩散总步数T;所述反向扩散计数模块还用于在每次接收到所述文本向量去噪模型发送的预测文本向量时对所述第一计数器减1,并对减1后的所述第一计数器是否为1进行识别,若是则将当次接收到的预测文本向量作为对应的预测文本向量Zp,t=1向所述文本向量解码模型发送,若否则将将当次接收到的预测文本向量作为对应的预测文本向量Zp,t1向所述DDIM反向扩散算法模块发送;所述DDIM反向扩散算法模块用于根据DDIM模型的反向扩散算法对所述预测文本向量Zp,t1进行反向扩散处理得到对应的所述目标文本向量Xa,t-1向所述文本向量去噪模型反馈;所述文本向量解码模型的输出端与所述模型训练网络的输出端连接;所述文本向量解码模型用于对所述预测文本向量Zp,t=1进行文本向量解码处理得到对应的向量解码文本,并将所述向量解码文本作为对应的所述预测标题文本向所述模型训练网络的输出端发送;所述基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集,具体包括:步骤81,将预设的第一数据集的第一个第一数据记录作为对应的当前数据记录;所述第一数据集包括多个所述第一数据记录;所述第一数据记录包括第一标签标题文本、第一训练音频和第一反向扩散总步数;步骤82,将所述当前数据记录的所述第一标签标题文本、所述第一训练音频和所述第一反向扩散总步数输入所述模型训练网络进行标题文本预测处理得到对应的第一预测标题文本;并在预测处理过程中,对所述标签文本向量X*进行采样,并对所有目标文本向量进行采样得到对应的目标文本向量集合{Xa,t},并对所有预测文本向量进行采样得到对应的预测文本向量集合{Zp,t};步骤83,将所述标签文本向量X*、所述目标文本向量集合{Xa,t}和所述预测文本向量集合{Zp,t}带入预设的优化目标函数Lsimple, 其中,αt、αt-1分别为DDIM模型反向扩散算法中的前一步和下一步噪声计划,为DDIM模型的期望函数,μtXa,t-X*为DDIM模型的均值;步骤84,朝着使所述优化目标函数Lsimple达到最小期望值的方向对所述文本向量去噪模型和所述音频特征提取模型的模型参数进行迭代优化;步骤85,本轮迭代优化结束后,对所述当前数据记录是否为所述第一数据集的最后一个所述第一数据记录进行识别;若是,则转至步骤86;若否,则将所述第一数据集的下一个所述第一数据记录提取出来作为新的所述当前数据记录,并返回步骤82继续训练;步骤86,对所述音频特征提取模型和所述文本向量去噪模型的模型参数进行固化处理;并将所述第一数据集的各个所述第一数据记录的所述第一标签标题文本、所述第一训练音频和所述第一反向扩散总步数重新输入所述模型训练网络进行标题文本预测处理得到对应的第二预测文本,并对各个所述第二预测文本对应的所述预测文本向量Zp,t=1作为对应的第一训练向量,并将各个所述第一训练向量对应的所述第一标签标题文本作为对应的第一标签文本,并由各个所述第一训练向量和对应的所述第一标签文本组成一个对应的第二数据记录;并由得到的所有所述第二数据记录组成对应的所述二阶段训练数据集;所述基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练,具体包括:步骤91,将所述二阶段训练数据集的第一个第二数据记录作为对应的当前数据记录;所述二阶段训练数据集包括多个所述第二数据记录;所述第二数据记录包括第一训练向量和第一标签文本;步骤92,将所述当前数据记录的所述第一训练向量输入所述文本向量解码模型进行文本向量解码处理得到对应的向量解码文本,并将所述向量解码文本作为对应的第一预测文本;步骤93,将所述第一预测文本和所述第一标签文本带入预设的第一损失函数进行计算得到对应的第一损失值;并对所述第一损失值是否满足预设的第一损失值范围进行识别;若所述第一损失值满足所述第一损失值范围,则转至步骤94;若所述第一损失值不满足所述第一损失值范围,则基于预设的预训练模型参数微调适配器对所述文本向量解码模型的模型参数进行微调,并在微调结束时返回步骤92继续训练;步骤94,对所述当前数据记录是否为所述二阶段训练数据集中的最后一个所述第二数据记录进行识别;若是,则转至步骤95;若否,则将所述二阶段训练数据集中的下一个所述第二数据记录提取出来作为新的所述当前数据记录,并返回步骤92继续训练;步骤95,对所述文本向量解码模型的模型参数进行固化处理。

全文数据:

权利要求:

百度查询: 北京邮电大学 一种标题预测模型的处理方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。