一种多模增强的速记待办生成方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中科九思智能科技(安徽)有限公司

摘要：本发明为一种多模增强的速记待办生成方法及系统，涉及计算机技术领域，利用整个通话过程中通话双方的每一帧时间戳对应的音频，获取每通话过程中的多模增强相关特征；再利用整个通过过程中通话双方的每一帧时间戳对应的视频面部情绪信息，获取每通话过程中的个性化的多模增强信息。然后利用构建的多模增强信息和原通话文本信息融合模型，充分融合两者信息，提取的多模增强的词级隐层特征，最后利用构建的多模增强交互注意力机制的生成解码模型，自动生成通话双方个性化的速记待办。通过多模增强技术，满足通话双方用户对速记生成、待办生成侧重不同的需求，提出多模增强和通话原文两者之间多模态信息融合机制，并在电话视频通话过程中，充分利用多模增强信息在会议原文中抽取个性化的内容信息，保证生成和通话双方各自关注的速记和待办，最终实现针对视频通话过程中多模增强的效果良好的速记和待办。

主权项：1.一种多模增强的速记待办生成方法，其特征在于，包括以下步骤：对视频通话内容进行处理，获得文本信息，根据对应文本的时间戳信息，进而获得对应的音频信息以及双方的面部图像信息；将文本信息以及对应的音频信息输入Transformer中的编码器部分模型处理，获得文本隐层特征、音频隐层特征，并将文本隐层特征、音频隐层特征直接融合，得到融合后的隐层特征，并且结合根据视频通话内容提取原文的词隐层特征，与音频隐层特征通过self-attention机制处理，得到音频－文本交互融合隐层特征；根据双方的面部图像信息输入双向LSTM结构中处理，获得双方的面部图像隐层特征，并直接融合双方的个人面部图像隐层特征，然后结合音频－文本交互融合隐层特征，得到文本－音频－双方图像融合特征以及双方个性化的图像－音频－文本进一步交互融合后隐层特征；基于交叉熵的损失函数，根据得到的音频－文本交互融合的隐层特征以及个性化的图像－音频－文本交互融合后隐层特征，构建基于多模增强的速记待办解码模型，将待处理视频通话内容输入所述速记待办解码模型中，生成通话双方个性化的速记待办。

全文数据：

权利要求：

百度查询：中科九思智能科技(安徽)有限公司一种多模增强的速记待办生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种石质文物保护用高耐久透明降温自清洁涂层的制备方法

下一篇：一种稠油工况螺杆泵控制系统

相关技术

一种石质文物保护用高耐久透明降温自清洁涂层的制备方法

一种稠油工况螺杆泵控制系统

App自测试系统、方法、电子设备及存储介质

一种玻璃瓶裂纹检测装置

一种BODIPY类化合物、制备方法及其应用

绿色重楼病虫害防治方法

一种精密铜铝铸件切割装置

一种电网高影响天气特征与模式识别方法及系统

一种铸造用固化剂及其制备方法和使用方法

半导体用黏合膜、切割晶粒接合一体型膜及半导体装置的制造方法

路径规划方法、系统、设备及计算机可读存储介质

大语言模型生成SQL查询语句中的数据权限控制方法及设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种多模增强的速记待办生成方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务