买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了基于多模态大语言模型的媒体文件无障碍描述的生成方法,为视频或音频等媒体文件生成字幕、生成音频部分的文字描述、生成视频部分的文字描述;以及为视频等媒体文件提供同步的视频内容的语音描述。本发明通过使用多模态大语言模型,能够准确且高效地为视频或音频等媒体文件生成替代文件,从而直接并有效地帮助残障人士等群体如失明和弱视、耳聋和听力丧失、以及有学习障碍和认知局限的人等无障碍地理解视频或音频等媒体文件的内容,保障他们平等获取信息和参与社会生活的权利。本发明不仅提高了媒体文件的可访问性,还提升了信息传递的准确性和效率。
主权项:1.基于多模态大语言模型的媒体文件无障碍描述的生成方法,其特征在于:使用多模态大语言模型对媒体文件进行分析预处理,并分别自动生成字幕和带字幕的视频文件、音频部分的文字描述文件、视频部分的文字描述文件以及与视频同步的视频内容的语音描述文件。
全文数据:
权利要求:
百度查询: 天津天机人工智能有限公司 基于多模态大语言模型的媒体文件无障碍描述的生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。