首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于图像文本多模态的眼底图像基础模型预训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开了基于图像文本多模态的眼底图像基础模型预训练方法,获取前置原始眼底图像集和原始文本注释集;对前置原始文本注释集中的元素进行正则匹配和切分子注释,与原始眼底图像集中的眼底图像进行配对,辅以人工校对后得到高质量多模态视觉‑语言眼底数据集;构建特征提取模块和包含了图文匹配标签的视觉‑语言预训练模型;通过基于相似度引导的文本修正方法实现专家知识EK的融入;最后采取混合训练策略,将高质量多模态视觉‑语言眼底数据集和公共数据集中的图片和文本样本输入进行预训练得到合适的参数配置。本发明克服了现有预训练模型中无法有效地将文本中的专家先验知识融入模型的缺点,得到数据集上迁移性更好有效性更佳的训练模型。

主权项:1.基于图像文本多模态的眼底图像基础模型预训练方法,其特征在于,包括如下步骤:S1,构建前置眼底图像集以及文本注释集:从医学专著集中分别提取出前置原始眼底图像集和原始文本注释集其中是从专著集中提取的一张眼底图像,是对应于眼底图像的文本注释,k是大于等于1的正整数用于指示图像和文本的序号,和各自在眼底图像集和文本注释集中以相同的相对顺序排列;S2,构建高质量多模态视觉-语言眼底数据集:对步骤S1中原始文本注释集中的元素进行正则匹配和切分子注释,再和原始眼底图像集中的每一张眼底图像进行配对,经过人工校对后,得到高质量多模态视觉-语言眼底数据集DC;S3:构建特征提取模块和视觉-语言预训练模型:所述特征提取模块包括图像特征提取器和文本特征提取器,其中,图像特征提取器包括一个图像编码器Ev和一个投影头Pv,文本特征提取器包括一个文本编码器Et和一个投影头Pt,编码器Ev,Et分别通过投影头Pv,Pt来匹配特征维度以提取图像特征和文本特征;所述视觉-语言预训练模型的优化目标为:在多模态空间中最大化配对的图像文本之间的相似性,同时最小化不配对的图像和文本之间的相似性;S4,通过基于相似度引导的文本修正方法实现专家知识EK的融入:基于相似度引导的文本修正方法通过识别公共数据集与构建的高质量多模态视觉-语言眼底数据集中图像相似的视觉特征,利用相似度来从构建的高质量多模态视觉-语言眼底数据集的文本特征中提取相关的先验知识以完善和改进公共数据集的文本提示;S5,采取混合训练策略,将步骤S2中构建的高质量多模态视觉-语言眼底数据集和公共数据集中的图片以及文本样本分别以1:1的比例混合后作为模型的输入,基于专家知识EK的融入方法,对特征提取模块中的2个编码器Ev,Et进行预训练得到合适的参数配置。

全文数据:

权利要求:

百度查询: 东南大学 基于图像文本多模态的眼底图像基础模型预训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术