Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种简单安全的视觉生成提示工程方法、设备、介质及产品 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种简单安全的视觉生成提示工程方法、设备、介质及产品,视觉生成技术领域。本发明的方法包括:基于三个公开数据集创建原始提示词集合;对原始提示词集合进行分类并为每个类别配置最优相机;对原始提示词集合中每个原始提示词进行相机描述映射,生成优化提示词;基于原始提示词和优化提示词对比生成视觉生成内容。本发明通过为不同类型的图像提示词提供最优的相机描述,避免了在提示词中改变原始内容或引入不安全因素的问题;同时使用不同的生成模型进行视觉生成,可以更广泛的验证优化提示在不同的维度都能够提高生成质量,并保持了文本到图像的一致性,对比其他方法,具有更高的提示词安全性。

主权项:1.一种简单安全的视觉生成提示工程方法,其特征在于,包括下列步骤:步骤1,基于多个公开数据集创建原始提示词集合;其中,采用的公开数据集包括:包含图像和其图像描述语句的第一数据集,包含不同主题的真实图像的第二数据集,以及包含用于图像生成的图像描述语句的第三数据集;通过大语言模型对第一数据集中的图像进行标题生成,并将第一数据集的图像描述输入大语言模型,基于其输出生成第一图像描述语句;将第一数据集的图像描述输入大语言模型,基于其输出生成第一图像描述语句;分别提取出第二数据集中的不同主题的图像作为图像子集,并通过大语言模型对图像子集生成相应的图像描述语句,得到第二图像描述语句;第三数据集中不同主题的图像描述语句输入大语言模型,基于其输出生成第三图像描述语句;基于预置的提示词,直接通过大语言模型生成不同类型的用于视觉内容生成的第四图像描述语句;基于大语言模型输出的所有第一、第二、第三和第四图像描述语句得到用于视觉内容生成的原始提示词集合;步骤2,对原始提示词集合进行分类并为每个类别配置最优相机;基于图像类别对原始提示词集合进行分类并设置每个分类的分类标签,以及为每个类别设置多个拍摄主题的拍摄图像和对应的相机型号,并在每个类别的提示词中添加不同的相机描述;对每一个类别的提示词,将其不同相机描述所对应的提示词输入大语言模型,以生成对应每个相机描述的生成图像;评估生成图像和其对应的拍摄图像之间的分布差距,以及评估生成图像和对应的提示词之间的一致性;再将分布差距最低并且一致性下降最少的提示词中的相机描述作为当前类别的最优相机;步骤3,对原始提示词集合中每个原始提示词进行相机描述映射,生成优化提示词;以原始提示词集合中的每个原始提示词作为输入对采用的预训练的语言模型进行微调,得到微调后的语言模型;再基于微调后的语言模型获取原始提示词集合中的每个原始提示词的图像类别标签,并基于步骤2得到的每个分类标签所对应的最优相机,将当前原始提示词所对应的图像类别标签映射到对应的相机描述,再将该映射的相机描述添加到当前原始提示词中,生成优化提示词;步骤4,基于原始提示词和优化提示词对比生成视觉生成内容;将生成目标的优化提示词输入大语言模型LVM,得到第一生成图像;再将与优化提示词所对应的原始提示词和第一生成图像一起输入到LVM进行一次询问,通过LVM判断生成的第一生成图像与原始提示词是否对齐;若对齐,则直接将第一生成图像作为最终的视觉生成内容;若未对齐,则将当前的优化提示词再次输入到LVM以再次生成第二生成图像,并将第二生成图像作为最终的视觉生成内容。

全文数据:

权利要求:

百度查询: 电子科技大学 一种简单安全的视觉生成提示工程方法、设备、介质及产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。