基于多模态视觉检索的智能RPA交互方法、装置及系统

导航：龙图腾网> 最新专利技术> 基于多模态视觉检索的智能RPA交互方法、装置及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于多模态视觉检索的智能RPA交互方法、装置及系统，该方法包括：构建图形用户界面GUI、网络应用程序和嵌入式应用程序；打开目标网页或者目标界面，获取当前页面的状态，捕获整个应用程序窗口或特定的区域；进行图像处理分析和定位GUI中的元素，获取对应元素的定位坐标信息；利用坐标信息，执行JavaScript模板代码；根据上述GUI上的操作效果，保存这一环节的RPA交互模板，添加监控报警环节，对整个RPA任务的状态进行监控，引入异常检测机制；重复前述步骤逐渐完善模板，直至RPA流程制作完成。其可以通过不同模态的交互方式轻松制作RPA流程，实现了与业务系统的自动化交互，提高工作效率。

主权项：1.基于多模态视觉检索的智能RPA交互方法，其特征在于，包括步骤：S1、利用Qt5构建图形用户界面GUI、网络应用程序和嵌入式应用程序；S2、打开目标网页，并执行各种操作，通过Qt全屏截图，获取当前页面的状态，捕获整个应用程序窗口或特定的区域，作为图像输入；定位网页元素的语言描述作为文字输入；S3、通过视觉语言定位模块Qwen-VL的模型进行图像处理分析和定位GUI中的元素，获取对应元素的定位坐标信息；S4、利用所述定位坐标信息，执行JavaScript模板代码，以模拟用户在GUI上的操作；S5、根据上述图形用户界面GUI上的操作效果，保存这一环节的RPA交互模板，添加监控报警环节，对整个RPA任务的状态进行监控，引入异常检测机制；如果系统检测到页面元素未找到、操作超时的异常情况，系统可以自动发出警报通知相关人员；S6、重复步骤S1-S5逐渐完善模板，直至RPA流程制作完成；其中，所述步骤S3包括：S31、获取图像输入、语音输入和文字输入；S32、对所述图像输入进行图像特征编码，获得图像特征；S33、将所述语音输入转换为文字信息，与所述文字输入构成文本信息，对所述文本信息进行文本特征编码，获得文本特征；S34、将图像特征和文本特征进行融合，得到判别性特征，将判别性特征映射到边框坐标的预测空间；进行归一化，将坐标值映射到预设范围，定位具体元素的位置信息，将相对坐标转换为绝对坐标，获得元素的定位坐标信息；其中，步骤S33中将所述语音输入转换为文字信息包括：S331、用户输入语音，调用通用语音识别Whisper模型；S332、输入音频被语音信号按照t秒一段进行分割，每一段被转换成log-Mel频谱图；S333、从语音信号中提取特征梅尔频率倒谱系数，提取语音特征，进行后处理和解码预测相应的文本，并添加相应标记，转换为最终的文本序列；S334、输出音频的文字信息。

全文数据：

权利要求：

百度查询：深圳市客一客信息科技有限公司基于多模态视觉检索的智能RPA交互方法、装置及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种旋翼式无人机的扭矩测试装置及测试方法

下一篇：一种耐老化物流集装箱密封条

相关技术

一种旋翼式无人机的扭矩测试装置及测试方法

一种耐老化物流集装箱密封条

北美型猪繁殖与呼吸综合征病毒囊膜主要糖蛋白GP5的保守中和表位QT7、核酸分子、表达载体、中和抗体及其应用

一种光伏支架及其单元结构

一种提高示踪器角度测量精度的方法和系统

一种低盐红茶香咸鸭蛋腌制方法

酿造结构及酿造装置

一种钢筋布设间距检测装置

机器视觉图像识别速度测定设备、方法及系统

断路器系统

一种便于滑道清理的铝合金门窗

一种汽车部品加工用固定加工台

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多模态视觉检索的智能RPA交互方法、装置及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务