恭喜杭州智元研究院有限公司王建伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州智元研究院有限公司申请的专利基于眼动追踪的多模态用户意图识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119148861B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411629158.5,技术领域涉及:G06F3/01;该发明授权基于眼动追踪的多模态用户意图识别方法及系统是由王建伟;关迎丹;毛喜旺;李唯一;吴疆;戴德云;余楚恒;祁凌云;胡伟;刘述设计研发完成,并于2024-11-15向国家知识产权局提交的专利申请。
本基于眼动追踪的多模态用户意图识别方法及系统在说明书摘要公布了:本发明提供了一种基于眼动追踪的多模态用户意图识别方法及系统,该方法基于眼动仪识别注视物体,并结合文本、图像等模态来估计用户意图来执行特定的任务,眼动追踪是通过事件相机定位出瞳孔位置获取坐标,计算出眼睛的注视点,之后再通过画面元素分割构建注视信息图,识别估计出用户的意图,不仅增强了用户意图识别的鲁棒性和准确性,还使得系统能够更加智能地适应不同用户、不同场景下的复杂需求,从而提供更加个性化的服务体验。
本发明授权基于眼动追踪的多模态用户意图识别方法及系统在权利要求书中公布了:1.一种基于眼动追踪的多模态用户意图识别方法,其特征在于,包括:步骤1,将眼睛按构造分为瞳孔、上眼睑两个部分,并结合用户眼球上红外光源的反射光斑,构建包括瞳孔模型、上眼睑模型和光斑模型的眼睛模型;步骤2,从事件相机中获取眼睛的事件数据和灰度帧数据,构建候选点集合,通过候选点集合进行眼睛模型拟合确定眼睛模型参数和瞳孔中心位置;步骤3,获取用户注视二维图像中的注视点坐标;步骤4,重复步骤2-步骤3,获取眼睛模型参数、瞳孔中心位置和注视点坐标,构建注视点数据集,训练注视点估计模型;步骤5,根据注视点估计模型、Yolo-world目标识别模型、StrucTexT预训练模型获取用户注视二维画面中的多模态数据,基于多模态数据构建注视信息图;步骤6,根据感兴趣的意图动作,重复步骤5构建注视信息图数据集,训练意图识别模型;步骤7,实时构建注视信息图,使用训练好的意图识别模型识别用户意图动作;所述步骤5具体包括:步骤5.1,根据内容边界将二维图像划分为N个元素节点,对于每个元素节点,使用Yolo-world模型识别二维图像中的图像特征,使用StrucTexT预训练模型识别图像中的文字特征,并将图像特征和文字特征作为节点特征;步骤5.2,采用步骤4训练的注视点估计模型获取注视点坐标,若注视点坐标位于设定的元素节点A区域,则认为该注视点为元素节点A,将注视点坐标进入该元素节点A区域的时刻记为t1,离开该元素节点A区域的时刻记为t2,则获得注视时长t=t2-t1,若注视点坐标从元素节点A区域移动至元素节点B区域,则注视点移动方向为A到B;步骤5.3,构建包括节点特征、注视点时长和移动方向的注视信息图;所述意图识别模型识别用户意图动作的过程为:对于每个元素节点,将提取的文字特征通过双向编码器转换为固定长度的语义向量,将提取的图像特征使用独热编码器转换为固定长度的语义向量,拼接元素块中的所有语义向量,使用线性层降维成一个固定的元素语义向量,其中代表元素块的编号;根据元素节点之间的注视移动方向确定节点游走方向,使用图嵌入模型获得意图向量;所述意图识别模型训练时采用交叉熵损失,为: ;其中,为概率分布,表示样本属于第i类意图动作的概率,是样本标签的表示,当样本属于第i类意图动作时,否则,C为样本意图动作标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州智元研究院有限公司,其通讯地址为:310013 浙江省杭州市西湖区云展路188号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。