买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:童伟
摘要:本发明公开一种基于预设规则的文本相似度查询方法,用于对航空安全事故调查报告的中英文检索。该方法首先设计了一种高效利用庞大数据量、节省计算资源消耗的样本选取方法,应用于NTSB航空数据库,构建双语文本相似度数据集,实现Sentence‑BERT预训练模型在航空领域的微调;然后设计了基于向量相似度的解释句提取算法,构建航空专业术语词典,进一步得到更准确的语义编码结果;最后为不同类型的查询语句采取相应的语义编码规则,构建航空事故报告双语检索系统。该方法能在英文航空数据库中,快速查找到与用户输入的中文查询语句语义相似的航空事故报告,定量指标评价结果表明了该检索系统的有效性。此外,通过构建词典进行语义编码,不但可以提升航空专业术语的查询效果,而且提供了一种无需花费时间微调、快速提高预训练模型应用效果的新思路。
主权项:1.一种基于预设规则的航空事故报告双语检索方法,其特征在于为不同类型的查询语句设计相应的语义编码规则。对于一般性的查询语句,通过在航空数据集上微调后的Sentence-BERT模型得到其语义编码向量;当查询语句为发生阶段或事故类型,即概括性较强的航空专业术语时,通过基于向量相似度的解释句提取算法,为其构建词典,进一步得到其语义编码结果。
全文数据:
权利要求:
百度查询: 童伟 一种基于预设规则的航空事故报告双语检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。