买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:济南浪潮数据技术有限公司
摘要:本申请实施例提供了一种标记语言文档处理方法、装置、设备和存储介质,逐个解析标记语言文档,得到与若干个标题一一对应的若干个标题文档与若干个文档拼接信息;根据若干个文档拼接信息之间的第一相似度以及层级关系将若干个标题文档存储至预设数据库;使用用户发送的问题文本检索预设数据库中的备选标题文档;按照备选标题文档与问题文本的之间的第二相似度选取目标标题文档;将目标标题文档与问题文本输入大型语言模型,以获取针对问题文本的回答文本。本申请实施例提升了解析和检索标记语言格式文本方面的精准度和检索结果的相关性。
主权项:1.一种标记语言文档处理方法,其特征在于,应用于云平台,所述云平台上部署有大型语言模型,所述标记语言文档包括若干个标题以及所述若干个标题对应的文档文本,所述若干个标题之间为层级关系,所述方法包括:逐个解析所述标记语言文档中的所述标题、所述标题对应的所述文档文本以及所述标题包含的下级标题,得到与所述若干个标题一一对应的若干个标题文档;分别将每个所述标题文档的所述标题、所述标题对应的所述文档文本以及所述标题包含的所述下级标题进行拼接,得到若干个文档拼接信息;根据所述若干个文档拼接信息之间的第一相似度以及所述层级关系,按照预设方式将所述若干个标题文档存储至预设数据库;使用用户发送的问题文本检索所述预设数据库中的备选标题文档;逐个计算检索到的所述备选标题文档与所述问题文本的之间的第二相似度,按照所述第二相似度对所述备选标题文档进行排序,根据排序结果选取预设数量的所述备选标题文档作为目标标题文档;将所述目标标题文档与所述问题文本输入所述大型语言模型,以获取针对所述问题文本的回答文本。
全文数据:
权利要求:
百度查询: 济南浪潮数据技术有限公司 标记语言文档处理方法、装置、设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。