中国科学院计算技术研究所王向东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院计算技术研究所申请的专利一种汉字-通用盲文对照语料库的构建方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114429128B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111566342.6,技术领域涉及:G06F40/289;该发明授权一种汉字-通用盲文对照语料库的构建方法及系统是由王向东;姚鑫;王子和;刘宏;钱跃良设计研发完成,并于2021-12-20向国家知识产权局提交的专利申请。
本一种汉字-通用盲文对照语料库的构建方法及系统在说明书摘要公布了:本发明提出一种汉字‑通用盲文对照语料库的构建方法和系统,本发明一方面充分利用了现有汉字‑现行盲文对照语料库中的分词信息,另一方面采用一种半自动的方式得到现行盲文所对应的带声调的拼音,进而得到通用盲文。本发明先由计算机自动给没有标注声调的拼音添加声调,然后自动判断哪些拼音的声调可能存在错误,将这些可能存在错误的拼音及其对应的汉字显示在屏幕上,供人工校对修改。通过这种方式,把需要人工校对修改的拼音的比率控制在很小的范围内,可以实现快速的语料库构建。
本发明授权一种汉字-通用盲文对照语料库的构建方法及系统在权利要求书中公布了:1.一种汉字‑通用盲文对照语料库的构建方法,其特征在于,包括: 步骤1、获取具有汉字文本‑现行盲文对照的汉字‑现行盲文语料,通过现行盲文音节与拼音音节间的映射表,将该汉字‑现行盲文语料中现行盲文转换为其对应的汉语拼音,并通过具有汉字‑拼音对照关系的词典,为转换得到的拼音串中缺少声调的拼音添加声调信息,得到该汉字‑现行盲文语料中汉字文本对应的词典匹配拼音串; 步骤2、将该汉字‑现行盲文语料中汉字文本输入至机器学习模型,该机器学习模型输出该汉字文本对应的模型预测拼音串,以及模型预测拼音串中带有声调的汉语拼音对应的置信度; 步骤3、根据词典匹配拼音串、模型预测拼音串及置信度,判断该汉字‑现行盲文语料中每一个现行盲文词对应的拼音串是否需要进行人工校对,若是则对现行盲文词的词典匹配拼音串进行人工校对后,得到现行盲文词的通用盲文拼音串,否则结合该词典匹配拼音串与该模型预测拼音串,生成现行盲文词的通用盲文拼音串; 步骤4、采用通用盲文音节与带调拼音音节间的映射表,通过将该通用盲文拼音串转换为现行盲文词的通用盲文,构建汉字‑通用盲文对照语料库; 该步骤1包括: 步骤11,判断当前的现行盲文词是否为单字词,若否,则执行步骤12,若是,则在汉字‑拼音对照的词典中查找该汉字: 如果查找命中,该汉字对应唯一的带有声调的拼音,则将此带有声调的拼音作为该现行盲文词对应的拼音; 如果查找命中,该汉字对应多个不同的带有声调的拼音,则比较由该现行盲文词转换得到的拼音串,如果能够根据该拼音串唯一地确定一个字典中的有声调拼音,那么就将该现行盲文词的对应的拼音串设为唯一确定的有声调拼音;如果无法确定唯一的有声调的拼音,则将该现行盲文词对应的拼音标记为多音字; 步骤12、判断当前的现行盲文词是否为多个字构成的汉字串,且在汉字‑拼音对照的词典中能够找到该汉字串,若否则执行步骤13,若是则继续判断: 如果汉字‑拼音对照的词典中有汉字词与该现行盲文词对应的汉字串相同,且该汉字词在词典中对应唯一的带有声调的拼音串,则将此带有声调的拼音串作为该现行盲文对应的拼音; 如果汉字‑拼音对照的词典中有汉字词与该现行盲文词对应的汉字串相同,且该汉字词在词典中对应多个不同的带有声调的拼音串,则比较由该现行盲文词转换得到的拼音串,如果能够根据该拼音串唯一地确定一个词典中的有声调拼音串,则将唯一确定的有声调拼音串作为该现行盲文词对应的拼音串;如果仍然无法确定唯一的有声调的拼音串,则将该现行盲文词在汉字‑拼音对照词典中对应的多个拼音串中相同的部分保留,不同的部分标记为多音字; 步骤13、当前的现行盲文词为多个字构成的汉字串,且在汉字‑拼音对照的词典中没有汉字词与该现行盲文词对应的汉字串相同,分为以下处理内容: 如果在汉字‑拼音对照的词典中存在汉字词与该现行盲文词对应的汉字串的部分子串相同,并且匹配方式唯一,则按匹配到汉字‑拼音对照词典中的汉字词的汉字子串所对应的现行盲文,得到其对应的拼音串;处理该现行盲文词对应的汉字串的剩余部分中的每一个汉字所对应的现行盲文,得到其对应的拼音串,将按上述处理得到的所有拼音串按顺序连接后,可得到该现行盲文词对应的带声调的拼音串; 如果在汉字‑拼音对照的词典中存在汉字词与该现行盲文词对应的汉字串的部分子串相同,并且匹配方式不唯一,则将整个现行盲文词对应的拼音串暂时标记为匹配多词; 如果在汉字‑拼音对照的词典中不存在汉字词与该现行盲文词对应的汉字串的任一子串相同,则按该现行盲文对应的汉字串的每个汉字匹配汉字‑拼音对照词典,得到其对应的拼音串; 该步骤3包括判断是否满足下述两条件之一,若满足则需要对拼音串进行人工校对; 条件一,当前的现行盲文词对应词典匹配拼音串包含匹配多词; 条件二,当前的现行盲文词对应词典匹配拼音串中包含多音字,并且与该多音字子串对应的汉字在模型预测拼音串中所对应的拼音的置信度小于预设阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院计算技术研究所,其通讯地址为:100080 北京市海淀区中关村科学院南路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励