首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向专业领域的拼音与文字匹配方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种面向专业领域的拼音与文字匹配方法,专业领域中通常涉及大量的专业术语以及该专业领域各个应用部门结合了本地特征的特有名词,如含有所在地点名称的设备名、工作段名称乃至专业者的人名,因而普通拼音输入法需要频繁用数字键选择备选词汇,效率比较低,本发明提出二次差频原理,自动建立差频专用词库,包含保存本地专用词汇的一级差频子库和保存专业术语的二级差频子库。以差频专用词汇为中心匹配拼音与文字,采用任意位置转换机制。通过这些步骤,可以减少频繁选择同音词组的麻烦,提高输入速度。

主权项:1.一种面向专业领域的拼音与文字匹配方法,其特征在于,包括:专用模式选择:选择是否进入专用词汇输入模式,若是,则进入级别优先匹配,若不是,就直接将输入的拼音与词汇的拼音进行匹配,出现的频率高的词汇优先匹配,最后余下的拼音与单个中文字匹配;其中,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇;级别优先匹配:设输入的拼音串名为A,A为一个拼音句子,对应着一个文字句子,A变成文字的过程中,优先与差频专用词库的一级差频子库词汇的拼音匹配,匹配成功则A的部分拼音变成文字,匹配不成功再考虑二级差频子库,所述匹配即求A的一部分拼音和某个中文词组或字的正确拼音之间的相似度,也简称为拼音与文字或词汇的匹配;所述差频专用词库由本地专用词汇及其拼音组成一级差频子库,专业术语及其的拼音组成二级差频子库;一个词汇在差频子库中的排队顺序由其频率的差异决定,即在专用资料中出现的频率越高该词汇排队顺序越前,而在通用资料中出现的频率越高该词汇排队顺序越后;频率的差异简称差频;频率优先匹配:在级别优先匹配完成之后,对A余下的拼音与词汇的拼音进行匹配,出现频率高的词汇优先,最后余下的拼音与单个中文字的拼音匹配;所述差频专用词库的构建,包括以下步骤:S1、采集与本地工作相关的文字资料,包括本机与本地局域网上的工作计划、工作档案、会议记录、设备记录和通话文本;S2、对上一步所采集的文字资料进行清理、分词操作,并获得词汇列表,接着对词汇列表进行词汇频率统计,词汇频率简称词频,得到本地专用词频词典,其中,词频=该词汇重复的次数×该词汇长度全部资料总字数,所述本地专用词频词典包含了本地文字资料中出现的全部词汇及其词频;S3、搜索网络上的本专业学术文章,对获取的词汇列表进行词频统计,得到专业术语词频词典,包含了本专业学术文章中出现的全部词汇及其词频;S4、对通用资料,包括人民日报语料库及新浪、搜狐、网易三大网站的新闻,进行文本词汇词频统计,得到通用词频词典,包含了通用资料中出现的全部词汇及其词频;S5、对专业术语词频词典的每个词汇做一次差频操作,即:一次差频值=一个词汇的专业术语词频-k1×其通用词频,此处k1为设定的系数,专业术语词频和通用词频分别由专业术语词频词典和通用词频词典得到,词典中查不到的词汇,其词频计为0;一次差频值小于或等于0词汇的舍去,大于0的存入二级差频子库,差频值越高的词汇在差频子库排队越前面;S6、对本地专用词频词典的每个词汇做二次差频操作,即:二次差频值=一个词汇的本地专用词频-k2×其专业术语词频-k1×其通用词频,此处k2为设定的系数,本地专用词频由本地专用词频词典得到;二次差频值大于0的存入一级差频子库,否则舍去,差频值越高的词汇在差频子库排队越前面;S7、为差频专用词库中每一个词汇关联其对应的拼音,最终形成面向专业领域的差频专用词库,所述差频专用词库由所述一、二级差频子库组成;所述级别优先匹配的步骤包括:逆向取词:在一级子库内未匹配过的词汇中取差频值最高词汇的拼音,设其名称为B,如果一级子库中的词汇都已经进行过匹配操作则顺延到下一级子库;任意位置转换文字:在A中搜索类似于B的子串C,如果B与C匹配成功,则将C转换为相应的中文词组;如果A中有多个类似于B的子串,则都要重复上面操作;所述子串C能够位于A的任意位置;所述匹配包括如下步骤:计算字母编辑距离:指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操作次数,所述正确的拼音单元指该单元对应某个汉字的拼音,许可的编辑操作包括:插入一个字母、删除一个字母、将一个字母替换成另一个、两个字母交换位置;如果上述替换操作发生在两个相邻键位字母之间,只算0.5次,相邻键位字母指在标准键盘上两个字母的按键有相邻的部分;计算音素编辑距离:指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数,所述音素指拼音的声母或韵母,许可的编辑操作包括:插入一个声母韵母、删除一个声母或韵母、将一个声母或韵母替换成另一个,一次模糊音之间的替换只算0.5次;计算匹配值=字母编辑距离+音素编辑距离;如果匹配的是专用词库的词汇,则当匹配值小于给定阈值时,给出匹配成功信号,否则给出匹配失败信号,输出匹配值;如果匹配的是通用词库的词汇,仅输出匹配值。

全文数据:

权利要求:

百度查询: 华南理工大学 一种面向专业领域的拼音与文字匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术