买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国专利信息中心
摘要:本发明提出一种中文句法分析方法和系统,包括制定规则(词语规则、短语规则、句子规则和句法分析规则)、分词、标注词性、识别词和词组、识别惯用型短语、识别惯用型句式、识别句子核心动词、句法分析并按中文语法标注句子组分的语法成分或关系,以及按需求输出分析结果。本发明从中文语言特征入手,深入挖掘了中文文字与句子结构的特点,充分利用中文语法和表达习惯,通过规则设计,实现中文句子语义的智能解析。句法分析层次和过程简洁、快速和直观,特别对于解析结构较特殊的句子和大量文档提高了准确度和效率。本发明可广泛应用于人工智能领域,像人机问答、文本聚类、文本相似度计算、机器翻译、智能检索、智慧城市和机器人等。
主权项:1.一种中文句法分析方法,其特征在于,包括以下步骤:步骤S1:对输入的文本进行分句、分词,并标注词性;步骤S2:识别句子中的词组;步骤S3:识别句子中的短语;步骤S4:识别句子的构架;步骤S5:对句子进行句法分析,并按中文语法标注和输出句子组分的语法关系;所述步骤S4包含:S41、对比惯用型句式库,判断句子是否为复合句,如果具有复合词,那么复合词后的内容作为单句待分析;S42、对比惯用型句式库,识别并标注主句或分句是一般句式还是惯用型句式,判断时,如果句子不是惯用型句式,则为一般句式;S43、识别并标注句子核心动词;S44、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号按中文语法解析并标注语法成分或关系;S45、确定并标注句子的主语、谓语和宾语,对于一般句式,核心动词为句子的谓语,除去虚词、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定;所述步骤S43包括:1)找到一般句式中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、介词、形容词或数量词的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”字前后的动词不作核心动词;2)除所述不作核心动词的动词,将主句或分句自左到右的第一个动词标注为该句的核心动词。
全文数据:
权利要求:
百度查询: 中国专利信息中心 一种中文句法分析方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。