专利内容由知识产权出版社提供
专利名称:一种文本分词方法及装置专利类型:发明专利发明人:王
申请号:CN201910094380.2申请日:20190130公开号:CN109829162A公开日:20190531
摘要:本申请提供了一种文本分词方法及装置,其中,该方法包括:将待分词文本转换为字符序列;将字符序列中包含的满足预设长度的字符串与预先构建的词典中的标准词进行匹配,确定与标准词匹配的匹配字符串,为字符序列中匹配字符串的每个字符和除匹配字符串之外的每个字符分别分配对应的词典标签,得到词典标签序列;确定字符序列中每个字符对应的至少一种分词标签,得到多种分词标签序列;根据字符序列、词典标签序列以及预先训练的条件概率预测模型,确定字符序列被标记为每种分词标签序列的条件概率;将符合预设条件的条件概率对应的分词标签序列确定为目标分词标签序列,并基于目标分词标签序列对待分词文本进行分词处理。
申请人:新华三大数据技术有限公司
地址:450000 河南省郑州市高新技术产业开发区杜英街166号总部大观B18号楼
国籍:CN
代理机构:北京超凡志成知识产权代理事务所(普通合伙)
代理人:王文红
更多信息请下载全文后查看