共查询到19条相似文献,搜索用时 93 毫秒
1.
对信息检索系统中常用的两种分词方法,即词表分词法和二元分词法,进行了分析比较。针对二元分词的分词结果冗余度大的问题,提出了改进方法,即经过预处理的二元分词方法。 相似文献
2.
Web中文文本分词技术研究 总被引:22,自引:0,他引:22
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。 相似文献
3.
中文自动分词系统的设计模型 总被引:9,自引:1,他引:9
邓宏涛 《计算机与数字工程》2005,33(4):138-140
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。 相似文献
4.
5.
字典与统计相结合的中文分词方法 总被引:15,自引:0,他引:15
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DSfenci的分全率达99.52%,准确率达98.52%. 相似文献
6.
7.
并行分词方法的研究 总被引:10,自引:0,他引:10
吴胜远 《计算机研究与发展》1997,34(7):542-545
目前,中文分词方法都是属于串行分词方法。本文提出了一种并行分词方法,该方法是根据多级内码理论设计的,它大大提高了分词的速度,并行分词方法还便于设计成集成电路。 相似文献
8.
介绍一种基于词的切分属性的分词算法。这种方法在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,对每一类词确定一组规则,同时利用词的自然属性进行歧义难点处理,使分词算法更接近于实用的目的。 相似文献
9.
基于短语结构文法的分词研究 总被引:6,自引:0,他引:6
本文在分析现有各种分词年法的基础上, 遵循自然语言理解的层次模型, 着重对短语结构文法及其形式化描述进行了探讨。提出了汉语自动分词在短语层的理解模型及短语层分词语义相关原则, 最后给出了短语结构分词法法的机器实现。实验结果表明, PSG法在提高分词精度上具有相当好的效果。 相似文献
10.
针对基于统计模型的中分词系统,从系统实现的角度探讨了主流的相关技术,涉及:n—gram语言模型,语科库,统计模型的参数估计及参数平滑等概念,重点对Katz平滑算法作了改进。片在分词系统原型中实现了该算法。 相似文献
11.
12.
中文信息处理中自动分词技术的研究与展望 总被引:22,自引:0,他引:22
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。 相似文献
13.
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。 相似文献
14.
15.
一种基于语境的中文分词方法研究 总被引:4,自引:0,他引:4
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率. 相似文献
16.
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。 相似文献
17.
该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分析了上古汉语的词汇特点,并以此为基础描述了一些显式的词汇形态特征,将其运用于我们的自动分词及词性标注中,特别对词性标注系统带来了有效帮助。总结并分析了自动分词和词性标注中出现的错误,最后描述了整个语料库的词汇和词性分布特点。提出的方法在《淮南子》的标注过程中得到了验证,为日后扩展到其他古汉语资源提供了参考。同时,基于该文工作得到的《淮南子》语料库也为日后的古汉语研究提供了有益的资源。 相似文献
18.
19.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。 相似文献