期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

何国斌赵晶璐《计算机工程与应用》2010,46(3):125-127

分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。相似文献

2.

基于Hash结构词典的逆向回溯中文分词技术研究

梁桢李禹生《计算机工程与设计》2010,31(23)

为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法.针时首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题.实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标. 相似文献

3.

基于矩阵约束法的中文分词研究

下载免费PDF全文

张素智刘放美《计算机工程》2007,33(15):98-100

分词识别和歧义消除是影响信息检索系统准确度的重要因素，该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上，从语境角度分析歧义字段，提高分词准确率。系统可以将输入的连续汉字串进行分词处理，输出分割后的汉语词串，并得到一个词典。再用《现代汉语语法信息词典》进行处理，实验结果显示分词准确率能提高10%左右。相似文献

4.

一种面向网络答疑的汉语切分歧义消除算法 总被引：3，自引：0，他引：3

张素娟郑庆华胡云华孙霞《计算机工程与应用》2004,40(25):55-58

针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。相似文献

5.

基于Hash结构词典的双向最大匹配分词法

陈之彦李晓杰朱淑华付丹龙邢诒海《计算机科学》2015,42(Z11):49-54

针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一种新的词典构造方法并设计了相应的双向最大匹配算法,同时在算法中加入了互信息歧义处理模块来处理分词中出现的交集型歧义。该算法可以在分词的过程中显著提高分词的精确度,适用于对词语切分精度要求较高的中文语言处理系统。相似文献

6.

基于二元关系分词模型解决歧义词切分

万仲保张赢《微计算机信息》2009,25(21)

歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率.对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出了一种基于多元关系模型的能够有效解决歧义切分的中文分词系统模型并简要分析了这种模型未来的优化方向. 相似文献

7.

基于词语搭配关系的一种中文分词歧义性消除方法

《计算机应用与软件》2016,(10)

汉语中词与词之间存在固定的搭配关系,基于词语搭配关系提出一种分词歧义性消除方法。该方法先利用正向和逆向最大匹配方法进行句子预切分,并对词的歧义性进行检测和词性标注,再对歧义词与词语搭配词典进行匹配或者动宾搭配判断,实现了较为准确的文档词语歧义性消除。通过词的歧义性检测实验和词语搭配检测对比实验,该方法取得了较好的效果。相似文献

8.

结合CRFs的词典分词法

张硕果汪成亮《计算机系统应用》2010,19(11):115-118

逐字分词法是以汉语词典为基础对中文语句通过匹配进行切分的方法。该方法在分词中无法解决交叉歧义与组合歧义带来的问题。本文以词典分词为基础,从序列标注的角度,在逐字匹配过程中使用CRFs标注模型提供辅助决策,由此来处理歧义问题。经实验和分析,该方法较传统的CRFs模型分词法和词典分词,更适合对分词速率及正确率都有一定要求的系统。相似文献

9.

一种基于多元信息库的自适应汉语歧义切分方法

朱巧明温滔李培蜂钱培德《小型微型计算机系统》2006,27(8):1597-1600

在分析目前分词方法的基础上提出了一种通过建立多元信息库、采用改进型的粗分算法以拔出所有可能存在歧义的句子、借助于人工干预建立错误切分歧异词库等，实现汉语歧异切分的方法，通过修改、插入多元信息库中的信息量，进一步设计了一个具有自适应能力的歧义切分方法，并通过实验证明该方法能够有效改进汉语分词中错误歧义切分的结果．相似文献

10.

改进的基于词典的中文分词方法

莫建文郑阳首照宇张顺岚《计算机工程与设计》2013,34(5)

为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法.该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题.实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间. 相似文献

11.

面向专业领域的中文分词方法

下载免费PDF全文

成于思施云涛《计算机工程与应用》2018,54(17):30-34

在专业领域分词任务中,基于统计的分词方法的性能受限于缺少专业领域的标注语料,而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性,提出统计与词典相结合的分词方法,完善领域词典构建流程,设计基于规则和字表的二次分词歧义消解方法。在工程法领域语料上进行分词实验。实验结果表明,在工程法领域的分词结果准确率为92.08%,召回率为94.26%,F值为93.16%。该方法还可与新词发现等方法结合,改善未登录词的处理效果。相似文献

12.

基于条件随机场的中文领域分词研究

朱艳辉刘璟徐叶强田海龙马进《计算机工程与应用》2016,52(15):97-100

针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果F值分别提升了7.6%和8.7%。相似文献

13.

一种引入动态词库更新的中文分词架构

刘芳芳王晶沈奇威《计算机系统应用》2013,22(3):100-103,50

针对互联网环境下新词出现和更新频率高的特点,将机械分词与基于规则分词相结合,提出一种动态更新词库的中文分词架构.本架构给出了新的词典设计结构及歧义处理规则,并将统计学中的互信息概念运用到新词判定环节.实验表明本文提出的中文分词架构具有较高的准确率和良好的适应性. 相似文献

14.

中文分词词典结构的研究与改进

叶继平张桂珠《计算机工程与应用》2012,48(23):139-142

汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。相似文献

15.

综合最大匹配和歧义检测的中文分词粗分方法

李国和刘光胜秦波波吴卫江李洪奇《计算机工程与应用》2012,48(14):139-142,167

中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。相似文献

16.

基于无监督学习的专业领域分词歧义消解方法

修驰宋柔《计算机应用》2013,33(3):780-783

中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。相似文献

17.

使用二级索引的中文分词词典 总被引：3，自引：0，他引：3

下载免费PDF全文

张庆扬柴胜《计算机工程与应用》2009,45(19):139-141

中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。相似文献

18.

基于汉语拼音首字母索引的混合分词算法

杨进才陈忠忠谢芳胡金柱《计算机系统应用》2016,25(4):221-225

中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高. 相似文献