首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
文本挖掘中的中文分词算法研究及实现   总被引:4,自引:0,他引:4  
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

2.
回溯正向匹配中文分词算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。  相似文献   

3.
对当前中文分词算法中的最大匹配算法进行研究,详细分析用该算法的长词优先原则进行分词切分,分析最大匹配算法的分类和用简单的例子阐明算法思想,并同时指出最大匹配算法所存在的缺点,提出优化设想。  相似文献   

4.
中文分词算法之最大匹配算法的研究   总被引:2,自引:0,他引:2  
对当前中文分词算法中的最大匹配算法进行研究,详细分析用该算法的长词优先原则进行分词切分,分析最大匹配算法的分类和用简单的例子阐明算法思想,并同时指出最大匹配算法所存在的缺点,提出优化设想。  相似文献   

5.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

6.
中文分词算法解析   总被引:4,自引:0,他引:4  
中文分词是计算机中文信息处理中的难题,而中文分词算法是其中的核心,但由于中英文环境中语素的不同特点,使得中文必须要解决分词的问题。这篇文章较为深刻的阐述了中分分词的算法,基于对分词算法的理解和对匹配法分词的分析,对最大匹配分词方法进行了较深入的研究探讨,提出了什么算法是解决分词效率的最佳方法以及各种方法的比较优劣等问题,及可能产生的歧义.对不同的算法给予了充分的解释,通过对各种算法的比较,总结出了比较常用和效率较高的算法。  相似文献   

7.
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。  相似文献   

8.
基于Hash结构的逆向最大匹配分词算法的改进   总被引:8,自引:1,他引:7  
分析中文的语义,首先要对句子进行分词.中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果.对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM).该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义.实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高.  相似文献   

9.
汉语中词与词之间存在固定的搭配关系,基于词语搭配关系提出一种分词歧义性消除方法。该方法先利用正向和逆向最大匹配方法进行句子预切分,并对词的歧义性进行检测和词性标注,再对歧义词与词语搭配词典进行匹配或者动宾搭配判断,实现了较为准确的文档词语歧义性消除。通过词的歧义性检测实验和词语搭配检测对比实验,该方法取得了较好的效果。  相似文献   

10.
中文分词是汉语信息处理的前提,广泛应用于搜索引擎、自动翻译、中文文语转换(TTS)等领域。中文分词就是把没有明显分隔标志的中文字串切分为词串。基本算法主要有基于规则的方法和基于统计的方法及两者结合的方法。基于规则的方法的依据是分词词典和分词规则库,原理是字符串匹配,主要方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法等。基于统计的方法的依据是字与字间、词与词间的同现频率,但必须以大规模的文本训练为前提。  相似文献   

11.
网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。  相似文献   

12.
中文文本校对技术的研究与实现   总被引:2,自引:1,他引:2  
In this paper, we analyze the cause and types of Chinese text errors. Based on the weak relation between the error words and its adjoining words, we detect Chinese text errors using bi-gram as computational model. In this model, bi-cooccurrence probabilities, mutual information and t-test are applied. With context relation and likelihood match, the correction of Chinese text errors is implemented. The result of our experiment show the precise rate of the correction is 46.5%.  相似文献   

13.
Most of the text categorization algorithms in the literature represent documents as collections of words. An alternative which has not been sufficiently explored is the use of word meanings, also known as senses. In this paper, using several algorithms, we compare the categorization accuracy of classifiers based on words to that of classifiers based on senses. The document collection on which this comparison takes place is a subset of the annotated Brown Corpus semantic concordance. A series of experiments indicates that the use of senses does not result in any significant categorization improvement.  相似文献   

14.
以统计道藏目录的中文词频为例,讲述使用R处理Unicode中文的相关技巧和注意事项。  相似文献   

15.
基于文本挖掘的邮件分类与过滤   总被引:6,自引:0,他引:6  
该文提出一种基于文本挖掘的邮件分类与过滤的方法,它包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块。该系统不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发。  相似文献   

16.
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。  相似文献   

17.
文本分类中的高维数据和噪声一直是影响文本分类准确率的主要因素,特征选择和特征提取是降维和去噪的主要手段.本文提出根据词的类间概率分布方差和文档分布方差改进TF-IDF的特征选择方法(VAR-TF-IDF),调整Word2vec中的CBOW+HS词向量训练框架,用特征词词向量的叠加作为文本的特征向量,有效地提高了文本分类的准确率和召回率.实验算例证明了所提方案的有效性.  相似文献   

18.
基于Web文本挖掘中的一种中文分词算法研究   总被引:1,自引:0,他引:1  
基于Web文本挖掘问题,提出了一种改进的索引结构的词库组织体系及基于该词典结构的中文分词算法。同时,加强消除歧义方面的处理,分词精度有所提高。试验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。  相似文献   

19.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号