期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

许高建胡学钢王庆人《微机发展》2007,17(12):122-124

文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。相似文献

2.

文本挖掘中的中文分词算法研究及实现 总被引：4，自引：0，他引：4

许高建胡学钢王庆人《计算机技术与发展》2007,17(12):122-124,172

文本挖掘是指使用数据挖掘技术，自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的，因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用，分词的速度是极为重要的，对整个系统的效率有很大的影响。分析了几种常见的分词方法，设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度，对加强歧义消除和词语优化的算法进行了研究处理。相似文献

3.

一种改进的最大匹配中文分词算法

闻玉彪贾时银邓世昆李远方《微机发展》2011,(10):92-94,98

最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。相似文献

4.

基于词典的中文分词算法研究

周程远朱敏杨云《计算机与数字工程》2009,37(3):68-71

中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。相似文献

5.

一种组合型中文分词方法

郑晓刚韩立新白书奎曾晓勤《计算机应用与软件》2012,29(7):26-28,39

设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。相似文献

6.

一种改进的中文分词正向最大匹配算法 总被引：1，自引：0，他引：1

王瑞雷栾静潘晓花卢修配《计算机应用与软件》2011,28(3)

正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端.针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法.与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法.改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高. 相似文献

7.

汉语文本自动分词算法的研究 总被引：2，自引：0，他引：2

下载免费PDF全文

何国斌赵晶璐《计算机工程与应用》2010,46(3):125-127

分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。相似文献

8.

一种基于双哈希二叉树的中文分词词典机制

《计算机应用与软件》2013,(5)

汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。相似文献

9.

有限状态机在中文文本分词中的应用

火善栋《现代计算机》2010,(6):30-33

提出并实现一种有限状态机算法,该方法结合二分查找树算法将整个词典构造成一个有限状态机,从而使词典中的每个不同的汉字以不同弧权值的形式存在于有限状态机中.当要判断某个字符串是不是词时,只要从这个有限状态机的第一个状态结点依次进行查找即可.实验显示,通过这个有限状态机词典可以实现对字符串的快速查找. 相似文献

10.

中文分词算法解析 总被引：4，自引：0，他引：4

张磊张代远《数字社区&智能家居》2009,5(1):192-193

中文分词是计算机中文信息处理中的难题,而中文分词算法是其中的核心,但由于中英文环境中语素的不同特点,使得中文必须要解决分词的问题。这篇文章较为深刻的阐述了中分分词的算法,基于对分词算法的理解和对匹配法分词的分析,对最大匹配分词方法进行了较深入的研究探讨,提出了什么算法是解决分词效率的最佳方法以及各种方法的比较优劣等问题,及可能产生的歧义．对不同的算法给予了充分的解释,通过对各种算法的比较,总结出了比较常用和效率较高的算法。相似文献

11.

基于交叉覆盖算法的中文文本分类 总被引：1，自引：0，他引：1

下载免费PDF全文

刘政怡龚建成吴建国《计算机工程》2006,32(19):183-184

基于向量空间模型的文本分类过程中遇到的最大问题就是以词为特征项的向量维数太大，需要进行特征选取，而交叉覆盖算法的输入集是n维欧式空间的点集，可以忽略维数的大小，从而最大程度上精确地表示文本，然后再进行分类，能够大大提高正确率。将交叉覆盖算法作为一种分类算法来进行中文文本分类，取得了不错的效果，在封闭测试中的准确率达到98.32%。相似文献

12.

基于COSA算法的中文文本聚类 总被引：5，自引：0，他引：5

谷波李济洪刘开瑛《中文信息学报》2007,21(6):65-70

传统聚类算法在计算两个对象间的距离时,每个属性对距离的贡献相同。COSA(Clustering On Subsets of Attributes)算法^[1]认为在不同的分组中,每个属性对计算距离所起的作用可能并不相等,因为不同分组中的对象可能在不同的属性子集上聚集。文献[1]在此基础上定义了新的距离,并提出了两种COSA算法: COSA1算法是一种分割的聚类算法;COSA2算法是一种层次聚类算法。为了对比COSA距离和传统的欧氏距离在文本聚类中的表现,本文对中文文本进行了分割聚类和层次聚类的实验。实验结果显示出COSA算法较基于欧氏距离的聚类算法有更好的性能,而且对于属性数的变化,COSA算法更加稳定。相似文献

13.

Web藏文文本资源挖掘与利用研究

刘汇丹诺明花马龙龙吴健贺也平《中文信息学报》2015,29(1):170-177

该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。相似文献

14.

基于HTML结构的Web文本主题挖掘研究

隋丽萍徐承韬李瑞芳《广东电脑与电讯》2007,(1):47-51

随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。相似文献

15.

一种中文分词词典新机制——四字哈希机制 总被引：9，自引：0，他引：9

张培颖李村合《微型电脑应用》2006,22(10):35-36,55

词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。相似文献

16.

规则与统计相结合的分词算法

陈宏彦陈俊杰《电脑开发与应用》2006,19(8):43-45

纵观信息爆炸时代的特征,信息量虽然急剧增大,但信息类型还是有限的。笔者提出,在分词之前先由用户通过选择特定领域词库来确定核心词汇,然后再有的放矢地进行单词切分的工作,分词效率从单纯使用统计算法的85.88%,提高到了91.46%。相似文献

17.

一种基于词编码的中文文档格式 总被引：1，自引：0，他引：1

焦慧刘迁贾惠波《计算机科学》2008,35(10):162-164

分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍.基于中文词的编码方法,以每个词作为一个单位,对词进行编码.此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路.采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果. 相似文献

18.

汉语词典的快速查询算法研究 总被引：5，自引：0，他引：5

李江波周强陈祖舜《中文信息学报》2006,20(5):33-41

汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TRIE机制的汉语词典查询算法,并提出了基于双编码机制的词典查询算法。最后以逐字二分法查询性能为基准,使用这两种词典询机制进行了词语直接查询和分词查询两种应用的性能测试。经过实验分析,双数组TRIE机制的词典查询算法在查询速度上提高明显,查询速度约是逐字二分法的5倍。双编码机制的的词典查询算法查询速度有一定提高,而且调整机制更加灵活。相似文献

19.

基于最大匹配的中文分词概率算法研究 总被引：1，自引：0，他引：1

下载免费PDF全文

何国斌赵晶璐《计算机工程》2010,36(5):173-175

结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。相似文献