首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
《信息技术》2016,(11):152-156
汉语词典机制很大程度上影响中文分词的效率。为了提高现有基于词典的分词机制的查询效率,在双哈希词典机制和整词二分法相结合的基础上提出了一种有效的中文分词词典机制——双哈希编码分词词典机制。首字采用散列表保存,剩余字符逐个拼接计算其编码后放入余词散列表中,并加入状态值来减少匹配次数。实验结果表明该分词机制节省了内存空间和提高了匹配速度,方便词典更新与维护。  相似文献   

2.
一种全切分与统计结合的分词系统   总被引:1,自引:1,他引:0  
歧义消解是中文分词的主要问题之一.提出了一种全切分与统计结合的分词算法,构造出基于统计词典的有向无环词图,利用动态规划算法得出最佳的分词路径.实验证明,系统有效地提高了歧义切分的准确性及分词速度.  相似文献   

3.
本文提出了一种互联网影视评论分析方法,首先利用自动网页抓取技术和基于模板的信息抽取技术自动构建影视节目基本信息库,并自动获取影视节目的相关评论信息。然后利用前面构建的影视专业词典和中文分词技术对影视评论信息进行自动分词,并利用频繁项挖掘的方法自动发现电影评论中的频繁特征作为候选特征,结合情感词词典,得到电影的各个特征的情感倾向性分析结果。  相似文献   

4.
一种基于N-gram模型和机器学习的汉语分词算法   总被引:6,自引:0,他引:6  
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。  相似文献   

5.
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力.整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能.在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异.对于如何构建一个高效的中文检索系统,提出了一种实现方案.  相似文献   

6.
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。  相似文献   

7.
为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。  相似文献   

8.
汉语属于汉藏语系,和英语等语言不同的是:它不是以一个个单词的形式出现,词与词之间没有空格等明显的分割标记。中文分词是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提。中文分词系统的好坏将直接影响以中文分词系统为基础的系统的性能。因此对中文分词系统的评测就是一件十分有意义的事。  相似文献   

9.
《信息技术》2017,(11):167-171
中文分词一直是中文类搜索引擎的重要前提之一。针对经典的机械分词方法中字符串匹配的最长匹配字的选择问题,提出了一种基于Hash的词典结构,避免了最长匹配字的过长或过短。对于歧义的发现,引入了回溯机制,即算法在每次查询词语完毕后,再以查询的词语的最后一个字为首字,开始进行新一轮的查询。对于回溯机制带来的查询次数倍增问题,提出对词语末字的检验是否能成为首字的算法,减少查询次数和时间复杂度。该方法相比于其他融合方法,具有较快的查询速度和较好的歧义处理能力。  相似文献   

10.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.  相似文献   

11.
杨艳  邵枫 《光电子.激光》2019,30(2):200-207
为辅助诊断眼底疾病和部分心血管疾病,本文提 出一种基于双字典学习和多尺度线状结构检测的眼底图 像血管分割方法。首先在HSV颜色空间利用伽马矫正均衡眼底图像的亮度,并在Lab颜色空间 采用CLAHE 算法提升图像对比度,再采用多尺度线状结构检测算法突出血管结构得到增强后的特征图像 ;然后利用 K-SVD算法训练特征图像块和对应的手绘血管标签图像块,得到表示字典和分割字典,采用 表示字典得到 新输入特征图像块的重构稀疏系数,由该系数和分割字典获得血管图像块;最后进行图像块 拼接、噪声去 除和空洞填充等后处理得到最终分割结果。在DRIVE和HRF数据库测试,利用准确率、特异度 、敏感度 等八种评估指标来检验分割性能。其中,平均准确率分别达0.958和0.951,平均特异度分别 达到0.982 和0.967,平均敏感度分别达到0.709和0.762,表明该 方法具有较好的分割性能和通用性。  相似文献   

12.
当今社会在步入一个大数据时代,时间和效率举足轻重。因此设计和开发出一款能快速检索目标词汇的电子词典具有十分重要的现实意义。开发的电子词典系统运用Windows API开发,采用Trie树的数据结构设计。结果表明:电子词典实现了Trie树结构的存取和快速Hash映射查词,实现主流电子词典常用功能,包括单词查找、添加生词、我的单词本、课程设置、单词测试和帮助等,可满足大部分用户的需求,具有良好的扩展性。  相似文献   

13.
中文分词技术的研究现状与困难   总被引:2,自引:0,他引:2  
孙铁利  刘延吉 《信息技术》2009,(7):187-189,192
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向.  相似文献   

14.
1 IntroductionWord is the starting point for natural language pro-cessing,information retrieving,and machine translation.There is no space or any other physical means to marktheboundaries of words in Chinese.Thus,howto i mprove theaccuracy and efficiency …  相似文献   

15.
一种给批量汉字加注带有声调拼音的方法   总被引:1,自引:1,他引:0  
由于汉字存在着多音字的情况,所以给汉字加注带有声调的拼音带来了困难.为了解决这一问题,设计了单字与词语相结合的加注方法.首先构建了带有声调的拼音字典和词典,拼音字典中同一个多音字的拼音按照使用频率进行排放,并且对词典中的词语按照最后一个字进行了索引;然后设计了基于整词二分的二层索引结构,实现了改进的最大逆向分词算法;最后设计了三种实验方案,进行了对比实验.实验结果表明,在没有使用该方法前它的错误率为11%,使用后错误率下降为0.09%.  相似文献   

16.
崔虹燕 《信息技术》2008,32(4):124-125
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率.  相似文献   

17.
The traditional short-text classification's accuracy usually highly relies on statistical feature selection. Owing to the fact that short-text has inherent defects such as short length, weak signal and less features. It is hard to avoid noise words when doing feature extension which will highly influence the accuracy of classification. In order to solve the above problem, this paper proposes a semantic dictionary method for short-text classification. The method builds a set of domain dictionary by analyzing the specific characteristics in certain field. As each word's weight in the dictionary is designed according to the correlation between the word and the category, classification accuracy has improved to some extent. Then, in order to enhance dictionary vocabulary coverage, association rules are utilized to automatically extend semantic dictionary. Finally, an experiment based on micro-blog data is conducted which shows that the method has a good effect.  相似文献   

18.
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。  相似文献   

19.
中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构数据处理方法,对不同语料数据加上两个人工设定的标识符,使用处理过的数据应用于双向长短期记忆网络结合条件随机场(Bi-LSTM-CRF)的中文分词模型的联合训练。实验结果表明,基于异构数据联合训练的Bi-LSTM-CRF模型比单一数据训练的模型具有更好的分词性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号