共查询到19条相似文献,搜索用时 62 毫秒
1.
《电子技术与软件工程》2016,(4)
中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、自然语言理解等中文信息处理领域的基础。目前中文分词依然是中文信息处理的瓶颈之一,本文对常见中文分词算法进行研究,并针对警务应用的场景,在经典的Jieba中文分词算法的逆向匹配法基础上提出双向最大匹配法,最后验证改进后的算法在中文分词准确度方面的提升。 相似文献
2.
首先对DGP系统作了一个简单的介绍,在对DGP系统将要实现的功能有了一个大致的了解的基础上,然后通过对现有的分词技术的深入了解分析之后,决定将双向最大匹配法进行改进之后运用于DGP系统之中。对双向最大匹配法的改进主要是针对词典,方法就是根据词的长度将词典分成一个一个的块,每一块具有相同的词长。通过对双向最大匹配法的改进,提高了DGP系统分词效率和搜索的准确率,最后达到了优化DGP系统的目的。 相似文献
3.
一种基于Lucene的中文分词的设计与测试 总被引:1,自引:1,他引:1
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力.整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能.在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异.对于如何构建一个高效的中文检索系统,提出了一种实现方案. 相似文献
4.
5.
6.
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 相似文献
7.
本文介绍了国内外图书文献检索系统的发展及其在我国的现状和所存在的问题,对汉语自动分词问题进行了阐述,并提出了一种综合的分词方法。 相似文献
8.
《电子技术与软件工程》2016,(1)
实现了一种基于哈希表索引和匹配算法的藏文分词的系统。进行分词时,为达到消除部分歧义的目的,采用了正向最大匹配和逆向最大匹配算法相结合的方式进行藏文分词,通过分别计算两种分词结果的频率,然后选择频率较大的一个。最终,通过对26个不同大小的文本对该系统进行测试和分析,得出了分词准确率在92%以上的结论。 相似文献
9.
本文重点研究了如何改进中文分词算法,并根据新的中文算法,设计出可以满足Hadoop文件系统可视化文件搜索引擎研究的中文分析器MyAnalyzer。 相似文献
10.
汉语属于汉藏语系,和英语等语言不同的是:它不是以一个个单词的形式出现,词与词之间没有空格等明显的分割标记。中文分词是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提。中文分词系统的好坏将直接影响以中文分词系统为基础的系统的性能。因此对中文分词系统的评测就是一件十分有意义的事。 相似文献
11.
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理.针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径.最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路. 相似文献
12.
13.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。 相似文献
14.
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率. 相似文献
15.
基于量子最大熵多阈值算法的图像分割研究 总被引:2,自引:0,他引:2
针对图像分割中的问题,采取量子多阈值最大熵算法.首先确定图像信息最大熵的概率密度函数,求解出熵最大化验前密度;接着把图像用灰度值分成背景和物体两个区域,统计不同的灰度等级内像素的量子比特值,由所占的比例得出像素点的最佳分割阈值;最后给出了算法步骤.实验仿真给出了不同算法的图像分割结果,本文算法对噪声的抑制能力较强,得到较高精度的图像,并且保留了边缘的重要信息. 相似文献
16.
针对目前已有的基于信念传播的分布式算法在处理一般图时会出现振荡与不确定现象,导致无法收敛或收敛至不正确解这些方面的不足,分析了其中的振荡现象并改进了相邻边交换消息的计算公式,以及对其中的不确定现象并提出了一种新的处理方法,以消除不确定性,从而形成了一种改进的基于信念传播的分布式最大权匹配算法。仿真结果表明,改进算法具有接近于最优解的良好性能。 相似文献
17.
基于中文分词技术的信息智能过滤系统 总被引:1,自引:0,他引:1
讨论了中文信息的智能过滤问题,综合考虑了系统的准确性和智能性,将中文分词技术和贝叶斯推理相结合,并针对目前不良信息的特点,改进了中文分词算法。实验证明此系统对不良信息的智能识别具有很高的准确性。 相似文献
18.
基于改进模版匹配的车牌字符分割 总被引:1,自引:0,他引:1
车牌字符分割是车牌识别系统中的关键技术之一。为了有效地对车牌字符进行分割,提出了一种基于改进模版匹配的新方法,该方法包括车牌区域图像预处理、车牌字符校正、车牌字符去边框处理和改进模版匹配的车牌字符分割处理等四个步骤。与传统的车牌字符分割方法相比,该方法不仅能够在正常条件下对车牌字符有效地进行字符分割,而且还可以有效地解决车牌字符粘贴、车牌字符残缺和车牌字符区域质量差等情况的车牌字符分割问题。实验结果表明,该方法具有算法简单、实时性强和分割效果好等优点。 相似文献
19.
自动化安检技术是维护公共安全、提升安检效率的一项有效措施。在实际场景中很难获得充足的违禁品标注样本用于神经网络的训练,并且在不同场景和安全级别下违禁品的类别也有所不同。为解决基于神经网络的违禁品检测方法所面临的样本不均衡问题,以及避免模型在分割新的违禁品类别时需重新训练的现象,文中提出一种基于图匹配网络的小样本违禁物品分割算法。文中模型将测试图像与参考图像并行输入到图匹配网络中,并根据匹配结果从测试图像中分割出违禁品。所设计的图匹配模块不仅从图间节点的相似性考虑匹配问题,并利用DeepEMD算法建立全局概念,进一步提高测试图和参考图的匹配结果。在SIXray数据集和Xray-PI数据集上的实验表明:本模型在单样本分割任务中得到36.4%和51.2%的类平均交并比,分别比目前先进的单样本分割方法提高2.5%和2.3%。由此表明所设计的算法能有效提升小样本X光图像分割算法的精确度。 相似文献