共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
3.
4.
快速书面汉语自动分词系统及其算法设计 总被引:11,自引:1,他引:11
本文针对机械分词,提出词典组织结构、改进的二分法检索、直接匹配算法,以及后缀分词算法。运用这些技术,正逆向切分可共用一部词典,并显著提高分词速度。 相似文献
5.
本文阐述了自动分词技术的理论与技术创新点,提出了一个适用于中英文WWW搜索引擎的分词器的实现,它具有高速的特点,同时具有较好的切分精度。该分词技术能对外提供基于全文和关键字检索的接口,并采用一系列的策略来提高切分速度,优化结构。它已应用于“中英文WWW搜索引擎系统”中,应用效果较好。 相似文献
6.
一、神经网络的基本特征和信息处理能力 神经网络是一个具有高度非线性的超大规模连续时间动力系统,其最主要特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能力。同时它又具有一般非线性动力系统的共性,即不可预测性、吸引性、耗散性、非平衡性、不可逆性、高维性、广泛联结性与自适应性等。因此它实际上是一个超大规模非线性连续时间自适应信息处理系统。 相似文献
7.
8.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上. 相似文献
9.
汉语计算机自动分词知识 总被引:17,自引:3,他引:17
汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。 相似文献
10.
11.
一种改进的快速分词算法 总被引:38,自引:0,他引:38
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。 相似文献
12.
自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义。以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该因子消除组合型歧义。通过样例说明和实验验证该方法可行并优于现有技术。 相似文献
13.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。 相似文献
14.
利用汉字二元语法关系解决汉语自动分词中的交集型歧义 总被引:52,自引:2,他引:52
本文提出了一种利用句内相邻之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。初步的实验结果显示,可以正确处理90.3%的交集字段。 相似文献
15.
汉语简繁体转换与语词切分 总被引:2,自引:0,他引:2
随着港澳台湾及世界华人地区与中国大陆文化经济的交流日益频繁,利用电脑开发一种自动化的准确高效的简繁汉字系统显得越来越重要。本文罗列了简繁汉字转换在单词等诸多方面存在的问题,提供了我们已实现并投入使用的系统功能的特点,文章还介绍了本系统所涉及的汉字交换码架和内码,解释了几种语词切分算法以及切分歧义,最后对本系统的可维护性、转换正确率和转换速度三个主要方面进行了性能分析并给出了测试结果。 相似文献
16.
中文文本压缩的LZSSCH算法 总被引:7,自引:2,他引:7
本文结合中文的特点,从建模编码、自适应索引扩位和最大索引位长等方面对LZSS 算法进行了修改,得到的LZSSCH 算法对以中文为主的中西文混合文本文件的压缩比平均与LZSS 算法高出约8 % ,而其压缩和扩展速度以及可执行程序的大小均与LZSS算法相当。算法无须任何预处理,还可用于压缩其它非拼音文字文本文件。 相似文献
17.
18.
针对中文检索的Lucene改进策略 总被引:4,自引:0,他引:4
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。 相似文献
19.
本文实现了一个基于综合匹配法的汉字识别后处理系统,该方法既利用了帝级识别结果的信息,又利用了汉语中字的上下文制约关系,即组字成词的信息,同时用了词的使用频度。 相似文献