首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于词平台的中文文档实验系统的构建   总被引:1,自引:1,他引:0  
文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台.文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来.使用这种基于词的编码格式可以使词成为计算机中文处理中的最小信息栽体,无须再进行中文分词.文章使用该方法进行了关键词自动抽取的实验研究.结果显示,基于词编码的中文文档实验系统能很好的解决中文分词问题,并给其它中文文本分析奠定良好基础.  相似文献   

2.
中文分词对中文信息检索系统性能的影响   总被引:7,自引:0,他引:7  
中文分词作为中文信息处理最重要的预处理手段被广泛应用,该文从两个方面(检索精度和召回率)深入研究了中文分词精度和分词算法对中文信息检索性能的影响。此外,提出了两个假设,并在此基础上给出了一种提高中文信息检索系统性能的方法。实验表明,新方法能够取得很好的结果,证实了这两个假设。  相似文献   

3.
中文信息检索引擎中的分词与检索技术   总被引:32,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

4.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

5.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

6.
基于向量空间模型的中文信息检索技术研究   总被引:15,自引:1,他引:15  
该文运用在西文信息检索中非常成功的向量空间模型来解决中文信息检索的问题,在中文文档的特征项抽取,加权、相似度计算,模型的建立等方面做了一些探讨,并建立系统原型,在小范围内进行了测试。  相似文献   

7.
在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。  相似文献   

8.
歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率.对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出了一种基于多元关系模型的能够有效解决歧义切分的中文分词系统模型并简要分析了这种模型未来的优化方向.  相似文献   

9.
在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。  相似文献   

10.
作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提...  相似文献   

11.
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。  相似文献   

12.
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。  相似文献   

13.
词语相关程度计算是语义计算的基础。维基百科是目前最大、更新最快的在线开放式百科全书,涵盖概念广,概念解释详细,蕴含了大量概念间关联关系,为语义计算提供了丰富的背景知识。然而,中文维基百科中存在严重的数据稀疏问题,降低了中文词语相关度计算方法的有效性。针对这一问题,该文利用机器学习技术,提出一种新的基于多种维基资源的词语相关度学习算法。在三个标准数据集上的实验结果验证了新算法的有效性,在已知最好结果的基础上提升了20%—40%。
  相似文献   

14.
古汉语双字词自动获取方法的比较与分析   总被引:1,自引:0,他引:1  
词汇的自动获取在自然语言生成、计算词典编纂、句法分析以及语料库语言学等领域均有着重要的研究价值。该文针对古汉语双字词的自动获取问题,以《史记》全文语料为例,分别应用基于频率、互信息、假设检验的统计方法获取古汉语双字词,并结合人工标注结果进行了详细的比较和分析,评价了各方法的优缺点及可靠性,为不同应用背景下的古汉语双字词自动获取提供了相应的解决方案。  相似文献   

15.
汉语分词系统中的信息集成和最佳路径搜索方法   总被引:11,自引:1,他引:10  
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分词系统SegTag中信息集成方法,并讨论了信息集成结构中的两种最佳路径搜索方法。最后,我们给出实验结果和结论。  相似文献   

16.
基于多功能逻辑运算分析技术的汉语分词   总被引:3,自引:0,他引:3  
文中提出了一种基于多功能运算分析技术的汉语自动分词方法,其特点是在汉语词语字序列的计算机内部表示上采用多功能逻辑运算表达式方式,从而使汉语分词过程中以往有用的简单模式比较匹配转换为多模式逻辑运算下的功能操作。  相似文献   

17.
现代汉语分词系统通用接口设计与实现   总被引:7,自引:0,他引:7  
现代汉语文本自动分词是中文信息处理的重要基石,为此提供一个通用的分词接口是非常重要的。本文提出了通用分词接口的目标,论述了它的原理和设计方案。该系统已经初步实现。  相似文献   

18.
全二分最大匹配快速分词算法   总被引:29,自引:1,他引:29  
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。  相似文献   

19.
多次Hash快速分词算法   总被引:4,自引:1,他引:4  
中文分词是中文信息处理的一个重要的组成部分.一些应用不仅要求有较高的准确率,速度也是至关重要的.通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法.该算法不仅实现对词首字的Hash查找,也实现了词的其它字的Hash查找.理论分析和实验结果表明,该算法在速度上优于现有的其它分词算法.  相似文献   

20.
汉语分词词典设计   总被引:8,自引:1,他引:8  
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号