期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

申兵一巩青歌《计算机与网络》2010,(1):60-63

中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。相似文献

2.

面向建筑领域的中文分词方法研究

李鹏光永星乔天玲操峻岩《电脑与信息技术》2021,29(5):67-72

中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题.建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好.提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别.首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词.通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92％,召回率提高了7.61％,因此最终的分词效果在准确率和召回率分别可达到82.15％、80.45％. 相似文献

3.

中文分词对中文信息检索系统性能的影响 总被引：7，自引：0，他引：7

曹桂宏何丕廉吴光远聂颂《计算机工程与应用》2003,39(19):78-80,90

中文分词作为中文信息处理最重要的预处理手段被广泛应用,该文从两个方面(检索精度和召回率)深入研究了中文分词精度和分词算法对中文信息检索性能的影响。此外,提出了两个假设,并在此基础上给出了一种提高中文信息检索系统性能的方法。实验表明,新方法能够取得很好的结果,证实了这两个假设。相似文献

4.

基于数据驱动的中文分词方法研究

李知兵李龙澍《现代计算机》2007,(12):8-10,19

中文自动分词是计算机中文信息处理中的难题.介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大<人民日报>标注语料库中进行封闭测试,取得较好的效果.系统包含了一个新词识别器、一个基本分词算法和实现单字构词、词缀构词以及一致性检验的程序. 相似文献

5.

面向专业领域的中文分词方法

下载免费PDF全文

成于思施云涛《计算机工程与应用》2018,54(17):30-34

在专业领域分词任务中,基于统计的分词方法的性能受限于缺少专业领域的标注语料,而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性,提出统计与词典相结合的分词方法,完善领域词典构建流程,设计基于规则和字表的二次分词歧义消解方法。在工程法领域语料上进行分词实验。实验结果表明,在工程法领域的分词结果准确率为92.08%,召回率为94.26%,F值为93.16%。该方法还可与新词发现等方法结合,改善未登录词的处理效果。相似文献

6.

汉语自动分词研究及其在信息检索中的应用 总被引：10，自引：0，他引：10

曹倩丁艳王超潘金贵《计算机应用研究》2004,21(5):71-74,91

汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。相似文献

7.

中文信息检索引擎中的分词与检索技术 总被引：32，自引：2，他引：32

吴栋滕育平《计算机应用》2004,24(7):128-131

文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。相似文献

8.

中文分词算法概述 总被引：7，自引：0，他引：7

龙树全赵正文唐华《数字社区&智能家居》2009,5(4):2605-2607

当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入．中文分词是中文信息的关键技术之一．其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论．为中文分词的进一步发展提供基础和方向。相似文献

9.

中文分词算法概述

龙树全赵正文唐华《数字社区&智能家居》2009,(10)

当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入。中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。相似文献

10.

中文分词技术的研究 总被引：1，自引：0，他引：1

刘红芝《电脑开发与应用》2010,23(3):1-3

对中文分词的主要算法进行了研究,阐述了中文分词中存在的困难及其解决方法,最后指出了中文分词的未来研究工作。相似文献

11.

现代汉语通用分词系统中歧义切分的实用技术 总被引：8，自引：0，他引：8

罗智勇宋柔《计算机研究与发展》2006,43(6):1122-1128

歧义切分技术是中文自动分词系统的关键技术之一.特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求.从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略.对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%. 相似文献

12.

利用上下文信息解决汉语组合型歧义 总被引：1，自引：0，他引：1

冯素琴陈惠明《电脑开发与应用》2007,20(1):23-25

汉语自动分词问题是制约中文信息处理发展的瓶颈之一,歧义切分又是影响分词系统切分精度的重要因素。在对已有方法深入分析的基础上,提出利用上下文信息的消歧策略。结果显示,经多次学习后搭配信息显示的消歧参数逐渐趋于稳定,且消歧准确率有大幅度提高。相似文献

13.

基于矩阵约束法的中文分词研究

下载免费PDF全文

张素智刘放美《计算机工程》2007,33(15):98-100

分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。相似文献

14.

基于PATRICIA tree的汉语自动分词词典机制 总被引：17，自引：2，他引：17

杨文峰陈光英李星《中文信息学报》2001,15(3):45-50

分词词典是汉语信息处理系统的一个基本组成部分,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIA tree的数据结构,设计了一种可以对词典词条进行快速查询、更新的分词词典机制,并从理论上初步分析了它的性能。最后通过实验,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明,基于PATRICIA tree的分词词典机制具有更高的查询速度和更新效率,能满足大规模、开放文本处理系统的需求。相似文献

15.

分词规范亟需补充的三方面内容

李玉梅陈晓姜自霞易江燕靳光瑾黄昌宁《中文信息学报》2007,21(5):1-7

本文认为,为提高语料库的分词标注质量应在分词规范中补充三个内容: ①命名实体(人名、地名、机构名)标注细则;②表义字串(日期、时间、百分数等)标注细则;③歧义字串的消解细则。因为一方面命名实体和表义字串已被不少分词语料库视为分词单位,另一方面在以往的分词规范中几乎从不谈及歧义消解问题。其实人们对歧义字串的语感往往是不同的。因此有必要在规范中对典型的歧义字串予以说明。实践表明,在规范中交待清楚以上三方面内容,就可以在很大程度上避免标注的错误和不一致性。相似文献

16.

中文自动分词系统的设计模型 总被引：10，自引：1，他引：9

邓宏涛《计算机与数字工程》2005,33(4):138-140

介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。相似文献

17.

中文信息处理中自动分词技术的研究与展望 总被引：22，自引：0，他引：22

刘迁贾惠波《计算机工程与应用》2006,42(3):175-177,182

汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。相似文献

18.

汉语自动分词中的歧义处理

张辉丽孟昭鹏王慧芝《微计算机应用》2006,27(6):685-688

歧义处理是影响分词系统切分精度的重要因素，是自动分词系统设计中的一个核心问题。本文介绍了一种新的分词算法，利用汉语句内相邻字之间的互信息及t-信息差这两个统计量，解决汉语自动分词中的歧义字段的切分问题。试验结果表明，该方法可以有效地提高歧义处理的正确率。相似文献

19.

汉语自动分词方法 总被引：26，自引：0，他引：26

下载免费PDF全文

殷建平《计算机工程与科学》1998,20(3):60-66

本文给出了为汉语自动分词而提出了机械匹配法，特征词库法，约束矩法，语法２分析法和理解切法。相似文献

20.

HDP与互信息相结合的中文无指导分词

曹自强李素建《中文信息学报》2013,27(6):1-6

该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益。互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法。不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%。该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%。相似文献