期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

并行分词方法的研究 总被引：10，自引：0，他引：10

吴胜远《计算机研究与发展》1997,34(7):542-545

目前，中文分词方法都是属于串行分词方法。本文提出了一种并行分词方法，该方法是根据多级内码理论设计的，它大大提高了分词的速度，并行分词方法还便于设计成集成电路。相似文献

2.

并行数据库系统的体系结构 总被引：1，自引：0，他引：1

杨利周兴铭《计算机科学》1994,21(4):42-47

一、引言进入九十年代以来,越来越多的应用表明,传统的大型计算机系统缺乏支持高性能联机事务处理和复杂查询操作的能力。当今数据库规模的急剧澎胀、数据库工作负载的日益加重,以及新的应用领域的不断出现和成熟,已使传统的大型计算机达到了性能的极限。例如,美国国家专利局的信息数据库的信息量高达25太字节(1980年)[1],即使使用目前最快的大型机,按每秒处理100兆字节的处理速度,要把这个数据库全部检索一遍,也要花费100小时。设计支持海量数据和满足实时要求的高性能的数据库系,统已经成为数据库研究领域所面临的一项严峻挑战。相似文献

3.

并行计算机体系结构概述

张士平《抗恶劣环境计算机》1992,6(1):29-39

相似文献

4.

并行数据库的体系结构 总被引：5，自引：0，他引：5

下载免费PDF全文

杨利周兴铭《计算机工程与科学》1994,16(2):7-17

本文从系统结构的角度论述了并行数据库系统的研究内容、技术与方法。相似文献

5.

书面汉语的全切分分词算法模型 总被引：11，自引：1，他引：10

万建成杨春花《小型微型计算机系统》2003,24(7):1247-1251

本文首先讨论了全切分研究的问题，然后从一般性出发提出了全切分的求解公式、切分树、全切分DAG(无环有向)图和全切分的抽象算法模型，在此基础上特别指出了全切分普遍存在的重复切分问题．进而，本文针对串行全切分分词算法和剪技的方法进行了研究，给出了串行全切分分词方法的算法模型．相似文献

6.

利用上正文信息解决汉语自动分词中的组合型歧义 总被引：3，自引：0，他引：3

肖云邹嘉彦等《计算机工程与应用》2001,37(19):87-89,106

组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法，选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略，继而根据实验定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素，并且针对数据稀疏问题，利用词的语义代码信息对征矩阵进行了降维处理，取得了较好的效果。笔者相信，这个模型对组合型歧义切分字段的排歧具有一般性。相似文献

7.

中文分词研究

张黎徐蔚然《软件》2012,33(12)

中文分词是中文文本处理和自然语言处理中最基本和最重要的研究,它效果的好坏直接影响到所在领域中进一步研究的效果.本文对于已有的基于词典,基于统计,基于理解的分词方法进行了详细的阐述和讨论,分析了它们的优点和不足,并且介绍了现在的难点,在此基础上,为中文分词的进一步发展提供了建议. 相似文献

8.

利用上下文信息解决汉语自动分词中的组合型歧义 总被引：15，自引：2，他引：15

肖云孙茂松邹嘉彦《计算机工程与应用》2001,37(19):87-89

组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。相似文献

9.

基于二元关系分词模型解决歧义词切分

万仲保张赢《微计算机信息》2009,25(21)

歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率.对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出了一种基于多元关系模型的能够有效解决歧义切分的中文分词系统模型并简要分析了这种模型未来的优化方向. 相似文献

10.

一个基于Semijoin的并行join算法SBABJ

陈佩佩蒋蜀《计算机研究与发展》1995,32(5):46-51

本文在并行ｊｏｉｎ法ＡＢＪ＾＋的基础上提出一个基于Ｓｅｍｉｊｏｉｎ的改进算法ＳＢＡＢＪ。我们在多台Ｓｕｎ工作站是实现了该算法，并对ＡＢＪ＾＋和ＳＢＡＢＪ＾＋进行了能测试。算法分析和实验结果表明了并行ｊｏｉｎ算法ＳＢＡＢＪ＾＋优于ＡＢＪ＾＋算法。相似文献

11.

书面汉语全切分中的重复切分研究

杨春花万建成姜合《小型微型计算机系统》2006,27(3):520-523

针对书面汉语全切分中普遍存在的重复切分问题进行了研究．首先给出了重复切分的定义，然后分析指出切分歧义是引起重复切分的必然原因，从而使得重复切分的存在具有必然性和普遍性，另外讨论了两种可供选择的克服重复切分的方案．最后，对重复切分在全切分中出现的几率及对切分时间的影响进行了实验．实验结果显示，重复切分约占全切分的87％，消除重复切分后全切分的切分时间比消除前节省约84％．相似文献

12.

中文自动分词系统的设计模型 总被引：10，自引：1，他引：9

邓宏涛《计算机与数字工程》2005,33(4):138-140

介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。相似文献

13.

SegT一个实用的藏文分词系统 总被引：3，自引：0，他引：3

刘汇丹诺明花赵维纳吴健贺也平《中文信息学报》2012,26(1):97-104

在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。相似文献

14.

几何命题处理中的中文分词技术 总被引：1，自引：1，他引：1

佘莉符红光方海光《计算机工程》2005,31(18):180-182

如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点.而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作.该文通过对几何范围内的受限语言的研究,建立了有效可行的语言理解模型,完成了词素的切分和词性标注,并在程序上得以实现. 相似文献

15.

藏文自动分词系统的设计

才智杰才让卓玛《计算机工程与科学》2011,33(5):151

语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。相似文献

16.

基于膨胀卷积神经网络模型的中文分词方法

王星李超陈吉《中文信息学报》2019,33(9):24-30

目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练,能够更好理解语义信息并提高计算速度。基于Bakeoff 2005语料库的4个数据集设计实验,与双向长短时记忆网络模型的中文分词方法做对比,实验表明该文提出的模型取得了更好的分词效果,并具有更快的计算速度。相似文献

17.

一种中文分词词典新机制——四字哈希机制 总被引：9，自引：0，他引：9

张培颖李村合《微型电脑应用》2006,22(10):35-36,55

词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。相似文献

18.

现代汉语通用分词系统中歧义切分的实用技术 总被引：8，自引：0，他引：8

罗智勇宋柔《计算机研究与发展》2006,43(6):1122-1128

歧义切分技术是中文自动分词系统的关键技术之一.特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求.从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略.对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%. 相似文献

19.

基于Hash结构的机械统计分词系统研究 总被引：3，自引：1，他引：3

费洪晓胡海苗巩燕玲《计算机工程与应用》2006,42(5):159-161

在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。相似文献

20.

面向信息检索的自适应中文分词系统 总被引：16，自引：0，他引：16

曹勇刚曹羽中金茂忠刘超《软件学报》2006,17(3):356-363

新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 相似文献