首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
本文根据大型新闻资料计算机检索系统对中文检索语言的具体要求,对中文叙词表结构进行了分析,并以抽象代数为工具进行推导,给出了一种叙词表结构的形式化的描述方式。提出可利用叙词表的内在结构关系,将一个大的叙词表(集)划分成若干个彼此独立的小叙词集。提出了一种用于计算机检验叙词表构造正确性的多值关系矩阵算法。文中还研究了中文叙词表的中文处理、建表、正确性判定、词表维护和资料检索等问题。  相似文献   

2.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

3.
本文通过对中文叙词表结构的分析并用抽象代数为工具进行数学推导, 给出了一种叙词表结构的形式化描述, 指出可利用叙词表自身的内在关系将一个大的叙词表(集)划分成若干个彼此独立的小叙词集。并以此为基础提出了一种用于检验叙词表结构正确性的多值关系矩阵算法。最后简要论述了计算机处理中文叙词表的建表和维护以及系统的实现等问题。  相似文献   

4.
一种面向中文敏感网页识别的文本分类方法   总被引:1,自引:0,他引:1  
陈欣  张菁  李晓光  卓力 《测控技术》2011,30(5):27-31
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分.为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400...  相似文献   

5.
分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字。设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配。当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间。通过实验证明此技术能提高中文分词的效率。  相似文献   

6.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。  相似文献   

7.
一种基于语义内积空间模型的文本聚类算法   总被引:17,自引:0,他引:17  
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.  相似文献   

8.
中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。  相似文献   

9.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍。将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。  相似文献   

10.
区别于传统的基于词的中文短文本自动分类方法,以训练数据作为背景语料,利用关联规则挖掘算法挖掘训练集文本中的共现关系,创建特征共现集作为扩展词表。用特征共现集分别对训练文本和测试文本进行特征扩展建立短文本分类模型。实验表明,改进后的两种方法使短文本分类系统具有较高的精度。  相似文献   

11.
一种快速汉语分词算法   总被引:9,自引:2,他引:9  
温滔  朱巧明  吕强 《计算机工程》2004,30(19):119-120,128
通过对已有分词算法的分析,尤其是对快速分词算法的分析,在对已有词表进行改进的基础上,提出了一种高效的快速分词算法,理论分析表明,在大词库下,该算法也能有很好的表现。  相似文献   

12.
1IntroductionCharacterswerecreatedasamediumofcommunication.Forexample,theyhavebeenusedtorecordsocialactivitiesandhumanthinking,andtohelppeoplesexchangeinformation.Differencesfrommanyothercharacters,however,theChi-nesecharacterisatypicalideograph.BecauseChinesecharactersoriginatedfromdrawings,theirshapeshavetheelementsofbeauty.InChina,calligraphyaboutChinesecharactershasbeenanimportanpartofartsinceancienttimes.There-sultsofstudiesaboutcalligraphyhavebeenbequeathedascalligraphicworksandcallig…  相似文献   

13.
海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步.  相似文献   

14.
A form evaluation system for brush-written Chinese characters is developed.Calligraphic knowledge used in the system is represented in the form of rules with the help of a data structure proposed in this paper.Reflecting the specific hierarchical relations among radicals and strokes of Chinese characters,the proposed data structure is based upon a character model that can generate brush-written Chinese characters on a computer.Through evaluation experiments using the developed system,it is shown that representation of calligraphic knowledge and form evaluation of Chinese characters can be smoothly realized if the data structure is utilized.  相似文献   

15.
构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1 057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。  相似文献   

16.
全二分最大匹配快速分词算法   总被引:29,自引:1,他引:29  
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。  相似文献   

17.
本文利用本体丰富的语义知识和语法结构及其共享性,构建了电子商务领域的本体知识库,用于解决数据的结构异构和语义异构问题。同时开发了面向电子商务领域本体知识库的汉语自动分词系统。结果表明,引入本体知识库能在一定程度上提高词语切分的正确率。  相似文献   

18.
一个基于骨架汉字技术的字形设计与显示系统SCCDS   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍了一个基于骨架汉字技术的字形设计与显示系统SCCDS。利用骨架汉字数据结构的灵活性, 该系 统能方便地进行字形的交互输入和修改。  相似文献   

19.
中文页面描述语言解释器CPDL的设计与实现   总被引:1,自引:0,他引:1  
页面描述语言(PDL)已广泛应用于打印机、电子出版等领域,且已经诞生了国际标准(SPDL)。因此,开发中文页面描述语言解释器具有十分重要意义。本文介绍了中文页面描述语言解释器CPDL的特点、功能、数据结构、字库的组织和CPDL解释器流程。讨论了提高速度和压缩代码的方法,并给出了应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号