共查询到19条相似文献,搜索用时 140 毫秒
1.
本文根据大型新闻资料计算机检索系统对中文检索语言的具体要求,对中文叙词表结构进行了分析,并以抽象代数为工具进行推导,给出了一种叙词表结构的形式化的描述方式。提出可利用叙词表的内在结构关系,将一个大的叙词表(集)划分成若干个彼此独立的小叙词集。提出了一种用于计算机检验叙词表构造正确性的多值关系矩阵算法。文中还研究了中文叙词表的中文处理、建表、正确性判定、词表维护和资料检索等问题。 相似文献
2.
一种改进的快速分词算法 总被引:38,自引:0,他引:38
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。 相似文献
3.
本文通过对中文叙词表结构的分析并用抽象代数为工具进行数学推导, 给出了一种叙词表结构的形式化描述, 指出可利用叙词表自身的内在关系将一个大的叙词表(集)划分成若干个彼此独立的小叙词集。并以此为基础提出了一种用于检验叙词表结构正确性的多值关系矩阵算法。最后简要论述了计算机处理中文叙词表的建表和维护以及系统的实现等问题。 相似文献
4.
5.
6.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。 相似文献
7.
一种基于语义内积空间模型的文本聚类算法 总被引:17,自引:0,他引:17
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 相似文献
8.
中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。 相似文献
9.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍。将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。 相似文献
10.
区别于传统的基于词的中文短文本自动分类方法,以训练数据作为背景语料,利用关联规则挖掘算法挖掘训练集文本中的共现关系,创建特征共现集作为扩展词表。用特征共现集分别对训练文本和测试文本进行特征扩展建立短文本分类模型。实验表明,改进后的两种方法使短文本分类系统具有较高的精度。 相似文献
11.
12.
1IntroductionCharacterswerecreatedasamediumofcommunication.Forexample,theyhavebeenusedtorecordsocialactivitiesandhumanthinking,andtohelppeoplesexchangeinformation.Differencesfrommanyothercharacters,however,theChi-nesecharacterisatypicalideograph.BecauseChinesecharactersoriginatedfromdrawings,theirshapeshavetheelementsofbeauty.InChina,calligraphyaboutChinesecharactershasbeenanimportanpartofartsinceancienttimes.There-sultsofstudiesaboutcalligraphyhavebeenbequeathedascalligraphicworksandcallig… 相似文献
13.
海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步. 相似文献
14.
A form evaluation system for brush-written Chinese characters is developed.Calligraphic knowledge used in the system is represented in the form of rules with the help of a data structure proposed in this paper.Reflecting the specific hierarchical relations among radicals and strokes of Chinese characters,the proposed data structure is based upon a character model that can generate brush-written Chinese characters on a computer.Through evaluation experiments using the developed system,it is shown that representation of calligraphic knowledge and form evaluation of Chinese characters can be smoothly realized if the data structure is utilized. 相似文献
15.
构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1 057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。 相似文献
16.
全二分最大匹配快速分词算法 总被引:29,自引:1,他引:29
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 相似文献
17.
18.
赵恒 《中国图象图形学报》1998,3(3):230-233
介绍了一个基于骨架汉字技术的字形设计与显示系统SCCDS。利用骨架汉字数据结构的灵活性, 该系
统能方便地进行字形的交互输入和修改。 相似文献
19.
中文页面描述语言解释器CPDL的设计与实现 总被引:1,自引:0,他引:1
页面描述语言(PDL)已广泛应用于打印机、电子出版等领域,且已经诞生了国际标准(SPDL)。因此,开发中文页面描述语言解释器具有十分重要意义。本文介绍了中文页面描述语言解释器CPDL的特点、功能、数据结构、字库的组织和CPDL解释器流程。讨论了提高速度和压缩代码的方法,并给出了应用前景。 相似文献