排序方式: 共有12条查询结果,搜索用时 15 毫秒
1.
基于COSA算法的中文文本聚类 总被引:5,自引:0,他引:5
传统聚类算法在计算两个对象间的距离时,每个属性对距离的贡献相同。COSA(Clustering On Subsets of Attributes)算法[1]认为在不同的分组中,每个属性对计算距离所起的作用可能并不相等,因为不同分组中的对象可能在不同的属性子集上聚集。文献[1]在此基础上定义了新的距离,并提出了两种COSA算法: COSA1算法是一种分割的聚类算法;COSA2算法是一种层次聚类算法。为了对比COSA距离和传统的欧氏距离在文本聚类中的表现,本文对中文文本进行了分割聚类和层次聚类的实验。实验结果显示出COSA算法较基于欧氏距离的聚类算法有更好的性能,而且对于属性数的变化,COSA算法更加稳定。 相似文献
2.
汉语语义分析模型研究述评 总被引:7,自引:1,他引:7
这篇述评的目的是为汉语语义处理的研究工作提供参考。我们首先分别分析了三种语义分析模型———词语依存(WD) 、概念依存(CD) 和核心依存(KD) 的理论基础和表达方式;然后,重点从功能和可操作性方面比较三者在语义表示方面的特点。结论是(1) 词语依存可操作性好但功能弱,概念依存功能强但可操作性差,二者的缺点都是极难解决的问题,核心依存兼顾词语和概念,可能是最适合汉语语义处理需要的; (2) 要使模型达到实用要求,需要在句法标注、词典编纂和规范化方面做大量复杂的工作。 相似文献
3.
4.
中文文本中抽取特征信息的区域与技术 总被引:30,自引:3,他引:30
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言,本文的方法与结论都有一定的参考价值。 相似文献
5.
汉语框架语义网(Chinese FrameNet,CFN)是一个以Fillmore的框架语义学为理论基础、以英文FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义数据库。该文首先介绍了汉语框架语义网的构建基础——框架语义学以及英语的框架语义网工程,然后具体分析了汉语框架语义网的构建技术,并对基于汉语框架网的语义角色自动标注研究进行了介绍,25个框架的交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%,61.62%;最后,介绍了几个基于汉语框架语义网的研究课题的进展情况。 相似文献
7.
8.
9.
汉语自动分词及歧义组合结构的处理 总被引:14,自引:0,他引:14
现代汉语计算机自动分词是中文信息处理领域所特有的一个重要研究课题, 机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等许多工作都需以自动分词作为基础。#br#本文对现有的几种计算机自动分词界法进行了简要的分析和评价, 提出了一种新的分词算法—“联想—回溯法”(Association — Backhacking Method), 简称AB法, 并对这种基于知识的分词算法进行了详细的讨论。在此基础之上, 我们着重论述了歧义组合结构的切分策略,提出了许多处理歧义结构的实用切分规则 相似文献
10.
基于案例的推理在农业专家系统中的应用 总被引:11,自引:0,他引:11
该文将基于案例的推理方法CBR应用到农业专家系统中。在对CBR方法作了简单介绍后,提出了在农业专家系统中面向对象的案例表示、案例库组织的两层结构,并以大豆专家系统中病虫害诊断模块为例阐述了CBR推理在农业专家系统中的具体实现过程。 相似文献