共查询到16条相似文献,搜索用时 78 毫秒
1.
隐喻理解是语篇理解中的难点,也是认知科学研究中的热点。本文针对汉语中普遍存在隐喻的现象,从计算的角度,首先提出了一套汉语句子形式化方法,并在此基础上针对隐喻的特点构建出隐喻语义网络计算模型。为了阐述隐喻网络模型的应用,文章后半部分提出了一套基于隐喻网络模型的隐喻分类体系,并对其合理性以及实用性进行了分析,为后续的隐喻自动识别以及隐喻理解奠定了基础。 相似文献
2.
隐喻的计算研究与进展 总被引:1,自引:0,他引:1
隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展,重点介绍了基于优选限制思想的Met5系统,基于实例方法的MIDAS系统,以及以统计为手段,基于大规模语料库提取的隐喻分析模型CorMet系统。通过总结国外的相关研究成果,探索面向信息处理的汉语隐喻形式化的研究方向。 相似文献
3.
4.
5.
基于监督学习的中文情感分类技术比较研究 总被引:6,自引:0,他引:6
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。 相似文献
6.
基于Stacking组合分类方法的中文情感分类研究 总被引:3,自引:1,他引:2
情感文本分类(简称情感分类)是一种面向主观信息分类的文本分类任务。目前,由于其广泛的应用前景,该任务在自然语言处理研究领域中得到了普遍关注,相继出现多种用于情感文本分类的有监督的分类方法。该文具体研究四种不同的分类方法在中文情感分类上的应用,并且采用一种基于Stacking的组合分类方法,用以组合不同的分类方法。实验结果表明,该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。从而克服了分类方法领域依赖的困境(不同领域需要选择不同基分类方法才能获得更好的分类结果)。 相似文献
7.
8.
在隐喻理解中,隐喻字面语义表示是隐喻深层语义表示的前提;确切地说,隐喻字面语义表示语言作为隐喻计算的输入语言直接影响到隐喻的最终释义,因此隐喻字面语义表示对隐喻的机器理解有着重要的影响作用。但在国内学术界,还鲜有这方面的研究。鉴于此,该文结合汉语隐喻特点,从隐喻字面语义表示的角度出发,将汉语隐喻分为无嵌套隐喻和嵌套隐喻两种。并在分析隐喻字面语义(浅层语义信息和隐喻信息)的基础上,提出了隐喻角色依存表示语言作为隐喻字面表示语言,最后给出隐喻角色依存表示语言生成算法。实验表明,该方法引入到汉语隐喻解释机制中是富有成效的。 相似文献
9.
10.
基于Bootstrapping的文本分类模型 总被引:4,自引:3,他引:1
本文提出一种基于Bootstrapping 的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping 的文本分类模型具有明显优势,仅使用每类100 篇种子训练集,分类结果的F1 值为70156 % ,比传统模型高出4170 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。 相似文献
11.
一种新的句子相似度度量及其在文本自动摘要中的应用 总被引:7,自引:0,他引:7
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的unigram ,还考虑了bi-gram 和tri-gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的,利用句子间相似度以及句子的权重的抽句式文摘算法,在抽取出句子的同时也去掉了冗余。DUC2003、DUC2004 (Document Understanding Conference 2003 ,2004) 的评测结果征明了方法的有效性。我们的系统在DUC2004 的评测中列第二位。 相似文献
12.
13.
基于网络的中文问答系统及信息抽取算法研究 总被引:24,自引:3,他引:21
问答系统(Question Answering System)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著,对测试问题集的MRR值达到0.51。 相似文献
14.
中文词语语义相似度计算——基于《知网》2000 总被引:10,自引:2,他引:8
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 相似文献
15.