共查询到20条相似文献,搜索用时 863 毫秒
1.
使用概念基元特征进行自动文本分类 总被引:2,自引:0,他引:2
贾宁 《计算机工程与应用》2007,43(1):24-26
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。 相似文献
2.
3.
为提高输入法的智能性,对供输入法使用的搭配知识库进行了研究.介绍了汉字语法语义智能输入法及其改进的功能,在对语料库中搭配知识分析的基础上,结合输入法中搭配知识的使用,对现有的统计语言模型进行了改进,并给出了词语搭配知识库,语法搭配知识库和语义搭配知识库的关键结构,利用改进后的统计语言模型和语法语义搭配知识,对各搭配知识库进行了算法实现,最后给出了各个搭配知识库的部分实验结果并对其进行了分析. 相似文献
4.
该文运用自然语言处理的概念层次网络(Hierarchical Network of Concepts,HNC)理论提出了一种词语相似度计算方法。该方法利用HNC理论词汇层面联想的概念表述体系,根据HNC映射符号的编码规则和符号映射理论,综合概念内涵、概念外部特征、概念类别和组合符号来计算词语的相似度,并与基于知网的词语相似度算法和人工的主观判断的相似度进行了比较分析。实验结果表明,该方法能够较好地反映词语之间的语义差别,与人的直观判断基本一致,是一种有效可行的方法。 相似文献
5.
词义排岐是自然语言处理中最关键也是最困难的问题之一,至今仍没有得到完全有效的解决。在研究HNC表达汉语知识的基础上,提出了一种基于概念关联式的汉语词义消歧方法,用于处理汉语的歧义字段。该方法综合了词语概念的层次性、网络性、结构性特征,用一种统一的表示式来规范这类特征,解决了多个不同概念之间的知识关联表示问题。实验对20个汉语高频多义词进行了测试,平均正确率为94%,验证了该方法的有效性。 相似文献
6.
7.
8.
关联词语的出现在汉语文章中占有很大的比重,它们可以在复句分析中起到非常重要的作用。该文主要讨论如何在语料库中提取反映关联词语用法的各种特征信息,再通过数据挖掘算法将这些信息整理为关联词语的知识库,作为关联词识别的依据,并对有歧义的关联词语提出了基于决策树的消歧方法。最后,通过开放测试证明了该方法的有效性。 相似文献
9.
句子相似度计算是自然语言处理的重要研究内容。运用自然语言处理的概念层次网络(HNC)理论和依存句法理论提出一种句子相似度的计算方法。该方法认为句子的相似度是由词语的语义相似度和句法结构相似度共同决定的,利用HNC理论词汇层面联想的概念表述体系来计算词语之间的相似度,利用依存句法理论来获取句子中词语的词语搭配和构成特征,与现有典型的句子相似度算法和人工判断进行了比较。实验结果表明,该方法能够较好地反应句子之间的语义差别,是一种可行有效的方法。 相似文献
10.
基于HNC理论的语义相关度计算方法 总被引:8,自引:0,他引:8
语义相关度计算对于语句的语义结构的分析有重要作用,同时也可以用于自动文本分类和信息检索的语义处理。该文以HNC理论的概念基元树表和词语的HNC符号映射方法为依据,提出并实现了语义相关度计算的方法。论文分析了这种方法的优势,并验证了它在语句语义结构分析中的作用。 相似文献
11.
12.
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及“部件词”的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。 相似文献
13.
14.
词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性。该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程。该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性—宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择。该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去。 相似文献
15.
16.
HSK是一项国际汉语能力标准化考试。新HSK大纲中附表所列650个“默认词”多依据专家知识人工列举式的扩充。该文在《现代汉语词典》《现代汉语语法信息词典》等资源的基础上,利用知识工程的方法,迭代使用减字默认、组合默认等词汇等级类推规则,力争实现类推过程中隐性知识的显性化、分散知识的系统化,使得词汇等级类推的每一个环节都有章可循、有据可依,完成了基于新HSK大纲词汇等级的系统类推工作。接着,结合所构建的汉语词法知识库对类推结果进行了筛选,最终得到了23762个词语的类推等级。最后,通过对类推结果的统计分析,表明该文的研究工作可以更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用,也可为其他领域教学词汇大纲的制定提供一定的借鉴。 相似文献
17.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。 相似文献
18.
语义块的多元逻辑组合构成研究 总被引:1,自引:0,他引:1
利用HNC概念符号知识深入到词语的语义层面,从概念类别的内涵出发,结合概念间语义相关度计算方法以及少量句类知识对非特征语义块的多元逻辑组合的各种情况进行了初步分析。采取演绎和归纳的方法得到了关于语义块的多元逻辑组合的三种语义块结构(并联、串联和混联)的发现、内部结构分析及边界确定的有关规则,并实际验证了这些规则的有效性。 相似文献
19.
20.
“网球问题”指怎样把racquet(网球拍)、ball(网球)和net(球网)之类具有情境联想关系的词汇概念联系起来、发现它们之间的语义和推理关系。这是一个自然语言处理和相关的语言知识资源建设的世界性难题。该文以求解“网球问题”为目标,对目前比较主流的几种语言词汇和概念知识库系统(包括WordNet、VerbNet、FrameNet、ConceptNet等)进行检讨,指出它们在解决“网球问题”上还都存在一定的局限性,着重分析它们为什么不能解决“网球问题”。进而指出基于生成词库论的名词物性结构知识描写体系可以解决“网球问题”,主张用名词的物性结构知识和相关的句法组合知识来构建一种以名词(实体)为核心的词汇概念网络,以弥补上述几种知识库系统的不足,为自然语言处理提供一种可资参考的词汇概念知识库体系。 相似文献