首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

2.
互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。  相似文献   

3.
克服当前文本分类法中基于词形匹配带来的局限性,基于WordNet语义词典和隐含语义索引(LSI)模型,提出了基于语义集索引的英文文本分类方法. 该方法在分类初期首先利用WordNet构建语义词典库,利用单词的语义集代替单词作为文本特征向量的特征项;然后利用LSI模型进一步深入挖掘语义集概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中. 针对Naive Bayes及简单向量距离文本分类法的实验结果显示,2种文本分类法的分类准确率均随着语义分析的深入逐步提高,充分表明了语义挖掘对文本分类的重要性和必要性。  相似文献   

4.
在传统的基于N-Gram法提取西文候选关键词集的基础上,提出了根据关键单词集的前后拓展产生候选关键词的算法,并与现存的N-Gram法对比,发现其将生成的候选关键词集的大小减小了将近1/2以上,并且没有增加计算复杂性,这对以后的特征工程计算具有重要意义.  相似文献   

5.
基于常问问题集的中文问答系统研究   总被引:51,自引:0,他引:51  
首先根据用户的提问建立一个候选问题集,然后通过计算句子语义相似度,在候选问题集中找到相似的问旬,并将答案返回给用户。该系统还能够自动地更新和维护FAQ库。实验表明,与基于关键词的句子相似度计算相比,基于语义的句子相似度计算提高了问题匹配的准确率。  相似文献   

6.
阐明了研究空间关系理论的必要性,分析了拓扑空间关系描述方法的研究进展及存在问题,以点集拓扑理论为基础,运用维数扩展的方法,提出了三维拓扑空间关系完善和形式化的描述框架,对三维空间目标点、线、面、体之间的10类拓扑空间关系,给出了图例表示及语义描述.在此基础上,对三维空间目标中存在的大量拓扑空间关系进行了分类,定义了5种基本的拓扑空间关系,并给出了三维拓扑空间关系最小集的互斥性与完备性证明  相似文献   

7.
针对零样本图像分类中属性向量的类别区分性差及对可见类别产生分类偏好的问题,提出一种深度监督对齐的零样本图像分类(DSAN)方法. DSAN构造类语义的全局监督标记,与专家标注的属性向量联合使用以增强类语义间的区分性.为了对齐视觉空间和语义空间的流形结构,采用视觉特征和语义特征分类网络分别学习2种空间特征的类别分布,并且无差异地对齐两者的分布.利用生成对抗网络的原理消除特征间的本质差异,以按位加的方式合并视觉特征和类语义特征,并利用关系网络学习两者间的非线性相似度.实验结果表明,DSAN在CUB、AWA1和AWA2数据集上对可见类别和未见类别的调和平均分类准确率比基线模型分别提高了4.3%、19.5%和21.9%;在SUN和APY数据集上,DSAN方法的调和平均分类准确率分别比CRnet方法高1.4%和2.2%,这些结果证明所提方法的有效性.  相似文献   

8.
针对如何组织、管理与有效获取信息问题,介绍了一个基于概念网的集信息收集、检索与管理的智能信息服务系统设计与实现.依靠概念网,采用文本类别特征提取及文本匹配和概念角色提取算法完成待收录文档的自动分类组织,利用概念检索和关键词检索相结合的方式帮助用户快速、准确的定位所需信息.实验结果表明上述方法能很好的完成对信息的收集和检索要求.  相似文献   

9.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

10.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

11.
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.  相似文献   

12.
本文介绍了对付群Sn的元素的一种分类计数方法。按此方法可很简单地计算出每类元素的个数。  相似文献   

13.
基于语义概念树和局部上下文分析的查询扩展   总被引:1,自引:0,他引:1  
针对信息检索中因文档与查询词之间的不匹配而影响信息检索效果的问题,提出了一种结合基于语义概念树和局部上下文分析的查询扩展模型。该模型对用户提交的查询关键词进行扩展,扩展词来源于基于语义概念树和局部上下文分析的扩展词。实验结果表明,与单纯采用局部上下文分析方法(LCA)相比,该方法有更优的检索性能。  相似文献   

14.
Based on the powerful function of the hidden conditional random fields (HCRF) model in the expression and identification of semantic events and combining the webcast text information, a new framework for wonderful events automatic detection is put forward. Firstly, by analyzing and processing the webcast text, keyword combinations corresponding to each exciting event are obtained. Secondly, by classifying the webcast text to be detected, the happening time labels of each wonderful event are obtained. Thirdly, an HCRF model for semantic shot annotation is built to realize the semantic annotation of multiple types of semantic shots simultaneously, and the semantic shot sequence of the video clip is obtained. Finally, combining the multi-modal semantic clues, an HCRF model for the wonderful events detection and localization is effectively built in the case of small-scale training samples. Based on the mapping relationship among video low-level features, the multi-modal semantic clues and the wonderful semantic events, the inherent patterns of the wonderful events are excavated deeply in the multiple dimensions of the semantic structure, and then the wonderful events automatic detection, localization and segmentation are precisely achieved. Experiments show the effectiveness of this model.  相似文献   

15.
语篇模式是指语篇中各个主要部分的组合方式,是人类语言在交际中互相遵守和期待的语言规律。SPRE语篇模式是建立在“问题-解答”结构模式基础上,由各个语义功能主要成分及其依据共同构成。文章通过对这一模式特征及其连贯性的阐述分析,进一步发掘语篇表层语用序列与深层语义序列之间的对应和非对应关系,并揭示出语篇发出者对语篇表层信息分布的处理技巧及其对语篇接收者认知的影响.  相似文献   

16.
以提高信用等级评价的质量为目的,介绍了数据挖掘技术的基本过程.以企业贷款的信用分类为研究背景,具体研究了业务理解、数据理解、数据准备、建模、评估和发布的实现环节.在建模过程中,采用决策树为分析模型,对经典的C4.5算法进行了改进.将改进算法运用在企业贷款的信用分类中,并将其效果与经典的C4.5算法的结果进行比较,结果表明该算法对于企业信用分类这样的复杂系统,在准确度与决策树结构上具有一定程度上的改善,能够提高信用等级评价质量.  相似文献   

17.
针对传统P2P系统大多采用关键字匹配实现信息检索且不支持语义的问题,提出了一个基于本体的P2P语义检索框架。该框架采用超级节点拓扑结构,利用本体进行信息集成,将支持相似概念的节点聚类到同一语义对等组,组内节点依据本体定义使用语义链来连接,组之间语义关联则通过超级节点的组语义链来实现;同时增加语义快捷链实现不同语义组之间的节点连接。  相似文献   

18.
在当今的信息时代,搜索引擎是Web信息检索的主要工具,Web的数字挖掘技术逐渐成为了研究的热点.把Web数据挖掘技术与搜索引擎相结合,从而构建一个基于数据挖掘的搜索引擎原型系统,它能够以语义的、在线的、树型的和文本的方式对搜索引擎的搜索结果进行聚类,帮助使用者更容易和快速的找到相关信息.  相似文献   

19.
基于实体词语义相似度的中文实体关系抽取   总被引:1,自引:1,他引:0  
为了探索语义相似度在中文实体关系抽取上的作用,提出由实体词在《同义词词林》中的5层编码构建成的《同义词词林》编码树和由关系实例中的实体词,各个类别中所有实体词计算相似度后求得的平均值构建成的实体词语义相似度树2种新特征,并连同已有的《同义词词林》编码、实体类型信息共4种特征探究其对抽取性能的影响。单一特征的试验中,实体类型特征效果最好,F值达到了小类84.9、大类83.2;组合特征的试验中,实体类型和《同义词词林》编码树的组合特征效果最好,大类小类的F值都比实体类型特征提高了2.5,3种组合特征性能不升反降。试验结果表明《同义词词林》编码树是对实体类型的有效补充,但过多的特征会造成信息冗余,使抽取性能下降。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号