首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
向量空间模型(VSM)是一种效果较好的信息检索模型。本文提出了利用向量空间模型实现对文本情报快速检索的方法。在阐述建立分类情报的索引词向量的基础上,讨论了利用索引词向量映射文本情报和存储文档向量矩阵的方法,并通过实例介绍了如何通过计算检索向量和文档向量矩阵的相关度来确定返回的检索内容。  相似文献   

2.
一种基于支持向量机的专业中文网页分类器   总被引:4,自引:1,他引:4  
文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类。在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子。该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率。  相似文献   

3.
Information ordering is a nontrivial task in multi‐document summarization (MDS), which typically relies on the traditional vector space model (VSM) notorious for semantic deficiency. In this article, we propose a novel event‐enriched VSM to alleviate the problem by building event semantics into sentence representations. The mediation of event information between sentence and term, especially in the news domain, has an intuitive appeal as well as technical advantage in common sentence‐level operations such as sentence similarity computation. Inspired by the block‐style writing by humans, we base the sentence ordering algorithm on sentence clustering. To accommodate the complexity introduced by event information, we adopt a soft‐to‐hard clustering strategy on the event and sentence levels, using expectation–maximization clustering and K‐means, respectively. For the purpose of cluster‐based sentence ordering, the event‐enriched VSM enables us to design an ordering algorithm to enhance event coherence computed between sentence and sentence–context pairs. Drawing on the findings of earlier research, we also incorporate topic continuity measures and time information into the scheme. We evaluate the performance of the model and its variants automatically and manually, with experimental results showing clear advantage of the event‐based model over baseline and non‐event‐based models in information ordering for multi‐document news summarization. We are confident that the event‐enriched VSM has even greater potential in summarization and beyond, which awaits further research. © 2014 Wiley Periodicals, Inc.  相似文献   

4.
给出了一个词共现改进的向量空间模型(Word Co-Occurrence Mode Based On VSM,WCBVSM)与模拟退火交叉覆盖算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA)相结合的文本分类新模型。传统的向量空间模型(VSM)采用词条作为文档的语义载体,没有考虑文本上下文词语之间的语义隐含信息,在词共现模型的启发下,提出WCBVSM,它通过统计文本中的词共现信息,加入VSM,以获得文档隐含的语义信息。针对交叉覆盖算法中识别精度与泛化能力之间的一对矛盾,结合模拟退火算法的思想,提出了SACA,改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力。实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度。  相似文献   

5.
在基于向量空间模型的信息检索系统中,TF2IDF 算法被广泛的应用在基于关键字的信息检索中。然而,对于网页独特的超链接结构,需要有一种技术在表示网页内容的同时将与它相邻链接的网页内容考虑进去。本文分析了向量空间模型的实质,并找出了其精度低的原因,在传统模型基础上提出了一种基于网页超链接结构的向量空间模型改进算法。实验分析表明改进后的算法与原算法相比检索精确度提高了10 % ,在一定程度上改善了检索效果。  相似文献   

6.
一种改进的基于VSM的文本分类算法   总被引:2,自引:0,他引:2  
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。  相似文献   

7.
基于向量空间模型的过滤不良文本方法   总被引:13,自引:3,他引:10  
李强  李建华 《计算机工程》2006,32(10):4-5,8
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Naive Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向最法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。  相似文献   

8.
融合VSM技术的PageRank算法研究与应用   总被引:1,自引:0,他引:1  
李卫东  陆玲 《计算机与现代化》2011,(7):96-98,101,104
为解决PageRank算法存在的"主题漂移"问题,本文提出一种融合VSM(向量空间模型)技术的改进方法。首先根据网页的链接结构计算PageRank值,然后建立网页的内容特征向量空间,计算主题内容相似度,最后将这两个值按一定的权重系数进行融合计算,产生新的PageRank值。经过对比实验证明,改进后的PageRank算法减少了无关网页的数量,为搜索引擎提供了更好的排序结果。  相似文献   

9.
论文首先介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.在此基础上提出了一种改进的贝叶斯算法,改进的贝叶斯算法假设一部分特征之间相互独立,比朴素贝叶斯分类算法更符合实际需要。并把它应用到反垃圾邮件中。最后介绍了贝叶斯过滤算法反垃圾邮件的基本步骤。  相似文献   

10.
基于向量空间模型的题库相似度检查算法   总被引:2,自引:0,他引:2  
随着题库系统的广泛应用和题库中试题数量的日益增大,如何避免试题重复,成为研究的重要问题。利用向量空间模型,首先通过TF-IDF公式得到试题的文本权重向量,再通过余弦理论计算试题相似度,并与设定的相似度阈值比较,得到相似度检查结果。在现有题库的基础上进行的实验结果显示,算法计算出的试题相似度的准确率与专家人工判别相比达到94%。算法取得了较好的结果。  相似文献   

11.
基于领域本体的主题信息采集方法   总被引:1,自引:0,他引:1  
郑国良  叶飞跃  林国俊  耿冬 《计算机应用》2008,28(12):3274-3277
基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中词条间的语义关系,从而克服了使用传统向量空间时产生的多义词、同义词和单词依赖等现象。通过实验,比较了提出的方法与基于关键词方法的实验数据,进一步说明了方法的可行性。  相似文献   

12.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

13.
基于向量空模型的文本自动分类系统的研究与实现   总被引:151,自引:11,他引:140  
随着网络信息的迅猛发展,信息处理已经成为人工获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

14.
随着H桥逆变器电平数的增加,其空间矢量调制算法(SVPWM)也越来越复杂。提出一种任意电平H桥逆变器的SVPWM算法,通过等效矢量变换,可将两电平逆变器中合成参考矢量的电压矢量及其作用时间推广到任意电平。以三电平和五电平H桥级联型多电平变换器为控制对象,对该算法的正确性进行了仿真验证。  相似文献   

15.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

16.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

17.
基于后缀树模型的文本实时分类系统的研究和实现   总被引:8,自引:1,他引:8  
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM) ,并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N) ,远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。  相似文献   

18.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

19.
向量空间模型(VSM)是一种使用特征向量对文本进行建模的方法,广泛应用于文本分类、模式识别等领域。但文本内容较多时,传统的VSM建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,提出一种利用词义和词频降低文本建模维度的方法,以提高效率和准确度。提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文章特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。  相似文献   

20.
针对文本情感分类准确率不高的问题,提出基于CCA-VSM分类器和KFD的多级文本情感分类方法。采用典型相关性分析对文档的权重特征向量和词性特征向量进行降维,在约简向量集上构建向量空间模型,根据模型之间的差异度设计VSM分类器,筛选出与测试文档差异度较小的R个模型作为核Fisher判别的输入,最终判别出文档的情感观点。实验结果表明:该方法比传统支持向量机有较高的分类准确率和较快的分类速度,权重特征和词性特征对分类准确率的影响较大。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号