共查询到20条相似文献,搜索用时 203 毫秒
1.
基于语义空间的支持向量机的文本过滤 总被引:2,自引:0,他引:2
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。 相似文献
2.
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害.传统的邮件过滤方法的过滤精度较低,不能很好满足需要.文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的. 相似文献
3.
电子邮件过滤新方法的研究与实现 总被引:1,自引:0,他引:1
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害。传统的邮件过滤方法的过滤精度较低,不能很好满足需要。文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的。 相似文献
4.
一种基于反向文本频率互信息的文本挖掘算法研究 总被引:1,自引:0,他引:1
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。 相似文献
5.
6.
7.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。 相似文献
8.
9.
为了帮助不同的英语学习者来选择适合自身的阅读文本,针对易读性公式在英文文本难度判定方面的不足,提出了基于向量空间模型进行英文文本难度判定,并构建了判定的向量空间模型,它不考虑词汇之间的顺序,把文本表示为向量空间中的一个向量,该本的相似度可以通过内积或者夹角余弦值来计算,把文本难度判定问题当成是一个级别分类问题来解决。最后对需要判定的文本预处理算法给以介绍。 相似文献
10.
形式背景需要从实际的数据源中提取。当数据源为无结构的中文文本时,必须选择如何对其进行表示。目前主流的中文文本表示方法主要采用以词语为特征项的向量空间模型(VSM),其主要缺陷是忽略了自然语言中词语之间的语义联系,无法表达文本的语义信息。讨论了一种改进方法,其特征是:选择知网(Hownet)作为知识库,采用相似词集集合代替单一特征词,建立中文文本的概念向量空间。对于用概念向量空间表示的中文文本,可以方便地根据用户的具体要求提取所需的形式背景。以214篇交通类中文文本为实例阐释了该改进方法的实际应用。 相似文献
11.
12.
权重润饰和改进的分类对不平衡数据的处理 总被引:1,自引:0,他引:1
王和勇 《计算机应用与软件》2009,26(8):144-146,161
不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低.针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征提取,然后采用欠取样(Under sampling)的支持向量机SVM(Support Vector Machine)方法进行文本分类.通过实验发现,使用权重润饰和欠取样的SVM方法可以提高处理不平衡数据的分类精度. 相似文献
13.
考虑到实验数据的大规模性及不完备性等特点,根据集对分析理论,提出一种新超图模型不完备文本系统的聚类算法,即在超图边的权重中引入了集对的同异反联系度和集对的相似联系度并建立了超图模型,最后应用超图分隔法进行聚类.该算法克服了传统聚类算法的缺陷,更有效地降低了文本空间的维数,提高了不完备文本信息系统聚类的精度和速度.最后的实例说明了该算法的可行性和有效性. 相似文献
14.
提出一种适用于短文本分类的多基模型框架Bagging fastText(B f).它是一种基于自举汇聚法的快速文本分类算法的框架.以fastText为基模型,运用集成学习思想,设置最优超参数并训练出多个基模型组成多基模型,再通过投票机制获取最终类别.对商品名称短文本分类的实验结果表明,提出的B f比fastText、朴... 相似文献
15.
16.
17.
18.
19.
Text detection in images using sparse representation with discriminative dictionaries 总被引:2,自引:0,他引:2
Text detection is important in the retrieval of texts from digital pictures, video databases and webpages. However, it can be very challenging since the text is often embedded in a complex background. In this paper, we propose a classification-based algorithm for text detection using a sparse representation with discriminative dictionaries. First, the edges are detected by the wavelet transform and scanned into patches by a sliding window. Then, candidate text areas are obtained by applying a simple classification procedure using two learned discriminative dictionaries. Finally, the adaptive run-length smoothing algorithm and projection profile analysis are used to further refine the candidate text areas. The proposed method is evaluated on the Microsoft common test set, the ICDAR 2003 text locating set, and an image set collected from the web. Extensive experiments show that the proposed method can effectively detect texts of various sizes, fonts and colors from images and videos. 相似文献
20.
在语音识别和合成中文本分析是很重要的,文本分词是文本分析正确与否的基础。目前语音合成系统中的分词一般是基于词典分析建立的,对于多音字易产生错误。文章基于数据挖掘中的关联规则的发现方法对文本分词中词语的关联关系进行研究,通过文本数据的文本特征及语音特征描述的有机结合,获取词语自身属性的关联关系,最后进行了实例测评。 相似文献