共查询到20条相似文献,搜索用时 93 毫秒
1.
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力. 相似文献
2.
李新福 《计算机工程与应用》2007,43(24):169-171
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。 相似文献
3.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。 相似文献
4.
中文网页文本分类面临着高维的属性空间问题,传统的属性约简方法存在损失有用信息的缺陷,影响了分类结果。提出粗糙集与支持向量机结合的方法,在降低属性空间维数的同时,保持了原有属性集的分类能力。同时实现了用主成分分析,奇异值分解方法降维与支持向量机分类相结合的分类器。结果表明,该方法降维能力最强、分类时间最短、分类效果最佳。 相似文献
5.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。 相似文献
6.
研究网页自动分类是为快速找到用户所需网页.由于网络中网页数量相当大,而且网络是一种半结构化、海量、高维等文本,传统文本分类方法无法进行降维和消除冗余信息,易出现维数灾问题,网页分类准确率低,用户很难找到自己所需网页.为了提高网页分类准确率,提出基于主成分支持向量机的网页自动分类方法.首先对网页数据进行预处理,提取网页特... 相似文献
7.
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 相似文献
8.
9.
10.
11.
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。 相似文献
12.
13.
随着互联网的普及,人类获取特定信息需求的增加,如何快速获取特定类别信息是当前搜索引擎,门户网站等必须解决的问题。当前网页分类的任务都由机器学习的文本分类算法完成,但传统的机器学习分类方法基本没有考虑文本数据特征,提供无差别的分类服务。该系统充分考虑网页文本数据的特征,以文本标题为突破口实现快速分类以及依据SVM的普通分类。快速分类依据文本标题通过分词模型训练快速对应到分类标签上,完成快速分类。如果快速分类不成功则将文本内容通过结巴分词器分词,word2vec进行分词向量的训练,再根据分类要求通过SVM进行分类,完成普通的分类。通过提供两种不同的服务来完成不同的需求。 相似文献
14.
15.
基于搜索引擎的知识发现 总被引:3,自引:0,他引:3
数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。 相似文献
16.
Web video categorization is a fundamental task for web video search. In this paper, we explore web video categorization from
a new perspective, by integrating the model-based and data-driven approaches to boost the performance. The boosting comes
from two aspects: one is the performance improvement for text classifiers through query expansion from related videos and
user videos. The model-based classifiers are built based on the text features extracted from title and tags. Related videos
and user videos act as external resources for compensating the shortcoming of the limited and noisy text features. Query expansion
is adopted to reinforce the classification performance of text features through related videos and user videos. The other
improvement is derived from the integration of model-based classification and data-driven majority voting from related videos
and user videos. From the data-driven viewpoint, related videos and user videos are treated as sources for majority voting
from the perspective of video relevance and user interest, respectively. Semantic meaning from text, video relevance from related videos, and user interest induced from user videos, are combined to robustly determine the video category. Their combination from semantics, relevance
and interest further improves the performance of web video categorization. Experiments on YouTube videos demonstrate the significant
improvement of the proposed approach compared to the traditional text based classifiers. 相似文献
17.
在web文档信息检索中,文档分类、文档过滤的质量一直是影响用户查询结果的关键。这篇论文将通过分析一些典型的权重函数的构造,提出一个基于文档信息空间的权重函数来计算调整文档中词元的权重,使文档的分类和过滤效率更高。 相似文献
18.
为了网页信息的有效组织和检索,针对网页中的超文本结构特征,在研究网页间的超链接、超文本标记对信息提取的作用的基础上,阐述了一种基于“超文本标记加权”和“超链接森林”的因特网信息提取方法,并与传统方法进行了对比。实验结果表明,该方法用于网页的自动分类具有较好的效果。 相似文献
19.
如何准确地实现文本的有序组织,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状,讨论了基于向量空间模型的分类法的基本思想。在此基础上,通过对文本识别本质的研究,在向量空间模型的基础上,提出一种新的结合了信息相关性分析的文本分类模型ICFM(Information Correlation based Fast text categorization Model),并以实验验证了该模型的性能。 相似文献
20.
一个基于朴素贝叶斯方法的web文本分类系统:WebCAT 总被引:2,自引:0,他引:2
余芳 《计算机工程与应用》2004,40(13):195-197
如果缺乏好的对文本自动进行索引及摘要的工具,要从Internet浩瀚的文本中检索有用信息是很困难的。因此,文本分类成为信息检索(InformationRetrieval)的重要组成部分。朴素贝叶斯分类是应用统计理论进行文本分类的有效方法之一。该文结合web文本的特点使用朴素贝叶斯分类器实现了一个web文本分类系统WebCAT,并获得了很好的分类结果。 相似文献