共查询到18条相似文献,搜索用时 562 毫秒
1.
Web文本特征选择算法的研究 总被引:1,自引:1,他引:0
以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。 相似文献
2.
3.
Web文本信息的特征获取算法 总被引:17,自引:0,他引:17
Internet的发展为人们提供了大量的信息资源,Web文本挖掘是从非结构化的文本中发展潜在的、有价值知识的一种有效技术,本文以矢量空间模型为Web文本的表示方法,提出了一个基于遗传算法的Web文本特征抽取算法,进一步提高了Web文本诉处理效率,为文本的分类、聚类以及其它处理提供了简炼的特征表示方法,实验证明,该种处理方法有效地降低了文本特征矢量的维数。 相似文献
4.
互联网中,海量Web信息自由开放,真假有益危害信息混在一起,许多Web文本的内容不可信。如何正确判断Web文本内容的可信性,从而在海量的Web信息中选择有用可信的资源信息,是当前急需解决的问题。提出了一种基于信任模式验证的论述性Web文本可信性判定方法,首先定义论述性Web文本的信任模式并对信任模式进行形式化的描述,然后构建论述性Web文本阅读自动机,最后进行模型检测以判断论述性Web文本是否满足信任模式,并根据检测结果求解Web文本可信度。实验表明该方法具有良好的效果。 相似文献
5.
6.
7.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。 相似文献
8.
在阐述Web文本过滤基本理论的基础上,介绍实现Web文本过滤系统WTFilter(Web Text Filter)的几个关键技术:分词、特征提取,分类器的设计。以神经网络作为分类器,并应用遗传算法优化网络结构,使网络具有很好的收敛性和较强的学习能力。 相似文献
9.
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。 相似文献
10.
Web文本挖掘三种技术的比较 总被引:2,自引:0,他引:2
文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义、Web文本挖掘任务、功能等方面加以阐述,然后重点比较了Web文本挖掘的三种技术(朴素贝叶斯方法(NaiveBayes)、K-最近邻接参照分类算法(K-NearestNeighbor)、学习一阶规则算法(FirstOrderInductiveLearner))的分类效果。最后,概述了Web文本挖掘的用途和前景。 相似文献
11.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 相似文献
12.
13.
Web文档清洗系统中HTML解析器的开发 总被引:7,自引:0,他引:7
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论 相似文献
14.
潘正高 《数字社区&智能家居》2009,(15)
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。Web挖掘可以快速有效地从互联网上获取所需要的信息。该文从Web数据挖掘的基本概念出发,结合Web数据的特点介绍了Web数据挖掘的类型、过程和技术,并对Web挖掘的应用前景进行了展望。 相似文献
15.
Web文本聚类算法的分析比较 总被引:2,自引:0,他引:2
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。 相似文献
16.
随着Internet的普及和相关技术的发展,Web上聚集了大量的信息资源.如何从这些Web信息资源中提取有用信息这一问题促使了Web文本挖掘技术的产生.本文首先介绍了粗糙集的相关概念和理论,然后对基于粗糙集的Web文本挖掘技术进行了初步探讨和研究. 相似文献
17.
随着Internet的普及和相关技术的发展,Web上聚集了大量的信息资源。如何从这些Web信息资源中提取有用信息这一问题促使了Web文本挖掘技术的产生。本文首先介绍了粗糙集的相关概念和理论,然后对基于粗糙集的Web文本挖掘技术进行了初步探讨和研究。 相似文献
18.
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。
相似文献