共查询到20条相似文献,搜索用时 78 毫秒
1.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。 相似文献
2.
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法.该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的.实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确卒,通用性强. 相似文献
3.
4.
一种改进的TFIDF网页关键词提取方法 总被引:1,自引:0,他引:1
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 相似文献
5.
基于启发式规则的网页主题信息精确定位方法* 总被引:3,自引:0,他引:3
目前大部分的信息抽取方法都是针对主题信息块的提取,没有进一步深入到各个单独主题信息的抽取。针对这一问题,提出了一种基于启发式规则的网页主题信息精确定位方法。首先针对各个单独的主题,分析其多方面的特征,制定出对应的启发式规则;然后利用不同的规则对定位主题重要度不同的这一特点,得到启发式规则的权值矩阵;最后利用基于启发式规则的定位算法精确定位各个主题。将该方法用于网页主题信息抽取系统中,抽取系统能够有效地对各个单独的主题进行定位和抽取。实验结果表明,该方法具有很好的有效性和准确性。 相似文献
6.
B2B垂直搜索引擎是垂直搜索引擎在电子商务领域的应用。怎样更好地对互联网中海量的企业产品信息进行抽取和去噪,是当前B2B垂直搜索引擎构建中所面临的重要问题。介绍了B2B垂直搜索引擎的特征;分析了一般企业网站的基本结构,在此基础上提出一种面向B2B垂直搜索引擎的企业站点产品信息去噪方法;给出了该方法的实验结果。使用这种方法抽取到的产品信息可用于指导产品进一步的分类工作。 相似文献
7.
B2B垂直搜索引擎是垂直搜索引擎在电子商务领域的应用.怎样更好地对互联网中海量的企业产品信息进行抽取和去噪.是当前B2B垂直搜索引擎构建中所面临的重要问题.介绍了B2B垂直搜索引擎的特征;分析了一般企业网站的基本结构,在此基础上提出一种面向B2B垂直搜索引擎的企业站点产品信息去噪方法;给出了该方法的实验结果.使用这种方法抽取到的产品信息可用于指导产品进一步的分类工作. 相似文献
8.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 相似文献
9.
基于DOM的网页主题信息的抽取 总被引:1,自引:0,他引:1
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。 相似文献
10.
基于网页文本结构的网页去重 总被引:1,自引:0,他引:1
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 相似文献
11.
一种基于词聚类的中文文本主题抽取方法 总被引:2,自引:0,他引:2
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实验结果表明,该方法具有较高的抽准率。 相似文献
12.
张志强 《计算机工程与设计》2008,29(15)
面对当前海量的Internet数据信息,如何帮助人们准确定位所需信息,成为重要的研究课题.基于回填机制的网页加权分类是解决该问题的一个有效方法.该方法充分利用Web文本结构信息,以类轴分类为基础,在回填机制下进行加权处理.实验结果表明,该方法使具有明显分类特征的特征词发挥了较好的分类效果,抑制了权重小的特征词的干扰,有效地提高的分类的准确率与召回率. 相似文献
13.
遥感影像的水库水体信息提取对水库面积变化监测有很大的帮助,因此,提出一种基于遗传算法和改进Otsu算法的水体提取方法。对处理后的遥感影像使用NDWI (normalized difference water index)水体指数法进行初始的水体提取,由于传统的Otsu算法对直方图呈现双峰分布的图像提取效果不佳,利用遗传算法对最大类间方差公式进行双阈值计算,引入滑动窗口对图像进行阈值判断;使用自适应阈值算法进行局部阈值分割。通过对石梁河水库和小塔山水库的实验,表明该方法能够准确提取出水库的水体信息,误提取和漏提取现象得到了很大的改善。 相似文献
14.
基于权重均值的不良网页过滤算法研究 总被引:2,自引:0,他引:2
传统的网页权重过滤算法中的权重大都根据词频统计方法来确定,该方法不能很好地表达关键词对主题的表征程度,且易被某些网站利用反关键字过滤策略逃避检测.在传统方法的基础上,设置加权的关键字矩阵词典,从关联规则出发,应用汉语语料库里的同类词定义,提出基于同类词权重均值的关联过滤算法.试验结果表明,该算法过滤更为高效,并且能够很好地应对色情网站的反关键字过滤策略,尤其在色情与医学网页的分离上有明显的效果. 相似文献
15.
We present a new linear discriminant analysis method based on information theory, where the mutual information between linearly transformed input data and the class labels is maximized. First, we introduce a kernel-based estimate of mutual information with a variable kernel size. Furthermore, we devise a learning algorithm that maximizes the mutual information w.r.t. the linear transformation. Two experiments are conducted: the first one uses a toy problem to visualize and compare the transformation vectors in the original input space; the second one evaluates the performance of the method for classification by employing cross-validation tests on four datasets from the UCI repository. Various classifiers are investigated. Our results show that this method can significantly boost class separability over conventional methods, especially for nonlinear classification. 相似文献
16.
基于搜索引擎的知识发现 总被引:3,自引:0,他引:3
数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。 相似文献
17.
针对元搜索引擎在个性化处理上的不足,提出了主题树的方法,把用户的查询映射到主题树上并返回相关查询,比较准确地表达了不同用户的检索需求。根据用户的浏览行为提出了准确度偏差,用户满意度的评价公式,以用户为中心反映排序是否符合用户的需要。结果排序时不仅考虑了页面的标题、摘要和用户查询的相关性,也考虑了各成员搜索引擎的原来的排序信息以及关键词出现的个数和位置。实验结果表明,该方法有效地提高了元搜索引擎的结果排序能力和个性化处理能力,结果的显示顺序基本符合用户的需要。 相似文献
18.
19.
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法.该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交又熵以及文本证据权.利用KNN分类器在Reuters-21578标准数据集上进行训练和测试.实验结果表明,该方法能够选出有效特征,提高文本分类的性能. 相似文献
20.
从信息论的角度,提出了一种新的文本分类模型.该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题.从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明.根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础. 相似文献