首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

2.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法.相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息.实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意.  相似文献   

3.
谢方立  周国民  王健 《计算机科学》2016,43(Z11):31-34, 49
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示 该方法 在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。  相似文献   

4.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法。相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息。实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意。  相似文献   

5.
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。  相似文献   

6.
刘云峰 《计算机工程》2010,36(12):83-84
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

7.
由于网页信息具有异构和动态的特点,致使现有的大多数网页信息抽取方法都存在适用性差的问题。为此,将传统的文本分类器和隐式马尔可夫学习策略结合起来,提出了一种基于多学习策略的网页信息抽取方法。该方法在获得网页文本记录的局部最优分类抽取结果基础上,还利用了整个网页文本结构信息对抽取结果进行进一步优化。实验结果表明,该方法不需要对新的站点进行学习,就能获得较高的信息召回率和抽取精度,具有较强的适用性。  相似文献   

8.
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果.  相似文献   

9.
为降低特征空间维数,提出了一种基于分布距离的文本特征聚类方法,通过将特征空间中分布距离相近的特征聚合,来实现降维。在TanCorpusV1.0语料库上实验表明,当将特征空间维数降低至原空间的近10%时,用SVM作为分类器,获得了比特征提取方法高的分类精度。  相似文献   

10.
提出了基于广义信息距离的直接聚类算法.基于信息理论给出了离散量的基本概念,讨论并证明了离散量的一个基本不等式,进而给出了离散增量的概念.在分析距离测度的基础上,提出了广义信息距离(GID)、改进的广义信息距离(IGID),建立了基于GID,IGID的直接聚类算法,并对土地肥力数据资料进行了聚类分析.结果表明,建立的算法与传统的聚类算法相比,算法原理简便、对数据本身的维数与分布要求不高,且具有较好的聚类效果.  相似文献   

11.
目前随着信息检索技术的不断深入,信息检索技术中的聚类分析也得到了不断的发展,特别是随着各种数据源的大量涌现,如图像数据,文本数据,DNA数据,时间序列数据,Web数据等等,聚类分析越来越受到重视,对聚类的研究已经成为信息检索领域中一个非常活跃的研究课题。论文以聚类分析方法为理论基础,利用面向对象编程技术完成了一个聚类软件,应用该聚类软件,可对信息实现快速检索,具有实用价值。  相似文献   

12.
郭猛  冯志勇 《微处理机》2007,28(4):116-119
基于关键词处理的传统检索技术会在检索过程中遗漏大量与检索概念相关或同义的内容。针对这种情况,提出了一种基于本体的Web信息检索模型。另外该模型通过解析语义文档并分析所需的概念属性之间的关系得到一定的相似度,并在检索过程中利用该相似度进行语义扩展。  相似文献   

13.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

14.
基于智能Agent的Web信息检索系统   总被引:6,自引:0,他引:6  
李四明  唐玉荣 《计算机工程》2004,30(7):124-125,191
设计和实现了一个基于智能Agent的面向领域的Web信息检索系统,讨论了该系统的体系结构和各模块设计思想。经实验验证,该系统具有检索精度商、检索方式多样、用户界面友好等特点。  相似文献   

15.
基于语义的Web信息检索   总被引:1,自引:0,他引:1  
语义万维网的研究逐渐引起了知识表示、逻辑编程、信息系统集成和开发等各个领域的广泛关注。文中概述了语义万维网的概念、技术框架,并且对含有自由文本和丰富语义标记的网络文档资源的三种语义检索系统原型进行了深入分析。最后,提出了设计Web语义检索系统应该满足的条件,可以基于它来设计语义检索系统框架。  相似文献   

16.
基于改进向量空间模型的Web信息检索技术研究   总被引:12,自引:1,他引:12  
提出了一种改进的向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。  相似文献   

17.
本文介绍了人工智能领域的Agent技术,以及其基本特性和一些主要功能。通过对Agent系统结构分析提出多智能Agent工作模型。通过对Agent之同通讯研究开发新的规则和解决方法,通过对多Agent协作不仅改善了单个Agent的基本处理能力,而且可以从Agent系统的交互协作中进一步理解多智能Agent系统的现实意义  相似文献   

18.
给出了一个基干知识的Internet新闻信息自动识别、采集、过滤、索引的软件Agent系统,介绍了系统体系结构和功能,说明了新闻信息采集器、知识库、新闻信息索引以及用户兴趣表示等技术的实现,最后给出部分实验结果。  相似文献   

19.
基于Web的信息检索技术综述   总被引:12,自引:0,他引:12  
随着信息技术的发展,特别是Web的不断普及和应用,Web上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。  相似文献   

20.
基于Bayes算法的Web网页识别   总被引:2,自引:0,他引:2  
Internet的飞速发展在带给人们很多方便的同时,也出现了一个新问题,即如何从大 信息中快速而方便地找到所需要的信息。Web网页识别是其关键技术问题之一。使用了两种机器学习算法-Bayes算法,改进Bayes算法实现了网页识别,并对两种机器学习算法的效果进行了实验分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号