首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

2.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

3.
一种基于节点密度分割和标签传播的Web页面挖掘方法   总被引:1,自引:0,他引:1  
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.  相似文献   

4.
基于Web信息组织模型的元数据检索技术   总被引:1,自引:0,他引:1  
高玉珠  刘瑞 《计算机应用》2006,26(Z1):89-90
针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统.使用基于正则表达式的元数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元数据库进行不断地更新.抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索.  相似文献   

5.
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题.传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法.该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息.  相似文献   

6.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。  相似文献   

7.
为非结构化的Web页面标注事件语义信息,可以丰富Web页面结构化信息,加深对Web页面内容的理解。选取新闻类型的Web页面,遵照事件语义标注规范对选取的未标注Web页面进行事件语义标注。对标注了事件语义的语料实例进行抽象得到事件语义结构模式;利用层次聚类算法,将所得的事件语义结构模式进行聚类分析,得到不同类别的事件语义模式。实验结果表明,在已标注事件语义的语料实例的基础上,利用聚类算法进行分析,获取各种类别的事件语义模式,对Web页面内容分析与理解是非常必要的。  相似文献   

8.
一种基于分类算法的网页信息提取方法   总被引:3,自引:0,他引:3  
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.  相似文献   

9.
基于扩展DOM树的Web页面信息抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强.多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式.针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document Object Model)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取.该算法能对多信息块的Web页面进行信息抽取.  相似文献   

10.
基于本体论的Web信息抽取   总被引:15,自引:0,他引:15  
以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.  相似文献   

11.
《计算机科学》2007,34(4):148-148
Recent years have seen rapid advances in various grid-related technologies, middleware, and applications. The GCC conference has become one of the largest scientific events worldwide in grid and cooperative computing. The 6th international conference on grid and cooperative computing (GCC2007) Sponsored by China Computer Federation (CCF),Institute of Computing Technology, Chinese Academy of Sciences (ICT) and Xinjiang University ,and in Cooperation with IEEE Computer Soceity ,is to be held from August 16 to 18, 2007 in Urumchi, Xinjiang, China.  相似文献   

12.
Abstract This paper describes an approach to the design of interactive multimedia materials being developed in a European Community project. The developmental process is seen as a dialogue between technologists and teachers. This dialogue is often problematic because of the differences in training, experience and culture between them. Conditions needed for fruitful dialogue are described and the generic model for learning design used in the project is explained.  相似文献   

13.
本文分析了法律数据库的结构和特点,介绍了采用面向对象设计方法和超文本数据库技术开发和实现法律信息库系统将作为重要网络资源之一为不同用户进行法律咨询服务。  相似文献   

14.
15.
16.
正SCIENCE CHINA Information Sciences(Sci China Inf Sci),cosponsored by the Chinese Academy of Sciences and the National Natural Science Foundation of China,and published by Science China Press,is committed to publishing highquality,original results of both basic and applied research in all areas of information sciences,including computer science and technology;systems science,control science and engineering(published in Issues with odd numbers);information and communication engineering;electronic science and technology(published in Issues with even numbers).Sci China Inf Sci is published monthly in both print and electronic forms.It is indexed by Academic OneFile,Astrophysics Data System(ADS),CSA,Cabells,Current Contents/Engineering,Computing and Technology,DBLP,Digital Mathematics Registry,Earthquake Engineering Abstracts,Engineering Index,Engineered Materials Abstracts,Gale,Google,INSPEC,Journal Citation Reports/Science Edition,Mathematical Reviews,OCLC,ProQuest,SCOPUS,Science Citation Index Expanded,Summon by Serial Solutions,VINITI,Zentralblatt MATH.  相似文献   

17.
正Erratum to:J Zhejiang Univ-Sci C(ComputElectron)2014 15(7):551-563doi:10.1631/jzus.C1300320The original version of this article unfortunately contained mistakes.Algorithm 6 should be as follows:Algorithm 6 FGKFCM-F clustering Input:(1)X={x_1,x_2,…,x_N},,x_iR~d,i=1,2,…,N,the dataset;(2)C,1C≤N,the number of clusters;(3)ε0,the stopping criterion;  相似文献   

18.
19.
磨矿过程的大滞后和时变性等特点,致使对磨机负荷的最佳工作点很难进行稳定、高效的控制,针对以上情况,借鉴生物界的免疫反馈原理和遗传算法,利用模糊控制可以有效地实现对非线性、纯滞后、复杂的对象进行控制的优点,并结合PID与自寻优方法,设计出磨机负荷专家控制系统,用VB编写OPC客户端及控制程序,实现对磨机负荷的动态优化控制;试验结果表明,文章提出的控制策略能够增强系统的稳定性,且在干扰存在的情况下也能很好的跟随系统的参数变化,在提高磨机台时产量的同时增加了矿厂的经济效益.  相似文献   

20.
由于无线传感器网络中的节点链路状况、数据传输能耗及节点剩余能量的限制,造成网络中部分感知节点寿命缩短,影响网络生存周期,提出了一种基于人工蜂群算法的WSNs能耗均衡算法,优化网络能耗均衡,从而提高网络寿命;文章给出了网络能耗相应的数学模型及优化求解算法,介绍人工蜂群算法的寻找食物过程,阐述了人工蜂群算法在网络能耗均衡方面的实现步骤;通过实验仿真证明,文章提到的算法与LEACH分簇算法、蚁群优化算法相比,具有更好的能耗和负载均衡能量、丢包率和时延性,有效地提高了网络生存周期.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号