首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
基于内容相似度的网页正文提取   总被引:6,自引:0,他引:6       下载免费PDF全文
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

2.
谢方立  周国民  王健 《计算机科学》2016,43(Z11):31-34, 49
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示 该方法 在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。  相似文献   

3.
现有的多记录网页抽取方法通常是对文件对象模型( DOM)树进行整体纵向结构分析,计算的结构相似度普遍偏低,使其不能正确识别记录区域。文中提出基于DOM树层次特征的记录抽取方法,该方法利用DOM树不同层次节点的不同作用对其进行横向分析,将寻找相似子树的问题转换为寻找节点块的相似子块,最后采用双向拓展搜索非重叠重复子块进行记录分隔。实验表明该方法能抽取现有抽取器无法处理的页面,多个数据源的抽取结果验证其有效性。  相似文献   

4.
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法.该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文.整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷.实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性.  相似文献   

5.
节点频度和语义距离相结合的网页正文信息抽取   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。  相似文献   

6.
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。  相似文献   

7.
由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标节点变化的转换路径进行递归搜索;通过重放点击路径,自动完成目标节点的内容抓取;通过覆盖监听器方法原型,获取DOM树中所有可点击的节点作为候选节点。该算法应用RTDM算法和自定义过滤器来对DOM状态空间进行压缩,以缩减搜索空间,定义DOM树中候选节点到目标节点的距离作为h打分,进行启发式搜索。实验表明,所研究算法性能优良,对隐网页内容的抽取准确率达到89.48%,可应用在网页自动化测试、网页爬虫等领域。  相似文献   

8.
基于统计与正文特征的中文网页正文抽取研究   总被引:5,自引:0,他引:5  
该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。  相似文献   

9.
在信息检索领域,数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树,然后将结构相似的子树抽取出来作为候选数据对象,接着再计算候选数据对象的内容相似度,内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来,召回率和准确率都比较高,且该方法独立于领域,独立于Web数据对象的表示形式,较好地解决了Web数据对象的抽取问题。  相似文献   

10.
现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容。为此,提出基于通配符节点话题权重的抽取方法。将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的话题权重,将高权重话题的通配符节点所覆盖的文本节点识别为正文节点。实验结果表明,与传统新闻抽取方法相比,该方法能降低Web新闻内容边缘噪音文本的错误识别率,抽取的新闻内容准确率更高。  相似文献   

11.
12.
刘伟 《微计算机信息》2006,22(16):212-213
本文对于金属切削这一生产过程中所出现的不稳定问题,利用频率特性法中的奈氏判据,对其进行分析,从而找出消除自激振荡和达到切削过程绝对稳定的条件  相似文献   

13.
人体测量学并不是现代社会的产物。有着很长发展历史的人体比例理论中就包含了现代人体测量学的基本内容,尽管其还不够系统完整,但至少说明了在艺术创作中诞生的人体比例理论对现代人体测量学的影响。并随着时间的推移而不断的完善发展,为现代人体测量学的系统提出奠定了坚实的基础。  相似文献   

14.
目的:解决在FLASH中导入声音的问题.方法:对FLASH不支持的声音格式采取音频压缩的方法.结果:可成功将压缩后的声音文件导入到FLASH中.结论:在FLASH中使用声音可以使FLASH动画具有良好的动画效果.  相似文献   

15.
 The paper questions the ability of current university systems to respond appropriately to the complex demands of an Information Economy. It argues that new relationships between creative subjects and technology require new thinking about the nature and purpose of universities per se. In particular, attention is drawn to the growing involvement of the private sector in higher education. It is argued that it may not be appropriate to think of the `university of the future' in terms of current public sector and quasi public sector institutions, but rather in terms of an emporium, based on an international trade in educational services, and with the `University' as we now understand it occupying the functions of licensing, quality assurance and cultural custodianship. Accepted: 25 June 2002  相似文献   

16.
虚拟化技术是当今服务器技术的一个主流方向,也是一项在计算机领域具有革命性意义的技术.作为x86架构体系下虚拟化技术的领军者-VMware,在技术上有其独到之处.研究VMware的技术与应用,对探知其优秀的技术特点,了解其成熟的产品体系有着现实意义.  相似文献   

17.
All titanium alloys are highly reactive in the molten condition and so are usually melted in a water-cooled copper crucible to avoid contamination using processes such as Induction Skull Melting (ISM). These provide only limited superheat which, coupled with the surface turbulence inherent in most conventional mould filling processes, results in entrainment defects such as bubbles in the castings. To overcome these problems, a novel tilt-casting process has been developed in which the mould is attached directly to the ISM crucible holding the melt and the two are then rotated together to achieve a tranquil transfer of the metal into the mould. From the modelling point of view, this process involves complex three-phase flow, heat transfer and solidification. In this paper, the development of a numerical model of the tilt-casting process is presented featuring several novel algorithm developments introduced into a general CFD package (PHYSICA) to model the complex dynamic interaction of the liquid metal and melting atmosphere. These developments relate to the front tracking and heat transfer representations and to a casting-specific adaptation of the turbulence model to account for an advancing solid front. Calculations have been performed for a 0.4 m long turbine blade cast in a titanium aluminide alloy using different mould designs. It is shown that the feeder/basin configuration has a crucial influence on the casting quality. The computational results are validated against actual castings and are used to support an experimental programme. Although fluid flow and heat transfer are inseparable in a casting, the emphasis in this paper will be on the fluid dynamics of mould filling and its influence on cast quality rather than heat transfer and solidification which has been reported elsewhere.  相似文献   

18.
李学良  朱志刚 《微计算机信息》2004,20(11):100-101,117
本文通过计量工作中用对等网实现多台微机电子秤的互联,实现数据的自动采集和共享,阐述了系统的硬件构成及软件设计,系统具有计量准确、快速、技术先进等特点,可大大提高工作效率,对企业实现计量管理网络化将起到有益的帮助。  相似文献   

19.
本文将水的导电特性与集成编、译码技术结合讨论了集成编、译码器MC145026、MC145028在水位数字化检测领域中的应用原理。对该系统的结构、特点和工作原理作了较详细的介绍。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号