首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。  相似文献   

2.
Ajax技术是Web客户端提交、访问服务器的一种方式,通过它可以提高客户端可操作性和美观。本文介绍Ajax的基本概念,详细说明使用JQuery Ajax框架来实现Web页面异步操作树的过程及其应用的优势特性。  相似文献   

3.
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。  相似文献   

4.
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。  相似文献   

5.
程菲  汪建海  罗键 《计算机工程与设计》2006,27(23):4521-4524,4555
针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multi abstractremoverepeat,MARR)。MARR方法对传统基于词表和倒排文件的Web信息数据库进行改装,增加一个字段用于记录关键词所对应的摘要块号,采用文本摘要算法,按倒排文件方式索引,根据内容基于查询词目的相似程度,在检索过程中过滤或标识与查询词目相关的部分内部重复现象,以获得更合理的检索结果组织形式。MARR方法还将传统按PageRank值顺序排列改成树型组织方式,以方便用户信息发现的需要。该方法在基于三明钢铁集团MES智能信息代理的原型化Web检索系统中得到应用。  相似文献   

6.
基于Ajax与MVC模式的信息系统的研究与设计   总被引:11,自引:0,他引:11  
针对MVC模式的B/S架构信息系统Web页面表现出的实时性较差的问题,尝试将Ajax融入MVC模式系统的结构设计之中,利用Ajax技术的高交互性设计信息系统的Web页面,改进Web页面中的表单数据处理过程。通过文档对象模型DOM将各文档定义为树形结构的数据对象,同时处理HTML文档中的元素。最后用JavaScript编码处理页面中的对象,实现Ajax技术在MVC模式中的应用,提高信息系统Web页面的交互性。  相似文献   

7.
一种基于节点密度分割和标签传播的Web页面挖掘方法   总被引:1,自引:0,他引:1  
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.  相似文献   

8.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

9.
一种基于Ajax技术的分页方法   总被引:1,自引:0,他引:1  
Ajax将浏览器客户端和服务器端的传统同步交互通信方式改变为异步交互通信方式,使用Ajax,就算不重载刷新Web页面,用户也能顺利快速得到Web服务器的数据,可大大改善了传统分页显示方法。本文首先介绍了Ajax包含的主要技术及工作原理,然后给出了一个使用Ajax技术进行分页显示的实例。  相似文献   

10.
基于.NET的Ajax控件保值技术及其应用   总被引:4,自引:1,他引:3       下载免费PDF全文
在页面内使用Ajax技术与服务器通信可提高Web应用的响应速度,但Web服务器控件引起的页面刷新导致整个页面回传后,页面的视图状态处理模型并没有记录Ajax控件在页面变化之前的值,造成Ajax控件值的丢失。该文提出一种状态保存机制,将Ajax控件状态值存储到服务器的Session或者客户端的userData中,使页面刷新后客户端的Ajax控件仍可保留原有值,保证控件状态的持续。  相似文献   

11.
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。  相似文献   

12.
使用特征文本密度的网页正文提取   总被引:1,自引:0,他引:1  
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。  相似文献   

13.
对污染源信息进行收集分析的传统人工方法工作量大、效率低、统计周期长,实时信息更新慢。为解决上述问题,利用Ajax对页面局部刷新的思想,设计并实现了一种基于Ajax的Web污染源信息数据处理系统。系统运行结果表明,该系统能够对基础环境数据进行快速统计分析,并可以对污染源信息实时更新。同时,Ajax的应用,使得页面更新速度加快,访问效率得以提升。  相似文献   

14.
基于扩展DOM树的Web页面信息抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强.多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式.针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document Object Model)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取.该算法能对多信息块的Web页面进行信息抽取.  相似文献   

15.
本文针对Web主页面存在的安全隐患,提出了一个保护Web主页的完全解决方案--网页防篡改系统,利用Java数据流技术备份主页、利用Java的多线程技术来实时监控它是否被篡改,如果被篡改则及时地报警并自动发布被破坏的主页。本文阐述了主页防篡改系统的具体功能,并实现了其中的主要功能。  相似文献   

16.
Ajax是一种异步交互式的Web应用开发技术。文章分析了Ajax技术的工作原理,并介绍了其在课表修改等功能中客户端无刷新更新页面的应用,最后给出了系统在jQuery框架下的实现方法。  相似文献   

17.
本文针对Web主页面存在的安全隐患,提出了一个保护Web主页的完全解决方案--网页防篡改系统,利用Java数据流技术备份主页、利用Java的多线程技术来实时监控它是否被篡改,如果被篡改则及时地报警并自动发布被破坏的主页.本文阐述了主页防篡改系统的具体功能,并实现了其中的主要功能.  相似文献   

18.
Ajax是一种异步交互式的Web应用开发技术。文章分析了Ajax技术的工作原理,并介绍了其在课表修改等功能中客户端无刷新更新页面的应用,最后给出了系统在jQuery框架下的实现方法。  相似文献   

19.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号