首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 537 毫秒
1.
基于本体论的Web信息抽取   总被引:15,自引:0,他引:15  
以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.  相似文献   

2.
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。  相似文献   

3.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

4.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

5.
张研  韩露 《软件》2005,(8):85-86
目前,在充分利用网络的即时性、互动性方面,Web数据库起着重要的作用,于是很多网站开始重视Web数据库的开发。Web数据库的主要目的就是存储信息,一般是通过前台页面与浏览者的交互收集信息,然后结合前台的程序(一般为动态页面),实时生成浏览者所看到的最新内容,由此生成的动态页面具备普通静态页面所不能达到的效果。  相似文献   

6.
提出了一种基于关键字的Web数字信息挖掘方法。利用该方法,充分挖掘出Web页面上的关于高考招生的数据信息,在此基础上利用回归分析设计并实现了一种基于Web挖掘的高考预测系统。  相似文献   

7.
随着Web的迅猛发展,许多用户开始关注如何有效跟踪特定网站和页面的更新情况.介绍一个基于Intranet的Web页面跟踪系统,该系统采用动态跟踪调度算法DSA;利用线程池技术提高带宽利用率;设计了一套分布式信息存储机制;并实现及时的信息分发.  相似文献   

8.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

9.
结合当前Web站点的数据特点,以信息项在页面中的出现位置为信息抽取的路径,利用PAT树技术,提出了一个多Agent协作的自动信息抽取模型.该模型能够自动分析样本页面数据特征,归纳学习整个站点的数据模式,生成抽取规则,指导以后的抽取动作.实验结果表明,该模型对Web页面的结构化信息抽取具有较高的效率.  相似文献   

10.
钱忠胜  缪淮扣 《计算机科学》2011,38(2):152-155,159
测试Web软件面临极大的挑战。从构造Web软件的页面流图出发,提出了一种测试路径生成的方法,以一个简单的Wcb登录系统SWLS(Simple Web Login System)为例对该方法进行了阐述,并给出了Web软件测试的一种有效模型。该方法给页面流测试技术提供了一个有意义的基础。  相似文献   

11.
用VB设计ASP动态网页系统的安装程序   总被引:1,自引:0,他引:1  
详细阐述了用VB设计ASP动态网页系统安装程序的全过程:获取Web服务器WWWRoot的本地物理路径、拷贝动态网页系统的所有文件、配置ODBC数据源和注册本动态网页系统专有ActiveX Server组件文件,并且给出了相应的关键程序段。  相似文献   

12.
本文讨论了基于网站建设中网页设计的安全缺陷,指出服务器端动态网页技术本身存在安全缺陷。介绍了登录验证漏洞、绕过验证直接进入设计页面漏洞、桌面数据库被下载漏洞、源代码泄露漏洞和文件上传漏洞,给出了相应解决漏洞的方法。  相似文献   

13.
To maintain quality of service, some heavily trafficked Web sites use multiple servers, which share information through a shared file system or data space. The Andrews file system (AFS) and distributed file system (DFS), for example, can facilitate this sharing. In other sites, each server might have its own independent file system. Although scheduling algorithms for traditional distributed systems do not address the special needs of Web server clusters well, a significant evolution in the computational approach to artificial intelligence and cognitive engineering shows promise for Web request scheduling. Not only is this transformation - from discrete symbolic reasoning to massively parallel and connectionist neural modeling - of compelling scientific interest, but also of considerable practical value. Our novel application of connectionist neural modeling to map Web page requests to Web server caches maximizes hit ratio while load balancing among caches. In particular, we have developed a new learning algorithm for fast Web page allocation on a server using the self-organizing properties of the neural network (NN).  相似文献   

14.
CAN_NODE实验板是一款功能强大的8位AVR单片机实验板,采用的是基于AVR RISC结构的8位低功耗CMOS微处理器ATmega128。由于其先进的指令集以及单周期指令执行时间,ATmega128的数据吞吐率高达1 MIPS/MHz。板上提供了CAN总线通讯所需要的硬件,按键,LED,USB接口等常用的功能部件,为系统扩展而预留了扩展功能接口,提供了SPI接口和JTAG接口以方便下载和调试。  相似文献   

15.
一种基于语义理解的元搜索引擎的研究   总被引:5,自引:0,他引:5  
通过对查询短语的结构分析,发现查询短语通常由关键词和特征词构成。特征词是对网页内容的概括,它预示着网页中包含一组特定的特征词条。基于该思想建立了面向Web网页内容的特征库。以元搜索引擎为研究对象,研究了以Web网页内容特征库为基础实现对查询短语进行语义理解的方法,提出了相关度级别的算法,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。  相似文献   

16.
在平面设计软件中实现SVG格式文档输出   总被引:3,自引:0,他引:3  
SVG是W3C(World Wide Web Consortium)正在制定的基于XML语言的面向Web制作的图形图象规范。该文在简要介绍了SVG功能及其发展前景之后,给出了在平面设计软件中输出SVG格式文档的示例,以及SVG文档在浏览器上的表现方法。  相似文献   

17.
周文刚  马占欣 《微机发展》2007,17(4):120-124
对Web页进行必要的、有效的内容过滤对于营造健康、安全的网络环境具有重要的意义。重现用户成功访问过的Web页内容,可以对网络访问进行事后监督,为过滤机制的完善提供相应数据。文中分析了Web页的访问流程,基于HTTP代理服务器,在应用层实现了对Web页的关键字过滤和基于语义的内容过滤,并通过将客户机成功访问过的Web页存储在代理服务器硬盘上,实现了内容重现。试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高。  相似文献   

18.
一种基于预分类的高效SVM中文网页分类器   总被引:4,自引:0,他引:4       下载免费PDF全文
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。  相似文献   

19.
20.
给出了在网页上实现类似Windows操作系统中的文件管理的方法,可以将文件以多级树形的方式进行管理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号