首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 178 毫秒
1.
一个个性化的Web信息采集模型   总被引:7,自引:0,他引:7  
吴丽辉  王斌  张刚 《计算机工程》2005,31(22):86-88
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。  相似文献   

2.
基于模板流程配置的Web信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。  相似文献   

3.
4.
随着Internet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统,该系统可根据用户使用正则表达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。  相似文献   

5.
计算机互联网上的信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需的信息已日益突显出其重要性。该文挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。文章介绍了Web文本挖掘的一般流程,重点分析了Web文本挖掘中的几种关键技术。  相似文献   

6.
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。  相似文献   

7.
设计一个动态可配置数据采集系统。该系统在Java Web开发平台上,利用Apache POI插件,开发出一套可以直接导入Excel数据模板文件并快速生成数据采集网页的Web应用程序。该数据采集网页可以根据用户的需求进行个性化的动态配置,然后通过QQ、微信和短信等多种方式向信息被采集人推送,被采集人可利用个人电脑、手机以及各类移动终端随时随地打开数据采集网页填写并提交信息,信息提交后即写入服务器端数据库,所有信息采集完毕后,可从系统中导出数据生成Excel文档。利用该系统,用户可在Excel文档和Web网页之间进行快速灵活的相互转换,使得原本费时费力的数据采集变得快捷方便,从而为未来的大数据分析提供充足而真实的数据源。  相似文献   

8.
随着越来越多的信息隐藏在Deep Web中,针对用户查询找出最相关的Web数据库成为亟待解决的问题。提出了一种基于Web数据库主题分布的方法用于Deep Web数据集成中的Web数据库选择。获取主题覆盖度形式的Web数据库内容描述,而后利用选定的Web数据库获取查询主题,最终由查询主题和主题分布矩阵来选择Web数据库。在真实Web数据库上的实验结果表明,该方法既取得了较高的查询召回率,也可有效降低数据库内容描述建立的代价。  相似文献   

9.
嵌入式手持无线农产品价格信息采集终端   总被引:1,自引:0,他引:1  
手持无线农产品价格信息采集终端采用ARM-Linux嵌入式体系设计,通过GPRS无线网络向远程服务器上传农产品价格信息同时接收系统的采集指令.手持终端利用Qtopia core用户界面支持,提供了友好的用户界面,并利用嵌入式数据库实现农产品种类和历史记录的管理,使用户操作简单、直观、方便.手持无线农产品价格信息采集终端为农产品价格采集系统提供了具有良好用户体验的终端设备,为在全国范围内实现农产品价格监控提供了技术保障.  相似文献   

10.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术.  相似文献   

11.
由于硬件升级和WiFi的广泛覆盖,网络应用业务和服务在Web端和智能移动终端并驾齐驱,用户也经常在两者之间切换,因此,支持跨平台自适应于Web端和移动终端的网络应用研发技术是当今的一个热点.Ionic框架技术通过前端交互设计,逻辑控制设计,调用系统原生接口完成应用软件的研发;AngularJS框架技术通过强大的视图数据双向绑定功能,自定义指令扩展功能,灵活的数据处理功能,增强HTML的动态应用;MongDB数据库技术借助数据库、集合、文档作为存储单元实现单服务器部署和多数据中心架构.本文研究怎样组合Ionic框架、AngularJS技术实现自适应前端页面的设计,研究了MongDB的存储原理和它内置文件系统GridFS存储文件的工作原理,以及它内置分片系统Sharding对松散数据结构的支持和存储数据的强扩展性原理,并采用研究的结果设计实现了一款自适应于Web端与移动终端的应用软件,为用户在Web端和移动端切换带来了简便,实现了良好的用户体验.  相似文献   

12.
针对开源安全框架Spring Security的Web资源保护功能进行研究,分析框架的认证和授权两个主要过程,指出了框架对于用户和Web资源的授权信息外化存储这一关键企业级安全特性支持上的不足,进而对此进行了扩展。借助于Spring容器的依赖注入特性和安全框架的扩展性,结合数据库存储授权信息,本文设计了一个基于Spring Security的用户与Web资源授权信息动态存储方案,并给出了关键的程序代码。  相似文献   

13.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

14.
在对Web服务安全、信息安全风险评估进行深入研究的基础上,提出了符合Web服务安全特点的风险评估流程与算法,并介绍了Web服务安全风险评估辅助工具的设讦与实现。实验证明,评估结果给用户下一步的风险管理工作提供了科学高效的依据。  相似文献   

15.
为了适应环境和上下文信息的动态变化并提供适时适地的服务,Web服务组合要能满足处于动态变化环境中的个性化用户需求。文中提出了一个基于模板和上下文的语义Web服务组合框架,该框架使用抽象服务流程进行Web服务组合建模,利用本体来进行上下文信息建模并支持基于JESS的上下文信息推理,在原有基于语义的Web服务匹配的基础上,实时地感知上下文信息来进行Web服务动态绑定。该方法提高了服务组合的成功率和动态适应性,并且满足了用户的个性化需求。  相似文献   

16.
如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词.由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面.然而,研究表明,由Hidden Web站点提供的高质量的信息对许多用户来说非常有价值.文章通过研究针对特定类型的表单,建立一个有效的Hidden Web爬虫,以便获取Hidden Web后台数据库信息.  相似文献   

17.
针对传统手写信息采集系统存在的信息获取不全面的弊端,设计了一种基于多维力传感器的手写信息采集系统,给出了系统的总体框架.系统以多维力传感器为核心,不仅实现了对手写过程静态轨迹信息的获取,同时实现了对手写多维力信息的获取.整个系统由用户接口模块、数据采集模块和数据处理模块组成,分析了各模块的设计思想和工作原理,并基于WinCE系统开发了一种手写信息采集系统.实验证明:该系统工作稳定,性能优良,实现了对手写过程中力和位置信息的全面获取.  相似文献   

18.
在目前国内新政策形势下,政府积极倡导综合运用现代科学技术、整合信息资源开展健康城市建设,不断提升城市健康指数和生活水平,现针对目前国内看病难、看病烦、看病贵等问题,明确系统需求和目标,提出一种面向智能社区的人体健康系统设计方法,把嵌入式技术、数据库技术、计算机技术相结合,以SQL Sever数据库作为云服务器,采用混合体系架构设计模式,终端系统通过医疗传感设备将采集到的人体体征数据存储到SQL Sever数据库中,Web端或者手机端通过Web Service获取数据进行操作和显示,并运用RBF神经网络对数据库中的特征数据进行分析和预测,从而实现对用户健康进行指导和建议。  相似文献   

19.
Hidden Web信息获取   总被引:3,自引:0,他引:3  
如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站点提供的高质量的信息对许多用户来说非常有价值。文章通过研究针对特定类型的表单,建立一个有效的Hidden Web爬虫,以便获取Hidden Web后台数据库信息。  相似文献   

20.
信息时代的到来,知网(CNKI)成为国内最大的论文数据库,如何高效地获取论文信息,挖掘论文价值,成为了一个亟待解决的问题。目前,论文检索工具多为通用爬虫,只能采集到部分少量的信息,且包含着不符合用户要求的信息,因此实现一个集聚焦论文信息采集和实时论文数据分析的系统变得极为重要。该系统针对如何高效获取论文信息,挖掘论文价值等问题,使用Python Django框架和Celery框架将网站和爬虫结合,实现了爬虫的自动化。系统分为论文爬取模块和多维度分析模块。其中,论文爬取模块使用Selenium,模拟用户点击,并使用Beutifulsoup4和Requests解析网页内容,最后将获取到的论文信息存储到MySQL数据库中。多维度分析模块使用High Charts进行数据展示,主要对与关键词相关的论文发表趋势,高产作者、机构等信息进行分析。通过该系统,科研学者可以方便快捷地获取到研究领域的各种论文信息,为以后的深入研究提供数据支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号