首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
基于HTML解析器的Web信息提取技术   总被引:1,自引:0,他引:1  
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.  相似文献   

2.
针对密集型Web信息的数据抽取问题,提出了一种适合于XML结构又较为通用的树型结构抽取规则,把密集型Web上的数据抽取出来整合到指定模式的XML文档中.使用基于样例学习的半结构化Web信息抽取方法,自行开发了一个基于XML的Web新书查询原型系统,抽取Web页面效果良好,可直接应用于专门的Web网站信息的抽取,也可以用于其他相关应用的数据准备阶段.  相似文献   

3.
针对各出版社新书发布信息集成的需求,利用Web数据集成技术,设计了一种新书发布信息集成查询系统.系统基于B/S结构流行开发架构Struts Hibernate,具有一定的扩展性,可以扩展成为集图书信息查询检索服务与网上购书系统于一体的网上购书平台.  相似文献   

4.
为了解决针织装备信息交互中数据的碎片化、半结构化和信息异构而导致的数据语义完备性低的问题,提出了采用OPC统一架构(OPC UA)框架下构建针织装备信息模型的方法。建立了针织装备3个维度的结构化语义信息,设计了形式化的信息建模过程,从数字化针织生产车间整体模型和针织装备结构的角度建立了针织装备信息模型,包含属性集、组件集、配置信息等结构,并从针织装备数据变化频度、数据优先级、相关性等方面对信息模型作了优化。对比了针对针织装备OPC UA服务系统的实现方式,利用UaExpert SDK开发了针织OPC UA信息模型独立服务器,并对针织装备信息模型的互联互通进行了测试。结果表明,在OPC UA框架下构建的针织装备信息模型实例的方法是可行的,其在模型架构、语义结构、技术实现方面均有改进,并具有语义完备性高的特点。  相似文献   

5.
网络爬行技术研究   总被引:1,自引:0,他引:1  
阐述了基于整个W eb的爬行器、增量式的爬行器、基于主题的爬行器等不同类型网络爬行器的功能及优缺点;分析了近年来国内外网络爬行器的遍历算法,包括深度优先算法、广度优先算法、主题优先算法等.分析结果表明:基于遗传算法的爬行策略能够有效地加快抓取网页的速度和扩大搜索范围.  相似文献   

6.
周睿 《美食研究》2010,(2):56-61
从设计学角度剖析当前电子信息化趋势将对川菜产业发展产生的重要影响,提出完善基于W eb1.0的信息架构,进行川菜品牌的W eb2.0渠道推介,寻找恰当的信息电子终端的载体形式,趋势应用映射菜系形象,对接商业与服务模式的应对措施,以期保持川菜菜系的领军地位,促进川菜产业的发展。  相似文献   

7.
黄超  黄全义  申世飞  疏学明 《印染》2014,(2):149-152,158
案例表示是案例推理的基础,突发事件案例涉及到大量非结构化的信息,如何有效地将海量信息整合成案例是案例表示的关键。该文针对中国突发事件的特点,结合信息来源,给出了突发事件案例应包括的要素,针对结构化信息和非结构化信息提出了不同的表示方法。对于结构化信息,使用模糊集合的方法定量表示,以隶属度函数代替单一的数值;对于非结构化的文本信息,通过对3种关键词提取方法的比较研究,选择了基于词语共现概率的改进方法提取关键词,利用提取结果进行信息抽取。整个案例被表示成包含定量化数据和抽取文本的半结构化形式,前者主要用于案例匹配,后者记录了案例的详细内容,用于提供决策支持。这种表示方法为进一步的案例推理奠定了基础。  相似文献   

8.
文章阐述了利用XML中的DOM树将Web数据结构分析,转化为结构化的XML数据,使用Xpath实现数据匹配查找数据,通过正则表达式实现数据抽取。同时,对目前数据抽取技术做一些简单探讨研究。  相似文献   

9.
档案数据形式多样、数据量巨大,特别是半结构化数据结构复杂,给档案管理工作造成巨大困难.针对这种情况提出了一种基于本体的智能档案信息检索系统.该系统的处理过程分为两个部分:第一部分是半结构化数据的处理,采用特征数据提取的方法对半结构化数据进行特征提取,进而重组成为结构化数据;第二部分是智能检索的实现,利用基于本体的逻辑推理实现语义层次的智能检索.实验结果表明,该智能检索系统较基于关键字的传统检索在查全率和查准率上都有了较大提高.  相似文献   

10.
随着电力企业信息化的快速发展,非结构化数据资源在企业运营中的作用越来越重要。本文基于非结构化数据特点,结合电力企业的非结构化数据存储、管理现状及客观发展需求,简要分析了非结构化数据存储整合和内容管理主流技术应用,说明电力企业须逐步探索自己的非结构化数据整合和管理模式,深度挖掘企业信息价值。  相似文献   

11.
杨娟  吴志明  张远鹏 《纺织学报》2018,39(10):156-161
针对目前网络家纺资源采集方式在处理海量网络资源尤其是深网资源时效率低下的问题,提出了一种自动化的网络家纺资源抽取方法。该方法首先根据查询接口属性有限性和收敛性的特征,构建领域模型对深网查询接口进行识别,然后利用家纺领域关键词自动填写查询接口,抽取深网家纺资源;对于返回的查询页面,为过滤与抽取与主题无关的噪声信息,对页面进行视觉分块,利用标记的分块样本数据训练分块重要度模型,并利用该模型过滤与主题无关的噪声信息。实验结果表明,领域模型识别深网查询接口的阳性预测值和准确率比基于规则的方法分别提高了8%和6%,分块重要度模型过滤噪声的准确率和召回率的调和平均数值在3 个等级上比基于规则方法的正确率平均提高了12.90%。  相似文献   

12.
滁州卷烟厂将Web信息发布系统应用于现场总线控制系统 ,实现了实时动态数据信息的传送和显示。Web系统由监控以太网、工业以太网和现场总线构成 ,采用iFixWebServer技术将监控画面转换为网页 ,再把网页传送到Webserver,从而实现了控制系统的远程监视。对于Webserver系统的配置、系统功能、安全问题等也进行了论述  相似文献   

13.
针对目前图书馆对读者信息的获取停留在比较浅显的层面,缺乏深层次的信息加工和数据的综合分析等问题,基于数据挖掘技术,通过数据清理、数据整合,并加上规约算法,对图书馆信息管理的数据进行挖掘和预测.实践表明,该方法可实现对读者的借阅行为、图书需求和阅读兴趣等信息的挖掘和预测,以便调整和提高图书管理策略.  相似文献   

14.
为了使印刷企业的人员信息管理更加便捷化、规范化,在WINDOWS操作系统平台上设计实现印刷企业人员信息管理软件。软件采用基于ASP动态网页技术,运用Dreamweaver软件设计软件的WEB页面。其中,ASP编程实现信息的增加、删除、修改、浏览、查询等功能,数据库使用Access。对于软件整体而言,实现了对于企业员工、企业部门各方面信息的全面管理;员工的考勤信息、请假信息的管理;系统管理、数据管理;利用不同方式查询企业内各种信息等功能。  相似文献   

15.
目的:调查网络媒体中婴幼儿纯母乳喂养的信息,并对其科学性进行分析评价。方法:以“纯母乳喂养”和“辅食添加时间”为关键词,使用“Google”检索,每个关键词分别分析搜索前100条信息。结果:200条信息中157条信息来自网站,43条信息来自个人网页。网站信息纯母乳喂养时间正确率为40.76%。政府和专业机构网站的信息有出处者多,有出处的信息正确率高(P〈0.05)。搜索网站首页信息与抽样的全部搜索信息的正确率相近(P〉0.05),个人网页信息与网站信息的正确率无显著差别(P〉0.05)。结论:过半数的网站未能给出纯母乳喂养的正确答案,多数信息受者的认识也不正确。  相似文献   

16.
17.
探讨了如何使用Web Services进行网络数据传输的思路和步骤,详细描述了网络数据传输系统的框架结构与功能,对数据上传、数据导入和客户端Web Services的同步调用和异步调用等关键技术进行了详细阐述和比较,并给出了一个基于.NET和Web Services技术的实现方案.  相似文献   

18.
随着数字化时代的技术转变,作为史学图鉴资料类图书显然更加青睐于与新媒体技术的结合,制成多媒体配书光盘,将内容繁复的信息形象、生动、方便、快捷地呈现在读者面前。它们具有其相较于厚重的书本以及其他独立多媒体项目不可比拟的特点及优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号