共查询到19条相似文献,搜索用时 71 毫秒
1.
正则表达式在Web信息抽取中的应用 总被引:1,自引:0,他引:1
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。 相似文献
2.
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性. 相似文献
3.
基于LBS技术的旅游信息服务系统的设计和实现 总被引:1,自引:0,他引:1
传统旅游服务的信息不全面、实时性和针对性不强等问题已经越来越不适应当前信息化旅游服务环境.文章提出基于LBS技术的旅游信息服务系统设计,能较好解决这些问题.首先介绍LBS技术的特点,并在此基础上提出了一套基于地理位置服务的信息管理系统的设计方案,探讨系统设计的框架结构,同时对系统的实现做了进一步分析,最后,对LBS技术在旅游业上的应用发展做了展望. 相似文献
4.
针对现有网络论坛信息抽取的不足,提出了一种基于重复模式发现算法的论坛信息抽取方法.该方法首先利用SgmlReader解析器将HTML文档转换为格式规范的XHTML文档,然后通过计算XHTML文档结构中DOM子树相似度,自动发现论坛页面结构的重复模式.该方法通过自动定位重复模式进行论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题.试验结果表明,该方法具有较好的准确性、通用性和实用性. 相似文献
5.
基于HL7的电子病历关键信息抽取技术研究 总被引:2,自引:0,他引:2
结合HL7(Health Level Seven)标准的数据存储特点对目前电子病历的内容和结构进行了深入分析,提出了医疗信息五元组模式,以及更为细化的二元组和语义类描述,并在此基础上提出了模式泛化、模式获取、医疗信息自动抽取等一系列算法.通过实际312份住院病历数据下的实验表明,系统在查准率与查全率方面,获得了较好的结... 相似文献
6.
事件抽取技术的回顾与展望 总被引:1,自引:0,他引:1
事件抽取技术是信息抽取领域一个重要的研究方向。近年来,在自动内容抽取等评测会议的推动下,事件抽取的研究得出了一系列理论和算法,并推出一些实用的系统。详细介绍了事件抽取的主要研究任务,重点论述和分析了事件抽取的主要方法、研究现状及关键技术,最后总结事件抽取的发展历程、事件抽取技术当前面临的挑战以及未来需要努力的方向。 相似文献
7.
8.
基于全信息的中文信息抽取系统及应用 总被引:4,自引:3,他引:4
从全信息理论的思想出发,综合建立、分析和使用语法、语义和语用信息知识库,研究实现了一个面向特定应用领域——财经新闻领域的中文信息抽取实验系统. 在此基础上,探索了信息抽取技术在移动信息服务中的一种应用模式,即“信息抽取+手机短信”,将信息抽取结果的简洁、清晰、明确的优点与手机短信的移动性、灵巧性、普及性等优点很好地结合起来,提供智能化的移动信息服务. 实验系统验证了这种模式的可行性. 相似文献
9.
10.
葛冬梅 《黑龙江工程学院学报》2009,23(3):49-53
以移动终端离线浏览系统为基础,通过利用数据挖掘理论和方法得到能够准确描述用户兴趣的模型。该方法首先对收集到的移动用户浏览新闻的行为进行分析,并且对这些新闻的内容进行聚类分析,最终得到用户兴趣的模型。根据用户个性化模型,获取网页中有用的信息,利用HTML自动转换工具,实现个性化的页面转换,以便手机用户可以自由浏览互联网上丰富的信息资源。 相似文献
11.
Traditional pattern representation in information extraction lack in the ability of representing domainspecific concepts and are therefore devoid of flexibility. To overcome these restrictions, an enhanced pattern representation is designed which includes ontological concepts, neighboring-tree structures and soft constraints. An information-extraction inference engine based on hypothesis-generation and conflict-resolution is implemented.The proposed technique is successfully applied to an information extraction system for Chinese-language query front-end of a job-recruitment search engine. 相似文献
12.
基于SRI的动态网页信息抽取方法 总被引:1,自引:0,他引:1
提出了基于相似记录项归纳的动态网页信息抽取方法.该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树.对各种类型网页进行信息抽取实验,取得98.11%的召回率和96.90%的准确率. 相似文献
13.
Research of Extracting Data from HTML Web Pages Automatically 总被引:2,自引:0,他引:2
In order to use data information in the Internet,it is necessary to extract data from web pages.An HTT tree model representing HTML pages is presented. Based on the HTT model, a wrapper generationalgorithm AGW is proposed. The AGW algorithm utilizes comparing and correcting technique to generate thewrapper with the native characteristic of the HTT tree structure. The AGW algorithm can not only generate thewrapper automatically, but also rebuild the data schema easily and reduce the complexity of the computing. 相似文献
14.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率. 相似文献
15.
全自动网页信息采集系统 总被引:1,自引:0,他引:1
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合HtmlParser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。 相似文献
16.
信息技术领域术语提取的初步研究 总被引:10,自引:0,他引:10
本文介绍了对信息技术领域术语自动提取方法进行的一项实验,所采用的是“领域相减”的术语提取方法,即根据流通度理论,利用术语在不同领域中的不同流通度值进行术语提取,并对此项实验的结果作出了评价。 相似文献
17.
3G时代移动定位业务发展的思考 总被引:1,自引:0,他引:1
随着3G技术的快速发展,移动定位业务被认为是最具发展潜力的移动增值业务之一.文章对移动定位业务中采用的定位技术进行综合比较,并指出当前移动定位业务发展中存在的问题,探讨了解决的办法. 相似文献
18.
目的 研究模式识别系统中特征提取与选择的方法和途径. 方法 根据熵函数的性质, 利用熵值分析法进行有效特征的提取. 结果 熵值分析法比较准确地反映了识别对象在特征参数上的分离程度. 结论 这种方法对提高模式识别系统的识别效果具有积极的作用 相似文献
19.
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用. 相似文献