首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

2.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

3.
4.
本文给出一种基于支持向量机分类器的Boosting算法并将其应用于入侵检测;通过KDD'99数据的仿真实验将其与单一的支持向量机分类器进行比较,实验结果表明该方法比单一的支持向量机分类器具有更好的检测准确率。  相似文献   

5.
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.  相似文献   

6.
7.
如何有效地集成多个异构的信息源是目前成为CIMS企业的一个关键性问题。本文主要介绍异构信息源在语义方面的描述支持集成和查询优化的捕获和推理。  相似文献   

8.
以突发事件领域为例,针对本体构建中领域概念间关系自动抽取的问题,提出了一种混合的领域概念间关系自动抽取方法,将领域概念间的关系分成关系类型未知和已知2种情况,并分别基于扩展关联规则和关系抽取规则进行抽取,同时提出了构造和自动扩展关系抽取规则的方法.实验结果表明,所提出的方法是可行和有效的,不仅能获得特定领域中存在的丰富的语义关系,而且能获得较好的性能.  相似文献   

9.
为了揭示SWF文件格式的隐含属性,基于对象交换模型(OEM)的构建方式,提出了一种增强半结构化模型E-OEM,可对SWF文件格式进行描述和存储.采用OEM进行SWF文件格式的描述;对OEM描述模型进行改进,采用头尾分类、文件体聚类的思想将相同类别标签作为一类;通过引入Huffman编码,实现E-OEM具有描述和存储的功能.随机选择百例不同源文件进行E-OEM建模,仿真实验结果表明,所提模型不仅可以将隐含属性显性表示,同时提高了具有高标签重复率的文件存储效率,证实了模型的有效性.  相似文献   

10.
11.
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.  相似文献   

12.
基于参数约简和免疫算法的飞行规则自动提取方法   总被引:1,自引:0,他引:1  
模拟机自动评分系统对飞行员数据进行评分的时候需要量化飞行规则,针对规则量化困难的问题,提出了一种基于参数约简和免疫算法的飞行规则自动提取方法。用该方法对某航空公司提供的正常爬升科目的大量飞行数据进行了规则提取,将提取到的规则对正反例样本之外多个飞行数据进行判读,结果表明均未出现误判。与没有采用参数约简的方法相比,用该方法提取到的规则更简洁、更准确,对专家制定用于自动评分系统中量化的飞行规则具有很好的参考价值。  相似文献   

13.
提出并实现了一种结合BP神经网络和遗传算法的文本分类算法,根据遗传算法能够快速优化网络权重以及摆脱BP算法局部极点困扰的能力,提出一种改进的遗传算法确定网络拓扑结构和训练网络的方法.最后对设计的分类器进行了开放性测试,实验结果表明该分类器显著地提高了文本分类的查全率和查准率.  相似文献   

14.
基于特征信息增益权重的文本分类算法   总被引:8,自引:0,他引:8  
为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG)特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C.它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类.这3种算法都具有较低的时间复杂度和实现简单的特点.实验结果表明,其中IG-C的分类效果最为理想.  相似文献   

15.
基于改进TF-IDF算法的文本分类方法研究   总被引:3,自引:0,他引:3       下载免费PDF全文
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

16.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

17.
部分图片、影视和动漫作品中,固化在图像帧里的文字标签和字幕影响使用的效果.在图像引用时,往往需要一个整洁的背景环境.本文正是基于图片文字标签以及视频字幕的特点,综合运用边缘检测以及灰度聚类等方法对文本进行定位和提取,最后通过图像修复技术实现文字内容的去除.经过大量的实验表明,该方法能够有效地提取并去除文字标签和字幕等文字内容.  相似文献   

18.
针对传统日志模板挖掘时需要日志聚类数目作为先验信息的问题,提出了一种基于归一化特征判别的日志模板挖掘算法.首先,对日志数据进行压缩,以提高后续处理效率;其次,进行日志聚类过程,使用归一化的日志统计特征判断聚类是否满足要求,若满足,则聚类成功;若不满足,则采用二分搜索的方式调整日志聚类的数目,重新进行聚类;最后,从聚类结果中提取日志模板,设计了一种衡量模板挖掘效果的评价指标.在真实数据集上的实验结果表明,算法的模板挖掘匹配度优于基准方法,并且具有良好的泛化性能.  相似文献   

19.
从机器学习的角度系统研究网络流量检测,将Boosting算法引入到网络异常流量的检测当中,设计两种不同的弱学习方法:估计多变量高斯分布和估计超球体区域。实验结果表明,基于Boosting的检测算法性能要优于一类支持向量机,同时也表明作为一种提升弱学习算法性能的一般性策略,Boosting在非监督情况下是非常有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号