首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Qing Li  Jing Chen  Yipu Wu 《World Wide Web》2009,12(3):263-284
Extracting loosely structured data records (LSDRs) has wide applications in many domains, such as forum pattern recognition, Weblogs data analysis, and books and news review analysis. Yet currently existing methods only work well for strongly structured data records (SDRs). In this paper, we propose to address the problem of extracting LSDRs through mining strict patterns. In our method, we utilize both content feature and tag tree feature to recognize the LSDRs, and propose a new algorithm to extract the Data Records (DRs) automatically. The experimental results demonstrate that our algorithm is able to effectively extract LSDRs with higher precision and recall.  相似文献   

2.
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能。首先探索了3种基本结构化句法树捕获方案,并使用SVMLight中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能。  相似文献   

3.
孔芳  周国栋 《软件学报》2012,23(5):1085-1099
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight 中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩 展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.  相似文献   

4.
We describe a general approach to compute a similarity measure between distributions generated by probabilistic tree automata that may be used in a number of applications in the pattern recognition field. In particular, we show how this similarity can be computed for families of structured (XML) documents. In such case, the use of regular expressions to specify the right part of the expansion rules adds some complexity to the task.  相似文献   

5.
贾楠  付晓东  黄袁  刘晓燕  代志华 《计算机应用》2012,32(12):3529-3533
在工作流的发现和聚类等应用中,需要对两个工作流模型的距离进行度量。因此,提出一种计算两个不同结构化工作流的距离定量度量方法。首先介绍了结构化工作流,并将每一个结构化工作流转换为流程结构树;然后基于两个结构树之间的树编辑距离来计算工作流之间的距离及相应相似度。该距离度量方法满足距离度量的3个属性,即同实体不可区分性、对称性和三角不等式性质。这些属性使得该距离度量方法可以在工作流模型管理活动中作为定量分析工具。实验结果表明,基于树编辑距离的工作流度量方法是可行的。同时,与基于邻接矩阵的距离度量方法相比,该方法考虑了不同结构之间的语义距离,有效验证了此方法的合理性。  相似文献   

6.
以国际化工界著名的TE过程大型仿真模型为背景,分析了化工数据压缩技术的特点和要求,提出了一种基于haar小波变换的实时过程数据压缩算法,以及相应的工程评价指标。实验验证了该算法能够对过程数据进行有效压缩,同时可以较好地保留信号时-频域的显著特征,并对信号含有的白噪声具有很好的消噪抑制效果。  相似文献   

7.
李博龙  朱思宁  余涵  孟熔  王毅  李剑峰 《软件》2021,42(1):107-109,146
大多数电力系统都存有年金托管机构的基本信息,但目前由于托管机构的投资的实效性和市场的约束性导致各投资机构的投资信息独立,且投资信息的保密程度过高,往往只能通过内网邮件的形式交互,使得年金专责无法在短时间内对托管机构的投资方向和投资利润做对比,以至于无法比较托管机构的优劣。在邮件信息中往往存在大量的且关键的信息,基于对结构化数据的模糊识别与算法,并根据定价日、科目名称、成本、市值建立数据模型,实现重要信息的分类处理,解决了投资信息的实时录入和对托管机构营收的准确判断。  相似文献   

8.
刘伟  严华梁  肖建国  曾建勋 《软件学报》2010,21(12):3220-3236
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.  相似文献   

9.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

10.
针对现有报表缓存方法在内存消耗和访问速度上相冲突的问题,提出一种结构化数据缓存方法,把具有行列结构的报表数据分块存储到文件中。以文件形式存储的数据被划分为索引区和数据区,通过数据分块算法和写操作将报表数据缓存入文件。在读取报表数据时根据索引区可以直接定位到所在的块,在块中快速查找所需要的数据,从而在内存消耗和访问速度上达到优化。  相似文献   

11.
基于网络附属对象设备的集群存储体系结构   总被引:4,自引:1,他引:3       下载免费PDF全文
张悠慧  郑纬民 《软件学报》2003,14(2):293-299
随着Internet的发展,应用的数据存储量与其增长速度都相当高,同时数据具有结构化特点,当前的(分布式)文件系统与数据库系统都无法较好地满足这一类需求.提出了一种网络附属对象存储设备模型,利用自身处理器的能力,提供结构化数据的存储/检索接口,消除了传统存储系统的服务器瓶颈问题.同时提出了基于该对象设备的集群存储体系--OStorage.它利用集群网络方式,实现了数据/元数据统一存储与查询式数据访问机制.其在系统的可扩展性、可用性与对结构化数据的支持上,均较符合当前存储应用的特点.实现了该体系的原型系统.测试结果表明,其吞吐率随规模的扩大呈线性增长.  相似文献   

12.
文章以高校招生数据提取为例,分析了高校招生数据的特点,设计了元数据表.通过程序从元数据表自动生成表间连接条件,动态生成结构化查询语句,实现了高校招生数据的自动提取.结果表明该方法具有操作简单、高效等特点.  相似文献   

13.
李贵  陈成  李征宇  韩子扬  孙平  孙焕良 《计算机科学》2013,40(Z6):141-144,165
提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。  相似文献   

14.
基于Web的快速信息抽取   总被引:7,自引:0,他引:7  
介绍了一种基于Web的信息抽取的快速实现方法,该方法将信息抽取划分为两个阶段,在每个阶段采用不同的数据模型,对于半结构和无结构的信息抽取都有很好的效果。  相似文献   

15.
数据仓库中的数据抽取分析及应用   总被引:1,自引:0,他引:1  
郭和伟  冀亚林等 《微机发展》2003,13(1):90-92,F003
简要介绍了数据仓库的决策支持系统,对数据仓库的数据抽取方法进行了分析,比较详细地对数据仓库的数据抽取方法-DTS设计器进行了实例探索。  相似文献   

16.
针对运载火箭测试发射数据分散存储且数据利用不充分的问题,提出了以数据仓库技术对火箭的测试发射数据进行组织和存储管理,实现对火箭数据价值的深层次发掘。根据运载火箭数据的特点,提出了数据仓库基础层、源数据层、数据交互层、数据架构层、应用层、显示层六个层次的框架设计;通过面向火箭数据分析和故障诊断的数据清洗规则设计,对不同来源、不同格式的数据进行清洗和加载;对火箭的数据应用方向进行了探索,设计了包络分析、相关性分析、故障诊断等数据分析模块。用某型号火箭测试发射数据进行了验证,结果表明,数据仓库方案切实可行,为后续火箭数据的持续性管理和分析奠定了基础。  相似文献   

17.
一种用于工作流的结构化数据模型及应用研究   总被引:1,自引:0,他引:1  
为了实现工作流中数据信息的层次化表达和管理,本文提出了一种结构化数据模型(SDM)。该模型通过文档信息表(DIF)将工作流的数据信息组织成串行、并行、条件和循环四种可递归定义的数据类型,给出了这些数据类型的数学定义,用树组织和描述文档信息表。本文还研究了通过SDM直接生成复合表单的方法。这种复合表单不仅包含了需要处理的属性数据,还包含了各属性之间的层次关系,使终端用户使用起来直观易懂。  相似文献   

18.
随着大数据时代的来临,结构化数据的种类、规模不断增加,但是目前针对于结构化数据的注册还没有相应的研究成果。为了解决结构化数据注册的问题,采用数据架构(DA)的思想和相关技术,结合数据注册中心(DRC),设计一种针对结构化数据的注册引擎,提出一种结构化数据的统一注册标准和注册方法,实现结构化数据的自动采集注册。通过实验与分析,注册引擎能够准确、高效地将结构化数据注册信息采集并写入DRC中,为国内外常用数据库的注册问题提出了一种解决方案,为DRC数据注册中心的结构化数据注册信息管理和应用奠定了坚实的基础。  相似文献   

19.
提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。  相似文献   

20.
A new dynamic tree structured network—the Stochastic Competitive Evolutionary Neural Tree (SCENT) is introduced. The network is able to provide a hierarchical classification of unlabelled data sets. The main advantage that SCENT offers over other hierarchical competitive networks is its ability to self-determine the number and structure of the competitive nodes in the network without the need for externally set parameters. The network produces stable classificatory structures by halting its growth using locally calculated, stochastically controlled, heuristics. The performance of the network is analysed by comparing its results with that of a good non-hierarchical clusterer, and with three other hierarchical clusterers and its non stochastic predecessor. SCENT's classificatory capabilities are demonstrated by its ability to produce a representative hierarchical structure to classify a broad range of data sets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号