首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
由于网络知识资源的异构性,知识融合系统需要对多源数据、信息进行集成与整合并消除歧义.在知识融合过程中,由于知识科学的复杂性和模糊性,需要对多源知识的不一致、不完整等不确定性问题进行处理.基于此,提出了一种基于置信度理论的网络知识融合系统模型,弥补了传统知识融合系统在不确定性处理上的不足,并使用反馈自适应机制自动校正置信...  相似文献   

2.
分布式知识库系统是人工智能技术、数据库技术和网络技术相结合的产物.本文从解决知识库不一致性入手,给出了分布式知识库的概念和模型并提出了一个分布式知识库系统的原型及其实现方法.此外,对各节点上的问题分解机制,进程调度机制及控制机制进行了阐述.着重讨论以PROLOG为基础的元级推理机如何与ORACLE关系数据库系统实现耦合的方法、以及在DECNET网络环境下如何实现分布知识处理的功能.  相似文献   

3.
属性网络异常检测在网络安全、电子商务和金融交易等领域中具有重要的理论与现实意义,近年来受到了越来越多的关注.大多数异常检测方法凭借网络有限的属性或结构信息进行决策生成,往往难以对异常模式做出可靠的描述.此外,网络节点对应的实体往往关联着丰富的领域知识,这些知识对于异常的识别具有重要的潜在价值.针对上述情况,提出一种融合知识的多视图网络异常检测模型,在多视图学习模式下通过数据与知识的互补融合实现了对异常节点的有效识别.首先,使用TransR模型由领域知识图谱抽取知识向量表示,并借助输入网络的拓扑关系构造其孪生网络.接着,在多视图学习框架下构建属性编码器和知识编码器,分别将属性网络及其孪生网络嵌入到各自的表示空间,并聚合为统一网络表示.最后,综合不同维度上的重构误差进行节点异常分数评价,从而识别网络中的异常节点.在真实网络数据集上的对比实验表明,提出的模型能够实现对领域知识的有效融合,并获得优于基线方法的异常检测性能.  相似文献   

4.
石川  王睿嘉  王啸 《软件学报》2022,33(2):598-621
实际系统往往由大量类型各异、彼此交互的组件构成.目前,大多数工作将这些交互系统建模为同质信息网络,并未考虑不同类型对象的复杂异质交互关系,因而造成大量信息损失.近年来,越来越多的研究者将这些交互数据建模为由不同类型节点和边构成的异质信息网络,从而利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.特别是随着大数据时代的到来,异质信息网络能够自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.对异质信息网络分析与应用进行了全面的综述.除了介绍异质信息网络领域的基本概念外,重点聚焦基于异质网络元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用这3个方面的最新研究进展,并对未来的发展方向进行了展望.  相似文献   

5.

针对融合识别领域中不同框架下多源异类传感器的不确定证据信息无法有效融合的问题, 提出一种基于条件证据网络的多源异类知识融合识别方法. 该方法将战场协同作战中不同框架下多源异类传感器的领域知识统一在证据网络的结构下, 形成多源异类知识融合识别模型, 对多源异类传感器的不确定性证据信息进行基于条件证据网络的融合推理, 得到识别结果. 仿真实例验证了所提出方法的优越性.

  相似文献   

6.
多源数据是一种综合多个信息源或数据集的复杂数据类型,其主要特点是不同的信息源隐含不同的知识结构,且从不同的角度刻画和描述了样本以及样本之间的关系。如何协同地融合与集成多源数据,并从不同视角快速地为用户挖掘出整体决策知识,成为数据科学领域亟待破解的科学问题。经典粗糙集理论、多粒度方法、证据理论和信息熵是常见的、有效的多源信息融合方法,已取得较为丰硕的成果。本文基于粒计算的角度对多源信息融合工作进行综述研究,介绍了每种信息融合方法的基本概念以及主要研究思路,并提出了多源信息融合领域中存在的若干问题,为该领域的后续研究提供理论参考。  相似文献   

7.
随着互联网通信技术的不断发展,人们通过互联网可以获取大量的数据信息,这些数据有着强大的交互性、社会性以及虚假性,大数据背后隐藏着复杂的联系,建立开放的网络知识检索与数据挖掘成为人们获取大量数据或者信息的有效途径,但人们在进行信息检索以及数据挖掘的过程中还存在一些不足.故而本文将对开放网络知识的信息检索以及数据挖掘过程中存在的问题进行分析,进而针对这些问题采取解决措施.  相似文献   

8.
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。  相似文献   

9.
基于本体的网络入侵知识库模型研究   总被引:1,自引:1,他引:0  
吴林锦  武东英  刘胜利  刘龙 《计算机科学》2013,40(9):120-124,129
在信息安全领域,网络入侵知识库对有效分析和防御网络非法入侵起着重要作用,然而网络入侵知识库的构建是研究的难点之一.本体作为一种能为特定领域提供知识共享的概念模型建模工具,已经在各领域得到广泛应用.针对当前还没有一个完善的网络入侵知识本体,研究基于本体的网络入侵知识库模型,构建了网络入侵知识本体.首先,在深入分析网络入侵技术的基础上,形式化定义了各类网络入侵行为,给出了多层次、多维度的网络入侵知识库分类体系.接着,结合本体建模原则,构建了由网络入侵知识领域本体、任务本体、应用本体和原子本体组成的网络入侵知识本体,并给出它们之间的逻辑关系和组织结构.最后,通过两个网络场景,验证了模型用于获取网络入侵知识的有效性.  相似文献   

10.
知识库通常以网络的形式被组织起来,网络中每个节点代表实体,而每条连边则代表实体间的关系。为了利用这种网状知识库中的知识,往往需要设计专门的、复杂度较高的图算法。然而这些算法并不能很好适用于知识推理,尤其是随着知识库的知识规模不断扩大,基于网状结构知识库的推理很难较好地满足实时计算的需求。该文使用基于TransE模型的知识表示学习进行知识推理,包括对实体关系三元组中关系指示词以及尾实体的推理,其中关系指示词推理的实验取得了较好的结果,且推理过程无需设计复杂的算法,仅涉及向量的简单运算。另外,该文对原始TransE模型的代价函数进行改进,以更好地适用于开放域中文知识库表示学习。  相似文献   

11.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

12.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

13.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

14.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

15.
数据提取、转换和装载技术研究   总被引:4,自引:0,他引:4  
来自企业操作环境的数据是数据仓库的数据源,通过提取、转换、装载填充数据仓库,对数据提取、转换与装载技术进行了研究与实践。对数据提取、转换与装载要解决的问题进行了详细论述并提出了相应的解决方法,并以MS SQL Server2000为例,介绍了可用于析取数据的一些工具。在此基础上,以电信行业话单数据载入数据仓库为实例,就如何实现各步骤进行了详细说明,提出了在数据提取、转换与装载过程中需注意的一些问题。  相似文献   

16.
数据仓库系统中源数据的提取与集成   总被引:12,自引:0,他引:12  
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现.  相似文献   

17.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

18.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

19.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

20.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号