首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
近年来,链接预测成为社会网络和其他复杂网络链接挖掘中的热门研究领域.在链接预测问题中,经常会存在用来提高预测效果的附加数据信息源,这些数据可以用于预测网络中的链接是否存在.在所有的数据源中,最主要的数据源在链接预测中起到最重要的作用.因此,设计具备健壮性的算法用于充分利用所有数据源的信息来进行链接预测十分重要,算法还需要平衡主数据源和附加数据源的关系,使得链接预测能够获得更好的效果.同时,传统基于拓扑结构计算的无监督算法大多数通过计算网络中节点间的评分值来解决预测链接存在可能性的问题,这些方法能够获得有效的结果.在链接预测方法中,最关键的一步是构建准确的输入矩阵数据.由于许多真实世界数据集存在噪声,这导致降低了大多数链接预测模型的效果.提出了一种新的链接预测方法,通过多个数据源的融合,兼顾地利用了主数据源的信息和其他附加数据源的信息.接着,主数据源和其他附加数据源被用于构建一个低噪声且更准确的矩阵,而新的矩阵被用于作为传统无监督拓扑链接预测算法的输入.根据在多个真实世界数据上的测试结果,在多源数据集上进行对比实验,提出的基于低秩和稀疏矩阵分解的多源融合链接预测算法相对于基准算法能够获得更好的效果.  相似文献   

2.
研究生调剂是研究生招生中的重要环节。传统的调剂方法都是通过手工操作的,考生很难从往年大量的调剂数据中分析出规律,选报合适的学校。提出了基于半监督学习的数据挖掘方法,也即是从已知类别的训练样本提取出其中的关联规则作为分类的监督信息,并结合非监督学习方法中的K-mean聚类算法,对大量未标识样本进行分类的算法,此方法克服了研究生调剂涉及因素繁多,无法准确填报的弊端。该方法实现过程简单,分类准确,可推广性较强。  相似文献   

3.
气田信息整合的主要目标是实现自治、分布、异构数据源的自动数据交换,并为用户提供统一的全局数据视图。Web服务作为一种面向服务的分布式计算技术,提供了一种建立基于Web的复杂松耦合分布式系统框架。讨论了Web服务应用于信息整合的基本模式,提出了基于Web服务的气田信息整合体系结构和基于元数据的气田信息整合方法。系统采用XML作为数据表示和交换的标准,具有较强的灵活性和可维护性。  相似文献   

4.
基于搜索引擎的Deep Web数据源发现技术   总被引:1,自引:0,他引:1  
随着Web数据库的广泛应用,Web正在不断"深化".传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源.为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成.其中,数据源发现是整合DeepWeb资源的首要工作,能否高效地发现DeepWeb站点是DeepWeb数据获取的关键.提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率.实验证明该方法能得到较好的结果.  相似文献   

5.
基于Mobile Agent的分布式ID3挖掘模型   总被引:2,自引:0,他引:2  
随着Internet的发展,网络上的数据具有空问分布、环境和内容异构、结构复杂、相互关联强等特性,如何快速有效地从分布式存储的海量数据源中挖掘信息是分布式数据挖掘要解决的问题。针对传统决策树ID3算法的缺陷,提出分布式ID3算法,结合mobile agent技术,提出了基于mobile agent的分布式ID3挖掘模型,并进一步用数据集验证模型。  相似文献   

6.
随着Web数据库的广泛应用,Web正在不断“深化”。传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源。为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成。其中,数据源发现是整合Deep Web资源的首要工作,能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。  相似文献   

7.
基于统一搜索的信息服务平台   总被引:1,自引:1,他引:0  
针对目前多数IT系统的信息服务只具备简单数据查询且资源定位能力薄弱的现状,本文对现有信息服务模式进行了分析,提出了基于信息集成的统一搜索模式。本模式主要包括两部分内容。第一,通过信息集成将分布式异构数据进行提炼、转换和汇总,形成数据全集做为信息源。第二,基于互联网搜索引擎模式和Compass搜索框架,将不同类型、不同粒度和不同主题的信息以统一的方式检索与展示。它的优势在于实现了多种数据源的应用整合并提高了系统可扩展性,更为重要的是极大地提升了用户的信息定位能力,使其获得类似百度或谷歌的使用体验。此模式已被成功应用于中国科学院十一五信息化项目信息管理与服务平台的开发中,获得了良好的应用效果。  相似文献   

8.
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。  相似文献   

9.
基于虚拟集中方法的异构分布式数据集成模型   总被引:1,自引:0,他引:1  
网络和信息技术的发展导致新的数据格式不断涌现,数据整合的要求日益迫切,为此提出一个基于虚拟集中方法实现的异构数据集成模型,可以实现分布、异构数据的一致性访问,并能保证数据的一致性、实时性和数据源的"即插即用",较好地解决了异构数据源的联合使用问题.最后给出了基于Java和XML技术的基本实现方法.  相似文献   

10.
王世雄  潘旭伟 《计算机工程与设计》2007,28(12):2940-2942,2945
如何对来自多种异构数据源的信息进行方便、有效地集成是企业信息集成需要考虑的重点.随着"开放式网格服务基础架构"的研究和应用不断取得进展,为信息集成提供了新的解决思路和方法.在分析了分布异构环境下企业信息集成特点的基础上,提出了基于层次化服务框架的企业信息集成方法,该方法通过建立数据层面的集成层次,实现对传统及新兴的多种异构数据源的统一、实时访问,同时提供相应的信息转换能力,综合解决数据集成中的管理、性能、实时性和可用性等多方面问题,阐述了该方法在基于HAD的纺织销售集成平台中应用实现.  相似文献   

11.
杨泽民 《软件》2013,(11):71-72,92
近些年来,计算机技术迅猛发展带动信息技术的兴起,数据挖掘技术被广泛地应用到各个领域当中。这个新兴的领域为数据挖掘技术提供了最为活跃的算法,即关联规则算法,其能够对于大量的数据和信息进行处理,通过将繁琐的项集从数据库中找出来,经过整理之后,将项集之间的关联关系建立起来,从中挖掘出有价值的数据信息,以在一定程度上满足不同领域的需要。本文针对数据挖掘中关联规则算法进行研究。  相似文献   

12.
展望客户关系管理,数据挖掘技术在其中起到了至关重要的作用,它可以挖掘出千万数据中的有用信息,企业才能对客户进行各类价值分类,然后预测客户的行为,从而做出正确有效的决策。在CRM应用中,基于数据挖掘技术的基础上,结合CRM系统的不足,为避免或减少客户管理系统因管理不到位而导致客户的流失,造成企业的损失,提出了客户关系图的提取算法,很好地分析了数据挖掘技术在CRM中的应用。  相似文献   

13.
本文将数据挖掘中的聚类挖掘和关联规则挖掘应用于建立入侵检测系统规则库中,提出了一种不同于传统入侵检测规则库建立的动态更新的方法。  相似文献   

14.
孤立点挖掘在高等学校科技统计数据分析中的应用   总被引:1,自引:0,他引:1  
孤立点挖掘是一项有价值的、重要的知识发现,研究孤立点的异常行为能发现隐藏在数据中有价值的信息。本文在介绍孤立点及其挖掘算法的基础上,讨论了基于距离和的孤立点挖掘算法,并将该算法创新地应用于高等学校科技统计数据分析中。结果表明,该算法可以有效地挖掘出高等学校科技统计数据中的异常现象,对数据的真实性的核对起到非常重要的作用。  相似文献   

15.
数据挖掘是致力于数据分析和理解、揭示数据内部潜在联系的技术,关联规则是数据挖掘中最活跃的研究方法之一。高校教学管理者从诸多方面对教师教学业绩进行考核,该文针对某高校教师教学业绩考核数据集,采用关联规则中的Apriori算法,挖出数据集中某些数据项之间的关联规则,通过对关联规则的分析找出它们之间隐藏的信息,为高校教学管理者提供决策支持,同时指导教师的教学。  相似文献   

16.
如何能从海量数据中以更快速、高效、低成本的方式挖掘出有价值的信息成为如今数据挖掘技术面临的新课题。文中在研究Hadoop平台的特征和决策树的C4.5算法的过程中,决定在决策树算法领域中引入云计算思维,实现其在Ha-doop平台上的并行化,并且采用MapReduce模型来解决海量数据挖掘问题。最后用打高尔夫球的数据集对新的算法进行验证。实验结果表明对海量数据,基于Hadoop平台的决策树算法可以明显提高数据挖掘的效率,具有可观的高效性和可扩展性,在一定程度上解决了C4.5算法在处理海量数据时计算量大、构建决策树时间长的问题。  相似文献   

17.
随着大数据时代的到来,挖掘大数据的潜在价值越来越受到学术界和工业界的关注。但与此同时,由于互联网安全事件频发,用户越来越多地关注个人隐私数据的泄露问题,用户数据的安全问题成为阻碍大数据分析的首要问题之一。关于用户数据的安全性问题,现有研究更多地关注访问控制、密文检索和结果验证,虽然可以保证用户数据本身的安全性,但是无法挖掘出所保护数据的潜在价值。如何既能保护用户的数据安全又能挖掘数据的潜在价值,是亟需解决的关键问题之一。文中提出了一种基于差分隐私保护的关联规则挖掘方法,数据拥有者使用拉普拉斯机制和指数机制在数据发布的过程中对用户数据进行保护,数据分析者在差分隐私的FP-tree上进行关联规则挖掘。其中的安全性假设是:攻击者即使掌握了除攻击目标以外的所有元组数据信息的背景知识,仍旧无法获得攻击目标的信息,因此具有极高的安全性。所提方法是兼顾安全性、性能和准确性,以牺牲部分精确率为代价,大幅增加了用户数据的安全性和处理性能。实验结果表明,所提方法的精确性损失在可接受的范围内,性能优于已有算法的性能。  相似文献   

18.
关联规则是为了挖掘出隐藏在数据中的相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,从而辅助决策者进行决策。结合市场监督管理部门监管数据的实际情况,抽取市场主体部分基本信息和监管部门录入的违规、违法数据生成违规违法事务数据库,再将事务数据库转换为布尔矩阵,采用基于向量内积的关联规则挖掘方法生成频繁项集,进行关联规则挖掘。实验结果表明,该方法能够快速、准确地挖掘出相应的关联规则,符合市场监管部门日常工作的实际情况,对实际工作具有一定的指导意义。  相似文献   

19.
阐述了决策树分类技术和R-C4.5决策树模型。以某高职院校近几届毕业生的个人信息、教育信息和就业信息数据为研究对象,对实验数据进行数据预处理,运用R-C4.5决策树分类技术进行数据挖掘,挖掘出影响高职毕业生就业质量的相关因素,为政府和学校提高就业质量的各类措施和改革提供了决策依据。  相似文献   

20.
电子商务是随着网络的发展产生的一种新兴事物,电子商务的迅速崛起,使得不管是商家还是客户对基于Web数据检索、挖掘等需求不断提高。目前静态结构的Web页面显然已经被众多个性化的动态结构站点所代替。网站如何根据Web服务器日志文件,客户交易数据中挖掘出有意义的用户访问模式和潜在的客户群,为企业提供全方位信息服务和开展有针对性的电子商务活动。针对电子商务方面论述了数据挖掘的优势和应用。介绍了数据挖掘、数据挖掘的分类、电子商务中Web数据挖掘的步骤等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号