首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
汤颖  钟南江  孙康高  秦大康  周伟华 《计算机科学》2017,44(Z11):385-390, 427
随着社交网络的流行,从各种各样的社交网络数据中提取出有效信息并进行清晰直观的可视化分析,从而为用户提供有价值的潜在知识,显得尤为重要。聚类分析是数据挖掘中的重要分析手段,传统的面向社交网络数据的用户聚类分析大都仅考虑网络的拓扑链接结构,未考虑用户的兴趣相似度。文中基于贝叶斯概率模型来计算用户兴趣相似度并进行聚类,进一步设计交互可视化方式来展示上述聚类结果。具体地,针对社交网络中的用户评分数据 建立潜在语义模型来提取表示每个用户兴趣特点的特征向量;基于用户的特征向量对用户进行聚类,得到具有不同特征的人群,并通过实验和热度图选择合适的人群聚类数;最后提出了基于层次气泡图的可视化展现和分析方案,将用户、电影类型、电影等多维信息在图形中交互展示,支持用户从全局概览到局部细节的推进式探索,从多角度可视化人群特征。对豆瓣网用户和电影评分数据进行了实验和分析,结果验证了所提方法的有效性。  相似文献   

2.
随着图规模的增大,传统的力导引布局算法会出现节点重叠、边交叉等视觉混乱问题,为此提出一种基于改进力导引布局的可扩展的可视化层级抽象方法.首先结合FR算法与LinLog算法的优点对力导引算法进行改进,生成一个具有明显聚类结构、能够体现图结构信息的初步布局;然后基于布局结果,采用自下而上的层次聚类方法生成图的层级结构,同时定义了体现抽象层级的参数来决定不同层级下的聚类显示,允许用户在多个层级观察数据结构特征;最后采用几何距离、拓扑结构和拓扑结构加中介中心性3种不同的度量进行视觉抽象,并对抽象结果进行比较分析.为了说明文中方法的有效性,分别对信息可视化文章间的文献引用数据、2004年美国总统竞选的政治博客数据,以及IEEE Visualization会议文章的作者合作数据这3个数据实例进行实验,结果表明,使用该方法并结合移动、缩放、选择等可视化交互技术,能有效地帮助用户分析、探索和理解数据隐藏的信息.  相似文献   

3.
图分析是揭示数据中复杂关联关系的一种有效手段,而可视化通常为该过程的核心组成部分.基于简化技术的图可视化方法可以降低图布局复杂度,减少视觉杂乱,提升用户体验,在分析复杂关联时有着重要的价值和优势.针对食品安全领域内的实际关联分析需求,在传统力导引图布局的基础上综合采用图过滤、节点聚类、鱼眼视图变换以及交互式分层探索等多种图简化技术,并结合donut圆环、放射环等可视化元素,提出了一种基于变换的可视分析关联图TransGraph,支持在对比展示数据关联的同时展现当前关注节点的数据分布和层次结构,并根据用户关注度交互式地逐层展示图的细节及节点相似性.基于水果蔬菜中的农药残留模拟数据集,设计并实现了一个可视分析系统PestResiTGVis,实验结果表明,采用TransGraph能够突出重点监管对象、全面地展现关联信息,从而有效地辅助相关监管部门及分析人员制定决策.  相似文献   

4.
现有的司法数据分析以传统的统计图表为主,与案件数据的内部信息关联不够,低效落后,难以满足司法数据的分析需求.因此,针对司法判决文书数据,提出一种通过用户交互的方式展示司法数据时序演化过程的方法.首先提出基于分层结构的层次演化视图,从整体上分析时序变化;结合矩阵视图、词网络视图、主题聚类图和词云,展开案件内部多元信息的精...  相似文献   

5.
现有的径向布局可视化方法无法有效捕获高维数据的非线性结构.因此,文中提出基于维度扩展和重排的类圆映射可视化聚类方法.利用近邻传播聚类算法和多目标聚类可视化评价指标对高维数据进行维度扩展,然后对扩展后的高维数据进行维度相关性重排,最后利用类圆映射机制降维至二维可视化空间,实现高维数据有效可视化聚类.实验表明,文中提出的维度扩展和重排策略能有效提高类圆映射可视化方法聚类效果,其中的维度扩展策略也能显著提高其它径向布局可视化方法聚类效果,泛化性能较好.此外,相比同类方法,文中方法在可视化聚类准确度、拓扑保持、Dunn指数及效果上优势明显  相似文献   

6.
《软件》2019,(9):40-44
在数据可视化方面,Android系统提供的组件不能满足开发人员的需求,而第三方的图表组件技术不够成熟,本文提出了一种基于Android的图表组件的实现方法,着重讨论了图表组件的布局空间设计、类设计、单位转换、绘制流程、图表绘制。该组件自定义程度高,使用方便,布局整齐,动画效果良好,大大增强了用户体验,能满足大多数Android应用软件开发的需求,具有一定的创新性和很好的实用价值。  相似文献   

7.
高校教师的业绩数据对于教师的考核评优、薪资提升、岗位聘任和职称晋升等人事决策具有十分重要的作用。针对其兼具复杂层次特征和多维属性的特点,提出了一种基于圆形嵌套图和平行坐标的VPM(Venn Parallel Coordinates Mixing)混合可视化方法。该方法首先采用基于D3布局算法的圆形嵌套图表示层次结构,而后划分叶子节点的圆周为不同的属性轴,通过布局设计、属性映射、属性点连接及缩放、高亮等用户交互来实现层次结构中多维属性的可视化。将该方法用于教师业绩数据,实现了对学院、研究所、教师各层级结构的可视化,可清晰展示数据项的细节信息。实验结果表明,提出的VPM方法能有效地展示教师的业绩数据,评价结果亦符合实际情况,能帮助系统用户——院校管理者对教师进行更好的管理及业绩考核。  相似文献   

8.
提出一种图数据的三维树形可视化方法,基于Louvain算法对图数据中的复杂的网络关系进行层次聚类,利用三维树形映射表达聚类结果,直观展示隐含于图数据中的结构关系,通过在三维场景中旋转、缩放、移动、拾取高亮等交互操作多视角地展示数据。集成开源图数据库Neo4j研发原型系统,并开展案例数据实验。实验结果表明,该方法不仅能够简洁灵活地展示图数据的总体层次结构,还能够多样化地表达数据细节,为利用虚拟现实技术探索图数据的潜在信息提供有效的技术支持。  相似文献   

9.
一种高效的属性图聚类方法   总被引:1,自引:0,他引:1  
吴烨  钟志农  熊伟  陈荦  景宁 《计算机学报》2013,36(8):1704-1713
图是描述现实世界各类复杂系统的一种普适模型,且许多实际应用中的图是大规模的.图的聚类是理解、分析和可视化大规模图的关键技术之一.现实世界的图往往包含丰富的属性信息,如何综合结构和属性信息进行属性图的聚类是一个新的挑战.大多数的现有方法或者将结构和属性转化为距离,基于传统方法进行聚类;或者只考虑某一方面聚类.文中结合信息论中最小长度原则,基于遗传算法,提出一种高效的属性图聚类方法GA-AGC.通过对属性图聚类问题建模,转化为最小描述长度原则问题;扩展标签传播方法作为遗传算法初始化方法,结合编码减小的局部变异方法,提出一种解决属性图聚类的遗传算法.文中方法无需设定聚类的数目,算法复杂度近似线性于结点和边的数目.真实数据集上的实验验证了算法的有效性和高效性.  相似文献   

10.
瞿原  邓维斌  胡峰  张其龙  王鸿 《计算机科学》2018,45(1):97-102, 107
点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。  相似文献   

11.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

12.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

13.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

14.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

15.
数据仓库系统中源数据的提取与集成   总被引:12,自引:0,他引:12  
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现.  相似文献   

16.
数据提取、转换和装载技术研究   总被引:4,自引:0,他引:4  
来自企业操作环境的数据是数据仓库的数据源,通过提取、转换、装载填充数据仓库,对数据提取、转换与装载技术进行了研究与实践。对数据提取、转换与装载要解决的问题进行了详细论述并提出了相应的解决方法,并以MS SQL Server2000为例,介绍了可用于析取数据的一些工具。在此基础上,以电信行业话单数据载入数据仓库为实例,就如何实现各步骤进行了详细说明,提出了在数据提取、转换与装载过程中需注意的一些问题。  相似文献   

17.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

18.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

19.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

20.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号