首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
A random access file structure was designed for Apple II microcomputers that allows data storage of more than 65,500 data values at 170 per Kbyte with a dynamic range of nearly 5 orders of magnitude. All or part of the data are easily accessible from BASIC under ProDOS operating conditions. The file structure accommodates single or multiple data sets in a single data file. Data values within a file with one set of data may interrelate by equal spacing along a second coordinate, such as time or space. Multiple data sets in a file can be independent, parallel or interdependent. Each interdependent data set defines the position of a data point along its coordinate in a two- or multidimensional registration system. The lowest and highest values of each data set are separately recorded to allow easy manipulation of even part of the data, e.g. for graphical presentation. The possibility of storing large numbers of data values in a single file facilitates high-resolution recording of events and simple mathematical manipulation.  相似文献   

2.
大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。然后,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。  相似文献   

3.
Satellite, airborne, or platform-based remote sensing reflectance measurements of aquatic targets are frequently compromised by water-surface effects such as specular sun reflection (glint) or transient objects like buoys or boats. For temporal or spatial data series where sub-surface reflectance is of interest, the elimination of affected data may require time-consuming manual selection of spectra and substantial data loss. Here, we present a method for the automated elimination of data points containing surface objects or strong sun reflection, which is based on the spectral slope in the ultra-violet to blue (350 nm to 450 nm). To minimize data loss, an automated sun glint correction combining two previously published methods is also presented. The method operates by subtracting a glint spectrum by means of a regression curve characterized from low to medium glint data points and is further automated by selecting these low glint data on the basis of the oxygen absorption depth in the near infrared (NIR). The elimination and correction algorithms facilitate rapid automated processing of large bio-optical data sets for both spatial and temporally resolved remote-sensing reflectance data sets. Here we demonstrate their efficacy on a three-month data set of hourly light field measurements from a fixed platform in the northwest Mediterranean.  相似文献   

4.
当研究的系统扰动因素过大或系统行为在某个时川点发生突变,出现严重扰动系统的异常数据时,提出不应直接按原始数据建模预测,而应根椐实际情况适当地对数据预处理.提出了基于数据修正的改进型灰色神经网络组合和集成预测,并根据南昌火车站旅客发送量时间序列建立了多个模型,从模型预测效果对比中说明数据修正、改进型灰色模型和改进型灰色神经网络、灰色神经网络组合和集成确实能提高预测精度.另外,修正数据要把握一个度,不能修正全部数据,只能修正较异常的数据,要在数据的趋势性和预测的灵敏性间取得平衡。  相似文献   

5.
GridDaen数据网格中Cache机制的设计与实现   总被引:2,自引:0,他引:2  
黄斌  彭小宁  肖侬  刘波 《计算机工程》2005,31(10):119-120
数据网格是一个典型的分布式系统,访问其中的广域分布的海量数据需要很大的时间开销,介绍GridDaen数据网格系统实现高速数据统一访问的Cache技术。GridDaen采用二级Cache机制,使用两个数据缓冲表来快速定位缓冲数据和控制缓冲数据访问,给出了各级Cache的数据替换算法,并提供了灵活的配置方法,可以将Cache与客户机,服务器独立分布,实现了Cache的扩展性。  相似文献   

6.
异常点是数据集中看起来与其他数据有着明显差别的点或者区域。异常点往往并不是错误,并且经常包含比较重要的信息。本文提出一种基于频繁模式的增量式异常检测方法,定义增量式异常检测异常点的性质,使用异常点因子来检测候选集,然后通过改进候选集的来进行迭代确定异常点,最后使用数据对该算法效率进行验证。  相似文献   

7.
Evolving feature selection   总被引:2,自引:0,他引:2  
Data preprocessing is an indispensable step in effective data analysis. It prepares data for data mining and machine learning, which aim to turn data into business intelligence or knowledge. Feature selection is a preprocessing technique commonly used on high-dimensional data. Feature selection studies how to select a subset or list of attributes or variables that are used to construct models describing data. Its purposes include reducing dimensionality, removing irrelevant and redundant features, reducing the amount of data needed for learning, improving algorithms' predictive accuracy, and increasing the constructed models' comprehensibility. This article considers feature-selection overfitting with small-sample classifier design; feature selection for unlabeled data; variable selection using ensemble methods; minimum redundancy-maximum relevance feature selection; and biological relevance in feature selection for microarray data.  相似文献   

8.
The need to process streaming data, which arrives continuously at high-volume in real-time, arises in a variety of contexts including data produced by experiments, collections of environmental or network sensors, and running simulations. Streaming data can also be formulated as queries or transactions which operate on a large dynamic data store, e.g. a distributed database.  相似文献   

9.
硬盘是计算机系统中最主要的外部存储设备,硬盘上存储的数据会因为各种原因遭到损坏或丢失,数据恢复是将硬盘上损坏或丢失的数据重新找回来,还原为正常可用数据的过程。该文主要分析了硬盘文件存储和读取的原理,以及数据恢复的原理,论述了硬盘数据损坏或丢失的原因和类型,以及相应的恢复方法。  相似文献   

10.
朱卫新 《计算机与现代化》2011,(11):193-194,198
创建一个公共类,实现信息系统用户对重要业务数据操作动态的处理,用户修改或删除业务数据时自动保存操作动态,并把修改或删除的数据保存到数据库中,以便恢复或查询历史动态,解决误操作或人为因素导致信息丢失的问题。  相似文献   

11.
《Information & Management》1995,28(6):351-359
Data base design encompasses both business and technical aspects. Conceptual data modelling creates a conceptual schema to abstract the user view of data within the business context. This conceptual schema is mapped to the logical data model structure in order to obtain a set of normalized relations. These ensure the integrity of the data by avoiding update anomalies. Regardless of the methodology used, the process or transaction model will impact on the data base design process and its refinement. Since the process or transaction model will reflect the business requirements and specific users view of the data, it will determine the relevance of having a fully normalized set of data, or the need for trading off some degree of normalization, with the aim of improving performance in the query process. The model will also indicate the activity requirements on the relations in the logical data model, their frequency, and characteristics. A pre-physical design step is described, and a set of heuristics is proposed in order to obtain a refined data base design.  相似文献   

12.
在开展数据处理和数据分析的工作前,常常需要对采集的原始数据进行解析处理,常规的方法是针对大量的数据接口分别开发解析代码,这样做不仅工作量大,代码冗余度高,日后对接口进行修改或添加时都需要同步修改解析程序的相应代码,给数据分析处理工作带来极大的困难。为了有效解决这一问题,该文提出了一种基于XML的数据解析方法,实现接口定义和程序编码的隔离,能够在不改动程序代码情况下,实现数据接口的按需添加或修改,有利于节约后期针对解析程序的开发和维护成本。  相似文献   

13.
An architectural approach is outlined toward the long range goal of a far-reaching data base communication system capable of supporting a network in which any user in any network node can be given an integrated and tailored view or schema (e.g. hierarchical, relational), while in reality the data may reside in one single data base or in physically separated data bases, managed individually by the same type of GDBMS (e.g. CODASYL, IMS, relational) or by different GDBMS. A series of data base model layers and mappings or translations between these layers are proposed. The entity-relationships model is fundamentally used for the highly logical model layers of the integrated system and a modified DIAM is used for the physical distribution and access path oriented layers. A comprehensive example of an integrated network of heterogeneous data bases is outlined, showing for a set of queries their formulation through different layers of the system from the virtual user realm to the physical data bases. Major challenges and issues are discussed.  相似文献   

14.
不同计算机平台数据的存储机制与控制方法   总被引:2,自引:0,他引:2  
唐磊  金连甫 《计算机工程与应用》2003,39(30):126-127,152
目前系统开发平台比较主流的是intel平台,sun平台和IBM平台。在编写系统或服务器程序中对变量的某些字节或某些位进行操作是非常频繁的,而各种平台上变量在内存中的存储机制又各不相同,使得取出特定字节或位比较麻烦,需要仔细分析特定平台的存储机制才能得出正确的结果。当应用程序移植到不同平台时字节对齐(alignment)问题经常出现,稍有差错就有可能导致buserror等内存错误。该文透彻地说明了在intel平台,sun平台和IBM平台上数据及数据流的存储机制,以及如何避免出现类型强制错误。理解各种数据存储机制后在编写系统或服务器程序时存取数据流,不仅使编写跨平台程序变得容易,而且使操纵变量时出现的错误大大降低。文中所有示例程序均用C语言编写并在sunsparc工作站gcc编译器和IntelPentium台式机VC6.0编译器下通过测试。  相似文献   

15.
分布式地球系统科学数据共享平台研究   总被引:3,自引:0,他引:3       下载免费PDF全文
科学数据共享平台是科学数据共享活动的重要支撑,既是标准规范和数据资源物化的平台,又是用户服务的窗口,其关键是要实现数据资源由数据生产者向数据使用者的流动。在分析分布式地球系统科学数据共享平台内涵的基础上,提出了以“总中心、认证中心和若干分中心”为构架的“物理上分布、逻辑上统一”的分布式软件体系。对用户单点登录与权限认证、数据中心信息同步、元数据汇交与同步收割、多源异地数据资源透明访问等关键技术进行了详细的论述。基于Java EE环境,研制开发了分布式地球系统科学数据共享平台,软件平台能够实现跨部门、跨操作系统的部署。目前,软件平台已经部署在总中心和13家分中心,为用户提供了稳定的“一站式”数据共享服务。  相似文献   

16.
VISMiner:一个交互式可视化数据挖掘原型系统   总被引:6,自引:0,他引:6  
交互式可视化数据挖掘是利用可视化技术进行联机数据挖掘的技术。基于SOM的交互式可视化数据挖掘原型系统VISMiner的主要目的是将数据挖掘与数据可视化及OLAP进行集成,允许用户以交互的方式从SOM的标记图或距离图中选定感兴趣区域加以深入分析。  相似文献   

17.
18.
由于MPEG-4 AVC/H.264采用了可变块尺寸(variable block size)和率失真最优化(rate distortion optimization)两项技术,视频编码流程中复杂度最高的运动估计(motion estimation)模块变得更加复杂.另一显著的变化就是,所获取的运动信息与目标码率紧密相关.这给传统的快速转码技术带来了很大困难.该文首先提出了一种分层模型,按由粗到细的方式描述每个宏块(macroblock)的运动信息.基于这个分层模型,文中提出了一种通过预编码获取运动信息的算法,从而生成视频序列运动特性的完整描述.有了这种运动信息描述,在编码或是转码的过程中,编码器可以跳过运动估计过程,编码复杂度因此大大减少.为进一步加快编码速度,还提出了从运动信息描述中抽取最优运动信息的快速算法.实验结果验证了所提算法的有效性,在大大降低编码复杂度的同时,编码性能与最优的MPEG-4 AVC/H.264非常接近.  相似文献   

19.
数据世系管理技术研究综述   总被引:15,自引:1,他引:15  
世系描述了数据产生、并随时间推移而演变的整个过程,它的应用领域很广,包括数据质量评价、数据核查、数据恢复和数据引用等.数据世系大致可分为不同数据源之间的数据演化过程和同一数据源内部的数据演化过程,即模式级和实例级数据演化过程.文中以模式级和实例级数据世系的表示、查询为主线综述数据世系的研究进展.模式级世系部分主要介绍了查询重写和模式映射的世系追踪技术,实例级世系部分则从关系型数据、XML数据、流数据三方面总结了新近的研究进展.文中还综述了跟踪不确定性数据及其演化过程的研究进展.最后,列举了数据世系管理的应用,并讨论了世系分析研究面临的挑战及未来的研究方向.  相似文献   

20.
针对嵌入式微控制器系统中EEPROM存储的数据在受到干扰时可能丢失或发生变化的问题,分析了EEPROM存储数据丢失的原因,提出了一种提高EEPROM数据存储可靠性的软件冗余方法。该方法通过分区存储和CRC校验,降低了数据在一定时间内被全部破坏的可能性,增强了部分数据被破坏后的恢复能力。应用表明,该方法能够有效提高EEPROM数据存储的可靠性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号