首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
谢永芳  胡志坤  桂卫华 《控制工程》2006,13(5):442-444,448
针对数值型数据能准确反应现实世界,但难以理解的问题,为了从数值型数据中挖掘出易于理解的知识,提出了基于数值型数据的模糊规则快速挖掘方法。该方法能从数值型数据中挖掘出一个零阶的Sugeno模糊规则,并采用一种启发式方法将这个零阶的Sugeno模糊规则的数值结论转变为两个带置信度的语言变量,并给出了规则库的存储结构。最后通过实例证明了这种快速模糊规则挖掘方法能避免复杂的数值型计算和能有效逼近非线性函数的优点.  相似文献   

2.
针对文本型数据难以进行统计分析的缺点,介绍了通过文本编辑软件UltraEdit7.0 和表格处理软件Excel97的结合,将文本型数据转化为表格型数据,进而进行处理和分析的有效途径, 同时介绍了将表格型数据转储为一般数值计算软件可以调用的文本型数据的方法。  相似文献   

3.
基于结构化数据的文本生成是自然语言生成领域重要的研究方向, 其可以将传感器采集或计算机统计分析得到的结构化数据转化为适宜人阅读理解的自然语言文本, 因此也成为了实现报告自动生成的重要技术. 研究基于结构化数据到文本生成的模型为报告中的各类数值型数据生成分析性文本具有重要的实际应用价值. 本文针对数值型数据的特点, 提出了一种融合coarse-to-fine aligner选择机制和linked-based attention注意力机制的编码器-解码器文本生成模型, 考虑了生成数值型数据的分析性文本过程中内容过度分散、无法突出描述的问题, 另外也将数值型数据具体所属的域进行了关系建模, 以提高生成文本中语序的正确性. 实验结果表明, 本文提出的融合两种机制的模型, 比仅使用传统的基于内容的注意力机制和在前者基础上增加使用linked-based attention注意力机制的模型, 以及基于GPT2的模型在指标上都具有更好的表现, 证明了本文提出的模型在生成数值型数据的分析性文本任务中具有一定的效果.  相似文献   

4.
一种有效的量化交易数据相似性搜索方法   总被引:7,自引:0,他引:7  
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。  相似文献   

5.
利用Excel进行日常事务管理的人们,经常会遇到在Excel中无法将文本型数据转换为数值型数据的一些问题.从而导致无法正常进行数据分析、数据运算等工作。本文具体详细的讲述了几种转换这些数据的技巧。  相似文献   

6.
利用Excel进行日常事务管理的人们,经常会遇到在Excel中无法将文本型数据转换为数值型数据的一些问题,从而导致无法正常进行数据分析、数据运算等工作。本文具体详细的讲述了几种转换这些数据的技巧。  相似文献   

7.
由于符号型数据缺乏清晰的空间结构,很难构造一种合理的相似性度量,从而使诸多数值型聚类算法难以推广至符号型数据聚类.基于此种情况,文中引入一种空间结构表示方法,把符号型数据转化为数值型数据,能够在保持原符号型数据的结构特征的基础上重新构造样本之间的相似度.基于此方法,将仿射传播(AP)聚类算法迁移至符号数据聚类中,提出基于空间结构的符号数据AP算法(SBAP).在UCI数据集中若干符号型数据集上的实验表明,SBAP可以使AP算法有效处理符号型数据聚类问题,并且可以提升算法性能.  相似文献   

8.
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。  相似文献   

9.
伴随大数据的快速发展,数据分析和知识发现成为研究热点,异常数据检测是数据质量提升的关键。基于序列集成学习的异常数据检测方法在面向高维数值型数据时可能因为噪声数据和维数过多导致检测精度下降。本文提出一种基于弹性网络的多层次序列集成学习的高维数值型异常数据检测方法,其中每层包含异常数据候选集模块、弹性网络降维模块和数据异常打分模块共3个模块。首先,异常数据候选集选择模块根据异常分数选择出一部分可能的异常数据;然后,弹性网络根据异常数据候选集和异常分数对高维数据进行特征选择,选择出与异常分数最相关的特征;最后,利用选择出来的特征对数据再次进行异常打分。每层异常数据候选集选择模块中的阈值设置为不同的值,循环地执行每一层,直到当前弹性网络的均方误差大于上一次的均方误差或者当前的检测精度小于初始的检测精度。在实验阶段,使用ODDS提供的高维异常数据检测数据集并根据检测精度、提取特征数、收敛速度等指标对本文方法的性能进行了测试。结果表明本文方法不仅能够提高对高维数值型异常数据的检测精度,而且能够有效地降低噪声对检测结果的影响。  相似文献   

10.
一种数据库数值型字段概念化算法的介绍及讨论   总被引:3,自引:0,他引:3  
数据挖掘技术所要解决的一个重要问题就是从数据量非常庞大的数据库中找出其中蕴藏的丰富知识。概念聚类是解决这一问题的一种方法。但是数据库的数据表中存在着大量的数值型字段,如要进行概念聚类,首先需要对数值型字段中的数据进行概念化,本文针对[1]中提出的算法,进行改进,提出一种对数值型字段进行概念化的方法  相似文献   

11.
电厂锅炉燃烧系统具有多输入、多输出、大滞后和强非线性特性.为了优化燃烧过程,提高机组热效率,关键问题是确定机组运行主要可控参数的优化目标值.本文采用基于模糊划分的多值属性数据挖掘算法来确定重要参数的运行优化目标值.将模糊集合理论引入到关联规则的研究中,利用模糊概念对数据进行概括和抽象,通过定义在属性论域上的模糊集来软化边界.此方法能将多值属性关联规则的挖掘问题转化为布尔型关联规则的挖掘问题.通过实验验证了算法的可行性并对算法的性能进行了讨论,说明了本文中提出的挖掘算法能发现关系数据库中数量型属性之间的蕴涵的关联性.最后以600 Mw机组历史实测参数为基础数据,对各种不同特征负荷工况下的数据进行挖掘.得到各自的最优值,并将这些最优值用于指导实际运行,取得了显著的效果.  相似文献   

12.
Many researchers in database and machine learning fields are primarily interested in data mining because it offers opportunities to discover useful information and important relevant patterns in large databases. Most previous studies have shown how binary valued transaction data may be handled. Transaction data in real-world applications usually consist of quantitative values, so designing a sophisticated data-mining algorithm able to deal with various types of data presents a challenge to workers in this research field. In the past, we proposed a fuzzy data-mining algorithm to find association rules. Since sequential patterns are also very important for real-world applications, this paper thus focuses on finding fuzzy sequential patterns from quantitative data. A new mining algorithm is proposed, which integrates the fuzzy-set concepts and the AprioriAll algorithm. It first transforms quantitative values in transactions into linguistic terms, then filters them to find sequential patterns by modifying the AprioriAll mining algorithm. Each quantitative item uses only the linguistic term with the maximum cardinality in later mining processes, thus making the number of fuzzy regions to be processed the same as the number of the original items. The patterns mined out thus exhibit the sequential quantitative regularity in databases and can be used to provide some suggestions to appropriate supervisors.  相似文献   

13.
Mining Fuzzy Multiple-Level Association Rules from Quantitative Data   总被引:2,自引:0,他引:2  
Machine-learning and data-mining techniques have been developed to turn data into useful task-oriented knowledge. Most algorithms for mining association rules identify relationships among transactions using binary values and find rules at a single-concept level. Transactions with quantitative values and items with hierarchical relationships are, however, commonly seen in real-world applications. This paper proposes a fuzzy multiple-level mining algorithm for extracting knowledge implicit in transactions stored as quantitative values. The proposed algorithm adopts a top-down progressively deepening approach to finding large itemsets. It integrates fuzzy-set concepts, data-mining technologies and multiple-level taxonomy to find fuzzy association rules from transaction data sets. Each item uses only the linguistic term with the maximum cardinality in later mining processes, thus making the number of fuzzy regions to be processed the same as the number of original items. The algorithm therefore focuses on the most important linguistic terms for reduced time complexity.  相似文献   

14.
This paper describes the application of an evidential reasoning (ER)‐based decision making process to multiple‐criteria decision making (MCDM) problems having both quantitative and qualitative criteria. The ER approach is based on the decision theory and the theory of evidence and it uses the concept of ‘degree of belief’ to assess decision alternatives on each attribute. When faced with MCDM problems, evaluation and selection or ranking of alternatives appear to be both challenging and vital to arrive at a rational and robust decision. In the presence of both qualitative and quantitative evaluations in an MCDM problem, it is necessary, when using the ER‐based decision making process, to transform or convert quantitative data into a belief structure using a number of grades so that the converted belief structure and the original quantitative data are equivalent in values or utilities. This paper suggests three scenarios for data transformation and examines how the ranking of decision alternatives is changed when different scenarios of data transformation are used. Ranking of UK universities using the ER approach is illustrated as an example.  相似文献   

15.
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性.  相似文献   

16.
由于探测器之间对接收的地物辐射信号的响应特征不同,导致遥感数据含有条带噪声,严重影响了图像质量及后续的定量计算。针对探测器响应函数在图像低值区及高值区呈非线性的特点,在着重分析矩匹配方法的基础上,提出分段线性动态矩匹配条带去除方法。方法设定阈值分割高中低值域统计区间,对探测器响应函数进行分段线性拟合,并对探测器每一分图像动态采用其领域内均值和标准差作为参考值进行条带纠正。应用TM数据第4波段及环境一号卫星高光谱数据进行去条带实验,并定性和定量地比较了该方法与动态矩匹配、傅里叶变换、自动均衡化曲线方法的去条带效果。结果表明该方法能够在保留图像基本信息的前提下,获得最佳的去条带效果,尤其能够提高非均匀地物分布区域内水体的条带去除效果。  相似文献   

17.
针对图像软件系统工程项目中涉及的多源遥感数据的预处理问题,研究了当前几种典型卫星数据的不同存储格式,提出了对各种遥感数据进行解析的方法.通过对地理空间数据抽象库( GDAL)原有功能进行完善和扩展,并重新编辑发布动态链接库( DLL)版本,设计了多源遥感数据在GDAL框架体系下的统一解析模式,实现了遥感数据解析结果存储为项目中通用的统一数据格式(如Tiff格式),为后续的遥感数据处理和定量遥感数据产品的生产提供数据基础和技术支持.  相似文献   

18.
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。  相似文献   

19.
Data mining is the process of extracting desirable knowledge or interesting patterns from existing databases for specific purposes. In real-world applications, transactions may contain quantitative values and each item may have a lifespan from a temporal database. In this paper, we thus propose a data mining algorithm for deriving fuzzy temporal association rules. It first transforms each quantitative value into a fuzzy set using the given membership functions. Meanwhile, item lifespans are collected and recorded in a temporal information table through a transformation process. The algorithm then calculates the scalar cardinality of each linguistic term of each item. A mining process based on fuzzy counts and item lifespans is then performed to find fuzzy temporal association rules. Experiments are finally performed on two simulation datasets and the foodmart dataset to show the effectiveness and the efficiency of the proposed approach.  相似文献   

20.
数据驱动的扩展置信规则库专家系统能够处理含有定量数据或定性知识的不确定性问题.该方法已被广泛地研究和应用,但仍缺乏在不完整数据问题上的研究.鉴于此,针对不完整数据集上的问题,提出一种新的扩展置信规则库专家系统推理方法.首先提出基于析取范式的扩展规则结构,并通过实验讨论了在新的规则结构下,置信规则前提属性参考值个数对推理...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号