首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
Synthesizing statistical knowledge from incomplete mixed-mode data   总被引:2,自引:0,他引:2  
The difficulties in analyzing and clustering (synthesizing) multivariate data of the mixed type (discrete and continuous) are largely due to: 1) nonuniform scaling in different coordinates, 2) the lack of order in nominal data, and 3) the lack of a suitable similarity measure. This paper presents a new approach which bypasses these difficulties and can acquire statistical knowledge from incomplete mixed-mode data. The proposed method adopts an event-covering approach which covers a subset of statistically relevant outcomes in the outcome space of variable-pairs. And once the covered event patterns are acquired, subsequent analysis tasks such as probabilistic inference, cluster analysis, and detection of event patterns for each cluster based on the incomplete probability scheme can be performed. There are four phases in our method: 1) the discretization of the continuous components based on a maximum entropy criterion so that the data can be treated as n-tuples of discrete-valued features; 2) the estimation of the missing values using our newly developed inference procedure; 3) the initial formation of clusters by analyzing the nearest-neighbor distance on subsets of selected samples; and 4) the reclassification of the n-tuples into more reliable clusters based on the detected interdependence relationships. For performance evaluation, experiments have been conducted using both simulated and real life data.  相似文献   

2.
一种基于信息论的决策表连续属性离散化算法   总被引:2,自引:0,他引:2  
连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义。提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制。最后选取多组实验数据,使用当前流行的分类算法——支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的。  相似文献   

3.
专利蕴含丰富的背景、技术、功能等知识,对创新设计领域起着重要的作用。对创新知识进行有效提取,能推动人们对知识的利用,助于突破固有的思维定势及知识面的限制,启发设计者从独特、新颖的角度进行产品设计。从创新设计的角度,提出基于组合特征和最大熵分类器的专利创新知识抽取方法。该方法运用自然语言处理方法,增加专利领域术语识别算法,联合词特征和最短路径闭包树句法特征,最后采用最大熵进行基于语义分析的知识提取,并对知识属性进行标注。实验结果表明,引入组合特征,能高效地处理专利要解决的问题,以及技术方案中的目标功能、作用原理、位置特征等创新知识之间的语义角色关系。  相似文献   

4.
连续属性离散化作为水产品安全信息系统中进行智能化数据处理的一个重要研究内容,已然成为水产品安全信息化研究领域的一个热点和难点。文中利用基于粗糙集理论相对熵的连续属性离散化方法来解决这个问题。此方法选用候选区间的类信息熵作为离散门限值边界,并且通过考察每个属性值的分类能力,合并离散区间,去掉冗余断点,确定关键离散属性值,最终在水产品安全信息系统中实现连续属性离散化。实例分析表明算法是有效可行的。  相似文献   

5.
Data discretization unification   总被引:2,自引:1,他引:1  
  相似文献   

6.
不同知识粒度下粗糙集的不确定性研究   总被引:27,自引:1,他引:26  
粗糙集的不确定性度量方法,目前主要包括粗糙集的粗糙度、粗糙熵、模糊度和模糊熵.在不同知识粒度下,从属性的角度,给出了分层递阶的知识空间链,发现在分层递阶的知识粒度下部分文献中定义的粗糙集的粗糙熵和模糊度随知识粒度的变化规律不一定符合人们的认识规律.从信息熵的角度提出了一种粗糙集不确定性的模糊度度量方法,证明了这种模糊度随知识粒度的减小而单调递减,弥补了现有粗糙熵和模糊度度量粗糙集不确定性的不足.最后,分析了在不同知识粒度下粗糙度和模糊度的变化关系.  相似文献   

7.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

8.
音乐领域典型事件抽取方法研究   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在事件元素识别中,该文采用了基于最大熵的事件元素识别方法。在该文构建的语料库下,最终事件类型识别的平均F值达到82.82%,事件元素识别的平均F值达到75.79%。  相似文献   

9.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

10.
目的 针对现有区域合并和图割的结合算法没有考虑矿岩图像模糊特性,导致分割精度和运行效率较低,模糊边缘无法有效分割的问题,利用快速递推计算的最大模糊2-划熵信息设置以区域为顶点的图割模型似然能来解决。方法 首先利用双边滤波器和分水岭算法对矿岩图像进行预处理,并将其划分为若干一致性较好的区域;然后利用图像在计算最大模糊2-划分熵时,目标和背景的模糊隶属度函数来设计图割能量函数似然能,使得能量函数更接近模糊图像的真实情况,期间为了提高最大模糊2-划分熵值的搜索效率,提出了时间复杂度为O(n2)的递推算法将模糊熵的计算转化为递推过程,并保留不重复的递推结果用于后续的穷举搜索;最后利用设计的图割算法对区域进行标号,以完成分割。结果 本文算法的分割精度较其他区域合并和图割结合算法提高了约23%,分割后矿岩颗粒个数的统计结果相对于人工统计结果,其误差率约为2%,运行时间较其他算法缩短了约60%。结论 本文算法确保精度同时,有效提高矿岩图像的分割效率,为自动化矿岩图像高效分割的工程实践提供重要指导依据。  相似文献   

11.
Object-level image retrieval is an active area of research. Given an image, a human observer does not see random dots of colors. Rather, he/she observes familiar objects in the image. Therefore, to make image retrieval more user-friendly and more effective and efficient, object-level image retrieval technique is necessary. Unfortunately, images today are mostly represented as 2D arrays of pixels values. The object-level semantics of the images are not captured. Researchers try to overcome this problem by attempting to deduce the object-level semantics through additional information such as the motion vectors in the case of video clips. Some success stories have been reported. However, deducing object-level semantics from still images is still a difficult problem. In this paper, we propose a color-spatial approach to approximate object-level image retrieval. The color and spatial information of the principle components of an object are estimated. The technique involves three steps: the selection of the principle component colors, the analysis of spatial information of the selected colors, and the retrieval process based on the color-spatial information. Two color histograms are used to aid in the process of color selection. After deriving the set of representative colors, spatial knowledge of the selected colors is obtained using a maximum entropy discretization with event covering method. A retrieval process is formulated to make use of the spatial knowledge for retrieving relevant images. A prototype image retrieval tool has been implemented on the Unix system. It is tested on two image database consisting of 260 images and 11,111 images respectively. The results show that the color-spatial approach is able to retrieve similar objects with much better precision than the sole color-based retrieval methods.  相似文献   

12.
A process management technique, called process mining, received much attention recently. Process mining can extract organizational or social structures from event logs recorded in an information system. However, when constructing process models, most process mining searches consider only the topology information among events, but do not include the time information. To overcome the drawbacks, a time-interval genetic process mining framework is proposed. First, time-intervals between events are derived for all event sequences. A discretization procedure is then developed to transform time-interval data from continues type to categorical type. Second, the genetic process mining method which is based on global search strategy is applied to generate time-interval process models. Finally, a precision measure is defined to evaluate the quality of the generated models. With the measure, managers can select the best process model among a set of candidate models without human involvement.  相似文献   

13.
A discretization algorithm based on a heterogeneity criterion   总被引:5,自引:0,他引:5  
Discretization, as a preprocessing step for data mining, is a process of converting the continuous attributes of a data set into discrete ones so that they can be treated as the nominal features by machine learning algorithms. Those various discretization methods, that use entropy-based criteria, form a large class of algorithm. However, as a measure of class homogeneity, entropy cannot always accurately reflect the degree of class homogeneity of an interval. Therefore, in this paper, we propose a new measure of class heterogeneity of intervals from the viewpoint of class probability itself. Based on the definition of heterogeneity, we present a new criterion to evaluate a discretization scheme and analyze its property theoretically. Also, a heuristic method is proposed to find the approximate optimal discretization scheme. Finally, our method is compared, in terms of predictive error rate and tree size, with Ent-MDLC, a representative entropy-based discretization method well-known for its good performance. Our method is shown to produce better results than those of Ent-MDLC, although the improvement is not significant. It can be a good alternative to entropy-based discretization methods.  相似文献   

14.
连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。  相似文献   

15.
高质量的数据不仅为后续知识挖掘提供了最有效的数据源而且保证了所挖掘知识的可信度和可用度。为了确保基于食品安全事件数据所挖掘知识的有效性和真实性,本文提出了一种基于本体构建技术的食品安全事件数据清洗流程,并对所清洗的数据进行了相应的评价。本文所清洗的数据是酒鬼酒塑化剂这一食品安全事件数据,在具体清洗过程中,基于斯坦福大学医学院开发的七步法,通过Protégé这一工具,构建了相应的食品安全事件清洗本体。该研究为探究领域化数据的清洗工作提供了一种可行性的操作方案,并且对于所清洗的数据增加了一定的语义知识。  相似文献   

16.
目的 物联网(internet of things,IoT)感知层获取数据时存在资源受限的约束,同时数据常常遭受泄露和非法篡改。数据一旦遭到破坏,将对接收者造成很大的影响,甚至可能会比没有收到数据更加严重。针对IoT数据获取面临的能耗和安全问题,提出一种基于半张量积压缩感知的可验证图像加密方法。方法 首先采用级联混沌系统生成测量矩阵和验证矩阵,测量矩阵以半张量积压缩感知的方式进行采样得到观测值矩阵。利用Arnold置乱观测值矩阵得到最终密文信号,与此同时由验证矩阵生成消息验证码一同在公共信道传输,将由级联混沌系统生成的测量矩阵、验证矩阵以及Arnold置乱的参数的初始种子作为密钥在安全信道上传输。结果 密钥空间分析、密钥敏感性分析、图像熵分析、直方图分析、相关性分析、身份验证分析、压缩率分析的实验结果显示:相比于两种对比方法,本文算法加密后图像的熵值更接近于8,而对应密文图像像素之间的相关系数更接近于0。结论 本文的可验证加密算法结合了半张量压缩感知的优点,在有效减少数据采样能耗的同时保证了数据在传输过程中的安全性与完整性。  相似文献   

17.
传统的并行属性约简算法通过利用抽样技术获取小数据样本进行知识约简,但对于大数据集来说,样本数据不具有一般性且无法代表整个数据集.为了弥补传统并行属性约简算法只能用来计算最小属性约简、处理小数据集的缺陷,论文通过分析了先验知识在粒计算中的重要性,结合云计算技术处理海量数据的优势,以粗糙集理论为背景,从不同角度、层次出发建立层次粗糙集模型,提出基于云计算的层次粗糙集模型约简算法,讨论并实现了知识约简算法中的可并行化操作,利用Hadoop在普通计算机集群上进行试验,从运行时间、加速比、可扩展性三个方面对所提出基于正区域、信息熵、边界域算法的重要性进行评价.实验证明:基于云计算的层次粗糙集模型约简算法可以有效处理大数据集.  相似文献   

18.
针对粗糙集只能处理量化数据,容错和推广能力较差的缺点以及BP神经网络的维数灾难问题,提出1种基于信息熵的粗糙集属性离散化方法. 该方法利用粗糙集对属性进行约简,解决BP神经网络的维数灾难问题,并将BP神经网络用于模式分类补偿粗糙集属性约简用于模式分类时的不足. 实例分析表明该方法具有较好的故障诊断效果.  相似文献   

19.
视频数据中包含丰富的运动事件信息,从中检测复杂事件,分析其中的高层语义信息,已成为视频研究领域的热点之一。视频复杂事件检测,主要对事件中多语义概念进行检测分析,对多运动目标的特征进行描述,发现底层特征与高层语义概念间的关系,旨在从各类视频特征及相关的原始视频数据中自动提取视频复杂事件中语义概念模式,实现“跨越语义鸿沟”的目标。在超图理论的基础上,提出了针对运动目标特征分别构建轨迹超图和多标签超图,并对其进行配对融合,用于检测视频复杂事件。实验结果证明,同其他方法如基于普通图的事件检测方法和基于超图的多标签半监督学习方法相比,新方法在检测复杂事件结果中具有更高的平均查准率和平均查全率。  相似文献   

20.
社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现:(1)基于事件主题信息与隐式语义信息相结合的方法检测事件;(2)基于多维语义信息的社区检测算法划分主题事件的子事件;(3)基于多视点信息构造事件发展的脉络。在真实数据集上的实验结果表明,该方法在三个步骤比基线方法均有提高,其中在构造事件发展脉络阶段,该方法在理解性、概括性和准确性指标上分别高出0.44、0.11和0.50。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号