首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一个基于语义元的相似度计算方法研究*   总被引:6,自引:1,他引:5  
针对已有相似性度量方法的局限与不足,对属性进行语义扩展,提出了基于语义元支持度的相似度计算方法,该方法用语义元表示概念内涵,在语义元中引入支持度来表现不同语义元对概念表示的贡献,综合考虑相关性、相似性、非对称性以及语义元的支持度,通过比较语义元的相似性,实现了概念相似性的度量。把关系作为一种特殊的概念进行关系的比较,得到了基于语义元的本体相似性度量。最后,将该方法与其他方法进行比较,验证了该方法的计算结果更具有合理性,同时也验证了该方法的有效性与正确性。  相似文献   

2.
为解决混合属性中数值属性与分类属性相似性度量的差异造成的聚类效果不佳问题,分析混合属性聚类相似性度量的问题,提出基于熵的混合属性聚类算法.引入熵离散化技术将数值属性离散化,仅使用二元化距离度量混合属性对象之间的相似性,在聚类过程中随机选取k个初始簇中心,将其它对象按照距离k个簇中心的最小距离划分到相应的簇中,选择每个簇中每个数据属性中频率最高的属性值形成新的簇中心继续划分对象,迭代此步当满足目标条件时停止,形成最终聚类.在UCI数据集上的实验结果验证了该算法的有效性.  相似文献   

3.
在传统K-中心点聚类算法中,相似性一般仅仅用距离来进行度量,这种度量方法均基于对象属性之间是独立同分布的,但大多数真实数据对象属性之间都相关联的,因此,本文将引用非独立同分布计算公式,对传统距离计算相似度方法进行替换。同时,由于此公式会依据属性值的频率来进行计算,但数值型数据对于频率并不敏感,因此,本文在引入公式之前,将数值型数据按属性列进行聚类与替换。实验结果表明,本文方法可以提高算法的聚类精度。  相似文献   

4.
模糊聚类分析主要研究样本的分类问题.本文利用模糊聚类方法对软件缺陷进行分类,引入缺陷数据属性权重计算方法,依据数据挖掘中的属性邻近性度量方法,对缺陷数据进行相似度分析.并按照属性类别进行分析,不仅体现了缺陷数据属性间的形贴近程度,而且体现了属性之间的距离贴近程度.本文方法对软件缺陷数据进行分析并对比度量结果,实验结果充分说明改进后的模糊聚类相似性度量方法在分类准确性方面有一定程度的提高.  相似文献   

5.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

6.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

7.
姜逸凡  叶青 《计算机应用》2019,39(4):1041-1045
在时间序列分类等数据挖掘工作中,不同数据集基于类别的相似性表现有明显不同,因此一个合理有效的相似性度量对数据挖掘非常关键。传统的欧氏距离、余弦距离和动态时间弯曲等方法仅针对数据自身进行相似度公式计算,忽略了不同数据集所包含的知识标注对于相似性度量的影响。为了解决这一问题,提出基于孪生神经网络(SNN)的时间序列相似性度量学习方法。该方法从样例标签的监督信息中学习数据之间的邻域关系,建立时间序列之间的高效距离度量。在UCR提供的时间序列数据集上进行的相似性度量和验证性分类实验的结果表明,与ED/DTW-1NN相比SNN在分类质量总体上有明显的提升。虽然基于动态时间弯曲(DTW)的1近邻(1NN)分类方法在部分数据上表现优于基于SNN的1NN分类方法,但在分类过程的相似度计算复杂度和速度上SNN优于DTW。可见所提方法能明显提高分类数据集相似性的度量效率,在高维、复杂的时间序列的数据分类上有不错的表现。  相似文献   

8.
在复杂网络中,度量节点之间的相似性是一项基础且具有挑战性的工作。基于邻域节点的相似性度量仅考虑了节点的邻域信息。基于路径的相似性度量考虑了节点之间的路径信息,使得多数节点与大度节点相似。为了更准确地度量节点之间的相似性且避免多数节点与大度节点相似,定义了每个节点的距离分布,并在此基础上采用相对熵和距离分布提出了一种节点相似性度量方法(DDRE)。DDRE方法通过节点之间的最短路径生成每个节点的距离分布,根据距离分布计算节点之间的相对熵,进而得到节点之间的相似性。6个真实网络数据集的对比实验结果表明,DDRE方法在对称性以及SIR模型中影响其他节点的能力这两方面表现较好。  相似文献   

9.
面向Artifact的业务流程是以数据为中心的业务流程的代表.与传统以过程为中心的业务流程相似,为了更好的对流程模型进行流程检索、流程挖掘等操作,计算流程间的相似性或距离是一个关键的问题.给出一种面向Artifact的业务流程行为相似性度量方法.首先,通过测量流程模型之间关键Artifact的相似性来评估流程处理的核心业务数据的相似度.其次,根据关键Artifact生命周期特性,测量任务执行路径中任务依赖关系的相似性.最后,测量生命周期中关键Artifact属性赋值序列的相似性.理论和实例分析表明,该方法是一个有效的相似性度量方法.  相似文献   

10.
现有的时间序列的相似性度量大多基于欧氏距离,并不适用于不同粒度时间序列的相似性匹配,无法直接对其相似性进行有效的度量,为此,提出一种基于对应差值比样本的相似性度量,用于不同粒度时间序列的相似性匹配.首先对不同时间粒度的时序数据进行阐述,并定义了对应差值比样本与相似度计算方法;接着提出基于它们的相似性匹配算法;最后实验证...  相似文献   

11.
A new framework for computing the Euclidean distance and weighted distance from the boundary of a given digitized shape is presented. The distance is calculated with sub-pixel accuracy. The algorithm is based on a equal distance contour evolution process. The moving contour is embedded as a level set in a time varying function of higher dimension. This representation of the evolving contour makes possible the use of an accurate and stable numerical scheme, due to Osher and Sethian [22]. The relation between the classical shape from shading problem and the weighted distance transform is presented, as well as an algorithm that calculates the geodesic distance transform on surfaces.  相似文献   

12.
贾楠  付晓东  黄袁  刘晓燕  代志华 《计算机应用》2012,32(12):3529-3533
在工作流的发现和聚类等应用中,需要对两个工作流模型的距离进行度量。因此,提出一种计算两个不同结构化工作流的距离定量度量方法。首先介绍了结构化工作流,并将每一个结构化工作流转换为流程结构树;然后基于两个结构树之间的树编辑距离来计算工作流之间的距离及相应相似度。该距离度量方法满足距离度量的3个属性,即同实体不可区分性、对称性和三角不等式性质。这些属性使得该距离度量方法可以在工作流模型管理活动中作为定量分析工具。实验结果表明,基于树编辑距离的工作流度量方法是可行的。同时,与基于邻接矩阵的距离度量方法相比,该方法考虑了不同结构之间的语义距离,有效验证了此方法的合理性。  相似文献   

13.
最小距离分类器的改进算法--加权最小距离分类器   总被引:12,自引:0,他引:12  
任靖  李春平 《计算机应用》2005,25(5):992-994
最小距离分类器是一种简单而有效的分类方法。为了提高最小距离分类器的分类性能,主要的改进方法是选择更有效的距离度量。通过分析多重限制分类器和决策树分类器的分类原则,提出了基于标准化欧式距离的加权最小距离分类器。该分类器通过对标称型和字符串型属性的距离的加权定义。以及增加属性值的范围约束,扩大了最小标准化欧式距离分类器的适用范围,同时提高了其分类准确率。实验结果表明,加权最小距离分类器具有较高的分类准确率。  相似文献   

14.
提出了一种基于自适应距离度量的最小距离分类器集成方法,给出了个体分类器的生成方法。首先用Bootstrap技术对训练样本集进行可重复采样,生成若干个子样本集,应用生成的子样本集建立自适应距离度量模型,根据建立的模型对子样本集进行训练,生成个体分类器。在集成中,将结果用相对多数投票法集成最终的结论。采用UCI标准数据集实验,将该方法与已有方法进行了性能比较,结果表明基于自适应距离度量的最小距离分类器集成是最有效的。  相似文献   

15.
《Location Science #》1995,3(3):203-215
This paper describes a mathematical model for locating a single facility on a continuous plane, which considers transportation (or service) costs between the facility and a set of demand points as well as social costs arising from the undesirable characteristics of the facility. The transportation costs are given by a standard minisum objective function, while the social costs appear implicitly in the form of lower bound constraints on the distances between the facility and the demand points. The model is analyzed under the assumption that distances are measured by the rectilinear norm, and an efficient branch-and-bound algorithm is derived to solve this case.  相似文献   

16.
Learning string-edit distance   总被引:8,自引:0,他引:8  
In many applications, it is necessary to determine the similarity of two strings. A widely-used notion of string similarity is the edit distance: the minimum number of insertions, deletions, and substitutions required to transform one string into the other. In this report, we provide a stochastic model for string-edit distance. Our stochastic model allows us to learn a string-edit distance function from a corpus of examples. We illustrate the utility of our approach by applying it to the difficult problem of learning the pronunciation of words in conversational speech. In this application, we learn a string-edit distance with nearly one-fifth the error rate of the untrained Levenshtein distance. Our approach is applicable to any string classification problem that may be solved using a similarity function against a database of labeled prototypes  相似文献   

17.
Markov edit distance   总被引:2,自引:0,他引:2  
Edit distance was originally developed by Levenstein several decades ago to measure the distance between two strings. It was found that this distance can be computed by an elegant dynamic programming procedure. The edit distance has played important roles in a wide array of applications due to its representational efficacy and computational efficiency. To effect a more reasonable distance measure, the normalized edit distance was proposed. Many algorithms and studies have been dedicated along this line with impressive performances in recent years. There is, however, a fundamental problem with the original definition of edit distance that has remained elusive: its context-free nature. In determining the possible actions, i.e., insertion, deletion, and substitution, no systematic consideration was given to the local behaviors of the string/pattern in question that indeed encompass great amount of useful information regarding its content. In this paper, inspired by the success of the Markov Random Field theory, a new edit distance called Markov edit distance (MED) within the dynamic programming framework is proposed to take full advantage of the local statistical dependencies in the pattern in order to arrive at enhanced matching performance. Within this framework, two specialized distance measures are developed: The reshuffling MED to handle cases where a subpattern in the target pattern is the reshuffles of that in the source pattern, and the coherence MED which is able to incur local content based substitution, insertion, and deletion. The applications based on these two MEDs in string matching are then explored, whereof encouraging empirical results have been observed.  相似文献   

18.
结合编辑距离和Google距离的语义标注方法*   总被引:1,自引:0,他引:1  
提出了一种在领域本体指导下对网页进行语义标注的方法。该方法利用编辑距离和Google距离从词语的语法和语义两方面综合度量词汇与本体概念之间的语义相关度,从而在网页与本体之间建立映射关系。此外,对网页进行语义标注后,利用标注结果对本体进行有效扩充,使本体更趋于领域化。实验结果表明该方法是行之有效的。  相似文献   

19.
研究了在同时具有安全距离和供货距离的限制条件下,至少要建几个仓库,建在何处,每个仓库各负责为哪些货物需求点提供货物的最优选址问题,建立了该最优选址问题的数学模型,给出了一种使用简便,算法复杂度为[O(n3)]的优化算法。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号