首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
相似用户挖掘是提高社交网络服务质量的重要途径,在面向大数据的社交网络时代,准确的相似用户挖掘对于用户和互联网企业等都有重要的意义,而根据用户自己的兴趣话题挖掘的相似用户更符合相似用户的要求。提出了一种基于用户兴趣话题进行相似用户挖掘的方法。该方法首先使用TextRank话题提取方法对用户进行兴趣话题提取,再对用户发表内容进行训练,计算出所有词之间的相似度。提出CP(Corresponding Position similarity)、CPW(Corresponding Position Weighted similarity)、AP(All Position similarity)、APW(All Position Weighted similarity)四种用户兴趣话题词相似度计算方法,通过用户和相似用户间关注、粉丝重合率验证相似用户挖掘效果,APW similarity的相似用户的关注/粉丝重合百分比为1.687%,优于提出的其他三种算法,分别提高了26.3%、2.8%、12.4%,并且比传统的文本相似度方法Jaccard相似度、编辑距离算法、余弦相似度分别提高了20.4%、21.2%、45.0%。因此APW方法可以更加有效地挖掘出用户的相似用户。  相似文献   

2.
随着业务流程模型管理库规模的增大,传统的模型管理方式在效率和准确度方面已经无法达到预期,研究能够提升业务流程模型管理效率的技术成为人们的迫切需求。其中,业务流程模型相似度技术在模型搜索、模型一致性检测等模型管理的相关应用场景中能够有效提升工作的效率和精度,因此,对业务流程模型相似度技术的研究已经逐渐成为模型分析领域的一个研究热点,并取得了许多有价值的研究成果。业务流程模型相似度技术涉及的领域较多,可以向不同的分支方向发展,虽然不同分支的模型相似度技术会有方法之间的类比,但是缺乏系统性的整理和分析。文中从相似度计算方法和应用场景这两个层面对业务流程模型相似度技术进行了分类讨论,将相似度计算方法分为文本相似度、语义相似度、结构相似度、行为相似度和基于人类评估的相似度,并分析了每种计算方法的特点。较为常见的业务流程模型相似度应用场景包括一致性检测、标准化、流程模型搜索和模型重用,文中对基于以上场景的相关研究进行了梳理。最后分析了业务流程模型相似度研究面临的挑战。  相似文献   

3.
本文分析了几种概念相似度的运算方法,对概念相似度计算模型进行了改进,该计算模型在计算初始主流概念相似度的基础上,不仅引入了深度、密度因子,还考虑了有向边类型权重因子在计算相似度中所起的作用,完善了计算方法。通过试验结果可以看出,该方法对概念相似度的计算更准确地体现出了概念间的相似程度。  相似文献   

4.
基于概念的网页相似度处理算法研究   总被引:4,自引:0,他引:4  
郭晨娟  李战怀 《计算机应用》2006,26(12):3030-3032
针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型。该模型缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为优化相似度计算奠定了良好基础。  相似文献   

5.
翻译记忆中语句相似度计算方法的研究   总被引:1,自引:0,他引:1  
周文  徐国梁 《计算机应用》2007,27(5):1210-1213
对翻译记忆的关键技术——语句相似度的几种常用计算方法进行了分析,针对英汉翻译记忆系统的要求,提出了基于块的方法计算英语句子相似度,通过将英语句子按照句型分类存储,组合句子各个组成块的语义相似度与权重来得到整个句子的相似度。结果证明,它能很好的反映句子在语义和结构上的相似程度。  相似文献   

6.
介绍网络业务流自相似特性的研究进展,并对自相似特性的产生进行了深入分析。研究自相似特性对网络技术的影响,对进一步研究网络业务量的自相似性有理论指导意义。  相似文献   

7.
一种基于本体的概念语义相似度方法的研究   总被引:6,自引:0,他引:6       下载免费PDF全文
提出了一种计算不同本体中概念间语义相似度的方法,该方法通过比较实例间的相似度获得初始概念间语义相似度,结合影响概念间语义相似度的两个系数,计算出最终的概念间语义相似度。与概率统计方法进行比较,验证了该方法的有效性。该研究工作可以应用于面向Web的知识检索领域。  相似文献   

8.
大量网络通信量测量研究表明,通信量在长时间尺度上的突发性规律可以用分形或自相似模型来描述。为准确评估CSMA/CD协议性能,基于RMD算法产生近似的FBM,并利用近似FMB构造了自相似通信量模型。基于自相似通信量,采用离散事件仿真技术对CSMA/CD协议建立了排队模型,对网络性能进行了分析,适过与通信量服从泊松到达的仿真结果进行对比,说明了自相似特性对网络性能分析的影响。  相似文献   

9.
针对在线用户评论中产品特征的提取和聚类问题进行了研究,提出一种改进的SimRank算法,将情感词-特征对放入二分网中,在二分网中使用改进后的SimRank算法计算特征词之间的相似度;再通过谱聚类算法对特征相似度进行聚类,提取网络产品的特征集合。以某电脑评论为例,从中提取情感词-特征对进行研究,实验结果显示,改进后的算法准确率更高。改进后的特征相似度检测方法可以作为检测特征相似度的有效方法。实验采用在线产品的评论语料,实验结果表明使用改进后的SinRank相似度对特征词进行聚类提取出特征更加准确。  相似文献   

10.
为了解决文物分类、鉴别过程中由于个人主观性导致无法定量化评判同类铜币这一问题,提出一种基于128维SURF特征的计算机视觉相似度分析方法。对目前同类铜币常见的三种情形进行相似度分析,采用多尺度结构提取铜币的稳定特征,并构建包含特征点邻域信息的特征描述符,依靠相似计算策略得到相似度得分,最终实现对同类铜币的识别。实验结果表明,上述计算机视觉相似度计算算法在旋转、尺度变化和亮度变化条件下均表现优异,能够很好地对不同情形下的同类铜币进行识别。  相似文献   

11.
针对传统图像检索无法体现对检索示例图像中多个不同对象的检索要求程度的问题,提出一种改进颜色特征和小波变换纹理特征的图像检索方法。首先提取出图像的多个感兴趣区域,由感兴趣的不同程度分别赋予不同大小的权值;然后提取颜色特征和纹理特征,分别用对应位置相似度计算、感兴趣区域与检索数据库中图像整体的相似度计算和整体检索示例图像与检索图像数据库中图像相似度计算三种不同方法计算出两幅图像的相似度,取最大的相似度作为两幅图像的最终相似度;对检索示例图像与检索数据库中每个图像的相似度按大小进行排序,选择最相似的图像作为检索结果。实验结果表明,该方法提高了对图像检索的性能,体现了个性化检索,对图像检索具有很好的效果。  相似文献   

12.
Similarity retrieval of iconic image database   总被引:3,自引:0,他引:3  
The perception of spatial relationships among objects in a picture is one of the important selection criteria to discriminate and retrieve the images in an iconic image database system. The data structure called 2D string, proposed by Chang et al., is adopted to represent symbolic pictures. The 2D string preserves the objects' spatial knowledge embedded in images. Since spatial relationship is a fuzzy concept, the capability of similarity retrieval for the retrieval by subpicture is essential. In this paper, similarity measure based on 2D string longest common subsequence is defined. The algorithm for similarity retrieval is also proposed. Similarity retrieval provides the iconic image database with the distinguishing function different from a conventional database.  相似文献   

13.
Retrieving similar images from large image databases is a challenging task for today’s content-based retrieval systems. Aiming at high retrieval performance, these systems frequently capture the user’s notion of similarity through expressive image models and adaptive similarity measures. On the query side, image models can significantly differ in quality compared to those stored on the database side. Thus, similarity measures have to be robust against these individual quality changes in order to maintain high retrieval performance. In this paper, we investigate the robustness of the family of signature-based similarity measures in the context of content-based image retrieval. To this end, we introduce the generic concept of average precision stability, which measures the stability of a similarity measure with respect to changes in quality between the query and database side. In addition to the mathematical definition of average precision stability, we include a performance evaluation of the major signature-based similarity measures focusing on their stability with respect to querying image databases by examples of varying quality. Our performance evaluation on recent benchmark image databases reveals that the highest retrieval performance does not necessarily coincide with the highest stability.  相似文献   

14.
We propose an automatic method for measuring content-based music similarity, enhancing the current generation of music search engines and recommended systems. Many previous approaches to track similarity require brute-force, pair-wise processing between all audio features in a database and therefore are not practical for large collections. However, in an Internet-connected world, where users have access to millions of musical tracks, efficiency is crucial. Our approach uses features extracted from unlabeled audio data and near-neigbor retrieval using a distance threshold, determined by analysis, to solve a range of retrieval tasks. The tasks require temporal features-analogous to the technique of shingling used for text retrieval. To measure similarity, we count pairs of audio shingles, between a query and target track, that are below a distance threshold. The distribution of between-shingle distances is different for each database; therefore, we present an analysis of the distribution of minimum distances between shingles and a method for estimating a distance threshold for optimal retrieval performance. The method is compatible with locality-sensitive hashing (LSH)-allowing implementation with retrieval times several orders of magnitude faster than those using exhaustive distance computations. We evaluate the performance of our proposed method on three contrasting music similarity tasks: retrieval of mis-attributed recordings (fingerprint), retrieval of the same work performed by different artists (cover songs), and retrieval of edited and sampled versions of a query track by remix artists (remixes). Our method achieves near-perfect performance in the first two tasks and 75% precision at 70% recall in the third task. Each task was performed on a test database comprising 4.5 million audio shingles.  相似文献   

15.
一种通过视频片段进行视频检索的方法   总被引:14,自引:0,他引:14       下载免费PDF全文
视频片段检索是基于内容的视频检索的主要方式,它需要解决两个问题:(1) 从视频库里自动分割出与查询片段相似的多个片段;(2) 按照相似度从高到低排列这些相似片段.首次尝试运用图论的匹配理论来解决这两个问题.针对问题(1),把检索过程分为两个阶段:镜头检索和片段检索.在镜头检索阶段,利用相机运动信息,一个变化较大的镜头被划分为几个内容一致的子镜头,两个镜头的相似性通过对应子镜头的相似性计算得到;在片段检索阶段,通过考察相似镜头的连续性初步得到一个个相似片段,再运用最大匹配的Hungarian算法来确定真正的相似片段.针对问题(2),考虑了片段相似性判断的视觉、粒度、顺序和干扰因子,提出用最优匹配的Kuhn-Munkres算法和动态规划算法相结合,来解决片段相似度的度量问题.实验对比结果表明,所提出的方法在片段检索中可以取得更高的检索精度和更快的检索速度.  相似文献   

16.
目前对于查询相似度的计算通常是从比对检索结果与查询式的相似度来考虑。本文提出一种基于贝叶斯分类的算法来计算XML查询结果相似度。在计算出每个检索结果文档与查询式相似度的基础上,使用贝叶斯分类器将XML检索文档分类成相关与不相关两个集合,再由计算相关文档与不相关文档的相似度来决定最终的相似度值。最后,通过实验分析表明,在不影响查全率的前提下,这样得到的相似度计算精度比传统方法高15%左右,有效地提高了检索性能。  相似文献   

17.
图像检索中的动态相似性度量方法   总被引:10,自引:0,他引:10  
段立娟  高文  林守勋  马继涌 《计算机学报》2001,24(11):1156-1162
为提高图像检索的效率,近年来相关反馈机制被引入到了基于内容的图像检索领域。该文提出了一种新的相关反馈方法--动态相似性度量方法。该方法建立在目前被广泛采用的图像相拟性度量方法的基础上,结合了相关反馈图像检索系统的时序特性,通过捕获用户的交互信息,动态地修正图像的相似性度量公式,从而把用户模型嵌入到了图像检索系统,在某种程度上使图像检索结果与人的主观感知更加接近。实验结果表明该方法的性能明显优于其它图像检索系统所采用的方法。  相似文献   

18.
针对医学图像检索中相似性表达的自身困难,以及噪声影响的问题,提出一种通过张量积图进行扩散,利用其他数据点的上下信息改进基于纹理元的成对相似性度量的方法。首先,采用纹理元的统计方法进行医学图像特征描述和提取,并通过对纹理元相似性加权,得到图像的成对相似性;然后,利用张量积图沿着数据点的内在流形进行相似性的传播,实现全局的相似性度量。在ImageCLEFmed 2009上的实验结果表明,该算法与基于Gabor的检索算法相比,其类平均精度提高了32%,与基于尺度不变特征转换(SIFT)的检索算法相比,其类平均精度提高了19%,能良好地应用于医学图像检索。  相似文献   

19.
P.W.  Y.R. 《Pattern recognition》1995,28(12):1916-1925
Spatial reasoning and similarity retrieval are two important functions of any image information system. Good spatial knowledge representation for images is necessary to adequately support these two functions. In this paper, we propose a new spatial knowledge representation, called the SK-set based on morphological skeleton theories. Spatial reasoning algorithms which achieve more accurate results by directly analysing skeletons are described. SK-set facilitates browsing and progressive visualization. We also define four new types of similarity measures and propose a similarity retrieval algorithm for performing image retrieval. Moreover, using SK-set as a spatial knowledge representation will reduce the storage space required by an image database significantly.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号