共查询到20条相似文献,搜索用时 109 毫秒
1.
相似用户挖掘是提高社交网络服务质量的重要途径,在面向大数据的社交网络时代,准确的相似用户挖掘对于用户和互联网企业等都有重要的意义,而根据用户自己的兴趣话题挖掘的相似用户更符合相似用户的要求。提出了一种基于用户兴趣话题进行相似用户挖掘的方法。该方法首先使用TextRank话题提取方法对用户进行兴趣话题提取,再对用户发表内容进行训练,计算出所有词之间的相似度。提出CP(Corresponding Position similarity)、CPW(Corresponding Position Weighted similarity)、AP(All Position similarity)、APW(All Position Weighted similarity)四种用户兴趣话题词相似度计算方法,通过用户和相似用户间关注、粉丝重合率验证相似用户挖掘效果,APW similarity的相似用户的关注/粉丝重合百分比为1.687%,优于提出的其他三种算法,分别提高了26.3%、2.8%、12.4%,并且比传统的文本相似度方法Jaccard相似度、编辑距离算法、余弦相似度分别提高了20.4%、21.2%、45.0%。因此APW方法可以更加有效地挖掘出用户的相似用户。 相似文献
2.
随着业务流程模型管理库规模的增大,传统的模型管理方式在效率和准确度方面已经无法达到预期,研究能够提升业务流程模型管理效率的技术成为人们的迫切需求。其中,业务流程模型相似度技术在模型搜索、模型一致性检测等模型管理的相关应用场景中能够有效提升工作的效率和精度,因此,对业务流程模型相似度技术的研究已经逐渐成为模型分析领域的一个研究热点,并取得了许多有价值的研究成果。业务流程模型相似度技术涉及的领域较多,可以向不同的分支方向发展,虽然不同分支的模型相似度技术会有方法之间的类比,但是缺乏系统性的整理和分析。文中从相似度计算方法和应用场景这两个层面对业务流程模型相似度技术进行了分类讨论,将相似度计算方法分为文本相似度、语义相似度、结构相似度、行为相似度和基于人类评估的相似度,并分析了每种计算方法的特点。较为常见的业务流程模型相似度应用场景包括一致性检测、标准化、流程模型搜索和模型重用,文中对基于以上场景的相关研究进行了梳理。最后分析了业务流程模型相似度研究面临的挑战。 相似文献
3.
4.
基于概念的网页相似度处理算法研究 总被引:4,自引:0,他引:4
针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型。该模型缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为优化相似度计算奠定了良好基础。 相似文献
5.
翻译记忆中语句相似度计算方法的研究 总被引:1,自引:0,他引:1
对翻译记忆的关键技术——语句相似度的几种常用计算方法进行了分析,针对英汉翻译记忆系统的要求,提出了基于块的方法计算英语句子相似度,通过将英语句子按照句型分类存储,组合句子各个组成块的语义相似度与权重来得到整个句子的相似度。结果证明,它能很好的反映句子在语义和结构上的相似程度。 相似文献
6.
介绍网络业务流自相似特性的研究进展,并对自相似特性的产生进行了深入分析。研究自相似特性对网络技术的影响,对进一步研究网络业务量的自相似性有理论指导意义。 相似文献
7.
8.
大量网络通信量测量研究表明,通信量在长时间尺度上的突发性规律可以用分形或自相似模型来描述。为准确评估CSMA/CD协议性能,基于RMD算法产生近似的FBM,并利用近似FMB构造了自相似通信量模型。基于自相似通信量,采用离散事件仿真技术对CSMA/CD协议建立了排队模型,对网络性能进行了分析,适过与通信量服从泊松到达的仿真结果进行对比,说明了自相似特性对网络性能分析的影响。 相似文献
9.
针对在线用户评论中产品特征的提取和聚类问题进行了研究,提出一种改进的SimRank算法,将情感词-特征对放入二分网中,在二分网中使用改进后的SimRank算法计算特征词之间的相似度;再通过谱聚类算法对特征相似度进行聚类,提取网络产品的特征集合。以某电脑评论为例,从中提取情感词-特征对进行研究,实验结果显示,改进后的算法准确率更高。改进后的特征相似度检测方法可以作为检测特征相似度的有效方法。实验采用在线产品的评论语料,实验结果表明使用改进后的SinRank相似度对特征词进行聚类提取出特征更加准确。 相似文献
10.
11.
针对传统图像检索无法体现对检索示例图像中多个不同对象的检索要求程度的问题,提出一种改进颜色特征和小波变换纹理特征的图像检索方法。首先提取出图像的多个感兴趣区域,由感兴趣的不同程度分别赋予不同大小的权值;然后提取颜色特征和纹理特征,分别用对应位置相似度计算、感兴趣区域与检索数据库中图像整体的相似度计算和整体检索示例图像与检索图像数据库中图像相似度计算三种不同方法计算出两幅图像的相似度,取最大的相似度作为两幅图像的最终相似度;对检索示例图像与检索数据库中每个图像的相似度按大小进行排序,选择最相似的图像作为检索结果。实验结果表明,该方法提高了对图像检索的性能,体现了个性化检索,对图像检索具有很好的效果。 相似文献
12.
Similarity retrieval of iconic image database 总被引:3,自引:0,他引:3
The perception of spatial relationships among objects in a picture is one of the important selection criteria to discriminate and retrieve the images in an iconic image database system. The data structure called 2D string, proposed by Chang et al., is adopted to represent symbolic pictures. The 2D string preserves the objects' spatial knowledge embedded in images. Since spatial relationship is a fuzzy concept, the capability of similarity retrieval for the retrieval by subpicture is essential. In this paper, similarity measure based on 2D string longest common subsequence is defined. The algorithm for similarity retrieval is also proposed. Similarity retrieval provides the iconic image database with the distinguishing function different from a conventional database. 相似文献
13.
Christian Beecks Steffen Kirchhoff Thomas Seidl 《Multimedia Tools and Applications》2014,71(1):349-362
Retrieving similar images from large image databases is a challenging task for today’s content-based retrieval systems. Aiming at high retrieval performance, these systems frequently capture the user’s notion of similarity through expressive image models and adaptive similarity measures. On the query side, image models can significantly differ in quality compared to those stored on the database side. Thus, similarity measures have to be robust against these individual quality changes in order to maintain high retrieval performance. In this paper, we investigate the robustness of the family of signature-based similarity measures in the context of content-based image retrieval. To this end, we introduce the generic concept of average precision stability, which measures the stability of a similarity measure with respect to changes in quality between the query and database side. In addition to the mathematical definition of average precision stability, we include a performance evaluation of the major signature-based similarity measures focusing on their stability with respect to querying image databases by examples of varying quality. Our performance evaluation on recent benchmark image databases reveals that the highest retrieval performance does not necessarily coincide with the highest stability. 相似文献
14.
Casey M. Rhodes C. Slaney M. 《IEEE transactions on audio, speech, and language processing》2008,16(5):1015-1028
We propose an automatic method for measuring content-based music similarity, enhancing the current generation of music search engines and recommended systems. Many previous approaches to track similarity require brute-force, pair-wise processing between all audio features in a database and therefore are not practical for large collections. However, in an Internet-connected world, where users have access to millions of musical tracks, efficiency is crucial. Our approach uses features extracted from unlabeled audio data and near-neigbor retrieval using a distance threshold, determined by analysis, to solve a range of retrieval tasks. The tasks require temporal features-analogous to the technique of shingling used for text retrieval. To measure similarity, we count pairs of audio shingles, between a query and target track, that are below a distance threshold. The distribution of between-shingle distances is different for each database; therefore, we present an analysis of the distribution of minimum distances between shingles and a method for estimating a distance threshold for optimal retrieval performance. The method is compatible with locality-sensitive hashing (LSH)-allowing implementation with retrieval times several orders of magnitude faster than those using exhaustive distance computations. We evaluate the performance of our proposed method on three contrasting music similarity tasks: retrieval of mis-attributed recordings (fingerprint), retrieval of the same work performed by different artists (cover songs), and retrieval of edited and sampled versions of a query track by remix artists (remixes). Our method achieves near-perfect performance in the first two tasks and 75% precision at 70% recall in the third task. Each task was performed on a test database comprising 4.5 million audio shingles. 相似文献
15.
视频片段检索是基于内容的视频检索的主要方式,它需要解决两个问题:(1) 从视频库里自动分割出与查询片段相似的多个片段;(2) 按照相似度从高到低排列这些相似片段.首次尝试运用图论的匹配理论来解决这两个问题.针对问题(1),把检索过程分为两个阶段:镜头检索和片段检索.在镜头检索阶段,利用相机运动信息,一个变化较大的镜头被划分为几个内容一致的子镜头,两个镜头的相似性通过对应子镜头的相似性计算得到;在片段检索阶段,通过考察相似镜头的连续性初步得到一个个相似片段,再运用最大匹配的Hungarian算法来确定真正的相似片段.针对问题(2),考虑了片段相似性判断的视觉、粒度、顺序和干扰因子,提出用最优匹配的Kuhn-Munkres算法和动态规划算法相结合,来解决片段相似度的度量问题.实验对比结果表明,所提出的方法在片段检索中可以取得更高的检索精度和更快的检索速度. 相似文献
16.
17.
18.
针对医学图像检索中相似性表达的自身困难,以及噪声影响的问题,提出一种通过张量积图进行扩散,利用其他数据点的上下信息改进基于纹理元的成对相似性度量的方法。首先,采用纹理元的统计方法进行医学图像特征描述和提取,并通过对纹理元相似性加权,得到图像的成对相似性;然后,利用张量积图沿着数据点的内在流形进行相似性的传播,实现全局的相似性度量。在ImageCLEFmed 2009上的实验结果表明,该算法与基于Gabor的检索算法相比,其类平均精度提高了32%,与基于尺度不变特征转换(SIFT)的检索算法相比,其类平均精度提高了19%,能良好地应用于医学图像检索。 相似文献
19.
Spatial reasoning and similarity retrieval are two important functions of any image information system. Good spatial knowledge representation for images is necessary to adequately support these two functions. In this paper, we propose a new spatial knowledge representation, called the SK-set based on morphological skeleton theories. Spatial reasoning algorithms which achieve more accurate results by directly analysing skeletons are described. SK-set facilitates browsing and progressive visualization. We also define four new types of similarity measures and propose a similarity retrieval algorithm for performing image retrieval. Moreover, using SK-set as a spatial knowledge representation will reduce the storage space required by an image database significantly. 相似文献