首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
王洪亚  杨利宏  刘晓强 《软件学报》2016,27(12):3051-3066
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-join.为了解决Topk-join中存在的性能问题,提出了一种Top-k相似连接算法Opt-join,该算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论证明了该置换的正确性.实验结果表明:与Topk-join算法相比,Opt-join取得了1.28倍~3.09倍的性能提升.实验数据还显示:随着数据长度的增加或k值的增长,Opt-join的性能优势有不断增加的趋势.  相似文献   

2.
杨皓  段磊  胡斌  邓松  王文韬  秦攀 《软件学报》2015,26(11):2994-3009
对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支持度阈值,从而可能错失一些对比显著的模式.为此,提出了带间隔约束的top-k对比序列模式挖掘算法kDSP-Miner(top-k distinguishing sequential patterns with gap constraint miner).kDSP-Miner中用户只需设置期望发现的对比最显著的模式个数,从而避免了直接设置对比支持度阈值.相应地,挖掘算法更容易使用,并且结果更易于解释.同时,为了提高算法执行效率,设计了若干剪枝策略和启发策略.进一步设计了kDSP-Miner的多线程版本,以提高其对高维序列元素情况的处理能力.通过在真实世界数据集上的详实实验,验证了算法的有效性和执行效率.  相似文献   

3.
雷斌  许嘉  谷峪  于戈 《软件学报》2013,24(S2):188-199
以无线传感器网络为代表的新型数据应用和以图像处理为基础的传统数据应用都产生了大规模的概率数据.在概率数据的管理中,Top-k相似性连接操作返回最相似的k 对概率数据,具有重要应用价值.直方图是最常用的概率数据模型之一,而EMD(Earth Mover’s Distance)距离因其较强的鲁棒性可更准确地量化直方图概率数据之间的相似性.然而EMD距离的计算却具有三次方的时间复杂度,给基于EMD距离的Top-k 相似性连接带来巨大挑战.基于流行的MapReduce并行处理框架,利用EMD距离对偶线性规划问题的优良特性,提出了两种大规模概率数据上基于EMD距离的Top-k相似性连接算法.首先提出基于块嵌套循环连接思想的基本解决方法,命名为Top-k BNLJ算法.进而改进数据划分策略,提出基于数据局部性进行数据划分的Top-k DLPJ 算法,有效降低了MapReduce作业执行过程中的数据传输量.使用大规模真实数据集对两种算法进行评估,证实了本文提出的Top-k DLPJ算法的高效性和处理大规模数据集时的良好扩展性.  相似文献   

4.
周新  张孝  安润功  薛忠斌  王珊 《软件学报》2014,25(S2):157-168
基于位置的服务可以指引用户找到在特定位置或区域内能够提供所需要服务的对象(比如找某个高校附近(经纬度标识)的咖啡店).向这类服务提交一个查询位置和多个关键词,该类服务返回k个最相关的对象,对象和查询的相关性同时考虑空间相近性和文本相似性.为了支持高效的top-k空间关键词查询,出现了多种混合索引,然而现有的这些索引为了提供实时响应均耗费大量存储空间.提出一种基于压缩技术的索引CSTI,该索引显著减少了存储开销(至少减少80%甚至到两个数据量级),同时保持高效的查询性能.大量基于真实和仿真数据集的实验结果表明,CSTI在空间开销和响应时间上均优于已有方法.  相似文献   

5.
周宇  赵威  刘国华  貟慧  翟红敏  万小妹 《软件学报》2014,25(S2):136-146
查询结果重复率高是top-k查询处理过程中亟待解决的问题,已有的解决方法需要遍历初始结果集中所有的对象,因此,查询处理的效率较低.为了提高查询处理的效率,把初始结果集映射到欧氏空间中,根据拉式策略,可选用基于得分或基于距离两种方法之一从该空间选出差异最优子空间,在基于距离的方法中,对欧氏子空间进行分割并且利用探测位置和Voronoi图的几何特性减少二次查询对象的数目.在此基础上,提出了top-k查询结果有界多样化算法,并证明了算法的正确性.实验结果表明,所提出的算法提高了top-k查询处理效率.  相似文献   

6.
众包任务分配机制对众包任务完成质量起着至关重要的作用,然而现有的分配方法未在稳定性条件下考虑众包用户双边偏好,分配结果的准确性有待提高,并且存在众包用户因不满意当前分配对象而导致众包任务完成质量较低的问题。为此提出一种基于偏好匹配的众包任务分配方法,该方法首先考虑众包任务与工人的双边偏好,根据偏好序计算任务与工人的满意度,生成满意度矩阵;其次,该方法借鉴稳定匹配思想在考虑分配主体偏好的基础上,使分配主体对当前分配对象尽可能满意,以保障分配结果的稳定性;然后,将众包任务分配问题建模为稳定匹配规则下寻找任务最大满意度的优化问题;最后,使用贪心算法对该问题进行求解,得到众包任务分配方案。通过实验验证了该方法的有效性,实验结果表明,该方法提高了分配方案的准确性,并有效减少了无效分配的数量,从而提高了众包任务完成质量。  相似文献   

7.
客观上,用户的评价准则是由主观意识决定的,用户之间的评价准则不同导致多个用户对同一服务的评分不具备可比较性,不考虑不同用户评分的不可比较性所获得的服务推荐将难以满足用户个性偏好及其真实需求。为此,提出一种面向不一致用户评价准则的在线服务推荐方法,考虑用户偏好不一致时用户对在线服务的偏好关系,以偏好关系计算用户之间的相似度,并以此获得在线服务推荐结果。首先以用户-服务评分矩阵为基础建立用户对服务的偏好关系,其次根据偏好关系计算用户之间的相似度,然后以用户相似度为基础对用户未评分的服务进行评分预测,最后以预测评分的排序结果作为推荐结果。与经典的协同过滤推荐方法的比较实验,验证了本方法的有效性。实验表明,本方法获得的推荐结果能满足大多数用户的服务偏好,同时获得了比经典的协同过滤推荐方法更好的准确率。  相似文献   

8.
高晓莉  惠小静  朱乃调 《软件学报》2017,28(7):1629-1639
本文首先对n值Goguen命题逻辑进行公理化扩张,Goguen~,△,记为Π~,△.利用公式的诱导函数给出公式在kk任取~或△)连接词下相对于局部有限理论Γ的Γ-k真度的定义;讨论了Π~,△中Γ-k真度的MP规则、HS规则等相关性质;最后,在Π~,△中定义了两公式间的Γ-k相似度与Γ-k伪距离,得到了公式在连接词下相对于局部有限理论Γ的Γ-k相似度与Γ-k伪距离所具有的一些良好性质.  相似文献   

9.
在线服务群体选择能够在多人社交活动中提供适合群体的活动方案.在线服务群体选择中,如不考虑用户的服务属性偏好,则难以对未体验服务的偏好进行推理,导致对未体验服务的预测偏好与用户真实偏好存在差异,使得聚合个体用户偏好得到的群体选择结果难以真实反映群体对服务的偏好.为此,提出一种利用属性条件偏好推理的在线服务群体选择方法.首先根据用户对服务属性的偏好建立条件偏好表和属性之间的依赖关系;然后根据条件偏好网络(Condition Preference networks, CP-nets)的性质推理偏好导出图,偏好导出图的拓扑排序对应用户对服务属性值组合的偏好关系,得到个体用户的服务选择结果;最后使用社会选择函数Ranked Pairs对个体用户的服务选择结果进行聚合,得到群体的服务选择结果.通过实验验证了该方法的合理性和有效性.实验结果表明方法得到的群体结果与个体用户选择结果的平均nDCG(Normalized Discounted Cumulative Gain)比对比方法分别高11.4%、2.2%和11.1%,方法还满足多数准则、孔多赛性、抗操纵性等性质.  相似文献   

10.
慈祥  马友忠  孟小峰 《软件学报》2014,25(4):813-825
Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点,从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行深入研究.实验结果表明,该方法具有良好的性能和扩展性.  相似文献   

11.
基于用户满意度的学习服务发现算法   总被引:2,自引:0,他引:2  
针对用户对e-Learning服务发现系统提供的服务不满意或者满意程度不稳定的问题,引入了用户满意度因子,设计了一个学习服务发现算法--eLSDAUS.该算法允许用户参与服务发现的过程,对服务发现的效果进行评价,学习服务发现系统把用户的评价反馈到学习服务发现算法,利用修正函数修正更新发布服务各属性的匹配度权值,优化反馈给用户的综合匹配度的计算,实验表明,在发布的学习服务数量超过1万时,该算法能够提高服务发现的查准率3%,而且随着发布服务数量的增多,效果会更好,经过127天的学习,用户对服务发现结果的总体满意比率可超过93%.  相似文献   

12.
ABSTRACT

To assess satisfaction of the Internet Public Library's Ask-A-Question service, we conducted a three month user survey between February 12 and May 11, 2004. Most respondents were highly satisfied with the answers they received. Although only a few respondents expressed dissatisfaction with the service, we conducted failure analysis on those transactions. The conclusion includes suggestions for improving the IPL digital reference service.  相似文献   

13.
在用户与服务提供者交互时,提供的偏爱信息通常是不完备的。为在不完备偏爱信息的前提下实现有效的云服务组合,提出一种不完备偏爱信息权重确定算法,利用不完备粗糙集方法确定用户主客观权重,进而得到符合用户偏爱的服务组合。在云计算平台中的实验结果验证了该算法的有效性。  相似文献   

14.
RP(k)网络上Hypercube通信模式的波长指派算法   总被引:11,自引:1,他引:11       下载免费PDF全文
波长指派是光网络设计的基本问题,设计波长指派算法是洞察光网络通信能力的基本方法.基于光RP(k)网络,讨论了其波长指派问题. 含有N=2n个节点的Hypercube通信模式,构造了节点间的一种排列次序Xn,并设计了RP(k)网络上的波长指派算法.在构造该算法的过程中,得到了在环网络上实现n维Hypercube通信模式的波长指派算法.这两个算法具有较高的嵌入效率.在RP(k)网络上,实现Hypercube通信模式需要max{2,「5(2n-5/3」}个波长.而在环网络上,实现该通信模式需要复用(N/3+N/12(个波长,比已有算法需要复用「N/3+N/4」个波长有较大的改进.这两个算法对于光网络的设计具有较大的指导价值.  相似文献   

15.
城市公共交通服务质量评价知识规则是城市公共交通企业进行服务质量评价的重要依据,优质、合理的评价知识规则将使服务质量评价更加公正、更加客观。本文在分析城市公共交通服务质量评价指标体系的基础上,将一种改进的遗传算法用于城市公共交通服务质量评价价的知识规则挖掘,提出一种基于遗传算法的城市公共交通服务质量评价知识规则挖掘方法,阐述算法的实现途径。实例表明,该方法在进行知识规则挖掘时是完全可行的、有效的。  相似文献   

16.
The quickest path problem involving two attributes, the capacity and the lead time, is to find a single path with minimum transmission time. The capacity of each arc is assumed to be deterministic in this problem. However, in many practical networks such as computer networks, telecommunication networks, and logistics networks, each arc is multistate due to failure, maintenance, etc. Such a network is named a multistate flow network. Hence, both the transmission time to deliver data through a minimal path and the minimum transmission time through a multistate flow network are not fixed. In order to reduce the transmission time, the data can be transmitted through k minimal paths simultaneously. The purpose of this paper is to evaluate the probability that d units of data can be transmitted through k minimal paths within time threshold T. Such a probability is called the transmission reliability. A simple algorithm is proposed to generate all lower boundary points for (d, T), the minimal system states satisfying the demand within time threshold. The transmission reliability can be subsequently computed in terms of such points. Another algorithm is further proposed to find the optimal combination of k minimal paths with highest transmission reliability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号