排序方式: 共有14条查询结果,搜索用时 0 毫秒
1.
在线用户评论向消费者提供了丰富的商品信息,帮助他们挑选从日常用品到娱乐活动相关的商品.然而,评论的数量之大让用户难以对商品有一个清晰的认识.现有解决电子商务网站中评论信息过载问题的方法包括评估评论质量以及总结评论观点等.但是,基于评论质量排序的方法可能信息冗余,而评论总结方法忽视上下文导致易读性较差.因此,需要实现有效的评论选择方法.设计了基于字典和规则以及基于主题模型LDA的观点获取算法来形式化地表示每条评论;提出一种基于贪心算法的评论选择方法,实现从商品评论集中选择一组高质量的评论,并最大化评论集的商品属性覆盖度和评论观点多样性.最后在真实数据集上对算法进行实验来验证该算法,实验结果表明了该算法的有效性. 相似文献
2.
针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上,计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题. 相似文献
3.
4.
5.
基于KL距离的非平衡数据半监督学习算法 总被引:2,自引:0,他引:2
在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性. 相似文献
6.
多对象最近邻查询(all nearest neighbors query)在地理信息系统、城市规划和资源分配等领域有着广泛的实际应用,也可作为某些聚类算法或应用的核心模块.针对欧氏空间的查询处理算法不能直接适用于道路网络环境,通过重复调用道路网络环境下的最近邻查询算法来进行多对象最近邻查询处理的计算代价较大,利用M树对道路网络中的边建立索引结构,基于该索引,提出了一个新颖的多对象最近邻查询处理算法BANNS(batched all nearest neighbors search).实验显示BANNS能稳定、快速、准确地处理道路网络中的多对象最近邻查询. 相似文献
7.
图异常检测旨在大图或海量图数据库中寻找“陌生”或“不寻常”模式,具有广泛的应用场景.深度学习可以从数据中学习隐含的规律,在提取数据中潜在复杂模式方面表现出优越的性能.近年来随着基于深度神经网络的图表示学习取得显著进展,如何利用深度学习方法进行图异常检测引起了学术界和产业界的广泛关注.尽管最近一系列研究从图的角度对异常检测技术进行了调研,但是缺少对深度学习技术下的图异常检测技术的关注.首先给出了静态图和动态图上各类常见的异常定义,然后调研了基于深度神经网络的图表示学习方法,接着从静态图和动态图的角度出发,梳理了基于深度学习的图异常检测的研究现状,并总结了图异常检测的应用场景和相关数据集,最后讨论了图异常检测技术目前面临的挑战和未来的研究方向. 相似文献
8.
9.
随着软件回归测试规模的不断增大和成本的不断增加,测试用例集约简对于提高软件的回归测试效率显得愈发重要.在选取测试用例子集时,需考虑该子集的代表性和多样性,并采用一个有效的算法来求解.针对该测试用例集约简问题,文中提出了一种基于次模函数最大化的算法SubTSR.尽管引入的离散优化问题是NP-hard问题,但文中利用其目标函数的次模性,采用启发式贪心搜索,求得有近似度保证的次优解.在15个数据集上对SubTSR算法与其他测试用例集约简算法展开实验,针对平均错误检出率、错误检测损失率、首次错误检出位等指标,尝试改变LDA处理中的主题个数以及衡量测试用例相似度的距离,以验证SubTSR算法的有效性.实验结果表明,SubTSR算法在错误检出性能上较其他算法有着较大提升,且在多个数据集上的表现保持相对稳定.在主题个数变化引起文本表示变化时,采用曼哈顿距离的SubTSR算法的性能相较其他算法仍能保持相对稳定. 相似文献
10.
兴趣度--关联规则的又一个阈值 总被引:51,自引:3,他引:51
关联规则的采掘是数据采掘研究的一个重要方面,分析现有的关联规则采掘算法中所存在的问题:首先是关联规则在其表达形式上没有考虑各种可能的反面示例的影响,因而导致知识表达功能的不够完善;其次是有可能一条规则即使可信度和支持度都很高,仍没有实际意义,甚至是误导性的,因此对关联规则的形式定义作了修改,将运用差异思想引兴起度阈值运用到关联规则中来,并给出其形式定义,在分析了兴趣度的实际意义以后,讨论了举度与概 相似文献