排序方式: 共有36条查询结果,搜索用时 15 毫秒
1.
2.
时空道路网络里连续最近邻查询在时空数据库查询的领域是一个新的重要课题,本文提出一个有效的方法(IE)以处理道路网络里的移动对象的k个最近邻居(k-NN)查询问题。 相似文献
3.
信息过载造成的数据稀疏性问题制约着基于评分数据的矩阵分解模型的推荐性能,融合评论文本的推荐模型能够有效缓解评分数据稀疏性.当前的推荐系统利用评论文本为用户和项目建模时,大多仅将用户对项目的评论作为数据来源,而忽视了时间信息对用户和项目属性的影响.针对此问题,提出了一种融合短文本层级注意力和时间信息的推荐方法(RHATR),该方法能够充分地挖掘评论文本潜在的语义信息,并为用户偏好和项目特征的动态变化进行建模.通过对单条评论文本应用单词级注意力,挖掘单条评论文本中情感词和关键词等有效信息,学习用户和项目表示;对含有时间因素的用户评论集和项目评论集分别应用评论级注意力,提取有效的评论,进一步学习用户偏好和项目特征动态表示.将从评论文本中学到的用户和项目表示以及基于ID的项目和用户嵌入作为最终特征,来捕获各用户和项目的潜在因素.实验结果表明,提出的方法相对于当前基线方法在Amazon和Yelp数据集上的均方根误差(RMSE)取得了较好的效果. 相似文献
4.
处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR—Stream。采用网格单元作为数据点的聚集形式,以基于R.tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集KDD.CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。 相似文献
5.
为了提高数据流的聚类质量和效率,采用等时间跨度滑动窗口技术,然后利用改进的微簇结构保存数据流的概要信息,最后利用微簇删除策略,定期删除过期、孤立微簇。基于真实数据集与人工数据集的实验表明:与传统基于界标模型的聚类算法相比,该算法可获得较好的效率、较小的内存开销和快速的数据处理能力。 相似文献
6.
基于WEB文本数据挖掘的研究 总被引:8,自引:0,他引:8
万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程。 相似文献
7.
二十世纪,全球进入信息化,信息安全越来越受到人们的重视,该文介绍了目前最优秀的两种算法:AES(高级加密标准)和ECC(椭圆曲线加密算法),从而结合两种算法从而得到更安全实用的加密技术,并分析其安全性。从而得出该加密技术必然有广阔的前景。 相似文献
8.
针对现有的基于垂直格式挖掘频繁项集采用正交的方式两两进行比较耗费大量时间和产生的Tid集可能很大浪费存储空间的问题,提出了一种基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法。该算法利用差集解决了对稠密数据集进行频繁项集挖掘时的Tid集可能很大的问题,并且利用一种前提方法判断是否有必要连接产生候选频繁k+1项集,减少时间的开销,而且在存储上用三角矩阵的数据结构可以进一步节省存储空间。实验结果表明,本算法大大减少挖掘频繁项集时间和空间内存的开销。 相似文献
9.
一种更有效的K-means聚类算法 总被引:1,自引:0,他引:1
一个好的聚类算法不仅要考虑“同类内尽可能的相似,不同类间尽可能的相异”,而且也要考虑算法的时间复杂度。针对K-means算法依赖于初始聚类中心而影响聚类结果,提出了一种基于样本分布选取初始聚类中心的方法;针对K-means算法中每次调整聚类中心后指定聚类所需要的大量的距离计算,提出了三角不等式原理避免冗余计算的方法。将两种方法结合进行实验,结果表明新的方法更加有效,不仅较原算法有良好的聚类划分,而且加快了原算法的运行速度。 相似文献
10.
为改进EMicro算法存在的不足提出了GDF-CUStreams算法。该算法采用网格特征向量存储数据的分布特征,通过更新网格特征向量合并成簇对不确定数据流聚类,对新数据点的到来采用增量聚类。通过网格密度和网格质心之间的距离判定网格是否是零星网格,利用网格引力对簇边界进行优化,检测和删除零星网格,使簇边缘更加平滑,提高聚类精度。其中网格密度和网格质心都采用增量更新。实验结果表明,与EMicro算法相比,GDF-CUStreams效率更高且效果良好。 相似文献