排序方式: 共有36条查询结果,搜索用时 15 毫秒
1.
2.
时空道路网络里连续最近邻查询在时空数据库查询的领域是一个新的重要课题,本文提出一个有效的方法(IE)以处理道路网络里的移动对象的k个最近邻居(k-NN)查询问题。 相似文献
3.
基于WEB文本数据挖掘的研究 总被引:8,自引:0,他引:8
万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程。 相似文献
4.
信息过载造成的数据稀疏性问题制约着基于评分数据的矩阵分解模型的推荐性能,融合评论文本的推荐模型能够有效缓解评分数据稀疏性.当前的推荐系统利用评论文本为用户和项目建模时,大多仅将用户对项目的评论作为数据来源,而忽视了时间信息对用户和项目属性的影响.针对此问题,提出了一种融合短文本层级注意力和时间信息的推荐方法(RHATR),该方法能够充分地挖掘评论文本潜在的语义信息,并为用户偏好和项目特征的动态变化进行建模.通过对单条评论文本应用单词级注意力,挖掘单条评论文本中情感词和关键词等有效信息,学习用户和项目表示;对含有时间因素的用户评论集和项目评论集分别应用评论级注意力,提取有效的评论,进一步学习用户偏好和项目特征动态表示.将从评论文本中学到的用户和项目表示以及基于ID的项目和用户嵌入作为最终特征,来捕获各用户和项目的潜在因素.实验结果表明,提出的方法相对于当前基线方法在Amazon和Yelp数据集上的均方根误差(RMSE)取得了较好的效果. 相似文献
5.
处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR—Stream。采用网格单元作为数据点的聚集形式,以基于R.tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集KDD.CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。 相似文献
6.
为了提高数据流的聚类质量和效率,采用等时间跨度滑动窗口技术,然后利用改进的微簇结构保存数据流的概要信息,最后利用微簇删除策略,定期删除过期、孤立微簇。基于真实数据集与人工数据集的实验表明:与传统基于界标模型的聚类算法相比,该算法可获得较好的效率、较小的内存开销和快速的数据处理能力。 相似文献
7.
一种更有效的K-means聚类算法 总被引:1,自引:0,他引:1
一个好的聚类算法不仅要考虑“同类内尽可能的相似,不同类间尽可能的相异”,而且也要考虑算法的时间复杂度。针对K-means算法依赖于初始聚类中心而影响聚类结果,提出了一种基于样本分布选取初始聚类中心的方法;针对K-means算法中每次调整聚类中心后指定聚类所需要的大量的距离计算,提出了三角不等式原理避免冗余计算的方法。将两种方法结合进行实验,结果表明新的方法更加有效,不仅较原算法有良好的聚类划分,而且加快了原算法的运行速度。 相似文献
8.
针对已有的基于网格的离群点挖掘算法挖掘效率低和对于大数据集适应性差的问题,提出基于数据分区和网格的离群点挖掘算法。算法首先将数据进行分区,以单元为单位筛选非离群点,并把中间结果暂存起来;然后采用改进的维单元树结构维护数据点的空间信息,以微单元为单位进行非离群点筛选,并通过两个优化策略进行高效操作;最后以数据点为单位挖掘离群点,从而得到离群数据集合。理论分析和实验结果表明了该方法是有效可行的,对大数据集和高维数据具有更好的伸缩性。 相似文献
9.
二十世纪,全球进入信息化,信息安全越来越受到人们的重视,该文介绍了目前最优秀的两种算法:AES(高级加密标准)和ECC(椭圆曲线加密算法),从而结合两种算法从而得到更安全实用的加密技术,并分析其安全性。从而得出该加密技术必然有广阔的前景。 相似文献
10.
基于句子相似度的文档复制检测算法在抓住了文档的全局特征的同时又兼顾文档的结构信息,在该算法的基础上对相似度算法进行了改进,解决了人工设定阈值的问题,并提高了检测精度。实验证明,该算法是可行的,并减少了响应时间。 相似文献