首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对偏态数据分布不平衡,传统近似聚合查询方法难以抽样生成偏态分布数据的问题,提出基于优化的变分自编码器的近似聚合查询方法,研究近似聚合查询方法对偏态分布数据的近似聚合查询准确率的影响.在预处理阶段对偏态分布数据进行分层分组,对变分自编码器生成模型的网络结构和损失函数进行优化,降低近似聚合查询相对误差.实验结果表明,与基准方法相比,近似聚合查询对偏态分布数据的查询相对误差更小,且随着偏态系数的提高,查询相对误差的上升趋势更平缓.  相似文献   

2.
提出了一种最大化参数变化的主动采样方法,可快速捕捉推荐系统中新用户的兴趣偏好.该方法在纯奇异值分解(PureSVD)模型的基础上,选取最大化模型参数变化的样本,然后向新用户查询样本物品的评分.得到的评分用来训练用户的纯奇异值分解模型参数,进而提供推荐列表.基于贪婪法提出了一种快速的近似采样算法,能在可接受的时间内得到采样列表.实验结果证明,在Movielens数据集上,该方法能在Top-N的标准下使用较小的样本,有效地提高了学习新用户偏好的效率.  相似文献   

3.
基于变精度粗糙集,引入近似区分矩阵的概念,提出一种基于颜色特征的图像分类模型及其分类算法.变精度粗糙集理论在数据分类应用中主要是将集合间精确的包含关系改为多数包含关系,既允许一定程度的错误分辨率存在.用该方法进行图像资源的分类,克服了经典粗糙集不宜处理带有噪声的数据和决策表不协调的分类问题的缺陷,同时又大大简化分类规则,且形成的规则集便于用户理解.完善近似空间的概念.实验结果表明:在处理决策表不协调的图像分类问题,变精度粗糙集方法性能良好,分类准确、高效.  相似文献   

4.
为在云计算环境下实现具有隐私保护的数据检索,设计支持词频和用户喜好的多关键词模糊搜索方案.该方案采用布隆过滤器,在文件索引的建立过程中嵌入词频信息,在查询向量的生成过程中嵌入用户喜好信息,并基于局部敏感哈希函数实现关键词的模糊检索.在数据搜索过程中,该方案允许授权用户输入多个关键词,并对每个关键词设定相应的权重,即使关键词存在误差,也可准确地返回相关数据.安全性分析表明,该方案在已知密文模型的条件下是安全的,可保护查询关键词和陷门信息不被云存储服务器获取.  相似文献   

5.
为了准确识别潜在换网电信用户,建立一种电信用户网别更换预测模型。根据用户历史数据生成网别更换标签,确定其多数类和少数类样本。利用具有噪声的密度聚类欠采样方法对多数类样本进行聚类,删除聚类后的噪声样本和各簇的边界样本,并选择各簇核心样本点进行随机欠采样;结合人工合成少数类过采样方法对少数类样本进行过采样。将构成混合采样后的平衡样本集合,输入到两层的Stacking集成学习算法中训练,得出分类结果。实验结果表明,该模型具有较好的数据集均衡性能,且预测准确率高,能够更好地识别潜在的网别更换用户。  相似文献   

6.
射线追踪数据的样本空间不完备性是造成大规模多输入多输出信道幅值预测出现高预测误差用户较多的主要原因。 为了更全面地表征所有用户的信道传播特征,提出了一种基于扩展概率分布的条件变分自编码器(CVAE)的三维射线重构方法。 该方法基于用户射线样本的稀疏度选择先验概率分布,通过增强 CVAE 为高误差用户生成新的射线样本训练集,使射线追踪数据的隐变量分布更符合高误差用户的特征。 仿真结果表明,基于所提出的方法在原有射线样本训练集中扩充新样本后,可将高预测误差用户数降低到原来的 53.59% ;使用新训练集训练的神经网络在得到大幅降低预测信道幅值时间开销的同时,将信道幅值预测精度提升了 7.8% 。  相似文献   

7.
由于数据流的高速产生性、强流动性及变化不稳定性的需求,数据流算法应在有限存储空间里实时准确分析数据,提取有用知识.在允许的误差范围内,提出一种有效的数据流频繁项挖掘算法AECFP,通过一种基于频繁项样本的数据结构记录抵达的项目集合,进行快速的保存样本,并在样本空间满时快速删除出现次数最小且最旧的非频繁项,保留相同支持数的其它频繁项.当用户查询频繁项时,快速实时准确挖掘数据流中的频繁项,适应数据波动变化.经过实验证明,该算法在挖掘频繁项时,具有快速的处理能力,满足空间消耗的低存储要求,并能保证数据频繁项的挖掘准确度.  相似文献   

8.
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点.  相似文献   

9.
针对连续查询场景中用户实时位置的隐私保护问题,设计了一种基于客户端的假轨迹生成方法.该方法使用网格划分地理空间,统计网格划分后每个网格内的历史查询数据.通过分析网格内的历史查询数据构建实时预测用户移动轨迹的重力模型.在重力模型基础上结合历史查询概率定义了轨迹熵度量轨迹隐私保护等级,并在最大运行速度限制下,提出了一种具有最大轨迹熵的基于k-匿名的假轨迹隐私保护算法.实验结果验证了所设计的假轨迹生成方法能够有效地保护真实轨迹的隐私.  相似文献   

10.
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.  相似文献   

11.
Top-k逆向查询在现实生活中有着广泛应用。目前,计算Top-k逆向集最有效的算法是逆向Top-k算法。该算法的效率在处理Top-k逆向查询时受到明显的限制。为了解决这些限制,提出一种直观的分支定界算法来高效地处理Top-k逆向查询,并讨论新颖的优化方法以提其高能。实验评估表明,该算法的效率远胜于逆向Top-k算法。  相似文献   

12.
确定对象在空间数据库研究中受到人们的重视,不确定对象的反向最近邻研究成为研究热点。文中给出不确定对象反向最近邻查询的形式化表示,将其称为可能反向最近邻查询,即为检索所有可能成为给定不确定对象的反向最近邻的可能性大于给定阈值的不确定性对象。提出基于各种剪枝规则的算法,解决多维不确定对象的可能反向最近邻查询问题。  相似文献   

13.
针对可扩展标记语言(XML)查询中具有嵌套OR谓词的复杂小枝模式查询处理,提出一种基于路径连接的查询方法.该方法以路径为分解粒度,结合分支扩展(AOBE)的概念,通过路径连接过程实现对复杂小枝模式查询的整体处理.为了进一步提高算法效率,在已有研究的基础上挖掘相应的优化规则,利用索引跳过那些明显不参与连接的元素的访问和计算.与已有算法相比,基于路径连接的查询方法大大简化了复杂小枝模式查询处理过程,只访问查询叶节点对应的元素,可以显著减少结构连接的操作数目和扫描元素的个数.实验结果表明,该方法能够有效地改善复杂小枝模式查询处理的性能.  相似文献   

14.
针对血细胞图像中白细胞样本较少和生成细胞图像细节不清晰,导致检测精度较低的问题,提出基于多尺度鉴别器的条件生成对抗网络. 该网络通过生成并添加大量逼真的白细胞图像到分类检测网络训练集的方式,实现对血细胞图像的生成和分类检测. 在现有条件生成对抗网络真假鉴别器中,引入多尺度卷积核、池化域并在通道上拼接,提升鉴别器对微观细节纹理特征和宏观几何特征的鉴别能力;引入梯度相似性损失函数,以提高生成细胞图像的亮度及边缘清晰度,提升图像的真实感. 实验证明,在图像生成阶段,增加多尺度鉴别器和梯度相似性损失函数提高了生成细胞图像的质量;在图像分类检测阶段,对比仅有真实数据训练的情况,增加细胞样本多样性使细胞分类检测的平均精度由90.4%提升至94.7%.  相似文献   

15.
针对k-匿名机制无法保证位置信息服务(LBS)中连续查询隐私性的问题,提出一种连续查询发送模型,该模型融合了查询发送时间的间隔模型和连续性模型.在该模型的基础上针对k-匿名算法,提出一种连续查询攻击算法,该算法将和连续查询相关的一系列快照互相关联,计算出快照的匿名集内每个用户发送查询的概率,从而估计出查询真正的发送者.仿真实验模拟在不同的连续性参数、匿名集的势的情况下,使用连续查询攻击算法重识别受k-匿名保护的查询.通过对被恶意攻击者重识别的查询数量统计,结果表明,对连续性很强的查询,攻击算法重识别用户身份的成功率极高(85%),比不使用攻击算法所获得的重识别率提高了1.5倍以上,严重破坏了查询的匿名性.  相似文献   

16.
时间序列的异常检测是网络服务保障、数据安全检测、系统监控分析等应用中所依赖的一项关键技术。为解决在实际场景的时间序列异常检测中由于时间序列上下文的模糊性、数据分布的复杂性以及异常检测模型的不确定性所带来的异常检测结果的有效性、合理性、稳定性等不足的问题,本文提出了一种新的基于上下文生成对抗网络的时间序列异常检测方法AdcGAN。首先,通过处理历史数据,提取用于生成时序数据的条件上下文;然后,采用条件生成对抗网络的设计策略,使用条件上下文,构建上下文生成对抗网络,实现对任意时刻数据的条件分布预测,同时AdcGAN采用Dropout近似模型不确定性,使用概率分布代替点估计作为预测结果;接着,从观测的差异(用期望偏差表示)和模型的不确定性(用预测方差表示)两个方面来衡量异常;最后,提出基于数据统计信息的异常阈值自动设置方法,减少手动调节的参数量。实验结果表明,与同类基准算法进行对比,在NAB数据集中的47个真实时序数据上,本文提出的AdcGAN可以有效地检测出时序数据中的异常,在大多数评价指标上都优于其他基准方法,并且具有更好的稳定性。  相似文献   

17.
已有的位置隐私保护下的连续最近邻查询往往采用snapshot方式进行,导致较高的中央处理器开销.为此,研究了基于位置隐私的连续最近邻查询,提出了基于重用技术的位置隐私保护的连续最近邻查询算法.该算法利用相邻时刻查询结果集的相似性来减少计算成本,从而实现答案集的快速更新,可大大加快系统响应时间.实验结果表明了该算法的有效性.  相似文献   

18.
针对Spark分布式平台在shuffle阶段中导致数据量分配不均衡的问题,首先分析了Spark平台中数据倾斜的原因,建立了一个可以统一量化shuffle后key-value数据倾斜程度的倾斜模型;基于倾斜模型提出了一个可以解决Spark平台中多种数据倾斜问题的shuffle分区方案.该分区方案首先对Map阶段的输出数据进行采样,预测出全局中间数据的大小,再根据基于哈希的最佳适应算法对采样数据进行预分区,得到一张预分区表,最后根据预分区表对全部的中间数据完成分区.在key和value这2种不同倾斜情况下的实验结果表明,该shuffle分区方案具有普适性和高效性,可以有效处理key和value倾斜的情况.  相似文献   

19.
研究金融领域基于自然语言查询的结构化查询语言(SQL)生成问题(Text-to-SQL), 构建一个金融领域Text-to-SQL数据集,称为SOFT数据集. 该数据集覆盖了金融领域的常见查询,具有鲜明的特点,并对Text-to-SQL提出了挑战. 提出金融领域Text-to-SQL模型FinSQL,该模型优化了对金融领域复杂查询的支持. 通过分析一类复杂计算查询(行计算查询)的特点,提出一种基于分治的方法,即先将一个行计算查询分解为若干个子查询,分别针对每个子查询生成SQL语句,再将子查询的SQL语句组合在一起得到原始查询的SQL语句. 在SOFT数据集上进行验证,结果显示,本研究所提的方法在复杂查询上效果优于已有方法. 特别地,所提出的模型FinSQL能够较好地支持行计算查询.  相似文献   

20.
信息提供类Web服务与RDF数据源的集成   总被引:1,自引:1,他引:0  
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号