期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

余文喆沙朝锋何晓丰张蓉《计算机研究与发展》2015,52(5)

在线用户评论向消费者提供了丰富的商品信息,帮助他们挑选从日常用品到娱乐活动相关的商品.然而,评论的数量之大让用户难以对商品有一个清晰的认识.现有解决电子商务网站中评论信息过载问题的方法包括评估评论质量以及总结评论观点等.但是,基于评论质量排序的方法可能信息冗余,而评论总结方法忽视上下文导致易读性较差.因此,需要实现有效的评论选择方法.设计了基于字典和规则以及基于主题模型LDA的观点获取算法来形式化地表示每条评论;提出一种基于贪心算法的评论选择方法,实现从商品评论集中选择一组高质量的评论,并最大化评论集的商品属性覆盖度和评论观点多样性.最后在真实数据集上对算法进行实验来验证该算法,实验结果表明了该算法的有效性. 相似文献

2.

一种基于学习的高维数据c-近似最近邻查询算法

袁培森沙朝锋王晓玲周傲英《软件学报》2012,23(8):2018-2031

针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上,计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题. 相似文献

3.

基于Stack Overflow的数据库相关主题分析

刘蕴涵沙朝锋牛军钰《计算机科学》2021,48(6):48-56

数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方法.文中获取了Stack Overflow上94473条与数据库相关的问题,应用LDA主题模型将这些问题归为25个主题,结果显示开发者的问题可归为"表""SQL""SELECT"等主题.通过研究与数据库相关的不同主题的流行度和困难程度发现,"SQL"主题相关的问题较为流行.除此以外,文中还分别研究了3种不同的数据库,即MySQL,Oracle和MongoDB,分析了与不同数据库系统相关的问题的主题分布.文中的研究成果有助于了解数据库开发者所面临的挑战,从而为数据库系统版本更新、数据库课程教学内容的设置,甚至是数据库领域的研究问题提供参考. 相似文献

4.

基于最优输运和k-近邻的离群文档检测

水泽农张星宇沙朝锋《计算机科学》2021,48(7):105-111

离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题.但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测.现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性.基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值.针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法.该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度.该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性.在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响. 相似文献

5.

基于KL距离的非平衡数据半监督学习算法 总被引：2，自引：0，他引：2

许震沙朝锋王晓玲周傲英《计算机研究与发展》2010,47(1)

在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性. 相似文献

6.

道路网络环境中的多对象最近邻查询

盛梅红沙朝锋宫学庆嵇晓周傲英《计算机研究与发展》2006,43(Z3)

多对象最近邻查询(all nearest neighbors query)在地理信息系统、城市规划和资源分配等领域有着广泛的实际应用,也可作为某些聚类算法或应用的核心模块.针对欧氏空间的查询处理算法不能直接适用于道路网络环境,通过重复调用道路网络环境下的最近邻查询算法来进行多对象最近邻查询处理的计算代价较大,利用M树对道路网络中的边建立索引结构,基于该索引,提出了一个新颖的多对象最近邻查询处理算法BANNS(batched all nearest neighbors search).实验显示BANNS能稳定、快速、准确地处理道路网络中的多对象最近邻查询. 相似文献

7.

基于深度学习的图异常检测技术综述

陈波冯李靖东卢兴见沙朝锋王晓玲张吉《计算机研究与发展》2021,58(7):1436-1455

图异常检测旨在大图或海量图数据库中寻找"陌生"或"不寻常"模式,具有广泛的应用场景.深度学习可以从数据中学习隐含的规律,在提取数据中潜在复杂模式方面表现出优越的性能.近年来随着基于深度神经网络的图表示学习取得显著进展,如何利用深度学习方法进行图异常检测引起了学术界和产业界的广泛关注.尽管最近一系列研究从图的角度对异常检测技术进行了调研,但是缺少对深度学习技术下的图异常检测技术的关注.首先给出了静态图和动态图上各类常见的异常定义,然后调研了基于深度神经网络的图表示学习方法,接着从静态图和动态图的角度出发,梳理了基于深度学习的图异常检测的研究现状,并总结了图异常检测的应用场景和相关数据集,最后讨论了图异常检测技术目前面临的挑战和未来的研究方向. 相似文献

8.

电子商务商品归一化方法研究简

王立　张蓉沙朝锋王晓玲周傲英《计算机学报》2014,(2):312-325

相似文献

9.

澳门IT现状

朱扬勇沙朝锋《计算机》1999,(17)

’99澳门IT年会于1999年3月17日至20日期间举行,来自各国和地区的四十多位专家、学者发表了论文,其中包括澳门IT界的17篇论文,这些论文介绍了他们在数据库、网络、IT教育、系统与应用以及IT与管理方面的研究进展和成果,基本反映了澳门IT的现状。本文对这些研究和应用成果进行了综述。相似文献

10.

基于CCA和数据引力场模型的社交媒体信息置信度评估方法

张萌 ;李杨 ;沙朝锋《微型电脑应用》2014,(9):41-44

近年来,微博平台作为社交媒体载体之一,已经成为新闻信息传播的重要工具.然而,微博平台自身特性决定了其无法提供避免谣言或是虚假信息传递的有效机制.针对这一问题,建立一套完整的算法框架来判断微博的置信度.首先,从不同视角对微博数据提取特征,并将这些多视角的特征通过典型相关分析法（Canonical Correlation Analysis,以下简称CCA）映射到共同子空间中.接下来,从物理学的重力场理论中获得启发,设计一种新的判别学习算法-数据引力场模型（Data Gravitational Field,以下简称DGF）并从大量信息中判别出错误信息或虚假信息.实验表明,这种信息置信度自动检测方法能够达到较高的准确率和召回率.同时,相比较于其它学习算法,数据引力场模型也有更好的表现. 相似文献