排序方式: 共有16条查询结果,搜索用时 33 毫秒
1.
因子分解机(factorization machine,简称FM)模型因为能够有效解决高维数据特征组合的稀疏问题且具有较高的预测精度和计算效率,在广告点击率预测和推荐系统领域被广泛研究和应用.对FM及其相关模型的研究进展进行综述,有利于促进该模型的进一步改进和应用.通过比较FM模型与多项式回归模型和因子分解模型之间的关联关系,阐述FM模型的灵活性和普适性.从特征的高阶交互、特征的场交互、特征的分层交互以及基于特征工程的特征提取、合并、智能选择和提升等角度,总结模型在宽度扩展方面的方法、策略和关键技术.比较和分析了FM模型与其他模型的集成方式和特点,尤其是与深度学习模型的集成,为传统模型的深度扩展提供了思路.对FM模型的优化学习方法和基于不同并行与分布式计算框架的实现进行概括、比较和分析.最后,对FM模型中有待深入研究的难点、热点及发展趋势进行展望. 相似文献
2.
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——Inc-Join,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、 短字符串重复匹配次数减少为√n(n是批处理方式的匹配次数)。 实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。 相似文献
3.
4.
基于隐私保护的序列模式挖掘 总被引:1,自引:1,他引:0
基于隐私保护的数据挖掘是信息安全和知识发现相结合的产物.提出一种基于隐私保护的序列模式挖掘算法PP-SPM.算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗.实验表明,该算法在完全保护隐私的情况下,对于D6C10T2.5S4I4数据集,当修改3.5%的原始数据后,其序列模式丢失率为2%. 相似文献
5.
6.
7.
8.
提出了一种基于用户行为的Locality型集群服务器结构,可以根据用户行为进行自适应的对象分组优化和集群节点的分组重构。采用改进的Apriori关联挖掘算法和基于最短距离的对象迁移算法,使得集群服务器整体负载降低,子集群负载均衡,用户响应速度提高。 相似文献
9.
数据副本管理是集群Web服务器(CWS)的一个重要研究内容,它与CWS的体系结构和具体的应用密不可分。文章提出了一种架构于IJnux虚拟服务器(INS)基础之上、应用广泛、可扩展性强的集群Web服务器结构,给出了相应特定的数据复制算法,包括数据定位和数据同步。通过实验对此复制算法进行了测试与分析,并和其它复制方案进行了比较,证明了本算法具有更高的可用性和更好的性能。 相似文献
10.
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法--SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 相似文献