排序方式: 共有42条查询结果,搜索用时 0 毫秒
1.
中文Web文档聚类算法研究 总被引:1,自引:0,他引:1
在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类.STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方法来降低STC的时间复杂度并提高STC聚类准确率.通过对STC-I与STC、AHC、K-Means算法从聚类的准确性和时间复杂度上进行比较,结果表明,STC-I算法在聚类的准确性和时间复杂度方面都较STC、AHC和K-Means算法好. 相似文献
2.
多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更为有效的特征表示;跨模态生成则是基于模态之间的语义一致性,实现不同模态数据形式上的相互转换,有助于提高不同模态间的迁移能力。本文系统地分析了国际与国内近年来跨模态表征与生成领域的重要研究进展,包括传统跨模态表征学习、多模态大模型表示学习、图像到文本的跨模态转换和跨模态图像生成。其中,传统跨模态表征学习探讨了跨模态统一表征和跨模态协同表征,多模态大模型表示学习探讨了基于Transformer的模型研究,图像到文本的跨模态转换探讨了图像视频的语义描述、视频字幕语义分析和视觉问答等领域的发展,跨模态图像生成从不同模态信息的跨模态联合表示方法、图像的跨模态生成技术和基于预训练的特定域图像生成阐述了跨模态生成方面的进展。本文详细综述了上述各个子领域研究的挑战性,对比了国内外研究方面的进展情况,梳理了发展脉络和学术研究的前沿动态。最后,根据上述分析展望了跨模态表征与生成的发展趋势和突破口。 相似文献
3.
基于信息论中最大熵原理,提出了一种2维直方图模糊划分Renyi熵分割算法。首先介绍了模糊划分的原理,由于Renyi熵是Shannon熵的广义形式,因此用模糊概率和条件概率来定义模糊划分Renyi熵。然后在向量空间内搜索最优参数组合,利用隶属函数实现图像分割。选用3幅不同类型的图像进行MATLAB仿真实验,结果表明该方法对噪声及杂散点等干扰的抑制性能较理想,且显著优于对比方法所得结果。 相似文献
4.
害虫侵扰一直是农业生产中回避不了的问题,每年都会造成巨大的经济损失。为了能够有效地预防和控制病虫害问题,需要实现对农田害虫的快速、准确识别,对此提出了一种基于深度学习的农田害虫识别方法,可按照害虫特征区分二化螟、白背飞虱、褐飞虱属、八点灰灯蛾、蟋蟀等多种害虫类别。一阶段对害虫数据集进行分析校正,加入图像整理、剪切等操作,合理划分数据集,添加一系列数据增强处理,进行农田害虫的训练检测。二阶段为增加数据集规模,使用EfficientNet网络对未标注图片进行识别分类,得到伪标签后继续半监督学习。最后,将分类的验证集和训练集合并,做进一步训练加强。实验结果表明,该模型对相关害虫识别效率高,识别效果好,可移植性强,可为农作物害虫的高效快速检测提供参考。 相似文献
5.
6.
随着云存储的高速发展,保证共享数据的安全变得尤为重要.因此,在共享数据的同时,需要对数据完整性进行有效验证并对用户隐私进行保护.针对现有支持动态群的公开审计方案没有考虑密钥管理与安全分发的问题,基于层次树和代理重签名提出了一个支持云存储中群组成员动态的隐私保护公开审计方案.提出的方案首次使用基于逻辑层次密钥体系的密钥树进行密钥的建立和分发,并引入密钥服务器对密钥进行存储,每个用户只需持有叶子节点,成员撤销及加入与原有有效用户获取新群私钥是相互独立的.发生用户撤销后,其余合法用户仍可以根据所持密钥获取新的群私钥,大大提高了用户动态的效率.性能分析结果表明:该方案是安全且高效的. 相似文献
7.
互联网上的图像和视频数据正在飞速地产生和传播.这些数据不仅规模庞大,还具有高并发、高维度、大流量的显著特性,导致了目前对它们的实时分析和处理面临着巨大的挑战.这就需要开展高通量图像视频计算方面的研究,需要结合新型硬件结构,利用其体系结构优势,提出一系列实用的高通量图像视频计算理论与方法,提升数据中心的图像视频数据处理效率.为此,在详细地分析了现有的高通量图像视频计算相关方法与技术的基础上,探讨了现有高通量图像视频计算方法研究的不足;进一步地,分析了高通量图像视频计算的3个未来研究方向:高通量图像视频计算理论、高通量图像视频分析方法及高通量视频编码方法.最后,总结了高通量图像视频计算需要解决的3个关键科学问题.这些问题的解决将为互联网图像视频内容监管、大规模视频监控、图像视频搜索等重要应用提供关键技术支持. 相似文献
8.
Internet骨干网流量中,混合了来自于固网接入和3G/4G移动蜂窝网络接入的不同客户端流量.在不依赖于应用层信息和查看数据报内容的前提下,使用传统的流量分析方法和特征选择,难以将两者正确区分.通过对移动蜂窝网络通信链路技术和无线资源控制(radio resource control, RRC)机制导致IP数据报时延波动的分析建模,结合TCP/IP协议数据报的往返时延(round-trip time, RTT)计算,构建了6个与数据报时延相关的网络流量特征,用于有效区分通过3G/4G和固网接入的网络流量来源.这些特征能够针对不同网络节点接入互联网技术差异所带来的网络数据包时序分布特点进行描述和匹配.在此基础上,采用多种有监督的机器学习方法,搭建了基于网络流量的分类模型并进行交叉验证.实验结果表明:利用这些时延特征建立的流量描述与分类模型,能够有效区分移动蜂窝网络接入数据流量和固网接入数据流量,分类正确率达到92%以上,并具有良好的覆盖性与容错性. 相似文献
9.
云存储提供数据托管服务,解决了本地端数据管理与分享受限问题.但现有的用于确保云存储数据完整性的审计方案面临一个重要的安全问题:签名密钥一旦泄露,依赖于该密钥产生签名的审计方案将无法提供完整性保护.此外,现有审计方案均默认在整个审计期间仅有一个审计者,然而审计者可能由于被攻陷、被贿赂或资源不足不能再提供审计代理服务.因此,提出一个支持密钥更新与审计者更换的审计方案AKUAR(auditing scheme supporting key update and auditor replacement).针对密钥暴露导致签名无效问题,AKUAR结合双线性对与代理重签名思想设计了高效安全的密钥与标签更新机制,并且由云端承担计算复杂的标签更新操作,仅在本地端引入了少量的开销.此外,当充当审计者的雾节点退出审计时,新的雾节点可以代替其继续进行完整性审计工作,在保证新签名密钥不被泄露给旧雾节点的同时实现了审计服务的可持续性.安全分析证明了AKUAR是安全的,性能评估也证实了AKUAR在标签生成与密钥更新阶段仅引入了少量可接受的计算开销与通信开销. 相似文献
10.
旅游产品推荐是当前推荐系统研究领域中的新兴议题之一.由于旅游产品描述信息维度多样复杂、“用户-产品”关联矩阵极为稀疏且冷启动问题突出,已经在电子商务领域获得成功的协同过滤推荐往往难以直接被应用于旅游产品推荐.提出基于主题序列模式的旅游产品推荐引擎SECT,试图通过在线旅游网站点击日志的挖掘产生推荐.首先,从页面语义描述文本中挖掘主题,以在泛化层面捕捉用户行为模式;其次,从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;最后,提出Markov n-gram模型,完成用户实时点击流与模式库匹配计算.为了提升在线匹配计算的效率,设计一种新的多叉树数据结构PSC-tree用于存储历史模式库,并与在线计算模块无缝衔接.在真实旅游数据集上的实验结果表明:该推荐引擎比传统推荐算法具有更优越的性能,而且能有效提升冷启动用户的推荐率和准确率.此外,针对长尾物品的推荐,SECT也优于基准算法. 相似文献