排序方式: 共有306条查询结果,搜索用时 15 毫秒
1.
随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性。 相似文献
3.
4.
《计算机科学与探索》2017,(10):1591-1598
开发人员通常通过问答网站的搜索引擎进行相关软件问答文档的搜索。在检索结果中,包含优质代码片段(使用示例)的问答文档往往更受青睐,但如何度量这些文档中代码片段的质量仍是个巨大的挑战。针对这个问题,提出了一种基于代码模式的软件问答文档检索优化方法。该方法能够基于当前检索结果,抽取文档中的代码片段,分析代码片段中的公共代码模式,并基于代码模式度量文档中代码片段的质量,从原有检索结果中向用户推荐高质量的软件问答文档。以软件开发人员在实践过程中遇到的真实问题为基础进行了实验,对比Stack Overflow的搜索结果,所提方法在准确率指标NDCG@5上提升了40%。 相似文献
5.
《计算机科学与探索》2016,(7):901-914
作为大数据处理的一种重要模式,图处理被广泛地应用在机器学习、数据统计和数据挖掘等场景中。在企业级应用中,多种类型的大数据处理框架通常会部署在同一个分布式集群中,其运行环境是开放、共享的,这时图处理需要考虑运算资源动态变化的问题。为了能适应这种动态性,更加充分地利用开放共享环境的资源,图处理框架应该具备弹性伸缩能力。通过调研,发现现有的图处理框架尚未完全实现弹性伸缩。为此,介绍了一种支持弹性伸缩的分布式并行图处理框架SPar Ta G。首先基于任务并行模型定义了图处理任务集及任务模型;其次基于任务迁移机制设计并实现了可动态伸缩的图处理框架;最后设计了一个基于负载均衡的调度算法,实现了动态伸缩的图处理过程。实验结果说明,SPar Ta G的性能与当前流行的开源图处理框架Giraph相近,且具有较好的弹性伸缩能力。 相似文献
6.
近年来,随着普适计算概念的深入人心,智能感知技术已成为研究者们关注的焦点,且基于WiFi的非接触式感知因其优秀的普适性、低廉的部署成本以及良好的用户体验越来越受到学术界和工业界的青睐.典型的WiFi非接触式感知工作有手势识别、呼吸检测、入侵检测、行为识别等,这些工作若实际部署,需首先避免其他无关区域中无关行为的干扰,因此需要判断目标是否进入到特定的感知区域中.这意味着系统应具备精准判断目标在界线哪一侧的能力,然而现有工作未能找到一个可以对某个自由设定的边界进行精确监控的方法,这阻碍了WiFi感知应用的实际落地.基于这一关键问题,从电磁波衍射的物理本质出发,结合菲涅尔衍射模型(Fresnel diffraction model),找到一种目标穿越link (收发设备天线的连线)时的信号特征(Rayleigh distribution in Fresnel diffraction model,RFD),并揭示该信号特征与人体活动之间的数学关系;之后以link作为边界,结合天线间距带来的波形时延以及AGC (automatic gain control)在link被遮挡时的特征,通过越线检测实现对边界的监控.在此基础上,还实现了两个实际应用,即入侵检测系统和居家状态监测系统,前者的精确率超过89%、召回率超过91%,后者的准确率超过89%.在验证所提边界监控算法的可用性和鲁棒性的同时,也展示了所提方法与其他WiFi感知技术相结合的巨大潜力,为WiFi感知技术的实际部署提供了思考方向. 相似文献
7.
多样化的受管资源和不断变化的管理需求,使得云管理面临很大的难度和复杂度.面对一个新的特定的管理需求,管理员往往是在已有管理软件的基础上进行二次开发,通过管理功能的获取和组织来构造新的管理系统.然而,由于缺乏通用的方法,二次开发的难度和复杂度依然很大.为了能够根据管理需求快速定制、集成、扩展已有的管理软件,提出一种基于运行时模型的多样化云资源管理方法.首先,在系统管理接口的基础上构造不同受管资源的运行时模型;其次,通过对不同的运行时模型进行合并,来构造包含所有目标受管资源的组合模型;最后,通过组合模型到用户特定模型的转换,来满足特定的管理需求.在OpenStack与Hyperic两款独立管理软件的基础上,实现了基于运行时模型的虚拟机软、硬件资源统一管理系统,验证了方法的可行性和有效性. 相似文献
8.
代码复用是重要的软件复用方式之一,复用者需要理解软件代码实现的功能方能有效实施软件复用。基于主题建模技术的程序理解方法逐渐受到研究人员的重视,它能够帮助软件开发者和使用者更好地理解软件的功能。目前,基于主题建模技术的程序理解方法一般欠缺对挖掘出的Topic的语义分析,为此提出的基于代码静态分析和LDA技术的代码功能挖掘(Code Function Mining,CFM)方法可作为对这类方法的补充。CFM是一套以代码为研究对象的挖掘、筛选、组织和描述主题(Topic)的方法,该方法能够生成带描述的功能型Topic的层次结构,以供使用者更清晰和方便地浏览、学习软件的功能。功能型Topic的描述能够帮助复用者理解代码功能,其层次结构能够让复用者从不同抽象层次理解代码功能。CFM方法包括4个部分:挖掘Topic、筛选Topic、组织Topic、描述Topic。以CFM方法为基础,设计并实现了一个CFM工具。CFM工具能够分析用户提交的代码,通过Web页面向用户展示带描述的功能型Topic的层次结构。最后,对CFM方法中的几个关键算法进行实验分析,验证了CFM方法的有效性。 相似文献
9.
适应度评价大体可以分成解码和计算适应度值两个部分, 是进化计算中运算量最大、重复率最高的过程之一。为了有效利用已有计算结果的角度避免大量重复建树和遍历运算, 改进了GEP解码算法基本流程以降低GEP的运算量, 达到了提升运算效率的目的。采用仿真的方式对引入复用机制的GEP和传统GEP算法进行了对比实验, 从解码次数、解码所用时间等两个方面进行对照, 发现引入复用机制的GEP算法在解码次数上比传统GEP有多个数量级的优势, 在解码所需时间上也有较大的改进。 相似文献
10.