首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Word Mover's Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离.WMD利用词汇表,将文本表示为归一化的词袋向量.文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本向量很稀疏.多个文本可以组成一个高维的稀疏矩阵,这样的稀疏矩阵会生成大量不必要的运算.通过一次性对多个目标文本计算单个源文本的WMD,可以使计算过程高度并行化.针对文本向量的稀疏性,文中提出了一种基于GPU的并行Sinkhorn-WMD算法,采取压缩格式存储目标文本的方式来提高内存利用率,根据稀疏结构减少中间过程的计算.利用预训练词嵌入向量计算单词距离矩阵,对WMD算法进行改进,在两个公开的新闻数据集上进行优化算法的验证.实验结果表明,在NVIDIA TITAN RTX上并行算法与CPU串行相比最高可以达到67.43倍的加速.  相似文献   

2.
数据分块数的选择是并行/分布式机器学习模型选择的基本问题之一,直接影响着机器学习算法的泛化性和运行效率。现有并行/分布式机器学习方法往往根据经验或处理器个数来选择数据分块数,没有明确的数据分块数选择准则。提出一个并行效率敏感的并行/分布式机器学习数据分块数选择准则,该准则可在保证并行/分布式机器学习模型测试精度的情况下,提高计算效率。首先推导并行/分布式机器学习模型的泛化误差与分块数目的关系。然后以此为基础,提出折衷泛化性与并行效率的数据分块数选择准则。最后,在ADMM框架下随机傅里叶特征空间中,给出采用该数据分块数选择准则的大规模支持向量机实现方案,并在高性能计算集群和大规模标准数据集上对所提出的数据分块数选择准则的有效性进行实验验证。  相似文献   

3.
针对最小二乘支持向量机处理大规模数据集耗时长且受内存限制的特点,将局部多模型方法与MapReduce编程模式相结合,提出一种并行最小二乘支持向量机回归模型.模型由两组MapReduce过程组成,首先按照输入样本集对样本数据进行聚类操作,再对聚类后得到的子类按输出样本集进行二次聚类操作,分别得到局部模型数目和各局部模型综合加权输出计算结果.实验结果表明,并行最小二乘支持向量机回归模型具有较好的加速比和可扩展性.  相似文献   

4.
基于着色时间Petri网的工作流模型及其性能分析   总被引:2,自引:0,他引:2  
为了将着色时间Petri网的并行式工作流模型应用于产品数据管理系统,在工作流建模阶段对工作流的静态和动态结构性能加以分析.采用活动扫描法作为工作流系统行为的仿真策略,研究了工作流模型到着色时间工作流网模型的转换过程.给出了用可达图检验工作流程中是否存在死锁和陷阱的判定定理.以一种循环组件的或分支跳出并行流程的审批工作流为例,对论述的定理和方法进行了分析和验证.  相似文献   

5.
针对数据的复杂多样性以及Apriori算法的低效问题,提出依托Spark计算框架的二阶分段式算法优化模型.基于K-Means方法设计并行聚类分析算法,采用该算法对多维多属性值数据类型进行聚类分析,提高数据差异性,降低数据规模.通过"字典表"化存储模式压缩数据量,采用"与"操作降低I/O和去候选频繁项集优化Apriori算法,利用优化后的Apriori算法挖掘聚类后数据的关联规则.通过算法分析及实验验证,当数据量达到"拐点"时优化后的算法模型相对于原Apriori算法执行效率提高47%以上,且不受数据复杂度和噪声影响,提高了规则的形成效率和鲁棒性.  相似文献   

6.
本文设计了一种新的三维自适应迎风稳定化有限元方法(SUPG-IP),并对比研究了几种半导体器件模拟的并行有限元方法.数值模拟结果表明:稳定化有限元方法适用于大偏压以及高掺杂器件模拟;而经典的Zlamal有限元方法更适用于计算半导体器件的电学响应曲线.我们基于三维并行自适应有限元平台PHG开发了半导体器件漂移扩散模型求解器DevSim,并对几种典型的半导体器件进行了模拟测试.计算结果与商业软件Sentaurus吻合较好,验证了算法的有效性.我们对PN结进行了超大规模网格并行模拟测试,网格达8亿单元并使用2048进程计算,展示了算法良好的并行可扩展性.  相似文献   

7.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

8.
通过对深度学习和矩阵分解技术进行结合,设计一个深度神经网络对用户和物品进行特征提取,形成用户隐向量和物品隐向量的方法,计算这两个隐向量的内积得到用户对物品的评分预测.为提高推荐精度,提出使用显式数据和隐式数据并设计新的损失函数能够同时计算这两类数据损失的方法.在两个公开数据集上的实验结果表明,该方法比基线模型在HR和N...  相似文献   

9.
张柳  李宗霖 《数字社区&智能家居》2014,(32):7632-7636,7640
随着向量式有限元理论越来越流行,该理论的使用范围也随之增长,在土木领域,已经有很成熟的使用向量式有限元理论进行计算的模型。但是,由于目前对这些模型的处理仅仅停留在数据阶段,并不能很直观准确的反应模型特点,在模拟模型倒塌,断裂的过程中,并不能很直观的了解模型动态,在模型数据出现问题的时候,并不能直观,准确的定位出错构件,这给分析人员带来了很大的麻烦。该文主要介绍了如何利用已有的模型数据,找到模型构件之间的关系,利用Open GL技术,在屏幕再现土木模型,并动态展示模型变化过程,实现鼠标的屏幕拾取功能,可以通过鼠标的简单点选,显示模型构件的所有信息。  相似文献   

10.
任何算法的有效并行要求深入了解计算过程的细节,掌握参与计算的各个数据部分之间的相互依赖关系,针对计算的类型和应用的约束条件提出合理的任务划分和算法分解方案.因此,本文首先介绍了粒子跟踪算法的计算过程,并分析了该算法并行设计的可能性.从计算过程的数据相关性出发,我们给出了具体的并行绘制模型,设计出可行的并行划分策略.最后,对该并行策略进行了测试,验证了该设计的正确性和可行性.  相似文献   

11.
欧朝荣  胡军 《控制与决策》2024,39(3):1048-1056
融合显式和隐式反馈已被应用于提升推荐模型的性能,但是,现有的此类推荐模型未能保留显式反馈中反映用户偏好程度的信息,且现有研究认为拥有显式反馈的数据和仅拥有隐式反馈的数据对于模型具有同等影响,未能充分发挥显式反馈的优势.针对这些问题,提出一种新的融合显式和隐式反馈的协同过滤推荐模型(CEICF).首先,所提出模型提取显式反馈中的特征得到用户/物品的全局偏好向量;然后,从隐式反馈中提取用户/物品的潜在向量,进而将两种向量进行融合得到用户/物品的偏好向量;最后,使用神经网络预测用户与物品交互的可能性.在训练模型时,定义一种加权的二进制交叉熵损失函数,加强显式反馈对模型的影响来增强模型捕获用户偏好的能力.为了验证所提出模型的有效性,在覆盖不同领域的现实数据集上进行实验,实验结果表明,CEICF可有效地融合显式和隐式反馈,且推荐效果相对于基线模型有显著提升.  相似文献   

12.
Web上存在大量极具价值的医疗咨询数据.本文提出了一种基于分段向量模型的Web医疗咨询数据检索方法.根据Web医疗咨询数据的结构特点构造分段向量模型,然后将咨询数据按此模型表示.对两分段向量,用不同方式计算各分段的相似度,最终通过计算分段相似度加权和的方法产生更加准确的检索结果.在真实Web医疗咨询数据集上的实验结果验证了本文所提方法在提升检索结果准确率方面的有效性.  相似文献   

13.
针对大数据环境下并行支持向量机(SVM)算法存在冗余数据敏感、参数选取困难、并行化效率低等问题,提出了一种基于Relief和BFO算法的并行SVM算法RBFO-PSVM。首先,基于互信息和Relief算法设计了一种特征权值计算策略MI-Relief,剔除数据集中的冗余特征,有效地降低了冗余数据对并行SVM分类的干扰;接着,提出了基于MapReduce的MR-HBFO算法,并行选取SVM的最优参数,提高SVM的参数寻优能力;最后,提出核聚类策略KCS,减小参与并行化训练的数据集规模,并提出改进CSVM反馈机制的交叉融合级联式并行支持向量机CFCPSVM,结合MapReduce编程框架并行训练SVM,提高了并行SVM的并行化效率。实验表明,RBFO-PSVM算法对大型数据集的分类效果更佳,更适用于大数据环境。  相似文献   

14.
针对传统的校园网络行为日志分析仅考虑文本内容而忽视结构信息的问题,提出了融合压缩DOM树结构向量的行为类别标签预测模型。模型通过融合网页文本特征向量和DOM树结构向量并使用分类器进行分类,对于网页文本特征向量,利用TF-IDF方法,计算每个词的权重,然后进行加权平均,最终表示整段文本的特征向量。对于DOM树结构向量,提取网页中的全部DOM树结构并进行压缩,降低向量冗杂度,提高向量的表达能力。实验结果显示,与现有方法相比,行为类别标签预测模型能有效提升类别预测准确率。  相似文献   

15.
为了提高XML数据查询处理效率,提出时XML数据结点采用标签聚类存储,同时结点路径信息存储在位向量中.通过XML Schema和查询信息计算出结点过滤表达式,由位向量间的高效运算剔除不满足过滤表达式的结点.另外给出压缩位向量后对压缩数据直接进行过滤操作的方法.实验结果表明该优化方法对XML的数据查询具有较高效率.  相似文献   

16.
有限元分析在很多领域得到了应用,但其较大的计算规模对使用造成了限制,对复杂对象的分析难以在单台计算机上完成。提出并实现了一种并行化有限元软件的开发模式,在保留成熟的商业性有限元分析软件各种优点的情况下对关键计算进行了并行化开发,以较少投入成功实现了应用于大型结构分析的并行有限元分析系统。完成了数据在分布存储计算环境下的有效存储、高效的大型稀疏矩阵的并行算法,通过试验验证系统有良好的分析精度和扩展性。  相似文献   

17.
基于测试向量压缩的多核并行测试   总被引:1,自引:0,他引:1  
首先整合多个被测芯核的测试集,合并重叠的测试向量以减少测试向量个数,从而缩短了测试应用时间,测试应用时采用总线广播的形式实现并行测试;然后应用多扫描链相容压缩和距离标记方法压缩测试数据,多扫描链相容压缩后,测试向量宽度规则减小,且距离标记法可进一步有效地压缩测试数据量.该方法数据压缩效率高,测试应用时间短,与其他并行测试方法相比具有测试控制过程简单和硬件开销小的突出优点.  相似文献   

18.
为探究侵入物高速撞击下铰链式动车组的安全性,在实物三维扫描重构的基础上,构建一种新的活体三维有限元层叠模型,并在LS-DYNA中进行摆锤侧面碰撞分析验证;通过铰链式动车组与活体在110 km/h速度下的碰撞仿真计算,讨论动车组运行的安全性以及吸能装置的可靠性.结果 显示:活体的有限元层叠模型既能保证计算精度,又能提高计算效率;在110 km/h的碰撞速度下,车体加速度为0.117g,轮对抬升量为0.238 mm,车钩每5 m长度的压缩量最大约为1.89 mm.各项指标都低于EN 15227标准,动车组行车安全性没有受到影响,吸能装置也能可靠工作.  相似文献   

19.
在对脉冲压缩原理分析的基础上提出了适应于FPGA实现的结构,采用了数据全并行基4双蝶形单元计算结构,极大地提高了蝶形运算的并行度,从而提高了脉冲压缩的速度.设计了合理的数据流程,以较小代价实现了和差两路数据的脉冲压缩.根据二相码的特点采用了奇偶点分开并行脉冲压缩方法保证了脉压的效果和速度.在系统时钟100 MHz时,完成4 K点的脉冲压缩只需67 μs.  相似文献   

20.
为了减少测试数据的存储需求并降低测试应用时间,提出一种以折叠计算为理论的多扫描链BIST方案.首先利用输入精简技术在水平方向上压缩测试集,确定相容扫描链,在测试过程中对相容扫描链中的数据进行广播;然后利用折叠计算理论对测试集进行垂直方向上的压缩,使得同一折叠种子生成的相邻测试向量仅有1位不同,且在测试过程中测试向量并行移人多扫描链,在ISCAS标准电路上的实验结果表明,该方案的平均测试数据压缩率为95.07%,平均测试应用时间为之前方案的13.35%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号