首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
系统度量指标的研究一直是并行系统和应用设计的重要问题。本文首先通过对国内外并行计算系统度量指标的分析,将当前并行计算系统度量指标分为单一的计算性能度量指标和多要素综合的高效能度量指标两种。其次,总结了这些度量指标的研究现状,并指出这些度量指标研究中存在的一些问题以及需要考虑的难点。由于并行计算系统正在逐渐从"高性能"走向"高效能",本文主要考虑当前大规模并行计算系统的可靠性和能耗要素对系统的影响,从系统可扩展角度建立了可靠并行加速比和能耗并行加速比模型,并进一步扩展为度量并行计算系统效能的综合指标模型。最后指出了未来并行计算系统度量的研究方向。  相似文献   

2.
为关键词定义了与主题或语义相关联的信息度量.首先获取基于主题的语料库,然后建立语料库的潜语义向量空间模型,通过该模型定义关键词的信息度量.由此可以计算任意文档包含该主题的信息量,定义文档对主题的隶属度.设定文档对主题隶属度阈值,从而判断文档是否属于该主题类.实验表明,与主题或语义关联的信息度量可以克服搜索中"词匹配"的不足,达到"语义匹配"的搜索.  相似文献   

3.
4.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

5.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

6.
软件缺陷预测可帮助开发人员提前预测缺陷程序,合理分配有限的测试资源。软件缺陷预测的准确度不仅依赖于预测方法的选择,更依赖于软件的度量指标。因此,结合多元度量指标进行软件缺陷预测已成为当前的研究热点。从度量指标出发,对传统度量指标、多元度量指标以及结合多元度量指标的缺陷预测的研究进展进行了系统介绍。主要工作包含:介绍了传统的代码和过程度量指标、基于传统度量指标的软件缺陷预测模型以及影响数据质量的因素;阐述了语义结构度量指标;分析列举了当前用于软件缺陷预测的评价指标;结合预测粒度、传统度量指标、语义结构度量指标、跨项目软件缺陷预测对多元度量指标软件缺陷预测未来的研究趋势进行了展望。  相似文献   

7.
杨杏丽 《计算机科学》2021,48(8):209-219
在机器学习的分类问题研究中,对分类学习算法的正确评价是非常重要的.现实中,许多性能度量指标被从不同的角度提出,文中主要介绍了基于错误率的、基于混淆矩阵的和基于统计显著性检验的三大类性能度量指标,详细地讨论了分类学习算法各性能度量指标的提出背景、意义以及适用范围,分析了各种性能度量之间的差异,提出和分析了各方法中有待进一...  相似文献   

8.
一种结合词项语义信息和TF-IDF方法的文本相似度量方法   总被引:14,自引:0,他引:14  
黄承慧  印鉴  侯昉 《计算机学报》2011,34(5):856-864
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分...  相似文献   

9.
针对一般技术性能度量(TPM)指标只反映系统达到其性能要求的度量指标,未考虑系统完成剩余性能要求的困难程度,难以反映系统综合风险的缺陷,拓展技术性能指标分类种类,在传统TPM方法的基础上增加一类技术划分,并给出这类技术划分的TPM计算公式。综合考虑系统完成剩余性能风险的困难程度,提出技术困难程度的概念和技术性能风险度量方法,采用实例证明了两方面工作的适用性。  相似文献   

10.
语义向量差异性度量是采用深度学习方法解决自然语言处理领域问题的重要基础。在高维语义向量差异性度量中存在“度量集中”问题,导致通过传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阈值的维度参与差异度计算,去掉无法贡献差异度的维度,从而实现了降维,缓解了“度量集中”问题。分别在渔业数据集和公开数据集上,对不同维度的语义向量的不同度量方法进行了比较,结果表明在语义性没有明显变差的情况下,所提方法的多样性指标较目前最优的度量方法有大幅提高。  相似文献   

11.
通信受agent思维状态的驱动,是agent信息交换的过程,通信使agent感知环境、增强行为能力,是社会性的体现,也是协作和协商的重要手段,以BDI思维为基础,给出了通用的agnet通信语言KQML的一种语义描述,可解决其语义的模糊性,并可避免通信导致的思维状态内部矛盾问题,还讨论了通信与BDI转化的关系,并将其运用于动态、开放的协商过程中,改进了Finin和Cohen等人的工作。  相似文献   

12.
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。  相似文献   

13.
如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射是文本分类核心问题之一。传统的词袋模型的优点是将每个词视为一个特征,而缺点是计算成本会随特征数量和文本与特征之间的关系的增加而增加,并且没有考虑文本特征自身的语义关系,语义关系的优势是获取文本和特征之间的相关性。针对这个问题,提出一种增强混合特征选择方法,该方法使用混合特征选择进行降维,然后再使用词向量对低频词进行语义增强。为了验证增强的混合特征选择对文本分类的作用,构建了两个实验,使用LSTM算法进行分类模型训练与测试。对爬取的71825个新闻文本数据进行实验表明,基于语义的增强混合特征选择方法在文本分类时既提高了分类效率又能保证分类精度。  相似文献   

14.
郭广丰 《数字社区&智能家居》2014,(30):7166-7167,7179
在多Agent系统开发中,Agent间复杂的信息交互要求消息内容包含足够丰富的语义信息。JADE是目前应用最为广泛的Agent中间件,提供了本体支持,能有效解决上述问题。详细介绍了三种实现方式,进行了比较研究,并对Agent开发者提出了一些建议。  相似文献   

15.
P2P匿名通信系统的匿名度量   总被引:1,自引:0,他引:1  
谢鲲  邓琳  李仁发  文吉刚 《计算机应用》2008,28(12):3190-3193
分析了P2P匿名通信系统模型及攻击模型,基于信息熵,针对共谋攻击,度量了几种典型的P2P匿名系统的接收者匿名度,分析了系统匿名性与系统规模N、恶意节点比例、路径长度及转发概率的关系。计算数据表明,嵌套加密使系统获得强匿名,接收者的匿名度随系统规模等的增大而增大,随恶意节点比例的增大而减小,受恶意节点比例及系统规模影响较大,受路径长度影响较小。  相似文献   

16.
语义双关语是幽默、笑话和喜剧等作品的来源之一,在人类写作的发展进程中具有重要的历史地位。由于语义双关语存在歧义难懂的特点,因此难以挖掘语义双关语的潜在语义信息,故目前语义双关语的检测和双关词的定位是自然语言处理任务中的一项困难和挑战。该文在语义双关语的理论基础上,挖掘了一系列的潜在语义特性,并构建了对应每个特性的特征集,用以检测语义双关语;同时从潜在语义特性出发,提出了一种基于词向量和同义词融合的语义相似度匹配算法实现语义双关词的定位。在SemEval 2017 Task 7和Pun of the Day数据集上均取得了较好的实验结果,验证了该文所提出的检测算法和定位算法。  相似文献   

17.
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图的短文本聚类算法,通过对目前主流的三大语义模型进行了实验和对比,选择了一种较为先进的语义模型,基于该语义模型进行了聚类实验,发现新算法能较好地挖掘句子的语义信息且较传统的K-means有更高的聚类纯度。
  相似文献   

18.
针对目前已有的文本分类方法未考虑文本内部词之间的语义依存信息而需要大量训练数据的问题,提出基于语义依存分析的图网络文本分类模型TextSGN。首先对文本进行语义依存分析,对语义依存关系图中的节点(单个词)和边(依存关系)进行词嵌入和one-hot编码;在此基础上,为了对语义依存关系进行快速挖掘,提出一个SGN网络块,通过从结构层面定义信息传递的方式来对图中的节点和边进行更新,从而快速地挖掘语义依存信息,使得网络更快地收敛。在多组公开数据集上训练分类模型并进行分类测试,结果表明,TextSGN模型在短文本分类上的准确率达到95.2%,较次优分类法效果提升了3.6%。  相似文献   

19.
基于证据理论的单词语义相似度度量   总被引:1,自引:0,他引:1  
单词语义相似度度量一直是自然语言处理领域的经典和热点问题, 其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响. 本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径. 首先,借助通用本体WordNet获取证据;其次,利用散点图分析证据的合理性; 然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、 重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数, 并在此基础上量化单词语义相似度.在数据集RG(65)上, 对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析, 相关度达到0.912,比当前最优方法PS高出0.4个百分点, 比经典算法reLHS、distJC、simLC、simL和simR高出7%~13%; 在数据集MC(30)和WordSim353上也取得了比较好的实验结果, 相关度分别为0.915和0.941;且算法的运行效率和经典算法相当. 实验结果显示使用证据理论解决单词语义相似度问题是合理有效的.  相似文献   

20.
刘建明  史一民  张俊  陈存衡 《计算机工程》2013,39(3):223-228,235
在资源描述框架(RDF)图的语义相似性度量过程中,结构相似性和语义相似性计算不精确。针对该问题,提出结构语义(SAS)方法。结合改进的基于网络距离模型的语义距离公式、基于信息量模型的权重度量机制,计算概念节点的语义相似度,完善RDF图语义相似度算法,分析结构、深度和密度对RDF图语义相似性度量的影响。设计并实现原型系统,实验结果表明,该方法可有效保证RDF图的语义相似度与实际相符。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号