首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
针对经典的基于编辑距离的字符串相似度计算方法计算效率低且准确率差的不足,提出一种基于编辑距离和最长公共子串的改进字符串相似度求解方法,引入最长公共前缀和最长公共后缀,定义新的相似度计算公式。将该方法应用于基于异构平台的动态异构web服务系统模型,通过网页篡改检测实验验证,与经典算法和经典公式相比,改进的相似度计算方法能够在适应自身差异性的基础上,提高相似度计算的准确性和计算效率。  相似文献   

2.
韩如冰  叶得学 《软件》2012,33(10):103-105
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索的效果起着决定性的作用.文中提出了一个基于关键词的权重改进传统向量空间模型的权重算法.基于改进索引项权重的向量空间模型除了考虑原有索引项权重还考虑了文档中关键词的权重.通过特定领域FAQ的检索测试结果表明,改进的算法很大程度上提高了检索的查准率、查全率.  相似文献   

3.
带拥挤距离排挤机制的非支配排序遗传算法(NSGA-II)在多目标优化领域具有广泛的应用,NSGA-II算法具有个体分布不均匀以及重复个体较多等缺陷.针对这些缺陷提出一种基于向量空间模型的NSGA-II改进算法VSMGA(Vector Space M odel Genetic Algorithm),VSM GA算法在NSGA-II算法的基础上引入了向量空间模型,利用目标权重向量之间的余弦距离代替原来的拥挤距离,提出一种距离排挤机制和重复个体排除规则.实验结果表明与NSGA-II算法比较,VSMGA算法具有更好的分布性和稳定性.  相似文献   

4.
步态周期是步态的一个重要特征,步态识别是建立在准确的步态周期分割之上的。本文提出了一个基于下肢轮廓的步态周期检测方法,首先对步态序列图像进行灰度化,然后计算各像素点在步态图像序列中的中值,获取整个步态序列图像的背景,提取人体目标后,利用数学形态学方法和区域跟踪算法填补二值化图像中的空洞;采用轮廓跟踪算法获得人体下肢轮廓,并将其转换为对应距离向量,在一个步态系列中利用距离向量范数研究步态周期。本算法计复杂度低,鲁棒性好,精确度高。  相似文献   

5.
针对经典遗传规划算法(CGP)存在容易早熟收敛、运行效率低的缺陷,提出一种将分布式计算与遗传规划算法结合的计算模型.该模型利用个体迁移策略实现对种群的优化,克服易早熟的缺陷.并且采用分布式计算能够有效地节省算法的运行时间.最后通过对语音数据预测误差的比较,验证了改进后算法的有效性.实验表明,基于分布式粗粒度并行计算的遗传规划算法(CGGP)计算性能优于经典遗传规划算法(CGP).  相似文献   

6.
序列相似性分析是生物信息学中一个重要问题,对于研究物种的进化起源有着重要的意义.序列相似性算法包括基于序列比对的方法及非比对方法两种.基于比对的方法对于序列整体的衡量略有欠缺;非比对算法中有DNA曲线化方法以及比较序列各自整体碱基分布间的信息量差异的方法,只是考虑了序列整体信息间的差异,但未考虑序列各个位点间的差异.因此,提出了一种基于信息熵的相似性度量模型,把序列比对与信息量差异结合起来,将两条比对后的序列间的平均交互信息量与其联合熵之比作为两条序列的相似性度量.使用该度量构建了11个物种的相似性矩阵,对各物种间的相似性进行了分析,结果在一定程度上与生物分类学相契合.通过距离矩阵所构建的进化树,也反映了各物种间的进化关系,表明该模型的设计具有合理性.  相似文献   

7.
DTW(Dynamic Time Warping)算法被广泛应用于序列数据比对,以度量序列间距离,但算法较高的时间复杂度限制了其在长序列比对上的应用。提出基于自适应搜索窗口的序列相似比对算法(ADTW),算法利用分段聚集平均(Piecewise Aggregate Approximation,PAA)策略进行序列抽样得到低精度序列,然后计算低精度序列下的比对路径,并根据低精度距离矩阵上的梯度变化预测路径偏差,限制路径搜索窗口的拓展范围;随后算法逐步提高序列精度,并在搜索窗口内修正路径、计算新的搜索窗口,最终,实现DTW距离和相似比对路径的快速求解。对比FastDTW,ADTW算法在同等度量准确率下提高计算效率约20%,其时间复杂度为[O(n)]。  相似文献   

8.
生物序列比对是生物信息学中最基础的研究课题之一。基于动态规划的Needleman- Wunsch双序列比对算法主要采用迭代算法及空位罚分规则对基因序列进行逐一比对,计算二者相似性得分,最后通过回溯分析得出序列之间的最佳比对。虽然该算法可以得到最佳比对结果,但是时间复杂度和空间复杂度较高。首先对原算法进行分析,对计算得分和回溯进行改进。接着设计2次实验,以金黄色葡萄球菌和银葡萄球菌分别作为目标序列和待比对序列,分别生成序列长度范围相同和不同的5组数据进行实验测试。最后通过对新型冠状病毒和SARS病毒全序列进行比对,进一步验证了改进算法的有效性。实验结果表明,改进后的算法可以缩短序列比对时间,提高序列比对效率。  相似文献   

9.
为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提高全局存储器的带宽利用率;通过增加偏移量改变存储器模块的映射方式,避免模块访问冲突,提高局部存储器的使用效率.实验结果表明,优化后的生物序列比对性能提升了近100倍.  相似文献   

10.
传统的向量空间模型表示文本的缺点是向量维数高,向量空间模型中一个文本是一个大的稀疏矩阵,计算文本之间的距离或者相似度时,算法的效率低,聚类效果不理想。在主题模型(Latent Dirichlet Allocation,LDA)中,将文本表示成主题(Topic)的概率分布,主题表示为词的概率分布。主题模型下,指定主题数目为T时,所有待聚类的文本都被表示成维数为T的向量。K-均值算法作为本文的聚类算法,并通过实验验证了主题模型的聚类效果要好于向量空间模型的聚类。  相似文献   

11.
改进的VSM算法及其在FAQ中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
郑诚  李清  刘福君 《计算机工程》2012,38(17):201-204
现有的句子相似度算法的准确率较低。为此,提出一种改进的向量空间模型算法。在传统的向量空间模型中添加语义信息和句法信息,将其运用到句子相似度计算中,设计实现金融领域的FAQ自动问答系统,通过改进算法在FAQ中进行句子相似度计算,获取用户问题的答案。实验结果证明,该算法具有较高的准确率。  相似文献   

12.
张莉婧  曾庆涛  李业丽  孙华艳  字云飞 《计算机科学》2017,44(Z11):460-463, 469
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。  相似文献   

13.
针对基于D-S证据理论的认知无线电频谱感知算法在认知节点的感知信息存在较大冲突时会产生与实际情况相悖结果的问题,提出了一种基于改进D-S证据理论的认知无线电频谱感知算法。改进算法采用一种新的加权平均方法平均各个证据,比算术平均法更多地降低了异常证据的影响,同时通过计算证据到平均证据的距离来计算证据权值,解决了权值计算复杂度问题。实验结果表明,在认知节点的感知信息存在严重冲突时,改进算法可有效提高认知无线电频谱感知系统的感知性能。  相似文献   

14.
李珍  姚寒冰  穆逸诚 《计算机应用》2019,39(9):2623-2628
针对密文检索中存在的计算量大、检索效率不高的问题,提出一种基于Simhash的安全密文排序检索方案。该方案基于Simhash的降维思想构建安全多关键词密文排序检索索引(SMRI),将文档处理成指纹和向量,利用分段指纹和加密向量构建B+树,并采用"过滤-精化"策略进行检索和排序,首先通过分段指纹的匹配进行快速检索,得到候选结果集;然后通过计算候选结果集与查询陷门的汉明距离和向量内积进行排序,带密钥的Simhash算法和安全k近邻(SkNN)算法保证了检索过程的安全性。实验结果表明,与基于向量空间模型(VSM)的方案相比,基于SMRI的排序检索方案计算量小,能节约时间和空间成本,检索效率高,适用于海量加密数据的快速安全检索。  相似文献   

15.
基于背部轮廓相关系数算法的淡水鱼种类识别研究   总被引:1,自引:0,他引:1  
针对淡水鱼种类的自动识别问题,利用机器视觉技术,提出一种基于鱼体背部轮廓相关系数算法的鱼体种类识别方法。首先根据采集的鲫、草鱼、鳊、鲤四种淡水鱼图片,将图像处理方法应用到鱼体背部轮廓的提取上,并采用最小二乘算法对鱼体背部轮廓进行曲线拟合,建立这四种淡水鱼的背部轮廓数学模型;接着对要识别的鱼体,通过机器视觉技术获得鱼体轮廓,并计算提取的鱼体轮廓与建立的四种鱼背部轮廓数学模型的相关系数值,达到对鱼体种类自动识别目地;最后采用提出的方法对市场随机选取的各60条活鱼进行了测试,测试结果表明,该算法简单,识别准确率较高,能够为淡水鱼种类识别方法提供新的思路,提高水产养殖的自动化水平。  相似文献   

16.
草种精细识别对三江源区草地生态系统退化监测具有重要意义。基于无人机高光谱遥感系统,获取三江源草地退化典型区的高光谱影像。在对原始光谱特征利用XGBoost进行优化选择的基础上,结合扩展形态学属性剖面特征,利用稀疏多项式逻辑回归与自适应稀疏表示两种分类方法分别对影像上的不同可食与毒杂草种进行精细识别,在此基础上提出形状自适应的后处理方法对识别结果进行平滑处理。结果表明:①利用XGBoost方法选择出重要性高的光谱特征能提升高光谱数据的识别效果并节省运行时间;②利用空间—光谱特征的识别方法相较于仅利用光谱特征的方法可以有效改善草种识别效果,使总体精度提升4%~5%;③利用两种稀疏表示方法在小样本的情况下对草种精细识别的精度分别达到94.07%、93.15%,利用形状自适应后处理方法能有效提高多种毒杂草种的识别精度,使得总体精度分别提升约1.64%和1.12%。基于特征挖掘的稀疏表示分类方法能实现高精度的无人机高光谱影像草种精细识别,为更大范围的草原物种精细识别提供了技术支撑。  相似文献   

17.
一种免疫克隆特征选择算法在文本分类中的应用   总被引:2,自引:0,他引:2  
如何选择最能够表达文本主题的特征词,从而减少特征空间维数,是文本分类的一个关键问题。针对此问题本文提出了一种基于向量空间模型(VSM)的免疫克隆特征选择算法。实验表明,该方法能有效提高文本分类正确率,比文档频率方法和遗传算法具有更明显的优势。  相似文献   

18.
蒋长宏  张云华 《计算机仿真》2007,24(10):103-106
提出一种基于时域抽样法的近远场变换算法以改善经典时域近远场变换算法计算量大、计算速度慢的缺点.时域抽样法是基于这样一个事实:在时域近远场变换过程中不需要与时域有限差分计算同样的时间精度.在近远场变换前先对时域近场数据进行采样以减少数据的冗余,然后用改进后的算法进行近远场变换计算从而达到减少数据量、提高计算速度的目的.为验证本算法,以计算七元八木天线远场方向图为例进行算法说明, 并与经典时域法进行比较,结果表明本算法在保证与经典法具有同样精度的前提下,减少了90%数据存储空间,同时提高计算速度80%.应用本算法可以为天线仿真优化设计、雷达散射截面(RCS)计算等提供一种快速的时域计算方法.  相似文献   

19.
袁晓峰 《计算机时代》2014,(11):40-41,43
计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。  相似文献   

20.
基于向量空间模型的网页文本表示改进算法   总被引:7,自引:0,他引:7  
曾致远  张莉 《计算机工程》2006,32(3):134-135,139
介绍了一种新的文本表示算法,应用在网页文本过滤系统中。比起传统的向量空间模型,这种建立在其上的改进算法有更快的过滤速度和更高的过滤精度。该算法直接从过滤模板的特征集中取出词条,只在网页文本出现该词的地方进行精确处理。根据特征项所在的网页标签,赋予不同的权值系数,以准确定义特征词在文中的重要程度,最后建立该网页的文本表示模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号