共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。 相似文献
3.
4.
点互信息(PMI)边界检测算法能准确检测图像中的边界,但算法效率受制于采样点的提取。针对采样过程中存在随机性和信息冗余的问题,提出一种利用超像素分割提供的中层结构信息来指导点对选取的方法。首先使用超像素算法对图像进行初始分割,将图像划分成大小形状近似的像素块;然后选取落在相邻超像素中的像素点对,从而使样本点的选取更有目的性,在采样点数目较少时,保证样本点仍能有效完整地获取图像信息。实验通过与原始的PMI边界检测算法在伯克利分割数据库(BSDS)上进行比对验证得出,基于超像素的PMI边界检测算法在采样点对为3500时,平均精准度(AP)达到0.7917,而原始算法则需要6000个同样环境下的采样点对。基于超像素的PMI边界检测算法在保证了检测精度的同时减少了所需的采样点数目,从而能有效提高算法的实时性。 相似文献
5.
针对基于TPR树(time-parameterized R-tree)索引的大量并发CKNN(continuous k-nearest neighbor)查询处理,提出了一种可伸缩的增量连续k近邻查询处理(scalable processing of incremental continuous k-nearest neighbor queries,简称SI-CNN)框架,通过引入搜索区域进行预裁剪以减少查询更新所需要的TPR树节点访问代价,并引入了增量结果表以保存候选对象,批量地更新查询结果集,具有良好的可伸缩性.基于SI-CNN框架提出了一种增量更新的SI-CNN查询处理算法,能够基于上次查询结果增量的更新查询,支持查询集合中加入或删除查询和移动对象数据集的插入、删除等动态更新操作.实验结果与分析表明,基于SI-CNN框架的SI-CNN算法可以很好地支持大量并发的CKNN查询处理,具有良好的实用价值. 相似文献
6.
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7 222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。 相似文献
7.
短文本分类是自然语言处理(NLP)中的重要研究问题,广泛应用于新闻分类、情感分析、评论分析等领域。针对短文本分类中存在的数据稀疏性问题,通过引入语料库的节点和边权值特征,基于图注意力网络(GAT),提出了一个融合节点和边权值特征的图注意力网络NE-GAT。首先,针对每个语料库构建异构图,利用引力模型(GM)评估单词节点的重要性,并通过节点间的点互信息(PMI)获得边权重;其次,为每个句子构建文本级别图,并将节点重要性和边权重融入节点更新过程。实验结果表明,所提模型在测试集上的平均准确率达到了75.48%,优于用于文本分类的图卷积网络(Text-GCN)、TL-GNN、Text-ING等模型;相较原始GAT,所提模型的平均准确率提升了2.32个百分点,验证了其有效性。 相似文献
8.
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法.首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多... 相似文献
9.
为了减少高光谱图像数据中的冗余信息,优化计算效率,并提升图像数据后续应用的有效性,提出一种基于邻域熵(NE)的高光谱波段选择算法.首先,为了高效计算样本的邻域子集,采用了局部敏感哈希(LSH)作为近似最近邻的搜索策略;然后,引入了NE理论来度量波段和类之间的互信息(MI),并把最小化特征集合与类变量之间的条件熵作为选取... 相似文献
10.
对海量文本语料进行上下位语义关系自动抽取是自然语言处理的重要内容,利用简单模式匹配方法抽取得到候选上下位关系后,对其进行验证过滤是难点问题。为此,分别通过对词汇语境相似度与布朗聚类相似度计算,提出一种结合语境相似度和布朗聚类相似度特征对候选下位词集合进行聚类的上下位关系验证方法。通过对少量已标注训练语料的语境相似度和布朗聚类相似度进行计算,得到验证模型和2种相似度的结合权重系数。该方法无需借助现有的词汇关系词典和知识库,可对上下位关系抽取结果进行有效过滤。在CCF NLP&2012词汇语义关系评测语料上进行实验,结果表明,与模式匹配和上下文比较等方法相比,该方法可使 F 值指标得到明显提升。 相似文献
11.
12.
13.
互信息驱动的有限元医学图像配准方法 总被引:1,自引:0,他引:1
针对医学图像中软组织形变复杂多样的特点,在配准过程中以离散化的有限单元为基本单位模拟和预测整个弹性体产生的形变,将配准过程视为有限元求解二维平面应力问题并对有限元能量函数进行改进,选取高精度和鲁棒性良好的互信息(MI)为测度应用到方程求解中。为提高算法效率,在配准过程中采用多分辨率策略进行优化。通过对放疗中医学图像进行配准实验并与已有方法进行比较,得到的配准结果更优,对刚体位移更敏感并提高了速度,表明该方法是一种具有高精度和高效率的配准方法。 相似文献
14.
针对实际杂波环境中多输入多输出(MIMO)雷达与目标间检测与隐身的博弈问题,提出一种新的两步注水算法。首先建立时空编码模型;然后基于互信息量准则,用注水法分配目标干扰功率,用通用注水法分配雷达信号功率;最终得到强弱杂波环境Stackelberg博弈中目标占优和雷达占优的优化方案。仿真结果表明,雷达信号功率分配和通用注水水位变化规律均受杂波影响,两优化方案的互信息量在强杂波环境降低约50%,干扰影响系数分别降低0.2和0.25,互信息量受干扰影响程度降低,证明了所提算法的有效性。 相似文献
15.
k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的kNN数据填补算法LSH-kNN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照kNN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的kNN填补算法LSH-kNN相对经典的kNN算法能够显著提高填补效率,并且保持准确性基本不变。 相似文献
16.
融合SIFT特征的熵图估计医学图像非刚性配准 总被引:2,自引:2,他引:0
配准准确性是医学图像配准算法的一项重要指标,像素灰度是目前图像配准中广泛使用的特征,但是灰度特征来源单一,而且忽略空间信息,在一些情况下容易产生误配。针对这个问题,本文提出一种融合SIFT特征的熵图估计医学图像非刚性配准算法。该算法首先使用基于互信息的刚性配准算法对两幅待配准图像进行粗配;然后,在采样点上提取像素灰度和SIFT高维特征,并在此基础上构造k-最邻近图(kNNG);最后,使用k-最邻近图来估计α互信息(αMI)。实验结果表明:和传统的基于互信息和像素灰度的刚性配准算法,基于熵图估计和单一像素灰度特征的非刚性配准算法相比,本文提出的算法具有更高的配准准确性。 相似文献
17.
为提高颗粒状农产品分选精度,提出了一种基于现场可编程门阵列(FPGA)的k最近邻(k-NN)方法.该方法分两步:第一步对基于FPGA的彩色线阵CCD成像系统得到的图像在PC上进行保存,并对得到的图像进行特征提取,然后用k-NN方法对提取的特征进行特征筛选得到最优特征集.第二步将训练好的最优特征集放在FPGA的ROM上,FPGA对线阵CCD得到的图像数据实时提取特征与ROM上最优特征集做距离计算实现k-NN分选算法.对花生和开心果两种颗粒状农产品用该方法进行实验,以RGB颜色空间为主要特征,结果表明:在选择合理特征个数和k值情况下对花生和开心果的分选正确率都达到了95%以上. 相似文献
18.
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。 相似文献
19.
为提高图像配准的速度和精度;对基于区域互信息配准算法进行了改进;运用了两层小波分解策略的配准方法;小波分解得到的最顶层图像采用粒子群优化全局寻优算法;利用搜索的结果作为下一层Powell寻优方法的起点;另外;对待配准图像应用形态学方法去除噪音。针对不同分解层的特点;采用不同的测度方法;得到的顶层图像采用改进后的区域互信息为相似性测度;而底层采用归一化互信息测度和相位一致性的相结合的方法;不仅提高了速度;还克服了图像间明暗对比的影响。实验结果表明;提出的配准算法对图像噪声有较高的鲁棒性;可达到亚像素精度;在配准速度上也有了很大的提高。 相似文献
20.
In this paper, a memetic algorithm with competition (MAC) is proposed to solve the capacitated green vehicle routing problem (CGVRP). Firstly, the permutation array called traveling salesman problem (TSP) route is used to encode the solution, and an effective decoding method to construct the CGVRP route is presented accordingly. Secondly, the k-nearest neighbor (kNN) based initialization is presented to take use of the location information of the customers. Thirdly, according to the characteristics of the CGVRP, the search operators in the variable neighborhood search (VNS) framework and the simulated annealing (SA) strategy are executed on the TSP route for all solutions. Moreover, the customer adjustment operator and the alternative fuel station (AFS) adjustment operator on the CGVRP route are executed for the elite solutions after competition. In addition, the crossover operator is employed to share information among different solutions. The effect of parameter setting is investigated using the Taguchi method of design-of-experiment to suggest suitable values. Via numerical tests, it demonstrates the effectiveness of both the competitive search and the decoding method. Moreover, extensive comparative results show that the proposed algorithm is more effective and efficient than the existing methods in solving the CGVRP. 相似文献