共查询到20条相似文献,搜索用时 312 毫秒
1.
改进的正向最大匹配分词算法 总被引:2,自引:1,他引:1
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块.该方法对待切丈本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理.通过对随机抽取的语料进行测试,结果表明该方法是有效的. 相似文献
2.
为了解决传统字段匹配算法未能根据数据源数据特征进行匹配函数调整的缺陷,提出了一种基于关联token操作和支持向量机的自适应字段匹配算法.该算法使用关联操作集形式化描述字段间的相似性,提出了一种改进字段相似度计算的Cosme式,将关联操作集转换为描述字段相似度的规一化向量值,并设计了基于SVM学习的字段匹配算法.最后对实际实验数据进行了分析,结果表明了该算法对于不同数据质量的数据源都可取得较好的匹配精度. 相似文献
3.
目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。 相似文献
4.
针对传统关系型数据库很难满足数据的快速存储与检索的问题,研究了基于数据文件字段映射表、文件对象字段、HBase列映射表和存储转换执行方案映射表解决文件对象的异构性和存储转换的通用性问题。提出了自定义RowKey行键的规则与生成算法;给出了基于映射表与行键的数据转换与存储流程及算法;最后基于行键前缀匹配或关键字匹配方式实现了不同需求的数据快速访问与检索,且具有较强的通用性。 相似文献
5.
基于动态权值的关联数据语义相似度算法研究 总被引:1,自引:0,他引:1
语义相似度计算对关联数据的信息检索有重要作用,直接影响数据的语义挖掘效果。实例的属性信息是关联数据语义相似度计算的一个重要因素。针对传统的关联数据语义相似度算法未考虑属性的重要性和取值类型导致计算精度较低的问题,提出基于动态权值的关联数据语义相似度计算方法,即根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性3个因素动态计算属性的权值,然后依据属性取值类型选用匹配相似度算法,最后结合属性的动态权值对概念进行实例的相似度计算。实验表明,基于动态权值的相似度计算方法与传统方法相比,实例相似度的计算精度得到了一定的提高。 相似文献
6.
7.
8.
组合型歧义切分字段一直是汉语自动分词的难点.用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭配统计表的多元最大对数似然比进行消歧;继而根据实验确定了歧义字段的上下文窗口、窗口位置区分、权值估计等要素;在此基础上采用自组织方法自动扩充搭配集,使消歧信息趋于稳定;最后,对提出的方法进行了实验,实验表明,该算法能有效提高消歧准确率. 相似文献
9.
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。 相似文献
10.
基于Hash结构的逆向最大匹配分词算法的改进 总被引:8,自引:1,他引:7
分析中文的语义,首先要对句子进行分词.中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果.对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM).该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义.实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高. 相似文献
11.
复制粘贴是一种常见的图像篡改方式,也是最隐蔽的图像篡改手段之一。SIFT是一种常用的匹配算法,同时也是一种较为有效的复制粘贴图像篡改检测方法。目前基于SIFT的图像篡改检测方法中,存在着匹配精度差及时间复杂度高等问题。为了克服这些问题,对SIFT算法进行了改进:针对阈值增大造成精确性差的问题,采用拟合优化的方法确定阈值,对SIFT算法中提取特征点的方法进行了改进;针对SIFT算法特征匹配阶段时间复杂度高的问题,采用基于K-D树的BBF搜索算法进行最近邻查询以实现特征点的快速匹配,对SIFT算法中的特征匹配进行了改进。实验结果验证了该算法的有效性。 相似文献
12.
13.
自动指纹识别中的图像增强和细节匹配算法 总被引:159,自引:3,他引:159
对自动指纹识别系统(automated fingerprint identification system,简称AFIS)的两个重要问题——指纹图像增强和细节匹配进行研究,给出了一种基于方向场的指纹图像增强算法,对Anil Jain等人提出的细节匹配算法进行了修正.采用一种新的更简单的方法进行指纹图像的校准,并以一种简单而有效的方式将脊线信息引入匹配过程中,这样做的好处之一是以较低的计算代价有效地解决了匹配中参照点对的选取问题.另外,采用大小可变的限界盒来适应指纹的非线性形变.在FVC2000公布的指纹图像数据库上,按照FVC2000测试标准所做的实验显示,该算法比原算法有较大的改进. 相似文献
14.
“六合一”道路编码是交管业务中用来定位事故和违法的基础文本数据,缺乏空间位置信息,而已有的常用路网数据如高德路网,都是基于多车道路段表达的路网且现势性相对于OSM(OpenStreetMap)路网较低,难以满足交管业务的需求。针对上述问题,以高德路网作为基础、高现势性的OSM路网作补充,将轨迹聚类分析中的LCSS(longest common subsequence)算法应用在路网匹配过程中,并对匹配后的路网使用Stroke方法进行路网融合。实验结果表明,使用LCSS算法可以达到良好的路网匹配效果。最后基于此开发了一套路网匹配融合程序,并在武汉市交通管理局投入使用。 相似文献
15.
研究网络信息搜索问题,提高搜索匹配的准确率。当前网络资源中,信息资源种类繁多,数量巨大,拥有相似特征的信息资源很多,传统的针对资源特征匹配的算法,很难在巨大数量的拥有众多相似特征的网络资源信息中,准确找到需要匹配的资源信息,信息匹配的准确性不高。为了解决这一问题,提出了一种基于语义距离的服务相似度信息匹配方法,首先将数据集用本体语言描述出来,然后对所定义的信息量、本体中的连接路径进行形式化定义,确定两个概念之间的语义距离,进而进行匹配。实验表明,新算法是能够实现海量数据之间匹配的最佳信息搜索方案,摆脱传统方法对于特征的依赖。大幅提高了匹配的准确度,取得了不错的效果。 相似文献
16.
基于模型的跟踪方法难以处理足球视频中球员形态发生较大变化的情况。为此,提出一种改进的多特征自适应融合的球员跟踪算法。利用自适应高斯混合模型检测球场和球员区域,使用球员HUE颜色特征的Bhattacharyya距离度量法代替传统的模板匹配方法,辨别球队归属,自适应地融合目标模型的颜色、形状和时空特征信息,实现对球员的跟踪,采用三点估算预测方法解决球员完全遮挡现象。实验结果表明,该算法能较好地解决球员之间的遮挡问题,在球员形态变化较大时能实现稳定的跟踪。 相似文献
17.
目的 含有重复模式的图像会对局部特征描述符产生歧义,因此基于局部特征的匹配算法在此类图像的匹配过程中极易产生误匹配.同时,通过研究现有的引入全局特征描述符的匹配算法,发现全局特征同样依赖于计算局部信息所得到的特征点主方向,所以此类方法在含有重复模式的图像中也不容易得到令人满意的匹配效果.为了解决这一问题,提出一种基于成对特征点的图像匹配算法.方法 该方法利用成对特征点的方向向量作为特征点对的主方向,为特征描述提供了正确的方向信息,同时引入DAISY描述符与改进后的全局上下文(globalcontext)特征描述符,提高了匹配能力.结果 分别在模拟图像与实际图像上面进行了对比匹配实验,本文算法平均的匹配正确率能达到88%以上,比其他经典的匹配算法提高了26%以上.结论 实验结果表明,本文算法克服了现有算法在特征描述与主方向分配上的缺陷,进一步提升了匹配正确率,能够有效地解决重复模式图像的匹配问题. 相似文献
18.
19.
查询接口模式匹配是Deep Web信息集成中的关键部分,双重相关性挖掘方法(DCM)能有效利用关联挖掘方法解决复杂接口模式匹配问题。针对DCM方法在匹配效率、匹配准确性方面的不足,提出了一种基于匹配度和语义相似度的新模式匹配方法。该方法首先使用矩阵存储属性间的关联关系,然后采用匹配度计算属性间的相关度,最后利用语义相似度计算候选匹配的相似性。通过在美国伊利诺斯大学的BAMM数据集上进行实验,所提方法与DCM及其改进方法比较有更高的匹配效率和准确性,表明该方法能更好地处理接口之间模式匹配问题。 相似文献
20.
针对基于无线定位的交通信息采集中地图匹配问题,提出一种新的地图匹配算法,算法提取连续多个位置点的瞬时位置、方向和相邻时刻的运动距离构成具有三个特征变量的子时间序列,并用DTW来进行车行轨迹与候选路段的相似性测量,然后利用模糊偏序关系得到相似性的综合评估,将与移动台运动轨迹最相似的路段作为匹配点所在路段。实验结果证明了算法的有效性。 相似文献