首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
基于分级地名库的中文地理编码的研究   总被引:2,自引:0,他引:2  
孙存群  周顺平  杨林 《计算机应用》2010,30(7):1953-1955
地理编码在城市空间定位和分析领域内具有非常广泛的应用,但由于中文地址没有统一的规范和固定的模式,目前中文地址编码尚无很完善的解决方案。针对这一问题,采用基于分级地名数据库的中文地理编码方法,并详细阐述了实现该方法的关键技术:地名数据库的数据模型、地址串的拆分和地址匹配技术。最后通过实际数据进行验证,实验结果表明,该方案能较好地解决绝大多数地址数据的匹配问题。  相似文献   

2.
基于模糊匹配策略的城市中文地址编码系统   总被引:1,自引:0,他引:1       下载免费PDF全文
在研究空间数据地址编码技术的基础上,根据城市地址数据库特定存储格式,选取适于城市中文地址的切分方案,提出一种基于K叉地址树的模糊匹配策略,将地址数据以K叉树形式进行存储。采用分支定界思想探测并排除无效匹配结点,并应用模糊规则对匹配结果进行评价及筛选,从而提高地址匹配的效率和准确度。应用杭州市1∶10 000矢量地图数据验证了该编码系统的有效性。  相似文献   

3.
用于地址(地理位置)匹配的关键路径法   总被引:1,自引:0,他引:1  
中文地址的编码和匹配是数字化描述空间位置的基本手段,由于中文地址表达的多样性而导致同一地理位置的描述结果千差万别。在Web地图应用中,如何解析使用者输入的地址、转换成标准化地址,一直是个难点。采用地名词典和标准地址库为数据源,构造分词词典表,设计了基于逆向扫描和特征词结合的中文地址匹配模型,并提出了基于权重的地址关键路径的判定方法,较好地解决了中文地址表达多样性与地理位置唯一性问题。  相似文献   

4.
中文地址具有广泛的应用领域和应用价值,地址标准化是地址编码的基础,而地址编码技术是利用好地址数据的重要一环。本文基于双数组的极速多模式匹配的trie树来进行初步分词和词性标注,利用最长后缀匹配能够非常快速地找出包含行政区划的地址元素,以此为基础可以将地址切分成不同地址元素并标注等级,建立地址向量模型(AVSM)。将AVSM中行政区划部分地址数据进行条件组合,找出可能的行政区划候选值。采用余弦相似度算法,计算出最佳的行政路径。对于后续非行政区等级元素,使用概率地址模型对各等级元素进行概率统计,利用贝叶斯求出最佳的组词概率,进一步处理其它各个级别的地址。最后通过有限状态机能够对整个地址等级进行各级元素的隶属调整和实现不同等级具体修复方法。该方法能够保证在海量的地址数据中实现快速切分的同时对行政缺失的地址数据进行补全,利用关键词和概率模型有效地识别登录词,兼顾分词性能和可维护性。  相似文献   

5.
李晓林  黄爽  卢涛  李霖 《计算机应用》2017,37(3):876-882
由于互联网上中文地址的非规范化表达,导致互联网中的中文地址信息在地理位置服务中难以直接应用。针对此问题,提出一种非规范中文地址的行政区划提取算法。首先,对原始数据进行“路”特征词分组预处理;再利用行政区划字典和移动窗口最大匹配算法,从中文地址中提取所有可能的行政区划数据集;然后,利用中文地址行政区划元素之间具有层次关系的特点,建立行政区划条件集合运算规则,对获取的数据集进行集合运算;再利用行政区划匹配度建立一种行政区划集合解析规则,来计算行政区划可信度;最后,得到可信度最大信息量最完整的中文地址的行政区划。利用从互联网中提取的约25万条中文地址数据进行是否采用“路”特征词分组处理以及是否进行可信度计算处理,对算法的可用性进行了验证,并与目前的地址匹配技术进行对比,准确率达到93.51%。  相似文献   

6.
地理编码技术通过将位置信息的文字表述转化为经纬度坐标为地理位置信息相关的科研提供数据支持。在地理编码过程中,地址描述性文字可能存在大量内容不正确、不准确、错别字、同音字等问题,从而导致无法进行准确地址匹配。该文针对以上问题提出了一种地址规范化的方法,通过地名相似度算法将待规范地名与标准地名库记录进行匹配,并结合空间场景相似性对结果进行评价,从而提高地址匹配的准确度。最后通过相关公共卫生数据验证了方法的可行性与准确性。  相似文献   

7.
地理编码系统设计与实现   总被引:6,自引:0,他引:6       下载免费PDF全文
针对大部分的地理位置信息都采用文本方式进行描述而非地理坐标,提出适合中国地址描述实际情况的地理编码关键技术和实现方法,主要包括地址标准化、地址匹配、地理编码量化等,并在地理信息系统软件中实现了中文和英文地理编码功能,实验证明该方法具有较小的地理编码误差率。  相似文献   

8.
字符串匹配是判断模式串(短串)是否是文本串(长串)的子串。KR算法是一种随机串匹配算法,详细介绍KR串匹配算法的算法描述及代码实现过程,并对该算法进行测试,讨论该算法的实现效率。  相似文献   

9.
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。  相似文献   

10.
中文地址由行政区划地址和详细地址两部分组成,行政区划地址的处理可通过构建地址词典、分词、补充特征字等方式清洗,目前技术较为成熟。详细地址则随我国城镇化的发展而不断变化,且新的地址层出不穷,导致其清洗和规范化工作极其困难。在研究大数据量中文地址的基础上,提出了中文地址清洗模型,在行政区划地址先清洗并规范的前提下,对地址进行排序,利用SNM算法将详细地址聚集在一个较小的窗口内,对窗口内的地址进行匹配和清洗,实验结果证明清洗效果良好。  相似文献   

11.
近似字符串匹配是模式匹配研究领域中的一个重要研究方向。压缩后缀数组是字符串匹配、数据压缩等领域广泛使用的索引结构,具有检索速度快和适用广泛的优点。利用压缩后缀数组,提出了适合近似字符串匹配搜索算法的数据结构,并在此基础上提出了一种匹配搜索算法。实验结果表明,相对于现有的算法,提出的算法在小字母表的情况下具有计算优势。  相似文献   

12.
一种新的近似旋律匹配方法及其在哼唱检索系统中的应用   总被引:20,自引:0,他引:20  
提出了一种近似旋律匹配(approximate meltlody matching)的新方法——线性对齐匹配法,并在此基础上实现了一个哼唱检索(queryby humming)系统原型.与已有的基于内容的音乐检索(content-based music retrieval)不同,该算法并非基于近似符号串匹配、统计模型或者特征空间,而是根据相近旋律的音高轮廓在几何上的相似性,将音高和节奏特征一并考虑所设计而成的全新算法.通过实验检验该算法的有效性,在含有3864首乐曲的搜索空间中,检索62段人声哼唱,线性对齐匹配法取得了90.3%的前3位命中率,相比传统的近似符号匹配算法高出11%以上.这一实验结果有力地表明了线性对齐匹配法的有效性,及其应用于大型数字音乐检索引擎的可行性.  相似文献   

13.
面向全国经济普查需求的专家系统地理编码方法*   总被引:1,自引:2,他引:1  
分析了国内外地理编码技术的研究和使用现状,结合我国经济普查项目中地理编码的实际需求,借鉴专家系统的相关概念和方法,提出了一种基于专家系统的地理编码方法。该方法充分利用行业系统中已有的中文地址与空间要素间的对应关系,挖掘与之匹配的地址特征。对于需要定位的模糊地址,该方法首先将模糊地址拆分为若干地址要素,再在要素地址特征库中进行匹配,从而实现该模糊地址的空间定位。该方法能有效地提高模糊地址的定位成功率。  相似文献   

14.
一种有效的并行汉字/字符串相似检索技术   总被引:1,自引:0,他引:1  
王素琴  邹旭楷 《软件学报》1995,6(8):463-467
本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.文中也给出了并行实现算法,同时分析了算法的复杂性.  相似文献   

15.
由于中文的内涵多义性和形式多样性的特点,使中文地址长期以来存在着难以标准化的问题,对进一步开展地址定位,区域网格分析和社情、舆情定位等工作都造成了较大的障碍。本文针对这个问题提出了基于地址分级模型和有限状态机驱动的新方法,并通过软件开发对这种方法的地址识别率和匹配准确率进行了验证,实验结果显示该方法对中文地址能够达到96%左右的识别率,匹配准确率也达到了85%左右,并且还能实现标准地址库的自动化更新。因此,采取该方法能够有效地解决中文地址标准化困难的问题,具有显著的实用性和研究参考价值。  相似文献   

16.
本文提出了一种允许错误的并行字符串查找技术,通过引入搜索状态向量及字符-模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对字符串的并行相似检索,文中也给出了并行实现算法,同时分析了算法的复杂性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号