首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
互联网中中文地址文本蕴含着丰富的空间位置信息,为了更加有效地获取文本中的地址位置信息,提出一种基于地址语义理解的地址位置信息识别方法。通过对训练语料进行词频统计,制定地址要素特征字集合和字转移概率,构造特征字转移概率矩阵,并结合字符串最大联合概率算法,设计了一种不依赖地名词典和词性标注的地址识别方法。实验结果表明,该方法对地址要素特征字突出且存在歧义的中文地址的完全匹配率为76.85%,识别准确率为93.11%。最后,与机械匹配算法和基于经验构造转移概率矩阵的方法进行对比实验,实验结果表明了该方法的可用性和有效性。  相似文献   

2.
由于中文地址命名的不规范性和汉语语言特点,中文地址要素识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法,难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识别效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。  相似文献   

3.
为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,提出一种基于“检索器-鉴别器”架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检索器和最终分辨地址是否匹配正确的地址鉴别器,其中地址检索器基于词频-逆文档频率算法构建,地址鉴别器基于中文预训练语言模型NEZHA构建。提出了一种负样本训练方法提升地址鉴别器辨别效果。详细介绍了实验分析所使用的两个数据集。实验结果表明基于“检索器-鉴别器”架构的电力地址匹配模型能够准确从外部地址库中找出与电力地址匹配的地址,其中,地址鉴别器能够非常准确地从多个候选地址中找出准确匹配地址,其F1分数达0.99以上。  相似文献   

4.
中文地名地址的标准化在当前智慧城市的建设中起到至关重要的作用。传统的地名地址标准化技术通常使用基于文本字符层面的相似度计算或规则库匹配的方法,对复杂、特殊或冗余地址的处理效果较差。通过将地址标准化任务转换为针对地址相似的匹配度计算任务,提出了一种融合注意力机制与多层次语义表征的地址匹配算法。首先依据地址文本特殊的语法结构,利用Trie语法树构建标准地址树;而后基于注意力机制,利用Bi-LSTM网络与CNN网络生成地址对的多层次语义表示;最后通过曼哈顿距离计算相似度。在自主构建的数据集上,提出的SGAM模型的匹配准确度(91.22%)相比TextRCNN、FastText、基于注意力的卷积神经网络(ABCNN)等模型提升了4%~10%,表明SGAM模型在地址匹配任务上有着更好的性能表现。  相似文献   

5.
用于地址(地理位置)匹配的关键路径法   总被引:1,自引:0,他引:1  
中文地址的编码和匹配是数字化描述空间位置的基本手段,由于中文地址表达的多样性而导致同一地理位置的描述结果千差万别。在Web地图应用中,如何解析使用者输入的地址、转换成标准化地址,一直是个难点。采用地名词典和标准地址库为数据源,构造分词词典表,设计了基于逆向扫描和特征词结合的中文地址匹配模型,并提出了基于权重的地址关键路径的判定方法,较好地解决了中文地址表达多样性与地理位置唯一性问题。  相似文献   

6.
基于分级地名库的中文地理编码的研究   总被引:2,自引:0,他引:2  
孙存群  周顺平  杨林 《计算机应用》2010,30(7):1953-1955
地理编码在城市空间定位和分析领域内具有非常广泛的应用,但由于中文地址没有统一的规范和固定的模式,目前中文地址编码尚无很完善的解决方案。针对这一问题,采用基于分级地名数据库的中文地理编码方法,并详细阐述了实现该方法的关键技术:地名数据库的数据模型、地址串的拆分和地址匹配技术。最后通过实际数据进行验证,实验结果表明,该方案能较好地解决绝大多数地址数据的匹配问题。  相似文献   

7.
随着信息技术的迅猛发展,建设新型高效智慧型城市已成为趋势。智慧城市中有大量以地理信息为基础的应用场景,如在城市规划建设、城市便民生活服务、城市细化管理等都离不开地理信息。由于中文地址的复杂性与人工输入的不确定性,地址数据不规范性、不一致、不明确现象给业务系统之间与内部带来了很多困难。急需优秀的中文地址匹配方法。现有的匹配方法仅从地址文字出发进行匹配,而忽略地址作为一个实体蕴含着丰富的地理知识,这些知识可以有效地协助匹配过程,由此,提出注意力知识图谱的中文地址匹配方法,从而解决复杂中文地址匹配准确率低的问题。通过对传统的标准地址库进行地址分词以及特征抽取,建立标准地址知识图谱与POI知识图谱;采用基于选择注意力机制的知识图谱关系抽取方法来进行对地址的特征提取,从而进行地址分类;通过计算知识图谱实体相似度,从而进行非标中文地址的地址匹配。实验结果表明,该方法较基于Jaccard相似度的地址匹配方法、基于动态规划的地址匹配方法、基于Sorensen Dice的全文检索地址匹配方法和基于bert4keras预训练模型的地址匹配方法准确率分别提高了11.05%、15.30%、11.05%、0.95%,有效对复杂中文地址进行匹配。  相似文献   

8.
传统的地址匹配方法往往难以胜任中文地址匹配问题.首先,每个中文单字都是独立整体,在纠错上难度大于英文,其次中文地址体系结构复杂,缺乏一个统一的标准.本文结合生物信息领域的序列比对思想,提出了一种基于动态规划的中文地址匹配方法.该方法将中文单字看成字符单元,对中文地址进行序列化,改进Smith-waterman算法进行序...  相似文献   

9.
互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。  相似文献   

10.
 目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。  相似文献   

11.
李晓林  黄爽  卢涛  李霖 《计算机应用》2017,37(3):876-882
由于互联网上中文地址的非规范化表达,导致互联网中的中文地址信息在地理位置服务中难以直接应用。针对此问题,提出一种非规范中文地址的行政区划提取算法。首先,对原始数据进行“路”特征词分组预处理;再利用行政区划字典和移动窗口最大匹配算法,从中文地址中提取所有可能的行政区划数据集;然后,利用中文地址行政区划元素之间具有层次关系的特点,建立行政区划条件集合运算规则,对获取的数据集进行集合运算;再利用行政区划匹配度建立一种行政区划集合解析规则,来计算行政区划可信度;最后,得到可信度最大信息量最完整的中文地址的行政区划。利用从互联网中提取的约25万条中文地址数据进行是否采用“路”特征词分组处理以及是否进行可信度计算处理,对算法的可用性进行了验证,并与目前的地址匹配技术进行对比,准确率达到93.51%。  相似文献   

12.
为帮助数据持有者规避法律风险,有必要对数据集中的个人信息做检测和统计.然而当前尚缺有效工具支持检测中文数据集中的个人信息.为应对上述问题,根据法律文献整理出需要检测的个人信息类别,提出综合了模式匹配与自然语言处理技术的个人信息自动化检测框架,对中文文本中的个人信息进行检测.同时,提出一种识别家庭住址的方法,解决地址格式...  相似文献   

13.
翁兆琦  张琳 《计算机工程》2021,47(10):97-102
现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个文本深层次的语义交互矩阵,同时考虑语序信息之间和结构信息之间的交互以及文本内部的依赖关系,从而得到含有丰富信息的语义向量,并通过语义推理计算出两文本之间的语义匹配度。实验结果表明,相比在英文数据集上表现良好的DSSM、ESIM和DIIN模型,MAII模型在CCKS 2018问句匹配大赛的中文数据集上达到77.77%的准确率,表现出更好的匹配性能。  相似文献   

14.
智能机器人、移动作业终端的应用加速了变电站的无人值守,需对此等各类设备进行统一网络管理和监控,尤其是对非法接入的终端要进行检测和甄别。由于无法排除非法终端伪造MAC地址信息的可能性,因此需以位置信息作为终端身份标识,从而实现对于非法终端的检测甄别。目前,对于机器人的定位方法主要有计算距离法与数据库匹配法。本文结合三角距离计算与数据库匹配法得出一种新的融合定位算法,依据信息论中信息熵的概念确定熵权,提高智能机器人定位准确度,提升对非法终端的检测能力。  相似文献   

15.
基于模糊匹配策略的城市中文地址编码系统   总被引:1,自引:0,他引:1       下载免费PDF全文
在研究空间数据地址编码技术的基础上,根据城市地址数据库特定存储格式,选取适于城市中文地址的切分方案,提出一种基于K叉地址树的模糊匹配策略,将地址数据以K叉树形式进行存储。采用分支定界思想探测并排除无效匹配结点,并应用模糊规则对匹配结果进行评价及筛选,从而提高地址匹配的效率和准确度。应用杭州市1∶10 000矢量地图数据验证了该编码系统的有效性。  相似文献   

16.
针对软件定义网络(SDN)中交换机流表匹配率低的问题,提出了数据流特征感知的交换机流表智能更新方法。首先,论述流表项的生存超时时间timeout对数据包匹配的影响,并且分析比较基于先进先出(FIFO)、近期最少使用(LRU)等一般方法存在的不足;其次,根据流表项的生存时间和数据流的特征密切相关的思想,利用基于隐马尔可夫模型(HMM)的深度流检测(DFI)技术对数据流进行分类;最后,根据流表资源和控制器计算资源状况,实现对不同类型数据流流表项的智能更新。采用校园数据中心网络行为数据的模拟实验表明,与流表更新的一般方法相比,智能方法能使流表匹配率提高5%以上,对SDN交换机的管理有实际意义。  相似文献   

17.
地址匹配是危化品运输交通起止点调查分析的关键技术之一。为解决复杂非标危化品道路运输地址匹配精度较低的问题,通过构建自扩展中文分词及自扩展的地址数据知识图谱,基于全文索引知识图谱进行危化品运输中文地址的匹配,纳入加权拼音全文搜索机制以提高拼写错误地址的匹配准确率,结合在线地理解析接口构建危化品运输地址多重匹配机制,并对少量疑难地址执行半监督匹配,形成了完整的危化品运输地址匹配方法体系。针对危化品运输电子运单地址数据的计算表明,算法能实现复杂中文危险化学品运输地址匹配的高准确率及高精度。在随机地址测试集中准确率达94.6%,在较难分类地址测试集中准确率达67.5%,在较难分类地址匹配的准确率及精度上均相比于通用匹配方法及地理搜索引擎有大幅度的提升。  相似文献   

18.
When images are rotated and the scale varies or there are similar objects in the images, wrong matching points appear easily in the scale invariant feature transform (SIFT). To address the problem, this paper proposes a SIFT wrong matching points elimination algorithm. The voting mechanism of Generalized Hough Transform (GHT) is introduced to find the rotation and scaling of the image and locate where the template image appears in the scene in order to completely reject unmatched points. Through a discovery that the neighborhood diameter ratio and direction angle difference of correct matching pairs have a quantitative relationship with the image’s rotation and scaling information, we further remove the mismatching points accurately. In order to improve image matching efficiency, a method for finding the optimal scaling level is proposed. A scaling multiple is obtained through training of sample images and applied to all images to be matched. The experimental results demonstrate that the proposed algorithm can eliminate wrong matching points more effectively than the other three commonly used methods. The image matching tests have been conducted on images from the Inria BelgaLogos database. Performance evaluation results show that the proposed method has a higher correct matching rate and higher matching efficiency.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号