首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
由于中文地址命名的不规范性和汉语语言特点,中文地址要素识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法,难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识别效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。  相似文献   

2.
李廷元  杨勇 《现代计算机》2022,(15):81-84+120
随着深度学习的发展,基于深度学习的命名实体识别抽取过程中,作为基础步骤的预训练模型也愈发受到重视。中文预训练语言模型能够更好地结合语义语境,更加充分地考虑到一词多义的情况,因此该语言模型目前也普遍应用于命名实体识别任务。文中首先介绍了BERT、ERNIE、NEZHA三种预训练模型,之后构建预训练模型、BiGRU及CRF的算法模型,在阿里中文地址要素解析比赛数据集上进行中文地址命名实体识别任务。实验结果表明,NEZHA取得当前预训练语言模型最优的识别结果。  相似文献   

3.
由于中文的内涵多义性和形式多样性的特点,使中文地址长期以来存在着难以标准化的问题,对进一步开展地址定位,区域网格分析和社情、舆情定位等工作都造成了较大的障碍。本文针对这个问题提出了基于地址分级模型和有限状态机驱动的新方法,并通过软件开发对这种方法的地址识别率和匹配准确率进行了验证,实验结果显示该方法对中文地址能够达到96%左右的识别率,匹配准确率也达到了85%左右,并且还能实现标准地址库的自动化更新。因此,采取该方法能够有效地解决中文地址标准化困难的问题,具有显著的实用性和研究参考价值。  相似文献   

4.
手写中文地址识别后处理方法的研究   总被引:1,自引:0,他引:1  
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66% ,错误率下降了65.93% ,大大提高了系统的性能。  相似文献   

5.
一种中文地址类相似重复信息的检测方法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的识别与消除是数据清洗的热点问题,其中地址类信息对相同实体识别起着非常重要的作用.针对中文地址类信息的处理,建立了包含分词规则的元数据库,提出一种相似重复检测模型.在此基础上,描述了基于特征字符的分词算法和利用可变权值策略计算记录相似度的算法.实验结果表明该方法能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度.  相似文献   

6.
从数据挖掘的角度对中文地址解构规则的获取与应用进行研究。该文提出了一种高效自动获取地址解构规则的方法:首先利用文本挖掘技术从训练数据集中挖掘出候选规则,然后生成最终的强规则,同时构建地址元素特征词典。最后,根据获取的知识进行地址解析,提取文本地址组成元素。试验结果证实了该方法的可行性。  相似文献   

7.
互联网中中文地址文本蕴含着丰富的空间位置信息,为了更加有效地获取文本中的地址位置信息,提出一种基于地址语义理解的地址位置信息识别方法。通过对训练语料进行词频统计,制定地址要素特征字集合和字转移概率,构造特征字转移概率矩阵,并结合字符串最大联合概率算法,设计了一种不依赖地名词典和词性标注的地址识别方法。实验结果表明,该方法对地址要素特征字突出且存在歧义的中文地址的完全匹配率为76.85%,识别准确率为93.11%。最后,与机械匹配算法和基于经验构造转移概率矩阵的方法进行对比实验,实验结果表明了该方法的可用性和有效性。  相似文献   

8.
地址实体识别是一项在智慧城市建设中应用极其广泛的基础性任务,而在实际的业务数据中,中文地址实体描述经常出现用字生僻、含义模糊、简称乱用等现象,导致现有的基于规则或者基于统计的识别方法,已经难以有效地解决语义层面的深层次地址实体识别问题.针对上述问题,提出了一种基于多维度特征和深度学习模型相结合的中文地址实体识别方法(Bi-LSTM-Self-Attention-CRF).首先,提取语料数据中地址实体的界限特征、词性特征、标签特征以及预先训练好的高维空间的字向量特征作为多维度特征;然后,采用双向的长短期记忆(Bi-LSTM)网络模型捕获输入的地址实体特征;接着,使用自注意力机制(Self-Attention)计算不同特征对地址实体的注意力权重,使用条件随机场(CRF)学习实体标签之间的转移概率矩阵;最后,使用维特比算法预测实体标签的最优序列.在相同的多维度特征基础上,与Bi-LSTM模型和Bi-LSTM-CRF模型相比,所提方法的识别精确率、召回率、F1值均优于对比算法,分别达到了0.891、0.880、0.885.实验结果表明,所提方法的精确率和召回率可以满足实际业务中对地址实体的识别要求.  相似文献   

9.
地址解析协议由于缺少认证机制而容易受到攻击,比如中间人攻击,DoS攻击等,因此其安全问题长久以来一直受到人们的关注。本文对地址解析有关的两个问题进行了研究。首先,证明了地址解析问题的不可判定性,这表明所有采用判定的方式来保障地址解析过程的方法都是不完美的;其次,证明了地址解析过程与重复地址检测过程的等价性。这个结论表明地址解析过程与重复地址检测过程可以互相替代,甚至由同一过程来完成,这将大大简化地址解析协议的设计与实现。  相似文献   

10.
基于分级地名库的中文地理编码的研究   总被引:2,自引:0,他引:2  
孙存群  周顺平  杨林 《计算机应用》2010,30(7):1953-1955
地理编码在城市空间定位和分析领域内具有非常广泛的应用,但由于中文地址没有统一的规范和固定的模式,目前中文地址编码尚无很完善的解决方案。针对这一问题,采用基于分级地名数据库的中文地理编码方法,并详细阐述了实现该方法的关键技术:地名数据库的数据模型、地址串的拆分和地址匹配技术。最后通过实际数据进行验证,实验结果表明,该方案能较好地解决绝大多数地址数据的匹配问题。  相似文献   

11.
词义消歧是自然语言领域中重要的研究课题之一。目前,有监督词义消歧方法已经是解决该问题的有效手段。但是,由于缺乏大规模的训练语料,有监督方法还不能取得满意的效果。该文提出一种基于语言模型的词义消歧优化模型,该模型采用语言模型优化传统的有监督消歧模型,充分利用有监督和语言模型两种模型的消歧优势,共同推导歧义词的词义。该模型可以在训练语料不足的情况下,有效的提高词义消歧效果。在真实数据上表明,该方法的消歧性能超过了参加SemEval-2007:task #5评测任务的最好的有监督词义消歧系统。  相似文献   

12.
A new control method for MIMO first order time delay non-square systems   总被引:1,自引:0,他引:1  
This paper proposes a new method using internal model control (IMC) to design Smith delay compensation decoupling controller for multivariable non-square systems with transfer function elements consisting of first order + time delay. This proposed method is applied to a shell control problem in multiple-input-multiple-output (MIMO) first order plus dead time non-square systems in which the number of input variables exceeds the number of output variables, with input and output variables being 3 and 2 respectively. This method does not only dynamically compensate for shortcoming caused by static decoupling but also overcomes the impact of model error on system performance caused by model approximation and uncertainty. In other words, the design method proposed in this paper is capable of significantly improving dynamic quality and robustness of the control system as can be seen from the simulation results. Moreover, this new method is simple and easy to implement. Integral of squared error (ISE) performance criterion is employed to quantitatively evaluate the design method.  相似文献   

13.
对GML3.0的探讨   总被引:12,自引:0,他引:12  
Internet与GIS结合成互联网地理信息系统(Internet GIS)是GIS软件发展的必然趋势,Internet GIS用于分布式地理信息的在线发布,并为分布式地理信息提供在线实时处理与分析的工具。对GML3.0(Geography Markup Language 3.0,地理标记语言)的发展和核心技术进行了深入的研究,其主要内容包含了GML3.0的数据类型、要素、要素集合、几何模型的类型及元素、时态、层等,给出了一些内容模型以及相关内容的UML表示,还给出了使用GML3.0进行数据共享和互操作的应用实例,并对未来的GML版本进行了预测。  相似文献   

14.
丁玲  向阳 《计算机科学》2021,48(5):202-208
事件检测是信息抽取领域中一个重要的研究方向,其主要研究如何从非结构化自然语言文本中提取出事件的触发词,并识别出事件的类型。现有的基于神经网络的方法通常将事件检测看作单词的分类问题,但是这会引起中文事件检测触发词与文本中词语不匹配的问题。此外,由于中文词语的一词多义性,在不同的语境下,相同的词语可能会存在歧义性问题。针对中文事件检测中的这两个问题,提出了一个分层次多粒度语义融合的中文事件检测模型。首先,该模型利用基于字符序列标注的方法解决了触发词不匹配的问题,同时设计了字符-词语融合门机制,以获取多种分词结果中词语的语义信息;然后,通过设计字符-句子融合门机制,考虑整个句子的语义信息,学习序列的字-词-句混合表示,消除词语的歧义性;最后,为了平衡"O"标签与其他标签之间的数量差异,采用了带有偏差的损失函数对模型进行训练。在广泛使用的ACE2005数据集上进行了大量实验,实验结果表明,所提模型在精确率(Precision, P)、召回率(Recall, R)和F1值这3个指标上比现有的中文事件检测模型至少高出3.9%,1.4%和2.9%,证明了所提方法的有效性。  相似文献   

15.
与 exascale 来超级计算的时代,电源效率成为了最重要的障碍造一个 exascale 系统。Dataflow 建筑学在为科学应用完成高电源效率有本国的优点。然而,最先进的 dataflow 体系结构没能为循环处理利用高并行。处理这个问题,我们建议一个 pipelining 环优化方法(PLO ) ,它在处理元素(PE ) 在环流动做重复 dataflow 的数组加速器。这个方法由二种技术,帮助建筑学的硬件重复和帮助说明的软件重复组成。在硬件重复执行模型,一个在薄片上循环控制器被设计产生循环索引,减少计算内核并且打为 pipelining 执行的一个好基础的复杂性。在软件重复实行模型,另外的环指令被论述解决重复相关性问题。经由这二种技术,准备好了每周期执行的指令的平均数字被增加使浮点联合起来忙。当这二种技术的硬件费用是可接受的时,模拟结果证明分别地,我们的建议方法平均由 2.45x 和 1.1x 在浮点效率超过静电干扰和动态循环执行模型。  相似文献   

16.
一种新颖的词聚类算法和可变长统计语言模型   总被引:10,自引:0,他引:10  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。但该方法的两个主要瓶颈颈在于:(1)词的聚类。目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法。(2)基于类的模型为增强对不同领域语料的适应性能往往牺牲了一部分预测能力。该文的工作就是围绕这两个瓶颈问题展开的,在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法。实验证明,该算法在算法复杂度和聚类效果  相似文献   

17.
自然语言处理任务中词处理是基础性的工作,其结果直接影响后续任务的效果。词干和构形附加成分是哈萨克语单词的组成成分,其中词干显示单词的主要意义,而构形附加成分中包含着词法和句法信息,因此词干切分是对哈萨克语进行有效处理的基础。文中构建了哈萨克语词干切分语料库,并通过将哈萨克语词干切分看作是序列化标注问题,提出一种有效的哈萨克语词标注方法,并基于最大熵模型和条件随机场模型构建了对比词干切分实验。结果表明基于条件随机场模型的词干切分准确率比现有最好的哈萨克语词干切分系统的准确率有15%的提高。该方法对哈萨克语词干切分相较于基于规则的方法有了一定的提升。  相似文献   

18.
基于语义和Hopfield网络的模糊汉字识别   总被引:7,自引:0,他引:7  
谭旭  乐晓波  朱亨荣  陈荣元 《计算机工程》2004,30(22):140-141,189
模糊不清汉字的辨认在文本处理中是一个尚未完全解决的难题,该文提出了一种基于语义分析和Hopfield网络相结合的算法,在一定程度上可以解决印刷字体中较为模糊不清汉字的识别问题。实验结果表明,该方法的识别正确率较高。  相似文献   

19.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

20.
多值模型检测是解决形式化验证中状态爆炸问题的一种重要方法,三值模型检测是多值模型检测的基础,其中如何检验不确定状态的真值是一难点。针对不确定状态检验,提出了一种模型检测方法,首先对不完全Kripke结构PKS进行了扩展,然后在扩展后的模型上给出了检测不确定状态真值的方法,最后给出了基于扩展不完全Kripke结构的三值逻辑模型检测算法。与已有的三值逻辑模型检测算法相比,该算法降低了算法复杂度,完善了对于不确定或不一致信息的处理,从而增强了三值逻辑模型检测的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号