首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
庞立会  江峰 《计算机科学》2017,44(3):158-162
防火墙是确保网络安全的关键设施,而规则匹配又是防火墙的核心技术。随着网络技术的发展,互联网体系结构正逐渐从IPV4向IPV6结构发展,原有的IPV4防火墙规则匹配算法很难直接应用于IPV6网络环境,因为IPV6协议所能表示的地址范围远远超过IPV4协议对应的地址范围。因此提出了一种适用于IPV6环境的高性能规则匹配算法HiPRM(High Performance Rule Matching)。HiPRM算法的核心思想是依据规则的协议和目的端口分布特征,先把整个规则集划分成多个子规则集,再利用位选取算法对规则的源和目的IPV6地址组合的特定位进行选取,然后据此构建二叉查找规则树,最后利用规则树把多个规则子集划分成若干个更小的规则集合。而当报文匹配到某个更小的规则集合时,在小规则集中利用线性匹配法确定具体匹配的对应规则。分析和测试表明,HiPRM算法可以在时间复杂度和空间复杂度较低的情况下实现报文的高速匹配,且具有较好的规则集适应性。  相似文献   

2.
提出一种基于聚类分析的中文客户地址自动分组方法.该方法考虑了客户地址的噪声数据,首先利用标准中国邮政编码数据中的邮政编码、省份与城市等信息来判断客户地址的有效性,然后通过字符串匹配反馈学习的方法对有效客户地址进行中文分词,将分词结果利用向量空间模型进行表示后再基于改进的混合K均值微粒群聚类方法将地址聚类,通过结合模拟退火算法来避免搜索陷入局部极小,最终根据最优微粒确定的聚类中心产生地址分组.采用真实地址数据进行对比实验的结果验证了该方法的有效性.  相似文献   

3.
 目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。  相似文献   

4.
中文地址具有广泛的应用领域和应用价值,地址标准化是地址编码的基础,而地址编码技术是利用好地址数据的重要一环。本文基于双数组的极速多模式匹配的trie树来进行初步分词和词性标注,利用最长后缀匹配能够非常快速地找出包含行政区划的地址元素,以此为基础可以将地址切分成不同地址元素并标注等级,建立地址向量模型(AVSM)。将AVSM中行政区划部分地址数据进行条件组合,找出可能的行政区划候选值。采用余弦相似度算法,计算出最佳的行政路径。对于后续非行政区等级元素,使用概率地址模型对各等级元素进行概率统计,利用贝叶斯求出最佳的组词概率,进一步处理其它各个级别的地址。最后通过有限状态机能够对整个地址等级进行各级元素的隶属调整和实现不同等级具体修复方法。该方法能够保证在海量的地址数据中实现快速切分的同时对行政缺失的地址数据进行补全,利用关键词和概率模型有效地识别登录词,兼顾分词性能和可维护性。  相似文献   

5.
中文地址由行政区划地址和详细地址两部分组成,行政区划地址的处理可通过构建地址词典、分词、补充特征字等方式清洗,目前技术较为成熟。详细地址则随我国城镇化的发展而不断变化,且新的地址层出不穷,导致其清洗和规范化工作极其困难。在研究大数据量中文地址的基础上,提出了中文地址清洗模型,在行政区划地址先清洗并规范的前提下,对地址进行排序,利用SNM算法将详细地址聚集在一个较小的窗口内,对窗口内的地址进行匹配和清洗,实验结果证明清洗效果良好。  相似文献   

6.
为寻求计算多状态网络系统可靠度更为简明的方法,提出了一种d-最小割、路集转换算法。该算法在已知d-最小割(路)集的基础上,基于逻辑代数理论,通过展开和之积表达式获得d-最小路(割)集,再基于两者中数量较少的一个运用容斥原理,得到网络可靠度。同时,分别利用容量未取最大和不为0的边及对应取值组成的集合对表示d-最小割(路),基于集合之间的隶属关系及将集合运算中正常的先取逆再合并的运算顺序变为先合并再取逆的思想,提出相关引理,简化算法。通过复杂度分析,证明算法有效。算例证明了算法的有效性和适用性。  相似文献   

7.
陈丽芳  王云  张奉 《计算机应用》2015,35(11):3222-3226
针对静态算法对大数据和增量数据处理不足的问题,构造了基于粗决策树的动态规则提取算法,并将其应用于旋转机械故障诊断中.将粗集与决策树结合,用增量方式实现样本抽取;经过动态约简、决策树构造、规则提取与选择、匹配4个步骤的循环迭代过程,实现了数据的动态规则提取,使得提取的规则具有更高的可信度;同时,将算法应用于旋转机械故障诊断这一动态问题中,验证了算法的有效性;最后,将所提算法分别与静态算法和增量式动态算法进行了效率对比分析,实验结果表明,所提算法能够以最精简的规则获得更多数据隐含信息.  相似文献   

8.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词.  相似文献   

9.
互联网中中文地址文本蕴含着丰富的空间位置信息,为了更加有效地获取文本中的地址位置信息,提出一种基于地址语义理解的地址位置信息识别方法。通过对训练语料进行词频统计,制定地址要素特征字集合和字转移概率,构造特征字转移概率矩阵,并结合字符串最大联合概率算法,设计了一种不依赖地名词典和词性标注的地址识别方法。实验结果表明,该方法对地址要素特征字突出且存在歧义的中文地址的完全匹配率为76.85%,识别准确率为93.11%。最后,与机械匹配算法和基于经验构造转移概率矩阵的方法进行对比实验,实验结果表明了该方法的可用性和有效性。  相似文献   

10.
针对现有信息检索系统中存在的词不匹配问题,本文提出一种基于负关联规则挖掘与特征词抽取融合的局部反馈查询扩展算法。该算法首先从前列n篇初检局部文档中抽取特征词,建立特征词库;然后,对特征词库挖掘同时含有查询词和非查询词的频繁项集和非频繁项集,由此挖掘前件是查询项的负关联规则,提取负关联规则的后件作为负关联特征词,计算负关联特征词与原查询的相关性,根据相关性在特征词库中删除负关联特征词,将余下的特征词作为最终扩展词,和原查询组合成新查询实现查询扩展。实验结果表明,该算法能有效地提高和改善信息检索性能。  相似文献   

11.
基于最大熵模型的中国人名自动识别   总被引:1,自引:0,他引:1       下载免费PDF全文
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。  相似文献   

12.
余玄璇  曾国荪  丁春玲 《计算机应用》2014,34(11):3273-3278
为从质量参差不齐的海量网络科技文献中准确高效地找出所需的有价值文献,基于标题与正文的一致性匹配思想,提出了基于标题与正文匹配的科技论文可信质量评估方法。该方法首先将标题与正文分别用特征向量建模,利用词相似度,对标题向量和正文向量中的每个特征词进行相似度计算,取相似度大于一定阈值的词对为匹配成功的特征词对;然后,统计所有匹配成功的词对数量及词权重,计算出一个标题的可信度;最后,通过论文标题分层树型结构,利用树的深度遍历算法,计算所有标题与其对应正文的相似匹配程度,进而评估整篇科技论文的可信度。《知网》实例分析表明:该方法实现了科技论文可信质量评估,使得读者无须阅读大量科技论文,就能挑选出可信或者具有实际的参考价值的科技论文,降低了信息搜索成本,提高了决策效率。  相似文献   

13.
Bolin Yan 《Pattern recognition》1993,26(12):1855-1862
The semiconormed possibility integrals are proposed as a multi-feature pattern classification model. A semiconormed possibility integral is a nonlinear integration of a function and its corresponding non-normalized possibility measures over feature space. The function of an object's feature vector represents the possibilities with uncertainty that the object belongs to a class. The uncertainty is due to the similar characteristics of objects from different classes and the distortion of the original characteristic information caused by feature data acquisition systems. The uncertainty is assessed by the non-normalized possibility measures, a possibility measure of a feature is considered as the credibility of the feature to provide reliable information for pattern classification. Integration of a function and the possibility measures effectively reduces the uncertainty and improves the pattern classification results. A pattern classification algorithm based on the semiconormed possibility integrals was used to classify a set of “ellipse data” and the well-known IRIS data, the classification results were compared with those obtained by using Bayes classifier.  相似文献   

14.
地址匹配是危化品运输交通起止点调查分析的关键技术之一。为解决复杂非标危化品道路运输地址匹配精度较低的问题,通过构建自扩展中文分词及自扩展的地址数据知识图谱,基于全文索引知识图谱进行危化品运输中文地址的匹配,纳入加权拼音全文搜索机制以提高拼写错误地址的匹配准确率,结合在线地理解析接口构建危化品运输地址多重匹配机制,并对少量疑难地址执行半监督匹配,形成了完整的危化品运输地址匹配方法体系。针对危化品运输电子运单地址数据的计算表明,算法能实现复杂中文危险化学品运输地址匹配的高准确率及高精度。在随机地址测试集中准确率达94.6%,在较难分类地址测试集中准确率达67.5%,在较难分类地址匹配的准确率及精度上均相比于通用匹配方法及地理搜索引擎有大幅度的提升。  相似文献   

15.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

16.
随着信息技术的迅猛发展,建设新型高效智慧型城市已成为趋势。智慧城市中有大量以地理信息为基础的应用场景,如在城市规划建设、城市便民生活服务、城市细化管理等都离不开地理信息。由于中文地址的复杂性与人工输入的不确定性,地址数据不规范性、不一致、不明确现象给业务系统之间与内部带来了很多困难。急需优秀的中文地址匹配方法。现有的匹配方法仅从地址文字出发进行匹配,而忽略地址作为一个实体蕴含着丰富的地理知识,这些知识可以有效地协助匹配过程,由此,提出注意力知识图谱的中文地址匹配方法,从而解决复杂中文地址匹配准确率低的问题。通过对传统的标准地址库进行地址分词以及特征抽取,建立标准地址知识图谱与POI知识图谱;采用基于选择注意力机制的知识图谱关系抽取方法来进行对地址的特征提取,从而进行地址分类;通过计算知识图谱实体相似度,从而进行非标中文地址的地址匹配。实验结果表明,该方法较基于Jaccard相似度的地址匹配方法、基于动态规划的地址匹配方法、基于Sorensen Dice的全文检索地址匹配方法和基于bert4keras预训练模型的地址匹配方法准确率分别提高了11.05%、15.30%、11.05%、0.95%,有效对复杂中文地址进行匹配。  相似文献   

17.
传统的中文地名地址匹配技术难以处理大数据环境下海量、多样和异构的智慧城市地理信息空间中的中文地名地址快速匹配问题。提出了一种Spark计算平台下基于中文地名地址要素的匹配框架及应用智能决策的匹配算法(An Intelligent Decision Matching Algorithm,AIDMA)。首先,从中文地名地址中富含的语义性和中文字符串、数字与字母之间的自然分隔性两个方面进行地址要素解析,构建了融合多距离信息的贝叶斯推理网络,从而提出了基于多准则评判的中文地名地址匹配决策方法。然后,利用芜湖市514967条脱敏后的燃气开户中文地名地址信息库与1770979条网格化社区中的中文地名地址信息库(包含网格化地址的地理空间信息)进行实验与分析。实验结果表明,在处理大规模中文地名地址信息时,相比于传统的中文地名地址匹配方法,该方法能够有效提高单条中文地名地址的匹配效率,同时在匹配度与精确度两个指标上匹配结果更加均衡。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号