首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
基于词条时序的朴素贝叶斯垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法是一种有效的垃圾邮件过滤技术.互联网上的信息随着时间推移产生概念的变迁,最近出现的垃圾邮件词条可作为判定垃圾邮件的重要依据.将新近的垃圾邮件词条单独记录,在进行邮件分类时,对于最近出现的垃圾词条,提高其对垃圾邮件判定的先验概率.通过实验对比,提出的垃圾邮件过滤方法较传统的朴素贝叶斯垃圾邮件过滤具有更高的准确性、精确性和召回率.  相似文献   

2.
以匹配"是一个"模式的句子作为研究对象,提出了一种基于句法分析与规则匹配相结合的上下位关系抽取方法.针对结构复杂的句子中下位概念抽取困难的问题,借助句法分析的结果,给出了下位概念中心词的获取方法;结合中心词位置信息和概念边界信息,设计了合适的下位概念抽取规则.实验结果具有较高的准确率和召回率,证实了方法的有效性.  相似文献   

3.
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取.该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本.实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%.本算法对于包含过多短文本的网页抽取的准确度还有待提高.  相似文献   

4.
由于人们对产品指标执行情况的关心日益增加,人们需要一种能够清晰描述产品指标的方法,而以本体为基础描述产品指标的方法由于其清晰的领域知识结构能够为统计分析打好基础成为目前研究者研究的主要方向之一。为了减少产品指标本体构建对领域专家的依赖度,文中提出了一种双策略结合的产品指标本体概念抽取模式,针对产品指标数据的结构特点,融合两种分类特征重叠范围较小的策略分别对关键词赋予权重并加权排序,之后可由人工挑选或设定阈值确定领域概念。实验证明使用该方法抽取概念相较于单一策略准确性有所提高,且抽取结果是有效的。  相似文献   

5.
多标签分类已在很多领域得到了实际应用,所用标签大多具有很强的关联性,甚至存在非完备标签或部分标签遗失。然而,现有的多标签分类算法难以同时处理这两种情况。基于此,提出一种新的概率模型处理方法,实现同时对具有标签关联性和遗失标签情况进行多标签分类。该方法可以自动获知和掌握多标签的关联性。此外,通过整合遗失的标签信息,该方法能够提供一个自适应策略来处理遗失的标签。在完备标签和非完备标签的数据上进行实验,结果表明,与现有的多标签分类算法相比,提出的方法得到了较好的分类预测评价值。  相似文献   

6.
赵世奇  刘挺  李生 《电子学报》2009,37(5):975-980
 本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右.  相似文献   

7.
苏江文 《电子设计工程》2022,30(2):106-109,114
为更好判定远程监督语句中的实体语义关系,实现对语言处理信息的准确提取,提出基于深度学习的远程监督关系抽取方法.借助远程监督方法,获取关系三元组中已存储的信息参量,再通过待学习数据标注的方式,完成远程监督关系的抽取数据集构建.在此基础上,设计监督执行框架,利用已定义的句子级别特征条件,实现对待抽取标签的学习处理,完成基于...  相似文献   

8.
构建领域本体的首要任务是获取领域相关的概念,这些概念很多是由常用词典库中没有收录的领域合成词组成,因此抽取领域合成词对于领域本体的构建至关重要.本文基于语言规则和统计技术,提出一种结合改进互信息和语言模板的领域合成词抽取方法.首先利用改进的互信息算法抽取由多字词单位构成的高频次候选领域合成词,在此基础上,利用语言模板匹配抽取低频次候选领域合成词,最后由专家进行检验,得到领域合成词集.实验结果表明,该算法的领域合成词提取准确率达到88.22%,适用于从大规模网页文本中自动高效地抽取领域合成词.  相似文献   

9.
RFID(Radio Frequency Identification)射频识别系统中,如何在识别标签基本信息的基础上进一步精准地感知标签的实时位置一直是一个重要问题.本文首次提出一种基于二维相控阵天线的非测距RFID标签定位方法(Phased Array based Range Free Tag Localization,PATL).该方法利用相控阵天线辐射波束角度可调的特点,对搜索平面依次进行扫描,并通过统计不同天线区域内标签出现的次数,利用加权算法给出标签的二维位置.该方法能够在不借助参考标签或辅助设备的前提下对多个目标标签进行实时定位.通过利用一款集成有相控阵天线的商用超高频RFID阅读器对方法进行了实验验证.结果表明,算法的定位精度能达到21cm.  相似文献   

10.
评价对象抽取的研究难点在于如何精确地表示大范围的上下文信息.本文针对微博观点句,采用了基于双向循环神经网络(BRNN)的方法来抽取评价对象并对评价对象的情感倾向进行判定.BRNN的隐藏层对上下文进行了抽象,如果经过良好地训练,就能在循环处理句子时有效地表示远距离的有序上下文信息,而无需对上下文窗口长度进行限定.本文选择了词、词性、依存句法树以及产品词典等特征构建了BRNN模型.通过实验发现,上述4种特征组合获得了最优实验结果,通过与CRF模型的对比,本文提出的方法在相互覆盖模式下F值比CRF模型高出0.61%,验证了本文方法的有效性.本文方法在COAE2015任务3的资源受限评测任务中,获得了最好结果.  相似文献   

11.
孙雪  李昆仑  韩蕾  白晓亮 《电子学报》2015,43(7):1356-1361
现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性.  相似文献   

12.
一种新词自动提取方法   总被引:1,自引:0,他引:1  
当前网络语料会不断出现大量新词已经成为一种普遍的趋势,这里面包含大量网友创造的新词,以及一些社会热点形成的新词。同时社交网络产生的社交性语料存在大量口语化、简称和随意的表达。这些都对中文分词的准确性造成了困扰。本文提出了一种新词自动提取方法,旨在能准确快速地在特定的语料里提取新词,生成特定领域词典,更准确地对网络语料进行中文分词。通过从语料中提取候选词,计算候选词的支持度和置信度,通过阈值刷选出新词,从而实现从海量文本中准确且快速的提取新词。  相似文献   

13.
In recent years, costly and slow integration has created an unnecessary gap between the telephone companies (or telco) and IT worlds. However, collaboration between Internet and telecom standards is essential for future development. The service broker concept has been developed to fill this gap. Indeed, the service broker provides a flexible layer in the telecom architecture to bridge these two worlds. Such a concept is essential to coordinate the diverse future services and provide mash-up opportunities through a single point of entry. In this article we present the concept and an actual implementation of a specific service broker: a location service broker. Moreover, we also present a sample mashup called MoPoint that we implemented to better demonstrate the functionality of the location service broker. MoPoint is a Web site where the user can see the current location of his or her mobile displayed on a map along with local weather and advertisements.  相似文献   

14.
基于改进注意力机制的实体关系抽取方法   总被引:3,自引:0,他引:3       下载免费PDF全文
实体关系抽取是知识库构建中至关重要的一个环节.在众多的实体关系抽取方法中,远程监督结合神经网络模型的方法在准确率等性能上是比较令人满意的,但远程监督获取的标注语料中往往存在大量的噪声数据,给实体关系抽取模型的训练带来了很大的影响.本文提出一种基于改进注意力机制的卷积神经网络实体关系抽取模型.该模型针对包含同一实体对的句子集合,从中尽可能地找出所有体现该实体对关系的正实例,构建组合句子向量,抛弃可能的噪声句子,从而最大程度地降低噪声句子的影响又能充分利用正实例的语义信息.实验证明,本文提出的关系抽取模型在准确率上优于对比的关系抽取模型.  相似文献   

15.
在分析传统语义相似度计算方法的基础上,综合考虑了边的深度、密度、强度及两个概念的语义重合度、层次差等主要影响因素,提出了一种基于语义树的概念相似度计算方法,并验证了该算法的合理性.  相似文献   

16.
马路遥  夏博  肖叶  荀恩东 《电子学报》2020,48(5):833-839
语言资源加工和语言学研究,对大规模树库的结构化检索有很高需求.本文针对句法树语料设计了索引、检索方法.针对汉语的特点以及知识抽取任务的需求,我们设计了七种索引结构,旨在借助句法树的结构、属性信息,进行高效、准确的知识抽取.本方法不仅支持字符串检索、属性检索,也支持基于句法树结构、属性信息的检索.实验证明,本方法高效、准确.  相似文献   

17.
ABSTRACT

Human perception of location and space forms the basis upon which the interaction with location-based services (LBS) takes place. Our work aims to develop a shared awareness and common understanding of location and space,between machines and their users by building upon research into the numerical representation of the visual perception of space. Different structures in buildings like rooms, hallways and doorways form different, corresponding patterns in these representations. Thanks to recent advances in the field of deep learning with neural networks, it now seems possible to explore the idea of automatically learning these recurring structures. This article presents a complete framework: starting from the collection of isovist measures along geospatial trajectories on indoor floor plans,over statistical data analysis, the unsupervised extraction of meaningful structure, up to the training of models that generalize to different environments. We show that isovist measures do reflect the recurring structures found in different buildings, that these recurring patterns are encoded in the data in a way that unsupervised machine learning can identify them andthat the identified structures are meaningful as they represent human relatable concepts.Furthermore, we propose to use cluster similarity analysis as a promising concept for quantifying visual perception similarity.  相似文献   

18.
在对合金弹头内部及近表面缺陷进行超声检测时,由于噪声干扰等原因,使得从超声回波信号中很难识别出缺陷回波的准确位置,进而影响对合金弹头缺陷的准确定位与重构,必须对回波信号进行处理。首先简要论述了合金弹头超声波检测原理和方法,然后针对采集的超声回波信号采用了小波时频分析方法进行缺陷特征提取。实验结果表明:采用小波时频分析方法进行缺陷特征提取能够较准确地判断出合金弹头内部及表面缺陷所存在的位置,为合金弹头的缺陷识别提供了有利的参考。  相似文献   

19.
Rule mining was an important research content of data mining,and it was also a hot research topic in the fields of decision support system,artificial intelligence,recommendation system,etc,where attribute reduction and minimal rule set extraction were the key links.Most importantly,the efficiency of extraction was determined by its application.The rough set model and granular computing theory were applied to the decision rule reduction.The decision table was granulated by granulation function,the grain of membership and the concept granular set construction algorithm gener-ated the initial concept granular set.Therefore,attribute reduction could be realized by the distinguish operator of concept granule,and decision rules extraction could be achieved by visualization of concept granule lattice.Experimental result shows that the method is easier to be applied to computer programming and it is more efficient and practical than the existing methods.  相似文献   

20.
概念格是一种有效的数据分析和知识提取的形式化工具,已广泛应用于机器学习、人工智能、软件工程、知识发现等领域.提出了一种新的基于概念格的图像语义检索方法,将概念格理论应用到图像检索中,利用形式概念分析发现图像中潜在的概念结构和概念间的相互关系.借助于语言变量描述图像语义特征并根据这些模糊语义值构建概念格,用基于概念格的方法进行图像语义检索,这种方法所给的结果与人类视知觉具有更好的一致性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号