共查询到20条相似文献,搜索用时 125 毫秒
1.
2.
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。 相似文献
3.
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取.并采用基于转换的错误驱动方法对提取的实例进行适用规则提取,在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%.召回率达到92.5%.是一种有效的专有名词识别方法。 相似文献
4.
基于业务规则的错误数据清理方法 总被引:3,自引:1,他引:3
针对数据源中出现的错误数据,分析了业务规则在错误数据清理中的重要作用,提出了一种基于业务规则的错误数据检测方法,并研究了如何采用业务规则来检测这些错误数据。最后,以一个实例介绍了该方法的应用。 相似文献
5.
内核扩展函数以接口的形式提供给驱动,用于管理设备和申请相关的资源.这些接口中存在大量的顺序依赖规则,如自旋锁必须经过初始化才能加锁,然后才能解锁;驱动在加载时申请的内存,卸载时必须予以释放等.然而,驱动开发者常常不熟悉或疏忽内核接口的使用规则,导致驱动中存在大量的接口使用违例,影响驱动及系统的可靠运行.文中提出了一种面向内核接口的顺序依赖规则挖掘与违例检测方法(SD-Miner).该方法结合驱动源码的结构特征,对驱动代码使用的内核接口进行统计分析,挖掘并提取内核接口的顺序依赖规则,并利用提取的规则检测现有的驱动源码中的使用违例.SD-Miner对Linux 3.10.10和2.6.38的驱动源码分别进行了规则挖掘和违例检测.对比检测结果发现,在2.6.38中检测出的错误中,有64处在3.10.10中得到了修正.SD-Miner检测和分析Linux 3.10.10的3781款驱动的过程仅耗费5 min,共计提取出了220个顺序依赖相关的接口使用规则,并检测到了756个使用违例,作者将其中50个提交给了开发者,累计有25个回复者对20个使用违例进行了确认.实验结果表明,SD-Miner能够有效地挖掘出内核接口的顺序依赖规则,并检测出使用违例,进而辅助开发人员对驱动进行修正来提高驱动可靠性.此外,规则的挖掘是基于驱动的结构信息和统计信息,不需要开发者在源码中提供额外的注释及标注. 相似文献
6.
Linux内核版本频繁升级对驱动程序带来的关联影响程度和影响范围都很大,为了修复这种关联影响带来的驱动程序调用内核接口的不一致性错误,不断修改旧版本驱动代码进行前向移植是一个持续和紧迫的问题.驱动演化辅助理解、驱动移植中间库辅助适配和驱动移植辅助信息等方面的已有研究,通过检索语句级别的辅助信息提高了驱动移植的效率.但是已有方法仅关注了检索辅助信息本身却并没有区分其中包含的有效补丁素材,因此还需要人工分析和手工构造适配性补丁.为了克服上述限制,提出了一种全新的方法旨在推荐驱动前向移植中接口错误的高质量补丁.观察发现,依赖相同内核接口服务的多个不同驱动程序之间存在相同或相似的内核接口调用,内核版本升级后其他驱动的历史开发信息中可能存在这种复用接口及其使用变更的已有实例代码.利用出错接口语句和相似已有实例的共性分析错误问题的特点,通过已有实例的辅助作用抽取针对性的接口修改方式和修改内容等细粒度素材生成待推荐补丁.具体结合分界点识别、相似度计算、细粒度差异比较和频度计算确定有效修改方式.提出了一种基于已有实例差异特征的分类算法,通过区分修改内容的不同类型分别从2种数据源提取.最后使用编辑脚本技术生成推荐补丁列表.在9个不同类型的真实驱动程序上的实验表明,该方法能够推荐驱动移植中7类接口错误补丁,有效补丁占比约67.4%,对现有辅助方法形成了有效补充和拓展. 相似文献
7.
8.
9.
针对中文问题分类的中心词识别不准确的问题, 提出了一种基于条件随机场(CRF)和错误驱动学习相结合的识别方法。该方法采用CRF模型对问题的中心词进行初始标注, 依据词的上下文信息用错误驱动的学习方法对其标注结果进行纠正。在训练有序规则的过程中, 为了减少训练时间, 结合中心词的特点对错误驱动算法进行了改进。实验结果表明, 该方法在一定程度上提高了中心词的标注精度, 达到88%。 相似文献
10.
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到
到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。 相似文献
到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。 相似文献
11.
多示例学习以示例组成的包作为训练样本,学习的目的是预测新包的类型。从分类角度上,处理问题的策略类似于以均质对象为基本处理单元的面向对象影像分类。针对两者之间理论和方法相似性,将多样性密度多示例学习算法与面向对象方法相结合用于高分辨率遥感图像分类。以图像分割方法获取均值对象作为示例,利用多样性密度算法对样本包进行学习获取最大多样性密度示例,最后根据相似性最大准则对单示例包或是经聚类算法得到的新包进行类别标记,以获取最终分类结果。通过与SVM分类器的比较,发现多样性密度算法的平均分类精度都在70%以上,最高可达96%左右,且对小样本问题学习能力更强,结果表明多示例学习在遥感图像分类中有着广泛应用前景。 相似文献
12.
13.
在多示例学习中引入利用未标记示例的机制,能降低训练的成本并提高学习器的泛化能力。当前半监督多示例学习算法大部分是基于对包中的每一个示例进行标记,把多示例学习转化为一个单示例半监督学习问题。考虑到包的类标记由包中示例及包的结构决定,提出一种直接在包层次上进行半监督学习的多示例学习算法。通过定义多示例核,利用所有包(有标记和未标记)计算包层次的图拉普拉斯矩阵,作为优化目标中的光滑性惩罚项。在多示例核所张成的RKHS空间中寻找最优解被归结为确定一个经过未标记数据修改的多示例核函数,它能直接用在经典的核学习方法上。在实验数据集上对算法进行了测试,并和已有的算法进行了比较。实验结果表明,基于半监督多示例核的算法能够使用更少量的训练数据而达到与监督学习算法同样的精度,在有标记数据集相同的情况下利用未标记数据能有效地提高学习器的泛化能力。 相似文献
14.
15.
Extracting Web Data Using Instance-Based Learning 总被引:1,自引:0,他引:1
This paper studies structured data extraction from Web pages. Existing approaches to data extraction include wrapper induction
and automated methods. In this paper, we propose an instance-based learning method, which performs extraction by comparing
each new instance to be extracted with labeled instances. The key advantage of our method is that it does not require an initial
set of labeled pages to learn extraction rules as in wrapper induction. Instead, the algorithm is able to start extraction
from a single labeled instance. Only when a new instance cannot be extracted does it need labeling. This avoids unnecessary
page labeling, which solves a major problem with inductive learning (or wrapper induction), i.e., the set of labeled instances
may not be representative of all other instances. The instance-based approach is very natural because structured data on the
Web usually follow some fixed templates. Pages of the same template usually can be extracted based on a single page instance
of the template. A novel technique is proposed to match a new instance with a manually labeled instance and in the process
to extract the required data items from the new instance. The technique is also very efficient. Experimental results based
on 1,200 pages from 24 diverse Web sites demonstrate the effectiveness of the method. It also outperforms the state-of-the-art
existing systems significantly. 相似文献
16.
Antonio D. Masegosa David A. Pelta Juan R. Gonz��lez 《Soft Computing - A Fusion of Foundations, Methodologies and Applications》2011,15(2):233-250
Having in mind the idea that the computational effort and knowledge gained while solving a problem’s instance should be used
to solve other ones, we present a new strategy that allows to take advantage of both aspects. The strategy is based on a set
of operators and a basic learning process that is fed up with the information obtained while solving several instances. The
output of the learning process is an adjustment of the operators. The instances can be managed sequentially or simultaneously
by the strategy, thus varying the information available for the learning process. The method has been tested on different
SAT instance classes and the results confirm that (a) the usefulness of the learning process and (b) that embedding problem
specific algorithms into our strategy, instances can be solved faster than applying these algorithms instance by instance. 相似文献
17.
18.
多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直接的思路是采用退化策略,通过向多示例学习或多标记学习的退化,将MIML框架下的分类问题简化为一系列的二类分类问题进行求解.但是在退化过程中会丢失标记之间的关联信息,降低分类的准确率.针对此问题,本文提出了MIMLSVM-LOC算法,该算法将改进的MIMLSVM算法与一种局部标记相关性的方法ML-LOC相结合,在训练过程中结合标记之间的关联信息进行分类.算法首先对MIMLSVM算法中的K-medoids聚类算法进行改进,采用的混合Hausdorff距离,将每一个示例包转化为一个示例,将MIML问题进行了退化.然后采用单示例多标记的算法ML-LOC算法继续以后的分类工作.在实验中,通过与其他多示例多标记算法对比,得出本文提出的算法取得了比其他分类算法更优的分类效果. 相似文献
19.
基于改进的Fisher准则的多示例学习视频人脸识别算法 总被引:1,自引:0,他引:1
视频环境下目标的姿态变化使得人脸关键帧难以准确定位,导致基于关键帧标识的视频人脸识别方法的识别率偏低.为解决上述问题,本文提出一种基于Fisher加权准则的多示例学习视频人脸识别算法.该算法将视频人脸识别视为一个多示例问题,将视频中归一化后的人脸帧图像作为视频包中的示例,采用分块TPLBP级联直方图作为示例纹理特征,示例特征的权值通过改进的Fisher准则获得.在训练集合的示例特征空间中,采用多示例学习算法生成分类器,进而实现对测试视频的分类及预测.通过在Honda/UCSD视频库和Youtube Face数据库中的相关实验,该算法达到了较高的识别精度,从而验证了算法的有效性.同时,该方法对均匀光照变化、姿态变化等具有良好的鲁棒性. 相似文献
20.
Chi-Chun Huang Author Vitae 《Pattern recognition》2006,39(11):1979-1986
In pattern recognition, instance-based learning (also known as nearest neighbor rule) has become increasingly popular and can yield excellent performance. In instance-based learning, however, the storage of training set rises along with the number of training instances. Moreover, in such a case, a new, unseen instance takes a long time to classify because all training instances have to be considered when determining the ‘nearness’ or ‘similarity’ among instances. This study presents a novel reduced classification method for instance-based learning based on the gray relational structure. Here, only some training instances in the original training set are adopted for the pattern classification tasks. The relationships among instances are first determined according to the gray relational structure. In the relational structure, the inward edges of each training instance, indicating how many times each instance is considered as the nearest neighbor or neighbors in determining the class labels of other instances can be obtained. This method excludes training instances with no or few inward edges for the pattern classification tasks. By using the proposed instance pruning approach, new instances can be classified with a few training instances. Nine data sets are adopted to demonstrate the performance of the proposed learning approach. Experimental results indicate that the classification accuracy can be maintained when most of the training instances are pruned before learning. Additionally, the number of remained training instances in the proposal presented here is comparable to that of other existing instance pruning techniques. 相似文献