排序方式: 共有17条查询结果,搜索用时 15 毫秒
1.
通过分析探头磁路,论述表面粗糙度对磁性应力仪检测结果的影响;并基于应用磁性应力仪对不同表面粗糙度试伴进行的检测试验,明确了必须满足的表面粗糙度条件。 相似文献
2.
基于小规模语料库和机器可读词典的二元分布语义获取 总被引:1,自引:1,他引:1
本文提出了一种基于小规模语料库和机器可读词典(Machine Readable Dictionary ,MRD)的无指导的动词语义获取方法。该方法不需要使用有义项标注的语料库,而是使用从语料中获得的V+N搭配以及MRD中多义词定义的应用实例中获得的知识。使用两种方法解决数据稀疏问题:首先,将词的相似性度量由直接共现扩展到共现词的共现,以共现聚类而不是共现词来计算词的相似度。其次,从MRD定义中获取名词的IS- A关系。通过这些方法,即使两个词不共享任何词,也可认为是相似的。实验表明,该方法可从很小规模的语料中获取知识,并在不限制词义的情况下达到85.7%的正确排歧率。 相似文献
3.
传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义.本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的. 相似文献
4.
互联网上充斥着用户生成文档,如论坛中的帖子。如何对这些杂乱无章的内容进行监控是安全部门所关心的重点之一,话题识别与跟踪(Topic Detection and Tracking,TDT)是监控的有效手段之一。但是,网络论坛帖子的特点是回帖篇幅短、话题转移快,使得面向论坛的话题识别与跟踪变得异常困难。针对其特点,给出了三个TDT模型 首先给出一个基线模型;为了缓解“话题漂移”现象,提出了将一个话题表示为种子向量与后续向量的改进模型;在改进的模型上运用最新的命名实体(NE)权重调节策略。针对论坛帖子格式不规范及TDT系统对处理速度的要求,提出了一种特征提取方法。最后,在真实数据集上给出了所用TDT模型的实验结果,证实了所建模型及特征提取方法的有效性。 相似文献
5.
针对目标检测中由于背景光线突变等复杂条件所造成的背景无法实时更新等缺陷,提出了一种基于随机样本的目标检测方法。背景的建立依赖一幅图像中的每个像素点的历史采样值或其邻域采样值,初始化采用像素点的八邻域值来实现。背景的更新采用像素级更新和帧级更新相结合的算法。在正常情况下,采用像素级更新;在复杂条件下,采用帧级更新,且对复杂条件进行了较好的阈值认定。该算法改进了背景建模依赖一段时间内相邻帧的统计值,实现了在单帧进行背景建模,实验结果证明,跟混合高斯模型相比,具有较强的抗噪性和较快的响应速度。 相似文献
6.
输入法的核心任务是将用户输入的按键序列转化为汉字序列。应用深度学习算法的输入法在学习长距离依赖和解决数据稀疏问题方面存在优势,然而现有方法仍存在两方面问题,一是采用的拼音切分与转换分离的结构导致了误差传播,二是模型复杂难以满足输入法对实时性的需求。针对上述不足提出了一种融合了递增词汇选择算法的深度学习的输入法模型并对比了多种softmax优化方法。在人民日报数据和中文维基百科数据上进行的实验表明,该模型的转换准确率相较当前最高性能提升了15%,融合递增词汇选择算法使模型在不损失转换精度的同时速度提升了130倍。 相似文献
7.
8.
kNN文本分类器类偏斜问题的一种处理对策 总被引:5,自引:0,他引:5
类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷.提出了文本训练集的临界点(criticaI point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权七NN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子问进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 相似文献
9.
10.