排序方式: 共有71条查询结果,搜索用时 250 毫秒
1.
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。 相似文献
2.
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 相似文献
3.
推荐系统的目的是解决“信息过载”的问题,然而目前的研究方法大多利用用户和商品信息对用户兴趣进行建模,没有同时利用知识图谱构建用户模型来增强推荐系统的性能,因此提出了融合知识图谱和评论文本的个性化推荐模型。首先,通过不同类型的知识图谱分别关联用户项目和用户评论文本,扩展用户的兴趣和提取评论文本中的实体;其次,通过构造用户兴趣网络得到带有用户兴趣偏好的兴趣特征;然后,通过构造画像模块和情感模块的画像网络提取到带有用户情感倾向的画像特征;利用决策层进行点击率预测。最后在Amazon数据集上进行了实验比较,对所提模型的性能进行了评估,并与目前的融合知识图谱和评论文本的推荐模型进行比较,验证了所提模型的有效性。 相似文献
4.
碳纤维复合材料被广泛应用于航空航天等高新技术领域,其在服役过程中会产生疲劳损伤,埋下安全隐患,因此需要对其健康状况进行监测,利用损伤概率成像算法能够得到直观反映结构健康状况的图像,但传统的损伤概率成像算法在无损伤区域的损伤概率高,难以准确定位损伤,针对以上问题,提出基于Lamb波能量和飞行时间的损伤概率成像算法。将待测区域均匀划分成N个像素点,计算每条通道的Lamb波能量与飞行时间损伤因子,确定各通道损伤因子影响区域的概率值并叠加,得到每个像素点的损伤概率并成像。实验结果表明,与目前常用的基于能量损伤因子和互相关损伤因子的损伤概率成像算法进行对比,提出的方法能够直观地反映碳纤维复合材料缺陷情况,并且识别效果更优,成像误差显著减小,误差error分别降低了4.420、2.117、2.055和4.732、2.380、2.647,能够更准确地识别缺陷,有效地保障碳纤维复合材料结构的安全应用。 相似文献
5.
在工业故障分类过程中有标记样本数量少而人工标注成本高会导致分类器精度难以提高,而大量包含丰富信息的无
标记样本却没有得到充分利用。 针对上述问题,提出了一种结合主动学习(AL)和最优路径森林算法(OPF)的半监督故障分类
模型(AL-OPF)。 该方法首先利用 BvSB 和余弦相似度准则综合衡量样本的价值量,以排序批处理模式筛选价值高的样本,并
获取其标签扩充初始标记样本集,然后通过构建最优路径森林实现半监督标签传播,最后在实验室采集得到的管道故障样本集
上进行实验验证。 实验结果表明,该方法能在有标签样本为 10%的情况下达到 96. 68%的整体识别准确率,与逐个采样模式的
主动学习方法以及基于距离度量提取训练样本全局结构信息的半监督方法相比,所提出方法拥有更高的 Recall 值和 F1-
score 值
关键词:
。 相似文献
6.
7.
在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译,这种问题表现得更为严重。近几年,受到外部知识融入的启发,该文在RNNSearch模型基础上,提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语言句子,扫描分类词典以确定候选短语句对并标签标记,解码端利用词级组件和短语组件的混合解码网络,很好地生成单词集外词和短语集外词的翻译,从而改善汉越神经机器翻译的性能。在汉越、英越和蒙汉翻译实验上表明,该方法显著提高了准确率,对于资源稀缺型语言的神经机器翻译性能有一定的提升。 相似文献
8.
涉案舆情新闻文本摘要任务是从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要,因此对于相关人员快速掌控舆情态势具有重要作用。涉案舆情新闻文本摘要相比开放域文本摘要任务,通常涉及特定的案件要素,这些要素对摘要生成过程有重要的指导作用。因此,该文结合深度学习框架,提出了一种融入案件要素的涉案舆情新闻文本摘要方法。首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类。为了验证算法有效性,在构造的涉案舆情新闻摘要数据集上进行实验。实验结果表明,该方法相比基准模型取得了更好的效果,具有有效性和先进性。 相似文献
9.
针对现有命名实体识别方法主要考虑单个句子内的上下文信息,很少考虑文档级上下文影响的问题,文中提出基于机器阅读理解的中文命名实体识别方法,利用阅读理解思想,充分挖掘文档级的上下文特征,支撑实体识别.首先,针对每类实体,将实体识别任务转化为问答任务,构建问题、文本及实体答案三元组.然后,将三元组信息通过双向Transformer编码器进行预训练,再通过卷积神经网络捕捉文档级文本上下文信息.最后通过二进制分类器实现实体答案预测.在MSRA、人民日报公开数据集和自建数据集上的命名实体识别对比实验表明,文中方法性能较优,阅读理解思想对实体识别具有较好的作用. 相似文献
10.
针对传统目标跟踪算法中当目标被遮挡和受光照强度变化等多种因素干扰时,相关滤波器模板更新不准确,误差逐帧累积最终导致目标跟踪失败,提出了一种基于VGG网络的鲁棒目标跟踪算法。首先通过VGG网络对第1帧输入图像中的局部上下文区域提取平均特征图来建立相关滤波器模板;然后通过VGG网络对后续帧输入图像中的局部上下文区域提取平均特征图和仿射变换平均特征图;其次与核相关滤波跟踪算法相结合,自适应确定目标位置和最终目标位置;最后自适应更新最终平均特征图和最终相关滤波器模板。实验结果表明,本文算法在目标被遮挡和受光照强度变化等多种因素干扰时,仍具有较高的目标跟踪精度和较强的鲁棒性。 相似文献