首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
作为中文自然语言处理中的基础任务中文分词,其分词的好坏直接影响之后的自然语言处理任务。当前中文分词大部分都是采用基于机器学习的方法,但是其需要人工构建大量特征。针对上述问题,论文提出一种基于深度学习的新分词模型,该模型基于BLSTM(双向长短期神经网络),CNN(卷积神经网络)和CRF(条件随机场),充分利用了BLSTM可以利用长距离信息和CNN提取局部信息的优点。并设计了实验,在三个数据集上验证论文提出的模型在中文分词上的正确性和优越性。  相似文献   

2.
在机器阅读理解任务中,由于中文实词的组合性和隐喻性,且缺乏有关中文实词辨析的数据集,因此传统方法对中文实词的理解程度和辨析能力仍然有限.为此,构建了一个大规模(600k)的中文实词辨析数据集(Chinese notional word discrimination cloze data set, CND).在数据集中,一句话中的一个实词被替换成了空白占位符,需要从提供的两个候选实词中选择正确答案.设计了一个基线模型RoBERTa-ND (RoBERTa-based notional word discrimination model)来对候选词进行选择.模型首先利用预训练语言模型提取语境中的语义信息.其次,融合候选实词语义并通过分类任务计算候选词得分.最后,通过增强模型对位置及方向信息的感知,进一步加强了模型的中文实词的辨析能力.实验表明,该模型在CND上准确率达到90.21%,战胜了DUMA (87.59%), GNN-QA (84.23%)等主流的完形填空模型.该工作填补了中文隐喻语义理解研究的空白,可以在提高中文对话机器人认知能力等方向开发更多实用价值.数据集CND及RoBERT...  相似文献   

3.
机器阅读理解任务在近年来备受关注,它赋予计算机从文本数据中获取知识和回答问题的能力。如何让机器理解自然语言是人工智能领域长期存在的挑战之一,近年来大规模高质量数据集的发布和深度学习技术的运用,使得机器阅读理解取得了快速发展。基于神经网络的端到端的模型结构,基于预训练语言模型以及推理技术的应用,其性能在大规模评测数据集上有很大提升,但距离真正的理解语言还有较大差距。本文对机器阅读理解任务的研究现状与发展趋势进行了综述,主要包括任务划分、机器阅读理解模型与相关技术的分析,特别是基于知识推理的机器阅读理解技术,总结并讨论了该领域的发展趋势。  相似文献   

4.
5.
顾迎捷  桂小林  李德福  沈毅  廖东 《软件学报》2020,31(7):2095-2126
机器阅读理解的目标是使机器理解自然语言文本,并能够正确回答与文本相关的问题.由于数据集规模的制约,早期的机器阅读理解方法大多基于人工特征以及传统机器学习方法进行建模.近年来,随着知识库、众包群智的发展,研究者们陆续提出了高质量的大规模数据集,为神经网络模型以及机器阅读理解的发展带来了新的契机.对基于神经网络的机器阅读理解相关的最新研究成果进行了详尽的归纳:首先,概述了机器阅读理解的发展历程、问题描述以及评价指标;然后,针对当前最流行的神经阅读理解模型架构,包括嵌入层、编码层、交互层和输出层中所使用的相关技术进行了全面的综述,同时阐述了最新的BERT预训练模型及其优势;之后,归纳了近年来机器阅读理解数据集和神经阅读理解模型的研究进展,同时,详细比较分析了最具代表性的数据集以及神经网络模型;最后展望了机器阅读理解研究所面临的挑战和未来的研究方向.  相似文献   

6.
近年来深度学习技术不断进步,随着预训练模型在自然语言处理中的应用与发展,机器阅读理解不再单纯地依靠网络结构与词嵌入相结合的方法。预训练语言模型的发展推动了机器阅读理解的进步,在某些数据集上已经超越了人类的表现。简要介绍机器阅读理解以及预训练语言模型的相关概念,综述当下基于预训练模型的机器阅读理解研究进展,对目前预训练模型在相关数据集上的性能进行分析,总结了目前存在的问题并对未来进行展望。  相似文献   

7.
预训练语言模型的发展极大地推动了机器阅读理解任务的进步.为了充分利用预训练语言模型中的浅层特征,并进一步提升问答模型预测答案的准确性,提出了一种基于BERT的三阶段式问答模型.首先,基于BERT设计了预回答、再回答及答案调整三个阶段;然后,在预回答阶段将BERT嵌入层的输入视作浅层特征来进行答案预生成;接着,在再回答阶...  相似文献   

8.
大数据时代,随着社交媒体的不断普及,在网络以及生活中,各类文本数据日益增长,采用文本分类技术对文本数据进行分析和管理具有重要的意义。文本分类是自然语言处理领域中的一个基础研究内容,在给定标准下,根据内容对文本进行分类,文本分类的场景应用十分广泛,如情感分析、话题分类和关系分类等。深度学习是机器学习中一种基于对数据进行表征学习的方法,在文本数据处理中表现出了较好的分类效果。中文文本与英文文本在形、音、象上都有着区别,着眼于中文文本分类的特别之处,对用于中文文本分类的深度学习方法进行分析与阐述,最终梳理出常用于中文文本分类的数据集。  相似文献   

9.
NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.  相似文献   

10.
11.
推荐系统在电子商务的发展中发挥着越来越重要的作用,但用户对物品评分数据的稀疏性往往是推荐精度较低的重要原因。目前通常采用推荐技术对辅助信息进行处理,以缓解用户评价的稀疏性,并提高预测评分精度。 通过相关模型 ,可以利用文本数据来提取物品的隐藏特征。最近,深度学习算法快速发展, 因此文中选用了一种具有强大特征提取能力的新型深度网络架构——变分自编码器(Variational AutoEncoder,VAE) 。通过将无监督变分自编码融合到概率矩阵分解(Probability Matrix Factorization,PMF)中,构建了一种感知上下文的新型推荐模型——变分矩阵分解(Variational AutoEncoder Matrix Factorization,VAEMF)。首先使用TD-IDF对物品的评价文档进行数据预处理,然后对处理后的数据使用VAE捕获物品的上下文信息特征,最后使用概率矩阵分解进一步提高预测评分精度。在两个真实数据集上的实验结果验证了所提方法相较于自编码算法及概率矩阵分解算法的优势。  相似文献   

12.
《软件》2019,(5):185-189
随着互联网的发展,人们的娱乐方式趋于多样化,但人们总想可以直接定位根据自己口味的电影而不是通过自己的搜索和朋友的推荐。然而目前已有的推荐系统机制过于简单,往往是根据网友对电影的的综合评分,可根据关键字,类别等具体搜索,久而久之的搜索痕迹来证明用户的喜好。这种基于协同过滤的推荐系统在遇到冷启动问题时会产生较大的偏差。本文利用卷积神经网络结合协同过滤系统设计出了一款基于神经网络的电影推荐系统,利用MBGD(小批量梯度下降法)对模型进行优化,并在有限的数据集下进行了该系统的实验。实验结果表明该系统比传统推荐方法具有更高的准确性。  相似文献   

13.
新闻推荐(NR)可以有效缓解新闻信息过载,是当今人们获取新闻资讯的重要方式,而深度学习(DL)成为近年来促进新闻推荐发展的主流技术,使新闻推荐的效果得到显著提升,受到研究者们的广泛关注.主要对基于深度学习的新闻推荐方法研究现状进行分类梳理和分析归纳.根据对新闻推荐的核心对象——用户和新闻的建模思路不同,将基于深度学习的新闻推荐方法分为"两段式"方法、"融合式"方法和"协同式"方法三类.在每类方法中,根据建模过程中的具体子任务或基于的数据组织结构进行更进一步细分,对代表性模型进行分析介绍,评价其优点和局限性等,并详细总结每类方法的特点和优缺点.另外还介绍了新闻推荐中常用数据集、基线算法和性能评价指标,最后分析展望了该领域未来可能的研究方向及发展趋势.  相似文献   

14.
针对目前基于评论文本的推荐算法存在文本特征和隐含信息提取能力不足的问题, 提出一种基于注意力机制的深度学习推荐算法. 通过分别构建用户和项目的评论文本表示, 利用双向门控循环单元提取文本的上下文依赖关系以获得文本特征表示, 引入注意力机制, 更准确的获取用户兴趣偏好和项目属性特征. 将生成的用户和项目评论数据的两组隐含...  相似文献   

15.
专利作为一种包含大多数领域中最完整的设计信息,可以为设计者解决设计问题提供有价值的指导。针对现有的专利推荐方法难以有效地推荐跨领域专利的问题,提出一种基于深度学习的跨领域专利知识推荐方法,用于创新产品的概念设计。对产品功能和知识需求情境进行建模,将设计问题进行标准化表达,生成设计问题空间。提出一种半监督学习算法(TG-TCI)将专利功能信息按照功能基自动分类和标记,利用实体识别算法(BERT-BiLSTM-CRF)提取专利应用场景术语、技术术语,结合国际专利分类(IPC)信息以表示专利的功能、情境、技术和领域属性,从而生成专利知识空间。通过设计问题空间到专利知识空间的功能基和知识情境映射查找所需的跨领域专利,根据技术和领域属性对它们进行聚类和评估,选出特定的专利以激发设计者的创造力。以一个实际案例进行分析验证,证明了基于深度学习的专利知识推荐模型的可行性及有效性。  相似文献   

16.
传统的推荐系统中,基于矩阵分解的协同过滤方法只考虑单一的评分信息,而且作为浅层模型无法学习到更深层次的特征信息。提出一种基于深度学习的多交互混合推荐模型,通过深度学习模型融合更多的辅助信息作为输入,能够缓解数据的稀疏性问题;利用多层交互的非线性网络结构去学习更抽象、稠密的深层次特征表示;通过对用户和项目的隐表示进行多次内积交互获得不同层次的特征表示结果;聚合所有的交互结果进行预测。在Movieles latest 100K数据集上进行实验,采用[RMSE]指标进行评估,结果表明所提模型在推荐效果上有所提升。  相似文献   

17.
近年来,深度学习技术被广泛应用于推荐系统领域并获得了很大的成功,然而深度学习模型的输入质量对学习结果具有很大影响,稀疏的输入特征向量不仅会增加后续模型训练的难度,而且容易导致学习结果落入局部最优.提出一个基于两阶段深度学习的集成推荐模型:首先,利用具有封闭式参数计算能力的边缘化堆叠去噪自动编码机进行用户和项目高层抽象特征的提取;然后,将得到的用户抽象特征和项目抽象特征进行连接并作为深度神经网络模型的输入向量,通过联合训练的方式进行参数学习和模型优化.此外,为了对低阶特征交互进行建模,推荐模型中还集成了基于原始特征向量的逻辑回归模型.在通用数据集上的大量对比实验研究表明:与当前流行的深度学习推荐方法相比,该方法在推荐精度和召回率方面都有所改善,甚至是在数据稀疏和冷启动的环境下.  相似文献   

18.
与传统推荐模型相比,深度学习可以更好地理解用户需求、项目特征及用户与项目之间的互动性,从而更有效地发现用户和项目之间的匹配关系。将深度神经网络应用于网吧游戏推荐场景,分析用户的个人偏好,根据时间推移兴趣的变化,对用户历史游戏行为记录进行建模训练,为用户提供个性化Top-N游戏推荐。基于深度神经网络设计训练模型,输入层采用对用户历史行为数据处理后的用户偏好向量,隐藏层运用ReLU激活函数的多层网络,输出层则采用逻辑回归的Softmax结构,最终运用带L2规范项的代价函数评估学习到的模型可靠性。在真实数据集下的实验结果表明,随着隐藏层的增加,该方法能明显降低均方根误差,且能提高召回率。  相似文献   

19.
传统推荐算法大多都仅考虑用户-商品评级信息来进行推荐,这种忽略了用户属性和商品属性信息的推荐模型准确率不高。因子分解机可在数据稀疏情况下挖掘用户与商品的关联关系,交叉网络可挖掘属性特征与其高阶特征的线性组合关系,以及深度神经网络有效识别高阶非线性关联关系,基于三种模型的优势,提出了一种基于深度学习的混合推荐模型(Deep and Cross Factorization Machine,DCFM)。三部分并联组合,共享输入层,各部分结果线性组合后作为模型整体输出。通过在MovieLens电影数据集上仿真实验,并与因子分解机(FM)、深度因子分解机(DeepFM)、深度交叉网络(DCN)模型做比较,结果证明该模型在准确率、F1-Score和AUC值上均得到了提高和改善。  相似文献   

20.
针对传统基于协同过滤的推荐算法信息提取能力有限的问题,提出基于网络表示学习的卷积协同过滤推荐算法.将二分网络分成物品与用户同质网络,在各自的同质网络上使用GraphSAGE模型得到融合网络空间信息和用户与物品属性信息的矩阵.在此基础上,利用外积运算丰富用户和物品特征向量各维度的相关表示,通过卷积神经网络训练物品和用户的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号