首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 32 毫秒
1.
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力.  相似文献   

2.
专利文献的自动分类对于知识产权保护、专利管理和专利信息检索十分重要,构建准确的专利自动分类器可以为专利发明人、专利审查员提供辅助支持。该文以专利文献分类为研究任务,选取国家信息中心公布的全国专利申请信息为实验数据,提出了基于预训练语言模型的BERT-CNN多层级专利分类模型。实验结果表明: 在该数据集上,BERT-CNN模型在准确率上达到了84.3%,大幅度领先于卷积神经网络和循环神经网络等其他深度学习算法。BERT抽取的特征向量在表达词汇与语义方面比传统Word2Vec具有更加强大的性能。另外,该文还探讨了全局与局部策略在专利多层文本分类上的差异。  相似文献   

3.
答案选择是问答系统领域的关键子任务,其性能表现支撑着问答系统的发展。基于参数冻结的BERT模型生成的动态词向量存在句级语义特征匮乏、问答对词级交互关系缺失等问题。多层感知机具有多种优势,不仅能够实现深度特征挖掘,且计算成本较低。在动态文本向量的基础上,文中提出了一种基于多层感知机和语义矩阵的答案选择模型,多层感知机主要实现文本向量句级语义维度重建,而通过不同的计算方法生成语义矩阵能够挖掘不同的文本特征信息。多层感知机与基于线性模型生成的语义理解矩阵相结合,实现一个语义理解模块,旨在分别挖掘问题句和答案句的句级语义特征;多层感知机与基于双向注意力计算方法生成的语义交互矩阵相结合,实现一个语义交互模块,旨在构建问答对之间的词级交互关系。实验结果表明,所提模型在WikiQA数据集上MAP和MRR分别为0.789和0.806,相比基线模型,该模型在性能上有一致的提升,在SelQA数据集上MAP和MRR分别为0.903和0.911,也具有较好的性能表现。  相似文献   

4.
针对在线学习过程中出现的知识过载及传统推荐算法中存在的数据稀疏和冷启动问题,提出了一种基于多层感知机(MLP)的改进型深度神经网络学习资源推荐算法。该算法利用多层感知机对非线性数据处理的优势,将学习者特征和学习资源特征进行向量相乘的预测方式转换为输入多层感知机的方式,改进了DN-CBR神经网络推荐模型。为验证模型的有效性,以爱课程在线学习平台数据为样本构建数据集,通过对比实验表明,在该数据集上,改进后模型相较于DN-CBR模型在归一化折损累积增益和命中率指标上分别提升了1.2%和3%,有效地提高了模型的推荐性能。  相似文献   

5.
在信用评估问题中,用户信息中既包含类别数据,也包含数值数据。传统的基于人工智能的信用评估模型通常对类别数据进行one-hot变换后,再与数值数据进行拼接作为判别器的输入。与之不同,借鉴了自然语言处理中的词嵌入技术来提取类别数据的词向量;将输入的词向量集合类比为“句子”,并基于自注意力机制从“句子”中提取出用户特征;最后采用多层感知机来预测用户违约的概率。新模型可以使用反向传播算法实现端到端的训练。在三个不同的数据集上将新模型和六种基准算法进行了比较,结果表明该模型能够比基准算法取得更好的性能。  相似文献   

6.
张璞  刘畅  李逍 《计算机应用》2019,39(3):639-643
建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语句的正例集合;然后,为了降低特征维度,缓解数据稀疏性,在自编码神经网络(Autoencoder)特征空间中使用Spy技术划分可靠反例集合;最后,利用正例集合和可靠反例集合来训练多层感知机(MLP)对剩余的无标注样例进行分类。该方法在中文数据集上的F1值和准确率值分别达到81.98%和82.67%,实验结果表明,该方法能够有效地对建议语句进行分类,且不需要对数据进行人工标注。  相似文献   

7.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

8.
多层感知机分类器是一种有效的数据分类方法,但其分类性能受训练样本空间的限制。通过多层感知机分类器系综提高室外场景理解中图像区域的分类性能,提出了一种自动识别室外场景图像中多种景物所属概念类别的方法。该方法首先提取图像分割区域的低层视觉特征,然后基于系综分类方法建立区域视觉特征和语义类别的对应关系,通过合并相同标注区域,确定图像中景物的高层语义。对包含5种景物的150幅图像进行测试,识别率达到了87%。与基于多层感知机方法的实验结果相比,本文提出的方法取得了更好的性能,这表明该方法适合于图像区域分类。此外,系综方法还可以推广到其他的分类问题。  相似文献   

9.
针对Android恶意软件检测,通常仅有检测结果缺乏对其检测结果的可解释性.基于此,从可解释性的角度分析Android恶意软件检测,综合利用多层感知机和注意力机制提出一种可解释性的Android恶意软件检测方法(multilayer perceptron attention-method, MLP_At).通过提取Android恶意软件的应用权限和应用程序接口(application programming interface, API)特征来进行数据预处理生成特征信息,采用多层感知机对特征学习.最后,利用BP算法对学习到的数据进行分类识别.在多层感知机中引入注意力机制,以捕获敏感特征,根据敏感特征生成描述来解释应用的核心恶意行为.实验结果表明所提方法能有效检测恶意软件,与SVM、RF、XGBoost相比准确率分别提高了3.65%、3.70%和2.93%,并能准确地揭示软件的恶意行为.此外,该方法还可以解释样本被错误分类的原因.  相似文献   

10.
关键词是人们快速判断是否要详细阅读文件内容的重要线索,关键词自动抽取在信息检索、自然语言处理等研究领域均有重要应用.设计了一种新的关键词自动抽取方法,使计算机能够像人类专家一样,利用知识库对目标文本进行学习和理解,最终自动抽取出关键词.专利数据因其数据量庞大、内容丰富、表达准确、专业权威而被选中作为知识库来源.详细讨论了专利数据的特性,挖掘不同专利间的知识关联,针对某一知识领域构造背景知识库,在此基础上进行目标文本的关键词自动抽取.与目标文本相关的专利文集中每个专利的专利发明人、权利人、专利引用和分类信息都被用于在不同的专利文档之间发现关联性,利用关联信息扩充背景知识库,获得目标文档在各个相关知识领域的背景知识库.基于背景知识库设计了词知识特征值,以反映词在目标文本背景知识中的重要程度.最后,把关键词抽取问题转化为分类问题,利用支持向量机(support vector machine, SVM)抽取出目标文本的关键词.在专利数据集和开放数据集的实验结果证明明显优于现有算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号