首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
最近,将词嵌入融合到基于字嵌入的模型已经被证明是有效的。但是,大多数现有的研究都忽视了对部首信息的使用。该文提出一种将词嵌入、字嵌入和部首嵌入相融合的新方法,该方法利用词嵌入和字嵌入的优点,并考虑了部首中包含的大量语义信息,从而充分利用了不同粒度的语义信息,提高了模型的识别效果。该方法在Weibo数据集和MSRA数据集上的实验结果表明,该文所提方法较相关方法在识别精度上取得提升。  相似文献   

2.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务.  相似文献   

3.
张陶  于炯  廖彬  余光雷  毕雪华 《计算机应用研究》2021,38(9):2646-2650,2661
针对无属性社交网络的节点分类问题,提出了一种基于图嵌入与支持向量机,利用社交网络中节点之间关系特征,对节点进行分类的方法.首先,通过DeepWalk、LINE等多种图嵌入模型挖掘节点隐含关系特征的同时,将高维的社交网络数据转换为低维embedding向量.其次,提取节点度、聚集系数、PageRank值等特征信息,组合构成节点的特征向量.然后,利用支持向量机构建节点分类预测模型对节点进行分类预测.最后,在三个公开的社交网络数据集上实验,与对比方法相比,提出的方法在社交网络节点分类任务中能取得更好的分类效果.  相似文献   

4.
随着现代网络通信和社会媒体等技术的飞速发展,网络化的大数据由于缺少高效可用的节点表示而难以应用。将高维稀疏难于应用的网络数据转化为低维、紧凑、易于应用的节点表示的网络嵌入方法受到广泛关注。然而已有网络嵌入方法得到节点低维特征向量后,再将其作为其他应用(节点分类、社区发现、链接预测、可视化等)的输入来作进一步分析,没有针对具体应用构建模型,难以取得满意的结果。针对网络社区发现这一具体应用,提出结合社区结构优化进行节点低维特征表示的深度自编码聚类模型CADNE。首先基于深度自编码模型,通过保持网络局部及全局链接的拓扑特性来学习节点的低维表示,然后利用网络聚类结构对节点低维表示进一步优化。该方法同时学习节点的低维表示和节点所属社区的指示向量,使节点的低维表示不仅能保持原始网络结构中的拓扑结构特性,而且能保持节点的聚类特性。与已有的经典网络嵌入方法进行对比,结果显示CADNE模型在Citeseer和Cora上取得最优聚类结果,在20NewsGroup上准确率提升最高达0.525;分类性能在Blogcatalog、Citeseer数据集上取得最好结果,在Blogcatalog上训练比例20%时比基线方法提升最高达0.512;并且CADNE模型在可视化对比中能够得到类边界更加清晰的节点低维表示,验证了所提方法具有较好的节点低维表示能力。  相似文献   

5.
在海量数据呈现爆炸增长态势的互联网时代,传统算法已无法满足处理大规模、多类型数据的需求.近年来最新的图嵌入算法通过学习图网络特征,在链路预测、网络重构和节点分类实践中普遍取得了极佳的效果.文中基于传统自动编码器模型,创新地提出了一种融合Sdne算法与链路预测相似度矩阵的新算法,通过在反向传播过程中引入高阶损失函数,依据...  相似文献   

6.
基于会话的推荐旨在根据匿名用户的短期交互数据来预测用户下一次交互项目. 现有图神经网络会话推荐模型大多在信息传播过程中平等对待所有邻居节点, 而没有区分他们对于中心节点的重要性, 从而给模型训练引入噪声. 此外, 随着图神经网络层数的增加, 过度平滑问题会随之产生. 针对上述问题, 本文提出结合跳跃连接的多层图注意力网络会话推荐模型(MGATSC). 首先利用图注意力网络学习邻居节点对于中心节点的重要性, 并堆叠多层网络以获取高阶邻居信息; 然后为了缓解过度平滑问题, 采用基于残差注意力机制的跳跃连接更新每层网络的节点嵌入, 并通过平均池化得到最终节点嵌入. 最后将反向位置嵌入融合到节点嵌入中, 经过预测层生成推荐. 在Tmall、Diginetica以及Retailrocket这3个公开数据集上的实验结果表明所提模型优于所有基线模型, 验证了模型的有效性与合理性.  相似文献   

7.
当前主流的中文分词方法是基于字标注的传统机器学习的方法。但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且仅利用CPU训练模型时间长的缺点。针对以上问题,进行了研究提出基于LSTM(Long Short-Term Memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比,结果表明:基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理(NLP)中序列标注的任务。  相似文献   

8.
重点在于融和丰富字特征作为消歧知识以提高分类性能和引入不等式平滑技术来克服数据稀疏问题,同时不等式平滑技术还使特征选择嵌入到参数估计过程中,显著压缩模型规模。  相似文献   

9.
在对可见教字水印算法以及.NET Framework GDI+技术的研究基础上,提出一种彩色图像可见水印的网络实现算法.该算法将彩色图像从RGB空间转换到HSI空间后,根据载体图像信息计算出嵌入强度大小,在空域中嵌入可见水印以实现彩色图像的版权保护功能.实验结果表明:嵌入的水印对原始彩色图像的影响较小并且很难被去除,为图像提供较好的保护,且嵌入图像大小、位置均可调整,实用性好.  相似文献   

10.
为解决在实际地质储层特性分析过程中存在测井数据不完整的问题,提出一种基于多网络融合的缺失测井数据复原模型.该模型由两个网络组成,其中通过交叉网络捕获有限度的有效特征之间的相互作用关系,并通过残差思想构造网络模型,降低模型复杂度.另一网络先通过构造的树模型进行特征选择,将树模型得到的稀疏向量通过嵌入层转成稠密向量作为神经网络的输入,从而获得高度非线性的组合特征.通过组合两个网络的输出对缺失测井数据进行复原,实验结果表明,该方法在相关评价指标上优于现有方法.  相似文献   

11.
现有法语命名实体识别(NER)研究中,机器学习模型多使用词的字符形态特征,多语言通用命名实体模型使用字词嵌入代表的语义特征,都没有综合考虑语义、字符形态和语法特征。针对上述不足,设计了一种基于深度神经网络的法语命名实体识别模型CGC-fr。首先从文本中提取单词的词嵌入、字符嵌入和语法特征向量;然后由卷积神经网络(CNN)从单词的字符嵌入序列中提取单词的字符特征;最后通过双向门控循环神经网络(BiGRU)和条件随机场(CRF)分类器根据词嵌入、字符特征和语法特征向量识别出法语文本中的命名实体。实验中,CGC-fr在测试集的F1值能够达到82.16%,相对于机器学习模型NERC-fr、多语言通用的神经网络模型LSTM-CRF和Char attention模型,分别提升了5.67、1.79和1.06个百分点。实验结果表明,融合三种特征的CGC-fr模型比其他模型更具有优势。  相似文献   

12.
Word embedding, has been a great success story for natural language processing in recent years. The main purpose of this approach is providing a vector representation of words based on neural network language modeling. Using a large training corpus, the model most learns from co-occurrences of words, namely Skip-gram model, and capture semantic features of words. Moreover, adding the recently introduced character embedding model to the objective function, the model can also focus on morphological features of words. In this paper, we study the impact of training corpus on the results of word embedding and show how the genre of training data affects the type of information captured by word embedding models. We perform our experiments on the Persian language. In line of our experiments, providing two well-known evaluation datasets for Persian, namely Google semantic/syntactic analogy and Wordsim353, is also part of the contribution of this paper. The experiments include computation of word embedding from various public Persian corpora with different genres and sizes while considering comprehensive lexical and semantic comparison between them. We identify words whose usages differ between these datasets resulted totally different vector representation which ends to significant impact on different domains in which the results vary up to 9% on Google analogy and up to 6% on Wordsim353. The resulted word embedding for each of the individual corpora as well as their combinations will be publicly available for any further research based on word embedding for Persian.  相似文献   

13.
对H市日用水量数据进行了混沌识别,结果表明其具备混沌特性,结合BP神经网络和混沌理论,利用重构相空间的嵌入维数确定神经网络的结构,建立了基于混沌理论的城市用水量神经网络模型,实际数据验证了该方法对城市用水量预测的有效性。  相似文献   

14.
针对基于字典的域名生成算法(DGA)生成域名与良性域名构成十分相似,现有技术难以有效检测的问题,提出一种卷积神经网络(CNN)和长短时记忆(LSTM)网络相结合的网络模型——CL模型。该模型由字符嵌入层、特征提取层及全连接层三部分组成。首先,字符嵌入层对输入域名的字符进行编码;然后,特征提取层将CNN与LSTM串行连接在一起,对域名字符特征进行提取,即通过CNN提取域名字符的n-grams特征,并将提取结果输入给LSTM,以便学习n-grams间的上下文特征,同时,为了学习不同长度的n-grams特征,可选择多组CNN与LSTM结合使用;最后,全连接层根据提取到的特征对基于字典的DGA生成域名进行分类预测。实验结果表明:当CNN选择的卷积核大小为3和4时,所提模型性能最佳。在四个基于字典的DGA家族的测试对比实验中,CL模型与CNN模型相比,准确率提升了2.20%,且随着样本家族数量的增加,CL模型具有更好的稳定性。  相似文献   

15.
针对目前网络流量预测不能很好地满足智能网络管理需求的现状,分析网络流量数据内在混沌特性,主要包括时间延迟、嵌入维数、关联维数及Lyapunov指数的计算,并将此分析耦合人工神经网络模型进行预测,最后给出某网络中心流量预测的实例,结果显示基于混沌时间序列分析的神经网络流量预测在数据动力特征刻画及误差控制上有显著优势。  相似文献   

16.
提出了对象及其特征数据的一些特性指标:对象的相似度、复杂度、隐蔽度(或能见度),特征数据的贡献度、常见度、显隐性。在综合分析这些特性的基础上,通过融合模糊神经网络技术及可拓学思想,研究了一种信息非完全的复杂数据智能化处理拓展算法,通过嵌入竞争神经网络的计算模型实现了该算法。在复杂的中医诊断推理过程的应用结果表明,该算法可以较好地应用于处理复杂的中医临床数据。  相似文献   

17.
目前,基于卷积神经网络的Web恶意请求检测技术领域内只有针对URL部分进行恶意检测的研究,并且各研究对原始数据的数字化表示方法不同,这会造成检测效率和检测准确率较低。为提高卷积神经网络在Web恶意请求检测领域的性能,在现有工作的基础上将其他多个HTTP请求参数与URL合并,将数据集HTTP data set CSIC 2010和DEVACCESS作为原始数据,设计对比实验。首先采用6种数据数字向量化方法对字符串格式的原始输入进行处理;然后将其分别输入所设计的卷积神经网络,训练后可得到6个不同的模型,同时使用相同的训练数据集对经典算法HMM,SVM和RNN进行训练,得到对照组模型;最后在同一验证集上对9个模型进行评估。实验结果表明,采用多参数的Web恶意请求检测方法将词汇表映射与卷积神经网络内部嵌入层相结合对原始数据进行表示,可使卷积神经网络取得99.87%的准确率和98.92%的F1值。相比其他8个模型,所提方法在准确率上提升了0.4~7.7个百分点,在F1值上提升了0.3~13个百分点。实验充分说明,基于卷积神经网络的多参数Web恶意请求检测技术具有明显的优势,...  相似文献   

18.
针对网络推荐系统中传统的协同过滤技术在实际应用中存在数据稀疏、导致准确率低、推荐单一性等问题,提出一种结合Skip-gram项目嵌入和加权损失函数的深度神经网络的推荐模型DSM。采用了3层ReLU层对输出向量进行回归,在未使用附加信息的前提下提高了推荐精度;利用Skip-gram进行项目嵌入得到更稠密的表示向量,减少了计算量;并且使用加权损失函数训练深度神经网络的参数,平衡了推荐项目的受欢迎程度,保证了新颖性。在APP数据集和Last.fm数据集的实验结果表明,DSM模型在推荐应用程序和歌曲时,准确性和多样性方面相比现有方法均有一定的提高。  相似文献   

19.
为提高生态流量监管能力及推进小水电的绿色发展,针对小水电生态流量监管智能化、信息化不足等问题,围绕生态流量监管的关键环节及业务管理需求,提出感知层、网络传输层、数据存储层、支撑服务层和应用层的五层总体架构设计。基于物联网、人工智能及大数据技术,重点从组网方式和接入协议上阐述了物联网的接入架构,提出使用深度学习实现视频图像智能分析进行下泄流量监测,提出使用大数据技术建立模型进行预警预测。 应用微服务架构、云服务、WebGIS等先进信息技术,构建具有生态流量监测、设备管理、地图控制、预警管理及数据可视化等功能的小水电生态流量监管平台,可有效监管水电站泄流行为特征,为流域、水系提供“生态流量保障”。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号