期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵浩新俞敬松林杰《中文信息学报》2019,33(5):17-23

中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F₁值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F₁值为81.55%。相似文献

2.

改进的CBOW情感信息获取研究

下载免费PDF全文

曹军博叶霞许飞翔尹列东《计算机工程与应用》2020,56(9):142-147

大数据时代,文本的情感倾向对于文本潜在价值挖掘具有重要意义,然而人工方法很难有效挖掘网络上评论文本的潜在价值,随着计算机技术的快速发展,这一问题得到了有效解决。在文本情感分析中,获取词语的情感信息对于情感分析至关重要,词向量方法一般仅对词语的语法语义进行建模,但是忽略了词语的情感信息,无法更好地进行情感分析。通过TF-IDF算法模型获得赋权矩阵,构建停用词表,同时根据赋权矩阵生成Huffman树作为改进的CBOW算法的输入,引入情感词典生成情感标签辅助词向量生成,使词向量具有情感信息。实验结果表明,提出的方法对评论文本中获得的词向量能够较好地表达情感信息,情感分类结果优于传统模型。因此,该模型在评论文本情感分析中可以有效提升文本情感分类效果。相似文献

3.

基于改进的CBOW与ABiGRU的文本分类研究

下载免费PDF全文

张宇艺左亚尧陈小帮《计算机工程与应用》2019,55(24):135-140

文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型（CBOW）与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结合了注意力（Attention）机制的双向门限循环单元（BiGRU）神经网络充分提取了文本的特征。将文本特征向量输入到softmax分类器进行分类。在三个语料集中进行的文本分类实验结果表明,相较于其他文本分类算法,提出的方法有更优越的性能。相似文献

4.

Word2vec的核心架构及其应用

熊富林邓怡豪唐晓晟《南京师范大学学报》2015,(1):043-48

神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在“遣词造句”. 近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集. 首先,重点介绍Word2vec的核心架构CBOW及Skip-gram; 接着,使用英文语料训练Word2vec模型,对比两种架构的异同; 最后,探讨了Word2vec模型在中文语料处理中的应用. 相似文献

5.

智能变电站继电保护智能运维系统自动配置技术研究

下载免费PDF全文

许尧马欢许旵鹏于和林杨经超毛玉荣《电力系统保护与控制》2022,50(11):161-168

为提高继电保护智能运维信息采集配置的效率及正确性,提出一种基于知识图谱的智能运维系统信息采集自动配置技术。基于继电保护相关规范建立继电保护装置数据输出端口的标准化模型,依据专家知识按照IED类型建立智能运维系统信息采集点与继电保护装置标准化数据输出端口的关联关系,形成智能运维系统信息采集配置知识图谱本体。结合智能运维系统的历史配置数据进行知识学习,建立智能运维系统信息采集配置知识图谱。基于二次设备数据输出端口地址信息与继电保护装置数据输出端口的标准化模型的相似性计算,自动将二次设备数据输出端口地址匹配到标准信息端口地址实现知识融合,并引入CBOW模型增强语义理解,提高实体相似性算法的精度。实例验证结果表明,基于知识图谱的智能运维系统信息采集自动配置技术可有效提高智能运维系统配置效率,保证配置的正确性。相似文献

6.

Paragraph Vector Representation Based on Word to Vector and CNN Learning

Zeyu Xiong Qiangqiang Shen Yijie Wang Chenyang Zhu 《计算机、材料和连续体（英文）》2018,55(2):213-227

Document processing in natural language includes retrieval, sentiment analysis, theme extraction, etc. Classical methods for handling these tasks are based on models of probability, semantics and networks for machine learning. The probability model is loss of semantic information in essential, and it influences the processing accuracy. Machine learning approaches include supervised, unsupervised, and semi-supervised approaches, labeled corpora is necessary for semantics model and supervised learning. The method for achieving a reliably labeled corpus is done manually, it is costly and time-consuming because people have to read each document and annotate the label of each document. Recently, the continuous CBOW model is efficient for learning high-quality distributed vector representations, and it can capture a large number of precise syntactic and semantic word relationships, this model can be easily extended to learn paragraph vector, but it is not precise. Towards these problems, this paper is devoted to developing a new model for learning paragraph vector, we combine the CBOW model and CNNs to establish a new deep learning model. Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy. 相似文献