首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法.应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合.在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单...  相似文献   

2.
针对Word2Vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与Word2Vec模型相结合,提出Word2Vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical Softmax的Word2Vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(Global ACV)和局部平均上下文词向量(Local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵。将Word2Vec-ACV模型和Word2Vec模型分别进行类比任务实验和命名实体识别任务实验,实验结果表明,Word2Vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。  相似文献   

3.
为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法.首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离词相依性进行有效编码,同时对模型添加注意力机制,以高效学习目标词...  相似文献   

4.
以Word2Vec为代表的静态蒙古文词向量学习方法,将处于不同语境的多种语义词汇综合表示成一个词向量,这种上下文无关的文本表示方法对后续任务的提升非常有限。通过二次训练多语言BERT预训练模型与CRF相结合,并采用两种子词融合方式,提出一种新的蒙古文动态词向量学习方法。为验证方法的有效性,在内蒙古师范大学蒙古文硕博论文的教育领域、文学领域数据集上用不同的模型进行了同义词对比实验,并利用K-means聚类算法对蒙古文词语进行聚类分析,最后在嵌入式主题词挖掘任务中进行了验证。实验结果表明,BERT学出的词向量质量高于Word2Vec,相近词的向量在向量空间中的距离非常近,不相近词的向量较远,在主题词挖掘任务中获取的主题词有密切的关联。  相似文献   

5.
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架构设计,并面向微博语料进行实验,结果显示新词可以从与其相近的词中分析其情感倾向.  相似文献   

6.
中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%。  相似文献   

7.
随着网民的数量不断增加,用户上网产生的数据量也在成倍增多,随处可见各种各样的评论数据,所以构建一种高效的情感分类模型就非常有必要.本文结合Word2Vec与LSTM神经网络构建了一种三分类的情感分类模型:首先用Word2Vec词向量模型训练出情感词典,然后利用情感词典为当前训练集数据构建出词向量,之后用影响LSTM神经网络模型精度的主要参数来进行训练.实验发现:当数据不进行归一化,使用He初始化权重,学习率为0.001,损失函数选择均方误差,使用RMSProp优化器,同时用tanh函数作为激活函数时,测试集的总体准确率达到了92.28%.与传统的Word2Vec+SVM方法相比,准确率提高了大约10%,情感分类的效果有了明显的提升,为LSTM模型的情感分类问题提供了新的思路.  相似文献   

8.
针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结合BLSTM和CRF(Conditional Random Fields)对中文简历进行解析(BLSTM-CRF)。为了提高中文简历解析的效率,级联包含字序列信息的词向量和用Word2Vec生成的词向量,融合成一个新的词向量表示;再由BLSTM强大的学习能力融合词的上下文信息,输出所有可能标签序列的分值给CRF层;再由CRF引入标签之间约束关系求解最优序列。利用梯度下降算法训练神经网络,使用预先训练的词向量和Dropout优化神经网络,最终完成对中文简历的解析工作。实验结果表明,所提的特征融合方法优于传统的简历解析方法。  相似文献   

9.
杨书新  张楠 《计算机应用》2021,41(10):2829-2834
词嵌入技术在文本情感分析中发挥着重要的作用,但是传统的Word2Vec、GloVe等词嵌入技术会产生语义单一的问题。针对上述问题提出了一种融合情感词典与上下文语言模型ELMo的文本情感分析模型SLP-ELMo。首先,利用情感词典对句子中的单词进行筛选;其次,将筛选出的单词输入字符卷积神经网络(char-CNN),从而产生每个单词的字符向量;然后,将字符向量输入ELMo模型进行训练;此外,在ELMo向量的最后一层加入了注意力机制,以便更好地训练词向量;最后,将词向量与ELMo向量并行融合并输入分类器进行文本情感分类。与现有的多个模型对比,所提模型在IMDB和SST-2这两个数据集上均得到了更高的准确率,验证了模型的有效性。  相似文献   

10.
针对短文本中固有的特征稀疏以及传统分类模型存在的“词汇鸿沟”等问题, 我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题, 并且引入传统文本分类模型中不具有的语义关系. 但进一步发现单纯利用 Word2Vec模型忽略了不同词性的词语对短文本的影响力, 因此引入词性改进特征权重计算方法, 将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重, 并结合 Word2Vec 词向量生成短文本向量, 最后利用SVM实现短文本分类. 在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.  相似文献   

11.
12.
景象提取的目的是将数字图像中的景物从背景中分离出来,为了更好地实现这一目的,微软亚洲研究院Jian Sun等人于2004年提出Poisson Matting方法.该方法将透明度(α值)作为图像的一种内在属性,变分地寻求其最优解,来达到目标提取的目的.主要介绍Poisson算法,针对Poisson算法中程序运行时间比较长的问题,对算法中耗用时间多的两个步骤:图像初始α值的计算以及前景图像F、背景图像B的计算进行了改进,在VC6.0中进行了实现,并取得了较好效果.  相似文献   

13.
CSCW系统中协同感知的研究   总被引:1,自引:0,他引:1  
协同感知理论的研究与应用是计算机支持的协同工作的重要研究内容之一.在研究分析了传统的协同感知所依赖的CSCW体系结构的基础上,提出了一种基于P2P的三层结构的协同感知框架,该架构很适合于CSCW中项目可以划分为若干个相对独立的模块的情形.最后对该框架的具体感知模块进行了分析,并讨论了下一步研究将要解决的问题.  相似文献   

14.
开放环境下信息的安全与保护有着重要的研究价值。对待隐藏文件无需专门分配存储空间,而是将其转移存储到系统文件的内部碎片中。隐藏文件的文件名、带路径的宿主文件名及二者对应关系加密后分别存放在两个普通文件中。实验及研究表明此种方式能够对数据做到深度隐藏。  相似文献   

15.
基于XQuery查询优化的研究   总被引:3,自引:0,他引:3  
XML已经成为网络上信息描述和信息交换的标准,随着XML应用得越来越广泛,人们提出了多种XML 数据的查询方法.但是,很多查询方法都有各自的局限性.利用有意义的最小公共实体结构EntityInMLCAS(Entity In Meaning Lowest Common Ancestor Structure)原理,提出一种优化查询方法.同时采用堆栈技术的方法对XML文档结点树进行自顶向下的遍历,该方法大大提高了优化查询的速度.  相似文献   

16.
基于RBAC的WEB环境下OA系统权限控制的研究   总被引:2,自引:0,他引:2  
WEB环境下OA(Office Automation)系统的权限控制是一个热点问题.针对此问题详细介绍了一种实用的解决方法--基于角色访问控制模型的方法,并在此基础上根据实际项目重点阐述了RBAC数据库的设计方法,以及基于RBAC数据库的权限控制的设计方法,最后给出权限子系统的具体配置步骤,并给出实际运行结果.  相似文献   

17.
针对MapReduce的默认调度策略先进先出(FIFO)在执行任务时考虑本地性调度带来的任务等待时间长、资源利用率不高和没有考虑任务的优先级等问题,提出一种基于集群拓扑结构的工作流实时调度算法。MapReduce在对工作流进行Map处理时,首先根据taskTracker的计算能力和数据大小对map阶段工作流的完成时间进行估计,得到一个完成时间隶属函数,然后再利用集群的拓扑结构,得到taskTracker在集群中的距离隶属函数,根据这两个隶属函数来对集群中的taskTracker在工作流处理时间和数据传输时间进行综合性能评估,这样可以有效地缩短任务的等待时间并提高资源的利用率。同时该算法采用对作业进行优先级划分的方式,满足不同类型作业的需求。大量的实验结果表明:该优化策略在平均完成时间和平均等待时间方面要优于FIFO算法,可以有效提高工作流处理的实时性。  相似文献   

18.
对MapReduce工作流的优化主要是通过对MapReduce栈的优化实现的。针对MapReduce工作流的优化问题,首先,提出相关概念;其次,介绍MapReduce工作流基于成本的优化过程;然后,通过实例阐述MapReduce工作流中的数据流依赖和资源依赖关系。基于此,提出3种MapReduce工作流优化器,并对其进行端对端的评估。最后,通过实验评估工作流优化器的优化开销并对比分析了这3种工作流优化器。  相似文献   

19.
基于MDA的构件开发方法的研究   总被引:1,自引:0,他引:1  
在对目前构件技术研究的现状进行分析的基础上,详细讨论了MDA(Model-Driven Architecture)方法产生的背景及其涉及的核心技术,论述了MDA对软件开发产生的深远意义,提出了一种基于MDA的构件开发方法MDAC,并从不同的层次分析了MDAC方法的体系结构,主要包括模型分类、构件建模框架、模型转换实现、构件开发过程、建模工具等内容。  相似文献   

20.
介绍基于Google Earth应用系统开发的基础知识和模式,分析了Google Earth增值业务架构,提出了基于J2EE的KMLServer增值服务器框架,并给出了一个KML Server应用范例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号