首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该文首次提出跨领域中文标点符号预测任务,该任务首先利用标点符号基本规范正确的大规模新闻领域文本,建立标点符号预测模型;然后在标点符号标注不规范的社交媒体及问答领域,进行跨领域标点符号预测。随后,构建了新闻、社交媒体及问答三个领域的相应数据集。最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析。实验结果表明,直接利用新闻领域训练的模型,在社交媒体及问答领域进行标点符号预测的性能均有所下降,在问答领域下降较小,在微博领域下降较大,超过20%,说明跨领域标点符号预测任务具有一定的挑战性。  相似文献   

2.
针对社交媒体文本存在文本短、特征提取困难的问题,结合深度学习提出了一种双向门控循环神经网络(bidirectional gated recurrent neural network,BiGRU)和胶囊网络(capsule network,CapsNet)混合模型(BiGRU-CapsNet)。社交媒体文本首先通过Bert预训练模型生成词向量,利用BiGRU提取序列浅层特征,结合CapsNet进一步提取深层特征,最终通过softmax分类器实现作者识别。实验结果证明,该模型可以提升社交媒体文本作者识别的性能。  相似文献   

3.
刘丹 《微型电脑应用》2024,(4):195-197+201
为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表,完成社交媒体大数据向量转换的预处理。将预处理获取的向量列表输入CNN网络,得到评论文本情感元最终局部特征值。将该值传至LSTM,通过遗忘门、输入门、输出门调节,获取评论文本情感元特征表征结果,经Softmax分类器分类后,实现情感元自动识别。实验结果表明,该方法能有效完成实验数据预处理,用文字和标签的形式标记正面、负面情感元,并准确识别情感元,间接反映社会问题,应用性较强。  相似文献   

4.
社交媒体中俄语情感信息的深入挖掘和分析,对国家制定政治、经贸和外交战略具有重要参考价值.本文针对俄语社交媒体文本口语化、不规范、形态多样等特点,提出融合俄语形态、俚语等词级特征和特殊符号、英译情感信息等句级特征的多级特征表示方法,建立基于自注意力机制的俄语情感分类深度学习模型.针对俄语推特文本的情感分类实验表明,本文提...  相似文献   

5.
随着互联网的快速发展,社交媒体日益广泛而深刻地融入人们日常生活的各个方面。社交媒体逐渐成为人们彼此之间用来分享意见、见解、经验和观点的工具和平台,是人们获取分享信息、表达交流观点的主要途径。社交媒体在互联网的沃土上蓬勃发展,爆发出令人眩目的能量。由于社交媒体的开放性,用户规模庞大且来源复杂众多,容易产生各种各样的谣言虚假信息。社交媒体谣言左右着网民对事件的认识、动摇着社会的稳定。因此,如何准确高效地检测谣言成为当下亟待解决的问题。现有基于Transformer的社交媒体谣言检测模型忽略了文本位置信息。为有效提取文本位置信息,充分利用文本潜在信息,提出了一种基于改进Transformer的社交媒体谣言检测模型。该模型从相对位置和绝对位置两方面对传统Transformer进行改进:一方面采用可学习的相对位置编码捕捉文本的方向信息和距离信息;另一方面采用绝对位置编码将不同位置词语映射到不同特征空间。实验结果表明,与其他基准模型相比,所提模型在Twitter15、Twitter16和Weibo3种数据集上的准确率分别提高了0.9%、0.6%和1.4%。实验结果验证了所提的位置编码改进有效,基于...  相似文献   

6.
技术获得了一定程度的发展,但仍具有较大局限性,主要表现为缺乏对事件发展演化阶段的追踪挖掘,以及对社交媒体文本特性的挖掘利用不够充分,忽视了社交文本所蕴含的时序信息及传播影响力与文本概述信息能力之间的联系等问题.  相似文献   

7.
基于文本与社交信息的用户群组识别   总被引:1,自引:0,他引:1  
王中卿  李寿山  周国栋 《软件学报》2017,28(9):2468-2480
社交媒体上的个人群体信息对于理解社交网络结构非常有用,现有研究主要基于用户之间的链接和显式社交信息识别用户的个人群体,很少考虑使用文本信息与隐含社交信息。但是隐含社交信息以及文本信息,在显式的社交信息缺乏时对于识别用户的群体是非常有帮助的。在本文中,我们提出一种隐含因子图模型有效地利用各种隐含与显式的社交与文本信息对用户的群组进行识别。其中,显式的文本与社交信息是通过用户发表的文本与个人关系生成的,同时,我们利用矩阵分解模型自动生成隐含的文本与社交信息。最后,我们利用因子图模型与置信传播算法对显式与隐含的文本与社交信息进行集成,并对用户群组识别模型进行学习与预测。实验证明我们的方法能有效地对用户群组进行识别。  相似文献   

8.
针对传统股票趋势预测模型中忽略社交媒体文本信息对股价变化的影响和时间序列的平稳性处理、长期依赖等问题,提出一种融合社交媒体文本信息和LSTM的股票趋势预测模型(BiTCN-LSTM).该模型分为情感分析和金融时序预测两部分.情感分析层将社交媒体文本信息输入到双向时间卷积网络进行特征提取和情感分析,得到积极或者消极的情感分类表示;金融时序预测层使用LSTM神经网络,将差分运算后的股票历史数据和文本情感特征向量加权融合作为网络输入,完成金融时序预测任务.通过上海证券综合指数数据集的实验验证,与传统金融时序预测模型相比,该模型的RMSE指标降低3.44-43.62.  相似文献   

9.
陈志毅  隋杰 《计算机科学》2022,49(1):101-107
随着以微博为代表的社交媒体越来越流行,谣言信息借助社交媒体迅速传播,容易造成严重的后果,因此自动谣言检测问题受到了国内外学术界、产业界的广泛关注.目前,越来越多的用户使用图片来发布微博,而不仅仅是文本,微博通常由文本、图像和社会语境组成.因此,文中提出了一种基于深度神经网络,针对配文文本内容、图像以及用户属性信息的多模...  相似文献   

10.
王凯  余伟  杨莎  吴敏  胡亚慧  李石君 《软件学报》2015,26(11):2951-2963
随着在线社交媒体的快速发展和可定位设备的大量普及,地理位置作为社交媒体大数据中一种质量极高的信息资源,开始在疾病控制、人口流动性分析和广告精准投放等方面得到广泛应用.但是,由于大量用户没有指定或者不能准确指定位置,社交媒体上的地理位置数据十分稀疏.针对此数据稀疏性问题,提出一种基于用户生成内容的位置推断方法UGC-LI(user generate content driven location inference method),实现对社交媒体用户和生成文本位置的推断,为基于位置的个性化信息服务提供数据支撑.通过抽取用户生成文本中的本地词语,构建一个基于词汇地理分布差异和用户社交图谱的概率模型,在多层次的地理范围内推断用户位置.同时,提出一个基于位置的参数化语言模型,计算用户生成文本发出的城市.在真实数据集上进行的评估实验表明:UGC-LI方法能够在15km偏移距离准确定位64.2%的用户,对用户所在城市的推断准确率达到81.3%;同时,可正确定位32.7%的用户生成文本发出的城市,与现有方法相比有明显的提高.  相似文献   

11.
为了更好地提高短文本语义相似度分析能力,提出了基于神经网络和组合语义的短文本语义相似度分析算法。利用神经网络构建词义表示模型,结合局部和全局上下文信息学习词语在实际语境下的表示;通过句法分析,得到文本的依存关系,并依此构建组合关系树,使用组合语义模型得到整个文本的语义表示;通过计算两个语义表示结果之间的相似性来计算文本的语义相似度。实验分析结果表明,该方法能够在一定程度上提高文本语义分析能力。  相似文献   

12.
李雄  丁治明  苏醒  郭黎敏 《计算机科学》2018,45(Z11):417-421, 438
本研究主要解决在大量文本数据中 抽取 关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。  相似文献   

13.
文本相似度计算是自然语言处理的核心任务之一,传统的文本相似度计算方法只考虑文本的结构或者语义等单方面特征,缺少对文本多特征的深度分析,导致性能较低。提出一种基于多重相关信息交互的文本相似度计算方法,在文本嵌入矩阵中增加余弦相关性特征,使用自注意力机制考虑文本自身的相关性和词语依赖关系,进而使用交替协同注意力机制提取文本之间的语义交互信息,从不同角度获得更深层、更丰富的文本表征。实验结果表明,所提方法在2个数据集上的F1值分别为0.916 1和0.769 5,其性能优于基准方法的。  相似文献   

14.
基于上下文重构的短文本情感极性判别研究   总被引:2,自引:1,他引:2  
文本对象所固有的多义性,面对短文本特征稀疏和上下文缺失的情况,现有处理方法无法明辨语义,形成了底层特征和高层表达之间巨大的语义鸿沟.本文尝试借由时间、空间、联系等要素挖掘文本间隐含的关联关系,重构文本上下文范畴,提升情感极性分类性能.具体做法对应一个两阶段处理过程:1)基于短文本的内在联系将其初步重组成上下文(领域);2)将待处理短文本归入适合的上下文(领域)进行深入处理.首先给出了基于Naive Bayes分类器的短文本情感极性分类基本框架,揭示出上下文(领域)范畴差异对分类性能的影响.接下来讨论了基于领域归属划分的文本情感极性分类增强方法,并将领域的概念扩展为上下文关系,提出了基于特殊上下文关系的文本情感极性判别方法.同时为了解决由于信息缺失所造成的上下文重组困难,给出基于遗传算法的任意上下文重组方案.理论分析表明,满足限制条件的前提下,基于上下文重构的情感极性判别方法能够同时降低抽样误差(Sample error)和近似误差(Approximation error).真实数据集上的实验结果也验证了理论分析的结论.  相似文献   

15.
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段,也是人工智能领域研究的热点和难点之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来语言模型的预处理提高了许多自然语言处理任务的技术水平,包括情感分析、问答、自然语言推理、命名实体识别和文本相似性、文本摘要。本文梳理文本摘要以往的经典方法和近几年的基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行整理,最后总结文本摘要目前面临的挑战与发展趋势。  相似文献   

16.
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语—文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。  相似文献   

17.
针对Siamese-LSTM模型对相似文本特征提取能力差的问题,提出了一种改进Siamese-LSTM的文本相似模型,该方法引入注意力机制,对相似词分配更大的权重,增强了对文本中相似词的识别能力,同时又引入目前先进的预训练模型BERT,提高相似文本上下文中不同词的交互能力,加强词与词之间的关联度,从而实现对相似与不相似文本的识别。实验结果表明,与当前流行的文本相似模型Siamese-LSTM、ABCNN、ESIM,BIMPM和仅引入BERT模型或注意力机制的Siamese-LSTM模型相比,Siamese-LSTM同时融合BERT和Attention的文本相似模型在准确率、精确率、召回率和F1评价指标表现出了很好的效果,在LCQMC和Quora Question Pairs数据集上F1值分别达到了86.18%和89.08%的最佳效果。  相似文献   

18.
一种基于熵的文本相似性计算方法   总被引:1,自引:0,他引:1  
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,而忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题,本文提出一种基于熵的相似度求解方法。该方法在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,验证了算法的有效性和准确性。  相似文献   

19.
针对当前政务系统中人工审批文本效率低下的问题,本文将文本相似度引入电子政务中。当前基于文本相似度的网络模型中,存在着生成的词向量矩阵巨大,需要大量的时间去训练,而且仅利用上下文的环境来生成词向量,忽略了文档的语序和语义的关系。为了提高效率并降低训练成本,本文提出基于Do-Bi-LSTM文本相似度计算方法,该模型首先通过Doc2vec语言模型把训练数据集中的文本转换成向量,该方法在词向量的基础上增加了文本向量,从而获取了句子之间以及段落之间的相互关系。然后把得到的向量作为Bi-LSTM网络模型的输入进行模型训练,最后与LSTM网络模型、传统的深度网络模型相比,实验表明本文方法的准确率有很大的提高,具有可行性。  相似文献   

20.
When discussing programming issues on social platforms (e.g, Stack Overflow, Twitter), developers often mention APIs in natural language texts. Extracting API mentions from natural language texts serves as the prerequisite to effective indexing and searching for API-related information in software engineering social content. The task of extracting API mentions from natural language texts involves two steps: 1) distinguishing API mentions from other English words (i.e., API recognition), 2) disambiguating a recognized API mention to its unique fully qualified name (i.e., API linking). Software engineering social content lacks consistent API mentions and sentence writing format. As a result, API recognition and linking have to deal with the inherent ambiguity of API mentions in informal text, for example, due to the ambiguity between the API sense of a common word and the normal sense of the word (e.g., append, apply and merge), the simple name of an API can map to several APIs of the same library or of different libraries, or different writing forms of an API should be linked to the same API. In this paper, we propose a semi-supervised machine learning approach that exploits name synonyms and rich semantic context of API mentions for API recognition in informal text. Based on the results of our API recognition approach, we further propose an API linking approach leveraging a set of domain-specific heuristics, including mention-mention similarity, scope filtering, and mention-entry similarity, to determine which API in the knowledge base a recognized API actually refers to. To evaluate our API recognition approach, we use 1205 API mentions of three libraries (Pandas, Numpy, and Matplotlib) from Stack Overflow text. We also evaluate our API linking approach with 120 recognized API mentions of these three libraries.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号