首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
充分挖掘微博短文本的语义以实现精准搜索是一项重要任务.由于微博文本内容具有稀疏性和语义局限性的特点,使得仅通过分析字面语义来进行短文本理解和相似性匹配的传统搜索方法受到了一定的限制.因此提出了一种社交与概念化语义结合的扩展搜索方法,通过挖掘社交网络独特的社交属性如#标签#、“@”和链接信息URL,对微博短文本实现进一步的社交语义扩展.该方法将文本字面分析获取的概念词语和社交关系中潜在的关联标签信息相结合,对短文本进行2种角度下的语义特征表示,实现了基于微博短文本语义充分理解的精准搜索.在微博数据集上的对比实验表明,与已有的扩展搜索方法相比所提方法能捕捉更多的语义特征,微博搜索的性能也得到了显著的提升.  相似文献   

2.
3.
已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于"时间越新文档越重要"这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设"越靠近热门时刻,文档越重要".基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.  相似文献   

4.
通过结合情感词库和微博语义特征,采用向量空间模型的方法表示微博文本,提出一种融合模式匹配和机器学习的微博文本倾向性分析方法。对分词之后的微博文本,先提取出情感关键词,再匹配分析出的几种模式抽取情感评价短句,情感短句和微博表情符号等其它情感特征共同组成情感特征序列,最后采用多步分类的支持向量机方法得到微博文本的情感倾向。通过实验与其它评测结果进行对比,表明本文方法有效。  相似文献   

5.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

6.
史伟  付月 《计算机科学》2021,48(z1):158-164
传统基于词典的情感分析方法中情感词语的极性和强度是固定和静态的,没有考虑情感词语随不同语义环境极性和强度的变化.为此,提出一种考虑语境的基于情感本体和情感圈的微博短文本情感分析方法.采用情感圈方法考虑不同语境中词语的共现模式,以捕获它们的语义并更新情感词语的极性和强度.结合已构建的情感本体和语义量化规则,建立考虑语义环...  相似文献   

7.
该文采用基于短文本隐含空间语义特征改进文本蕴涵识别,该方法通过构造句子的隐含变量模型,并融合基于该模型的句子之间相似度特征,和词汇重叠度、N元语法重叠度、余弦相似度等字符串特征,以及带标记和未标记的子树重叠度句法特征一起利用SVM进行分类。基于该分类算法,我们对RTE-8任务进行了测试,实验表明短文本的隐含语义特征可有效改进文本蕴涵关系识别。
  相似文献   

8.
信息时代,社交媒体发展异常迅速,微博、微信等社交平台受到了广大网友的喜爱和关注。微博社交平台发布的信息文本相对较短,传播速度快,更新速度快,越来越多的网民在微博平台上表达个人意见和想法。但是,微博短文本的信息较为分散,上下文内容联系不紧密,分析微博短文本情感态度的过程中常常存在一定阻碍和问题。基于此,重点研究了基于改进主题模型的微博短文本情感分析,希望可以深入挖掘质量更高的情感主题。  相似文献   

9.
随着网络的发展,短文本语言计算的研究方兴未艾,且语义相似度在人工智能、认知学、语义学、心理学和生物学等领域里占有重要位置.在已有的传统的相似度研究算法上,为了能更快更准确地计算出相似度,文中通过构建概念树,设法把短文本集中到某个特定的领域.因概念树、概念词典既能表现概念之间的语义关系,又能表现概念层次结构,故而更能大大提高检索效率.在此基础上的相似度计算也使得检索结果更加准确,进而方便研究短文本之间的相似性与唯一性,大大增加了后期对挖掘的正确性.  相似文献   

10.
近年来微博检索已经成为信息检索领域的研究热点。相关的研究表明,微博检索具有时间敏感性。已有工作根据不同的时间敏感性假设,例如,时间越新文档越相关,或者时间越接近热点时刻文档越相关,得到多种不同的检索模型,都在一定程度上提高了检索效果。但是这些假设主要来自于观察,是一种直观简化的假设,仅能从某个方面反映时间因素影响微博排序的规律。该文验证了微博检索具有复杂的时间敏感特性,直观的简化假设并不能准确地描述这种特性。在此基础上提出了一个利用微博的时间特征和文本特征,通过机器学习的方式来构建一个针对时间敏感的微博检索的排序学习模型(TLTR)。在时间特征上,考察了查询相关的全局时间特征以及查询-文档对的局部时间特征。在TREC Microblog Track 20112012数据集上的实验结果表明,TLTR模型优于现有的其他时间敏感的微博排序方法。  相似文献   

11.
社交网络蕴含着丰富的多媒体信息,如何实现社交网络跨媒体信息的搜索已成为研究热点.基于深度学习的单一模态语义特征提取和学习在社交网络信息搜索上取得了较好的效果.在跨模态信息搜索时不同模态的数据特征不能直接比较,因此不同模态之间的语义鸿沟是亟待解决的关键问题.针对上述问题,本文提出了一种基于对抗学习和语义相似度的跨媒体搜索...  相似文献   

12.
省略作为一种普遍存在的语言现象,在中文文本尤其是对话、问答等短文本中频繁出现。该文从服务于短文本理解的视角出发,针对省略恢复问题提出了一种多重注意力融合的省略恢复模型。该模型融合交叉注意力机制和自注意力机制,借助门控机制将上下文信息与当前文本信息进行有效结合。在短文本问答语料上的多组实验结果表明,该文给出的模型能有效地识别并恢复短文本中的省略,从而更好地服务于短文本的理解。  相似文献   

13.
由于云服务具有灵活性、通用性和低成本等特性,将数据交由云服务器管理变得日益普遍。然而,云服务器不是完全可信的,因此将加密数据交由云服务器管理并支持加密搜索成为了当前研究的热点问题之一。加密虽然能够很好地保护数据隐私安全,但是会掩盖数据本身的语义信息,加大搜索难度。文中面向加密云数据提出了一种支持多关键字的安全语义搜索解决方案,其核心思想是基于主题模型获取文档的主题向量和主题的词分布向量,通过计算查询关键字与各个主题的语义相似度生成查询向量,支持在同一向量空间内评价查询向量与文档主题向量的相似度;提出了基于EMD并结合词嵌入计算查询向量与主题相似度的方法,提升了查询关键词与主题之间语义相似度的准确性;为支持高效语义搜索,构建了主题向量索引树,并采用"贪婪搜索"算法优化关键字搜索。理论分析和实验结果表明:所提解决方案可实现安全的多关键字语义排序搜索,并且大大提高了搜索效率。  相似文献   

14.
随着互联网技术的发展和普及,社交网络在为人们之间的沟通交流拉近距离的同时,也给不法分子提供了可乘之机,他们利用社交网络散播谣言、招募团队成员等,进行各种违法犯罪活动。快速排查犯罪嫌疑人的社交关系,查找犯罪嫌疑人在各种社交平台上的关系网,对社交网络进行分析和取证,将有助于公安机关尽早查清犯罪成员之间千丝万缕的联系,将犯罪团伙彻底清除。该文以新浪微博为例,提出一种四层的网络取证模型,利用网络爬虫程序获取微博用户的信息,绘制用户的微博关系图,并将其以有向图的形式进行直观展示。通过分析微博关系图,可以直观地显示相关微博用户的关联关系,有助于提高公安机关寻找线索和排查犯罪嫌疑人社会关系的效率。  相似文献   

15.
微博文本长度短,网络用语层出不穷,传统方法在微博事件追踪中忽略了博文语义信息,导致追踪效果不够理想。针对该问题,提出一种基于维基知识的微博事件追踪方法。首先,定义维基词条的强相关实体和别名实体,并将维基知识表示为五元组形式。然后,构建词语空间到维基实体空间的映射来表示初始事件向量及后续博文向量。最后,计算博文向量与初始事件向量之间的语义相似度,并依据设定阈值进行判决,从而完成事件追踪。实验结果表明,相比传统方法,该方法可以充分利用维基知识语义信息,有效提高微博事件追踪的性能。  相似文献   

16.
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。  相似文献   

17.
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

18.
19.
现实生活中,中文自由短文本大量出现,而短文本处理技术在话题跟踪与发现、流行语分析、舆情预警等领域都得到广泛的发展和利用。虽然信息抽取技术在一些领域已经得到了很好的研究应用,但针对中文自由短文本数据的抽取技术的研究则比较少。该文主要总结了当前中文短文本信息抽取方法的研究情况及存在的问题。提出了一种基于HNC的中文自由短文本信息抽取中的过滤、分类、聚类、模板生成等算法的开发及对其进行研究。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号