首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 70 毫秒
1.
在Stack Overflow、Quora等社区问答网站中,日益增长的用户数使新问题数量急剧增加,传统的专家发现方法通常根据历史回答记录建立用户文档,再从中提取用户文本特征,难以及时寻找到合适的专家进行回答。针对该问题,提出一种社区问答中基于用户-标签异构网络的专家发现方法。根据用户历史回答记录和问题的附带标签构建用户-标签网络,以此得到用户的向量表示。在此基础上,使用全连接神经网络提取用户特征和问题文本特征,通过比较两者的余弦相似度得到候选专家列表。基于StackExchange的真实世界数据集进行测试,实验结果表明,与LDA、STM、RankingSVM和QR-DSSM方法相比,该方法的MRR指标值较高,能够准确寻找到可提供正确答案的专家。  相似文献   

2.
Web社区发现技术综述   总被引:23,自引:1,他引:22  
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势.  相似文献   

3.
Web媒体被公认为继报纸、广播、电视之后的"第四媒体"。而Web2.0的迅速普及,又使当今的Web媒体呈现了一种"自媒体"形式,即每个用户既是信息的接受者,也是信息发布者和信息转发者,因此,在当今的Web上形成了在线社会网络。研究表明在线社会网络呈现出一种很强的"模块性"("社区性"),因此,在在线社会网络中,社区发现一直是一个研究热点,即如何设计算法以发现大规模社会网络中的社区结构。文章提出了一种基于拉普拉斯矩阵的在线社会网络社区发现算法,该算法将在线社会网络转换成以拉普拉斯矩阵形式表现,通过计算该矩阵的谱并利用其性质发现社会网络上的社区结构。文章同时针对人造数据集与真实数据集进行了实验,实验结果表明本算法能够有效的发现社会网络中的社区结构。  相似文献   

4.
随着社交网络的发展,社交网络中的用户形成大规模的用户关系图,用户在社交网络中发表内容,这些内容及其链接关系形成大规模的文档图.如何根据用户关系图、文档图,挖掘出用户所形成的社区、社区用户的影响力以及各个社区的话题,是重要的问题,而目前这些工作相对独立.考虑了用户发表内容、用户之间的关系信息,利用话题传播、社区形成和用户影响力之间的关联性,提出了一个基于LDA (latent Dirichlet allocation)的集成话题发现、社区发现和用户影响力分析的统一模型ACT-LDA(author-community-topic LDA).模型采用变分推理的方法解决推理问题.在DBLP数据上进行了实验,取得了非常好的结果,证明了模型的有效性.  相似文献   

5.
辛宇  谢志强  杨静 《自动化学报》2015,41(10):1693-1710
语义社会网络(Semantic social network, SSN)是一种由信息节点及社会关系构成的复杂网络, 也是语义信息时代社会网络技术研究的热点, 相较于传统社会网络更具实用价值. 其研究内容包含了社会网络的语义分析及社会关系分析, 因此, 语义社会网络的社区挖掘建模具有一定的复杂性. 在语义社会网络的社区挖掘研究方面, 本文分析了当前基于话题概率模型的语义社区发现方法, 并在综述其内容的同时总结了各方法的优缺点, 为后续研究提供了理论基础. 在语义社会网络社区挖掘结果的评判方面, 本文归纳了相关的评价模型, 并通过实验分析对比了各模型对拓扑相关性和语义相关性的倾向性.  相似文献   

6.
一种有效的社会网络社区发现模型和算法   总被引:6,自引:0,他引:6  
社会网络的社区发现存在划分效果较好的算法时间复杂度过高、现有快速划分算法划分质量不佳、缺乏表达和充分利用个体和链接属性信息的模型和机制等问题.针对这些问题,提出了一种边稳定系数模型和一种能表达个体间关系紧密度的完全信息图模型,在此基础上设计和实现了一种有效的社区发现算法.提出的完全信息图模型具有较高通用性,适用于需要融合个体和链接属性的社区发现算法.通过系列实验表明,所提出的以边稳定系数模型和完全信息图为基础的算法,对社会网络中的社区发现问题是有效的.算法不仅具有较快的速度,也能适用于带权与不带权的网络,得到的社区划分结果也具有较高的划分质量.  相似文献   

7.
微博作为一个重要的信息平台,每天都有大量用户访问,重要的舆论事件在微博上会形成热门话题。本文提出了一种新的微博话题发现方法:基于词共现网络的话题发现方法(Topic detection in freqent word network,TDFWN) ,来挖掘微博语料中蕴含的热点话题。该方法首 先对微博文本中的k频繁词集(k≥3)进行挖掘,利用频繁词集的共现关系构建词共现网络。对该 网络进行社区划分,同一社区内的词通常描述同一微博话题,即话题以社区的形式出现。实验结果表明TDFWN算法能够快速、全面地发现微博中的热门话题,并且可以实现微博文本的自动聚类。  相似文献   

8.
一种基于LDA的社区问答问句相似度计算方法   总被引:2,自引:0,他引:2  
传统的问答系统(QA)只是直接返回问题的答案,而且没有用户交互特性,而基于社区的问答系统(CQA),含有大量的“问答对”可以利用。该文提出了一种基于LDA的匹配框架来解决相似问句的匹配问题,分别从问句的统计信息、语义信息和主题信息三个方面来计算问句相似度,综合得到整体相似度。实验是在Yahoo! Answers上抽取的真实标注数据集上进行,最终的实验结果表明,该文的方法达到了很好的性能。  相似文献   

9.
为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之间的潜在语义信息,找到潜在语义相类似的问题,在语义层面上抽取出话题集合,找到最符合的话题列表。在真实网站中的数据进行试验证实,应用该算法可以有效扩大话题抽取的准确率和召回率。  相似文献   

10.
微博网络中的每一个节点代表一个微博用户,微博用户之间除了存在一定的社会关系外,用户本身也具有一定的特性。用户之间明显的链接关系可以为社区发现提供重要的线索,但两个用户之间如果有相似的兴趣,那么即使用户之间没有明显的链接关系他们也可能加入到同一个社区,而传统的社区发现方法大多基于单个方面进行考虑。所以,提出一种结合链接分析和用户兴趣的微博社区发现方法。真实数据集上的仿真实验验证了该方法的合理性和有效性。  相似文献   

11.
Piazza问答平台与Open edX学习平台两者相互独立,影响用户使用,并且Piazza问答数据无法被高效利用。针对上述问题 ,对Piazza问答数据进行持久保存, 利用多标签过滤方法提高了Piazza问答数据的查找能力;基于Piazza-Xblock插件,实现了在Open edX平台查找和展现Piazza问答数据,以及通过URL参数直接访问Piazza特定页面的功能,达到Piazza问答平台与Open edX平台有机结合的效果。  相似文献   

12.
Question-Answering (Q&A) services provide internet users with platforms to exchange knowledge and ideas. The development of Q&A sites, or Community Question Answering (CQA), mainly depends on the high-quality content continuously contributed by users with high-level expertise, who can be recognized as experts. Expert finding is an important task for the authorities of Q&A communities to encourage commitment. In a highly competitive market environment, CQA managers have to take measures to retain and nurture users, especially superior contributors. However, current expertise scoring techniques adopted in CQA often give much credit to very active users and fail to identify real experts. This study aims to develop a robust and practical expert identification framework for Q&A communities, by combining well-designed expertise scoring technique and probabilistic clustering model. With regard to expert identification, a numerical metric of users' expertise is developed as the optimal expert finding strategy, and a clustering algorithm based on Gaussian-Gamma mixture model (GGMM) is proposed to efficiently distinguish experts from nonexperts. In the experiments, the proposed method is applied to real-world datasets collected from subcommunities of Stack Exchange Q&A networks. Results obtained from comparative experiments show that our method achieves better performance than the state-of-the-art methods and demonstrate the effectiveness of the proposed framework. The analysis shows that the framework which combines the proposed expertise scoring technique and Gaussian–Gamma mixture clustering model is capable of detecting excellent domain problem-solving experts who exhibit both domain interest and expertise.  相似文献   

13.
在线技术社区是技术爱好者或者从业者进行技术交流、咨询和分享的重要平台。社区运营者如果能够准确掌握每个用户的技能和兴趣,对用户进行画像,将有助于为用户提供精准的推荐和个性化服务,从而增加用户的黏性和社区的活跃度。考虑到社区用户既是内容的生产者(作者)又是内容的消费者(读者),生产者体现用户技能,消费者体现用户兴趣,从而提出了一种作者—读者—话题(author-reader-topic,ART)模型,同时对用户的技能和兴趣进行建模。该模型可以将文档的作者和读者关联起来,因而能够提升话题的聚集效果,产生更准确的作者话题分布和读者话题分布。该文基于CSDN技术社区的真实数据集进行了实验对比和分析,实验结果表明,该文提出的ART模型能够有效地发现用户的技能和兴趣,明显优于现有的各种话题模型。  相似文献   

14.
史可玉  罗洋 《软件》2020,(6):233-236
作为由多个问答社区组成的问答网站,StackExchange上拥有诸多用户的问答数据。想要实现知识的有效传播,还要加强专业回答的挖掘。基于此,本文对数据挖掘技术及其在社区网络平台中的应用方法进行了探讨,然后结合StackExchange特点提出了相应的数据挖掘算法,为网站个性化问答推荐服务生成提供支持,促使用户知识获取需求得到满足。  相似文献   

15.
范例推理在网络自动答疑系统中应用   总被引:1,自引:0,他引:1       下载免费PDF全文
针对教育快速发展与教师资源相对紧缺间的突出矛盾,利用计算机网络技术,提出了一种基于范例推理的网络自动答疑专家系统。该系统能综合多位优秀教师的知识,克服了传统面对面答疑方式受时空限制的缺陷。实验表明,基于范例推理技术的自动答疑系统是非常有效地、较好地满足答疑准确性的要求,而且具有很强的学习性。  相似文献   

16.
随着网络信息技术的迅速发展,互联网已经成为人们获取和发布信息的最重要平台之一.在互联网的信息传播过程中,话题相关文本不断更新,而其内容焦点也随着话题发展发生着迁移.识别话题内容焦点有助于有效地挖掘与分析网络信息,是网络舆情分析领域的重要研究问题.文中针对网络流文本,提出了一种网络话题内容焦点的识别方法,首先对话题焦点特征在流文本中的分布情况进行分析,基于分析结果介绍了焦点识别方法3个主要步骤的算法模型,分别是基于时间属性的焦点特征词提取、内容焦点特征词的合并和内容焦点的表示.文本基于来自于真实网络的实际数据,对所提方法进行了实验验证,实验结果表明文中所提方法可有效获取话题发展过程中的内容焦点,并能以关键词集和语句集的形式对内容焦点进行表示.  相似文献   

17.
针对现有意图识别联合模型在专业领域知识图谱问答中容易发生识别领域实体以及问句分类错误的情况,提出一个结合了领域知识图谱的意图识别联合模型。该模型有三步,将领域知识图谱中实体对应的本体标签以及本体间关系导入训练数据集,形成包含本体标签的知识文本以及额外包含本体关系的知识文本图;通过字符级嵌入和位置信息嵌入将包含了本体标签的知识文本转化成嵌入表示并依据知识文本图创建实体关系可视矩阵,明确知识文本各成分的相关程度;将嵌入表示和实体关系可视矩阵输入模型编码层进行模型的训练。以高速列车领域知识图谱为例,经过准确率和召回率的验证,以该方法训练出的模型在高速列车领域问答数据集的意图识别任务上取得了更好的表现。  相似文献   

18.
社交网络中重要节点的发现研究具有较大的实际意义与价值。考虑社交网络中用户作为节点所包含一些特有的属性,通过将用户的社交行为划分强/弱关系的方式对社交网络拓扑结构的关系边进行补充,提出一种基于SALSA算法的加权算法WSALSA来发现社交网络中的重要节点。采用部分新浪微博真实数据进行实验及验证,对比PageRank、HITS和SALSA算法得到的节点影响力排序结果在SIR模型中的传播能力,结果表明WSALSA算法与SIR排序结果的斯皮尔曼相关系数值更高,对社交网络中节点重要性的评估更加准确。  相似文献   

19.
传统的伪相关反馈(Pseudo Relevance Feedback, PRF)方法通常是以文档作为扩展源单元提取扩展词,提取粒度过大造成扩展源质量下降,使得检索结果鲁棒性差。该文研究利用主题分析技术,尝试将文本语义内容作为扩展源单元,缓解扩展源质量不高的问题。提出并实现了对文本集中各文档内容的伪文档描述,通过对其进行隐式多样化处理,实现了从更细微的文本内容角度出发提取扩展词。通过在真实NTCIR8中文语料的检索结果表明,该方法可以有效地提升伪相关反馈的检索性能。  相似文献   

20.
The take up of online communities in organisations is often patchy. Previous studies, mainly within the cognitive tradition of thinking, explain such non‐participation either through features of technology or through individuals' motivational structures, and look at participation as a static, individualistic and functionalistic phenomenon. The aim of this article is to explore the insights on participation from a practice‐based approach (PBA). The paper draws upon empirical data from the use of collaborative technology in a Mexican University. The adoption of community technology is shown to be shaped by dynamic, collective, historical and contextual forces. Based on these findings, the value and the limits of the PBA, and a series of contributions and practical implications are discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号