首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
面向互联网新闻的在线话题检测算法   总被引:2,自引:0,他引:2       下载免费PDF全文
程葳  龙志袆 《计算机工程》2009,35(18):28-30
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。  相似文献   

2.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

3.
一种话题演化建模与分析方法   总被引:1,自引:0,他引:1  
胡艳丽  白亮  张维明 《自动化学报》2012,38(10):1690-1697
根据时序关系将文本流划分为连续时间片中的文本集, 在线抽取各时间片中隐含的子话题, 采用模型选择方法动态确定各时间片包含的子话题数, 以历史时间片的子话题信息作为当前子话题发现的先验知识, 基于 OLDA (Online latent Dirichlet allocation)模型抽取各时间片包含的子话题, 通过 Gibbs 抽样对话题模型参数进行估计; 对子话题进行关联分析, 定义子话题产生、消亡、继承、分裂和合并五种演化类型, 提出基于相对熵的子话题关联分析方法, 根据子话题语义相似度和时序关系建立子话题间的关联, 由具有时序关系和内容关联的子话题组成话题, 通过子话题内容和强度的变化描述话题演化. 基于真实网络新闻的话题演化分析实验表明, 本文提出的话题演化分析方法能够有效检测 网络新闻话题内容和强度的演化.  相似文献   

4.
微博作为一种流行的信息交流平台,已经受到人们的广泛关注。如今有关微博搜索结果处理的研究也已经成为热点,其中微博对比话题摘要是一个比较新颖的微博搜索结果处理方法。不同于基于微博消息的对比话题摘要生成算法,基于话题集合的中文微博对比话题摘要生成算法是将话题集合进行对比并生成微博对比话题摘要。实验数据表明,以话题集合为单位生成对比话题摘要可以改善单条微博消息信息量不足的缺点,提高对比话题摘要的代表性。  相似文献   

5.
根据话题检测任务的定义和特点,本文分析了传统的增量聚类算法和K-means算法的优缺点,提出了基于话题检测的自适应增量K-means算法,设计了话题检测实验,实验结果证明了该算法提高了话题检测性能,具有良好的应用前景。  相似文献   

6.
区别于传统的基于欧几里得算法的图形生成算法,在迭代函数系统的基础上,提出了一种基于马尔可夫链的分形图形生成算法。该算法首先利用马尔可夫链为每个状态转移函数设置转移的概率密度,其次通过比较随机数与状态转移函数的概率分布来确定进入的状态转移函数,进而计算吸引点的位置、确定线条的位置和角度,推导出迭代后线条的角度关系,最后通过多次迭代生成不同角度和位置的线条组成一个完整的图形。相对于传统算法,该算法针对分形图形的生成、仿射变换矩阵参数的具体调控方式、以及图形散点图的变化规则进行研究,通过对不同分形图形的生成及其形态调控的仿真实验验证了该算法可以对分形图形生成过程进行描述,进一步验证了该算法的优越性。  相似文献   

7.
在当前多种平台崛起的互联网背景下,与传统媒体相比,网络社交媒体中的数据具有传递速度快、用户参与度高、内容覆盖全等特点,其中存在着人们关注并发布评论的众多话题,而一个话题的相关信息中可能存在更深层次、更细粒度的子话题,针对该问题进行基于网络社交媒体的子话题检测技术的研究,这是一个新兴且不断发展的研究领域。通过社交媒体获取话题及子话题信息并参与讨论,这一方式正全方位、深层次改变着人们的生活,但是该领域技术还不成熟,且相关研究在国内尚处于起步阶段。首先,简述网络社交媒体中子话题检测的发展背景和基本概念;其次,将子话题检测技术分为七大类,对每类方法均加以介绍、对比和总结;然后,将子话题检测方式分为在线检测和离线检测两种方式,并将这两种方式进行对比,列举通用技术及两种方式下的常用技术;最后,概括了该领域当前不足及未来发展趋势。  相似文献   

8.
基于马尔可夫链(Markov Chain,MC)理论,提出了一种新的通用隐写检测算法。根据图像邻域相关的性质构造马尔可夫链,提取其经验转移矩阵的对角线元素作为特征向量,构造了一个新的判决函数作为检测秘密信息是否存在的依据。基于Mat-lab7.0平台,对全局LSB、DCT和DWT的隐写进行了检测实验。根据实验结果对算法进行了改进,使检测效果更优。结果证明:该算法的综合性能优于普通的检测算法。  相似文献   

9.
话题检测可以及时发现互联网舆情热点和突发性事件,并可对话题进行持续跟踪,从而实时掌握舆情事件动向。文中提出了一种基于聚类的改进话题检测和跟踪算法。首先,对文本的特征向量进行改进,增加了基于句子主干的主干向量。然后对每个检测到的话题提取两个中心向量,一个是基本中心向量,另一个是基于主干向量提炼的主干中心向量。在此基础上再通过计算每个文本与中心向量之间的距离进行聚类分析,保证话题中各个文本之间的内聚性。同时基于主题词抽取,在主题词的基础上计算话题之间的主题相关性,有效地实现了子话题检测功能,从而提高了话题检测和跟踪的准确性。通过对10大网站5个频道超过两周数据量的测试,结果表明此方法在一定程度上提高了话题检测和跟踪的正确率,并具有一定的适应性和推广性。  相似文献   

10.
基于子话题分治匹配的新事件检测   总被引:4,自引:0,他引:4  
洪宇  张宇  范基礼  刘挺  李生 《计算机学报》2008,31(4):687-695
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.  相似文献   

11.
We propose a mesh saliency detection approach using absorbing Markov chain. Unlike most of the existing methods based on some center-surround operator, our method employs feature variance to obtain insignificant regions and considers both background and foreground cues. Firstly, we partition an input mesh into a set of segments using Ncuts algorithm and then each segment is over segmented into patches based on Zernike coefficients. Afterwards, some background patches are selected by computing feature variance within the segments. Secondly, the absorbed time of each node is calculated via absorbing Markov chain with the background patches as absorbing nodes, which gives a preliminary saliency measure. Thirdly, a refined saliency result is generated in a similar way but with foreground nodes extracted from the preliminary saliency map as absorbing nodes, which inhibits the background and efficiently enhances salient foreground regions. Finally, a Laplacian-based smoothing procedure is utilized to spread the patch saliency to each vertex. Experimental results demonstrate that our scheme performs competitively against the state-of-the-art approaches.  相似文献   

12.
遗传算法的平均收敛速度及其估计   总被引:1,自引:0,他引:1  
给出了独立于表示的变异算子和交叉算子的数学描述, 建立了遗传算法种群的精确马尔可夫链模型, 导出了种群中最佳个体的马尔可夫链及其随机矩阵, 将遗传算法的平均收敛速度定义为最佳个体转移至吸收态的平均吸收时间的数学期望, 提出了应用最佳个体的随机矩阵估计遗传算法平均收敛速度的理论方法和计算步骤.  相似文献   

13.
张凯  刘京菊 《计算机科学》2021,48(5):294-300
从攻击者角度对网络进行入侵路径分析对于指导网络安全防御具有重要意义。针对现有的基于吸收Markov链的分析方法中存在的对状态转移情形考虑不全面的问题和状态转移概率计算不合理的问题,提出了一种基于吸收Markov链的入侵路径分析方法。该方法在生成攻击图的基础上,根据攻击图中实现状态转移所利用的漏洞的可利用性得分,充分考虑了非吸收节点状态转移失败的情况,提出了一种新的状态转移概率计算方法,将攻击图映射到吸收Markov链模型;利用吸收Markov链的状态转移概率矩阵的性质,计算入侵路径中节点的威胁度排序和入侵路径长度的期望值。实验结果表明,该方法能够有效计算节点威胁度排序和路径长度期望;通过对比分析,该方法的计算结果相比现有方法更符合网络攻防的实际情况。  相似文献   

14.
提出一种基于马尔可夫链的主题和时间敏感的合作关系网络实体排序算法TTS-Rank,将节点排序过程解释为随机投票过程.算法首先将合作关系网络按照合作主题进行投影,然后在马尔可夫链随机游走模型中扩展了合作时间敏感的状态转移函数,最后根据迭代计算出的各节点得票数对实体进行排序.基于互联网开源社区合作关系网络数据的实验表明,TTS -Rank算法较传统算法更为精确,能有效支持面向不同技术主题、不同时间区间的实体排序.  相似文献   

15.
陈飞  刘奕群  张敏  马少平 《软件学报》2015,26(12):3130-3139
多样化检索结果的评测通常假设一个查询词包含多个权重各不相同的用户子意图,并在此假设的基础上对检索结果进行评测.虽然大多数已经存在的多样化检索评测方法利用了这些特性对检索结果进行评测,但在评测过程中,它们都忽略了查询子意图的类型信息;而不同类型的查询子意图对信息需求具有不同的特点.首先,通过引入衰减函数对这种特点进行描述,进而对用户子意图的分类方法进行抽象;在此基础上,提出了利用查询子意图类型信息进行多样化检索结果评测的框架,该框架定义了利用查询子意图类型信息进行多样化检索评测的方法应该具有的结构;然后,讨论了在用信息类和导航类作为子意图分类方法的前提下,其对应的衰减函数的形式;最后,在TREC与NTCIR测试集上的实验结果表明了所提出方法的有效性.  相似文献   

16.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

17.
分别提出了面向服刑人员的聚类和分类算法,针对服刑人员的表现特征在服刑期内连续变化和多样性的特点,分别采用隐马尔可夫模型为聚类模型和LDA主题模型为分类模型,对应急指挥综合管理平台中所收集到的多种服刑人员的业务管理信息进行综合聚类分类处理。实验表明,隐马尔可夫模型可以体现出各服刑人员在整个服刑阶段表现的时序变化,从而进行准确的聚类判断;LDA主题模型可以考虑到服刑人员的多种属性,从而对其进行准确的类别判断。  相似文献   

18.
针对异构信息网络中存在多种数据目标类型,以及多种数据连接关系的问题,将多个主题模型和马尔科夫逻辑网相结合,提出了一种融合概率图模型。多个主题模型可以分别描述不同数据目标子空间的主题分布,实现对多种数据目标的预处理。用一阶逻辑子句描述的连接规则构建马尔科夫逻辑网,将每个主题模型中的不同数据目标连接起来。通过使用Gibbs采样,可以对异构网络进行参数学习和推理。在国际通用的异构信息网络DBLP数据集上的实验结果表明,使用融合概率图模型能够更好地表示不同的数据目标和连接关系。实验对比了4种典型的分类方法,多次采样得到的分类结果稳定,对作者、文章和会议取得了较好的分类结果。  相似文献   

19.
快速寻优的全局优化进化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了加快进化算法中种群的寻优速度,设计双变异算子,提出一种进化算法。该算法以种群的多样性、算法的收敛速度、全局与局部搜索能力的综合均衡为设计重点,利用概率论和Markov链证明了该算法的全局收敛性,通过对6个基准函数进行测试,从数值上验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号