共查询到10条相似文献,搜索用时 15 毫秒
1.
跨语言新闻话题发现是将互联网上报道相同事件的不同语言新闻进行自动归类,由于不同语言文本很难表示在同一特征空间下,对其共同话题的挖掘就比较困难。然而类似的新闻事件在不同语言文本表达上具有相同的新闻要素,这些要素之间关联能够体现出新闻事件的关联性,因此,针对汉越新闻话题发现问题,提出基于文档图聚类的汉越双语新闻话题发现方法。首先提取汉越新闻文本新闻要素,借助文本中要素相似度计算汉越文本相关度,构建汉越双语文本图模型,获得新闻文本相似度矩阵;然后,借助图模型中文本间的传播特点,采用随机游走算法对相似度矩阵进行调整,最后利用信息传递算法进行聚类。实验结果表明提出的方法取得了很好的效果。 相似文献
2.
话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。 相似文献
3.
根据公共安全网络舆情研究的需求,将文本分类技术应用于突发事件应急管理中,提出了基于TFIDF分类方法的突发事件引发的网络舆情信息分类方法,设计类别样本并读入新闻文本,对文本进行中文分词,通过计算新闻文本和类别样本的相似度将新闻文本分到相似度最大的类别之中。通过编程实现了按照事件类型和地理位置两种分类方式对新闻文本进行分类,程序分类结果验证了该方法的实用性。 相似文献
4.
5.
6.
7.
基于95598业务,利用大数据分析挖掘方法,构建统一身份识别模型,有效识别客户来电号码与户号的对应关系。采用大数据文本挖掘技术,有效解析用电地址信息、客户姓名等内容,并计算地址相似度得分、姓名相似度得分,作为对应关系校验以及识别疑似户号的关键因子指标。针对能获取到的对应关系,构建权重划分模型,计算对应关系匹配度得分,根据分值大小,校验对应关系的可靠性。针对找不到户号对应关系的来电号码,基于文本相似度得分构建KNN模型,计算对应关系匹配度得分,依据分值大小,识别疑似户号。 相似文献
8.
基于隐主题分析和文本聚类的微博客中新闻话题的发现 总被引:1,自引:0,他引:1
提出一种在大规模微博客短文本数据集上发现新闻话题的方法。利用隐主题分析技术,解决短文本相似度度量的问题。在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题。此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题。实验证明该算法的有效性。 相似文献
9.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。 相似文献
10.
为获得更好的事件发现和代表性新闻抽取性能,引入数据集代表点采样聚类的视角,研究实现了一种事件发现及表示的集成分析方法。对于给定的新闻流数据,首先引入信息支撑度定义新闻间关系权重和事件关系权重,并通过引入双层近邻传播算法的迭代构建整体时间流上的单向事件内容支撑度网络,实现代表性新闻的分层增量采样,进一步考虑以最大相似度划分策略实现代表性新闻上的整体新闻流数据聚类。实验结果表明,相比于现有相关方法,新方法在大规模新闻流数据上具有显著的计算效率,可提取出新闻流中极有代表性的新闻,以及获得更好的新闻文档聚类质量,其热点事件发现结果与权威机构评选的重大新闻有极高吻合度。 相似文献