首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 609 毫秒
1.
面向互联网新闻的在线事件检测   总被引:1,自引:0,他引:1  
付艳  周明全  王学松  栾华 《软件学报》2010,21(Z1):363-372
为了提高互联网上新闻事件在线检测的效率,利用加窗策略、命名实体识别及后缀树聚类等技术提出了一种新的检测算法.该算法基于实体识别技术解析出新闻数据特有的信息元素(例如日期、地点、人物等),并在限定的时间窗口内,通过新闻特征的语义匹配实现了新事件的快速识别,从而大幅降低了基于文本相似度计算的检测算法带来的巨大时间消耗.实验结果证明,该算法能够实现在保障检测准确率的同时显著提高检测的效率.  相似文献   

2.
基于词元再评估的新事件检测模型   总被引:1,自引:0,他引:1  
张阔  李涓子  吴刚  王克宏 《软件学报》2008,19(4):817-828
新事件检测(new event detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,在对不同类别的新闻报道进行新事件检测时,其不同类型的词元往往具有不同的敏感程度.而传统方法往往将所有的词元等同看待.重点研究在新事件检测模型中,对于不同词元的权重设定问题.提出利用统计方法优化不同类别新闻对于不同词性词元的权重参数;提出利用已有新闻簇信息动态更新词元权重的方法,采用在新闻之间(而非新闻与新闻簇之间)计算相似度的形式,发挥两种比较形式的优点.在Linguistic Data Consortium(LDC)公共数据集TDT2与TDT3上进行实验,实验结果表明,这两种改进方法的效果明显,性能与同类系统相比有显著提升.  相似文献   

3.
徐建民  孙晓磊  吴树芳 《计算机应用》2013,33(10):2807-2810
针对互联网新闻事件追踪,结合时间信息提出了一种用于事件追踪的动态模型。该模型将时间因素加入到传统向量模型中,在此基础上得到文档与事件包含的相同特征词之间的时间相似度,并将其应用于文档与事件的相关性计算。若文档与事件相关,则把文档中新的特征词加入事件特征词集并重新调整事件特征词集中特征词的权重和时间信息。实验采用检测错误权衡(DET)曲线进行评估,结果显示与传统向量模型相比,用于事件追踪的动态模型有效地提高了系统性能,其最小的归一化追踪损耗代价降低了约9%  相似文献   

4.
《软件》2017,(12)
随着网络的发展,互联网已经成为了最重要的新闻媒介。网络上的新闻报道能广泛传播,对社会有着深刻的影响。因此互联网新闻事件的监督和挖掘分析,对政府,企业有着巨大的价值。在进行新闻报道分析的时候,最为重要的任务之一就是把网络上类别杂乱,来源广泛的新闻进行识别和归类。新闻归类主要是基于通用的聚类的方法,其中一项基本的技术就是新闻报道相似度计算。根据需求不同,新闻聚类类别可以是一个事件,或者是一领域。本文针对事件的新闻报道聚类,提出了一种混合特征的相似度计算方法。采用了Tf-Idf和n-gram结合的向量空间模型来得到文本相似度,再通过规则识别出新闻文本中的时间,地点等关键信息,进行关键信息匹配度计算,最后再把两个相似度结合作为最终匹配度。实验表明,混合特征的方法明显提高了事件聚类的准召率。  相似文献   

5.
网络世界是人们获取信息的重要来源,各大新闻门户网站成为信息产生和传播的主要聚集地。网络信息具有不规范、噪声大、动态性等特点。为了有效地组织网络信息,提出一种结合静态和动态建模的方法来对网络新闻事件进行聚合。静态建模基于新闻发帖内容的相似程度进行事件的初步聚合;动态建模是指基于隐马尔可夫模型来刻画事件的动态发展过程,并判断当前新闻发帖是否符合事件的发展规律。该方法将事件聚合从仅考虑内容空间中的相似度推广至包含内容及事件动态规律两个方面的空间来进行相似度度量,对内容相似的不同事件能够进行更好地区分。通过实际数据上的实验测试结果表明,该方法能够有效提升事件聚合的准确性。  相似文献   

6.
重点研究事件检测模型中层次聚类算法的改进,提出利用在关键词抽取基础上利用新闻的各种要素信息计算新闻之间相似度的方式,搭建了一个在线新闻检索系统,在其上利用新华社的新闻语料进行实验。实验结果表明改进方法的效果明显,性能较之未使用前有显著的提升。  相似文献   

7.
陈晓琪    谢振平    刘渊   《智能系统学报》2020,15(6):1175-1184
为获得更好的事件发现和代表性新闻抽取性能,引入数据集代表点采样聚类的视角,研究实现了一种事件发现及表示的集成分析方法。对于给定的新闻流数据,首先引入信息支撑度定义新闻间关系权重和事件关系权重,并通过引入双层近邻传播算法的迭代构建整体时间流上的单向事件内容支撑度网络,实现代表性新闻的分层增量采样,进一步考虑以最大相似度划分策略实现代表性新闻上的整体新闻流数据聚类。实验结果表明,相比于现有相关方法,新方法在大规模新闻流数据上具有显著的计算效率,可提取出新闻流中极有代表性的新闻,以及获得更好的新闻文档聚类质量,其热点事件发现结果与权威机构评选的重大新闻有极高吻合度。  相似文献   

8.
张秀华  云红艳  贺英  胡欢 《计算机与数字工程》2021,49(6):1143-1147,1280
新闻事件检测是自然语言处理任务中的一项任务.新闻事件检测旨在从新闻文本数据流中检测出新闻事件并给出事件主题.人工构建新闻事件的特征费时费力.传统的新闻事件检测方法是根据新闻事件之间的空间距离检测新闻事件,对于不同的新闻事件相似度较高时,容易误判为同一事件.针对上述问题,论文提出基于注意力机制的双向长短记忆网络构建新闻事件检测模型,通过深度学习学习新闻文本深层次的特征并且基于新闻事件检测模型构建新闻事件建模应用系统.实验表明论文方法在准确率、召回率优于传统方法,可对新闻事件准确识别.  相似文献   

9.
新事件检测(New Event Detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,构成事件的一项重要属性是事件发生的特定时间,因此时间是区分不同事件的重要标志.为此,提出时序话题模型(Temporal Topic Model,简称TTM).TTM将话题和报道切分为若干对应不同时间表达式的事件.其中,时间表达式描述事件发生的特定时间.TTM基于时间表达式在话题中出现的频率和增长率,估量对应时间表达式的事件作为种子事件或相关新颖事件的概率.此外,时间表达式的频率与增长率也用于衡量事件在相关性匹配中权重.在此基础上,NED依赖时间特性快速遏制不同时间发生的事件匹配,并借助种子事件和新颖事件调整相关性判定的权重分配.  相似文献   

10.
跨语言新闻话题发现是将互联网上报道相同事件的不同语言新闻进行自动归类,由于不同语言文本很难表示在同一特征空间下,对其共同话题的挖掘就比较困难。然而类似的新闻事件在不同语言文本表达上具有相同的新闻要素,这些要素之间关联能够体现出新闻事件的关联性,因此,针对汉越新闻话题发现问题,提出基于文档图聚类的汉越双语新闻话题发现方法。首先提取汉越新闻文本新闻要素,借助文本中要素相似度计算汉越文本相关度,构建汉越双语文本图模型,获得新闻文本相似度矩阵;然后,借助图模型中文本间的传播特点,采用随机游走算法对相似度矩阵进行调整,最后利用信息传递算法进行聚类。实验结果表明提出的方法取得了很好的效果。  相似文献   

11.
New event detection (NED), which is crucial to firms’ environmental surveillance, requires timely access to and effective analysis of live streams of news articles from various online sources. These news articles, available in unprecedent frequency and quantity, are difficult to sift through manually. Most of existing techniques for NED are full-text-based; typically, they perform full-text analysis to measure the similarity between a new article and previous articles. This full-text-based approach is potentially ineffective, because a news article often contains sentences that are less relevant to define the focal event being reported and the inclusion of these less relevant sentences into the similarity estimation can impair the effectiveness of NED. To address the limitation of the full-text-based approach and support NED more effectively and efficiently, this study proposes and develops a summary-based event detection method that first selects relevant sentences of each article as a summary, then uses the resulting summaries to detect new events. We empirically evaluate our proposed method in comparison with some prevalent full-text-based techniques, including a vector space model and two deep-learning-based models. Our evaluation results confirm that the proposed method provides greater utilities for detecting new events from online news articles. This study demonstrates the value and feasibility of the text summarization approach for generating news article summaries for detecting new events from live streams of online news articles, proposes a new method more effective and efficient than the benchmark techniques, and contributes to NED research in several important ways.  相似文献   

12.
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。  相似文献   

13.
The effects of message type (navigation, E-mail, news story), voice type (text-to-speech, natural human speech), and earcon cueing (present, absent) on message comprehension and driving performance were examined. Twenty-four licensed drivers (12 under 30, 12 over 65, both equally divided by gender) participated in the experiment. They drove the UMTRI driving simulator on a road consisting of straight sections and constant radius curves, thus yielding two levels of low driving-workload. In addition, as a control condition, data were collected while participants were parked. In all conditions, participants were presented with three types of messages. Each message was immediately followed by a series of questions to assess comprehension. Navigation messages were about 4 seconds long (about 9 words). E-mail messages were about 40 seconds long (about 100 words) and news messages were about 80 seconds long (about 225 words). For all message types, comprehension of text-to-speech messages, as determined by accuracy of response to questions, and by subjective ratings, was significantly worse than comprehension of natural speech (79 versus 83 percent correct answers; 7.7/10 versus 8.6/10 subjective rating). Driving workload did not affect comprehension. Interestingly, neither the speech used (synthesized or natural) nor the message type (navigation, E-mail, news) had a significant effect on basic driving performance measured by the standard deviations of lateral lane position and steering wheel angle.  相似文献   

14.
Steganography is the process of hiding information on a host signal. Transparency is referred to the ability to avoid suspicion about the existence of a secret message. The most popular mechanisms for hiding data in audio signals are the Least Significant Bit (LSB) substitution, Frequency Masking (FM), Spread Spectrum (SS), and Shift Spectrum Algorithm (SSA). In this paper, we adapt the Frequency Masking concept using an efficient sorting of the wavelet coefficients of the secret messages and use an indirect LSB substitution for hiding speech signals into speech signals. The experimental results show that the proposed model, the Efficient Wavelet Masking (EWM) scheme, has a hiding capacity significantly higher than the Spread and Shift Spectrum Algorithms and additionally a statistical transparency higher than all of the above mentioned mechanisms. Moreover, the transparency is not dependent of the host signal chosen because the wavelet sorting guarantees the adaptation of the secret message to the host signal.  相似文献   

15.
消息推送系统作为一种主动的、定制化的消息送达形式,能够从用户的兴趣出发,主动向用户呈现所需要的信息,正在逐渐改变互联网的信息传播方式。现有消息推送系统主要针对弱实时场景设计,资讯、娱乐类消息是其主要的推送内容,不能满足一些高可靠、低时延场景的消息推送需求。针对于此,本文提出一种多队列消息池缓存策略和二级紧急消息调度方法,提高了消息的到达率水平,同时减小了紧急消息的到达时延。实验结果表明,该方法能够有效提高消息系统的可靠性和推送效率。   相似文献   

16.
首先介绍应用服务器EBAS(EB Application Server)的概况并分析其存在的弊病,然后据此设计消息分发组件,详细介绍了消息分发组件的结构和处理逻辑,包括消息分组件与外部实体的消息交互方法、维护外部实体的状态的准则、区别外部实体是重连还是重启的策略。添加消息分发组件的EBAS可靠性更高,支持在线无损升级,更加适合大容量、高并发的业务模型。  相似文献   

17.
基于代理重签名和无证书公钥密码体制,提出了一个安全的车载自组网消息认证方案。认证中心利用代理重签名技术,可转换车载单元对消息的签名为路边单元的签名,从而降低了根据签名识别车辆身份的风险,实现通信消息的匿名性。采用无证书公钥密码体制将各实体的私钥分为两部分,有效解决了车载自组网中的证书管理与密钥托管问题。如果车辆发布虚假消息,认证中心能准确追溯到车辆的真实身份,并召回违法车辆。与Huang方案相比,新方案具有较高的安全性和较低的通信开销。  相似文献   

18.
企业信息发布系统是针对企业发布时效性较强的多类型新闻信息而开发,此系统可发布多类新闻信息,如企业新闻、行业新闻等,管理员还可通过后台添加、修改和删除新闻信息,其任务是实现企业信息的自动发布和管理。详细论述了企业信息发布系统开发的工具、基本原理和设计过程、系统开发过程中涉及JavaBean和JSP的使用技巧及常用的应用服务器的开发模式。  相似文献   

19.
Named entity disambiguation (NED) is the task of linking mentions of ambiguous entities to their referenced entities in a knowledge base such as Wikipedia. We propose an approach to effectively disentangle the discriminative features in the manner of collaborative utilization of collective wisdom (via human-labeled crowd labels) and deep learning (via human-generated data) for the NED task. In particular, we devise a crowd model to elicit the underlying features (crowd features) from crowd labels that indicate a matching candidate for each mention, and then use the crowd features to fine-tune a dynamic convolutional neural network (DCNN). The learned DCNN is employed to obtain deep crowd features to enhance traditional hand-crafted features for the NED task. The proposed method substantially benefits from the utilization of crowd knowledge (via crowd labels) into a generic deep learning for the NED task. Experimental analysis demonstrates that the proposed approach is superior to the traditional hand-crafted features when enough crowd labels are gathered.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号