期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙程程李爱平黄九鸣《数字社区&智能家居》2014,(7):4460-4462

近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。相似文献

2.

基于二部图投影的微博事件关联分析方法研究

柳俊周斌黄九鸣《信息网络安全》2014,(9):44-49

文章针对微博事件相对于传统事件在传播过程中的新特征,提出了利用图论中二部图的理论来获取微博事件间的关联关系的新方法。文中给出了将微博事件和微博用户的关系转换为二部图网络的方法,并根据微博用户在微博事件中的角色特征,给出了微博用户的综合权重,由此来构造“微博事件--微博用户”加权二部图。通过对比多种二部图投影算法,提出了一种基于加权的一维投影算法,在保留二部图结构信息的基础上得出了微博事件间相互关联和影响的定量表示。最后通过实验验证了文章算法的合理性和正确性。相似文献

3.

短文本信息流的无监督会话抽取技术

黄九鸣吴泉源刘春阳张旭贾焰周斌《软件学报》2012,23(4):735-747

文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30％. 相似文献

4.

面向舆情监测的微博转世账户研判模型

卜俊丽彭灿郑毅黄九鸣周斌《通信学报》2014,35(Z2):31-232

微博社交网络在在线社交平台中扮演着重要角色,微博言论对网络舆论的贡献越来越大,网络舆论监测存在巨大挑战。转世账户是在网络舆论监测过程中出现的一类特殊的账户。加强这些账户的监测力度对于监测网络舆论有着很大的意义,实施监测的首要前提是发现这些账户。针对转世账户的特点进行模型设计,提出了一种基于时序和相似性的转世账户研判模型,并基于新浪数据进行了有效性的验证。相似文献

5.

基于A C-Tri e的在线社交网络文本流热点短语挖掘 总被引：1，自引：0，他引：1

下载免费PDF全文

黄九鸣吴泉源张圣栋贾焰刘东周斌《电子学报》2016,44(10):2466-2470

在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件。本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术。首先用文本流的某个典型时段采样得到候选短语,构建AC-Trie前缀树。然后,基于该前缀树,单遍扫描后续的文本流,将候选短语的历史出现频率记录在Trie相应节点上,从而支持多种基于历史频率的热度计算方法。此外,为及时发现新的热点短语并减少AC-Trie的构建次数,本文通过分析Trie树各节点上的遗漏短语频率,动态确定候选短语的更新时机。新浪微博数据集上的实验验证了本文方法的有效性（准确率达89％）和高效性（时空开销仅为基准算法的2％）。相似文献

6.

一种基于主题相关性分类的微博话题立场研判方法

王明元贾焰周斌黄九鸣《信息网络安全》2014,(9):17-21

对微博话题的立场进行精确研判是短文本挖掘的重点之一。文章提出了一种基于主题相关性对微博分类研判的方法,旨在识别网民对于微博话题的立场,是支持还是反对。微博和主题的相关性大小,常常会导致其文本特征有较大差异。文章首先利用关键词提取技术和互信息计算方法获取话题主题词集,接着对话题语料按是否与主题相关进行分类,然后分别采用机器学习和词典规则两种方法进行研判,综合得到话题的立场。实验结果表明,主题相关文本采用机器学习而主题无关文本采用词典规则的方法可以大大提高研判准确率。以此为基础,文章构建了一个微博话题立场研判模型,可用于政府有关部门监测互联网舆情以及企业评估产品市场等方面。相似文献

7.

面向协调搜索的文本相似度计算方法

孙程程李爱平黄九鸣《数字社区&智能家居》2014,(19):4460-4462,4485

近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。相似文献

8.

分布式不确定数据上的概率Skyline计算 总被引：2，自引：1，他引：1

下载免费PDF全文

王晓伟黄九鸣贾焰《计算机科学与探索》2010,4(10):951-960

提出了分布式不确定数据上概率skyline的低通信开销算法。首先给出了一种间接的对象分布信息——剪枝空间,分布节点通过共享全局剪枝空间,能够减少通信开销。为了降低传输剪枝空间带来的额外通信开销,对表示剪枝空间的虚拟对象集合进行基于距离的压缩。与基本算法相比,100个分布节点时,在真实数据集上节省了69%的通信开销;在均匀、正相关、反相关三种标准模拟数据上分别节省60.5%、41.8%、24.5%的通信开销。相似文献

9.

适用于多种监督模型的特征选择方法研究

王博黄九鸣贾焰杨树强《计算机研究与发展》2010,47(9)

特征选择是模式识别、机器学习、数据挖掘等领域的重要问题之一,近年来已成为研究热点,并涌现出大量的用于选择特征的算法.现有的特征选择算法大多仅面向某一特定领域,其适用范围有限.采用基于Hilbert-Schmidt相关性标准的核方法衡量特征子集与目标对象间的相关程度,提出了一个适用性更广的特征选择方法FSM_HSIC,能较好地统一有监督、半监督和无监督3种模型下的特征选择过程,而且可从核方法的角度对整个过程进行抽象地描述,并深入理解现有的一些算法.同时以该方法为基础针对交互特征选择问题设计了新颖的FSI算法.理论分析和大量真实与仿真实验结果表明,与若干特征选择算法相比较,提出的算法具有良好的效率和稳定性,FSM_HSIC方法对新算法的产生具有重要的指导意义. 相似文献

10.

SAN环境下高性能集群文件系统研究与实现 总被引：1，自引：0，他引：1

黄九鸣罗宇《计算机研究与发展》2007,44(Z1):69-74

在研究现有主流的集群文件系统后,针对SAN环境的特点,提出了一种高性能、低成本、支持大容量的集群文件系统模型.在论述其正确性后,对其性能进行分析.该模型采用文件元数据集中管理、多级cache、元数据预分配及预取等关键技术来提高系统的可靠性及吞吐率.最后通过实验验证了该模型的高效性. 相似文献