排序方式: 共有33条查询结果,搜索用时 15 毫秒
1.
近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。 相似文献
2.
从社会关系抽取的角度出发,设计了一个基于主题的Web人名抽取系统。该系统可根据给定的主题获取相应的Web文档,并从中抽取出与该主题相关的中英文人名,从而为基于主题的Web社会关系抽取提供有效的数据支撑。 相似文献
3.
网络异常流量检测是当前网络安全领域的热点问题。传统的基于信息熵的检测方法大多采用固定阈值,无法动态适应不断变化的网络环境。针对该问题提出了一种改进的基于信息熵的突发流量检测方法,能根据正常历史流量的熵值动态调整阈值大小。实验结果表明,该方法对DDo S和Flash Crowd这两种情形引起的突发流量具有较好的检测效果。 相似文献
4.
5.
邮箱用户身份信息挖掘是数据挖掘研究的一个热点。当前相关研究大多仅从邮件头中抽取邮箱用户的别名,遗漏了邮件正文中潜藏的更能代表通信双方身份的别名信息。针对纯文本邮件正文中邮箱用户别名信息抽取问题,提出了基于统计和规则过滤的称呼块和签名块定位算法,该算法能高效准确地从邮件正文中提取出蕴涵邮箱用户别名的称呼块和签名块文本片段;进一步提出了基于别名边界词汇模板修正的别名抽取方法,从而提高了仅基于命名实体识别或词性标注工具识别别名的准确率。实验结果表明,提出的方法可以有效地抽取出邮件正文中邮箱用户的别名。 相似文献
6.
7.
近年来微博炒作账户异军突起,采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序。传统的炒作账户发现主要采用特征分析方法,忽视了炒作账户的组织性和策划性,难以发现隐蔽性高的炒作账户。针对以上问题,充分考虑到炒作账户共同参与微博炒作的群体特性,将炒作群体发现问题转化为挖掘最大频繁项集问题,提出了一种基于最大频繁项集挖掘的炒作群体发现方法,能够找出多次共同参与炒作微博传播的账户群体。为了提高最大频繁项集挖掘的效率,结合研究背景以及事务数据库的特点,提出了一种基于迭代交集的最大频繁项集发现算法,采用基于二分查找的最大频繁候选项集筛选策略对事务数据库进行缩减,并利用多种方式减少事务间取交集的次数。最后通过实验对IIA算法的性能进行了评估,并在真实的新浪微博数据集上验证了炒作群体发现方法的有效性,实验结果表明利用该方法发现的炒作群体准确率高于90%,而且能发现传统特征分析方法难以识别的隐蔽炒作账户。 相似文献
8.
毕业设计是高校工科专业本科人才培养的一个重要环节。针对军队院校网络工程专业任职需求和毕业设计教学环节服务于岗位任职能力培养存在的不足,提出了两阶段本科毕业设计培养模式,并分析该模式的特点;通过两年实践,在该模式下培养的学生在综合实践能力、岗位任职能力上取得了显著的效果。该模式对高校工科专业本科毕业设计的教学实施具有良好的推广价值。 相似文献
9.
在邮件挖掘研究中,发现邮件地址相应的深层关注对象人物实体是未来研究热点方向之一。在现实世界中人名是人的一种关键标识,而在互联网中别名常代替真实人名来标识人物实体,权威别名评估对身份辨识、核心人物查找等应用研究具有重要意义。基于邮件通联关系结构特征,针对一个邮箱用户所有可能的别名,提出基于使用广度与频度以及借鉴PageRank算法思想的基于通信对象信誉度的权威别名评估算法,最后实验验证了其合理性和有效性。 相似文献
10.