共查询到19条相似文献,搜索用时 62 毫秒
1.
随着智能技术应用的推广,高质量社区的检测已成为社会网络研究的热点之一。由于具有线性时间复杂度,且无需预定义目标函数和社团数,标签传播算法(LPA)已得到广泛关注。然而,在标签传播过程中,LPA具有不确定性和随机性,进而影响检测社区结果的准确性和稳定性。为此,提出一种基于密度峰值的标签传播社区检测方法(DPC-RWL)。首先,采用密度峰值聚类算法查找出社区的核心节点集合,计算节点与核心节点集之间的权重,选取最大值为该节点赋予权值。最后,使用基于标签传播算法的归属度函数进行传播。真实网络和LFR人工基准网络的对比实验表明,所提算法能准确高效地识别出社区结构。 相似文献
2.
社区发现能够揭示真实社会网络的拓扑结构和重要节点.由于具有线性时间复杂度,无需定义目标函数及目标参数,标签传播算法(LPA)作为经典社区发现算法被广泛应用在学术和实践领域.针对LPA算法更新顺序的无序性和标签选择的随机性,提出基于节点影响力的理性节点标签传播算法(RLPBNI).将节点影响力排序作为更新顺序,引入理性节... 相似文献
3.
针对基于多标签传播重叠社团挖掘算法COPRA因随机更新策略带来的不稳定性以及需要预先输入参数的局限性等问题,提出一种基于LeaderRank和节点相似性的多标签传播重叠社团挖掘算法.该算法首先利用LeaderRank算法对网络中的节点进行重要性排序从而确定节点的更新顺序,减少标签不必要的更新.在标签传播过程中,根据节点相似性重新设计标签的更新策略,提高算法的稳定性.将算法应用于人工网络和真实网络中进行实验,实验结果表明该算法在挖掘重叠社团上具有较高的准确性和稳定性. 相似文献
4.
5.
基于标记树的Web页面区域划分和搜索方法 总被引:4,自引:0,他引:4
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。 相似文献
6.
随着社交媒体的快速兴起,计算效率较高的标签传播算法已经得到广泛的使用。然而,现有的标签传播算法在节点初始化时未能考虑节点之间存在的差异性,存在随机性高、稳定性低的缺陷。因此,论文给出了一种基于核心节点逐层扩展的标签传播算法。将LeaderRank算法模型融入到本方法模型中,在此基础上计算出节点重要性;进而以重要性作为衡量标准,将其中重要度较高的核心节点筛选出来形成传播初始源,以减少标签传播过程中的时间损耗;最后,依据改进了节点重要度的更新方法实现了节点标签的逐层更新。多个数据集上的实验结果表明,与现有的标签传播算法相比,该算法更加稳定有效地实现了社区发现。 相似文献
7.
针对COPRA算法因在标签更新过程采用随机策略而导致的重叠社区划分结果不稳定问题,本文对COPRA算法进行了改进,提出了一种简单的重叠社区发现算法.该算法仍采用同步的方式传播标签,但只在以边缘节点为中心的桥梁节点群内进行标签传播,以此提升发现重叠社区的速度.该算法还引入了节点连接社区强度,利用其降低标签更新过程中的随机... 相似文献
8.
标签传播算法是一种常用的社区发现方法,具有近似线性的时间复杂度,但该算法存在随机性和不稳定性.为了解决标签传播算法存在的准确性低和稳定性差的问题,本文提出了基于节点重要性与相似性的标签传播算法(Label Propagation Algorithm based on node Importance and Similarity,LPA IS).首先,基于节点重要性提出种子节点集和算法更新序列的获取方法.其次,利用节点重要性与相似性提出了一种计算标签综合影响力的方法,任意节点根据其邻居标签的综合影响力更新自身的标签.在真实网络和人工合成网络上进行实验,结果表明,与其它5种典型标签传播类算法对比,LPA IS算法能够在一定程度上提高算法的准确性和稳定性,并且能够减少算法的迭代次数. 相似文献
9.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 相似文献
10.
节点分类被广泛应用于社交网络等网络数据处理之中,为了进行节点分类研究,考虑使用生成对抗网络GAN来得到节点表示,从而得到良好的节点分类效果.在此基础上,提出了节点分类生成对抗网络NC-GAN模型.该模型通过生成对抗网络进行二元博弈,同时考虑网络中的连通性分布和节点之间的相似度,以获得更加拟合网络的节点表示,再通过节点表... 相似文献
11.
12.
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。 相似文献
13.
14.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。 相似文献
15.
16.
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,噪音的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。 相似文献
17.
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 相似文献
18.
19.
一个好的核函数能提升机器学习模型的有效性,但核函数的选择并不容易,其与问题背景密切相关,且依赖于领域知识和经验。核学习是一种通过训练数据集寻找最优核函数的机器学习方法,能通过有监督学习的方式寻找到一组基核函数的最优加权组合。考虑到训练数据集获取标签的代价,提出一种基于标签传播的半监督核学习方法,该方法能够同时利用有标签数据和无标签数据进行核学习,通过半监督学习中被广泛使用的标签传播方法结合和谐函数获得数据集统一的标签分布。在UCI数据集上对提出的算法进行性能评估,结果表明该方法是有效的。 相似文献