首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
张彬  蒋涛 《计算机与数字工程》2007,35(10):80-82,103
文档分类是Web信息抽取一个基础性的问题.尽管Web文档是超链接的,然而大部分提出的分类技术很少利用链接结构信息,主要依靠文本特征信息.讨论Web内容分类、链接分析等基本概念,提出一个基于链接的分类方法,可以单独使用也可以结合基于文本的分类技术一起使用.  相似文献   

2.
《计算机工程》2017,(8):208-214
研究基于复杂网络特征的链接分类问题,针对原始特征噪声信息多、冗余度大的现象,在RRelief F特征选择算法的基础上,提出一种改进的链接分类模型。从局部和全局2个维度构建与链接相关联的特征信息,引入RRelief F算法对特征进行选择并采用偏最小二乘法实现回归分类。在人工数据集和真实数据集上的实验结果表明,该模型能筛选出具有判别性的特征,提高链接分类质量,为监督学习的复杂网络链接分类提供一种新思路。  相似文献   

3.
提出一种利用相邻网页信息修正分类结果的方法。这种方法首先利用NaiveBayes分类器分类待分类网页;其次对待分类网页做链接分析并计算页面与链出页面的相似度,对初始分类结果做修正,得到最终分类结果。根据该方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能。  相似文献   

4.
基于链接描述文本及其上下文的Web信息检索   总被引:20,自引:0,他引:20  
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一,由此产生了基于超链接结构的检索技术。描述了链接描述文档的概念,并在此基础上研究链接文本(anchor text)及其上下文信息在检索中的作用。通过使用超过169万篇网页的大规模真实数据集以及TREC 2001提供的相关文档及评价方法进行测试,得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在已知网页定位的任务上能够使系统性能提高96%,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能;最后,把基于链接描述文本的方法与传统方法相结合,能够在检索性能上提高近16%。  相似文献   

5.
提出一种基于图的半指导学习算法用于网页分类.采用k近邻算法构建一个带权图,图中节点为已标志或未标志的网页,连接边的权重表示类的传播概率,将网页分类问题形式化为图中类的概率传播.为有效利用图中未标志节点辅助分类,结合网页的内容信息和链接信息计算网页间的链接权重,通过已标志节点,类别信息以一定概率从已标志节点推向未标志节点.实验表明,本文提出的算法能有效改进网页分类结果.  相似文献   

6.
链接、通信是计算机网络中的基本内容,建立合适的模型进行分析,有助于理论研究与技术创新。描述连接和链接两个概念并给出了它们之间的关系;在定义了逻辑链接后,分别提出有向链接和逻辑链接集合,并形式化定义了数据传输方式。在逻辑链接的基础上,给出了通信状态的定义,并依据有向链接的定义,形式化描述了信息交互的三种基本方式;此外,以层次化的网络通信为背景,定义了对等层通信,并基于映射描述了网络通信的过程。  相似文献   

7.
链接结构是网站设计与维护时需要考虑的主要因素.将网站结构抽象为无权有向图,提出了网页可达性和平均载入时间的概念,建立了一种网站链接结构优化的多目标模型,并针对模型的非线性特点设计了禁忌搜索算法.仿真实验表明,链接结构优化的方法不但有助于管理员维护网站结构,而且可以为电子超市的顾客获取商品信息带来方便.  相似文献   

8.
实体消歧是自然语言理解的重要研究内容,旨在解决文本信息中普遍存在的命名实体歧义问题,在信息抽取、知识工程和语义网络等领域有广泛的应用价值。实体链接是实体消歧的一种重要方法,该方法将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除[1]。传统的实体链接方法主要利用上下文的词语匹配等表层特征,缺乏深层语义信息,针对这一问题,该文提出的实体链接方法利用了多种特征,从不同的维度捕获语义信息。为了更好地融合各个维度的特征,该文利用了基于排序学习框架的实体链接方法,与传统的方法相比,节省了人工对大量的模型参数选择和调节的工作,与基于分类的方法相比,能更好地利用到候选之间的关系信息。在TAC-KBP-2009的实体链接评测数据上的实验表明,该文提出的特征和方法表现出良好的性能,在评测指标上高出参赛队伍最好水平2.21%,达到84.38%。  相似文献   

9.
为解决搜索引擎返回结果数量上的限制,扩展了元搜索技术,提出链接群落、链接繁殖的概念,并与生物群落进行了对比。链接繁殖的思想是首先将多个搜索引擎返回的结果作为起始信息源,利用预定义的繁殖规则,优化并整合搜索结果,对链接所指网页的链接进行分析,繁殖出更多的相关信息源。在分析不同的搜索引擎结果集时,系统根据不同搜索引擎直接与繁殖发现信息源的能力与质量,动态调整繁殖的链接的优先次序。经过实验验证,链接繁殖可以大大扩展通过搜索引擎发现主题信息源的数量。  相似文献   

10.
链接预测是社会网络分析领域的关键问题,研究如何从已知网络中预测可能存在的新链接。现实网络中存在了大量未连接的节点对,从中挖掘潜在信息可以帮助实现链接预测任务。将链接预测视为二类分类问题,使用半监督学习技术,利用网络中的未标记数据帮助学习。使用了两种半监督范式:自我训练和协同训练。在现实数据集Enron和DBLP中的实验结果表明,链接预测任务中采用未标记数据能够有效提高预测的准确率。  相似文献   

11.
节点标签是复杂网络中广泛存在的监督信息,对网络表示学习具有重要作用。基于此,提出了一种结合图自编码器与聚类的半监督表示学习方法(GAECSRL)。首先,以图卷积网络(GCN)和内积函数分别作为编码器和解码器,并构建图自编码器以形成信息传播框架;然后,在编码器生成的低维表示基础上增加k-means聚类模块,从而使图自编码器的训练过程和节点的类别分布划分形成自监督机制;最后,利用节点标签的判别信息对网络低维表示的类别划分进行指导,将网络表示生成、类别划分以及图自编码器的训练构建在一个统一的优化模型中,并获得融合节点标签信息的有效网络表示结果。在仿真实验中,将GAECSRL用于节点分类和链接预测任务。实验结果表明,相比DeepWalk、node2vec、全局结构信息图表示学习(GraRep)、结构化深度网络嵌入(SDNE)和用数据的转导式或归纳式嵌入预测标签和邻居(Planetoid),在节点分类任务中GAECSRL的Micro?F1指标提高了0.9~24.46个百分点,Macro?F1指标提高了0.76~24.20个百分点;在链接预测任务中,GAECSRL的AUC指标提高了0.33~9.06个百分点,说明GAECSRL获得的网络表示结果能有效提高节点分类和链接预测任务的性能。  相似文献   

12.
张钊  吉建民  陈小平 《计算机应用》2019,39(9):2489-2493
知识表示学习目的是将知识图谱中符号化表示的关系与实体嵌入到低维连续向量空间。知识表示模型在训练过程中需要大量负样本,但多数知识图谱只以三元组的形式存储正样本。传统知识表示学习方法中通常使用负采样方法,这种方法生成的负样本很容易被模型判别,随着训练的进行对性能提升的贡献也会越来越小。为了解决这个问题,提出了对抗式负样本生成器(ANG)模型。生成器采用编码-解码架构,编码器读入头或尾实体被替换的正样本作为上下文信息,然后解码器利用编码器提供的编码信息为三元组填充被替换的实体,从而构建负样本。训练过程采用已有的知识表示学习模型与生成器进行对抗训练以优化知识表示向量。在链接预测和三元组分类任务上评估了该方法,实验结果表明该方法对已有知识表示学习模型在FB15K237、WN18和WN18RR数据集上的链接预测平均排名与三元组分类准确度都有提升。  相似文献   

13.
链路预测作为复杂网络分析的一项重要任务,其目的是寻找节点间缺失(新)的链路,识别虚假交互,对于挖掘和分析网络的演化,重塑网络模型具有重要意义.传统的链路预测方法多数采用拓扑结构信息、节点的属性信息和图的结构特征.应用这些特征等外部信息可以得到很好的预测效果.本文从信息学的角度全面分析、回顾和讨论了复杂网络链路预测的发展现状,提出了链路预测技术和问题的系统分类.首次将分层的思想引入链路预测分类体系中,把当前的链路预测方法分为基于监督学习的技术、基于半监督学习的技术、基于无监督学习的技术和基于强化学习的技术.对每种技术的优缺点、复杂性、所使用的具体特征,开源实现及应用建议进行了详细的分析.最后,讨论了当前复杂网络链路预测技术未来的发展方向.  相似文献   

14.
在社会网络分析中链接预测尤为重要。文章关注社会网络中有权图的链接预测问题,提出了一些针对有权图的链接预测度量指标。基于网络中的两个节点在相近时间发布相近内容则相似性更大的假设,文章提出一个基于时间信息的链接预测方法。通过在一个博客数据集上的实验显示该方法相对于传统方法效果更好。  相似文献   

15.
陈文杰  文奕  张鑫  杨宁  赵爽 《计算机工程》2020,46(5):63-69,77
传统基于翻译模型的知识图谱表示方法难以处理一对多、多对一和多对多等复杂关系,而且通常独立地学习三元组而忽略了知识图谱的网络结构和语义信息。为解决该问题,构建一种基于TransE的TransGraph模型,该模型同时学习三元组和知识图谱网络结构特征,以有效增强知识图谱的表示效果。在此基础上,提出一种向量共享的交叉训练机制,从而实现网络结构信息和三元组信息的深度融合。在公开数据集上的实验结果表明,相比TransE模型,TransGraph模型在链路预测和三元组分类2个任务中的HITS@10、准确率指标均得到显著提升。  相似文献   

16.
现有的网络表征方法及其相关变体的侧重点在于保存网络的拓扑结构或使重构误差最小,忽略隐变量的数据分布问题.基于此种情况,文中提出基于对抗图卷积的网络表征学习框架(AGCN),使网络模型不仅可以组合图的结构信息和节点的属性信息,提高网络表征学习性能,而且可以学习数据分布.与此同时,在AGCN的基础上提出端到端的多任务学习框架(MTL),在一个学习阶段可以同时进行链接预测和节点分类任务.实验表明,MTL性能较优.  相似文献   

17.
一种有效的社会网络社区发现模型和算法   总被引:6,自引:0,他引:6  
社会网络的社区发现存在划分效果较好的算法时间复杂度过高、现有快速划分算法划分质量不佳、缺乏表达和充分利用个体和链接属性信息的模型和机制等问题.针对这些问题,提出了一种边稳定系数模型和一种能表达个体间关系紧密度的完全信息图模型,在此基础上设计和实现了一种有效的社区发现算法.提出的完全信息图模型具有较高通用性,适用于需要融合个体和链接属性的社区发现算法.通过系列实验表明,所提出的以边稳定系数模型和完全信息图为基础的算法,对社会网络中的社区发现问题是有效的.算法不仅具有较快的速度,也能适用于带权与不带权的网络,得到的社区划分结果也具有较高的划分质量.  相似文献   

18.
Compared with conventional graph data analysis methods, the graph embedding algorithm provides a new graph data analysis strategy. It aims to encode graph nodes into vectors to mine or analyze graph data more effectively using neural network related technologies. Some classic tasks have been improved significantly by graph embedding methods, such as node classification, link prediction, and traffic flow prediction. Although substantial breakthroughs have been made by former researchers in graph embedding, the nodes embedding problem over temporal graph has been seldom studied. In this study, we propose an adaptive temporal graph embedding (ATGED), attempting to encode temporal graph nodes into vectors by combining previous research and the information propagation characteristics. First, an adaptive cluster method is proposed by solving the situation that nodes active frequency varies types of graph. Then, a new node walk strategy is designed in order to store the time sequence between nodes, and also the walking list will be stored in a bidirectional multi-tree in the walking process to get complete walking lists fast. Last, based on the basic walking characteristics and graph topology, an important node sampling strategy is proposed to train the satisfied neural network as soon as possible. Sufficient experiments demonstrate that the proposed method surpasses existing embedding methods in terms of node clustering, reachability prediction, and node classification in temporal graphs.  相似文献   

19.
基于数据流图的恶意软件检测方法通常仅关注API(application programming interface)调用过程中的数据流信息,而忽略API调用顺序信息。为解决此问题,所提方法在传统数据流图的基础上融入API调用的时序信息,提出恶意软件时序对偶数据流图的概念,并给出模型挖掘方法,最后提出一种基于优化的图卷积网络对时序对偶数据流图进行分类、进而用于恶意软件检测与分类的方法。实验结果表明,所提方法的恶意软件识别准确率较传统基于数据流图的恶意软件识别方法有更好的检测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号