首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。  相似文献   

2.
基于本体的Web页面聚类研究   总被引:4,自引:1,他引:3  
提出了一个基于本体的Web页面聚类系统原型,通过构建一个简单的搜索引擎并对结果进行聚类,大大节省用户发现所需信息的时间.同时将领域本体引入聚类系统中,提高了聚类效率和增强了聚类结果的可解释性.  相似文献   

3.
季红洁  赵知纬  钱龙华 《福建电脑》2012,28(11):10-12,45
跨文本指代消解研究是自然语言处理中的一个重点以及难点,是信息检索、信息抽取和多文档摘要等应用的重要组成部分。传统的跨文本指代消解主要解决信息检索中遇到的重名消歧问题。本文从信息抽取的角度出发,旨在解决信息抽取过程中的重名消歧和多名聚合两大跨文本指代消解任务。本文在一个基于ACE2005中文语料库标注的中文跨文本指代语料库上,利用空间向量模型进行面向信息抽取的跨文本指代消解。  相似文献   

4.
基于分级神经网络的Web文档模糊聚类技术   总被引:2,自引:1,他引:1  
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类.  相似文献   

5.
雷景生  伍庆清  王平 《计算机工程》2005,31(1):12-13,16
针对Web文档的特点,提出了一种多层向量空间模型,用来确定Web文档特征词的权重,然后给出了一种基于混合神经网络的文档聚类算法。实验结果表明,所提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类。  相似文献   

6.
基于Web浏览内容和行为相结合的用户兴趣挖掘   总被引:18,自引:0,他引:18  
赵银春  付关友  朱征宇 《计算机工程》2005,31(12):93-94,198
通过对用户浏览的Web页面进行聚类分析,并与采用线性回归分析用户浏览行为相结合,得到了采用加权关键字矢量表示的用户兴趣模型,实验证明该模型能较好地描述用户的兴趣类型及兴趣浓度,提高个性化信息服务的效率。  相似文献   

7.
一种用于Web文本聚类的特征选择方法   总被引:1,自引:0,他引:1  
特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效.但是,由于缺少类标签,它很难应用到文本聚类中.提出了一种针对Web文本聚类的新的特征选择算法--基于k-means的多特征联合选择算法(MFCC).MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择.实验证明,MFCC有效地提高了聚类质量.  相似文献   

8.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

9.
本文根据Google Search API的搜索结果的特点,设计了一种综合HTML结构分析与条件随机域模型理论的不依赖于模板的信息抽取方法;根据向量空间模型思想和网页文本特性,本文设计了一种基于向量空间模型的文本聚类方法。最后通过系统实现并实验,验证了本文方法在对人名搜索结果中重名的个人信息进行消解的有效性。  相似文献   

10.
Web访问模式聚类中引入Web内容挖掘的方法   总被引:3,自引:0,他引:3       下载免费PDF全文
陈正明  马光志 《计算机工程》2006,32(18):70-71,7
在用户访问模式的聚类过程中引入页面的相似性因子,从用户访问的主要内容和访问路径两个方面来度量访问模式的相似性,针对以往对这种集成研究忽略的问题进行深入的探讨,提出了有效的解决方法,合理地降低了聚类结果的类别数目,能更准确地发现一个网站的潜在用户类。  相似文献   

11.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。  相似文献   

12.
重名问题在Web人物搜索过程中是很普遍的现象.研究了Web人名消歧相关问题,提取与待消歧人名相关的不同特征集,运用向量空间模型构造人物实体的组合特征,最后通过层次聚类算法将相似度高的文档优先聚类,由此实现人名消歧.在WePS数据集上的实验结果表明,提出的方法具有良好的消歧效果.  相似文献   

13.
基于Web社会网络的个性化Web信息推荐模型   总被引:3,自引:0,他引:3  
陈君  唐雁 《计算机科学》2006,33(4):185-187
随着Web信息量的快速增长,个性化的Web信息推荐系统扮演着越来越重要的角色。目前,大多数Web信息推荐系统存在着个性化程度不高,时用户历史数据依赖性高,系统不具备开放性,用户偏好“走样”概率高的问题。针对这四个方面的问题,本文提出了一种新的、采用语义web技术、基于Web社会网络的个性化Web信息推荐模型,详细分析了用户偏好的获取,Web社会网络的生成以及待过滤Web信息的采集。并且,利用从实际中采集的真实数据进行了实验,证明了模型的可行性和有效性。  相似文献   

14.
许倩  程东年 《计算机工程》2012,38(23):131-136
现有的异常流量根源分析技术大多需要人工干预,对异常事件的分类效果不佳。为此,提出基于层次聚类的流量异常分类算法TAC-HC,通过特征属性的训练过程逐步建立分类树,把相似的异常嵌入到子树中,在未知数据集聚类数目的情况下对新的异常进行分类。仿真结果表明,TAC-HC算法的分类平均准确率达到89%,对网络扫描这类小异常事件的分类精确率也能达到95.3%。  相似文献   

15.
社交网络数据的高度复杂性给数据挖掘研究带来了巨大的挑战,而社交网络数据挖掘更注重实体之间相互关联的特点,使得图数据挖掘技术的研究与应用逐渐成为该领域的热点。传统数据挖掘,如聚类、分类、频繁模式挖掘等技术逐渐拓展到图数据挖掘领域。文中首先介绍了现阶段图数据挖掘算法(其中包括图查询、图聚类、图分类和图的频繁子图挖掘)的研究内容和存在的问题;其次介绍了图形数据库研究现状,以及对比了主流图形数据库管理系统的优劣;最后介绍了图挖掘技术在社交网络中的应用。  相似文献   

16.
基于社会网络的人名检索结果重名消解   总被引:7,自引:0,他引:7  
人物重名现象十分普遍,搜索引擎的人名检索结果通常是多个同名人物相关网页的混合.该文依据同名的不同人物具有不同的社会网络的思想,利用检索结果中共现的人名发现并拓展检索人物相关的潜在社会网络,结合图的谱分割算法和模块度指标进行社会网络的自动聚类,在此基础上实现人名检索结果的重名消解.在人工标注的中文人名语料上进行实验,整体性能达到较好水平,图聚类算法能帮助连通社会网络的进一步划分,从而提高消解效果.  相似文献   

17.
唐伦  陈前斌  曾孝平  李云 《计算机工程》2008,34(22):271-273
针对泛在网络面临局部自治性、异构性、复杂性、混沌性等问题,提出一种基于社会网络分析的泛在网络体系架构及网络仿真平台,并进行原型系统实现。采用社会网络分析中的社会网络的管理、组织和协作机制,利用Multi-Agent技术,从泛在网络体系架构、泛在网络软件平台、虚拟组织、管理Agent、工作者Agent等方面进行设计,同时对Agent通信语言进行基于XML的扩展。实验结果证明,该平台可用于仿真复杂的泛在网络服务与应用。  相似文献   

18.
针对社交媒体数据搜索中存在的消息文本短、不利于构建索引,排名列表形式单一、无法展现社交媒体数据的整体结构的问题,通过挖掘社交媒体数据隐含的多重语义特征,强化索引结构,提出基于可视分析方法的搜索系统,采用交互式界面可视化表达语义特征,使得搜索更准确.以推特数据为研究对象,基于时间上的语义相关性,首先抽取数据中隐含的话题和命名实体集合;在此基础上构建层次语义图模型,简化数据的内在语义关系,同时为可视化搜索提供必要的索引结构;用户浏览数据时,分裂环形图表示数据的多重语义特征,系统提供多种交互方式方便用户探索更多信息.案例分析结果表明,相对于连线和气泡图特征模式,分裂环形图更加明显,方便用户寻找关注的消息;用户调查结果反映出该方法较传统的搜索方式更容易找到想要的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号