共查询到18条相似文献,搜索用时 62 毫秒
1.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。 相似文献
2.
基于本体的Web页面聚类研究 总被引:4,自引:1,他引:3
提出了一个基于本体的Web页面聚类系统原型,通过构建一个简单的搜索引擎并对结果进行聚类,大大节省用户发现所需信息的时间.同时将领域本体引入聚类系统中,提高了聚类效率和增强了聚类结果的可解释性. 相似文献
3.
4.
基于分级神经网络的Web文档模糊聚类技术 总被引:2,自引:1,他引:1
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类. 相似文献
5.
6.
7.
一种用于Web文本聚类的特征选择方法 总被引:1,自引:0,他引:1
特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效.但是,由于缺少类标签,它很难应用到文本聚类中.提出了一种针对Web文本聚类的新的特征选择算法--基于k-means的多特征联合选择算法(MFCC).MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择.实验证明,MFCC有效地提高了聚类质量. 相似文献
8.
9.
本文根据Google Search API的搜索结果的特点,设计了一种综合HTML结构分析与条件随机域模型理论的不依赖于模板的信息抽取方法;根据向量空间模型思想和网页文本特性,本文设计了一种基于向量空间模型的文本聚类方法。最后通过系统实现并实验,验证了本文方法在对人名搜索结果中重名的个人信息进行消解的有效性。 相似文献
10.
11.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。 相似文献
12.
13.
基于Web社会网络的个性化Web信息推荐模型 总被引:3,自引:0,他引:3
随着Web信息量的快速增长,个性化的Web信息推荐系统扮演着越来越重要的角色。目前,大多数Web信息推荐系统存在着个性化程度不高,时用户历史数据依赖性高,系统不具备开放性,用户偏好“走样”概率高的问题。针对这四个方面的问题,本文提出了一种新的、采用语义web技术、基于Web社会网络的个性化Web信息推荐模型,详细分析了用户偏好的获取,Web社会网络的生成以及待过滤Web信息的采集。并且,利用从实际中采集的真实数据进行了实验,证明了模型的可行性和有效性。 相似文献
14.
15.
社交网络数据的高度复杂性给数据挖掘研究带来了巨大的挑战,而社交网络数据挖掘更注重实体之间相互关联的特点,使得图数据挖掘技术的研究与应用逐渐成为该领域的热点。传统数据挖掘,如聚类、分类、频繁模式挖掘等技术逐渐拓展到图数据挖掘领域。文中首先介绍了现阶段图数据挖掘算法(其中包括图查询、图聚类、图分类和图的频繁子图挖掘)的研究内容和存在的问题;其次介绍了图形数据库研究现状,以及对比了主流图形数据库管理系统的优劣;最后介绍了图挖掘技术在社交网络中的应用。 相似文献
16.
17.
18.
针对社交媒体数据搜索中存在的消息文本短、不利于构建索引,排名列表形式单一、无法展现社交媒体数据的整体结构的问题,通过挖掘社交媒体数据隐含的多重语义特征,强化索引结构,提出基于可视分析方法的搜索系统,采用交互式界面可视化表达语义特征,使得搜索更准确.以推特数据为研究对象,基于时间上的语义相关性,首先抽取数据中隐含的话题和命名实体集合;在此基础上构建层次语义图模型,简化数据的内在语义关系,同时为可视化搜索提供必要的索引结构;用户浏览数据时,分裂环形图表示数据的多重语义特征,系统提供多种交互方式方便用户探索更多信息.案例分析结果表明,相对于连线和气泡图特征模式,分裂环形图更加明显,方便用户寻找关注的消息;用户调查结果反映出该方法较传统的搜索方式更容易找到想要的结果. 相似文献