首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 255 毫秒
1.
王娜  李云松 《微机发展》2006,16(1):114-116
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的有效技术,Web文本挖掘已倍受关注。文中提出了利用概念格来抽取隐含在文本中潜在的概念关系,将文本挖掘中文档与关键词之间的关系通过概念格结构呈现出来。  相似文献   

2.
伪反馈一直以来都被认为是一种有效的查询扩展技术.但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能.如何确定相关文档以及如何从相关文档中挑选有用的扩展词项是伪反馈中两个重要的方面.与传统查询扩展不同,XML查询扩展不仅需要内容扩展还需要考虑结构扩展.提出了一个解决框架,利用聚类和词组抽取技术来查找相关文档和选择有用的扩展信息.结合XML的语义特征,提出了一种全新的基于层次信息的文档相似性度量方案.基于此,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.IEEE CS实验数据上的实验结果表明,结合了聚类和抽取技术的XML伪反馈查询扩展方法能有效地降低主题漂移现象,获得更好的检索质量.  相似文献   

3.
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的有效技术,Web文本挖掘已倍受关注。文中提出了利用概念格来抽取隐含在文本中潜在的概念关系,将文本挖掘中文档与关键词之间的关系通过概念格结构呈现出来。  相似文献   

4.
为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法.利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了特征抽取的粒度.实验结果表明,改进的方法在召回率和准确率等方面明显优于现有的方法,并在中文站点交互模式抽取方面取得了很好的效果.  相似文献   

5.
基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

6.
随着Internet的发展,Web挖掘技术越来越重要,其中的Web信息抽取技术逐渐成为热点,逐渐成为Web挖掘技术的关键技术之一,对Web信息抽取技术的深入研究也为构建更好的面向主题的搜索引擎提供了思路.文中对Web信息抽取的现有技术以及现有技术存在的问题进行了详细的论述.根据Web信息抽取的原理,依据软件工程的观点对Web信息抽取技术提出了具有指导意义的8条启发式规则.在这些规则的指导下,着重阐述了Web信息抽取中的基于结构和内容的信息抽取.通过理论分析及相应的实验说明所提出的8条规则对Web信息抽取具有良好的指导意义.  相似文献   

7.
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.  相似文献   

8.
杨沛  谭琦 《计算机科学》2008,35(2):150-153
极大频繁子树挖掘在Web挖掘、HTML/XML文档分析、生物医学信息处理等领域有着重要的应用,可用于解决这些领域的自同构问题.本文提出了一种极大频繁子树挖掘算法(MFTM).MFTM基于最右路径扩展技术,在搜索过程中,采用覆盖定理进行裁剪,压缩搜索空间,从而极大地加快了算法的收敛速度.性能实验表明,极大频繁挖掘等算法是有效和可伸缩的.  相似文献   

9.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

10.
基于概念格和关联规则Web个人化系统   总被引:1,自引:1,他引:0  
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等.但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况.更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用.提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集.  相似文献   

11.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

12.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

13.
在大数据时代,数据的样本数量、特征维度和类别数量都在急剧增加,且样本类别间通常存在着层次结构.如何对层次结构数据进行特征选择具有重要意义.近年来,已有相关特征选择算法提出,然而现有算法未充分利用类别的层次结构信息,且忽略了不同类节点具有共有与固有属性的特点.据此,提出了基于标签关联性的分层分类共有与固有特征选择算法.该算法利用递归正则化对层次结构的每个内部节点选择对应的固有特征,并充分利用层次结构分析标签关联性,进而利用正则化惩罚项学习各子树的共有特征.该模型不仅能够处理树结构层次化数据,也能直接处理更为复杂常见的有向无环图结构的层次化数据.在6个树结构数据集和4个有向无环图结构数据集上的实验结果,验证了该算法的有效性.  相似文献   

14.
Hierarchical discriminant analysis for image retrieval   总被引:2,自引:0,他引:2  
A self-organizing framework for object recognition is described. We describe a hierarchical database structure for image retrieval. The self-organizing hierarchical optimal subspace learning and inference framework (SHOSLIF) system uses the theories of optimal linear projection for optimal feature derivation and a hierarchical structure to achieve logarithmic retrieval complexity. A space-tessellation tree is generated using the most expressive features (MEF) and most discriminating features (MDF) at each level of the tree. The major characteristics of the analysis include: (1) avoiding the limitation of global linear features by deriving a recursively better-fitted set of features for each of the recursively subdivided sets of training samples; (2) generating a smaller tree whose cell boundaries separate the samples along the class boundaries better than the principal component analysis, thereby giving a better generalization capability (i.e., better recognition rate in a disjoint test); (3) accelerating the retrieval using a tree structure for data pruning, utilizing a different set of discriminant features at each level of the tree. We allow for perturbations in the size and position of objects in the images through learning. We demonstrate the technique on a large image database of widely varying real-world objects taken in natural settings, and show the applicability of the approach for variability in position, size, and 3D orientation. This paper concentrates on the hierarchical partitioning of the feature spaces  相似文献   

15.
Quality Phrase挖掘是从文本语料库中提取有意义短语的过程,是文档摘要、信息检索等任务的基础。然而现有的无监督短语挖掘方法存在候选短语质量不高、Quality Phrase的特征权重平均分配的问题。本文提出基于统计特征的Quality Phrase挖掘方法,将频繁N-Gram挖掘、多词短语组合性约束及单词短语拼写检查相结合,保证了候选短语的质量;引入公共知识库对候选短语添加类别标签,实现了Quality Phrase特征权重的分配,并考虑特征之间相互影响设置惩罚因子调整权重比例;按照候选短语的特征加权函数得分排序,提取Quality Phrase。实验结果表明,基于统计特征的Quality Phrase挖掘方法明显提高了短语挖掘的精度,与最优的无监督短语挖掘方法相比,精确率、召回率及F1-Score分别提升了5.97%,1.77%和4.02%。  相似文献   

16.
统计句法分析建模中基于信息论的特征类型分析   总被引:2,自引:0,他引:2  
统计句法分析利用概率评价模型评价每棵选句法树存在的可能性,选择概率值最高的候选句法树作为最终的句法分析结果。因此,统计句法分析的核心是一个概率评价模型,而各种概率评价模型的本质区别主要在于它们分别是根据上下文中的哪些特征来赋予句法树概率的。在统计句法分析研究领域,虽然已经提出了大量的概率评价模型,然而,不同的模型用得到了不同类型的特征,如何评价这些特征类型对于句法分析的作用呢?针对以上的问题,本研究为统计句法分析提出了一种特征类型的分析模型,该模型可以从信息论的角度量化地分析不同类型的上下文特征对于句法结构的预测作用。其基本思想是利用信息论中熵与条件熵的度量来显示一个特征类型是否抓住了预测句法结构的主要信息。如果加入某个特征类型之后当前句法结构的不确定性(熵)明显下降,则认为该特征类型抓住了上下文中影响句法结构的某些主要信息。特征类型分析的信息论模型利用预测信息量、预测信息增益、预测信息关联度以及预测信息总量四种度量从不同的仙量化地分析各种特征类型及特征类型组合对于当前目标的预测作用。实验以Penn TreeBank为训练集,将上下文中不同的特征类型对于句法分析规则的预测作用进行了系统的量化分析,得出了一系列有关不同特征类型及特征类型组合对句法结构的预测作用的结论。  相似文献   

17.
WWWDOC系统中HTML文档的可视化编辑与浏览技术的 …   总被引:1,自引:0,他引:1  
WWW文档协同写作系统(简称WWWDOC)的HTML文档的层次式结构包装技术要求对标准HTML语言进行扩展,以支持文档层次结构间的超链链接和媒体引用;在此基础上实现扩展HTML文档的可视化编辑和浏览导航。  相似文献   

18.
In this paper, we propose a Web video retrieval method that uses hierarchical structure of Web video groups. Existing retrieval systems require users to input suitable queries that identify the desired contents in order to accurately retrieve Web videos; however, the proposed method enables retrieval of the desired Web videos even if users cannot input the suitable queries. Specifically, we first select representative Web videos from a target video dataset by using link relationships between Web videos obtained via metadata “related videos” and heterogeneous video features. Furthermore, by using the representative Web videos, we construct a network whose nodes and edges respectively correspond to Web videos and links between these Web videos. Then Web video groups, i.e., Web video sets with similar topics are hierarchically extracted based on strongly connected components, edge betweenness and modularity. By exhibiting the obtained hierarchical structure of Web video groups, users can easily grasp the overview of many Web videos. Consequently, even if users cannot write suitable queries that identify the desired contents, it becomes feasible to accurately retrieve the desired Web videos by selecting Web video groups according to the hierarchical structure. Experimental results on actual Web videos verify the effectiveness of our method.  相似文献   

19.
钟锐  吴怀宇  何云 《计算机科学》2018,45(6):308-313
传统的人脸识别模型采用离线方式进行训练,同时由于人脸特征维数较高导致算法的实时性不足。文中分别从人脸特征与分类器两方面来构建快速的人脸识别算法。首先使用 SDM(Supervised Descent Method)算法进行人脸特征点定位,提取每个人脸特征点邻域内的局部(Multi Block-Center Symmetric Local Binary Patterns,MB-CSLBP)特征,并将所有的人脸特征点邻域特征以串联的方式构成局部融合特征,即所提出的局部融合MB-CSLBP特征LFP-MB-CSLBP(Local Fusion Feature of MB-CSLBP)。将以上特征送入分层增量树HI-tree(Hierarchical Incremental tree)中进行人脸识别模型的在线训练。分层增量树是使用分层聚类算法来实现增量式学习的,因此其能够以在线的方式对识别模型进行训练,具有较高的实时性与准确性。最后在3种不同的人脸库以及摄像头采集的人脸视频上对算法的识别率与实时性进行测试。实验结果表明,相比于当前其他算法,所提算法具有较高的人脸识别率与实时性。  相似文献   

20.
基于组合特征提取与多级SVM的轮胎花纹识别   总被引:1,自引:0,他引:1  
基于轮胎花纹分类识别在交通与刑事部门的重要作用,提出了一种新的基于组合特征提取与多级SVM的轮胎花纹识别方法。分别采用非下采样Contourlet变换和灰度共生矩阵方法提取轮胎花纹特征;组合两种方法所提取的特征作为图像特征,并从中提取5个有效特征作为最终识别特征;运用提取的5个特征和多级支持向量机分类器完成轮胎花纹的分类识别。新的特征提取方法所得轮胎花纹特征分离度高,用决策树SVM分类器预测分类效果理想,对轮胎花纹的正确分类识别有着重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号