首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
陆剑江  钱培德 《计算机工程》2003,29(6):34-35,152
主要介绍了面对万维网上各种各样的诸如文本、声音、图形和图像等语料信息,如何按照用户的实际需求将其中对用户有用的信息抽取出来,从而实现对现有语料信息的一种有效分离。重点介绍了Web信息簇聚性的特点和语料库的设计,以及语料库的实际工作原理。  相似文献   

2.
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的Web信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。  相似文献   

3.
Web信息提取是在线旅游业务的重要技术。页面的主体语义块集中了最主要的信息量,它的正确提取是Web信息提取的基础。本文在对现有页面分割方案总结的基础上,提出了结合机器学习方法的Web页面主体语义块节点识别算法,并基于启发式规则对正结果集进行后续的校验,以定位最佳的主体语义块节点。通过实验,本文提出的方案达到了比较理想的准确率。  相似文献   

4.
文章提供了一种在Web页面中仿真Word的实现方法,它不仅在使用上与Word几乎完全相似,而且可以直接复制Word文档的全部内容,包括表格、文字格式及图片等。该方法方便快捷,实现了在Web中排版的所见即所得的功能。  相似文献   

5.
Web页面中计数器技术研究   总被引:9,自引:0,他引:9  
Web页面计数器能够直观地反映该Web站点受关心的程度,一个好的Web页计数器应该方便使用,并具有较高的性能,Web页面计数器技术充分反映了动态Web页面技术的发展现状,本文给出了几种实现了Web页面计数器的技术,并对这些进行了比较。  相似文献   

6.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。  相似文献   

7.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

8.
Web页面中元素间交互技术研究   总被引:10,自引:0,他引:10  
随着Web的飞速发展,Web页面中可以包含的元素种类也越来越多。一个功能强大Web应用要求同一Web页面中各元素之间进行交互操作。该文以层次化方式给出了几种实现Web页面中元素之间交互的技术,并对这些技术进行了比较。  相似文献   

9.
当我们在网上从一个页面转到另一个页面或从一个站点转到另一个站点时进行浏览时,常常要花很多时间等待网页下载;当网页下载到浏览器时,网页内容又是突然出现。为消除浏览过程中的这种停顿或突出的现象,文章介绍了一种使在网页浏览过程中网面间平滑过渡的处理方法。  相似文献   

10.
随着Internet的迅猛发展,网络信息呈爆炸式增长。Web信息检索是一个从Web海量数据中检索用户感兴趣信息的综合技术,它从一定程度上满足了用户对信息的需求,但返回页面的数量依然十分巨大。如何对搜索结果进行排序已成为影响搜索质量的一个重要问题。本文介绍了两种页面排序算法PageRank和HITS,并对网页排序算法的若干改进进行了讨论。  相似文献   

11.
针对支持向量机在特征选择方面具有自动选择的功能,提出了一种改进的最少核分类器。在样本测试中使用更少的特征维数,减少识别过程计算量。数值试验表明,改进过的分类器能有效压缩无用的特征属性,具有较强的泛化能力。  相似文献   

12.
改进的支持向量机特征选择算法   总被引:4,自引:2,他引:2       下载免费PDF全文
针对采用支持向量机进行分类的特征子集选择问题,提出一种改进的基于梯度向量的特征评测算法。该算法在核特征空间中,利用数据点到分类超平面的距离函数的梯度向量对各个特征的重要性进行排序,省去了已有算法中计算梯度向量与各个坐标轴夹角的过程,实验结果表明,该算法简化了已有的基于角度的特征选择方法,并且结果保持一致。  相似文献   

13.
支持向量机中核函数及其参数的选择具有重要意义。提出一种基于高斯核函数的支持向量机参数对快速求取方法,根据支持向量之间的几何判据,结合线性搜索法完成参数寻优,具有简单、计算量小、易于实现的优点。实验结果表明,该方法较好地解决了高斯核函数参数在实际使用中不易确定的问题,且运算速度高于原有方法。  相似文献   

14.
基于支持向量数据描述的分类方法研究   总被引:1,自引:1,他引:1       下载免费PDF全文
针对单类数据的分类问题,提出一种基于支持向量数据描述(SVDD)的分类算法。该算法利用SVDD获得包含单类数据的最小球形边界,通过该边界对未知样本数据进行分类,同时采用可行方向方法求解边界优化中的二次规划问题,并在UCI机器学习数据集上将该算法与LS—SVM算法进行比较。实验结果表明,该算法不仅获得了更高的分类准确率,而且具有较低的运行时间。  相似文献   

15.
基于决策支持向量机的中文网页分类器   总被引:10,自引:0,他引:10  
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。  相似文献   

16.
针对目前使用的SVM核函数在回归中不能逼近任意目标函数的问题,在支持向量机的核方法和小波框架理论的基础上,提出了LS-WSVM结构模型。该模型在LS-SVM中使用一种新的由小波构成的SVM核函数。实验结果表明,与标准的SVM及LS-SVM比较起来,在同等条件下,LS-WSVM在函数回归方面LS-WSVM具有优良的逼近性能,拟合效果更为细腻。  相似文献   

17.
提出一种基于支持向量机(SVM)的英语名词短语的指代消解方法,并给出具体实现系统。实验采用了几个常用的基本特征,在MUC-6公开语料上测试得到的F值为68.6,优于同类型的其他原型系统。分析SVM中不同核函数对分类结果的影响以及不同的特征对指代消解的作用。实验结果表明,同位语、别名和字符串匹配3个特征对指代消解非常重要,距离作为特征使用时对指代消解没有帮助,但可在训练样例生成时作为限制条件来使用。  相似文献   

18.
针对传统分布式数据流挖掘算法的通信开销较大、分类精度较低的问题,提出一种基于支持向量数据描述的分布式数据流挖掘算法。利用局部站点快速更新数据流信息,采用支持向量机算法学习元级数据并传递到中心站点。中心站点负责接收及合并元级数据,形成全局分类结果。实验结果表明,该算法能在降低局部站点和中心站点网络通信量的同时,获得较高精度的全局分类结果。  相似文献   

19.
一种用于非平衡数据的SVM学习算法   总被引:2,自引:2,他引:0       下载免费PDF全文
蒋莎  张晓龙 《计算机工程》2008,34(20):198-199
在实际应用中的分类数据往往是非平衡数据,少数类别的数据可能有很大的分类代价。分类性能不仅要考虑分类精度,同时要考虑分类代价。该文扩展了支持向量机(SVM)学习方法,对于以高斯核为核函数时的少数类和多数类使用不同的惩罚参数C+, C-以获得高敏感度的超平面,并提出利用遗传算法对SVM的学习参数进行优化调整。给出一种新的评价函数,对分类结果的质量进行评价。实验结果证明,算法对于非平衡数据的分类有较好的效果,对少数类样本预测的准确性较高。  相似文献   

20.
针对现有数字信号调制分类的问题,在人工分类的基础上,提出一种基于支持向量机(SVM)的自动分类方法。提取信号的高阶累计量特征参数用于训练与测试数据。比较已有的基于SVM的调制分类方法,采用应用混合核函数的SVM分类方法,并利用决策树二分类思想设计分类流程。经过仿真比较,验证了该混合核函数的SVM具有较好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号