首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。  相似文献   

2.
随着计算机网络技术迅速发展,为更好地满足学生学习广泛性、个性化需求,本文提出基于二次网络搜索辅助学习系统。该系统充分利用网络中海量知识,借助元搜索引擎及各成员搜索引擎进行二次检索,对检索信息进行加工、过滤,筛选出与所需要知识最为贴切的信息,并主动将其呈现给学习者。实践证明,基于二次网络搜索辅助学习系统使得学生的课后学习效果得到显著的提高。  相似文献   

3.
关联分类通常产生大量的分类规则,导致在分类新实例时经常产生规则冲突问题。针对这种规则冲突问题,提出了一种基于改进关联分类的两次学习框架。利用频繁且互关联的项集产生分类规则改进关联分类算法,有效减少了规则数。应用改进的关联分类算法产生的一级规则一次性分离出训练集中规则冲突的所有实例。然后,在冲突实例上应用改进的关联分类算法进行第二次学习得到二级规则。分类新实例时,首先利用第一级规则进行分类。如果出现规则冲突,则利用第二级规则分类该实例。实验结果表明,基于改进关联分类的两次学习方法降低了规则冲突比率,并且显著提高了分类准确率。  相似文献   

4.
中文文档自动分类系统的设计与实现   总被引:30,自引:4,他引:30  
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。  相似文献   

5.
朱明  王镇  周津 《计算机仿真》2005,22(9):109-112
随着互联网的迅猛发展,如何快速、有效、准确地搜索信息成为迫切需要解决的问题.该文针对传统的基于主题搜索算法执行效率不高、精确度低的缺点,设计了一种基于机器学习的链接分层搜索算法.该算法通过机器学习,得到页面链接模式并对待扩展结点分层.此算法能够有效地获得期望页面,从而避免遍历大量无关页面,提高了主题相关页面的获取效率和准确性.在对100家公司基于产品主题页面的搜索实验中获得了较好的效果,证明该算法具有很好的执行效率和实际可行性.  相似文献   

6.
利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,根据K-最近距离算法判断测试文本的所属类别,实验结果表明该方法可行。  相似文献   

7.
为了对大量网上搜索得到的旅游突发事件进行关联信息挖掘,首先需要对旅游突发事件文本进行分类。本文采用中科院分词系统进行分词,对信息增益算法进行改进来实现特征选择,采用带动量调整的BP神经网络算法来构建分类器,实现对旅游突发事件文本的分类,并取得了较满意的效果。  相似文献   

8.
基于对象的垂直搜索引擎越来越受到人们的关注,结合这一热门技术,详细介绍了机票比价搜索系统的设计与实现.该系统基于垂直搜索的思想,采用模板方式的网页抽取技术,提供给用户全面的机票信息.  相似文献   

9.
基于类别空间模型的文本分类系统的设计与实现   总被引:9,自引:1,他引:8  
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。  相似文献   

10.
论文在研究各种分类算法的基础上,总结了分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统THTC。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。  相似文献   

11.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能。该文分析了Lucene的索引机制,探讨了Heritrix的结构框架,最后结合实际实例对基于Lucene的全文检索的应用进行深入研究。  相似文献   

12.
基于MVC模式的校友录系统设计与实现   总被引:1,自引:0,他引:1  
提出使用MVC模式构建校友录系统的解决方案。阐述了Strust2框架技术,运用Hibernet框架理论和相关技术,并结合采用J2EE技术构建一个基于MVC模式的校友录系统。重点介绍了权限管理、上传下载模块、资源发布管理这3大关键技术模块的设计与实现。解决了技术与内容的瓶颈、开发维护好友管理、系统统一管理等问题。  相似文献   

13.
将文本分类技术应用于林业Web黄页的分类,实现了林业Web黄页信息的高效应用和管理。讨论了林业Web黄页多层次分类体系,并给出了分类系统的设计方案和关键技术,详细介绍了类别区分词特征选择算法。实验结果具有较好的准确率和查全率。  相似文献   

14.
基于向量空间模型的文本分类系统的研究与实现   总被引:25,自引:1,他引:25  
文本分类是信息处理的一个重要的研究课题,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标,提出了一种新的特征抽取算法,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比,实验结果表明二级分类模式具有较高的精度和召回率。  相似文献   

15.
在垃圾邮件分类和朴素贝叶斯算法研究的基础上,提出了基于用户知识的贝叶斯分类算法.通过在分类过程中引入用户知识,克服了电子邮件内容是非结构化、解读依赖于用户的问题.实验证明,面向用户知识的贝叶斯分类算法在商业邮件分类中比普通贝叶斯算法有更好的性能.  相似文献   

16.
孙文静  李士强 《计算机科学》2010,37(12):209-210
分析音频时域特征及提取方法,研究基于支持向量机的语音分类系统流程、分类系统架构以及SVM语音分类器的设计,并进行了相关实验。结果表明,设计的基于SVM的音频分类系统能够有效地对音频进行分类,平均识别准确率达到90%以上。  相似文献   

17.
Dataset classification is an essential fundament of computational intelligence in cyber-physical systems (CPS). Due to the complexity of CPS dataset classification and the uncertainty of clustering number, this paper focuses on clarifying the dynamic behavior of acceleration dataset which is achieved from micro electro mechanical systems (MEMS) and complex image segmentation. To reduce the impact of parameters uncertainties with dataset classification, a novel robust dataset classification approach is proposed based on neighbor searching and kernel fuzzy c-means (NSKFCM) methods. Some optimized strategies, including neighbor searching, controlling clustering shape and adaptive distance kernel function, are employed to solve the issues of number of clusters, the stability and consistency of classification, respectively. Numerical experiments finally demonstrate the feasibility and robustness of the proposed method.   相似文献   

18.
寻找从底物到产物的可行代谢通路是代谢工程设计中的核心环节.针对复杂代谢网络中代谢通路不唯一的情况以及传统K条最短路径(K-Shortest Path,KSP)算法效率低的问题,该文通过对传统KSP算法的优化,引入关键边概念以减少非必要的重复计算;搭建代谢通路设计Web平台,使用并行计算方式提升了算法运算性能.最终,通过...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号