共查询到20条相似文献,搜索用时 342 毫秒
1.
提出一种面向制造业设计文档的模糊分类方法.利用领域本体的层次结构和概念间的语义关系,对设计文档进行结构划分与标注,通过特征词与概念之间的距离和位置重要性计算权重,提高了设计文档分类的准确性. 相似文献
2.
基于相邻字对信息的中文文档分类研究 总被引:2,自引:0,他引:2
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。 相似文献
3.
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊向量空间模型和BP网络的分类方法。在进行文本分类特征提取时,根据特征词在文档中的位置信息和文档结构,构造出模糊分类特征向量,在此基础上,采用BP网络对Web文档进行分类,使分类方法更接近于手工分类。提高了文本分类的精度。文中以中国期刊网专题分类为例验证了方法的有效性。 相似文献
4.
主要研究科技期刊及论文的版面分析方法,通过版面分析,将文档版面进行分割及分类,划分出文本和图像区域,有利于进一步的研究。在文档分割阶段,通过对文档横纵方向的投影,对文档进行分割,将分割的阈值自适应化。文档分类阶段,结合击中击不中原理以及模式统计方面的思想,同样采用自适应阈值设定方法,对划分后的子区域块内容进行分类。通过实验对比,该算法准确率较高。 相似文献
5.
基于kNN的快速WEB文档分类 总被引:4,自引:0,他引:4
根据测试文档在各个样本类中的分布情况,发现了基于kNN分类的两个有助于减少大量计算的重要性质,在此基础上提出了两个重要算法:排类算法和归类算法,从而构建了一个基于kNN的快速Web文档分类方法.理论与实验表明,这种方法可以在不影响原有准确率的条件下,可提高文档的分类速度. 相似文献
6.
基于本体的文档自动分类系统的研究 总被引:4,自引:0,他引:4
讨论了基于本体的文档自动分类系统的意义,给出了系统的框架。利用现有的文档自动分类技术,结合领域本体的分类词汇为文档建立索引。研究人工分类、机器学习分类的结合方法,提出基于“分类一使用一调整”逐步求精的分类方法。结合企业知识管理需求,开发了原型系统,进行了初步验证。 相似文献
7.
随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的测览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到“层次化”的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory-Returned Algorithm for Hierarchical aassification)。该方法着眼于屡次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length-of-Error-Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。 相似文献
8.
9.
针对传统向量空间模型中的特征项孤立处理问题,首先通过χ2统计和特征聚类相结合的模式实现特征降维,然后使用图模型来建立词和词之间相互关联信息,最后运用KNN方法进行文档分类测试。该算法提高了稀有词对分类的贡献,强化了关联词的分类效果,并降低了文档向量的维数。实验证明,该算法提高了分类的准确率和召回率。 相似文献
10.
11.
页面置换算法是操作系统中虚拟存储管理的一个重要部分。改进页面置换算法,可以降低页面失败率,从而有效地提高系统性能。现有的应用于虚拟存储管理的页面置换算法主要是Least Reference Used(LRU)页面置换算法。文中利用页面访问间隔数,分析不同的页面访问序列对LRU算法的影响,把页面访问序列分为LRU-友好页面访问序列、LRU-不友好页面访问序列、不友好页面访问序列三类,为改进LRU页面置换算法提供了依据。 相似文献
12.
13.
Jun-Rong Chen 《Information Sciences》2006,176(6):628-639
In addition to conventional information media such as newspaper, radio, and television, modern network media such as e-mail and Web page has become popular means of proliferating information. However, the number of Web page is so large that they need to be managed systematically.Therefore, this work presents a component-based Web page management environment, which: (1) enables high-level modeling capability of Web pages through components, (2) improves maintenance of Web applications, and (3) facilitates the reuse of Web page components. 相似文献
14.
移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行“裁减”。就以上问题,提出一种面向移动设备网页切割的解决方案:首先对半结构化的HTML文档进行结构化处理,接着基于DOM规范将HTML转化为DOM树并对其噪音清洗,然后对网页进行基于内容和基于链接的分块并对分块结果按照分层和用户定制的思想进行切割、重构,最后在开源项目HTMLParser基础上开发了原型系统并对系统执行效率和切割效果进行了评估。结果表明该方案切实可行,具有可观的应用价值。 相似文献
15.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。 相似文献
16.
随着通信技术的发展,人们迫切希望能方便地利用手持移动设备访问Web网站,由于移动设备的小屏幕和低带宽的缺点,使得这一难题一直没有得到很好的解决.本文提出一种适合于移动设备小屏幕的Web页面分块算法,算法利用Web网页上对象的位置信息对信息块进行逐层聚类,生成一棵网页分块树,再根据移动设备屏幕的特点把网页分块树转换成适合小屏幕浏览的页面. 相似文献
17.
18.
19.
20.
洪亚玲 《数字社区&智能家居》2007,(4):91-91,102
网络时代,几乎每天都有大量的网页掠过人们的眼帘。当然,只有那些有特色的网页才能钩住网民的眼睛,那么,网页是否精彩取决于什么呢?色彩的搭配、文字的变化、图片的处理等,这些当然是不可忽略的因素,除了这些,还有一个非常重要的因素——网页的布局。 相似文献