首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 342 毫秒
1.
提出一种面向制造业设计文档的模糊分类方法.利用领域本体的层次结构和概念间的语义关系,对设计文档进行结构划分与标注,通过特征词与概念之间的距离和位置重要性计算权重,提高了设计文档分类的准确性.  相似文献   

2.
基于相邻字对信息的中文文档分类研究   总被引:2,自引:0,他引:2  
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。  相似文献   

3.
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊向量空间模型和BP网络的分类方法。在进行文本分类特征提取时,根据特征词在文档中的位置信息和文档结构,构造出模糊分类特征向量,在此基础上,采用BP网络对Web文档进行分类,使分类方法更接近于手工分类。提高了文本分类的精度。文中以中国期刊网专题分类为例验证了方法的有效性。  相似文献   

4.
主要研究科技期刊及论文的版面分析方法,通过版面分析,将文档版面进行分割及分类,划分出文本和图像区域,有利于进一步的研究。在文档分割阶段,通过对文档横纵方向的投影,对文档进行分割,将分割的阈值自适应化。文档分类阶段,结合击中击不中原理以及模式统计方面的思想,同样采用自适应阈值设定方法,对划分后的子区域块内容进行分类。通过实验对比,该算法准确率较高。  相似文献   

5.
基于kNN的快速WEB文档分类   总被引:4,自引:0,他引:4  
根据测试文档在各个样本类中的分布情况,发现了基于kNN分类的两个有助于减少大量计算的重要性质,在此基础上提出了两个重要算法:排类算法和归类算法,从而构建了一个基于kNN的快速Web文档分类方法.理论与实验表明,这种方法可以在不影响原有准确率的条件下,可提高文档的分类速度.  相似文献   

6.
基于本体的文档自动分类系统的研究   总被引:4,自引:0,他引:4  
讨论了基于本体的文档自动分类系统的意义,给出了系统的框架。利用现有的文档自动分类技术,结合领域本体的分类词汇为文档建立索引。研究人工分类、机器学习分类的结合方法,提出基于“分类一使用一调整”逐步求精的分类方法。结合企业知识管理需求,开发了原型系统,进行了初步验证。  相似文献   

7.
随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的测览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到“层次化”的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory-Returned Algorithm for Hierarchical aassification)。该方法着眼于屡次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length-of-Error-Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。  相似文献   

8.
基于Rough集潜在语义索引的Web文档分类   总被引:5,自引:0,他引:5  
Rough集(粗糙集)埋论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。  相似文献   

9.
针对传统向量空间模型中的特征项孤立处理问题,首先通过χ2统计和特征聚类相结合的模式实现特征降维,然后使用图模型来建立词和词之间相互关联信息,最后运用KNN方法进行文档分类测试。该算法提高了稀有词对分类的贡献,强化了关联词的分类效果,并降低了文档向量的维数。实验证明,该算法提高了分类的准确率和召回率。  相似文献   

10.
特征选择是文档分类中常见的预处理工作,通过对文档特征空间降维,可以提高文档的分类性能。针对多数特征选择算法不考虑特征词共现关系的问题,该文提出了一种利用关联特征来增强文档分类性能的方法,针对特征扩展后产生的高维向量空间设计了一种快速冗余特征去除和选择算法,以满足实际应用中对增强特征分类性能和执行效率的需要。实验采用朴素贝叶斯网作为分类器,从特征降维效果、分类性能以及算法执行效率等方面与其他算法进行了比较。  相似文献   

11.
蒋飞虎  舒平 《微机发展》2006,16(5):42-43
页面置换算法是操作系统中虚拟存储管理的一个重要部分。改进页面置换算法,可以降低页面失败率,从而有效地提高系统性能。现有的应用于虚拟存储管理的页面置换算法主要是Least Reference Used(LRU)页面置换算法。文中利用页面访问间隔数,分析不同的页面访问序列对LRU算法的影响,把页面访问序列分为LRU-友好页面访问序列、LRU-不友好页面访问序列、不友好页面访问序列三类,为改进LRU页面置换算法提供了依据。  相似文献   

12.
介绍了一种基于页面模型的引擎式快速页面构造服务,该服务在电力行业领域内具有先创性,其使得具有普通技术水平的开发人员,仅需要少量代码甚至不需要代码就可以构造出业务应用的页面及逻辑.本文重点阐述了页面构造服务中页面模型、页面设计器、运行引擎的原理及组成.该服务所支撑项目的实践结果表明,其可以有效提升开发效率、降低开发运维成本,并且具有良好的适应性和扩展性.  相似文献   

13.
In addition to conventional information media such as newspaper, radio, and television, modern network media such as e-mail and Web page has become popular means of proliferating information. However, the number of Web page is so large that they need to be managed systematically.Therefore, this work presents a component-based Web page management environment, which: (1) enables high-level modeling capability of Web pages through components, (2) improves maintenance of Web applications, and (3) facilitates the reuse of Web page components.  相似文献   

14.
移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行“裁减”。就以上问题,提出一种面向移动设备网页切割的解决方案:首先对半结构化的HTML文档进行结构化处理,接着基于DOM规范将HTML转化为DOM树并对其噪音清洗,然后对网页进行基于内容和基于链接的分块并对分块结果按照分层和用户定制的思想进行切割、重构,最后在开源项目HTMLParser基础上开发了原型系统并对系统执行效率和切割效果进行了评估。结果表明该方案切实可行,具有可观的应用价值。  相似文献   

15.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。  相似文献   

16.
随着通信技术的发展,人们迫切希望能方便地利用手持移动设备访问Web网站,由于移动设备的小屏幕和低带宽的缺点,使得这一难题一直没有得到很好的解决.本文提出一种适合于移动设备小屏幕的Web页面分块算法,算法利用Web网页上对象的位置信息对信息块进行逐层聚类,生成一棵网页分块树,再根据移动设备屏幕的特点把网页分块树转换成适合小屏幕浏览的页面.  相似文献   

17.
基于Web内容的自适应页面转换助理   总被引:2,自引:0,他引:2  
针对电视机(机顶盒)和移动计算机设计设备等非PC网终端设备上网,提出了转换助理的基本思路,设计与实现了基于Web内容的自适应页面的转换助理,能够自适应地针对不同网络终端设备的请求提供相 的因特网页面,方便用户浏览因特网上的内容。  相似文献   

18.
基于页面Block的Web档案采集和存储   总被引:1,自引:0,他引:1  
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源.  相似文献   

19.
基于内容相似度的网页正文提取   总被引:6,自引:0,他引:6       下载免费PDF全文
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

20.
网络时代,几乎每天都有大量的网页掠过人们的眼帘。当然,只有那些有特色的网页才能钩住网民的眼睛,那么,网页是否精彩取决于什么呢?色彩的搭配、文字的变化、图片的处理等,这些当然是不可忽略的因素,除了这些,还有一个非常重要的因素——网页的布局。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号