首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 342 毫秒
1.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

2.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

3.
李菲  晏海华  赫建营 《计算机工程与设计》2007,28(20):4836-4838,4844
针对目前软件测试过程中通用文档自动生成所面临的问题,介绍了一种基于XML的通用测试文档生成方法.分析了软件测试文档的基本种类及文档生成的重要性,论述了将XML技术用于通用文档生成中的优势,给出了一个基于XML的通用测试文档生成模型,并探讨了该模型的关键方案设计.  相似文献   

4.
王韶英 《现代计算机》2007,(8):114-115,137
传统的电子文档是静态的,缺乏交互性和可操作性.与传统的电子文档不同,智能文档是动态的,它不仅能够提供信息给读者,还能够即时响应读者的操作要求.针对智能文档进行技术探索探讨一种基于Office 2003的智能文档的技术架构,描述智能文档的实现方法.  相似文献   

5.
在《不要修改我的文档》一文中,我们可以很轻松地知道文档有没有被别人修改,以此来分辨文档是不是你的原版文档。文档除了会被别人修改,另一个常遇到的问题就是文档内容被别人复制,这篇文章就是教大家  相似文献   

6.
基于Web的工作流技术在文档管理系统中的应用   总被引:8,自引:0,他引:8  
文章针对如何控制文档流程和动态管理系统需求的问题,提出了建立应用工作流技术的文档管理系统的方法。文中根据实际项目的研究,在系统分析的基础上,详细介绍了文档管理建模的方法和步骤以及基于Web的工作流技术的实现。  相似文献   

7.
相似文档检索在文档管理中是很重要的,提出一种在大文档集中基于模糊聚类的快速高效的聚类方法,传统方法大都通过词与词之间的比较来检索文档,该方法让文档通过两层结构得出相似度。系统用预定义模糊簇来描述相似文档的特征向量,用这些向量估计相似度,由此得出文档之间的距离,系统应用了新的相似性度量方法,并通过实验证实了其可行性和高效性。  相似文献   

8.
文章介绍了Word文档如何转换为PowerPoint文档,PowerPoint文档如何转换为Word文档,以及如何在Word文档中放映PowerPoint文档的内容.  相似文献   

9.
ODQ是一种面向流式办公文档的查询语言.为了提高ODQ的查询效率并降低使用难度,提出了一种将ODQ文档模型和语法进行扁平化处理的方法.首先将ODQ文档模型由传统树型结构转换成多线性结构,减少文档模型的层次;其次,在语法中设置特定关键字,将文档模型中的各层次连接起来,形成一条可以直接访问目标数据的路径.实验结果表明,扁平化处理可以使查询效率得到提高,并简化查询操作.  相似文献   

10.
kikier 《电脑迷》2010,(24):63-63
很多时候,我们需要将PDF文档转换为Word文档,其实并不需要四处寻找所渭的转换工具,只要安装Adobe Acrobat X Pro,即可将当前PDF文档导出为Word或Excel文档,这样就方便多了。  相似文献   

11.
软件文档质量的度量方法研究   总被引:3,自引:0,他引:3  
季超英  宋晓秋 《计算机工程与设计》2007,28(17):4068-4071,4085
软件文档的质量一直是软件开发人员,尤其是软件评测人员关注的问题.目前软件文档的质量存在着较多的问题,但是却没有相应的方法来判断文档的质量好坏程度.基于这种状况,提出了度量软件文档质量的一种方法.提出了使用质量度量模型和综合评判模型来度量软件文档质量.通过这个方法的应用,可以进行比较客观的判断文档的质量,同时得出被度量的软件文档存在不足的方面.长期的应用这种方法,可以对软件文档的编写质量进行循序渐进的改进,从而得到让使用人员满意的软件文档.  相似文献   

12.
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。  相似文献   

13.
一种协调的科技文献分类方法   总被引:1,自引:0,他引:1  
科技文献之间的相互引证关系反映了一种科学交流活动,显示了科学文献之间(甚至是学科之间)的内在联系,而通过追溯文献之间的这种关系,可以改善和提高传统的基于内容的科技文献的分类的方法。论文利用有相互引证关系,有同引关系,以及有耦合关系的两篇文献一般是属于同一类的这一特点,提出了文献之间的引用相似度,同引相似度,耦合相似度这三个概念,再利用这三个概念生成了文献之间的“结构相似度”,并将它用于K-NN分类法中得出一种基于结构的分类法。最后,论文将这种基于结构的分类法和基于内容的NaveBayes分类法结合起来提出了一种新的协调分类法。  相似文献   

14.
以完成对杂乱无章的XML文档进行自动分类为目的,提出了一种基于下三角矩阵的XML文档表示方法,经过数学建模后,XML文档间的相似度比较问题转化成了矩阵之间的相似度计算。为了验证其执行效果,在采用该算法进行相似度计算的基础上,运用最近邻分类算法对XML测试文档集进行自动分类。实验结果表明,这种基于矩阵存储的XML相似度计算方法应用于分类中效果良好。  相似文献   

15.
16.
The main objective of software inspections is to find faults in software documents. The benefits of inspections are reported from researchers as well as software organizations. However, inspections are time consuming and the resources may not be sufficient to inspect all documents. Sampling of documents in inspections provides a systematic solution to select what to be inspected in the case resources are not sufficient to inspect everything. The method presented in this paper uses sampling, inspection and resource scheduling to increase the efficiency of an inspection session. A pre-inspection phase is used in order to determine which documents need most inspection time, i.e. which documents contain most faults. Then, the main inspection is focused on these documents. We describe the sampling method and provide empirical evidence, which indicates that the method is appropriate to use. A Monte Carlo simulation is used to evaluate the proposed method and a case study using industrial data is used to validate the simulation model. Furthermore, we discuss the results and important future research in the area of sampling of software inspections.  相似文献   

17.
借助目前丰富的网络资源,将同一主题的现存Ontology知识聚类,提供给领域专家或用户进行二次精化和集成是Ontology研究领域的一个重要课题.OWL是目前用于表示和交换Ontology信息的基本标准.本文从OWL的语义本质出发,考虑了知识之间的继承性及复杂类比较和模糊集运算的相似性,提出一种计算OWL文档语义相似性的方式,并和层次聚类算法集成完成了对OWL文档集的聚类实验.实验结果说明本文提出的算法对自动生成和手工建立的OWL文档集都有很好的效果。  相似文献   

18.
在仪控设计中,不同的设计文件间往往存在大量共有或重复的信息。针对传统设计方法无法利用设计文件之间的关联信息,提出了一种基于ActiveX技术的协同设计方法。实现了AutoCAD图形设计文件与Excel清单设计文件的信息共享,并将该方法应用于仪表电缆系统图与仪表电缆端接清单的设计中,提高了工程设计的质量和效率。  相似文献   

19.
传统的文本分类方法需要大量的已知类别样本来得到一个好的文本分类器,然而在现实的文本分类应用过程中,大量的已知类别样本通常很难获得,因此如何利用少量的已知类别样本和大量的未知类别样本来获得比较好的分类效果成为一个热门的研究课题。本文为此提出了一种扩大已知类别样本集的新方法,该方法先从已知类别样本集中提取出每个类别的代表特征,然后根据代表特征从未知类别样本集中寻找相似样本加入已知类别样本集。实验证明,该方法能有效地提高分类效果。  相似文献   

20.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号