期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张冉卡米力·毛依丁《微机发展》2006,16(5):56-58

基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。相似文献

2.

一种基于n—gram短语的文本聚类方法研究

孙桂煌《电脑与微电子技术》2011,(14):9-11,16

由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息．也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。相似文献

3.

一种基于n-gram短语的文本聚类方法研究

孙桂煌《现代计算机》2011,(16):9-11,16

由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息,也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n-gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。摘要: 相似文献

4.

基于划分的XML文档聚类研究 总被引：1，自引：0，他引：1

杨厚群何中市雷景生《计算机科学》2008,35(3):183-185

本文在文本聚类的基础上对XML文档聚类进行了研究,对划分聚类法进行了改进,使之适合于XML文档聚类.最后通过路径划分聚类算法根据频繁结构对XML文档进行挖掘聚类,并对实验结果进行讨论. 相似文献

5.

WCBVSM与SACA结合的文本分类模型

张燕平刘超曲永花《计算机工程与应用》2012,48(11):137-142

给出了一个词共现改进的向量空间模型（Word Co-Occurrence Mode Based On VSM,WCBVSM）与模拟退火交叉覆盖算法（Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA）相结合的文本分类新模型。传统的向量空间模型（VSM）采用词条作为文档的语义载体,没有考虑文本上下文词语之间的语义隐含信息,在词共现模型的启发下,提出WCBVSM,它通过统计文本中的词共现信息,加入VSM,以获得文档隐含的语义信息。针对交叉覆盖算法中识别精度与泛化能力之间的一对矛盾,结合模拟退火算法的思想,提出了SACA,改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力。实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度。相似文献

6.

一种改进的XML向量空间模型及其近似匹配算法

王桐刘大昕田迪孙伟张万松《计算机研究与发展》2006,43(Z3)

XML已成为网上数据交换和存储的标准,然而现有的XML文档模型存在很多问题.综合了数据挖掘和信息检索两方面的技术,对传统的向量空间模型加以扩展,提出一种新的基于语义和支持度的XML向量空间模型并给出其生成算法,该模型抽取文档集的频繁路径作为特征,然后利用XML本身的语义特性,对标签之间作ontology判断.最后,基于该模型提出一种XML近似查询算法,将文档矩阵从改进的VSM空间映射到潜在语义空间,并在转换后的空间获得近似查询结果并排序.对提出的方法进行理论分析和实验验证,得到满意的结果. 相似文献

7.

一种快速有效的Web文档聚类方法 总被引：2，自引：0，他引：2

张蓉《计算机应用研究》2004,21(4):174-176

以矢量空间模型VSM为Web文本的表示方法，提出了一种基于关联规则的Web文档聚类方法。实验证明：该方法能在保证文档聚类高精度的同时，依然保持高效率，其聚类性能明显优于传统Web文档聚类算法。相似文献

8.

一种改进的基于向量空间文本相似度算法的研究与实现 总被引：1，自引：0，他引：1

李连朱爱红苏涛《计算机应用与软件》2012,(2):282-284

通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间相同特征词对文本相似度的影响,有效减少了相似度低的文本干扰。仿真实验和系统运行结果验证了改进算法的有效性和准确性。相似文献

9.

一种基于反向文本频率互信息的文本挖掘算法研究 总被引：1，自引：0，他引：1

周戈《计算机应用研究》2012,29(2):487-489

针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。相似文献

10.

一种将XML文档转换为HTML格式文档的算法

纪斌吴家菊彭婉仪《电脑与信息技术》2018,(4):24-27

文章研究了XML文档转换为富文本格式的方法,提出了一种基于XSL将XML文档转换HTML格式文档的算法.首先,新建一个与XML文档同名的HTML格式文档;其次定义转换算法,实现XML文档到HTML格式文档的转换;最后,调用系统默认浏览器以查看转换得到的HTML文档.该算法可以基于XSL将XML文档转换为HTML格式文档,以查看和验证XML文档的富文本显示格式是否符合阅读要求. 相似文献