共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
3.
金小峰 《计算机工程与应用》2011,47(7):143-145
分析了潜在语义模型,研究了潜在语义空间中文本的表示方法,提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选,剔除非相关文本;使用大规模文本检索方法对相关文本在段落一级进行精确检索,其中为了提高检索的执行效率,在检索算法中引入了遗传算法;输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。 相似文献
4.
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力. 相似文献
5.
基于向量空间模型的过滤不良文本方法 总被引:10,自引:3,他引:10
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Naive Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向最法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。 相似文献
6.
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力, 通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。 相似文献
7.
彩色纹理图像分析是图像理解和计算机视觉研究领域的重点之一,彩色纹理图像分析具有很大的优越性.本文提出了一种新的彩色纹理图像描述子,首先计算RGB向量空间的梯度,经过标准化后把它映射到灰度级上,利用共生矩阵来描述纹理图像特征,并用于图像检索.实验结果表明,该纹理图像描述子能够有效结合颜色和纹理特征,具有良好的检索效果. 相似文献
8.
提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。 相似文献
9.
基于WordNet概念向量空间模型的文本分类 总被引:5,自引:0,他引:5
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。 相似文献
10.
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。 相似文献
11.
随着信息量的急剧增加,检索技术显得尤为关键.目前很多检索技术都是基于索引的检索技术.文中借助了Lucene的索引技术与检索机制,通过对索引信息的改进以及使用基于内容的改进方法,对Lucene结果与查询语句在向量空间中重新计算相似度,实现了对长段查询语句检索结果排序位置的提高. 相似文献
12.
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 相似文献
13.
一种基于向量空间模型的文本分类方法 总被引:21,自引:1,他引:21
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。 相似文献
14.
入侵检测系统是目前重要的网络安全产品之一,其检测技术主要为滥用检测和异常检测两种。目前,滥用检测技术已经相对成熟,而异常检测还存在大量问题难以解决。针对这一问题,提出了一个判别系统主体行为是否异常的自动分类器模型,并介绍其实现的关键技术。 相似文献
15.
16.
基于向量空间模型的贝叶斯文本分类方法 总被引:2,自引:0,他引:2
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。 相似文献
17.
基于两层向量空间模型和模糊FCA本体学习方法 总被引:5,自引:0,他引:5
本体是WWW进化为语义Web版本的瓶颈,手工构造本体费时费力,本体学习技术使得在文本中自动构造本体成为可能,但存在通用性差和准确性低等问题.提出以面向对象思想的分析方法为基础,把传统的单层文本向量空间模型(VSM)改进为2层向量空间模型(double vector space model,D-VSM),该模型不仅具有属性特性,而且还具有很强的关系特性.在此模型的基础上,引入模糊形式概念分析(fuzzy formal concept analysis,FFCA)本体学习技术.该技术充分考虑D-VSM模型中的数据分布特点,较好地解决本体学习通用性、本体关系获取等问题.基于上述方法实现一个本体学习工具,为本体的(半)自动构造提供有力的支持. 相似文献
18.
19.
传统的向量空间过滤模型通常是提取字、词、短语等作为特征项,这样做的缺点是没有考虑文本的语义信息。文章提出了利用知网对向量空间模型的文本向量进行同义词消除的过滤方法。该方法比传统的单纯基于关键词匹配的方法更精确地体现了文本之间的相似度,提高了过滤性能,同时也降低了向量空间的维数,减少了计算量,提高了过滤的效率,实验结果表明基于该文的过滤方法确实提高了系统的性能。 相似文献