首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于本体论的文本挖掘技术综述   总被引:6,自引:0,他引:6  
贾焰  王永恒  杨树强 《计算机应用》2006,26(9):2013-2015
文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段。介绍和分析了常识本体和领域本体以及基于这些本体的文本挖掘方法。  相似文献   

2.
一种基于本体论的文本特征选取方法   总被引:1,自引:0,他引:1  
针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法.通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行了特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容.实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的.  相似文献   

3.
文本分类是在给定的分类体系下,根据文本的内容自动确定文本类别的过程.在文本分类中,特征的提取对于分类的结果相当重要.从特征提取这一阶段出发,提出了一个集成合并的特征提取方法,该方法主要集成多种特征提取方法并合并关系密切的特征,并利用支持向量机SVM(Support Vector Machine)分类的高准确率,能够求出全局最优方法等优点来对得到的特征向量进行分类评估.实验证明,此种特征提取能够降低分类时间和提高分类的准确率.  相似文献   

4.
基于DCSSM的文本特征提取及文本挖掘研究   总被引:2,自引:0,他引:2  
提出了用模式作为复杂类型数据的知识表示方法,结合结构化数据挖掘给出了基于复杂类型数据知识发现的结构模型——发现特征子空间模型DCSSM。在此基础上讨论了文本特征提取及文本挖掘的方法。  相似文献   

5.
针对基于词频统计的T D‐ID F文本特征提取方法缺乏对文本中概念关系处理,而使提取到的文本特征具有概念冗余、特征不明确等问题,提出基于本体概念相似度的词频统计方法。利用文本元素之间的语义相似度调整特征元素的词频,突出特征元素的语义贡献、消除特征冗余,增强特征集合元素的特征独立性。最后结合文本概念的共现特性,对可能出现某些重要特征元素因词频统计而被忽略的问题进行处理,从而准确、高效地提取文本特征。  相似文献   

6.
随着信息技术的发展,文本信息数据正在爆炸式增长,从众多的文本数据中有效地获取有用信息是一个值得研究的问题。针对该任务提出基于层次特征提取的文本分类模型,考虑文本中句子级别的语义内容以及文本级别的语义内容,依次使用两种神经网络模型建模句子级的语义内容和文本级的语义内容,从而得到关于文本的全面特征,进而基于此特征对文本进行分类。实验结果表明,该方法能够更加准确地提取文本的特征,具有更高的分类准确度。  相似文献   

7.
维吾尔文Bigram文本特征提取   总被引:1,自引:0,他引:1  
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。  相似文献   

8.
为了避免文本特征提取过程中负相关特征与弱相关特征产生的干扰,提出一个新的基于类别正相关和强相关(SP)的特征提取方法。通过结合正相关性因子和强相关因子,SP方法能够有效地区别特征与类别正负相关性和强弱相关程度,通过优先选择正相关和强相关特征,避免了负相关和弱相关特征的干扰,从而有效地提取高质量的文本特征。实验结果表明,该方法具有强降维能力和良好的分类效果。  相似文献   

9.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。  相似文献   

10.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

11.
斯琴  张力  廉德亮 《计算机应用》2009,29(9):2348-2350
基于格式的文本水印算法对格式攻击的鲁棒性比较差,而基于自然语言的文本水印算法相对难以实现,因此提出一种基于词频的文本零水印算法。对文本内容进行分词并计算每个分词的词频,根据设定的词频阈值范围依次提取分词序列作为文本特征,将文本特征、水印和密钥注册于版权保护(IPR)信息库。水印检测可实现盲检测。将该算法用于含有图像等多媒体信息的中英文文档,试验结果证明,该算法对剪切、粘贴、内容顺序颠倒等攻击有较强的鲁棒性。  相似文献   

12.
Ontology based automatic feature recognition framework   总被引:1,自引:0,他引:1  
AFR has long been realized as a key technology for design automation. A significant shortcoming in AFR is that most of them are individual systems that are isolated from each other, due to the absence of a standard feature library or feature modeling techniques. Few studies attempted to overcome this problem by allowing a certain degree of user customization or extension, which are still far from success. In order to address this issue, this paper proposes an ontology-based feature recognition framework. In the framework, features are captured transparently and hierarchically within a formal OWL ontology, and the feature recognition is achieved by applying an efficient backward-chained ontology reasoner to reason through the ontology. The resulting feature recognition system shows a high level of flexibility, maintainability, and explainability, for both representing and recognizing features. The effectiveness of the framework is finally demonstrated with three case studies.  相似文献   

13.
针对从文集全局角度评价特征重要性的传统特征选择方法可能忽略某些重要分类特征的问题,提出两步特征选择方法.该方法首先过滤掉类别关联性不强的特征;然后根据词的统计信息将词归为各个类别的区分词,找出每个类的分类特征的最优子集;最后,将各个类别的最优子集组合起来形成最终分类特征.实验采用朴素贝叶斯作为分类器,使用IG,ECE,CC,MI和CHI等5种特征选择公式对该方法与传统方法进行比较,得到分类性能宏平均指标对比分别为91.075%对86.971%,91.122%对86.992%,91.160%对87.470%,90.253%对86.061%,90.881%对87.006%.该方法在考虑分类特征信息的同时,尽量保留传统特征选择方法中好的特征,能更好地捕获分类信息.  相似文献   

14.
为了获得更好的文本分类准确率和更快的执行效率, 研究了多种Web文本的特征提取方法, 通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究, 利用其各自的优势互补, 提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维, 再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项, 过滤掉一些代表性较弱的特征项, 最后使用SVM分类器对文本进行分类。实验结果表明, PCA-CFEA能有效地提高文本分类的正确率和执行效率。  相似文献   

15.
使用特征文本密度的网页正文提取   总被引:1,自引:0,他引:1  
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。  相似文献   

16.
基于类信息的文本特征选择与加权算法研究   总被引:2,自引:1,他引:2  
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。  相似文献   

17.
研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。  相似文献   

18.
基于汉字结构的自然型文本水印算法*   总被引:6,自引:0,他引:6  
从汉字分类思维的角度,在充分利用汉字的二维象形性以及人眼视觉冗余特性的基础上,提出一种将结构化汉字字形拆分再重组的自然型文本水印算法。该算法通过汉字字形的拆分,增加了文档内容编码冗余,提高了水印信道容量,并通过调整汉字显示属性,增强水印的隐蔽性。最后对其进行实验验证,证明该算法兼具格式水印隐蔽性和语义水印鲁棒性的双重优点,并具有嵌入空间大的特点。  相似文献   

19.
情感Ontology构建与文本倾向性分析   总被引:1,自引:2,他引:1       下载免费PDF全文
对文本倾向性分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于《知网》构建情感Ontology,然后基于情感Ontology抽取文本倾向性分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的倾向性进行分析。实验结果表明,以实验语料中的所有词汇作为特征词汇,在Baseline的基础上,利用情感Ontology抽取特征词汇的文本倾向性分析方法可以使准确率达到86.76%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号