共查询到18条相似文献,搜索用时 62 毫秒
1.
文本分类是数据挖掘与信息检索领域的热点话题,近年来迅速发展。基于质心的方法是一种建模迅速且效果较好的文本分类方法,许多学者对该方法进行了深入研究并提出改进策略,不断提高算法效果。提出一种新的动态调整质心位置算法,该算法根据训练集中的每个样本文本动态的调整质心位置。并且针对海量数据处理瓶颈,运用当前两种并行计算框架MapReduce和BSP,提出了算法的并行策略。通过与其它算法在5种不同数据集中的对比实验,证明该方法确有较准确的分类效果。 相似文献
2.
为了解决目前所提出的多标签分类算法仍然存在分类精度低和计算复杂度高的问题,提出了一种基于质心的多标签引力模型(ML-GM)。在训练阶段,通过计算文档与类的质心之间的相似性来获得相似性区间。在测试阶段,通过比较未定义文档和类质心之间的相似性是否在相似性区间内来进行多标签分类。该模型通过引入质心分类器和引力模型(GM)解决了计算复杂度高、分类精度低的问题。在实验中使用了雅虎数据集,结果表明,ML-GM在平均精确度、AUC、1-错误率和汉明损失上都有优越性。 相似文献
3.
研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max, Ave, Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力. 相似文献
4.
在深入分析当前流行的文本主题提取技术和方法的基础上,提出一种将本体技术应用于文本主题提取的方法。使用本体技术用语义向量表示文本句,对文本进行预处理,然后进行语义相似度计算和语义聚类,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法在提取文本主题方面是一个有效的方法。 相似文献
5.
6.
基于本体的文本分类方法 总被引:1,自引:0,他引:1
文本分类是智能科学研究中的霞要问题,如何能使分类结果更精确一直是研究的重点.本体技术兴起之后,利用本体作为词典,从而在语义上进行扩展的方法使分类的精确度有丁改善.但是,本体自身的结构并没有得到应用,多类别多标签的分类也没有因此得到大幅度改进.作为领域内公认的概念体系,本体自身的结构也是一种非常好的分类标准,为多类别多标签的分类提供了很好的载体.针对多类别多标签分类问题,提出了以本体为类别指导,基于模糊数学规划思想的分类方法.将本体概念作为分类标准,将文本散列到相应的本体概念类别中,并给出其相关程度.实验验证了该方法能够做到更细致的分类结果,改善了多类别多标签分类的能力.此外,该方法还能够改善数据在语义Web网中的传输效果. 相似文献
7.
8.
为了降低在传统的文本分类方法中自然语言的不确定性对分类效果的影响,提出了一种结合云模型的文本分类方法。该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。实验结果表明,与传统的K-NN算法相比,该方法在分类准确率等方面有所提高。 相似文献
9.
10.
针对向量空间模型VSM中,在计算文档相似度时要求文档标引词必须相互独立这一缺陷,提出融合本体与粗糙集的文档相似度计算方法。在该方法中,不仅可以利用本体对概念关系的准确揭示,计算文档之间的概念相似度,还可以结合粗糙集对相关概念实例的属性重要性进行度量,从而计算属性相似度,克服了传统方法需要依赖人的先验知识这一缺陷,最后综合形成文档语义向量相似度,并通过实验分析证明该方法可以在很大程度上提高文档相似度计算的准确性。 相似文献
11.
Huazhen Gu Kuanjiu Zhou 《通讯和计算机》2006,3(5):29-32
With the quick increase of information and knowledge, automatically classifying text documents is becoming a hotspot of knowledge management. A critical capability of knowledge management systems is to classify the text documents into different categories, which are meaningful to users. In this paper, a text topic classification model based on domain ontology by using Vector Space Model is proposed. Eigenvectors as the input to the vector space model are constructed by utilizing concepts and hierarchical structure of ontology, which also provides the domain knowledge. However, a limited vocabulary problem is encountered while mapping keywords to their corresponding ontology concepts. A synonymy lexicon is utilized to extend the ontology and compress the eigenvector. The problem that eigenvectors are too large and complex to be calculated in traditional methods can be solved. At last, combing the concept's supporting, a top-down method according to the ontology structure is used to complete topic classification. An experimental system is implemented and the model is applied to this practical system. Test results show that this model is feasible. 相似文献
12.
提出了一种基于本体的,综合改进的spread activation算法和语义分析的混合检索方法.通过改进的spread activation算法和本体实例之间语义关联强弱的分析,得到一组查询词的相似词集合,从而提高了查询关键字到本体概念映射的完整性与准确性.设计实现了相应的检索系统,实验表明,该系统可以有效地提高检索的查全率与查准率. 相似文献
13.
映射效率对于Web服务发现和组合、智能空间上下文感知等领域的动态映射至关重要。现有方法对相似度计算方法加以简化来提升效率,但当候选匹配实体对的数目随本体的规模增大而急剧增加时,就无法有效地处理。文中提出一种基于本体分割的高效本体映射算法。通过自下而上的聚类,将本体划分为一组大小合适的本体块。然后基于向量空间算法进行块映射,并从块映射结果中选取实体映射的候选匹配对,从而削减其数量,达到减少时间复杂度的目的。实验表明,文中方法显著提升运行时本体映射的效率,比Falcon-AO本体映射方法快6倍。 相似文献
14.
提出一种基于本体的图像检索方法。该方法结合特定领域专家知识和对象例图,采用视觉对象本体来描述图像内特定对象的视觉特征,从而构建该领域包含视觉描述的知识库。在检索过程中,利用知识库内的对象的视觉本体描述和目标图像库内的图像低层特征相匹配执行图像检索任务,从而实现在高层次语义上的图像检索。实验结果表明了该方法的有效性和可行性,并在一定程度上缩小了视觉低层特征同图像高层语义的鸿沟。 相似文献
15.
基于本体的Web分类技术研究 总被引:2,自引:3,他引:2
主要提出了一种基于本体的抽象的Web挖掘模型。首先利用本体的方法表示出要挖掘的领域,然后把从用户处收集来的数据转换成表格;最后再根据定义和公式来进行知识发现。抽象的Web挖掘模型可以提取出语义Web中隐藏在大量信息背后的近似概念,来实现知识发现。 相似文献
16.
针对当前大多数个性化服务系统的不足,以旅游领域为背景,提出了一种新的基于本体的用户模型构建方法,利用领域本体中的概念、实例和属性描述用户兴趣特征,实现了在语义层次上理解用户兴趣。实验表明,该方法能有效提高用户模型的质量。 相似文献
17.
18.
基于Ontology和EM方法的网页分类研究 总被引:1,自引:1,他引:1
Works on abstracting semantic information from substantive pages of Web and their usage in search engine can lead to intelligent retrieval ,or other individual services. This paper mainly focuses on some research about analysis of Web page classification infor. Ontology as a base,using TFIDF word weights and Rocchio algorithm is combined with EM to improve accuracy of classifier. It's proved that this EM procedure works well on enhancing the veracity by the usage of unlabeled pages when the samples are limited. 相似文献