共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
3.
4.
Web文本挖掘技术研究 总被引:221,自引:1,他引:220
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了 相似文献
5.
6.
7.
8.
随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。 相似文献
9.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。 相似文献
10.
11.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。 相似文献
12.
Camila Vaccari Sundermann Renan de Padua Vítor Rodrigues Tonon Ricardo Marcondes Marcacini Marcos Aurélio Domingues Solange Oliveira Rezende 《Expert Systems》2020,37(6):e12618
A recommender system is an information filtering technology that can be used to recommend items that may be of interest to users. Additionally, there are the context-aware recommender systems that consider contextual information to generate the recommendations. Reviews can provide relevant information that can be used by recommender systems, including contextual and opinion information. In a previous work, we proposed a context-aware recommendation method based on text mining (CARM-TM). The method includes two techniques to extract context from reviews: CIET.5embed, a technique based on word embeddings; and RulesContext, a technique based on association rules. In this work, we have extended our previous method by including CEOM, a new technique which extracts context by using aspect-based opinions. We call our extension of CARM-TOM (context-aware recommendation method based on text and opinion mining). To generate recommendations, our method makes use of the CAMF algorithm, a context-aware recommender based on matrix factorization. To evaluate CARM-TOM, we ran an extensive set of experiments in a dataset about restaurants, comparing CARM-TOM against the MF algorithm, an uncontextual recommender system based on matrix factorization; and against a context extraction method proposed in literature. The empirical results strongly indicate that our method is able to improve a context-aware recommender system. 相似文献
13.
基于文本挖掘技术的专利质量评价与实证研究 总被引:3,自引:0,他引:3
分析了专利价值评价现状及其应用限制,在此基础上提出了基于文本挖掘技术的专利质量评价方法,用以挖掘专利数据内部的、客观的信息。通过新颖度度量函数量化专利的技术新颖程度,依此来评价某一个行业内的专利质量。然后,将该方法应用到我国光通信技术领域,进行相关专利的质量评价。 相似文献
14.
15.
16.
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。 相似文献
17.
因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。 相似文献
18.
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题.并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点.实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的. 相似文献
19.
20.
社交媒体关键意见领袖KOL为品牌营销带来更多机会,所以备受广告主青睐,但KOL行业的低门槛进入和数据造假行为,导致广告主无法快速找到与自身品牌匹配的KOL。基于以上背景,对KOL发布在社交平台的视频进行研究,对视频中的弹幕文本进行动态主题分析,刻画弹幕主题随时间的变化,同时使用卷积神经网络模型对含有广告的视频弹幕文本进行情感分析,进一步分析观众对于KOL推广行为的情感极性。实验结果表明,本文提出的KOL分析方法更加全面具体地评估了KOL的商业价值,能够帮助广告主高效找到合适的KOL。 相似文献