共查询到20条相似文献,搜索用时 390 毫秒
1.
2.
互联网的兴起带来了大量的文本信息。在半结构化和非结构化的文本中提取对用户有用的信息,主要采用文本挖掘技术.本文对文本挖掘常用的方法进行比较分析,总结文本挖掘目前主要的应用领域 相似文献
3.
电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。本文基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。 相似文献
4.
5.
互联网的普及和飞速发展,使Internet成为世界上最大的信息积聚地,但Internet积聚的信息不同与以往的数据挖掘源,其内容大多是半结构化或非结构化的文本。如何有效的对半结构化或非结构化的文本信息进行挖掘即文本挖掘已成为当今热门的研究方向。 相似文献
6.
中文文本的信息自动抽取和相似检索机制 总被引:1,自引:0,他引:1
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求. 相似文献
7.
8.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术. 相似文献
9.
电商领域的文本通常不遵循通用领域文本的表达方式,导致传统短语挖掘方法在电商领域文本中的挖掘精度较低.为此,提出一种基于协同训练的电商领域短语挖掘方法.通过基于语义特征的短语分类模型来有效检测电商领域文本中的反序表达,构建协同训练的短语挖掘框架,以降低领域语料中标注训练数据的成本,在此基础上,利用Stacking方法集成统计模型和语义模型的优点,提升模型整体挖掘性能.在淘宝网查询语料上的实验结果表明,相比于ClassPhrase、AutoPhrase方法,该方法具有更高的精度和召回率. 相似文献
10.
《模式识别与人工智能》2014,(8)
针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果. 相似文献
11.
计算机互联网上的信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需的信息已日益突显出其重要性。该文挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。文章介绍了Web文本挖掘的一般流程,重点分析了Web文本挖掘中的几种关键技术。 相似文献
12.
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。 相似文献
13.
文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段,把本体引入到商务企业文本检索中,以文本的段落为检索的最小单位,提出了一个信息检索的模型。该模型能从文本中抽取信息而建立本体标识符,用本体标识符来表示文本的段落,从而对检索要求和段落进行语义匹配,最后得到检索结果。 相似文献
14.
15.
冯观强 《计算机光盘软件与应用》2012,(22):174+185
本文详细探讨了Web数据挖掘技术在淘宝网玩具市场的应用。通过爬取淘宝网玩具市场的网页数据信息,并应用数据挖掘技术对这些数据进行分析、挖掘,发现了一些对卖家决策有指导意义的知识。 相似文献
16.
情感分析也称为意见挖掘,是对文本中所包含的情感倾向进行分析的技术。目前很多情感分析工作都是基于纯文本的。而在微博上,除了文本,大量的图片信息也蕴含了丰富的情感信息。本文提出了一种基于文本和图像的多模态分类算法,通过使用潜在语义分析,将文本特征和图像特征分别映射到同维度下的语义空间,得到各自的语义特征,并用SVM-2K进行分类。利用新浪微博热门微博栏目下爬取的文字和配图的微博数据进行了实验。实验结果表明,通过融合文本和图像的语义特征,情感分类的效果好于单独使用文本特征或者图像特征。 相似文献
17.
随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性。 相似文献
18.
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的有效技术,Web文本挖掘已倍受关注。文中提出了利用概念格来抽取隐含在文本中潜在的概念关系,将文本挖掘中文档与关键词之间的关系通过概念格结构呈现出来。 相似文献
19.
《计算机应用与软件》2018,(2)
病情自述是网络疾病咨询中普遍的信息形式。为了从这些不规范的数据中发现隐含疾病知识和用户语义提出一种无监督学习方法构建知识图谱,并基于此进行疾病辅助诊断。从同一疾病的病情自述提取特征关键词,使用特征关键词的概率关联和语义关联构建特征关联网络。在特征关联网络中找出描述疾病时常用的特征团模式,基于特征团的语义关系构建知识图谱;从知识图谱上抽取结构化特征,利用结构化特征与病情自述文本的Jaccard系数完成病情自述的文本表示;利用SVM实现病情自述的分类识别,结果分类的微平均和宏平均都在80%以上。研究能够用于疾病结构化知识发现和用户意图分析,初步诊断病情自述疾病类型。 相似文献
20.
互联网上的用户生成内容UGC(User Generated Content)中蕴含的用户主观观点信息对分析用户行为、用户需求等工作有着重要的价值。设计一套基于自然语言理解的互联网UGC文本主观观点分析系统WSAM,该系统能挖掘出用户主观观点所蕴含的关注对象和主观成分。分析了互联网UGC现象和生成原因,总结出UGC中用户主观观点中的四种主要类型。挖掘用户主观观点过程中,将用户主观观点的挖掘转化为句子中主观观点关注对象的识别和主观成分的判断。算法结合基于词语类、结构类等相关特征,采用最大熵分类器挖掘用户主观观点。实验验证,WSAM系统所采用的算法性能较好,且还能够灵活扩充出情感分析(Opin-ion Mining)等相关应用,同样也能达到较好的结果。 相似文献