首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
快速、准确和全面地从大量互联网文本信息中定位情感倾向是当前大数据技术领域面临的一大挑战.文本情感分类方法大致分为基于语义理解和基于有监督的机器学习两类.语义理解处理情感分类的优势在于其对不同领域的文本都可以进行情感分类,但容易受到中文存在的不同句式及搭配的影响,分类精度不高.有监督的机器学习虽然能够达到比较高的情感分类精度,但在一个领域方面得到较高分类能力的分类器不适应新领域的情感分类.在使用信息增益对高维文本做特征降维的基础上,将优化的语义理解和机器学习相结合,设计了一种新的混合语义理解的机器学习中文情感分类算法框架.基于该框架的多组对比实验验证了文本信息在不同领域中高且稳定的分类精度.  相似文献   

2.
面向不良文本信息监控的概念网技术研究   总被引:1,自引:0,他引:1  
由于网上信息的迅速增长,文本信息监控已经成为网上信息管理中的热点研究课题。文章在模糊集和语义网络的理论基础上,构建了模糊值动态约束性概念网络,介绍了该概念网络的基本构建方法,并提出了基于概念网络的文本分析算法。  相似文献   

3.
针对基于词袋的机器学习文本分类方法所存在的:高维度、高稀疏性、不能识别同义词、语义信息缺失等问题,和基于规则模式的文本分类所存在的虽然准确率较高但鲁棒性较差的问题,本文提出了一种采用词汇-语义规则模式从金融新闻文本中提取事件语义标注信息,并将其作为分类特征用于机器学习文本分类中的新方法。实验证明采用该方法相比基于词袋的文本分类方法在采用相同的特征选择算法和分类算法的基础上,F1值提高8.6 %,查准率提高7.7% ,查全率提高8.8%。本文方法融合了知识驱动和数据驱动在文本分类中的优点,同时避免了它们所存在的主要缺点,具有显著的实用性和研究参考价值。  相似文献   

4.
《软件》2016,(9):27-33
机器学习是人工智能的主要内容之一,文本分类正是机器学习中典型的监督学习场景。而机器学习在在线教育平台中的应用正是现阶段的发展趋势。首先介绍了文本分类的背景及意义,文本分类系统中的文本预处理部分,介绍了信息增益算法、主要成分分析等相关技术;文本分类的分类算法部分,主要介绍了Ada Boost技术。在遵循文本分类流程的基础上,设计了一个3模块文本分类系统:一、中文分词及去停止词模块;二、文本向量化及特征降维模块;三、分类器模块。文本分类系统的具体实现上,全部采用开源工具完成,使用Ansj实现模块一,Weka实现模块二、三。按照文本分类流程,利用文本分类系统进行了实验,并对实验中得到的数据进行了分析和总结。为了提升最后的分类效果,在特征降维这一步中,添加了IG-LSA(信息增益(IG)-潜在语义分析(LSA))的混合降维方法。  相似文献   

5.
使用概念基元特征进行自动文本分类   总被引:2,自引:0,他引:2  
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。  相似文献   

6.
针对传统机器学习的情感分类方法存在长距离依赖问题、深度学习存在忽略情感词库的弊端,提出了一种基于注意力机制与双向长短记忆网络和卷积神经网络模型相结合的维吾尔文情感分类方法。将多特征拼接向量作为双向长短记忆网络的输入捕获文本上下文信息,使用注意力机制和卷积网络获取文本隐藏情感特征信息,有效增强了对文本情感语义的捕获能力。实验结果表明,该方法在二分类和五分类情感数据集上的◢F◣▼1▽值相比于机器学习方法分别提高了5.59%和7.73%。  相似文献   

7.
在研究文本倾向性识别方法的基础上,分别实现基于文本分类、基于语义规则模式和基于情感词的倾向性分析算法.研究情感本体构建和基于HowNet与主题领域语料的情感概念选择方法,两者结合能提高情感本体中概念的全面性和领域针对性.利用情感本体抽取特征词并判断其情感倾向度,结合句法规则及程度副词影响,用特征情感倾向度作为特征权重,采用机器学习的方法对主题网络舆情web文本进行倾向性分析.实验表明,其分析结果有更高的准确率和召回率,实现方案的普遍性和稳定性值得进一步研究.  相似文献   

8.
面向语义信息查询的模糊本体模型   总被引:4,自引:0,他引:4       下载免费PDF全文
杨青  陈薇  闻彬 《计算机工程》2010,36(8):188-190
针对领域知识建模时的模糊性、不确定性与信息查询时的局限性,提出一种基于模糊控制规则的模糊本体模型。利用基于模糊聚类的本体机器学习方法构建模糊控制规则库,通过计算模糊相似矩阵得到模糊概念的语义关联,对词汇相关概念进行语义分析与扩展获取模糊概念间的本质语义关系,实现基于模糊概念属性值的信息查询与语义共用。实验结果表明,该模型在语义查询上有更完善的推理机制,能有效获取语义信息。  相似文献   

9.
随着网络信息的迅猛发展,自动信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。本文介绍了数字图书馆的概念和主要特点,同时对自动信息处理的关键技术,包括文本的表示、特征提取、机器学习方法,进行了研究和探讨,提出了一种基于信息处理的数字图书馆知识服务系统。  相似文献   

10.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

11.
随着互联网的普及,人类获取特定信息需求的增加,如何快速获取特定类别信息是当前搜索引擎,门户网站等必须解决的问题。当前网页分类的任务都由机器学习的文本分类算法完成,但传统的机器学习分类方法基本没有考虑文本数据特征,提供无差别的分类服务。该系统充分考虑网页文本数据的特征,以文本标题为突破口实现快速分类以及依据SVM的普通分类。快速分类依据文本标题通过分词模型训练快速对应到分类标签上,完成快速分类。如果快速分类不成功则将文本内容通过结巴分词器分词,word2vec进行分词向量的训练,再根据分类要求通过SVM进行分类,完成普通的分类。通过提供两种不同的服务来完成不同的需求。  相似文献   

12.
Semantic relation extraction is a significant topic in semantic web and natural language processing with various important applications such as knowledge acquisition, web and text mining, information retrieval and search engine, text classification and summarization. Many approaches such rule base, machine learning and statistical methods have been applied, targeting different types of relation ranging from hyponymy, hypernymy, meronymy, holonymy to domain-specific relation. In this paper, we present a computational method for extraction of explicit and implicit semantic relation from text, by applying statistic and linear algebraic approaches besides syntactic and semantic processing of text.  相似文献   

13.
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性, 网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就, 但随着对恶意网页识别需求的不断提高, 在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法, 将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network, CNN)、支持向量机(Support vector machine, SVM)相结合。首先, 考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系, 从而影响网页识别准确率的缺点,通过 GCN 丰富的关系结构有效捕获并保持网页文本的全局信息; 其次, CNN 可以弥补 GCN 在局部特征信息提取方面的不足,通过一维 CNN 对网页 URL(Uniform resource locator, URL)进行局部信息提取, 并进一步将捕获到的 URL 局部特征与网页文本全局特征进行融合, 从而选择出兼顾 CNN 模型和 GCN 模型特点的更具代表性的网页特征; 最终, 将融合后的特征输入到 SVM分类器中进行网页判别。本文首次将 GCN 应用于恶意网页识别领域, 通过组合模型有效兼顾了深度学习与机器学习的优点, 将深度学习网络模型作为特征提取器, 而将机器学习分类算法作为分类器, 通过实验证明, 测试准确率达到 92.5%, 高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性, 以及在精确率、召回率、 F1 值等多项检测指标上展现出更加优越的性能。  相似文献   

14.
文本语言的情感分析历来是自然语言处理领域的热点研究课题,尤其是在当下互联网迈入web2.0时代,多样的社交网络平台呈现出巨量而丰富的文本情感信息,因此挖掘网络数据文本信息并作情感倾向判断对人机交互与人工智能具有重大的现实意义。传统的解决文本情感分析问题的方法主要是浅层学习算法,利用回归、分类等方案实现特征的提取及分类。以这类方法为起点,本文探索采用深度学习的方法对网络文本进行细粒度的情感分析,以期达到即时获取依附于网络世界的社会人的情感,甚至是让机器达到对人类情感表达的深度理解。对于深度学习的具体实现,本文采用的是降噪自编码器来对文本进行无标记特征学习并进行情感分类,后文中利用实验训练获得最佳的参数设置,并通过对实验结果的分析和评估论证深度学习对于情感信息的强大解析能力。  相似文献   

15.
The web is nowadays one of the main information sources, and information search is an important area in which many advances have been registered. One approach to improve web search results is to consider contextual information. Usually, information about context has been provided through user logs on previous searches or the monitoring of clicks on first results, but different approaches can be used in specific environments. In a web based learning environment, existing documents and exchanged messages could provide contextual information. So, the main goal of this work is to provide a contextual web search engine based on shared documents and messages posted in a social network used for collaborative learning. Contextual search is provided through query expansion using learning documents (material provided by the teacher) and discussion messages (posts, links and comments that result from the participants’ interactions). A prototype was implemented and used in a learning scenario to acquire the context in a learning community. The proposed approach makes the context acquisition faster and more dynamic as it considers an automatic approach over text processing of documents and discussions. In addition, the results of the query engine with and without the contextual information were compared and the proposed approach using contextual information showed improvements in the precision of the results.  相似文献   

16.
针对中医药方剂信息的特点提出了一种新型的方剂概念模型,并利用机器学习理论对非结构化的文本特征以及其内容组织形式加以学习,得到方剂概念的抽取模式。该模式学习的方法有效地解决了方剂非结构化文本抽取的难题,被用于中美百万册数字图书馆的方剂文本处理。而对抽取的方剂属性信息作聚类,则发掘了不同方剂药性药效间的联系,为中医药方剂查询模块提供推荐服务。  相似文献   

17.
基于转换的时间-事件关系映射   总被引:5,自引:5,他引:0  
近些年来,中文时间信息抽取和处理已经变得越来越重要。然而,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后,系统的时间-事件映射错误率减少了9.74%,实验结果表明本系统对基于规则的方法有很好的改进效果。  相似文献   

18.
随着Web Services技术的不断成熟和发展,存储在UDDI Registry中的Web Service信息将会变得越来越庞大,如何从UDDI Registry浩如烟海的信息资源中为用户快速、方便、准确地检索出满足需求的Web Service,将变得十分重要.而传统的基于关键词匹配的检索技术已不能满足用户准确而全面定位信息的要求.因此,以Web Service的文本描述信息为研究对象,运用文本挖掘相关方法,构建出用户概念空间,对用户提出的查询要求进行概念检索.着重介绍了用户概念空间的构建方法以及概念检索的匹配运算过程,并给出了应用于UDDI Registry的一种智能检索引擎系统模型.  相似文献   

19.
针对钓鱼攻击者常用的伪造HTTPS网站以及其他混淆技术,借鉴了目前主流基于机器学习以及规则匹配的检测钓鱼网站的方法RMLR和PhishDef,增加对网页文本关键字和网页子链接等信息进行特征提取的过程,提出了Nmap-RF分类方法。Nmap-RF是基于规则匹配和随机森林方法的集成钓鱼网站检测方法。根据网页协议对网站进行预过滤,若判定其为钓鱼网站则省略后续特征提取步骤。否则以文本关键字置信度,网页子链接置信度,钓鱼类词汇相似度以及网页PageRank作为关键特征,以常见URL、Whois、DNS信息和网页标签信息作为辅助特征,经过随机森林分类模型判断后给出最终的分类结果。实验证明,Nmap-RF集成方法可以在平均9~10 μs的时间内对钓鱼网页进行检测,且可以过滤掉98.4%的不合法页面,平均总精度可达99.6%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号