首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
消除GCC抽象语法树文本中冗余信息的算法研究   总被引:1,自引:0,他引:1  
由GCC编译器对C语言源程序进行语法分析产生的抽象语法树文本存在大量的冗余信息,如果直接对其进行解析,则会产生解析效率低、产生的抽象语法树会占用大量的存储空间的问题.针对此问题,在深入研究(GDC抽象语法树文本结构和解析过程的基础上,提出了一种高效消除冗余的算法,通过实验证明了算法的正确性和适用性,并提出了GCC抽象语法树解析的数学定义.  相似文献   

2.
在当前的大数据时代,互联网上的博客、论坛产生了海量的主观性评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了,那么,如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题,中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法,分析了文档频率和互信息算法的不足,通过对两个算法的对比和研究,结合文本特征与文本类型的相关度和文本褒贬特征的出现概率,提出了改进的文本特征选择算法(MIDF)。实验结果表明,MIDF算法对文本褒贬倾向性分类是有效的。  相似文献   

3.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。  相似文献   

4.
在教师CAI教学中经常需要使用Authorware制作练习题。该文以单选题为例,介绍了一种简单的自动出题系统。该系统使用文件文件制作题库,在Authorware中通过文件操作语句直接访问文本文件,实现了自动出题、自动批改的功能。  相似文献   

5.
Open source software (OSS) projects are supported by communities interacting through software repositories and mailing lists. Thousands of contributors participate in the development of the projects although they rarely meet each other. The result is a huge archived repository with thousands of questions, answers and contributions usually difficult to explore. We propose a tool based on semantic analysis for both performing an automatic knowledge discovery and a categorisation of the content of mailing lists repositories. Semantic analysis is a practical method for extracting and inferring relations of words in passages of discourse, producing measures of relations among words or passages that are well correlated with semantic similarity. The objective of this article is two-fold: (1) to develop a text categorisation tool based on indexing terms and semantic annotation, and (2) to apply the developed tool to extract the main dimensions related to knowledge sharing activities in virtual communities. Debian Linux ports to embedded processors are used as a case study to accomplish the proposed double objective.  相似文献   

6.
面向产品评论分析的短文本情感主题模型   总被引:2,自引:0,他引:2  
熊蜀峰  姬东鸿 《自动化学报》2016,42(8):1227-1237
情感主题联合生成模型已经成功应用于网络评论分析.然而,随着智能终端设备的广泛应用,由于屏幕及输入限制,用户书写的评论越来越短,我们不得不面对短评论中的文本稀疏问题.本文提出了一个针对短文本的联合情感--主题模型SSTM(Short-text sentiment-topic model)来解决稀疏性问题.不同于一般主题模型中通常采用的基于文档产生过程的建模方法,我们直接对整个语料集合的产生过程建模.在产生文档集的过程中,我们每次采样一个词对,同一个词对中的词有相同的情感极性和主题.我们将SSTM模型应用于两个真实网络评论数据集.在三个实验任务中,通过定性分析验证了主题发现的有效性,并与经典方法进行定量对比,SSTM模型的文档级情感分类性能也有较大提升.  相似文献   

7.
Text search is a classical problem in Computer Science, with many data-intensive applications. For this problem, suffix arrays are among the most widely known and used data structures, enabling fast searches for phrases, terms, substrings and regular expressions in large texts. Potential application domains for these operations include large-scale search services, such as Web search engines, where it is necessary to efficiently process intensive-traffic streams of on-line queries. This paper proposes strategies to enable such services by means of suffix arrays. We introduce techniques for deploying suffix arrays on clusters of distributed-memory processors and then study the processing of multiple queries on the distributed data structure. Even though the cost of individual search operations in sequential (non-distributed) suffix arrays is low in practice, the problem of processing multiple queries on distributed-memory systems, so that hardware resources are used efficiently, is relevant to services aimed at achieving high query throughput at low operational costs. Our theoretical and experimental performance studies show that our proposals are suitable solutions for building efficient and scalable on-line search services based on suffix arrays.  相似文献   

8.
Osteoporosis is characterized by reduced bone mass and debilitating fractures and is likely to reach epidemic proportions. Because of the vigorous research taking place in fields related to osteoporosis, bone biologists are overwhelmed by the amount of literature being generated on a regular basis. This problem can be alleviated by inferring and extracting novel relationships among biological entities appearing in the biological literature. With the development of large online publicly available databases of biological literature, such an approach becomes even more appealing. The novel relationships between biological terms thus discovered constitute new hypotheses that can be verified using experiments. This paper presents a novel method called multilevel text mining for the extraction of potentially meaningful biological relationships. Multilevel mining uses transitive maximum flow graph analysis coupled with set combination operations of union and intersection. Set operators are applied along and across the paths of a transitive flow graph to combine the data. In the first level of the multilevel mining process, protein domain names are used. Novel relationships between domains are extracted by the transitive text mining analysis. In the second level, these newly discovered relationships are used to extract relevant protein names. Set operators are used in various combinations to obtain different sets of results. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

9.
海量文本分析是实现大数据理解和价值发现的重要手段,其中文本分类作为自然语言处理的经典问题受到研究者广泛关注,而人工神经网络在文本分析方面的优异表现使其成为目前的主要研究方向。在此背景下,介绍卷积神经网络、时间递归神经网络、结构递归神经网络和预训练模型等主流方法在文本分类中应用的发展历程,比较不同模型基于常用数据集的分类效果,表明利用人工神经网络结构自动获取文本特征,可避免繁杂的人工特征工程,使文本分类效果得到提升。在此基础上,对未来文本分类的研究方向进行展望。  相似文献   

10.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

11.
领域知识在文本聚类应用中的机遇和挑战   总被引:2,自引:1,他引:1       下载免费PDF全文
最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐述领域知识在文本聚类过程中的具体应用、研究现状和所面临的挑战。  相似文献   

12.
在系统开发中,图文混排是一个难题。在数据库的基础上,采用了编码对图文混排中的图形进行链接式存储,用自动机技术做出合理的解释,解决了图形与文本混排时在数据库存储与网页上显示的难题,同时简化了分析过程,实现了JSP语言应用中的技术难题,也为解决相关难题提供了一种全新的思路。  相似文献   

13.
文本分类是自然语言处理领域的一个重要研究方向.综合分析发现,文本分类的研究和分析,有助于对信息进行有效的分类和管理,并为自然语言处理的应用提供有力的支持.然而,已有的研究在理论和方法层面虽然已经取得了一定的成就,但是文本分类研究涉及内容、领域和技术等多个方面,各学科研究错综复杂,因此还有很多缺陷和不足,需要进一步进行系统和深入的研究.本文针对文本分类这一研究内容,探讨了文本分类和LDA主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状,总结了目前研究中存在的一些问题和研究策略;最后,归纳出文本分类未来的一些发展趋势.  相似文献   

14.
This paper discusses a fundamental problem in natural language generation: how to organize the content of a text in a coherent and natural way. In this research, we set out to determine the semantic content and the rhetorical structure of texts and to develop heuristics to perform this process automatically within a text generation framework. The study was performed on a specific language and textual genre: French instructional texts. From a corpus analysis of these texts, we determined nine senses typically communicated in instructional texts and seven rhetorical relations used to present these senses. From this analysis, we then developed a set of presentation heuristics that determine how the senses to be communicated should be organized rhetorically in order to create a coherent and natural text. The heuristics are based on five types of constraints: conceptual, semantic, rhetorical, pragmatic, and intentional constraints. To verify the heuristics, we developed the spin natural language generation system, which performs all steps of text generation but focuses on the determination of the content and the rhetorical structure of the text.  相似文献   

15.
涉及中文字符串记录的数据库管理是Java开发中的常见问题。由于Java语言对中文支持不足,导致中文字符串记录的排序不能很好地满足应用要求。该文在与当前中文排序方法比较分析的基础上,提出了一种通用的排序方法,适用于Java环境下中文字符串和数字类型记录的排序过程,较好地解决了中文字符串数据集记录的排序问题,并且针对记录添加和检索时易出现的谐音拼写错误,提出了谐音检索方法,提高了检索过程的容错和纠错性能。  相似文献   

16.
近些年来,由于互联网企业竞争激烈,各平台文本信息存在着相互恶意拦截的问题,这往往给用户带来不便甚至造成损失。目前,在中文文本信息过滤领域中,“火星文”在规避关键词屏蔽方面效果显著。然而,随着人工智能的快速发展,检测技术不断提升,仅仅依靠规避关键词屏蔽已然不足以确保文本信息传递的安全性,文本关键信息仍然存在着被拦截的风险,这是由于这类关键信息的呈现模式通常具有规律性。为了解决这类问题,本文采用了文本信息隐藏技术。鉴于传统文本隐写算法的局限性,本文提出了一种基于“火星文”生成的文本隐写系统。该文本隐写系统利用“火星文”较于传统平面媒介的语言形式而言,信息冗余度高的特点,将重要内容隐藏至文本中。该文本隐写系统主要由预处理、控制以及隐写三大基本模块组成。通过对汉字结构特征的研究以及“火星文”构字方式的分析,本文设计出了6种隐写子模块以供信息嵌入与提取。实验结果分析,所提出的隐写方案的嵌入容量高于同类型隐写方案,且具有较强的鲁棒性。此外,我们给出该文本隐写系统在互联网中的一个具体应用,从而体现其实用性。  相似文献   

17.
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段,也是人工智能领域研究的热点和难点之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来语言模型的预处理提高了许多自然语言处理任务的技术水平,包括情感分析、问答、自然语言推理、命名实体识别和文本相似性、文本摘要。本文梳理文本摘要以往的经典方法和近几年的基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行整理,最后总结文本摘要目前面临的挑战与发展趋势。  相似文献   

18.
基于概念空间的文本检索系统   总被引:10,自引:3,他引:10  
当前信息检索存在着信息过载和词汇不匹配的问题。文章提出了一种新的检索方式缓解这两个问题。这种检索方法在文本聚类的基础上,基于概念空间并与传统的关键词检索相结合能够帮助用户快速、准确地定位所需要查找的信息。文章将对这种检索方式进行介绍,并且着重介绍利用共现分析以及Hopfield网络生成概念空间。  相似文献   

19.
图像和视频中的文字获取技术   总被引:6,自引:0,他引:6       下载免费PDF全文
许多图像都包含丰富的文字信息,如用作网页设计的以图像形式存在的标语和视频图像中的字幕。这些文字的自动检测、分割、提取和识别,对图像高层语义内容的自动理解、索引和检索非常有价值,因此引起国内外众多学者的研究兴趣。为使人们对该领域有一个系统的了解,并使该领域研究人员有所借鉴,在对目前国内外图像和视频中文字获取技术相关文献综合理解的基础上,综述了该领域的发展现状,同时从文字检测、抽取和文字识别两个方面,重点讨论了其主要的技术方法及应用优缺点,并结合当前面临的问题,指出今后可进一步研究的方向。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号