随着各种数字化信息不断增长,如何对大量文档信息进行科学归类成为亟待解决的问题。文本自动分类方法成为目前解决该问题的一项关键技术。我国目前有超过1,000万的企业,企业经营范围是企业从事经营活动的具体描述。本文以企业经营范围数据为基础,根据其结构特征,以及与经济行业的关系,利用大规模文本数据的切分词优化、统计分类推断、属性关联分析等关键技术,通过在组织机构代码数据库中提炼相关数据进行实验比对分析,从而得出一种实用、高效的企业经营范围的文本自动分类方法。  相似文献   

针对在线书籍评论的情感分析问题,基于词向量和深度学习原理,提出了一种基于词向量和卷积神经网络(Convolutional Neural Networks, CNN)的书籍评论情感分类方法.实验结果表明,本方法对在线书籍评论的情感分类准确率达到92.99%,同时,此方法对于大量文本集的情感分析有很好的适用性.此外还研究了不同语料库、书籍评论词向量的维度、书籍评论数据集的大小等对情感分析结果的影响,实验结果显示,构建针对性的语料库,基于词向量和卷积神经网络的书籍评论情感分析方法是一种简单而有效的文本情感分析方法,该方法具有扩展性和对不同评论文本的适用性.  相似文献   

政策文本中管理规则检测是一个新兴的自然语言处理任务,在政策冲突检测、政策智能检索、事项合规性检查以及政务系统需求工程等方面具有重要应用价值。本文以矿产资源管理规则检测为研究目标,提出基于转换器的双向编码表征(BERT)提示的政策文本管理规则检测方法。该方法通过构建融入管理规则信息、带有[MASK]标记的提示模板,可以充分发挥掩码语言模型的自编码优势,有效激发BERT模型提取与管理规则相关的文本特征,增加模型稳定性;提出基于BERT模型进行管理规则检测的新应用模式,放弃使用[CLS]隐向量而采用[MASK]隐向量进行分类预测;在矿产资源管理规则数据集上的实验结果表明,该方法的准确率、宏平均F1值、加权平均F1值均优于基线方法,在公开数据集上的实验结果也表明了该方法的有效性。  相似文献   

政策文本分类是一项涉及自然语言处理(NLP)、机器学习、政策解析等多领域的综合性技术,在政策管理、研究以及信息服务等方面有重要应用。首先,针对目前政策文本领域公共资源较少的问题,提出结合领域知识和NLP构建政策文本分类数据集的半自动化方法,构建了句子级自然资源政策文本分类数据集;其次,挖掘政策文本自身特点,提出基于深度学习的标题信息自适应增强政策文本分类方法,并在现有主流深度学习模型上进行扩展应用;最后,在自然资源政策文本分类数据集上的实验表明,应用该方法后,5个常用深度学习分类模型的准确率获得了3%以上提升,宏平均F1值获得了5%以上提升。  相似文献   

考虑到文本区域鉴别在视频文本检测中的重要作用,提出了一种基于笔画宽度特征的文本区域鉴别方法,该方法通过分析候选文本区域中笔画宽度的分布,有效地区分文本和非文本区域。此外针对笔画宽度信息提取过程中存在未知极性参数的问题,提出了一种半监督多示例学习(SS-MIL)算法,该算法可以充分利用训练样本中不完整的监督信息,提高文本区域分类器的性能。基于上述方法,实现了一个完整的视频文本检测系统,并在具有代表性的数据集上对其进行了充分的实验,实验结果表明,基于笔画宽度特征和SS-MIL的文本区域鉴别方法能够有效地辨别文本区域,从而使该系统检测视频文本的综合性能达到较高水平。  相似文献   

针对人-机器人语音交互中经过语音识别的文本指令,提出了一种利用汉语拼音中声韵母作为特征的深度学习文本分类模型。首先,以无人驾驶车语音导航控制为人机交互的应用背景,分析其文本指令结构并分别构建单一意图与复杂意图语料库;其次,在以字符作为文本分类特征的基础上,结合汉语拼音与英文单词的区别,提出了一种利用拼音声韵母字符作为中文文本分类的特征表示方法;然后,用门控递归单元(GRU)代替传统递归神经网络单元以解决其难以捕获长时间维度特征的不足,为提取信息的高阶特征、缩短特征序列长度并加快模型收敛速度,建立了一种结合卷积神经网络及GRU递归神经网络的深度学习文本分类模型。最后,为验证模型在处理长、短序列任务上的表现,在上述两个语料库上对提出的模型分别进行十折交叉测试,并与其他分类方法进行比较与分析,结果表明该模型显著地提高了分类准确率。  相似文献   

语料库是利用大数据技术进行语言信息搜集、整理、处理分析,为语言学研究和语言教学服务的一种数据化信息资源库.当前,世界范围内,通用型大规模语料库的建设和运用已经达到成熟阶段,极大地便利了各领域的语言教学和研究,而行业型、专业化的小型专门用途语料库的建设进展则不尽如人意,这阻碍了专业化、行业化语言教学研究的深入发展.化工英语作为专业英语中的一种,对化工行业的学术交流和化工经济的国际化发展起着重要支撑作用,在优秀化工英语人才相对缺乏、化工英语教学模式僵化、化工英语翻译效率低下的背景下,构建语料充实、术语专业、智能化程度高的化工英语语料库,对助推化工英语的教学和翻译研究,以及化工经济的发展都具有现实意义.  相似文献   

目的 通过大数据分析各种瓶装水的评论信息,并挖掘其深层印象,从而指导瓶装水的设计实践。方法 首先,从电商平台上爬取与瓶装水设计印象相关的评论文本,组建成设计印象文本语料库,并进行分词处理。其次,利用word2vec大数据语义分析工具,将设计印象语料库中的瓶装水评价转换成词向量并进行输出,筛选出能代表瓶装水设计印象的词汇。最后通过对应分析图进行可视化呈现,直观地展示出每种瓶装水的用户设计印象,并将这些设计印象用于概念设计。结果 挖掘出用户对于瓶装水的深层印象,并以此为依据来展开设计实践。结论 实践证明该方法为分析大量瓶装水线上评论提供了新的思路,有助于挖掘用户对瓶装水的深层印象。此外,也为瓶装水瓶型的再设计提供参考价值。  相似文献   

语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材总体,是理想的语言知识资源。国家非常重视语料库的建设,包括少数民族语种语料库。“大型藏文基础语料库建设”是教育部、国家语委一个大型的藏语通用语料库的建设项目,本文结合该语料库的建设分析了语料库的样本类别、语料样本数据的时间分布、领域分布、来源及地域分布,也说明了语料库词性标注的标记集和标注样本的领域分布,为使用该语料库的人员提供了一个参考数据。  相似文献   

方思怡  夏磊 《标准科学》2022,(11):38-43+60
随着数字化转型时代的到来,语料库已日益成为支撑各领域文本挖掘的重要基础资源。它既能为不同领域提供丰富的语言素材,也能为该领域的研究和应用作出一定的贡献。标准是重要的基础性战略资源,在核心产业的高质量发展中发挥支撑性和引领性的作用,因此构建面向核心产业的国家标准语料库具有重大的战略意义。在众多产业中,集成电路是信息时代的“心脏”。本研究构建了面向集成电路国家标准的单模态多粒度语料库(ICNSC),并对其开展初步分析,为集成电路产业的科技智库建设提供了一定的基础资源。  相似文献   

In this article, we developed a Bayesian model to characterize text line and text block structures on document images using the text word bounding boxes. We posed the extraction problem as finding the text lines and text blocks that maximize the Bayesian probability of the text lines and text blocks given the text word bounding boxes. In particular, we derived the so-called probabilistic linear displacement model (PLDM) to model the text line structures from text word bounding boxes. We also developed an augmented PLDM model to characterize the text block structures from text line bounding boxes. By systematically gathering statistics from a large population of document images, we are able to validate our models through experiments and determine the proper model parameters. We designed and implemented an iterative algorithm that used these probabilistic models to extract the text lines and text blocks. The quantitative performances of the algorithm in terms of the rates of miss, false, correct, splitting, merging, and spurious detections of the text lines and text blocks are reported. © 1996 John Wiley & Sons, Inc.  相似文献   

N. Tripathy  U. Pal 《Sadhana》2006,31(6):755-769
Segmentation of handwritten text into lines, words and characters is one of the important steps in the handwritten text recognition process. In this paper we propose a water reservoir concept-based scheme for segmentation of unconstrained Oriya handwritten text into individual characters. Here, at first, the text image is segmented into lines, and the lines are then segmented into individual words. For line segmentation, the document is divided into vertical stripes. Analysing the heights of the water reservoirs obtained from different components of the document, the width of a stripe is calculated. Stripe-wise horizontal histograms are then computed and the relationship of the peak-valley points of the histograms is used for line segmentation. Based on vertical projection profiles and structural features of Oriya characters, text lines are segmented into words. For character segmentation, at first, the isolated and connected (touching) characters in a word are detected. Using structural, topological and water reservoir concept-based features, characters of the word that touch are then segmented. From experiments we have observed that the proposed “touching character” segmentation module has 96.7% accuracy for two-character touching strings.  相似文献   

文章通过实验研究考察了在由阅读者控制中文文本显示速度的条件下影响移动式显示中文文本阅读工效的2个主要因素:显示窗口长度和移动步幅大小。16名被试参加了实验。结果表明:在由阅读者自由控制文本显示速度的情况下,随着移动步幅与显示窗口长度的增加,阅读速度和阅读效率也相应提高;被试在VDT上阅读移动式显示中文文本的平均速度为268字/分。  相似文献   

将文本挖掘理论应用于专利信息分析,提出了一种基于多分类器融合与主动学习的交互式专利分类算法,旨在实现高效的专利分类.该算法基于训练集,利用支持向量机,针对不同的专利类别分别训练相应的子分类器,然后通过多分类器融合对各子分类器进行有机结合,以获得性能更优的分类器和形成分类决策.在此基础上,利用主动学习选取最有信息的样本进行标引,从而通过人机交互实现分类模型的更新.针对传统批量选择性采样的缺点,还提出了动态批量选择性采样模式,通过确定度传播策略有效降低标引样本冗余度,以进一步提高主动学习的效率.实验结果表明,这种基于多分类器融合与主动学习的交互式专利分类算法的分类性能显著高于其他算法.  相似文献   

目的:针对文本分类任务,在综合考虑语义和结构信息的基础上,提出基于类语义结构的表示模型。方法:该模型先把词嵌入空间划分成不同的类子空间,在每个类子空间中选择对类别有代表性的特征词,再将特征词对应的词嵌入进行组合得到类特征向量,最后将所有的类特征向量进行级联形成文本的向量表示。结果:与其他加权词嵌入表示方法在多个数据集上进行实验比较,分类精度提高了5%~15%。结论:表明该模型在文本分类任务中具有更好的性能。  相似文献   

《Software, IET》2009,3(1):37-45
Lossless data compression researchers have developed highly sophisticated approaches, such as Huffman encoding, arithmetic coding, the Lempel-Ziv family, prediction by partial matching and Burrow-Wheeler transform based algorithms. One approach for attaining better compression is to develop generic, reversible transformation that can be applied to a source text that improves an existing compression algorithm's ability to compress. A few reversible transformation techniques that give better compression ratios are presented. A method, which transforms a text file into intermediate file with minimum possible byte values, is proposed. An attempt has been made to reduce the number of possible bytes that appear after every byte in the source file. This increases backend algorithm's compression performance.  相似文献   

