共查询到19条相似文献,搜索用时 875 毫秒
1.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。 相似文献
2.
专利文献的自动分类对于知识产权保护、专利管理和专利信息检索十分重要,构建准确的专利自动分类器可以为专利发明人、专利审查员提供辅助支持。该文以专利文献分类为研究任务,选取国家信息中心公布的全国专利申请信息为实验数据,提出了基于预训练语言模型的BERT-CNN多层级专利分类模型。实验结果表明: 在该数据集上,BERT-CNN模型在准确率上达到了84.3%,大幅度领先于卷积神经网络和循环神经网络等其他深度学习算法。BERT抽取的特征向量在表达词汇与语义方面比传统Word2Vec具有更加强大的性能。另外,该文还探讨了全局与局部策略在专利多层文本分类上的差异。 相似文献
3.
4.
针对中文文本自动分类算法的评估体系 总被引:1,自引:0,他引:1
中文文本自动分类能够帮助人们更有效地利用不断膨胀的海量中文信息.现有中文文本自动分类算法基于不同原理,性能各异,适用于不同情况.对于分类算法的比较评估能够确定某个分类算法的适用环境和性能特征.目前缺乏针对中文文本自动分类算法的系统评估体系.本文将引入一个评估体系,并基于该体系实现一个开放的研究平台,得出若干已有中文文本自动分类算法的比较结果. 相似文献
5.
6.
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。 相似文献
7.
基于Agent的文本分类系统 总被引:2,自引:0,他引:2
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统。仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。 相似文献
8.
基于概念空间的文本分类研究 总被引:3,自引:0,他引:3
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用 相似文献
9.
随着专利申请数量的快速增长,对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量(GloVe)等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题,提出了一种结合ALBERT和双向门控循环单元(BiGRU)的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证,与Word2vec-BiGRU和GloVe-BiGRU相比,ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点,在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明,ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。 相似文献
10.
基于GA和信息熵的文本分类规则抽取方法 总被引:1,自引:0,他引:1
文本分类是文本数据挖掘中一个非常重要的技术.已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域.现有的文本分类方法,大多是基于向量空间模型的算法.这些算法很难适用于大规模的文本数据集.为此,我们提出了一种基于遗传算法和信息熵的文本分类规则抽取方法.在该方法中,信息熵技术用来辅助遗传算法初始种群的生成.遗传算法和信息熵的有效集成.极大地提高了该混合方法的分类效率.实验结果表明.本文方法适用于大规模文本数据集:该方法提取规则的分类正确率较高.分类速度较快. 相似文献
11.
Development of a patent document classification and search platform using a back-propagation network 总被引:1,自引:0,他引:1
Amy J.C. Trappey Fu-Chiang Hsu Charles V. Trappey Chia-I. Lin 《Expert systems with applications》2006,31(4):755-765
In order to process large numbers of explicit knowledge documents such as patents in an organized manner, automatic document categorization and search are required. In this paper, we develop a document classification and search methodology based on neural network technology that helps companies manage patent documents more effectively. The classification process begins by extracting key phrases from the document set by means of automatic text processing and determining the significance of key phrases according to their frequency in text. In order to maintain a manageable number of independent key phrases, correlation analysis is applied to compute the similarities between key phrases. Phrases with higher correlations are synthesized into a smaller set of phrases. Finally, the back-propagation network model is adopted as a classifier. The target output identifies a patent document’s category based on a hierarchical classification scheme, in this case, the international patent classification (IPC) standard. The methodology is tested using patents related to the design of power hand-tools. Related patents are automatically classified using pre-trained neural network models. In the prototype system, two modules are used for patent document management. The automatic classification module helps the user classify patent documents and the search module helps users find relevant and related patent documents. The result shows an improvement in document classification and identification over previously published methods of patent document management. 相似文献
12.
Wai Lam Ruiz M. Srinivasan P. 《Knowledge and Data Engineering, IEEE Transactions on》1999,11(6):865-879
We develop an automatic text categorization approach and investigate its application to text retrieval. The categorization approach is derived from a combination of a learning paradigm known as instance-based learning and an advanced document retrieval technique known as retrieval feedback. We demonstrate the effectiveness of our categorization approach using two real-world document collections from the MEDLINE database. Next, we investigate the application of automatic categorization to text retrieval. Our experiments clearly indicate that automatic categorization improves the retrieval performance compared with no categorization. We also demonstrate that the retrieval performance using automatic categorization achieves the same retrieval quality as the performance using manual categorization. Furthermore, detailed analysis of the retrieval performance on each individual test query is provided 相似文献
13.
14.
15.
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 总被引:1,自引:2,他引:1
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 相似文献
16.
分类问题,尤其是文本自动分类一直是机器学习与数据挖掘研究中的研究热点与核心技术,其中如朴素贝叶斯、KNN等近年来得到了广泛的关注和快速的发展。文中在统计学理论的基础上给出了一种基于支持向量机方法的文本分类算法,并设计出了相应的垃圾邮件过滤系统。实验证明与朴素贝叶斯方法相比,该算法极大地提高了分类准确率和查全率,具有应用推广的价值。 相似文献
17.
18.
中文文本分类中特征选择方法的比较 总被引:1,自引:0,他引:1
在自动文本分类系统中,特征选择是有效的降维数方法.通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法.根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差. 相似文献
19.
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 相似文献