期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

自动术语抽取研究综述 总被引：1，自引：0，他引：1

张雪孙宏宇辛东兴李翠平陈红《软件学报》2020,31(7):2062-2094

自动术语抽取是从文本集合中自动抽取领域相关的词或短语，是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是，随着近年来对非结构化文本大数据研究的兴起，使得自动术语抽取技术进一步得到学者的广泛关注，取得了较为丰富的研究成果.本文以术语排序算法为主线，对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述：首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕“浅层语言分析”中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类，系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析，并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 相似文献

2.

基于双层级联文本分类的简历信息抽取 总被引：1，自引：1，他引：1

于琨管刚周明王煦法蔡庆生《中文信息学报》2006,20(1):61-68

本文提出了一种基于双层级联文本分类的方法,用于简历信息的自动抽取。本方法将简历文本分解为文本块和文本串,并将简历中包含的信息分解为概要信息与详细信息。首先对简历文本中的文本块进行切分与分类,抽取出概要信息,然后选择可能包含详细信息的文本块,将其切分为文本串,再通过对文本串的分类抽取出详细信息。对1200份中文简历的实验结果表明,本方法适用于简历信息的自动抽取和管理。相似文献

3.

基于Web的文本挖掘技术研究 总被引：2，自引：0，他引：2

许高建《计算机技术与发展》2007,17(6):187-190

Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。相似文献

4.

基于XSLT的PDF信息抽取技术的研究

宋艳娟李金铭陈振标《计算机与数字工程》2008,36(5):156-159

以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统.首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取.测试结果表明,系统的抽取效果良好,并具有较强的扩展性. 相似文献

5.

基于Web的文本挖掘技术研究

许高建《微机发展》2007,17(6):187-190

Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。相似文献

6.

融合指针网络的新闻文本摘要模型

蔡中祥孙建伟《小型微型计算机系统》2021,(3):462-466

本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足(1)从更长的文本序列提取特征;(2)保留关键的党建信息.针对党建新闻比普通文本摘要任务面临更长文本序列问题,论文使用Transformer模型在解码阶段提取多层次全局文本特征.针对党建新闻标题生成过程中需要保留关键的党建信息,论文引入指针生成网络模型的复制机制在新闻标题生成时可以直接从新闻文本中复制关键词信息.实验采用ROUGE值作为评测指标,结果表明本文提出的Tri-PCN模型在党建新闻领域自动文本摘要任务上效果明显优于基准模型,比其他模型具有更好的效果. 相似文献

7.

开放式信息抽取研究进展

杨博蔡东风杨华《中文信息学报》2014,28(4):1-11

从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。相似文献

8.

Web文本挖掘系统及其关键技术研究 总被引：10，自引：0，他引：10

钟艳花余伟红余永权《计算机工程与应用》2003,39(34):167-169,196

随着网络信息的迅猛发展,信息量日益增加,怎样从海量的Internet上获取有用信息,WEB文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程,论文对文本中所涉及的关键技术,包括K-最近邻参照法模型、基于隐马尔科夫模型(HMM)的信息抽取、机器学习方法,进行了研究和探讨,并且给出了基于信息抽取的文本挖掘系统的设计实现和下一步的研究重点。相似文献

9.

文本元数据自动抽取算法的研究

商杰陈德华薛莉芳《计算机应用与软件》2011,28(12)

提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。相似文献

10.

基于HMM的Web信息抽取算法的研究与应用

祝伟华卢熠刘斌斌《计算机科学》2010,37(2):203-206

随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。相似文献

11.

Exploiting information extraction techniques for automatic semantic video indexing with an application to Turkish news videos

Dilek Küçük Adnan Yazıcı 《Knowledge》2011,24(6):844-857

This paper targets at the problem of automatic semantic indexing of news videos by presenting a video annotation and retrieval system which is able to perform automatic semantic annotation of news video archives and provide access to the archives via these annotations. The presented system relies on the video texts as the information source and exploits several information extraction techniques on these texts to arrive at representative semantic information regarding the underlying videos. These techniques include named entity recognition, person entity extraction, coreference resolution, and semantic event extraction. Apart from the information extraction components, the proposed system also encompasses modules for news story segmentation, text extraction, and video retrieval along with a news video database to make it a full-fledged system to be employed in practical settings. The proposed system is a generic one employing a wide range of techniques to automate the semantic video indexing process and to bridge the semantic gap between what can be automatically extracted from videos and what people perceive as the video semantics. Based on the proposed system, a novel automatic semantic annotation and retrieval system is built for Turkish and evaluated on a broadcast news video collection, providing evidence for its feasibility and convenience for news videos with a satisfactory overall performance. 相似文献

12.

Acquisition of linguistic patterns for knowledge-based informationextraction

Jun-Tae Kim Moldovan D.I. 《Knowledge and Data Engineering, IEEE Transactions on》1995,7(5):713-724

The paper presents an automatic acquisition of linguistic patterns that can be used for knowledge based information extraction from texts. In knowledge based information extraction, linguistic patterns play a central role in the recognition and classification of input texts. Although the knowledge based approach has been proved effective for information extraction on limited domains, there are difficulties in construction of a large number of domain specific linguistic patterns. Manual creation of patterns is time consuming and error prone, even for a small application domain. To solve the scalability and the portability problem, an automatic acquisition of patterns must be provided. We present the PALKA (Parallel Automatic Linguistic Knowledge Acquisition) system that acquires linguistic patterns from a set of domain specific training texts and their desired outputs. A specialized representation of patterns called FP structures has been defined. Patterns are constructed in the form of FP structures from training texts, and the acquired patterns are tuned further through the generalization of semantic constraints. Inductive learning mechanism is applied in the generalization step. The PALKA system has been used to generate patterns for our information extraction system developed for the fourth Message Understanding Conference (MUC-4) 相似文献

13.

基于句子相似度的论文抄袭检测模型研究

下载免费PDF全文

冷强奎秦玉平王春立《计算机工程与应用》2011,47(24):199-201

提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。相似文献

14.

The frame-based module of the SUISEKI information extraction system

Blaschke C. Valencia A. 《Intelligent Systems, IEEE》2002,17(2):14-20

SUISEKI, an information extraction system, uses morphological, syntactical, and contextual information to detect gene and protein names and interactions in scientific texts. This article describes the system's rules (called frames) used to detect and analyze interaction networks described in the molecular biology literature. 相似文献

15.

树和模板的文献信息提取方法研究* 总被引：1，自引：0，他引：1

李文立王乐超宋春雷《计算机应用研究》2010,27(12):4615-4617

教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。相似文献

16.

Modelling Space and Time in Narratives about Restaurants

Mueller Erik T. 《Literary and Linguistic Computing》2007,22(1):67-84

This study investigated the automatic modelling of space andtime in narratives involving dining in a restaurant. We builta program that (1) uses information extraction techniques toconvert narrative texts into templates containing key informationabout the dining episodes discussed in the narratives, (2) constructscommonsense reasoning problems from the templates, (3) usescommonsense reasoning and a commonsense knowledge base to buildmodels of the dining episodes, and (4) generates and answersquestions by consulting the models. We describe the programand present the results of running it on a corpus of web textsand American literature. 相似文献

17.

多层文本分类器的研究及应用

袁路妍顾国强鲍世方《计算机应用与软件》2012,(3):139-140,201

以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。相似文献

18.

面向领域开源文本的因果知识提取

下载免费PDF全文

李悦群毛文吉王飞跃《计算机工程与科学》2010,32(5):100-104

因果知识是一类十分常见的知识类型,也是领域知识库的重要组成部分。基于互联网信息资源自动提取因果相关知识,对社会计算系统的建模和智能系统的建造具有十分重要的意义。本文面向开源中文文本信息,研究建立并实现一种自动提取因果知识的方法,以有效支持网上知识工程和安全领域的因果情报自动获取与因果知识库的构建。相似文献

19.

基于序列标注的漏洞信息结构化抽取方法

陈钧衍陶非凡张源《计算机应用与软件》2020,37(2):266-271,276

从漏洞信息当中抽取结构化信息对于安全研究而言有重要意义。安全研究者常需要在大规模的CVE数据中按特定要求进行筛选,或对漏洞进行自动化的分析测试。然而现有的CVE数据库中只包含了非结构化的文本描述和并不完备的辅助信息。从描述文本抽取结构化的信息能帮助研究者更好地组织与分析CVE。总结漏洞描述包含的七种核心要素,为结构化抽取建立模型,并将信息抽取转换为一个序列标注模型,构建数据集对其进行训练。实验表明,该模型能够以较高的准确率从CVE文本中抽取出各类关键信息。相似文献

20.

Information-Theoretic method for classification of texts

B. Ya. Ryabko A. E. Gus’kov I. V. Selivanova 《Problems of Information Transmission》2017,53(3):294-304

We consider a method for automatic (i.e., unmanned) text classification based on methods of universal source coding (or “data compression”). We show that under certain restrictions the proposed method is consistent, i.e., the classification error tends to zero with increasing text lengths. As an example of practical use of the method we consider the classification problem for scientific texts (research papers, books, etc.). The proposed method is experimentally shown to be highly efficient. 相似文献