首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
在信息检索中如何有效应用自然语言处理是二十一新世纪以来我国关注的一个重要问题,需要有关部门及研究者引起高度重视以及广泛关注.本文主要介绍了基本自然语言处理技术与高级自然语言处理技术在信息检索中的具体应用,进而提出一些建设性意见,为提高自然语言处理的应用价值贡献微薄之力.  相似文献   

2.
3.
自然语言处理在信息检索中的应用综述   总被引:5,自引:0,他引:5  
在信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的结果大多和研究者们最初的设想相反,自然语言处理在大多数情况下没有改进信息检索效果,甚至反而起了负面作用。即便有一些帮助,也往往是微小的,远远不如自然语言处理所需要的计算消耗那么大。研究者们对这些现象进行了分析,认为: 自然语言处理更适合于应用在需要精确结果的任务中,例如问答系统、信息抽取等;自然语言处理需要针对信息检索进行优化才可能发挥积极作用。最新的一些进展(例如在语言模型中加入自然语言处理)在一定程度上印证了这一结论。  相似文献   

4.
今天,随着中国城市化的迅速发展,中国的建筑业不仅有了更大的发展,也出现了新的机遇,建筑业也在不断发展。因此,在当今的建筑业,建筑效率和实施成本越来越受到重视。因此,在建筑工程中采用经济高效的建筑管理技术是每个建筑公司的一个关切问题。装配式施工技术特点更适合现阶段工程施工的发展,具有广阔的应用和研究前景。本文概述了装配式建筑施工技术的施工管理,为今后的研究提供了参考。  相似文献   

5.
自然语言处理预训练技术综述   总被引:1,自引:0,他引:1  
在目前已发表的自然语言处理预训练技术综述中,大多数文章仅介绍神经网络预训练技术或者极简单介绍传统预训练技术,存在人为割裂自然语言预训练发展历程.为此,以自然语言预训练发展历程为主线,从以下四方面展开工作:首先,依据预训练技术更新路线,介绍了传统自然语言预训练技术与神经网络预训练技术,并对相关技术特点进行分析、比较,从中...  相似文献   

6.
徐琳  赵铁军 《软件学报》2005,16(10):1853-1858
对国家自然科学基金近年来在自然语言处理领域资助的已结题项目进行了综述,内容涉及中文信息处理技术项目总结、自然语言处理应用技术项目总结以及少数民族语言信息处理技术项目总结.  相似文献   

7.
在信息技术迅速发展的今天,智能文档管理系统成为了院校和企业高效处理文档信息的关键工具。多模态自然语言处理(NLP)技术,通过结合文本、图像、音频等多种数据类型,提供了一种全面理解和处理文档的方法。首先,介绍了多模态自然语言处理技术的基本概念和智能文档管理的需求。然后,详细阐述多模态技术在文档管理中的具体应用,包括多模态数据整合的技术框架、智能文档自动分类、文档检索系统优化,以及内容摘要的生成方法。最后,通过技术应用测试展示了这些方法的实际效果和潜在价值。  相似文献   

8.
自然语言处理技术在药物专利检索中的应用研究   总被引:2,自引:2,他引:0  
本文研究了自然语言处理技术在药物专利检索中的应用,开发出一套翻译软件,能够将药物专利中对族性变量的文本描述半自动化地转化为符合规则的GSCCT格式,为准确、高效地建立药物专利检索数据库打下了基础。  相似文献   

9.
中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词是不可或缺的环节。自上个世纪末,由于互联网在中国的兴起,更对中文信息处理提出要求,即在语义层面上处理中文,这使得中文分词算法的研究显得更加困难,中文分词技术的发展显得更为重要。  相似文献   

10.
为深层挖掘电力数据文本蕴藏的信息,本文基于自然语言处理技术分析了电力文本挖掘与分类流程,通过分词技术分析文本内容,提取文本特征,并构建分类器模型以自动分类文本,最后以实例分析了电力文本挖掘与分类的实际效果.结果表明,中文电力数据文本挖掘准确度较高,适用范围广泛,方式方法灵活,可及时准确挖掘隐藏的关键信息,为分析客户用电...  相似文献   

11.
层次关系是中文文本概念间存在的最为重要的关系之一,对层次关系的正确判定是进行领域本体自动构建、文本数据挖掘等信息处理的基础研究内容。先将概念间可能存在的候选层次关系罗列出来,构建词性序列语义余弦相似度和关系词语余弦相似度混合的核函数分类器,将概念间层次关系的挖掘问题转化为分类问题;再通过对文本数据进行模板标注来训练分类器;最后输入预处理后的中文文本,使用核函数分类器对候选层次关系进行判定。以空军武器装备领域的中文文本为测试数据,通过实验表明,该方法简单可靠,具有较好的正确率和召回率。  相似文献   

12.
CM-Builder: A Natural Language-Based CASE Tool for Object-Oriented Analysis   总被引:3,自引:0,他引:3  
Graphical CASE (Computer Aided Software Engineering) tools provide considerable help in documenting the output of the Analysis and Design stages of software development and can assist in detecting incompleteness and inconsistency in an analysis. However, these tools do not contribute to the initial, difficult stage of the analysis process, that of identifying the object classes, attributes and relationships used to model the problem domain. This paper describes an NL-Based CASE tool called Class Model Builder (CM-Builder) which aims at supporting this aspect of the Analysis stage of software development in an Object-Oriented framework. CM-Builder uses robust Natural Language Processing techniques to analyse software requirements texts written in English and constructs, either automatically or interactively with an analyst, an initial UML Class Model representing the object classes mentioned in the text and the relationships among them. The initial model can be directly input to a graphical CASE tool for further refinement by a human analyst. CM-Builder has been quantitatively evaluated in blind trials against a collection of unseen software requirements texts and we present the results of this evaluation, together with the evaluation method. The results are very encouraging and demonstrate that tools such as CM-Builder have the potential to play an important role in the software development process.  相似文献   

13.
    
We approached the problems of event detection, argument identification, and negation and speculation detection in the BioNLP’09 information extraction challenge through concept recognition and analysis. Our methodology involved using the OpenDMAP semantic parser with manually written rules. The original OpenDMAP system was updated for this challenge with a broad ontology defined for the events of interest, new linguistic patterns for those events, and specialized coordination handling. We achieved state‐of‐the‐art precision for two of the three tasks, scoring the highest of 24 teams at precision of 71.81 on Task 1 and the highest of 6 teams at precision of 70.97 on Task 2. We provide a detailed analysis of the training data and show that a number of trigger words were ambiguous as to event type, even when their arguments are constrained by semantic class. The data is also shown to have a number of missing annotations. Analysis of a sampling of the comparatively small number of false positives returned by our system shows that major causes of this type of error were failing to recognize second themes in two‐theme events, failing to recognize events when they were the arguments to other events, failure to recognize nontheme arguments, and sentence segmentation errors. We show that specifically handling coordination had a small but important impact on the overall performance of the system. The OpenDMAP system and the rule set are available at http://bionlp.sourceforge.net .  相似文献   

14.
本文主要结合浙江湖州电力业务需求,旨在打破客户对用电诉求存在的盲区,从而提高对用户用电需求的管理程度,实现热点投诉业务工单的原因挖掘。为了更好的深入挖掘投诉工单背后所蕴含的信息,研究基于自然语言处理技术出发,对电力客户投诉工单进行深入文本挖掘,利用隐马尔可夫模型等分词技术分析投诉工单中的受理内容,进行词频统计,通过TF-IDF算法计算关键词重要性权重值,提取权重值大的关键词频作为客户投诉文本挖掘的最终结果,并运用词云分析技术进行分析结果可视化展示;通过文本分类分析,构建文本分类器模型,实现对 “热点词频”在不同业务中的分布情况的研究,并根据结果开展相应改进措施。把控住当下电力客户投诉的主要问题,针对性的为不同类型的电力客户提供差异化的服务策略,从而提高客户满意度和忠诚度。专题的推广应用,能够很好的提升客服部门的工作效率,落在实处的为客户解决难题。  相似文献   

15.
This paper presents the preparation, results and analysis of the BioNLP’09 shared task on event extraction, organized to address the automatic extraction of fine‐grained information from the scientific literature on molecular biology. A representation of this information was defined taking into account both the biological and computational requirements of the task, and corpus resources manually annotated by domain experts provided to task participants. To create a basis for further progress, emphasis was placed on providing fine‐grained evaluation that isolates different subtasks and allows the analysis of different aspects of the results through various evaluation criteria. In introducing this new task to the community, we made an effort to reduce the cost of participation by making common natural language processing tools, data, and evaluation methods easily accessible. The task received community‐wide participation, establishing the state‐of‐the‐art performance at fine‐grained event extraction as well as allowing the identification of remaining challenges and suggesting directions for future improvements. All the resources and results of the shared task are publicly available and an online evaluation on blind test data accessible at http://www‐tsujii.is.s.u‐tokyo.ac.jp/GENIA/SharedTask/ .  相似文献   

16.
一种混合的中文文本校对方法   总被引:15,自引:3,他引:12       下载免费PDF全文
本文以模式匹配的方法和3 元文法分析的方法为基础,结合语法属性标注和分析的方法,提出了一种混合的中文文本校对方法,其结果优于任何一种方法的单独应用。本文描述了这种方法并将它和其它两种方法进行了分析对比。  相似文献   

17.
文本挖掘是数据挖掘的一个分支学科,涵盖多种技术,其中自然语言处理技术是文本挖掘的核心工具之一,旨在帮助用户从海量数据中获取有用的信息。近年来,预训练模型对自然语言处理的研究和发展有重要的推动作用,预训练模型的微调方法也成为重要的研究领域。根据近年来预训练模型微调方法的相关文献,选择目前主流的Adapter与Prompt微调方法进行介绍。对自然语言处理的发展脉络进行简要梳理,分析目前预训练模型微调存在的问题与不足;介绍Adapter与Prompt两类微调方法,对两个研究方向中经典方法进行介绍,并从优缺点和性能等方面进行详细分析;进行总结归纳,阐述目前预训练模型的微调方法存在的局限性并讨论未来发展方向。  相似文献   

18.
基于多重启发式规则的中文文本特征值提取方法   总被引:2,自引:0,他引:2  
本文根据中文文本的特点,以一种新的同义概念来替代传统的词为单位,并给出了同义概念之间权值的全新计算方法。我们不仅考虑了文本中词汇概率信息,还结合文本语义等多方面来提取文本特征值,从而提出了一种基于多重启发式规则的中文文本特征值提取方法,并给出了特征值提取模型和算法。通过与传统特征值提取方法的比较实验,证证明本文中提出的特征值提取方法能有效地提高文本分类正确率,并达到了有效降低特征向量维数的目的。  相似文献   

19.
    
With the surge of searching and reading online health-based articles, maintaining the quality and credibility of online health-based articles has become crucial. The circulation of deceptive health information on numerous social media sites can mislead people and can potentially cause adverse effects on people's health. To address these problems, this work uses deep learning approaches to automate the assessment and scoring of online health-related articles' credibility. The paper proposed an Attention-based Recurrent Multichannel Convolutional Neural Network (ARMCNN) model. The proposed model incorporates a BiLSTM layer, a multichannel CNN layer, and an attention layer and predicts the credibility of online health information. To perform a reliable evaluation of the presented model, we utilize the health articles reviewed by the experts, compiled in a labeled dataset termed “Pubhealth,” which consists of thousands of health articles. The results are evaluated using five performance measures, accuracy, precision, recall, f1-score, and area under the ROC curve (AUC). Furthermore, we extensively compared the proposed model with different deep learning and machine learning models such as Long short-term memory (LSTM), Bidirectional LSTM, CNN (Convolutional neural network), and RNN-CNN. The experimental results showed that the proposed model produced state-of-the-art performance on the used dataset by achieving an accuracy of 0.88, precision of 0.92, recall of 0.87, f1-score of 0.90, and AUC of 0.94. Further, the proposed model yielded better performance than other benchmarked techniques for the credibility assessment of online health articles.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号