首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
词典是自动分词基础,分词词典机制的优劣直接影响到中文分词速度和效率.本文在对中文编码体系和中文分词的算法进行研究的基础上,设计一种新的分词词典,以及基于该词典结构上的一种多次Hash自动分词算法.分析表明,该算法的时间复杂度有很大的改善.  相似文献   

2.
为了提高中文关键词提取的准确率和实用性,提出一种基于TF统计和语法分析相结合的中文关键词提取算法。该算法在对文本进行自动分词后,用TF统计和语法分析对每个词进行权重计算,然后根据计算结果提取文献的关键词。实验结果表明,该方法提高了关键词提取的精度。  相似文献   

3.
分词是中文信息处理的第一步,但由于预警信息的领域性较强,直接将现有分词方法应用于预警领域,算法效率和分词结果的准确性都急剧下降.采用神经网络领域纠正器框架,在通用粗分阶段引入权重信息,改进了双字哈希词典的构造方法,有效降低了最大匹配分词算法的迭代次数.在领域纠正阶段,构建合法预警人工分词语料,利用双向GRU模型设计神经网络预警领域纠正器,提高领域适应性.仿真证明了算法在有效提高分词速度的同时,取得了更加优秀的准确率、召回率和P值,能够满足预警信息快速、准确切分的需求.  相似文献   

4.
本文主要研究关键词提取算法,在分析可能影响关键词提取的词语各种属性并将其量化的基础上,提出并实现了一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。  相似文献   

5.
设计与实现了基于语句的汉英跨语言检索系统的关键词提取模块,关键词提取模块包括中文关键词提取和翻译转换两部分,此模块为后续的检索模块提供输入信息.其性能及效率对整个跨语言检索系统有重要影响。该文首先通过Dijkstra算法的改进方法求解分词的最短路径,实现了汉语检索语句的分词处理。然后以汉英双语词典为基础,对语法提取后的中文关键词实现了汉英翻译转换。最后提取的关键词供检索使用,实验结果表明用本文方法提取的关键词能满足检索要求。  相似文献   

6.
关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。  相似文献   

7.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高  相似文献   

8.
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。  相似文献   

9.
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。  相似文献   

10.
基于自动文本分类的关键词抽取算法   总被引:6,自引:2,他引:4       下载免费PDF全文
张虹 《计算机工程》2009,35(12):145-147
分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来,准确完成抽取关键词的工作,并具有一定的通用性。  相似文献   

11.
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。  相似文献   

12.
一种基于模板的快速网页文本自动抽取算法*   总被引:1,自引:1,他引:0  
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。  相似文献   

13.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

14.
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法.该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略.首次提出了用支持向量机对最后的抽取结果进行优化.实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率.  相似文献   

15.
为解决企业人工筛选电子简历效率低等问题,提出一种简历自动解析及推荐方案。对中文简历中的句子进行分词、词性标注等预处理,表示为特征向量,并利用SVM分类算法将所有句子划分成预定义的六个通用类别,包括个人基本信息、求职意向和工作经历等。利用个人基本信息的词法和语法特征,手工构建规则来实现姓名、性别及联系方式等关键信息抽取;对复杂的工作经历等文本用HMM模型进一步抽取详细信息,从而形成基于规则和统计相结合的简历文本信息抽取方法。考虑企业和求职者双方偏好,提出基于内容的互惠推荐算法(Content-Based Reciprocal Recommender algorithm,CBRR)。实验结果表明,整个方案能有效处理电子简历,提高简历筛选效率,辅助企业进行人才招聘。  相似文献   

16.
A coastal algorithm for fully automatic geometric correction of Advanced Very High Resolution Radiometer (AVHRR) images is presented. Inputs are the AVHRR image and updated ephemeris data and outputs are the georeference image and a cloud image mask. Its principal advantage and novelty is that it requires only manual control in the first stage of the process. Particularly, the detection of Ground Control Points (GCPs), usually rather time consuming, is performed with this method in an automatic way. The procedure only requires the previous existence of a coastal reference-windows database. To find the exact location of the GCPs, the routine searches the best match of these referencewindows with the image. The complete automation of the process makes the routine very fast, then allowing its operative application on a large volume of images. The process provides accuracies to within 1-1.5 AVHRR pixels.  相似文献   

17.
自动粒度选择的半结构化页面信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。  相似文献   

18.
对XML文档查询的常用方法有两种:一种是使用查询语言;另一种是使用关键字,而使用关键字查询XML文档比使用查询语言更为简单方便。给出了一种使用关键字查询XML文档的索引查找算法。该算法只需要扫描一次关键字对应的编码列,就可以找到需要的编码,提高了查询效率。实验表明该算法是可行的和有效的。  相似文献   

19.
In recent years, internet news has become one of the most important channels for information acquisition, as more and more people read news through internet connected computers, tablets, and smart phones, etc. Owing to the constantly reproduced news, the number of online media increases dramatically and the volume of news also expands rapidly. Consequently, obtaining primary information from the internet is of great interest. This paper presents a news-topic recommender system based on keywords extraction. It is shown that the proposed system is very effective in acquiring specific topics within any specific period of time.  相似文献   

20.
针对传统的并行方法难以对增强型植被指数(Enhanced Vegetation Index,EVI)提取链进行加速的问题,结合EVI提取算法的特点,依靠流水线在遥感影像多级连续处理方面的优势,提出一种基于流水线模型的EVI快速提取算法。为了解决相邻处理阶段吞吐率的差异问题,在流水线相邻节点间加入双缓冲队列来存储节点处理的中间结果,进一步提高EVI提取算法各步骤并行度。实验结果表明,本文提出的EVI快速提取算法的提取效率要高于传统的EVI多线程提取算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号