共查询到20条相似文献,搜索用时 78 毫秒
1.
词典是自动分词基础,分词词典机制的优劣直接影响到中文分词速度和效率.本文在对中文编码体系和中文分词的算法进行研究的基础上,设计一种新的分词词典,以及基于该词典结构上的一种多次Hash自动分词算法.分析表明,该算法的时间复杂度有很大的改善. 相似文献
2.
《计算机应用与软件》2014,(1)
为了提高中文关键词提取的准确率和实用性,提出一种基于TF统计和语法分析相结合的中文关键词提取算法。该算法在对文本进行自动分词后,用TF统计和语法分析对每个词进行权重计算,然后根据计算结果提取文献的关键词。实验结果表明,该方法提高了关键词提取的精度。 相似文献
3.
4.
本文主要研究关键词提取算法,在分析可能影响关键词提取的词语各种属性并将其量化的基础上,提出并实现了一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。 相似文献
5.
设计与实现了基于语句的汉英跨语言检索系统的关键词提取模块,关键词提取模块包括中文关键词提取和翻译转换两部分,此模块为后续的检索模块提供输入信息.其性能及效率对整个跨语言检索系统有重要影响。该文首先通过Dijkstra算法的改进方法求解分词的最短路径,实现了汉语检索语句的分词处理。然后以汉英双语词典为基础,对语法提取后的中文关键词实现了汉英翻译转换。最后提取的关键词供检索使用,实验结果表明用本文方法提取的关键词能满足检索要求。 相似文献
6.
关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。 相似文献
7.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高 相似文献
8.
郭屹 《数字社区&智能家居》2008,(3):1240-1246
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献
9.
GUO Yi 《数字社区&智能家居》2008,(7)
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献
10.
分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来,准确完成抽取关键词的工作,并具有一定的通用性。 相似文献
11.
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。 相似文献
12.
13.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。 相似文献
14.
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法.该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略.首次提出了用支持向量机对最后的抽取结果进行优化.实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率. 相似文献
15.
为解决企业人工筛选电子简历效率低等问题,提出一种简历自动解析及推荐方案。对中文简历中的句子进行分词、词性标注等预处理,表示为特征向量,并利用SVM分类算法将所有句子划分成预定义的六个通用类别,包括个人基本信息、求职意向和工作经历等。利用个人基本信息的词法和语法特征,手工构建规则来实现姓名、性别及联系方式等关键信息抽取;对复杂的工作经历等文本用HMM模型进一步抽取详细信息,从而形成基于规则和统计相结合的简历文本信息抽取方法。考虑企业和求职者双方偏好,提出基于内容的互惠推荐算法(Content-Based Reciprocal Recommender algorithm,CBRR)。实验结果表明,整个方案能有效处理电子简历,提高简历筛选效率,辅助企业进行人才招聘。 相似文献
16.
M. Parada A. Millan A. Lobato A. Hermosilla 《International journal of remote sensing》2013,34(11):2307-2312
A coastal algorithm for fully automatic geometric correction of Advanced Very High Resolution Radiometer (AVHRR) images is presented. Inputs are the AVHRR image and updated ephemeris data and outputs are the georeference image and a cloud image mask. Its principal advantage and novelty is that it requires only manual control in the first stage of the process. Particularly, the detection of Ground Control Points (GCPs), usually rather time consuming, is performed with this method in an automatic way. The procedure only requires the previous existence of a coastal reference-windows database. To find the exact location of the GCPs, the routine searches the best match of these referencewindows with the image. The complete automation of the process makes the routine very fast, then allowing its operative application on a large volume of images. The process provides accuracies to within 1-1.5 AVHRR pixels. 相似文献
17.
半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。 相似文献
18.
对XML文档查询的常用方法有两种:一种是使用查询语言;另一种是使用关键字,而使用关键字查询XML文档比使用查询语言更为简单方便。给出了一种使用关键字查询XML文档的索引查找算法。该算法只需要扫描一次关键字对应的编码列,就可以找到需要的编码,提高了查询效率。实验表明该算法是可行的和有效的。 相似文献
19.
Zihuan Wang Kyusup Hahn Youngsam Kim Sanghyup Song Jong-Mo Seo 《Multimedia Tools and Applications》2018,77(4):4339-4353
In recent years, internet news has become one of the most important channels for information acquisition, as more and more people read news through internet connected computers, tablets, and smart phones, etc. Owing to the constantly reproduced news, the number of online media increases dramatically and the volume of news also expands rapidly. Consequently, obtaining primary information from the internet is of great interest. This paper presents a news-topic recommender system based on keywords extraction. It is shown that the proposed system is very effective in acquiring specific topics within any specific period of time. 相似文献