共查询到20条相似文献,搜索用时 109 毫秒
1.
概率潜在语义检索模型使用统计的方法建立“文档—潜在语义一词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。 相似文献
2.
文中首先讨论了书面汉语切分研究的问题,然后从一般性研究出发,提出了全切分算法中可能的并发检索。并针对全切分分词算法进行了研究,给出了全切分分词方法算法中的并发检索模型。希望本文对于全切分算法中并发检索模型的讨论,对深入研究书面汉语全切分分词的问题和实现具有实际意义。 相似文献
3.
中文分词技术及其应用初探 总被引:3,自引:0,他引:3
余战秋 《数字社区&智能家居》2004,(32)
本文结合当前中文分词技术在中文信息处理等领域的广泛应用,分析了中文分词技术的重要性,对三类基本分词算法进行了介绍并讨论了各自的特点,提出了中文分词技术面临的难题及对其未来的展望。 相似文献
4.
余战秋 《数字社区&智能家居》2004,(11):81-83
本文结合当前中文分词技术在中文信息处理等领域的广泛应用,分析了中文分词技术的重要性,对三类基本分词算法进行了介绍并讨论了各自的特点,提出了中文分词技术面临的难题及对其未来的展望. 相似文献
5.
基于中文分词的OWL—S/UDDI语义Web服务检索模型 总被引:2,自引:0,他引:2
目前中文搜索引擎尚不能进行语义检索,经OWL-S语义扩展后的语义Web服务检索也未充分考虑中文词语之间无空格的特点.基于语义Web服务技术与中文分词技术,提出基于中文分词的OWL-S/UDDI语义Web服务检索模型.该模型对中文检索请求语句进行中文分词并附加语义,所生成的服务请求OWL-S文档与语义扩展UDDI中的OWL-S服务描述进行匹配,进而实现Web服务的动态查找与组合.实验结果表明,语义Web服务检索可提高Web服务发现的质量. 相似文献
6.
语义Web服务的OWL—S描述及其应用 总被引:1,自引:0,他引:1
实现语义Web服务的关键是对Web服务进行语义描述及其在语义检索模型中的应用.国外学术界提出的语义Web服务的OWL-S框架并没有充分考虑检索请求的中西语言表达的差异,因此该框架的实际应用必须对中文查询请求进行中文分词处理.语义Web服务的OWL-S检索模型,首先对中文检索请求语句进行中文分词,然后通过本体进行语义标注生成Web服务请求的OWL-S文档,继而在OWL-S语义扩展后的UDDI中实施语义检索匹配.该模型在中文分词的基础上,结合语义Web服务技术实现Web服务的动态查找与组合,可提高Web服务的查全率和查准率. 相似文献
7.
张严月 《电脑与微电子技术》2012,(15):13-17
针对传统金融分析报告分类效率低的问题,提出基于支持向量机的中文文本分类技术来对金融分析报告进行分类,该分类技术采用中科院提供的中文分词系统以及使用两种特征选择算法相结合进行分词和特征选择,并且提出针对TF/IDF权重计算的改进方法。该分类技术选择支持向量机作为分类算法,通过开源的支持向量机对样本进行训练和测试。实验结果表明,采用中文文本分类技术对金融分析报告按照行业进行分类能够满足金融机构的使用需求。 相似文献
8.
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。 相似文献
9.
首先详细介绍了一种建构在PC Windows平台上的轻量级中文搜索引擎系统模型的总体设计,然后采用基于多线程技术的广度优先遍历法及最大匹配法和最小匹配法相结合的中文分词法等技术进行了各个主要功能模块的具体设计和实现,对模型进行了基于多线程的网络爬虫、用户接口等测试。测试实验结果表明:构建并实现的轻量级中文搜索引擎系统模型能较好地实现一个简单中文搜索引擎所具有的基本功能,系统界面简单实用,具有较高的资源检索率并能够保证检索结果的准确性。 相似文献
10.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。 相似文献
11.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。 相似文献
12.
李艳欣 《数字社区&智能家居》2007,2(8):435-436
针对目前最常用的分词算法——最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构。它支持首字Hash和标准二分查找,而且不限制词条的长度。然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程。 相似文献
13.
农业搜索引擎中文分词工具对比 总被引:1,自引:0,他引:1
中文分词是中文语言处理技术中最关键的部分,被作为其中最重要的预处理手段广泛应用.本文主要分析和比较了ASPSeek、ICTCLAS、Paoding、MMseg、IK与JE六种分词工具对农业搜索引擎的影响.结果表明:在农业搜索引擎的应用效果中,分词准确性最优的是ICTCLAS分词工具,而F1测度最高的是JE分词工具. 相似文献
14.
In the commodity search system based on Solr full-text search technology, this paper uses the third-party Chinese word
breaker on the Chinese search information entered by the user segmentation, inquiry commodity index database based on segmenta-
tion results, but it ignores the case which the user enters pinyin to search. By analyzing the grammatical structure of Chinese pinyin,
the pinyin word segmentation methods are designed, using a proprietary lexicon of e-commerce to construct a Chinese pinyin li-
brary, and implementing a commodity search system based onAjax pinyin input prompts to improve the deficiencies in the search in-
put method. 相似文献
15.
中文交互式网络搜索引擎及其自学习能力 总被引:8,自引:1,他引:8
论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。 相似文献
16.
一种改进的快速分词算法 总被引:38,自引:0,他引:38
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。 相似文献
17.
针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。 相似文献
18.
基于学术社区的学术搜索引擎设计 总被引:1,自引:1,他引:0
学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,将分散在不同位置、提供不同内容的学术信息组合为一个整体,有效地解决了文献提取问题。针对普通中文分词组件在对姓名进行分词时准确率较低的问题,设计了一个专门针对姓名进行分词的高效的算法。在开源框架Nutch和HBase的基础上,实现了一个学术搜索引擎,并在实验中验证了设计的有效性。 相似文献
19.