首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
信息检索是语料库提供的基本服务之一。随着语料库在汉语词汇学和词典学研究领域中的重要性不断增强,更为符合用户需求的新型语料库检索方式也日益得到重视。现有的中文语料库检索方法未充分考虑汉字编码、繁简体字和异体字等特殊性质,也未充分贴近中文语料库的用户需求。针对中文语料库检索中存在的不足,提出了一类简化的新型检索表达式,仅需一个元字符即可满足典型的检索需求,具有表达直观、易于应用和逻辑清晰的特点,随后给出了新型检索表达式到正则表达式的翻译策略和实现方法,并在中古汉语词汇研究和《汉语大词典》研究中开展了实际应用。  相似文献   

2.
余一骄  刘芹 《计算机科学》2014,41(4):263-268
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。  相似文献   

3.
中文数据排序与快速检索方法研究   总被引:3,自引:0,他引:3  
通过对GBK编码、全拼输入法、常用汉字拼音和SQLServer2000排序音等的研究,制定出适用的选取汉字拼音的方案,进而编程获得汉字拼音,以实现中文信息的快速检索。  相似文献   

4.
大规模现代汉语标注语料库的加工规范   总被引:14,自引:5,他引:9  
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。 规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。 要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。  相似文献   

5.
余一骄  尹燕飞  刘芹 《计算机科学》2014,41(10):276-282
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。  相似文献   

6.
阅读理解问答系统指的是能够自动分析一个自然语言文章,并且根据文中的信息为每个问题生成一个答案的系统,具有很高的研究价值。然而,缺乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主要障碍。本文对于中文阅读理解语料库的构建过程进行了详细的介绍,包括语料选材、编写问句,标注答案句、语料加工和评测机制,尤其是基于汉语框架语义知识库对语料进行了框架元素、短语类型和句法功能三个层面标注的深加工技术。  相似文献   

7.
古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节.当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融...  相似文献   

8.
基于实例的中文分词-词性标注方法的应用研究   总被引:1,自引:0,他引:1  
通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训练语料的标注保持了很好的一致性.这使得EBST系统非常适合于在基于实例的机器翻译(Example-Based Machine Translation,EBMT)系统中的应用.本文给出了EBST在EBMT系统中的应用实例及相应的实验结果.  相似文献   

9.
10.
索引软件的工作原理、主要功能以及索引软件在计算机语料库中的应用,包括在语言学、英语教学研究中的应用。  相似文献   

11.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

12.
中文信息处理是一个未来具有广阔前景的科研领域。从中文信息处理的研究内容、主流技术等几个方面浅谈了对计算机中文信息处理的认识。  相似文献   

13.
潜语义标与汉语信息检索研究   总被引:4,自引:0,他引:4  
1 引言典型的传统信息检索系统,如布尔逻辑模型、向量空间模型,根据用户提供的查询条件,依据关键词的匹配或向量空间的相似系数,返回相关查询结果。对于相同的概念,使用不同的词汇表示,如同义词或近义词,或同一词汇在不同的语言环境中拥有不同的语义,即一词多义,因此基于语词匹配的查询方法,其准确性和完整性都不够理想。尽管同义词词典的使用,在一定程度上,提高了信息检索的查全率(recall),但却降低了查询的精度,且在实际应用中,需要不断更新同义词库,才能满足系统不断变化的要求。  相似文献   

14.
As historical Chinese calligraphy works are being digitized, the problem of retrieval becomes a new challenge. But, currently no OCR technique can convert calligraphy character images into text, nor can the existing Handwriting Character Recognition approach does not work for it. This paper proposes a novel approach to efficiently retrieving Chinese calligraphy characters on the basis of similarity: calligraphy character image is represented by a collection of discriminative features, and high retrieval speed with reasonable effectiveness is achieved. First, calligraphy characters that have no possibility similar to the query are filtered out step by step by comparing the character complexity, stroke density and stroke protrusion. Then, similar calligraphy characters axe retrieved and ranked according to their matching cost produced by approximate shape match. In order to speed up the retrieval, we employed high dimensional data structure - PK-tree. Finally, the efficiency of the algorithm is demonstrated by a preliminary experiment with 3012 calligraphy character images.  相似文献   

15.
基于内容的视频检索关键技术   总被引:7,自引:0,他引:7  
基于内容的视频检索一直是计算机科学研究的难点问题,该文提出了它的研究问题、检索策略、检索种类和评价指标,指出了存在的问题及解决的方法。这些策略和方法作为北大方正媒体资产管理系统的核心功能,运用于电视台大型视频数据库的检索,取得了比较好的效果。  相似文献   

16.
传统的基于关键字的信息检索,由于忽视了关键词本身所含的语义信息,故只能得到较低的查全率和查准率。而源于知识工程和人工智能领域的本体理论和技术,能够很好地处理自然语言理解问题和具有基于语义的推理机制,因此成为改进传统信息检索方式的良好工具。与传统的检索技术相比,它能提高检索的精度和覆盖率,减少了不相关的返回结果。文中将对语义检索系统中所涉及到的语义检索预处理及查询语义扩展等关键技术进行分析研究,为语义检索系统的顺利实施奠定了良好的理论与实践基础。  相似文献   

17.
根据形状相似性的书法内容检索   总被引:4,自引:1,他引:4  
提出了一种根据形状相似性来检索书法字的算法:将扫描的书法作品先切分成单个书法字,并提取轮廓特征;接着由形状相似性算法计算相似度,然后按相似程度大小显示同一字不同的书法风格.实验证明,该算法具有很好的效果.  相似文献   

18.
用于信息检索的古文统计分析   总被引:1,自引:1,他引:0  
根据中文古籍信息检索技术的需求,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上,对三千五百万字的中文古籍语料进行了统计分析,总结出在古汉语中,汉字在高频字上集中分布而在低频字上相当散布,且总体变化成指数递减的规律,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较,得出相应结论,并按照使用频度,把古汉语的汉字进行了分类。最后,这些统计学习到的知识,在中文古籍信息检索系统中得到了实际的应用。  相似文献   

19.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号