排序方式: 共有95条查询结果,搜索用时 15 毫秒
81.
词位标注汉语分词中特征模板定量研究 总被引:1,自引:0,他引:1
基于字的词位标注的方法能极大地提高汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,词位标注汉语分词中特征模板的设定至关重要,为了更加准确地设定特征模板,从多个角度进行了定量分析,并在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,得到如下结论:同等条件下,训练出的模型大小与扩展出的特征数成正比;不同的单字特征模板在同一语料中扩展出的特征数基本相同,单字特征模板对分词性能的贡献要比双字特征模板小得多;增加B特征模板之后,训练时间大大增加,模型大小基本不变,对分词性能都是正增长. 相似文献
82.
当分词算法优化到接近极限时,分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度。因此,如何快速、省力、自动化地构建具有较完备的分词语料库是一个亟待解决的问题。该文对用户输入过程中留下的大量可用且珍贵的自然分词信息进行了探索和研究,为自动构建分词语料库提供了一种新的观点。前人的研究中,对用户在输入过程中留下的自然分词标记信息并没有关注,而该文通过实验验证了这些分词标记信息确实可以用于构建分词语料库,并且具有相当好的效果。其中经过甄别优秀用户在输入时留下的分词标记十分接近标准的分词结果。该文使用分类模型结合投票机制的方法找到三个此类优秀用户,获取了他们带有输入标记的文本,快速构建了分词训练语料库,极大地提升了分词器的精度;更重要的是,揭示并验证了自然输入分词标记信息的有效作用。 相似文献
83.
函数名称质量的高低,对于理解和维护程序非常重要.然而对于软件开发人员,尤其是母语非英语的软件开发人员,为函数选取高质量的名称比较困难.为此,提出一种函数名称推荐方法.首先,基于开源软件创建函数库;然后,对于某个需要推荐名称的函数f,从函数库中检索与其相似的函数.对检索返回的相似函数用自然语言处理工具对函数名进行解析并获取标注词条,然后,从相应的函数体中提取特征代码并与相应的标注词条建立关联.基于此关联关系以及函数f的特征,自动推荐合适的函数名.该方法在开源项的1430个函数中进行了初步验证,结果表明:有22.7%的推荐结果与原函数名完全一致,有57.9%的推荐结果与原函数名关键词一致或基本一致. 相似文献
84.
基于自扩展的信息抽取模式自动获取 总被引:1,自引:0,他引:1
提出一种从未标注的中文文本中基于自扩展策略自动获取事件抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新的抽取模式,在每一轮迭代中采用类似于TF/IDF的评估方法对产生的候选模式进行排序,选择最优的模式并入当前模式集.应用该方法从人民日报语料中自动获取"职务变动"类事件的抽取模式,实验结果表明,该方法产生的抽取模式在中文文本事件抽取中具有较好的抽取性能,综合指标F值达到66 3%. 相似文献
85.
86.
文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础.提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域.基本思想是:对于输入文本,首先识别文本物理结构,然后将文本依据主题划分为若干层次,最终获得文本的逻辑结构.实验结果表明,该方法是有效的,其准确率达到74.96%. 相似文献
87.
针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型.该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度.实验结果表明,与向量空间模型相比,该模型的表示效果更好. 相似文献
88.
89.
主题爬虫的设计与实现 总被引:11,自引:2,他引:11
文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现.实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础. 相似文献
90.
知识是如何驱动Q/A系统的 总被引:3,自引:1,他引:3
文章探讨了以本体(ontology)为核心,融合多知识源,驱动自动问答系统的技术方法和应用设计策略,简要介绍了知识在答案析取和实例识别中的作用。在银行领域的业务咨询服务中应用表明,融合多种知识驱动的自动问答系统的性能达到令人满意的水平。认为提高自动问答系统可用性,必须综合利用多种知识资源。 相似文献