期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

舒文韬李睿潇孙天祥黄萱菁邱锡鹏《计算机研究与发展》2024,(2):351-361

近年来,大型语言模型的出现和发展对自然语言处理和人工智能领域产生了变革性影响.随着不断增大模型参数量和训练数据量,语言模型的文本建模困惑度以可预测的形式降低,在各类自然语言处理任务上的表现也持续提升.因此,增加语言模型的参数和数据规模成为提升系统智能水平富有前景的途径.首先回顾了大型语言模型的基本定义,从模型表现和算力需求的角度给出了“大型”语言模型的界定标准.其次,从数据、算法、模型3个维度梳理了大型语言模型的发展历程及规律,展示了不同阶段各个维度的规模化如何推动语言模型的发展.接着,考察了大型语言模型所表现出的涌现能力,介绍了思维链、情景学习和指令遵循等关键涌现能力的相关研究和应用现状.最后,展望了大型语言模型的未来发展和技术挑战. 相似文献

2.

基于启发式搜索与预标注的中文CCG句法分析

周金龙邱锡鹏《计算机应用与软件》2014,(9)

针对中文组合范畴语法(CCG)分析困难的特点,研究如何将两种彼此相互独立的技术共同应用在中文CCG句法分析上。首先使用预标注算法,使用对数线性模型通过去除那些概率较低的词汇范畴来对句子的潜在分析空间进行剪枝。然后应用启发式搜索算法进一步加速分析过程。最后从时间效率和分析精度两个维度对所使用的方法进行验证。实验表明,基于启发式搜索与预标注的句法分析算法可以显著地提高分析效率与分析精度。相似文献

3.

基于短语检索和答案排序的列表问题回答方法

袁晓丰邱锡鹏吴立德黄萱菁《中文信息学报》2008,22(5):74-79

文章针对列表类自动问题回答的任务要求,提出了一种基于短语检索和答案距离排序模型的列表类问题回答的方法。该短语检索模型在传统的TF/IDF检索模型上进行改进,提出了利用不同长度短语作为查询词的检索方法,能够返回更多包含正确答案的相关文档;答案的距离排序模型则利用答案与上下文词之间的距离作为排序的依据对答案列表进行排序,可以提高正确答案的排名。这两种模型地提出在一定程度上解决了如何在返回尽可能多的答案的同时保证答案质量的问题。实验结果表明利用这两种模型的列表类问题回答方法对系统的性能有显著提高。相似文献

4.

一种适用于大规模网页分类的快速算法

缪有栋邱锡鹏黄萱菁《计算机应用与软件》2012,29(7):260-263,281

网页分类中存在类别多、训练样本少等问题,一般分类器训练应用效果不佳。为了解决这个问题,提出基于类中心的统计学习方法。在较少人工标注网页的训练集情况下,此方法能取得很好的分类性能并且大幅度加快训练时间,并可以通过加入网页层次目录信息提升推理速度。在第一届LSHTC评测数据集上进行实验,结果表明:基于类中心的统计学习方法拥有较快的训练以及推理速度,并且在正确率上有很强的竞争力。相似文献

5.

改进的AdaBoost分类器在视频中的体育场景检测 总被引：9，自引：0，他引：9

金鸣邱锡鹏吴立德《计算机工程》2006,32(12):229-231

提出了一种使用改进的AdaBoost分类器来检测体育场景的方法。将电视新闻中的体育场景分为三类：草地运动，冰雪运动和人造场地运动。针对这几种不同的体育场景，提取颜色直方图、边缘方向直方图和共生矩阵纹理等3种低层视觉特征，然后用改进的可自动选择特征的boosting方法为每一类体育场景分别建立AdaBoost分类器。该文提出的方法应用在国际视频处理评测TRECVID2003中的“体育场景”语义特征抽取任务上，取得了很好的效果。相似文献

6.

基于不确定片段的检索增强命名实体识别框架

耿志超颜航邱锡鹏印张悦《中文信息学报》2023,(7):71-81

在中文命名实体识别领域,过去的工作侧重于通过外部词典来引入边界信息,从而在推理过程中能够处理未登录词。然而,现有方法使用基于统计的分词工具自动生成词典,分词质量较低,错误的分词结果为推理过程引入较多噪声,且更新词典意味着重新训练模型,代价高昂,这为使用通用文本知识提供了动机。该文提出了基于不确定片段的检索增强命名实体识别框架。该框架识别输入文本中模型不确定程度最高的实体级别文本片段,并基于不确定文本片段从外部知识库中进行检索,从而有效地获得相关的知识文本以消除输入样本的歧义。此外,该文提出知识融合模型,结合检索到的知识文本对不确定的样本进行推理。该文在四个公开基准数据集中进行实验,结果表明,该框架显著提高模型性能,F₁值较基准模型平均提高1.21%。相似文献

7.

利用基于图互增理论的自举算法学习语义辞典 总被引：1，自引：0，他引：1

张奇邱锡鹏黄萱菁吴立德《自动化学报》2008,34(10):1257-1261

This paper presents a method to learn semantic lexicons using a new bootstrapping method based on graph mutual reinforcement (GMR). The approach uses only unlabeled data and a few seed words to learn new words for each semantic category. Different from other bootstrapping methods, we use GMR-based bootstrapping to sort the candidate words and patterns. Experimental results show that the GMR-based bootstrapping approach outperforms the existing algorithms both in in-domain data and out-domain data. Furthermore, it shows that the result depends on not only the size of the corpus but also the quality. 相似文献

8.

一种基于LAB色空间拓扑剖分影射的颜色恒常性模型 总被引：4，自引：1，他引：3

下载免费PDF全文

许家佗屠立平张志枫邱锡鹏郭跃飞危辉《电子学报》2009,37(9):2109-2112

本文针对人体肤色和黏膜颜色特点,建立一种室内自然光条件下的医学真彩图像采集分析的颜色恒常性模型.在LAB均匀色度空间中,对一维L*空间进行线性影射,二维a*b*空间进行三角剖分影射和还原,建立了一种拓扑剖分影射TRM模型.通过对SG色标中13个肤色色标进行的校正还原,结果显示,TRM模型还原的颜色色差明显减小,离散度小,性能稳定. 相似文献

9.

基于语法分析和统计方法的答案排序模型

李波高文君邱锡鹏《中文信息学报》2009,23(2):23-27

该文描述了一种构建问答式检索系统中答案排序模型的新方法。该方法结合了基于密度方法的度量特征和外部知识库,并且引入了基于语法分析方法的语法关键路径的新特征,使用支持向量机回归模型训练评估函数。实验证明,引入了上述语法关键路径特征后的新答案排序模型的排序性能有了明显提高。相似文献

10.

基于序列标注的中文依存句法分析方法 总被引：2，自引：0，他引：2

计峰邱锡鹏《计算机应用与软件》2009,26(10):133-135

提出了一种基于序列标注模型的中文依存句法分析方法.该方法将依存句法分析转化成序列标注问题,利用条件随机场CRF(Conditional Random Field)建立序列标注模型.在宾州中文树库的测试中,达得了76.59%的依存关系准确率,句子准确率也达到了23.5%.同时我们改进了Viterbi算法,使得依存关系的准确率提高了近2个百分点,句子准确率提高了近3.5个百分点. 相似文献