期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

何晓文罗智勇胡紫娟王瑞琦《中文信息学报》2021,35(5):1-8

自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等.其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定.该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序... 相似文献

2.

基于前后文词形特征的生物医学文献句子边界识别 总被引：1，自引：0，他引：1

于中华张容唐常杰左劼张天庆《小型微型计算机系统》2006,27(1):180-184

针对生物医学文献的特点及信息抽取的特殊要求，提出了基于前后文词形特征和有教师学习的句子边界识别算法．与针对一般英语书面语设计的句子边界识别算法不同，本文提出的算法不使用特殊的辅助词表和语法层面的特征信息，只使用前后文单词的词形信息作为句子边界识别和消歧的依据．利用这些特征设计了最大信息熵识别器和支持向量机识别器，并在Medline摘要上进行了实验，达到了超过99％的正确率．实验结果表明，最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能，同时还表明，对生物医学文献句子边界识别，只使用词法层面的特征，不使用辅助词表和词性等语法层面的信息，仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能．相似文献

3.

基于最大熵分类器的藏文句子边界自动识别方法研究

才藏太《计算机工程与科学》2012,34(6):187-190

藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。相似文献

4.

匹配树和决策树方法识别英语句子中的BaseNP 总被引：1，自引：1，他引：1

荀恩东李生赵铁军《计算机研究与发展》2000,37(7):826-832

提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语（ＢａｓｅＮＰ）,在含有词性标注和ＢａｓｅＮＰ边界标注的训练语料中,抽取所有不同类型ＢａｓｅＮＰ短语对应的词性序列（ＢａｓｅＮＰ规则）,通过规则排序和语方学知识,对其中正确率低且明显不符合语法的规则进行剔除,在识别时,采取规则匹配树的方法进行最大长度匹配,通过归纳机器学习Ｃ４．５自满引入上下文信息,由Ｃ４．５算法学习出有效（相似文献

5.

基于词串粒度及权值的汉语句子相似度衡量 总被引：5，自引：0，他引：5

王荣波池哲儒常宝宝柏晓静《计算机工程》2005,31(13):142-144

提出了一种改进的汉语句子相似度衡量方法,用于基于实例的汉英机器翻译。该方法同时考虑了相同词串的数目及长度和对应的权值信息,克服了传统方法的显著不足,在理论上更有合理性。在小数据集上的实验也表明该方法是可行的。相似文献

6.

基于词类串的汉语句子结构相似度计算方法 总被引：9，自引：1，他引：9

王荣波池哲儒《中文信息学报》2005,19(1):22-30

句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。相似文献

7.

改进机器翻译中的句子切分模型

薛征山张大鲲王丽娜郝杰《中文信息学报》2017,31(4):50-56

随着统计机器翻译系统训练语料的不断增加,长句子的数量越来越多,如何有效地利用长句子中的信息改进翻译质量是统计机器翻译系统面临的主要问题之一。该文基于Xu的句子切分模型,提出了一种在训练阶段切分长句子的方法,该方法利用自动获取的边界词概率和切分后子句对的长度比例来指导切分过程,从而得到更符合语义信息的句子切分结果。在NIST测试集上的实验结果表明,该方法获得了最大0.5个BLEU值的提升。相似文献

8.

基于边界特征的计算机图像自动识别系统设计

常燕《自动化应用》2022,(9):45-47

针对现有计算机图像自动识别结果的边界特征完整度较差的问题,设计了一种基于边界特征的计算机图像自动识别系统。基于图像的边界特征,确定图像自动化识别系统的开发环境,设计系统的功能模块,采集与处理图像信息数据,应用Fourier系数理论,提取与识别图像信息的边界特征,利用BP神经网络算法,实现计算机图像的自动化识别。系统性能检测结果显示,对于10组随机的图片特征数据,系统的图像识别时间的均值为0.22s,具有实时性与高效性。系统图像自动识别结果的峰值信噪比的均值为29.31db,表明系统具有优良的图片去噪性能。系统图像自动识别结果的结构相似指数的均值为0.9315,非常接近于数值1,表明系统具有优良的图像边界特征保留能力。相似文献

9.

限定领域的汉语-维吾尔语句子级对齐研究

张亚军贺琛琛香丽芸《软件》2014,(3):62-64

针对政府文献的汉语维吾尔语语料库特点,充分利用汉语和维吾尔语的句子特性,提出一种汉维句子级别的对齐方法。该方法重点分析政府领域的汉语和维吾尔语的句型,分别对汉语和维吾尔语的语料进行边界识别,避免了复杂句型对汉语-维吾尔语句子对齐的影响,使得该方法取得句子对齐达到97%与99%之间的正确率。对齐的汉语-维吾尔语句子对可以充实语料库的规模,为汉语-维吾尔语短语对齐以及汉维机器翻译提供翻译语料。相似文献

10.

英文语音纠错自动识别系统设计与实现

张瑞华《自动化技术与应用》2019,38(10)

相似文献

11.

Computation on Sentence Semantic Distance for Novelty Detection 总被引：1，自引：0，他引：1

下载免费PDF全文

Hua-Ping Zhang Jian Sun Bing Wang and Shuo Bai 《计算机科学技术学报》2005,20(3):331-337

Novelty detection is to retrieve new information and filter redundancy from given sentences that are relevant to a specific topic. In TREC2003, the authors tried an approach to novelty detection with semantic distance computation. The motivation is to expand a sentence by introducing semantic information. Computation on semantic distance between sentences incorporates WordNet with statistical information. The novelty detection is treated as a binary classification problem: new sentence or not. The feature vector, used in the vector space model for classification, consists of various factors, including the semantic distance from the sentence to the topic and the distance from the sentence to the previous relevant context occurring before it. New sentences are then detected with Winnow and support vector machine classifiers, respectively. Several experiments are conducted to survey the relationship between different factors and performance. It is proved that semantic computation is promising in novelty detection. The ratio of new sentence size to relevant size is further studied given different relevant document sizes. It is found that the ratio reduced with a certain speed (about 0.86). Then another group of experiments is performed supervised with the ratio. It is demonstrated that the ratio is helpful to improve the novelty detection performance. 相似文献

12.

现代藏语助动词结尾句子边界识别方法

赵维纳于新刘汇丹李琳王磊吴健《中文信息学报》2013,27(1):115-120

藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。相似文献

13.

一种综合多特征的句子相似度计算方法

吴全娥熊海灵《计算机系统应用》2010,19(11):110-114

提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综合考虑了句子的深层和表层信息,并对句子进行了词汇扩展,从而使句子相似度计算更加准确。相似文献

14.

一种新的自纠错句对齐算法的研究与实现

马芳王炳锡郭永辉《微计算机信息》2005,(20)

本文提出了一种基于词性的判别函数,用来自动识别句子对齐结果的正确性。通过反向采用基于长度的对齐算法,纠正了初步对齐产生的连续性错误。该方法节省了人力,同时提高了对齐结果的正确率。实验结果表明,本模型开放集测试的召回率达到97.60%,已满足实际应用的需求。相似文献

15.

最大熵和规则相结合的藏文句子边界识别方法

李响才藏太姜文斌吕雅娟刘群《中文信息学报》2011,25(4):39-45

句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。相似文献

16.

Classification-Based Fraud Detection for Payment Marketing and Promotion

Shuo He Jianbin Zheng Jiale Lin Tao Tang Jintao Zhao Hongbao Liu 《计算机系统科学与工程》2020,35(3):141-149

Nowadays, many payment service providers use the discounts and other marketing strategies to promote their products. This also raises the issue of people who deliberately take advantage of such promotions to reap financial benefits. These people are known as ‘scalper parties’ or ‘econnoisseurs’ which can constitute an underground industry. In this paper, we show how to use machine learning to assist in identifying abnormal scalper transactions. Moreover, we introduce the basic methods of Decision Tree and Boosting Tree, and show how these classification methods can be applied in the detection of abnormal transactions. In addition, we introduce a graph computing method, which implicitly describes the characteristics of people and merchants through node correlation, in order to mine deep features. Because of the volume of large data, we carried out reasonable block calculation, and succeeded in reducing a large amount of data to a series of segments, thereby decreasing the computational resources and memory requirements. Compared with other work on abnormal transaction detection, we pay more attention to creating and using the portraits of merchants or individuals to assist in decision-making. After data analysis and model building, we find that focusing on only one transaction or one day does not yield a comprehensive number of characteristics, and many characteristics can be obtained by examining the transactions of a person or a merchant over a period of time. Furthermore, a large number of characteristics can be obtained from transactions in a period of time. After GBDT (Gradient Boosting Decision Tree) based classification prediction and analysis, we can conclude that there is a clear distinction between abnormal trading shops and conventional shops, facilitating the clustering of abnormal merchants. By filtering transaction data from multiple dimensions, multiple sub-graphs can be obtained. After hierarchical clustering, the abnormal trading group is mined and classified according to its features. Finally, we build a scoring model and apply it to the big data platform of one of China’s largest payment service providers to help enterprises identify abnormal trading groups and specific marketing strategies. 相似文献

17.

基于决策树的入侵检测系统研究

谢亮《数字社区&智能家居》2007,1(6):1615

决策树是数据挖掘中的常用方法。指出当前入侵检测系统存在的问题,针对传统入侵检测技术性能低,误报率和漏报率高的问题,描述了利用决策树方法学习的一种优化实现的方式。相似文献

18.

一种改进的维吾尔语句子相似度计算方法

卡哈尔江·阿比的热西提吐尔根·依布拉音姚天昉艾山·吾买尔艾山·毛力尼亚孜《中文信息学报》2011,25(4):50-54

在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。相似文献