首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
关白 《中文信息学报》2010,24(3):124-129
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。  相似文献   

2.
描述逻辑(DL)一族知识表示形式系统,是人工智能领域的一个热门研究方向。循环定义下描述逻辑系统的表达在许多情况下更符合人们的直觉,而且具有更强的表达力,是非循环定义下的描述逻辑系统不可代替的。首先给出描述逻辑系统FLε有最大不动点模型的证明,然后初步探讨基于最大不动点语义下描述逻辑系统FLε循环定义的包含关系推理算法,并给出算法的可靠性和完全性证明。  相似文献   

3.
汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。  相似文献   

4.
传统DFS特征选择算法在降维处理时既未考虑样本分布不均的情况,又未涉及负特征词对类别的影响。本文综合考虑DFS的缺陷并进行优化处理,将DFS与卡方检测算法CHI结合,提出一种改进型特征选择算法DFS-sCHI,引入负特证词作为类别划分的影响因子之一,解决不平衡数据集下所提特征词类别分布不均的问题。经实验分析,不平衡数据集下,DFS-sCHI相比较于DFS,在分类精度上有明显提高。  相似文献   

5.
在经典双足被动步行动力学模型的基础上,分析环境和力学参数影响下机器人被动步行的全局稳定性。计算不同模型参数下被动步行稳定不动点,采用胞胞映射计算得到不同模型参数下该动力学模型稳定单周期步态的吸引区域。研究发现双足被动步行的鲁棒性与其环境、力学参数关系密切,同时提出估计不动点吸引域形状的2个度量:最小半径与最大半径。实验结果给出被动步行稳定区域与斜坡倾角和质量比值的关系,同时通过分析某些偏离不动点较大的稳定吸引胞,以及吸引域的最小半径与最大半径的变化趋势,反映了双足被动步态的鲁棒性。  相似文献   

6.
面向信息处理的藏文分词规范研究   总被引:2,自引:1,他引:1  
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。 在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。  相似文献   

7.
该文通过20人对30篇汉语记叙文中语句焦点的标定结果,结合文本标注和统计分析,对焦点在词类和语义角色中的分布规律进行了探讨。结果主要发现,记叙文语篇中焦点词大约占实词总数的五分之一。形容词成为焦点的概率远高于其他词类。焦点在语义角色中分布的总体趋势是 客体论元的焦点化倾向最高,其次是外围论元,最低的是主体论元和谓词部分。  相似文献   

8.
旨在解决在词类标注样本稀缺的环境下,通过某种算法来给词类进行关键词扩充,应用场景是互联网社交平台需要根据话题组即词类,进行广告推送,而词类扩充相关词能达到广告推送量大,而且精准的效果.实验中前后使用了两种算法进行研究,一种是类似于Google的Page rank找到相关词进行扩充,这是运用比较广泛的算法;另一种是提出的与结合TFIDF的word2vec计算词间相关性的算法.给出了对比数据,word2vec能较好地实现词类扩充的需求.  相似文献   

9.
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因: 词类迁移;词类判断标准不一致;收录义项不同。  相似文献   

10.
在三维装箱问题中,集装箱问题是一个复杂的组合优化问题,是属于NP-hard问题。提出了六种空间划分和不同规则的空间合并,并将稳定性约束和承载力约束加入其中,通过测试标准数据集去比较应用约束对空间利用率的影响。测试结果显示了承载力约束对不同的空间划分的影响,以及对哪一种空间划分的影响最大,以及在基于稳定性约束和承载力约束的共同作用下,哪一种空间划分的空间利用率最好。同时,与国内外相同研究方向的算法进行了对比,测试结果显示了该算法的性能要高于目前国内外的算法。  相似文献   

11.
由于领域外话语具有内容短小、表达多样性、开放性及口语化等特点,限定领域口语对话系统中超出领域话语的对话行为识别是一个挑战。该文提出了一种结合外部无标签微博数据的随机森林对话行为识别方法。该文采用的微博数据无需根据应用领域特点专门收集和挑选,又与口语对话同样具有口语化和表达多样性的特点,其训练得到的词向量在超出领域话语出现超出词汇表字词时提供了有效的相似性扩展度量。随机森林模型具有较好的泛化能力,适合训练数据有限的分类任务。中文特定领域的口语对话语料库测试表明,该文提出的超出领域话语的对话行为识别方法取得了优于最大熵、卷积神经网络等短文本分类研究进展中的方法的效果。  相似文献   

12.
基于汉语情感词表的句子情感倾向分类研究   总被引:4,自引:2,他引:4       下载免费PDF全文
提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。实验结果表明,直接利用词汇语言粒度的句子情感分类综合F值为78.62%,若加入了否定短语语言粒度后,句子情感分类的综合F值提高了4.14%。  相似文献   

13.
林婷  刘湘南  金铭 《计算机工程》2011,37(11):272-274
针对传统的固定点算法对分离矩阵初始值敏感的问题,提出一种改进的独立分量分析(ICA)算法,通过在传统的算法核心迭代过程中加入搜索因子,降低算法对矩阵初始值的依赖,提高处理效率。将ICA算法应用于作物精细光谱的分类,分别利用传统固定点算法和改进的固定点算法对混合光谱进行信息提取与分离。实验证明,改进的ICA算法在与传统算法作物光谱分类效果相当的情况下,迭代次数减少26%,提高了独立分量的分离效率,是一种有效的作物光谱分类方法。  相似文献   

14.
In handwritten Chinese character recognition, the performance of a system is largely dependent on the character normalization method. In this paper, a visual word density-based nonlinear normalization method is proposed for handwritten Chinese character recognition. The underlying rationality is that the density for each image pixel should be determined by the visual word around this pixel. Visual vocabulary is used for mapping from a visual word to a density value. The mapping vocabulary is learned to maximize the ratio of the between-class variation and the within-class variation. Feature extraction is involved in the optimization stage, hence the proposed normalization method is beneficial for the following feature extraction. Furthermore, the proposed method can be applied to some other image classification problems in which scene character recognition is tried in this paper. Experimental results on one constrained handwriting database (CASIA) and one unconstrained handwriting database (CASIA-HWDB1.1) demonstrate that the proposed method outperforms the start-of-the-art methods. Experiments on scene character databases chars74k and ICDAR03-CH show that the proposed method is promising for some image classification problems.  相似文献   

15.
In this paper, we present a new off-line word recognition system that is able to recognize unconstrained handwritten words using grey-scale images. This is based on structural and relational information in the handwritten word. We use Gabor filters to extract features from the words, and then use an evidence-based approach for word classification. A solution to the Gabor filter parameter estimation problem is given, enabling the Gabor filter to be automatically tuned to the word image properties. We also developed two new methods for correcting the slope of the handwritten words. Our experiments show that the proposed method achieves good recognition rates compared to standard classification methods.  相似文献   

16.
基于中文文本分类的分词方法研究   总被引:13,自引:1,他引:13  
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。  相似文献   

17.
单汉字检索中的集合索引方法   总被引:1,自引:0,他引:1  
根据汉字在文献中使用的频度和分布规律,利用图书分类的原则,提出了基于汉字在成组(连续索引号)文献中出现的集合索引方案。与基于单值表达的常规索引方案作了比较,并对一类短语料进行了实验,给出了部分比较结果以及索引调整的一些分析结果。模拟图书分类中汉字非均匀分布的特点,从理论上分析文献索引各参量间的关系。分析表明,集合索引法与单值表达索引相比,能够显著提高索引效率,减少索引空间,还可进行随机动态调整。  相似文献   

18.
基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F—score)较差,为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F—score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F—score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F—score.  相似文献   

19.
基于领域词语本体的短文本分类   总被引:2,自引:0,他引:2  
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类.提出了基于领域词语本体的短文本分类方法.首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类.对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率.  相似文献   

20.
旅游在线评论情感分析的基础是情感词典的构建。在领域情感词典构建过程中,通常仅使用词频作为筛选种子词集的标准,而并未考虑其内部词语的关联程度,这会导致种子词集聚类效果不明显,进而影响情感词语归类精度。因此,基于词向量模型,提出一种情感词典种子词集筛选方法。该方法将情感词语以向量形式表征并计算词向量间距离,形成种子词集的筛选标准和分类依据,再通过类别判断形成在线评论的情感词典。最后,构建了山岳型旅游景区在线评论情感词典,并通过对比实验验证了方法的有效性,对提高情感词语归类精度和旅游在线评论情感词典的构建起到了积极的作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号