首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
汉语文本自动分词算法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。  相似文献   

2.
一种基于XML的半结构数据的ORDB存储方法   总被引:3,自引:0,他引:3  
由于半结构数据缺乏类型信息,因而半结构数据服务器中数据的存储策略将是一个十分重要的研究课题。因为只有有效的存储,才能导致有效的索引及查询处理等技术。正是因为如此,关于如何对半结构数据进行有效的存储亦是目前研究的热点问题。论文在对现有的三种存储方法进行分析的基础上,提出并实现了一种XML数据的ORDB存储策略。  相似文献   

3.
基于OEM的XML半结构数据的模式描述方法   总被引:3,自引:1,他引:3  
半结构数据的类型和模式是提高半结构数据处理效率的关键技术,首先对半结构数据的特点及半结构数据的模式的特点进行了论述,然后对基于XML的模式描述形式进行了研究,提出了一种基于OEM的XMLDTD模式的定义和形式化描述方法。  相似文献   

4.
一种基于XML的半结构数据的0BDB存储方法   总被引:2,自引:0,他引:2  
由于半结构数据缺乏类型信息,因而半结构数据服务器中数据的存储策略将是一个十分重要的研究课题。因为只有有效的存储,才能导致有效的索引及查询处理等技术。正是因为如此,关于如何对半结构数据进行有效的存储亦是目前研究的热点问题。论文在对现有的三种存储方法进行分析的基础上,提出并实现了一种XML数据的0RDB存储策略。  相似文献   

5.
中文自动分词是计算机中文信息处理中的难题.介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大<人民日报>标注语料库中进行封闭测试,取得较好的效果.系统包含了一个新词识别器、一个基本分词算法和实现单字构词、词缀构词以及一致性检验的程序.  相似文献   

6.
基于邻接知识的汉语自动分词系统   总被引:5,自引:0,他引:5  
  相似文献   

7.
基于多种知识源的汉语自动分词   总被引:5,自引:0,他引:5  
提出一种汉语分词方法。与其它的如利用单一统计特性的统计方法或者纯规则方法不同,该方法利用字、词、上下文、语法及语义等多种知识源对汉字串中每一隔点的切分可能性进行考察,并在无法彻底消歧的情况下通过模糊综合得出最可能的切分结果。用户可以根据需要修改系统以适应不同文本的特征,并能接收前后词法、语法、语义分析阶段的反馈。因此,该方法具有准确率高、灵活、健壮、回溯迅速的特点。  相似文献   

8.
半监督聚类近年来成为了机器学习和数据挖掘领域的研究热点.目前存在的半监督聚类方法都采用属性-值的知识表示方式.但属性-值语言在表示复杂结构数据时存在很多弊端,而基于高阶逻辑的知识表示语言Escher能较好地表示复杂结构数据.在Fscher的知识表示方式下,首先当先验知识是实例之间的约束信息时,提出了搜索K-Means算法的K个初始质心的方法;其次,时先验知识不完全、能够发现的初始质心的个数,r小于K的情况,提出了搜索其余的K-r个初始质心的算法MSS-KMeans和SMSS-KMeans;最后在复杂结构数据集上,验证了所提算法的可行性.最终的实验结果表明,基于高阶逻辑知识表示方式的丰监督聚类方法要优于基于属性-值语言的半监督聚类方法.  相似文献   

9.
基于XML的半结构数据的视图问题研究   总被引:1,自引:0,他引:1  
1 引言数据库中的视图机制主要是根据用户或应用的需要对数据进行剪裁以增加数据库的灵活性。数据库的视图是适合某一特定用户或应用的数据库中部分数据的一种抽象。视图是依照视图声明语言(View Specification Language)来定义的,视图的声明是施加于源数据库(或等价的基数据库)上的。通常,数据库视图既可以是虚拟的(Virtual)、也可以是实际化的  相似文献   

10.
基于短语结构文法的分词研究   总被引:6,自引:0,他引:6  
本文在分析现有各种分词年法的基础上, 遵循自然语言理解的层次模型, 着重对短语结构文法及其形式化描述进行了探讨。提出了汉语自动分词在短语层的理解模型及短语层分词语义相关原则, 最后给出了短语结构分词法法的机器实现。实验结果表明, PSG法在提高分词精度上具有相当好的效果。  相似文献   

11.
基于知识模板的产品建模方法   总被引:1,自引:0,他引:1  
为实现产品概念设计的创新,提出功能模板、行为模板和结构模板的概念,并利用三者之间的映射关系实现行为流产品建模.通过行为流建模的具体算法,在实现产品概念模型设计的同时生成该模型的行为路径.发动机模型的创建实例表明,该算法能实现产品概念模型设计的再创新.  相似文献   

12.
针对用户令牌泄露导致BioHashing识别性能严重退化的问题,给出了一种改进的BioHashing指纹模板保护方法,在量化过程中采用非线性的方法产生固定长度的二值序列,离散过程采用非线性的处理方法,有效提高了算法的安全性。理论分析和仿真结果表明,改进方法产生的二值序列能有效保护指纹模板的敏感数据,提高系统的识别性能。  相似文献   

13.
为了尽量减少软件人员的重复劳动,文章提出了基于模板的模块化程序设计方法。该方法已成功应用于湖南建行的软件开发工作中。  相似文献   

14.
针对传统大数据填充方法相似度度量方法单一,且通常只考虑原数据集内部联系,使得填充数据容易被原数据集限制、失去自身原有特点、填充结果不客观等问题.提出一种新的概念——共享知识,该方法首先基于共享知识构建不完整数据集与异源相似完整数据集的共享关系,并建立共享信息系统;其次通过新的相似度度量方法建立它们对象间的相似关系,从而用异源相似完整数据集对象对不完整的数据集对象进行相似填充.实验结果表明,新的相似度度量方法比单一的数值型相似度度量方法填充精度更高.与其他填补算法相比,该方法对缺失值的填充精度值能够稳定地保持在0.85以上,均方根误差稳定在0.15之下,充分保留了填充值的客观性,填充效果更好.  相似文献   

15.
In this paper, we present a novel surface modeling scheme based on an envelope template. A two-parameter family of interpolating surfaces is generated by repeated bicubic interpolation of the given data points, and then a solution to the envelope condition and the envelope of the family are constructed. The continuity conditions of two adjacent patches along the common boundary are derived by analyzing the geometric properties of the envelope patch. In order to facilitate surface modeling, an envelope template is constructed, which has many desirable advantages including simple structure, good local features and so on. G2 or C2 composite surfaces can be obtained utilizing the envelope template sweeping over the data points.  相似文献   

16.
王妍  杨钧  孙凌峰  李玉诺  宋宝燕 《计算机应用》2017,37(12):3467-3471
传统特征选择方法多是通过相关度量来去除冗余特征,并没有考虑到高维相关矩阵中会存在大量的噪声,严重地影响特征选择结果。为解决此问题,提出基于随机矩阵理论(RMT)的特征选择方法。首先,将相关矩阵中符合随机矩阵预测的奇异值去除,从而得到去噪后的相关矩阵和选择特征的数量;然后,对去噪后的相关矩阵进行奇异值分解,通过分解矩阵获得特征与类的相关性;最后,根据特征与类的相关性和特征之间冗余性完成特征选择。此外,还提出一种特征选择优化方法,通过依次将每一个特征设为随机变量,比较其奇异值向量与原始奇异值向量的差异来进一步优化结果。分类实验结果表明所提方法能够有效提高分类准确率,减小训练数据规模。  相似文献   

17.
针对单一社交网络平台中推荐相似用户结果单一,对用户兴趣和行为信息了解不够全面的问题,提出了基于知识图谱和重启随机游走的跨平台用户推荐方法(URCP-KR)。首先,在分割、匹配出的目标平台图谱和辅助平台图谱的相似子图中,利用改进的多层循环神经网络(RNN)预测出候选用户实体,再综合利用拓扑结构特征相似度和用户画像相似度筛选出相似用户;然后,将辅助平台图谱中的相似用户的关系信息补全到目标平台图谱;最后,计算目标平台图谱中的用户游走到社区内每个用户的概率,从而得到用户之间的兴趣相似度来实现用户推荐。实验结果表明,与协同过滤(CF)算法、基于跨平台的在线社交网络用户推荐算法(URCP)和基于多开发者社区的用户推荐算法(UR-MC)相比,URCP-KP在推荐精确率及推荐多样性等方面均有所提高,推荐精确率最高可达95.31%,推荐覆盖率最高可达88.42%。  相似文献   

18.
Discovering knowledge from data means finding useful patterns in data, this process has increased the opportunity and challenge for businesses in the big data era. Meanwhile, improving the quality of the discovered knowledge is important for making correct decisions in an unpredictable environment. Various models have been developed in the past; however, few used both data quality and prior knowledge to control the quality of the discovery processes and results. In this paper, a multi-objective model of knowledge discovery in databases is developed, which aids the discovery process by utilizing prior process knowledge and different measures of data quality. To illustrate the model, association rule mining is considered and formulated as a multi-objective problem that takes into account data quality measures and prior process knowledge instead of a single objective problem. Measures such as confidence, support, comprehensibility and interestingness are used. A Pareto-based integrated multi-objective Artificial Bee Colony (IMOABC) algorithm is developed to solve the problem. Using well-known and publicly available databases, experiments are carried out to compare the performance of IMOABC with NSGA-II, MOPSO and Apriori algorithms, respectively. The computational results show that IMOABC outperforms NSGA-II, MOPSO and Apriori on different measures and it could be easily customized or tailored to be in line with user requirements and still generates high-quality association rules.  相似文献   

19.
业知识对企业性能、竞争力有着重要的影响,通过对伙伴企业知识的评价,可以加强虚拟企业对知识的管理,从而提高虚拟企业性能。针对虚拟企业知识评价的问题,提出一种以企业模型为媒介的间接的知识评价方法——KP2RP,并结合它的五个元素:知识、产品、过程、资源、性能,定义了它们之间的关联矩阵,给出了关联矩阵的知识评价级别,最后提出基于数据包络分析的知识评价模型,并且利用实例分析了评价方法的可行性。  相似文献   

20.
We demonstrate an algorithm for generating random vectors based on a sample of observations of a multivariate random variable X. Although our goal is the generation of pseudo observations which behave as though they came from the underlying density of X, in the algorithm discussed, estimation of the underlying density is not required. Rather, the observations are combined using stochastic multipliers to generate simulated observations. Because of the local nature of the generation scheme, the algorithm requires few assumptions on the underlying density. The algorithm is intended for use in simulation studies in which a large number of nonrepeated pseudo observations are to be obtained from a relatively small set of experimental data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号