排序方式: 共有43条查询结果,搜索用时 42 毫秒
1.
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 相似文献
2.
在分析维吾尔语词性规则和语法特征的基础上,以维吾尔语评论性语句为研究语料,提出了一种基于Bootstrapping算法的意见挖掘关系抽取方法.在每一次迭代过程中,根据改进的评分公式选取最优模式抽取主题词-意见词对;迭代结束后,对于主题-意见词对为空的评论语句,使用最近匹配算法抽取主题-意见词对;用并联模式和否定模式对抽取的主题-意见词对进行扩展和修正.关系抽取的最终目标是为每一个评论性语句建立一个或多个二元组<主题词,意见词>,并使主题词和意见词一一对应.实验结果表明了该方法在关系抽取上的有效性. 相似文献
3.
融合奇异性和扩散过程的协同过滤模型 总被引:2,自引:0,他引:2
作为解决信息过载问题的有效方式,推荐系统能够根据用户偏好对海量信息进行过滤,为用户提供个性化的推荐。但在推荐过程中,性能表现优异的协同过滤模型并没有充分利用上下文信息,这在一定程度上使系统面临性能瓶颈。为了进一步提高系统性能,从评分上下文信息着手,通过对项目评分进行分类统计获得评分奇异性,同时借鉴多渠道扩散相似性模型将推荐系统作为用户-项目二分网络的思想,提出了融合奇异性和扩散过程的协同过滤模型(collaborative filtering model fusing singularity and diffusion process,简称CFSDP)。为了表明模型的优越性,比较实验基于MovieLens,NetFlix和Jester这3个不同的数据集展开。实验结果表明,该模型不仅具有良好的扩展性,而且在合理的时间开销下,可以显著提高系统的预测和推荐质量。 相似文献
4.
5.
如何有效利用能量、延长网络生命周期是无线传感器网络技术研究的重要问题。提出了一种转发能量最小的无线传感拓扑算法MEFP(Minimal Energy-Forward Protocol),算法减少成簇的通信开销,在网络中簇半径区域内仅产生一个簇头,保证了分簇的均匀;在普通节点加入簇的过程中,选择转发功耗最小的簇头加入,避免迂回发送数据,降低了能量消耗。仿真结果证明MEFP能够有效地延长网络的生命周期。 相似文献
6.
提出了一种传送能量最小MEP(Minimal Energy-consuming Path)的无线传感网络路由算法,该算法选择能使簇内节点总功耗小的节点作为簇头,避免Leach算法随机选择簇头导致簇内节点总功耗过大的弊端;在构造簇间路由树时,采用了距离幂作为代价权,克服了以最短长度距离作为代价权不能保证转发数据总功耗最小的弱点,实现了在多跳转发数据时总的传送能量最小。仿真结果证明MEP能够有效地延长网络的生命周期。 相似文献
7.
大规模在线课程系统需要大量资源作支撑。资源使用的动态性及租用的固定性导致资源被浪费。将“非专用”思想应用于系统,可整体降低资源租用量。首先通过马尔可夫“生灭”过程预测资源状态,筛选出“非专用”资源;接着建立查询期望代价矩阵,使用A-MM(Adaptive Min-Min and Max-Min)算法进行自适应查询处理;最后实验表明,预测错误率低,性能稳定;A-MM有较好执行效率和平衡负载能力。 相似文献
8.
该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。 相似文献
9.
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求.根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页.提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文.对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务. 相似文献
10.
描述了一个基于统计机器翻译的汉维词对齐系统。系统处理过程分为两个模块:预处理和词对齐。预处理过程包括汉文文本预处理和维吾尔文文本预处理,其中维吾尔文文本预处理过程为:首先将维吾尔文转换成拉丁维文,然后将拉丁维文中个别字符替换为无歧义的字符。词对齐实现过程:首先利用IBM Model1-3,然后结合Och等人提出的启发式的思路进行优化,构建基于统计机器翻译的汉维词对齐系统。实验结果表明此系统可行。 相似文献