首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
给出的算法思想是首先计算出中文短信的相似度,再通过使用Isomap方法得到短信在语义空间中的嵌入情况,然后将短信在低维嵌入上进行聚类分析。该算法克服了短信的传统聚类分析在表示层次上遇到的困难,也克服了词频统计法不能将内容意思相似的短信聚集在一起的缺点,实验表明该算法是行之有效的。  相似文献   

2.
3.
4.
《Information & Management》2016,53(8):978-986
With the rapid proliferation of Web 2.0, the identification of emotions embedded in user-contributed comments at the social web is both valuable and essential. By exploiting large volumes of sentimental text, we can extract user preferences to enhance sales, develop marketing strategies, and optimize supply chain for electronic commerce. Pieces of information in the social web are usually short, such as tweets, questions, instant messages, messages, and news headlines. Short text differs from normal text because of its sparse word co-occurrence patterns, which hampers efforts to apply social emotion classification models. Most existing methods focus on either exploiting the social emotions of individual words or the association of social emotions with latent topics learned from normal documents. In this paper, we propose a topic-level maximum entropy (TME) model for social emotion classification over short text. TME generates topic-level features by modeling latent topics, multiple emotion labels, and valence scored by numerous readers jointly. The overfitting problem in the maximum entropy principle is also alleviated by mapping the features to the concept space. An experiment on real-world short documents validates the effectiveness of TME on social emotion classification over sparse words.  相似文献   

5.
情节规划,指的是理解一段特定的文本,并将其转变成一定情节的故事的过程。目前对情节规划的研究主要针对包含文字较多的小说或故事,而并没有针对中文短信进行的情节规划。情节规划方法是基于中文短信的三维动画情节规划,这种情节规划从短信信息抽取开始,按照层次在系统中寻找对应的原始动画,并利用规则系统得出一定的变化,最终将短信内容表现为一段三维动画。实验通过几个例子说明从短信抽取所得的结果到整个情节规划的过程,生成的动画很好地体现了短信的内容,从而说明这种情节规划系统对表现中文短信有一定的效果。  相似文献   

6.
Yan  Leiming  Zheng  Yuhui  Cao  Jie 《Multimedia Tools and Applications》2018,77(22):29799-29810
Multimedia Tools and Applications - Due to the limited length and freely constructed sentence structures, it is a difficult classification task for short text classification. In this paper, a short...  相似文献   

7.
面向短文本的命名实体识别   总被引:1,自引:0,他引:1  
王丹  樊兴华 《计算机应用》2009,29(1):143-145,
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。  相似文献   

8.
Aggressive transmissions of short messages over redundant paths   总被引:1,自引:0,他引:1  
Fault-tolerant computer systems have redundant paths connecting their components. Given these paths, it is possible to use aggressive techniques to reduce the average value and variability of the response time for short, critical messages. One technique is to send a copy of a packet over an alternate path before it is known whether the first copy failed or was delayed. A second technique is to split a single stream of packets over multiple paths. The authors analyze both approaches and show that they can provide significant improvements over conventional, conservative mechanisms  相似文献   

9.
短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对上述问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的方法,构建字符级和词级的双输入矩阵,并在采样层使用k-max采样方法,增强模型特征的表达能力。利用豆瓣电影评论数据集对该模型进行识别精度评估,实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高短文本分类效果。  相似文献   

10.
选择一组具有良好区分度的方向构建了CMAS坐标系,又根据初始簇的分布特性,构造出各个坐标轴的重新标度函数以提高聚类决策的有效性。其算法CMAS以迭代的方式收敛得到了最终解。CMAS算法的时间复杂度与K-Means保持在同一量级上。实验结果表明,CMAS算法有较好的聚类质量。  相似文献   

11.
针对目前自然语言处理研究中,使用卷积神经网络(CNN)进行短文本分类任务时可以结合不同神经网络结构与分类算法以提高分类性能的问题,提出了一种结合卷积神经网络与极速学习机的CNN-ELM混合短文本分类模型。使用词向量训练构成文本矩阵作为输入数据,然后使用卷积神经网络提取特征并使用Highway网络进行特征优化,最后使用误差最小化极速学习机(EM-ELM)作为分类器完成短文本分类任务。与其他模型相比,该混合模型能够提取更具代表性的特征并能快速准确地输出分类结果。在多种英文数据集上的实验结果表明提出的CNN-ELM混合短文本分类模型比传统机器学习模型与深度学习模型更适合完成短文本分类任务。  相似文献   

12.
This paper discusses gossiping problems in two-dimensional meshes under two different models: one-port telephone model and full-port model. It is assumed in both models that only one packet can be transmitted through each link at one time step. Our algorithms are based on very similar ideas and improve on the previous results in (SIAM J. Comput. 27 (1998) 917; IEEE Trans. Parallel Distrib. Systems 10(12) (1999) 1252), respectively.  相似文献   

13.
在多媒体传感网中进行视频信息隐藏有很多局限性。为了增强在多媒体传感网中进行隐秘通信的安全性,本文从提高隐写效率和降低节点能耗入手,在分析研究以往相近研究的基础上,提出了一种新的视频信息隐藏算法。算法结合了H.264/AVC (Advanced video codec)标准视频流的数据特性,提出了调整覆盖码矩阵简化计算复杂度的新思想和避免误差漂移的隐写策略。算法运用了新的分类编码方法;对于不同类型的数据特征,引进并设计了针对多媒体传感网应用限制条件的覆盖编码方法。实验证明:该算法能够降低嵌入误差,有效抵抗统计分析;减少了数据通信冗余,同时计算复杂度由传统的幂次复杂度降低到线性复杂度。  相似文献   

14.
不同于长文本,短文本信息量缺乏,在研究中通常难以获得丰富的语义特征并且难以提取完整的句法特征,因此短文本分类模型的分类效果有待提升.针对这个问题进行了研究,基于ResLCNN模型进行改进,引入神经主题模型,并融合多个神经网络输出特征进行分类.首先,通过神经主题模型提取主题来丰富短文本的信息;其次,将主题信息储存在记忆网络中,并与序列信息进行融合,丰富文本的表示;最后,将其输入具有残差结构的卷积神经网络以及双向GRU中,提取局部以及全局的语义特征,在特征融合之后进行分类.该模型在Google网页搜索公开数据集中取得了较高的准确率和F1值,表明了改进模型在短文本分类任务中的有效性.  相似文献   

15.
针对自然语言处理中的文本匹配问题,提出一种基于自学习文本近邻图框架的深度学习模型,以处理短文本匹配问题。文本近邻图可使用词嵌入将文本转换为向量形式,再通过构建文本相似度关系矩阵获得,可表达文本样本的近邻关系。现有方法通常构造静态的近邻图,这些方法一方面依赖先验知识,另一方面难以获得句子对的最优表示。因此,提出了利用孪生卷积神经网络学习更优的动态更新的近邻图。该模型在Quora数据集上的准确率和◢F◣▼1▽值分别是84.15%和79.88%,在MSRP数据集上的准确率和◢F◣▼1▽值分别是74.55%和81.63%。实验表明,提出的模型能有效地提高文本识别和匹配的准确率。  相似文献   

16.
Enriching short text representation in microblog for clustering   总被引:1,自引:0,他引:1  
Social media websites allow users to exchange short texts such as tweets via microblogs and user status in friendship networks. Their limited length, pervasive abbreviations, and coined acronyms and words exacerbate the problems of synonymy and polysemy, and bring about new challenges to data mining applications such as text clustering and classification. To address these issues, we dissect some potential causes and devise an efficient approach that enriches data representation by employing machine translation to increase the number of features from different languages. Then we propose a novel framework which performs multi-language knowledge integration and feature reduction simultaneously through matrix factorization techniques. The proposed approach is evaluated extensively in terms of effectiveness on two social media datasets from Facebook and Twitter. With its significant performance improvement, we further investigate potential factors that contribute to the improved performance.  相似文献   

17.
针对短文本长度短、描述信号弱的特点,提出了一种利用上下位关系的中文短文本分类框架。该框架首先利用“知网”确定训练文本中概念对的上下位关系,进而确定词语对的上下位关系,再将其用于扩展测试文本的特征向量,从而实现对测试文本的分类。实验表明:利用上下位关系能够改善短文本的分类性能。  相似文献   

18.
马雯雯  邓一贵 《计算机应用》2013,33(8):2280-2282
短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用。针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法。该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。  相似文献   

19.
蔡月红  朱倩  孙萍  程显毅 《计算机应用》2010,30(4):1015-1018
针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

20.
因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号