首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 805 毫秒
1.
粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特征建模,采用Johnson粗糙集属性约简算法对决策表进行化简,保留最小的文本情感词特征属性集,之后再对该集合中的所有情感特征词进行词嵌入表示,最后用逻辑回归分类器验证RS-WvGv方法的有效性。另外,该文还定义了情感词特征属性集覆盖力,用于表示文本情感词特征属性集合对语料库的覆盖能力。最后,在实验对比的过程中,用统计检验进一步验证了该方法的有效性。  相似文献   

2.
传统多维度文本聚类一般是从文本内容中提取特征,而很少考虑数据中用户与文本的交互信息(如:点赞、转发、评论、关注、引用等行为信息),且传统的多维度文本聚类主要是将多个空间维度线性结合,没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息,提出一种结合用户行为信息的多维度文本聚类模型(MTCUBC)。根据文本间的相似性在不同空间上应该保持一致的原则,该模型将用户行为信息作为文本内容聚类的约束来调节相似度,然后结合度量学习方法来改善文本间的距离,从而提高聚类效果。通过实验表明,与线性结合的多维度聚类相比,MTCUBC模型在高维稀疏数据中表现出明显的优势。  相似文献   

3.
利用文本载体的信息隐藏算法研究*   总被引:9,自引:1,他引:8  
利用人类的视觉系统(HVS)对标点符号和上下文之间的间隔的不敏感,提出了用文本中标点符号的左右是否出现空格来代表密文的01信息。大量的实验结果表明这一算法具有很好的隐藏效果,每一个标点符号可以隐藏两个比特的密文信息,具有较好的隐藏容量。  相似文献   

4.
自动文本分类的效果在很大程度上依赖于属性特征的选择。针对传统基于频率阈值过滤的特征选择方法会导致有效信息丢失,影响分类精度的不足,提出了一种基于粗糙集的文本自动分类算法。该方法对加权后的特征属性进行离散化,建立一个决策表;根据基于依赖度的属性重要度对决策表中条件属性进行适当的筛选;采用基于条件信息熵的启发式算法实现文本属性特征的约简。实验结果表明,该方法能约简大量冗余的特征属性,在不降低分类精度的同时,提高文本分类的运行效率。  相似文献   

5.
针对图像处理(如OCR技术)对图像方向要求十分严格,文本图像方向具有不确定性的问题,提出了中文文本图像倒置快速检测算法.利用投影技术定位出文本字符,结合中文字符及标点符号结构特征,筛选出文本图像中的标点符号,根据标点符号像素分布特点判断出类型,结合标点符号的使用习惯,采用统计的方法判断中文文本图像是否倒置.实验结果表明,投影方法可以不用基于内容达到高效快速的要求,利用统计方法可以保证判别率,该方法可用于OCR预处理过程.  相似文献   

6.
近年来,基于评论推荐模型的出现有效缓解了传统推荐算法存在的数据稀疏性问题.该类模型主要利用文本中丰富的语义信息更好地捕捉用户的偏好特征以及物品的属性特征,以补充更多的相关信息,提高推荐性能.文本特征的提取往往存在语义信息提取不精准的问题,导致推荐效果不理想.本文提出了融合评分与评论的深度评分预测模型(Deep Model combining Rating and Review, DMRR).一方面,该模型融合了评分数据与评论信息,利用评分矩阵引入物品可推荐度与用户偏好程度,使评论文本特征得到增强.另一方面,该模型有效结合了CNN与GRU进行文本信息特征提取,考虑了文本之间密切的依赖关系,以克服传统文本特征提取方法忽略上下文关系的不足.在Amazon上的4个子数据集和Yelp数据集的实验结果表明,该方法与已有的相关算法相比较,均有效地提高了评分预测准确性.  相似文献   

7.
通过对微博虚假信息的分析,基于DCA算法的思想,提出一种检测微博虚假信息的方法。以新浪微博为例,从虚假信息发布者的用户属性和虚假信息评论的文本内容两个方面进行分析。从用户方面选取用户的特征属性,如是否认证、有无简介、地址信息是否详细、关注数、粉丝数等,从评论内容方面选取评论与微博内容的相关性、评论的支持性及其置信度等特征属性,将以上属性的分析结果作为区别虚假信息与真实信息的特征信号,并基于树突状细胞算法(Dendritic Cells Algorithm, DCA)实现新浪微博虚假信息的识别。使用新浪微博真实数据对算法有效性进行了验证和对比实验,结果表明该方法能够有效检测出新浪微博中的虚假信息,具有较高的检测准确率。  相似文献   

8.
中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。  相似文献   

9.
《软件》2019,(4):145-149
标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置左右词性对作为模型的观测序列,使用条件随机场进行标点符号的标注。实验的测试语料采用京东在线产品评论,结果表明基于线性链条件随机场的用户生成文本标点标注效率较高。  相似文献   

10.
一种不良信息过滤的文本预处理方法研究   总被引:1,自引:0,他引:1  
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前,对不良信息形式的变化进行预处理,能够提高过滤的效率。  相似文献   

11.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。  相似文献   

12.
子话题是对话题的再次划分,是比话题粒度更细的新兴研究方向,子话题的聚类是话题内部演化关系分析的基础。提出了融合内容特征和时间特征的中文新闻子话题聚类方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。选取5个话题的18个子话题进行了实验,结果表明,所提方法的性能与已有的子话题聚类方法相比有显著提高。  相似文献   

13.
随着信息的迅猛增长,垃圾邮件问题日益严重。如何有效地过滤垃圾邮件成为研究的热点问题。介绍了目前比较常见的几种垃圾邮件过滤技术,分析了垃圾邮件制造者采用的各种新型手段,如简繁体混编、汉字拆分、词间加入特殊字符等,试图绕过基于内容的关键词检查。针对其中几种典型的新型垃圾邮件编写手段,提出改进的中文分词策略,结合基于内容的关键词检查,提出基于特征词扩展的内容检查过滤机制。实验验证改进后的过滤模型可在一定程度上提高对新型垃圾邮件的识别率。最后,对基于特征词扩展思想在网络内容安全和健康过滤上的应用做了展望。  相似文献   

14.
冯礼  李芳  盛焕烨 《计算机工程》2009,35(3):45-47,4
在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本中的语法信息。在原型系统中对该方法进行测试,实验结果表明,该方法是有效的。  相似文献   

15.
张潇鲲  刘琰  陈静 《智能系统学报》2019,14(5):1056-1063
针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型NE-EWV(network embedding based on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验,在现实网络数据集中对模型有效性进行了验证。实验结果表明,在链接预测任务中的AUC指标,相比只考虑结构特征的模型提升7%~19%,相比考虑结构与文本特征的模型在大部分情况下有1%~12%提升;在节点分类任务中,与基线方法中性能最好的CANE性能相当。证明引入外部词向量作为外部知识能够有效提升网络表示能力。  相似文献   

16.
针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问题,提出了一种发现专利新词的双向聚合度特征提取新方法。首先,以词中组分的双向条件概率统计信息为基础,构造提出了一个二元词上的双向聚合度统计特征;其次,利用此特征扩展提出了词边界筛选规则;最后,基于新特征和词边界规则实现专利新词的提取。实验结果表明,新方法在整体F-测度值方面,与通用领域新词发现方法相比,提高了6.7个百分点,与两种最新的专利词性搭配模板方法相比,分别提高了19.2个百分点和17.2个百分点,并且较为显著地提高了4~8字专利新词发现的F-测度值。综合地,所提出的方法提升了专利新词发现性能,并且能够更有效地提取专利文本中具有复合形式的长词,同时可以减少对预先训练过程和额外复杂规则库的依赖,具备更好的实用性。  相似文献   

17.
向量空间模型(VSM)是一种使用特征向量对文本进行建模的方法,广泛应用于文本分类、模式识别等领域。但文本内容较多时,传统的VSM建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,提出一种利用词义和词频降低文本建模维度的方法,以提高效率和准确度。提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文章特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。  相似文献   

18.
特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;引入一个备选特征分布系数来平衡类间选取的特征个数;在维吾尔文数据集上实验验证。实验结果表明,改进的算法对维吾尔文分类效果有明显的提高。  相似文献   

19.
语义相似度的计算是自然语言处理中的重要研究内容,在过去几十年的研究工作中,已有大量的语义相似度计算方法被提出并广泛应用于语义消歧、文本聚类等领域中。基于WordNet本体,改进了信息量IC计算模型,进而提出了两种混合式的语义相似度的计算方法。实验结果表明,由于同时考虑了概念节点在WordNet中的最短路径距离和IC语义距离,所提方法优于已有方法,其计算结果更加接近人类的主观判断。  相似文献   

20.
CHI是一种常用的文本特征选择方法。针对该模型的不足之处,以特征项的频数为依据,分别从特征项的类内分布、类间分布以及类内不同文本之间分布等角度,对CHI模型进行逐步优化,使得特征项频数信息得到了有效利用。提出了一种基于词频信息的改进CHI模型。随后的文本分类试验证明了提出优化CHI模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号