首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。  相似文献   

2.
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。  相似文献   

3.
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。  相似文献   

4.
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。  相似文献   

5.
现有汉越跨语言新闻事件检索方法较少使用新闻领域内的事件实体知识,在候选文档中存在多个事件的情况下,与查询句无关的事件会干扰查询句与候选文档间的匹配精度,影响检索性能。提出一种融入事件实体知识的汉越跨语言新闻事件检索模型。通过查询翻译方法将汉语事件查询句翻译为越南语事件查询句,把跨语言新闻事件检索问题转化为单语新闻事件检索问题。考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,利用事件触发词划分候选文档事件范围,减小文档中与查询无关事件的干扰。在此基础上,利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词以及事件实体知识表示之间的排序特征。在汉越双语新闻数据集上的实验结果表明,与BM25、Conv-KNRM、ATER等基线模型相比,该模型能够取得较好的跨语言新闻事件检索效果,NDCG和MAP指标最高可提升0.712 2和0.587 2。  相似文献   

6.
一种面向中文敏感网页识别的文本分类方法   总被引:1,自引:0,他引:1  
陈欣  张菁  李晓光  卓力 《测控技术》2011,30(5):27-31
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分.为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400...  相似文献   

7.
中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。  相似文献   

8.
编制后控词表是实现智能查询的重要环节.针对建立"智能化建设法规政策知识库",重点研究通过后控词表实现智能化查询的方法.针对自然语言查询涉及政策法规和案例两类查询结果,从而设计了包含有两个主题词表,共6个词表的后控词表模式,分析词表关联关系,说明词表的词汇集合关系,并给出了基于此模式的智能查询算法,对大型文献智能知识库系统开发中后控词表的编制具有一定借鉴意义.  相似文献   

9.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

10.
中文分词是中文自然语言处理的重要任务, 其目前存在的一个重大瓶颈是未登录词识别问题. 该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法. 滤除文本中无关识别的标点符号和特殊字符后, 此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串, 并通过停用词词表和核心词库的筛选过滤, 得到候选未登录词; 然后, 计算候选未登录词的最小邻接熵, 并依据词频-最小邻接熵判定阈值, 确定出文本中的未登录词. 通过理论及实验分析, 此方法对不同的文本, 在不需要长时间学习训练调整参数的情况下, 即可生成个性化的未登录词词典, 应用于中文分词系统后, 其分词正确率、召回率分别达到81.49%、80.30%.  相似文献   

11.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。  相似文献   

12.
心理健康问题已经成为当今社会关注的焦点,它严重威胁着家庭和睦与社会稳定.有心理危机的用户经常通过特定的社区论坛或者社交媒体来求助或倾述,这为用户心理危机识别开辟了一个新的途径.论坛帖子长短不一,但判断心理危机的核心信息往往体现在局部内容上,基于此特点,本文构建了一个结合分层长短记忆网络和卷积神经网络的多层局部信息融合模型(Multi-layer Partial Information Fusion model,MPIF),利用论坛用户发布的帖子,检测用户的心理危机严重程度.模型的特点在于:1)利用预训练语言模型BERT对用户帖子中的句子进行向量化表示,充分考虑词语在不同语境中的不同含义表达;2)分别从词、短语、以及句子层面挖掘反映用户心理危机状态的信息,采用深度分层LSTM网络和注意力机制相结合的方式来获取待分类帖子中词语层面以及句子层面的局部信息,利用CNN网络中多种大小不同的卷积核来提取帖子中短语层面的局部信息;3)采用注意力机制和最大池化层,使得模型不仅能够有效地利用局部信息给出心理危机程度的判断,同时可以将这些局部信息展示给心理专家,辅助专家更快了解患者.基于CLPsych2019 Shared Task评测任务的实验结果显示,与评测时排名第一的模型相比,MPIF模型的官方评测指标All-F1值(自杀风险程度a,b,c,d 4个类别的F1值取平均)高出3.9%.经消融实验发现,去除LSTM词语层、CNN短语层、LSTM句子层,All-F1分别下降4%、4.3%、2.4%.  相似文献   

13.
As firms’ essential stakeholder, users can be evoked by the information from firms’ action. Users interpret relevant cues from the information and respond to it through engagement behavior such as online word of mouth through social media. Drawing on the information processing theory, this study develops a model of how user engagement behavior mediates the relationship between a firm’s actions and performance. The theoretical model is tested in two empirical studies. One uses actions of six representative Internet service firms and their users’ online word-of-mouth behavior over a 50-month period. The second is a two-stage controlled laboratory experiment designed to establish causal linkages between firm actions and user engagement. The study provides support for its hypotheses and offers several key findings. First, the firm’s actions influence user engagement behavior. Specifically, when a firm launches a larger number of actions, users are engaged in a higher volume of activities and deeper activities. When a firm employs actions that are simpler and easier to understand, users are engaged in deeper activities but not necessarily a larger volume of activities. Second, user engagement is a missing link between a firm’s actions and performance. Specifically, engagement depth positively mediates the effects of both action volume and action simplicity on performance. By contrast, engagement breadth positively mediates the effect of action volume but not the effect of action simplicity on performance. Collectively, the study contributes to a clearer understanding of the role of users in firms’ actions and provides key insights regarding how firms benefit from user engagement.  相似文献   

14.
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明 改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。  相似文献   

15.
水利信息资源的种类、内容多,专业性强,而且分布散乱,难以检索.论文结合水利领域的特定需求,提出了一个基于云平台的水利垂直搜索引擎—Water-Searcher,以期为水利领域的工作者提供一个能及时、全面、系统地了解水利领域信息资源的平台.具体内容包括建立水利种子站点列表,构建水利领域词典和领域停用词典,筛选出水利核心网站,结合已有的云平台实现分布式搜索.根据实验分析结果和专家认定机制,Water-Searcher能为水利工作者提供更好的专业化检索服务.  相似文献   

16.
当分词算法优化到接近极限时,分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度。因此,如何快速、省力、自动化地构建具有较完备的分词语料库是一个亟待解决的问题。该文对用户输入过程中留下的大量可用且珍贵的自然分词信息进行了探索和研究,为自动构建分词语料库提供了一种新的观点。前人的研究中,对用户在输入过程中留下的自然分词标记信息并没有关注,而该文通过实验验证了这些分词标记信息确实可以用于构建分词语料库,并且具有相当好的效果。其中经过甄别优秀用户在输入时留下的分词标记十分接近标准的分词结果。该文使用分类模型结合投票机制的方法找到三个此类优秀用户,获取了他们带有输入标记的文本,快速构建了分词训练语料库,极大地提升了分词器的精度;更重要的是,揭示并验证了自然输入分词标记信息的有效作用。  相似文献   

17.
With the proliferation of mobile devices and the growing necessity for gender information in personalized intelligent systems, gender prediction of mobile users has become an important research issue. Text data in mobile devices are known to have high discriminative power for gender, but transmitting those data to the outside of a device has a security risk and raises a privacy concern of users. This study introduces an on-device gender prediction framework, by which the entire data analysis is performed inside a device minimizing the privacy risk. To cope with the resource limitation of mobile devices, gender information of a user is predicted by matching the user’s mobile text data against gender representative wordsets which are constructed from web documents using a word evaluation measure. From the experiments conducted on real-world datasets, the effectiveness of the proposed framework was confirmed, and it was concluded that not only discriminability of a word but also popularity should be considered for the on-device gender prediction. The proposed framework is simple yet very powerful for gender prediction that its practical application to various expert and intelligent systems is possible attributed to the low computational complexity and high prediction performances.  相似文献   

18.
针对脑控轮椅行驶时因用户脑电信号的不稳定性可能引起碰撞事故发生的现象,提出了一种避障方法,并设计了多路超声波传感器避障系统及避障提示反馈界面;反馈界面上实时显示的提示信息将辅助用户做出有效的避障决策;当用户采用脑电自主控制轮椅运行时,若无法成功避障,则该避障系统立即启动紧急停车功能以避免与障碍物发生碰撞,保证了脑控轮椅用户的人身安全;实验结果表明:当把安全区域临界值、前后及左右紧急停车距离临界值分别设置为500mm、400mm和200mm时,该超声波传感器避障系统稳定性好、实时性强,能够满足脑控轮椅的用户安全导航的需要.  相似文献   

19.
Recommender systems appear among other reasons with the purpose to improve web information overload and ease information recovery. This kind of systems aid users to find contents in a non-difficult way and with minimal effort. Even though, a great number of these systems performance requires contents to be explicitly rated in order to determine user’s interest. When interacting with electronic books this performance may alter users reading and understanding patterns as they are asked to stop reading and rate the content. Therefore, the analysis of user behavior, preferences and reading background can be considered suitable for a recommender system to build collective web knowledge in a collaborative learning context. This way, recommender system can assist users in finding contents of their interest without explicit rating based on previous constructed knowledge. The goal of this research is to propose an architecture to build a content recommendation platform based on eBook reading user behavior, allowing users to learn about the digital content collaboratively. This platform is formed by web readers’ community that aids members in finding contents of their interest in an automatic way and with minimal effort.  相似文献   

20.
Web文本聚类算法的分析比较   总被引:2,自引:0,他引:2  
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号