排序方式: 共有5条查询结果,搜索用时 0 毫秒
1
1.
2.
基于维基百科的领域历史沿革信息抽取 总被引:1,自引:0,他引:1
针对在软件工程的教学过程中,由于领域概念种类多、演变快,导致学生理解记忆困难的问题,提出了通过抽取软件工程领域历史沿革主题信息构建知识库的方法。该方法首先结合自然语言处理技术与Web信息抽取技术从维基百科的自由文本中抽取实体与实体关系构建候选集;再利用关键词抽取方法TextRank从候选集中抽取与历史沿革关系最密切的实体关系;最后以关键实体关系为核心,抽取邻近的时间实体与概念实体组成五元组构建了知识库。在抽取信息的过程中,结合文本的语义信息对TextRank算法进行了改进,提高了抽取的准确率。实验结果表明,该知识库能够将软件工程领域的概念按时序特征组织在一起,验证了所提方法的有效性。 相似文献
3.
针对加筋碎石桩复合地基中桩体性能,通过有限元数值模拟与模型试验对比分析,验证了数值模型的可靠性,进而变换加筋长度,研究分析了复合基础下端承加筋单桩与群桩的极限承载能力和破坏模式。研究结果表明:筋材强度较低时,加筋长度不会对桩体破坏模式产生影响,对极限承载能力提高有限;随着筋材强度不断提高,碎石桩在加筋体以下区域发生剪切破坏,并且随着加筋长度的增加向更深土层发展,基础的极限承载能力线性增长。加筋长度对群桩复合地基不同位置处桩体的破坏模式影响不同。相较于边桩,中心桩在桩身较深位置处发生剪切破坏,筋材需达到较深的长度才发挥约束效果。 相似文献
4.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。 相似文献
5.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。 相似文献
1