基于Scratch作品相似度的检测研究 |
| |
引用本文: | 张锦,胡子达,陆玟冰,杨定康,李强,罗元盛.基于Scratch作品相似度的检测研究[J].计算机技术与发展,2023(10):143-149. |
| |
作者姓名: | 张锦 胡子达 陆玟冰 杨定康 李强 罗元盛 |
| |
作者单位: | 1. 湖南师范大学信息科学与工程学院;2. 长沙理工大学计算机与通信工程学院 |
| |
基金项目: | 国防科技重点实验室基金项目(2021-KJWPDL-17);;国防科工局国防基础科研计划(WDZC20205500119);;湖南省自然科学基金(2021JJ30456); |
| |
摘 要: | Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测学生作品,从而提高教学效率。针对该问题,提出Siamese-BERT模型对两个Scratch作品之间的相似度进行检测。首先,对Scratch源文件进行解析提取原始积木块序列,根据积木块逻辑特征提出一种积木块重构算法,将原始积木块序列排序成Token序列,将Token序列作为CBOW(Continuous Bag of Words)模型的输入文本进行预训练,从而得到Scratch的词向量模型;再使用Siamese神经网络框架结合BERT(Bidirectional Encoder Representation from Transformers)模型组合训练,最终输入到余弦相似度函数进行相似度计算。数据集来自于长沙市Scratch培训机构的培训作品和学生的练习作品,在该数据集上,Siamese-BERT模型准确度能达到0.82,对比其它的文本相似度模型,Sia...
|
关 键 词: | Scratch图形化编程 Siamese-BERT模型 连续词袋模型 Siamese神经网络 BERT模型 余弦相似度 |
|
|