摘 要: | 存储器可靠性问题是构建E级计算系统的关键挑战之一.存储器故障占计算机系统硬件故障的40%以上,随着存储器数量增加、存储器密度扩展和接口速率提升,E级计算机中存储器和访存传输通路的可靠性问题将会愈发严峻,传统的SEC-DED汉明码的纠检错能力难以满足E级系统高可靠性的需求.RS码是一种纠错能力很强的多项式编码,可实现Chipkill技术,然而,可纠多符号错的RS码的译码电路复杂,直接应用于存储器领域较为困难.本文提出了一种基于RS码和重传机制的内存可靠性增强技术——R-RS(Retransmission-RS),通过精心挑选本原多项式和校验矩阵设计了具有低硬件实现开销的RS编码,并通过精细化电路设计实现了并行高效低延迟译码,提出了基于窗口保序的重传机制对传输链路上的偶发故障所致错误进行重传,R-RS可纠正4个8位符号错,能够有效应对传输链路和存储器内部的随机单比特错、突发错以及传输链路偶发错误.R-RS的冗余存储开销为12.5%,性能开销是额外的1拍译码延迟,其面积仅占整个存储控制器的3.5%,与同类别的E-ECC方案相比,其纠正双颗粒、三颗粒突发错的能力分别提升了83.3%和109.5...
|