Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

宇宙射线对计算机讯号传递的错误率有多大影响?

$
0
0

日报标题:路由器出 bug,还真的可能是宇宙射线的影响

相关链接:思科称可能是宇宙射线触发了路由器 bug

呆涛

有谬误欢迎指正,非核工程专业。

非常大。

电路是靠着电容上积累的电荷确定 0 或者 1 的。

任何形式的辐射, 都会伤害无保护的 ASIC 电路。 方式多种多样, 最终目的无非一个: 以电离, 撞击等方式, 导致 Soft Error(软错误,也即可以纠正的,不影响硬件本身的错误),其中 single event effect(SEE, 单事件错误)是这里面主要的参量 。严重的,甚至会导致硬件本身损坏 (Hard Error),也即不可修复的错误。这一点放到后面讲.

也就是说,我往内存里存了个数,二进制 0000 1111; 结果粒子一打过来,哟呵~ 变成 0001 0111 了。

如果是数学运算……加减法做不对会导致计算轨道错误啊之类的;如果是控制位……你最好保证反转的那两个比特没有控制什么飞船弹射之类的参数。 不然本来输入 0 不要弹射, 一反转变成 1 赶紧弹射。玩儿脱了……

比如说切尔诺贝利事件之后,苏联令人发指的召集志愿者去清理辐射,原因是机器人进去就不听使唤了。更严重的是,这些机器人拿出来以后,也不能使用了。

那么怎么知道我这个电路会不会这样呢? 标准方法叫做 SEE testing, 单次事件测试。

这个测试简单粗暴: 用一束已知能量的粒子去轰击测试芯片, 同时进行外部操作, 看最终结果会不会翻转。这一束粒子可以是任何粒子,包括 alpha 射线,beta 射线,中字束,混合各种各样的粒子等等。粒子束的强度统一以入射粒子的能量,linear energy transfer, LET 来记。具体到数量级上的话, 如果是目前普通的家用计算机,大概电离辐射量 在 0.x keV cm2 /mg 就挂了。 (挂了=出现了软件诸如 ECC 无法修复的错误)

* 对于伽马射线,LET 的计算方式不太一样,因为这货是光子; 计算的时候一般是算由伽马射线引发的电子束强度.

太空的标准参考 LET 是 60-120 MeV cm2 /mg

垮了噻… 差了几个数量级啊!

原因是家里面的电脑由于地球母亲磁场和大气层的保护, 基本不会受到轰击。 设计的时候, 设计师们都表示呵呵呵呵谁要管你。

太空工程师表示……我们怎么办……

说一下 LET 是如何用来测量的: 一般来说,用一束粒子轰击这个芯片,如果这个轰击有效 (改变了某些元器件电容上的电荷),那么这个芯片上会向外射出粒子.

LET,顾名思义,线性 能量 转移,就指的是在这个有效轰击里,有多少能量被转移出来了.

LET_thresh,是对于一个器件来说,不断地给它施加高能粒子束,高到某一个能级的时候,飞出来的粒子能量不再提升了.

那么一般来说,家用机 LET_thresh 非常低,表现形式就是稍稍拿粒子轰击一下,就会飞出来一堆电子; 但是如果我逐步加大这个粒子束的强度,出来的电子不会变多!

什么意思呢? 就是说: 家用机无论你怎么轰击,就只能出来这么多电子了。再多的电子在原子内层,你轰不出来.

为什么这是一个坏事呢? 半导体里面可用的电子密度就那么点点,结果一点点粒子束就全把它轰出来了剩下的原子核和内层电子等着结婚咩...

所以说,环境里面的 LET 越高,说明这个环境有能力轰出更多的电子; 器件的 LET_thresh 越高,说明这个器件能承受被轰出更多的电子,也即在高辐射下更加稳定。

在 CMOS 出生的同时, 太空 / 核 工程师们就找到了一种能让标准 CMOS 承受高辐射的方法:

把 CMOS 设计成这样:

这叫做 enclosed layout transistor。 很恶心吧! 这玩意儿的 长宽比不再可以简单的算出来了, 而是要用一套复杂的公式计算。

这样可以把微米级别的电子芯片做到几十 MeV cm2/ mg。看起来不错哦~

(该技术依然广泛应用于目前的航天 / 高能物理场所)。

但是! 地上的工程师们呵呵一笑: 我们的 sub-micron technology 要不要? 要不要? 不要的话我们就继续奔向纳米级别了,你们微米级别慢慢玩。

太空工程师一计算, 0.25um 的 CMOS 只能承受 大概 15MeV cm2 / mg… 表示不开心。

然后, 在 CERN 制作 LHC 的时候, 又继续发扬光大, 缩小器件的同时,加入了 harden mode(也即在上面那个 ELT 的基础上在外圈再加入一圈凶残的 guardring,这样可以抵御相对强烈的粒子束轰击)。

然后就做到了 89MeV cm2 / mg, 反正 CERN 表示我们的 LHC 够用了。

记得太空里是 60-120 MeV cm2 /mg 吧… 太空工程师欲哭无泪… 你们做这个才刚刚达标啊!

(原话:那没办法啦… 硬件差不多到头了…剩下的只能靠软件了…)

改为: 电路方法克服这些错误基本到头了,剩下的靠屏蔽 + 架构来解决。

克服 Soft Error 有两个无坚不摧的法宝: 把电路做大或者频率减低。但是这两个都会拖慢计算机的效率。

架构上的方式,基本可以总结为:加冗余,交织设计,和家用机里也会有的 ECC(Error Correct Code)。当然这里的 ECC 会不同。(感谢@太初有为的指正!)

加冗余就是把本来一个电路能完成的份额用三个或者更多个(奇数个)电路做,做出来之后取多数答案当做正确答案。假设本来某个粒子有 50% 的可能会翻转一个比特,三份冗余之后,就只有 50% * 50%= 25% 的概率了。另外,据@太初有为说以及查证,标准的三份冗余会使用不同的时钟等,这样更是降低了一个粒子干扰一片电路的可能性。

交织设计在@太初有为的答案里有详细的介绍。不再赘述。

(具体参考文献可点击「查看知乎讨论」获取。)

太初有为,信仰的光是坚信心不会在黑暗中沉沦,坚信灵魂会奔向更光明的地方,坚信无论经过几世轮回,最终会达成圆满的喜悦。

所谓的宇宙射线,也叫空间辐照,主要对 CMOS 体硅工艺的器件会有比较大的影响。

很不幸地,我们大部分的计算机芯片都属于这个范畴。

空间辐照主要考虑有这样几个影响:总剂量效应和单粒子效应。总剂量效应是一个类似电子迁移一样的累积过程,比如会造成一个反相器的翻转电压降低,最后不能工作。这个效应在地球上基本不必考虑,一是因为到达地球大气层的高能粒子数量较少,第二大部分电子器件的寿命没有设计的过长。但是在空间就不一定了,在空间环境里长期的粒子能量积累,最终会造成器件的损伤。总剂量效应的度量单位是拉德(材料),一般按照 nasa 的要求,近地轨道要求在器件生命周期内能抗 200k 拉德(硅)的辐照量,而深空环境里面,一般都是要求抗 1M 拉德(硅)以上的总辐照剂量。那么在地球上,其实不必特别考虑总剂量的影响。

其次是单粒子效应。单粒子效应就是指一个高能粒子打穿 CMOS 的某些敏感区域,造成器件的失效。这种失效有硬失效有软失效。硬失效就是器件损伤了。一般这种硬失效表现为闩锁。闩锁的现象就是器件电流突然增大,最终被烧毁。闩锁就是 CMOS 中衬底和阱之间的 pnpn 结被导通,最终形成一个正反馈回路。闩锁在地面也会发生,但不一定是高能粒子造成的,也有可能是相邻两个 cell 靠的比较近产生互感。这个一般芯片设计商在设计的时候都会考虑这个效应,但是不会细致到考虑高能粒子击穿器件那个地步,所以闩锁在地面会发生,但几率不大,即使发生了也不一定会烧毁器件(闩锁在某些条件下是可以退出的),属于小概率事件。然后,单粒子效应还会造成软失效,就是所谓单粒子翻转或单粒子脉冲。

单粒子脉冲的发生也是需要高能粒子打在 cmos 器件上,然后形成一个毛刺,这个毛刺如果运气好,可以被下一级的 DFF 吸收掉,运气不好,正打在 DFF 的建立保持时间窗内,寄存器就翻转了。最可怕的是打在时钟树的根节点上,那就会造成大面积的寄存器错误翻转。即使被打中,这个会不会造成 bug 也是个概率问题,假设打中了某个通用寄存器,但是这个寄存器可能不会被使用,或下一拍就被刷新了,那就和没打中一样。除了单粒子脉冲,还有单粒子翻转,这个发生的粒子能量阈值条件是最低的,因此是软失效中最常见的现象。这种软失效不一定会由宇宙射线造成,在地球上发生的几率也很大。

记得很久以前,某次太阳黑子爆发,某厂家的服务器的 CPU 因为没有做软失效加固,造成大面积失效,丢失大量市场份额。在这方面现在做的最好的是 SUN,他家的服务器以稳定著称,但是当我知道他们的 CPU 做的加固手段之全面,也还是被折服了。一般来讲所有的软失效的发生是个概率事件,发生了会不会造成 bug 也是个概率事件,造成了 bug 你会不会观察到,又是个概率事件,观察到了对主功能会不会造成影响还是个概率事件。

针对软失效,芯片厂家会在硬件上进行加固,所谓的加固,一般来说就是增加校验,你看很多服务器的内存都是带 ECC 的,这种校验一般可以纠正一位错误,检查到两位错误。还有一个就是在内存上进行交织设计,就是让一个 word 的 bit 尽量分散在不同区域,不要一个粒子打中后一下错一片。所有不重要的寄存器做 parity,重要的做 ecc,反正就是能想到的全给你加上。

抗单粒子软失效还有一个手段就是换材料和工艺,比如在硅上再生长一层,被称为外延增长技术的硅片,或者干脆换成绝缘体上硅材料,这个是 IBM 研发的,AMD 曾经有几条产线,以前所有的 powerpc 都是基于这个材料工艺的。这个工艺的初衷是降功耗和面积,后来还发现他有个抗单粒子效应的自带属性,后来就被美国军方关注了,再后来因为这个工艺成本还是比较大,逐渐就被商业弃用了。

所以总体上来讲,宇宙射线对 bug 还是有一定的影响的,但取决于你的可靠性要求。在某一个阈值上任何增加可靠性的设计都是昂贵的,软失效设计是一门系统工程,如果只是想简单防一下,其实采用高等级的服务器,多加校验方式,还是提升比较明显的。


Viewing all articles
Browse latest Browse all 20608

Trending Articles