好物优选点击查看详情 京东购买

暂无内容

机械硬盘也是有总体读写总量限制的

前言

同上文。最近没什么时间写文,有群友碰上了就挑我觉得有价值的写一篇。机械硬盘也是有读取、写入量限制的,在硬盘厂商官网,表述为负荷。群友用TrueNAS系统,以8硬盘raidz2的方式组建了自己的NAS,并且“特别讲究”,增加了每月进行一次校验的计划任务,在有一个硬盘出错后,接二连三的出现硬盘异常问题导致数据完全损毁。

分析过程

由于数据已经彻底损毁,没有恢复的必要了,希望我帮忙找出原因。我访问TrueNAS后,观察各硬盘的情况,以及控制台的各项设定。

硬件方面基本上无需检查了,此群友属于“资深发烧友”,一台戴尔的12盘服务器托管在电信IDC机房,可以默认为不需要考虑:硬盘供电、温度、震动对硬盘寿命产生显著的影响。

硬盘本身的寿命同普通电子产品,在一个足够长的观察周期来看,电子产品在一开始会淘汰大量有显著瑕疵的产品。虽然电子产品通过了所谓的“质检”以及“烤机”过程,但是这个过程需要消耗大量的电力,一般的厂商能够完成24小时的测试就不错了。以笔者的使用习惯来说:将服务器维护结束,全新上架的服务器,特别是硬盘产品,会在机柜空转2-3个月,不作为关键性业务的承载节点,在这段时间内对服务器充分的进行各方面的测试:压测、业务部署、测试业务之类的,充分利用价值,而尽量减少后续关键性业务运行的风险。以我个人的记录来看,主要是开始100个小时内,机械、固态硬盘出现灾难性故障的几率是相当大的。除了机械硬盘刚通电就无法使用的情况(某电商平台机械,物流过程中仅纸盒),整箱订货的情况偶尔也会出现,还有速度比同款其他产品明显缓慢、温升高、噪音大之类的能快速看出来的异常,以及突然性的彻底损坏。

硬盘运行环境没有明显的缺点,那么一般就是负荷问题了。

一开始就看到了群友启用了一个计划任务,每个月进行一次全盘检查。在观察系统的历史记录过程中没有发现什么问题,只有一次异常断电。断电的原因:虽然系统部署了双电源,但是一般不那么规范的IDC机房习惯一台设备只连接一个电源。电源故障,导致系统断电。电源虽然售后换新,不过本身双电源系统本来是可以避免这个问题的,比较可惜。

这就是我更偏好整柜托管的原因:不会因为邻居上架下架干扰,碰到之类的情况。以及减少不完善的机房被错误重装之类的问题。服务器不会被“叠罗汉”方式上架,四五台甚至十余台服务器只用一个托盘甚至L支架固定在机柜内。如果增加服务器就往上堆,如果中间、下方的服务器需要移除,就直接抽走,然后“咚”一下,上方的服务器掉落下来。电源线可以自由安装,长期的固定设施可以扎带固定走线美观整洁,减小对散热的影响。更少的因为“管理原因”不得不“关机更换机柜”甚至要“更换IP”。

话说回来,既然是负荷问题,一般来说还是比较容易分析出来的。

群友将服务器托管在电信IDC机房,以年付8000的价格得到了比较宽松的带宽:上行500M,下行千兆的百兆独享托管。以这个情况来看,机房应该是千兆到机柜,然后20U的服务器共享千兆,然后交换机做“基于端口的QOS”,限速入方向500M,入方向最小带宽100M。当然这只是笔者的猜测,有一定的可能性:进入机柜的显然是一根6类屏蔽线。没有观察交换机的型号以及指示灯状态,但是交换机的电口,千兆的可能性还是比较大的。

群友的TrueNAS显然是文件服务器。磁盘负荷主要还是文件服务方向的:

  1. 数个简单的网站,CMS ERP 小程序系统之类的PHP应用。合起来也是“权重为零”的内部站点。日积月累的使用,也产生了接近5TB的数据
  2. Transmission bt 服务端。大约加载了1万个种子排除在不同PT站点重复做种,实际做种资源数量大约70TB,7000个资源。在过去的一年里,下载300T,上传大约600T。
  3. 其他太杂,与磁盘需求也都不大,无关。

出现第一个硬盘故障,重建并没有出现问题,但是后续接二连三的硬盘故障,显然这是一个灾难性的事故,如果没有备份的话,不加思考就可以肯定:丢失了全部的数据。对于这种阵列,以及这个规模的文件系统,显然数据恢复的可行性不大,即使能够恢复,付出的代价也是天价。

机械硬盘也是有总体读写总量限制的_数据

随意访问一款硬盘的描述页面。硬盘厂商均会在官网描述硬盘的工作负载。

工作负载的计算

此群友显然是接近“工作负载”的场景导致硬件寿命结束。这个特性表述的原因我猜测是磁盘实际工作寿命。

硬盘通电时间长不可怕,如果硬盘是热备盘,或者本身硬盘的数据不会被频繁的大量访问,例如Chia这种场景,当整个硬盘被播种占满空间写入一次后,每次访问读取的数据量并不比挂载上硬盘的过程有太多的区别。

首先,每月进行一次校验,大致相当于全盘读取一次的操作。加上PT应用过程中估计一年会产生接近1PB的读写总量,12个磁盘RAIDZ3,那么每硬盘大概110T。如果考虑可能会做种子校验,那么读取量就更大了。群友表述实际上种子校验用的还是蛮多的。

另外检查smartlog,发现群友也有通过smart进行long自检的操作,每次这个操作,也相当于对硬盘进行了一次全盘读取。查阅日志,发现操作也是比较频繁的。

观察硬盘健康相关的历史记录没有什么明显的问题,检查硬盘型号到官查询工作负载量。硬盘基本上也接近5年保修。通过硬盘平均读取速度预估磁头工作时间,磁头本身也几千小时了。

后续

固态硬盘的写入过程中需要擦除,重编程。擦除的过程会逐渐的增加漏电率直到失效。所以频繁写入的固态硬盘的寿命会比标称写入量高得多,特别是连续写入(限原厂这种高品质闪存的产品)。而读取过程中无非是主控读取访问发热罢了。相对于固态颗粒寿命结束,过热导致的主控损坏或者其他部分损坏更为常见。

而机械硬盘在读或者写的过程中,磁头需要进入类似的工作状态。不工作的状态磁头会收回,只有盘片本身转动。

此次“喜闻乐见”的原因就是“寿终正寝”。在标称负载,合适的场景上,硬盘可能能够工作十年,而目前的状态粗略估计,实际上读写量应该是接近两倍的标称工作负荷。在过保之前出现故障,至少应该能够换良品。

西数的硬盘在通电时间累计3年的情况,无论是保修3年还是5年的硬盘均给出告警,这个倒是没什么参考性。如果读写量比较小的情况下,通电时间10年多的硬盘也相当多。那些二手日立2T 3T 4T 6T换标硬盘,基本上都在10年以上了,通电时间基本上也都大于6万小时了。

大容量的硬盘内部多组盘片磁头结构,相当于RAID0,将操作均摊到每个磁头。所以大容量硬盘的读写量会相对于小容量的高得多。

SAS的硬盘能够通过smart输出找到读写量。小部分的SATA机械硬盘,也能够在S.M.A.R.T.信息找到读写量的信息。

群友:后续不敢了。减少自动校验、坏道自检的周期。

原文链接:https://blog.51cto.com/infrado/7758917

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享