机械硬盘也是有总体读写总量限制的-MyLoo科技网

前言

同上文。最近没什么时间写文，有群友碰上了就挑我觉得有价值的写一篇。机械硬盘也是有读取、写入量限制的，在硬盘厂商官网，表述为负荷。群友用TrueNAS系统，以8硬盘raidz2的方式组建了自己的NAS，并且“特别讲究”，增加了每月进行一次校验的计划任务，在有一个硬盘出错后，接二连三的出现硬盘异常问题导致数据完全损毁。

分析过程

由于数据已经彻底损毁，没有恢复的必要了，希望我帮忙找出原因。我访问TrueNAS后，观察各硬盘的情况，以及控制台的各项设定。

硬件方面基本上无需检查了，此群友属于“资深发烧友”，一台戴尔的12盘服务器托管在电信IDC机房，可以默认为不需要考虑：硬盘供电、温度、震动对硬盘寿命产生显著的影响。

硬盘本身的寿命同普通电子产品，在一个足够长的观察周期来看，电子产品在一开始会淘汰大量有显著瑕疵的产品。虽然电子产品通过了所谓的“质检”以及“烤机”过程，但是这个过程需要消耗大量的电力，一般的厂商能够完成24小时的测试就不错了。以笔者的使用习惯来说：将服务器维护结束，全新上架的服务器，特别是硬盘产品，会在机柜空转2-3个月，不作为关键性业务的承载节点，在这段时间内对服务器充分的进行各方面的测试：压测、业务部署、测试业务之类的，充分利用价值，而尽量减少后续关键性业务运行的风险。以我个人的记录来看，主要是开始100个小时内，机械、固态硬盘出现灾难性故障的几率是相当大的。除了机械硬盘刚通电就无法使用的情况（某电商平台机械，物流过程中仅纸盒），整箱订货的情况偶尔也会出现，还有速度比同款其他产品明显缓慢、温升高、噪音大之类的能快速看出来的异常，以及突然性的彻底损坏。

硬盘运行环境没有明显的缺点，那么一般就是负荷问题了。

一开始就看到了群友启用了一个计划任务，每个月进行一次全盘检查。在观察系统的历史记录过程中没有发现什么问题，只有一次异常断电。断电的原因：虽然系统部署了双电源，但是一般不那么规范的IDC机房习惯一台设备只连接一个电源。电源故障，导致系统断电。电源虽然售后换新，不过本身双电源系统本来是可以避免这个问题的，比较可惜。

这就是我更偏好整柜托管的原因：不会因为邻居上架下架干扰，碰到之类的情况。以及减少不完善的机房被错误重装之类的问题。服务器不会被“叠罗汉”方式上架，四五台甚至十余台服务器只用一个托盘甚至L支架固定在机柜内。如果增加服务器就往上堆，如果中间、下方的服务器需要移除，就直接抽走，然后“咚”一下，上方的服务器掉落下来。电源线可以自由安装，长期的固定设施可以扎带固定走线美观整洁，减小对散热的影响。更少的因为“管理原因”不得不“关机更换机柜”甚至要“更换IP”。

话说回来，既然是负荷问题，一般来说还是比较容易分析出来的。

群友将服务器托管在电信IDC机房，以年付8000的价格得到了比较宽松的带宽：上行500M，下行千兆的百兆独享托管。以这个情况来看，机房应该是千兆到机柜，然后20U的服务器共享千兆，然后交换机做“基于端口的QOS”，限速入方向500M，入方向最小带宽100M。当然这只是笔者的猜测，有一定的可能性：进入机柜的显然是一根6类屏蔽线。没有观察交换机的型号以及指示灯状态，但是交换机的电口，千兆的可能性还是比较大的。

群友的TrueNAS显然是文件服务器。磁盘负荷主要还是文件服务方向的：

数个简单的网站，CMS ERP 小程序系统之类的PHP应用。合起来也是“权重为零”的内部站点。日积月累的使用，也产生了接近5TB的数据
Transmission bt 服务端。大约加载了1万个种子排除在不同PT站点重复做种，实际做种资源数量大约70TB，7000个资源。在过去的一年里，下载300T，上传大约600T。
其他太杂，与磁盘需求也都不大，无关。

出现第一个硬盘故障，重建并没有出现问题，但是后续接二连三的硬盘故障，显然这是一个灾难性的事故，如果没有备份的话，不加思考就可以肯定：丢失了全部的数据。对于这种阵列，以及这个规模的文件系统，显然数据恢复的可行性不大，即使能够恢复，付出的代价也是天价。

机械硬盘也是有总体读写总量限制的_数据

随意访问一款硬盘的描述页面。硬盘厂商均会在官网描述硬盘的工作负载。

工作负载的计算

此群友显然是接近“工作负载”的场景导致硬件寿命结束。这个特性表述的原因我猜测是磁盘实际工作寿命。

硬盘通电时间长不可怕，如果硬盘是热备盘，或者本身硬盘的数据不会被频繁的大量访问，例如Chia这种场景，当整个硬盘被播种占满空间写入一次后，每次访问读取的数据量并不比挂载上硬盘的过程有太多的区别。

首先，每月进行一次校验，大致相当于全盘读取一次的操作。加上PT应用过程中估计一年会产生接近1PB的读写总量，12个磁盘RAIDZ3，那么每硬盘大概110T。如果考虑可能会做种子校验，那么读取量就更大了。群友表述实际上种子校验用的还是蛮多的。

另外检查smartlog，发现群友也有通过smart进行long自检的操作，每次这个操作，也相当于对硬盘进行了一次全盘读取。查阅日志，发现操作也是比较频繁的。

观察硬盘健康相关的历史记录没有什么明显的问题，检查硬盘型号到官查询工作负载量。硬盘基本上也接近5年保修。通过硬盘平均读取速度预估磁头工作时间，磁头本身也几千小时了。

后续

固态硬盘的写入过程中需要擦除，重编程。擦除的过程会逐渐的增加漏电率直到失效。所以频繁写入的固态硬盘的寿命会比标称写入量高得多，特别是连续写入（限原厂这种高品质闪存的产品）。而读取过程中无非是主控读取访问发热罢了。相对于固态颗粒寿命结束，过热导致的主控损坏或者其他部分损坏更为常见。

而机械硬盘在读或者写的过程中，磁头需要进入类似的工作状态。不工作的状态磁头会收回，只有盘片本身转动。

此次“喜闻乐见”的原因就是“寿终正寝”。在标称负载，合适的场景上，硬盘可能能够工作十年，而目前的状态粗略估计，实际上读写量应该是接近两倍的标称工作负荷。在过保之前出现故障，至少应该能够换良品。

西数的硬盘在通电时间累计3年的情况，无论是保修3年还是5年的硬盘均给出告警，这个倒是没什么参考性。如果读写量比较小的情况下，通电时间10年多的硬盘也相当多。那些二手日立2T 3T 4T 6T换标硬盘，基本上都在10年以上了，通电时间基本上也都大于6万小时了。

大容量的硬盘内部多组盘片磁头结构，相当于RAID0，将操作均摊到每个磁头。所以大容量硬盘的读写量会相对于小容量的高得多。

SAS的硬盘能够通过smart输出找到读写量。小部分的SATA机械硬盘，也能够在S.M.A.R.T.信息找到读写量的信息。

群友：后续不敢了。减少自动校验、坏道自检的周期。

原文链接：https://blog.51cto.com/infrado/7758917

声明📢本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

THE END

教程转载
# 硬盘 # 机械硬盘 # 硬盘磁头