一、故障描述
客户一台NS480 NAS存储上某CIFS文件系统NAS_3无法访问。工程师抵达现场后,着手定位故障。通过WEB端登录后检查NAS_3的配置信息,确认配置无误。删除export后,重建export失败,报错如下:
二、故障排查
1、使用ssh登录control station,通过命令行检查文件系统mount状态,发现/ICMS_App3未能正常挂载,处于corrupt状态:
2、使用命令nas_fsck对文件系统进行修复,执行返回报错:
经过上述操作,工程师推测故障存在于物理存储端,导致了NAS文件服务出现问题。因此抓取spcollect和support_materials文件进行深入分析。
3、在support_materials文件中发现:
4、在spcollect文件中同时发现了无法恢复的sector错误:
由此确定,物理存储IO故障导致文件系统无法mount,进而导致该文件系统无法export使用。
三、故障处理
在确认ICMS_App3所有的连接状态等信息均正常的前提下,工程师首先进行物理存储sector的修复。
1、ssh登录到control station后,使用命令对该volume进行修复:
2、修复完成后重新尝试进行fsck操作:
3、大约30分钟后,fsck操作完成:
4、重新尝试server_mount ICMS_App3成功:
5、重新对ICMS_App3创建export:
至此重新检查,CIFS工作正常。
四、问题总结
NAS480整体上的结构:
SPE+DAE部分负责提供物理存储空间;BLADE部分负责对外提供NAS服务;control station部分负责设备管理工作。
1、在定位故障的过程中,首先要了解设备的组成结构,再按照设备的构成逻辑,依次向下进行故障排查。
2、本次问题从表面来看是NAS服务的问题,所以检查了BLADE部分。而实际上却是由NAS_3对应的物理存储中出现不可恢复的sector引起的,该sector使得NAS_3无法访问。
如欲了解更多,请登录十大靠谱网赌软件官方网站:y8qs.touchmediahk.com