WinStore由于其多副本机制,其本身具有一定的容灾能力,当有一个磁盘坏了,或者一个节点宕机了不影响存储的继续提供服务,但是此时此刻是处于一个不可抗灾的时间。当存储的监控状态显示冗余度降低说明环境是有故障(指该存储池有一部分副本数据访问不到),但是还没有到不可用的级别。如下图所示
需要关注的是整个分布式存储集群还有多少存储资源资源剩余,当可用存储量少于20%的时候,用户应考虑扩容的事情了。否则当存储有磁盘用到95%的情况下,IO会完全锁死,导致环境异常,应用无法继续提供服务。查询WinStore每一个OSD使用率的命令是
ceph osd df
在创建winstore集群时,在进行网络配置时,为什么无法找到虚拟交换机?
答:在创建虚拟交换机时,不可以使用带“-”的虚拟交换机名字。
在创建winstore集群时,在进行数据盘/缓存盘配置时,为什么无法识别到硬盘?
答:由于硬盘存在分区,因此winstore会自动剔除有分区的磁盘,可以在WinServer执行sgdisk –Z /dev/sdX后,界面即可识别到硬盘进行配置。
创建winstore集群失败,报错日志体现无法对交换机进行网络配置。
答:原因是由于存储的虚拟交换机,命名不为vswitch开头,因此程序无法正常配置IP,需要将存储使用的虚拟交换机命名为vswitch开头,才可以正常配置IP。
创建winstore集群失败,日志体现部署osd超时,如何排查?
答:部署OSD超时,一般是由于系统盘的性能太差,或者网络质量有问题,可以先检查网络质量,ping大包是否存在丢包状态,解决网络问题以及系统盘性能问题后,重新部署winstore集群。
WinStore界面上显示slow ops或者监控信息收集齐无法连接,如何解决?
答:由于主机时间不同步,因此逐渐会累积slow ops,同步主机时间,重启mon服务即可。
WinStore界面报错,监控节点mon down,如何排查?
答:
1、检查根分区是否爆满,需预留空间给mon服务运行
2、检查mon节点存储网络是否正常
3、尝试重启mon服务,winstore-mon@<主机名>.service
OSD down,如何排查什么原因导致?
答:分析/var/log/ceph中的OSD日志
1、硬盘损坏
2、网络不通
3、OSDdb损坏 等
WinStore性能较差,无法达到checklist预期,如何排查?
答:通过性能排查checklist文档,排查性能问题。
1、检查服务器是否开启CPU性能模式,阵列卡是否设置缓存盘或数据盘直通模式,是否关闭阵列卡缓存
2、ping大包,ping -s 65000
3、检查网络重传率
4、是否关闭rbd缓存
5、设置管理资源预留
6、存储网卡bong模式是否设置成主备模式
经过排查OSD down是由于硬盘损坏,该如何更换硬盘?
答: 1、确保底层存储状态已重构完成。2、点亮硬盘灯更换硬盘后,在界面点击更换硬盘操作。
经过排查OSD down分析日志是db文件不存在,该如何处理或者后续规避?
答:
1、db文件丢失恢复方法需重建OSD/存储池,该问题较为严重需提前做好规避措施。
2、输入命令:MegaCli -LDGetProp -Cache -L0 -a0,检查阵列卡是否开启缓存,若开启即显示writeback。
3、需重启进入阵列卡界面关闭阵列卡缓存即可规避因断电导致系统文件丢失的风险。
WinStore存储将满或者已满,该如何处理?
答:
1、优先删除快照、镜像等释放空间,有其他存储池可进行虚拟机磁盘迁移,缓解WinStore存储池空间压力。
2、扩容节点或者硬盘
WinStore存储池无法启动,如何排查?
答:
1、检查WinStore容器是否正常
2、主机之间存储网络是否正常
3、存储状态是否正常
WinStore常用命令
查看集群健康度
#ceph -s
查看集群容量使用
#ceph df
查看每个osd是否处于up状态
#ceph osd tree
查看每个磁盘的容量和权重等
#ceph osd df
查看版本
#ceph –v
重启OSD服务
#systemctl restart winstore-osd@*
重启MON服务
#systemctl restart winstore-mon@<hostname>