WinServer运维管理及常见问题

小宏 4月前 254

登录WinCenter,点击一台物理主机,查看CPU以及内存的使用率。


若CPU以及内存使用率过大,可通过ssh远程登录到计算节点中,检查CPU使用情况:

top

按1展开查看每个CPU的id值(即CPU空闲百分比)来获取分配的每个CPU资源剩余量,此外查询是否存在D状态的异常进程和僵尸(zombie)进程。


若内存使用率较大,可通过以下命令查看内存占用排名前十的进程,以此找出进程有无异常之处

输入命令:

ps -aux|sort -k4nr|head -10


时间同步在超融合中显得格外重要,当时间不一致时,有可能会导致mon同步失败,以及osd down,严重时,可影响业务的正常运行,因此需要对时间配置进行运维以及巡检操作。

通过ssh远程到WinServer中,执行以下命令查看时间配置:

timedatectl

Local time:WinServer系统时间

Universal time:世界时间/格林威治时间

RTC time:硬件时钟

检查Time zone是否配置的上海,以及local time是否时间正确。

若有ntp服务器,使用以下命令同步时间:

ntpdate <ntp_server_ip>

超融合的WinServer里面运行着虚拟化组件的服务,运行着分布式存储的服务。这些服务都会生成日志。如果部署超融合时日志分区空间分配较小,有必要定期检查一下日志是否撑满了整个目录。检查方法如下:

df -h|egrep '/var/log|Use'

清理WinServer日志步骤如下:

查询日志目录下的文件大小

du -sh /var/log/*

先将大文件的日志先拷贝/备份到他处

执行如:

#echo > “日志文件名” 清理日志。

echo > message

为什么安装WinServer时,无法识别到硬盘?

答:首先在硬件BMC界面上或者进入bios设置,确认是否可以正常识别到阵列卡硬件,如可以识别到阵列卡硬件,则为驱动问题,需要提供驱动源码回后端编译驱动。


为什么安装WinServer时,引导进入系统时会出现dracut timeout报错?

答:检查镜像MD5值是否一致,若一致,重新刻录U盘安装尝试。


安装WinServer过程中,弹窗An unknown error has occurred?

答:点击Debug按钮,或者Ctrl+Alt+F2切换终端命令行界面,lsblk查看系统盘盘符,将该系统盘格式化(可用dd或者sgdisk命令),然后重新引导安装WinServer。


当计算节点WinServer的管理网络打了vlan tag时,创建的管理节点无法ping通?

答:当WinServer的管理网络打了vlan tag时,在创建管理节点时应该指定vlan=对应的号,并且无需在安装管理节点时配置虚拟网卡的vlan。若已完成创建管理节点,可通过编辑管理节点的xml文件,找到interface一行,在网络中加上参数tag=对应vlan号,关闭管理节点虚拟机,再开启管理节点虚拟机即可


添加计算节点时,提示主机已被某管理平台管理,如何解决?

答:ssh远程进入该计算节点,将/root/.ssh/目录中的mhost文件删除,再次添加主机即可。


安装WinServer完成后,网络不通,排查发现是因为对端交换机是做了lacp,如何解决?

答:在WinServer底层使用ovs_config_br.sh脚本,指定lacp=active,更新vswitch配置即可,切记不要直接操作底层网络配置文件。

#主备负载模式;网卡名称、ip等根据实际规划修改
ovs_br_config.sh update vswitch0 bond_mode=active-backup eth0 eth1 ip=X.X.X.X netmask=255.255.255.0 gateway=X.X.X.X vlan=X

#LACP链路聚合负载模式;网卡名称、ip等根据实际规划修改
ovs_br_config.sh update vswitch0 lacp=active bond_mode=balance-slb eth0 eth1 ip=X.X.X.X netmask=255.255.255.0 gateway=X.X.X.X vlan=X

手动修改计算节点的IP后,重启网络服务,导致所有的虚拟机网络都不通?

答:由于重启网络服务后,虚拟机网卡都没有附加到ovs上。

1、先关闭虚拟机,再启动虚拟机,即可恢复。(重启虚拟机无效)

2、ifconfig手动查出虚拟机的vnet*,再用ovs-vsctl add-port vswitch* vnet*即可,无需重启虚拟机


鲲鹏芯片组装在非华为的服务器上,会出现异常重启、宕机情况,如何解决?

答:在主机出现异常重启或者宕机的情况,请第一时间获取/var/crash/日志,若在该日志中,可以获取到为sdei_watchdog的堆栈,则证明该watchdog容易出现误判,需要在内核配置文件中,关闭此watchdog。

以传统模式启动为例,修改/etc/grub2.cfg,在最新内核下的linux16一行最后添加disable_sdei_watchdog=true,修改完成后重启主机生效。


在联想SR658H服务器上,海光7285芯片,管理平台运行缓慢,安装window虚拟机引导缓慢?

答:目前只遇到在该服务器上的海光7285芯片,会出现管理平台运行缓慢的情况,并且cpu使用率较高,且安装windows虚拟机引导缓慢,解决此问题需要前往bios设置关闭smt(Simultaneous multithreading)功能,关闭该功能后,恢复正常。


平台上遇到创建共享文件系统时报错,分析后是由于ocfs2集群不正常的原因导致,该如何排查?

答:

1、检查集群主机上的/etc/ocfs2/cluster.conf文件是否一致,并且检查文件里面的主机名跟现在winserver主机名是否一致

2、检查/etc/sysconfig/o2cb文件是否一致

3、检查/sys/kernel/config/cluster/*/node的节点信息是否一致


安装winstore软件包后,计算节点出现断网情况?

答:现场网络为172.17.0.0网段,网关为172.17.0.1,当安装了winstore后,docker服务会自启动,docker的内部网络的IP亦为172.17.0.1,因此产生冲突。解决现场IP冲突的情况即可解决。


 

最后于 4月前 被小宏编辑 ,原因:
最新回复 (0)
全部楼主
返回
发新帖