
傲世皇朝线路测速?先诊断外部,后诊断内部。诊断故障时,应先排除外部的可能因素,如电源中断、对接设备故障等。先诊断网络,后诊断网元。根据网络拓扑图,分析网络环境是否正常、互连设备是否发生故障,尽可能准确定位出是网络中哪个网元发生故障。
FusionServer Tools Toolkit工具必须在停止服务器业务后使用,请告知客户先迁走服务器上的业务。
表示iMana 200/iBMC管理系统正在启动,此时按电源开关按钮无法开关机
按PWR键开机,如果无法正常开机,请登录iMana 200/iBMC Web界面排查相关告警。
对于E9000服务器,如果iMana 200/iBMC无法登录,请检查机箱后面的电源模块指示灯和管理模块指示灯是否显示正常。如果正常,则说明机箱供电正常;如果不正常,则说明机箱供电异常,请检查外部电源供电情况。
对于E9000服务器,如果确认供电正常且电源模块无异常,说明计算节点已故障,请联系华为技术支持工程师更换计算节点。不可再插拔计算节点,及尝试整框上下电。
UID按钮/指示灯可方便地定位待操作的服务器,通过手动按UID按钮或者通过iMana 200/iBMC命令远程控制使灯灭或灯亮。
长按定位按钮4~6秒钟,复位服务器的iMana 200/iBMC管理系统。
表示输入正常,电源过温保护、电源输出过流/短路、输出过压、短路保护以及器件失效(不包括所有的器件失效)等导致电源无输出
拆下内存模块,长按此内存故障定位按钮,此时,存在故障的内存对应的指示灯变亮。
具体请参见《RH5885 V2服务器(8路) V100R001C02 用户指南》 2.5.1 前面板组件和2.5.2 指示灯和按钮 章节。
具体请参见《RH5885 V3服务器V100R003 用户指南》 2.4 指示灯和按钮 章节。
对于支持堆叠的交换模块:表示交换模块工作在堆叠主用状态或者未堆叠,且工作正常
对于支持堆叠的交换模块:表示交换模块工作在堆叠备用或者堆叠从状态,且工作正常
登录HMM Web界面检查事件告警日志,检查交换模块是否插稳或是否存在故障。
目前,支持故障诊断数码管的服务器包括:RH1288 V3、RH2288 V3、RH2288H V3、RH5885 V3、5288 V3、1288H V5、2288H V5、2488 V5,故障诊断数码管的显示状态及含义如表6-10所示。以RH1288 V3为例,其故障诊断数码管的位置如图6-2所示,请根据故障诊断数码管上显示的故障码,在对应的告警处理手册中查询对应的故障处理方法。
检查电源模块指示灯状态并记录iMana 200或iBMC告警信息。指示灯状态具体请参见6.4 根据指示灯定位故障指示灯。说明:对于E9000服务器,请记录MM910上的告警信息。
拔出刀片、交换模块、管理模块和风扇,并标示槽位号,检查电源连接器是否正常。
拔出所有电源模块,按槽位顺序依次在每个电源槽位插入原电源模块验证是否可以通电(保证每次只有一个电源模块在位),如果都不能通电,则更换机箱。
通过以上步骤验证机箱和电源模块正常的情况下,仅保留一个电源模块,按槽位顺序依次插入风扇、管理模块、交换模块、刀片验证是否可以通电(保证每次只有一个模块在位)。
拔出故障计算节点/服务器节点(尽量避免再次插回),检查其他计算节点/服务器节点是否正常工作。
(默认端口号为8208,可通过登录iMana 200/iBMC界面查看服务配置中VMM端口设置获取)命令检查KVM端口是否正常;如果Telnet无法连接,请通过PC直连iMana 200/iBMC排查。
清理浏览器及Java缓存,并关掉所有浏览器;重新打开iMana 200/iBMC。
调节Java安全级别为中或以下,或将KVM地址添加到Java例外站点。
检查客户端OS、Java和浏览器版本,详细参考iMana 200/iBMC帮助文档的运行环境要求;推荐使用firefox 23.0版本。
登录用户超出最大数:确认是否有其他用户正在使用,通过重启iMana 200/iBMC强制清理其它用户。
非法用户:清理浏览器及Java缓存,并关掉所有浏览器,重启iMana 200/iBMC。
输入信号超出范围:检查操作系统分辨率是否超出KVM最大范围1280*1024。
否,重启业务系统,清除CMOS,配套升级iMana 200/iBMC和BIOS。
挂载虚拟光驱报错:Telnet远程登录检查虚拟光驱端口是否正常,使用FusionServer Tools Toolkit V102工具挂载引导以确定是否镜像源问题,检查升级HMM/iMana 200/iBMC和BIOS版本。
请拔掉计算节点后,重新插入计算节点,确认iMana 200/iBMC是否可以恢复正常。
否,若iMana 200/iBMC版本为1.91及以上,执行2;否则,执行3。
在已经拔掉计算节点的前提下,将跳线帽加在主板上丝印为Clear_BMC_PW的针脚上(尝试恢复iMana 200/iBMC出厂默认配置),重新插入计算节点。
收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。
仅保留服务器最小化配置,即仅保留CPU、主板和内存。查看故障是否解决。
收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。说明:对于E9000服务器,建议通过MM910一键收集日志信息。
检查外部供电环境是否正常,包括PDU或电源插排、电源模块和电源线。更换故障部件,查看故障是否解决。
收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。说明:对于E9000服务器,建议通过MM910一键收集日志信息。
通过iMana 200/iBMC命令行开启BIOS全打印,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
执行ipmcset -d clearcmos命令,清除CMOS,查看故障是否解决。
仅保留服务器最小化配置,即仅保留CPU、主板和内存。查看故障是否解决。
通过iMana 200/iBMC命令行开启BIOS全打印,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
如果恢复BIOS默认值后恢复正常,业务侧根据实际应用修改BIOS相关参数。
开启iMana 200/iBMC录屏,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
如果存在RAID卡固件错误,更换RAID卡或BBU电池/超级电容。查看故障是否解决。
如果BBU电池或超级电容电量为空,则根据界面提示,按相关按键使系统保持运行状态,上电约30分钟后观察BBU电池或超级电容状态。若BBU电池或超级电容显示异常,请更换BBU电池或超级电容。
查看BIOS PXE配置、网卡PXE(Ctrl+S)和网卡UMC功能是否启用。
是,设置memory mirror后,可用内存减少一半。进入BIOS,关闭memory mirror模式,若问题仍未解决,执行3。
检查iBMC是否产生“DIMM configuration error紧急告警”。
如果iBMC产生“DIMMxxx Configuration Error”,请更换产生告警的内存。
如果iBMC、OS显示的在位内存情况与实际物理内存情况对应关系有异常(包括无法识别内存,显示内存故障)。则更换显示有异常的内存。
如果BIOS已经设置memory mirror模式或者memory rank sparing模式,则操作系统中可用内存总容量会少于配置的物理总内存容量。
如果内存不满足内存配置规则,请根据华为服务器产品内存配置助手重新安装内存。
如果故障发生在相同内存插槽,检查内存连接器,若有明显的损伤,更换主板或内存板。
验证问题是否解决可以使用FusionServer Tools Tookit工具对内存进行加压测试。
如果问题跟随内存槽出现,则互换处理器进行验证。如果问题跟随处理器出现,则更换处理器,否则更换主板或内存板。
如果以上步骤都无复现问题,请使用Toolkit工具进行内存压力测试,如能复现故障现象,请根据1排查,否则联系华为技术支持工程师。
如果告警硬盘在RAID组中,可先确认RAID组状态是否正常并尝试恢复。
如果在停机情况下,可使用Toolkit工具对硬件进行检测,否则对告警硬盘尝试更换新硬盘解决。
如果故障硬盘未配置RAID,则该硬盘无法使用,更换故障硬盘处理。建议在部署业务前所有硬盘配置RAID并部署业务冗余。
对该识别不到的硬盘与其它硬盘进行对调插拔,交叉验证确定问题是否在硬盘上。
如果问题跟着槽位走,检查硬盘背板所有SAS端口是否都正常连接SAS线缆,可参考用户指南。
把未识别硬盘或其所在的RAID组所有硬盘按照原来顺序依次移到备机上,尝试备份数据。
备注:对于RH2288A V2服务器,如果出现以上现象,请同步检查主板连接电源转接板的细线 线缆连接示意图
(请根据实际操作系统操作排查),排查网口配置文件和物理网口是否一致,是否up端口。
如果以编译方式安装驱动报错,请排查系统是否已正确安装GCC和C/C++。
排查光模块类型,Intel网卡配非Intel光模块时网口会加载失败,无法看到网口。
重新安装驱动,排查驱动安装过程是否有明显报错,系统日志是否有驱动加载失败打印。
如服务器正常运行过程中,原来可见的网口突然不可见,如果业务允许停机,则先下电后上电进行观察,若问题仍存在,执行2。
排查网卡类型/驱动与服务器单板(BIOS/iMana 200/iBMC)是否符合兼容性要求;网卡版本不配套,请先升级配套。
(请根据实际操作系统操作排查),排查网卡是否up,且状态正常link,IP是否设置正确网口上。
(请根据实际操作系统操作排查),排查机架服务器网口配置文件和物理网口是否一致,网口状态灯亮,对端交换机网口up。
参考E9000刀片服务器MEZZ卡-交换模块 组网助手排查交换板网口配置,两边网口需要up。
将异常服务器ping同网段其他IP,并检查同网段其他服务器是否存在网络异常:
检查网卡网口状态(状态指示灯是否常亮),如果网口状态是link down(状态指示灯灭),将异常网口对应的光模块、光纤和上行交换机端口与正常网口对应部件进行互换,验证是否正常,根据实际情况更换或调整部件。
如果问题跟随网卡出现,请在业务允许停机的情况下重启网络服务,观察是否恢复正常;如果没有恢复正常,请先下电后上电观察是否解决,否则更换网卡。
排查网卡类型/驱动与服务器单板(BIOS/iMana 200/iBMC)是否符合兼容性要求;如果网卡版本不配套,请先升级至配套版本。
(请根据实际操作系统操作排查),排查网口丢包/错包具体项,根据对应项进一步排查。
命令检查系统资源情况(如软中断、CPU和内存占用情况),检查网卡流量。
在业务允许停机的情况下,首先用PC直连网口,测试是否丢包;再和其他正常网口进行交叉验证,排查光模块、光纤线、上行交换机端口,根据实际情况更换或调整部件。
如果问题跟随网卡出现,请在业务允许停机的情况下重启网络服务,观察是否恢复正常;如果没有恢复正常,请先下电后上电观察是否解决,否则更换网卡。
排查网卡类型/驱动与服务器单板(BIOS/iMana 200/iBMC)是否符合兼容性要求;网卡版本不配套,请先升级配套。
(请根据实际操作系统操作排查),排查是否修改过网口TSO,GSO设置。
根据端口连接状态,诊断HBA卡是否无法注册到交换机(switchshow查询到交换机无法识别主机WWPN),请通过以下方法排查故障。
检查HBA到交换机FC链路(仅适用于E9000:HBA卡工作模式是否匹配),主要查看光模块光功率、光纤。
确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有配套要求)。
对于多交换机连接的场景,检查交换机连接的模式(AG、TR)等是否正确。
根据端口连接状态,HBA卡已经注册到交换机但存储无法识别主机WWPN(switchshow查询到交换机已经识别主机WWPN),通过以下方法排查故障。
检查存储是否注册到交换机:排查交换机到存储的FC链路(光模块、光纤)。
确认是否安装华为兼容性配套发布的lpfc驱动和firmware(E9000对驱动和firmware有要求)。
如果以上步骤均无问题,说明FC的协议已经正常交互,主机侧是正常的,问题聚焦在存储侧或者OS SCSI应用层,请联系存储厂家分析或OS厂家分析。
确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有要求)。
检查OS的Message日志,查找lpfc驱动打印信息和多路径驱动信息。
确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有要求)。
检查OS的Message日志,查找lpfc驱动打印信息,检查HBA卡驱动io队列深度配置。
从HBA到存储控制器前端的硬盘性能测试是否正常(100G大文件读写和100M小文件读写)。
否,将所有业务进行迁移后,将服务器进行安全下电,拔插计算节点,尝试上电服务器进行恢复,如果故障仍然存在,则申请HBA卡备件进行更换。
建议先迁移业务,然后收集交换模块日志、操作系统日志、LLD组网信息和各设备时间差后联系华为技术支持工程师。
将所有业务进行迁移后,将服务器进行安全下电,拔插计算节点,尝试上电服务器进行恢复,查看故障是否解决。
建议先迁移业务,然后收集交换模块日志、操作系统日志、LLD组网信息和各设备时间差后联系华为技术支持工程师。
如果是交换模块与交换机之间的链路问题,若现场有光纤和光模块备件,则更换链路两侧的光纤和光模块,否则,插拔光纤和光模块。
如果是HBA卡和交换模块之间的链路问题,请进行交叉验证,将计算节点换至另一正常槽位,确认是HBA卡问题还是交换模块问题或背板问题。根据实际情况更换故障模块。
清除历史误码计算,观察10分钟查看误码情况并验证性能,同时联系存储厂家进行快速恢复处理。
启动交换模块失败,通过SOL串口登录交换模块,界面打印“Can not get config file from smm. Begin reboot …”的提示信息。
通过华为服务器兼容性查询助手查询OS是否与服务器兼容以及对应OS的安装说明,OS安装说明也可参见
通过华为服务器兼容性查询助手确认该OS是否需要ServiceCD引导。
检查OS是否要求对OS安装盘有特定要求,比如是否要求必须合入某些驱动。
检查RAID控制卡下是否可识别到目标硬盘,通过华为服务器兼容性查询助手查询目标硬盘是否兼容;检查BIOS中是否可以识别到目标存储设备(包括SATADOM、SD卡、内置U盘等)。
检查RAID控制卡型号,确认是否需要配置RAID(LSI SAS1078扣卡、LSI SAS2108扣卡、LSI SAS2208扣卡、LSI SAS3008卡、LSI SAS2308扣卡、LSI SAS3108卡、Avago SAS 3408卡、Avago SAS 3416iMR卡、Avago SAS 3416IT卡、Avago SAS 3508卡、软件RAID配置)。说明:V5服务器支持将OS安装在RAID标卡下的硬盘。
检查RAID控制卡配置,确认启动盘与目标盘是否为同一硬盘或者RAID组。
检查硬盘是否超过2TB,如果是,请将BIOS设置成UEFI模式。说明:V1和V3单板不支持UEFI模式。
检查硬盘上是否有残留数据影响安装,可以尝试把硬盘格式化,或者重新配置RAID组。
界定OS故障问题之前,请排查是否是其他故障问题,再根据以下步骤进行诊断。
OS日志出现文件系统只读挂起,通过FusionServer Tools-Toolkit引导自检系统对硬盘打分,依据结果判断是否需要更换硬盘碟片。
Machine Check Exception问题。通过查看“/var/log/mce.log”和串口挂起堆栈信息错误码,找到对应故障点。
如果是新交付的服务器,确认出现问题的服务器比例,检查异常服务器和正常服务器的配置是否一致。
如果是已经上线一段时间的服务器,确认出现问题的服务器数量,查看问题出现是否具有规律性。
通过前述信息咨询,再次确认是单机问题还是硬件问题,运行FusionServer Tools-Toolkit自检一轮,依据报告结果确认问题。
近期软件升级(包括客户业务软件、数据库、中间软件、内核、主机软件BIOS、HMM板、iMana 200/iBMC和存储软件变更等)开始出现规律性宕机。华为服务器 故障处理!