机房里那台老款 Dell R730,半夜突然掉电重启,日志里没报硬件错误,风扇转得挺欢,但就是进不了系统——十有八九,是电源在偷偷耍脾气。
别只盯着主板和CPU,先查电源
很多运维兄弟一遇到服务器异常,习惯性刷 BIOS、换内存、重装系统,结果折腾半天,发现是 1+1 冗余电源里有一路悄悄掉链子。服务器电源不像台式机那样“黑屏就断电”,它可能电压不稳、纹波超标、带载能力下降,表面看一切正常,实则随时可能抽风。
手摸+耳听+眼观,三步快速初筛
先断电(务必先关机并拔掉所有电源线),打开机箱盖:
• 摸一摸两个电源模块背面散热片——如果一个烫手一个微温,大概率热的那个在硬扛,冷的那个已失效或未接入;
• 听一听通电后电源风扇声:异响、忽快忽慢、单边狂转,都是老化信号;
• 看一看电源指示灯:Dell 标黄灯、HPE 标橙灯、华为标红灯,不同品牌颜色含义不同,但常亮绿灯才代表健康,闪烁或灭灯就得警惕。
用IPMI命令实时读取电源状态
大多数主流服务器都支持 IPMI,不用拆机就能查实时数据。以带 iDRAC 的 Dell 为例:
ipmitool -I lanplus -H 192.168.1.100 -U root -P calvin sdr type "Current"返回类似 PS1 Current | 12.400 | Amps | ok 才算靠谱;若显示 na 或 lc(lower critical),说明电流异常或传感器失联。
万用表实测输出电压(慎操作)
如果你熟悉 ATX 24pin 接口定义,且服务器支持断电自检,可以插上电源但不开机,用万用表测关键脚位:
• 黑表笔接任意 GND(如 24pin 的 3、5、7、13、15、16、17、18 脚)
• 红表笔测:
– +12V:24pin 的 10 脚(标准值 11.4V~12.6V)
– +5V:24pin 的 4 脚(4.75V~5.25V)
– +3.3V:24pin 的 1 脚(3.13V~3.47V)
偏差超 ±5% 就该换电源了,别等它某天把主板供电芯片干废。
换电源不是“插上就行”
曾有同事图省事,把旧电源拆下来,直接换上同型号二手货,结果三天后又宕机——查出来是两块电源的固件版本差了一大截,导致冗余协商失败。建议换前先用 racadm getversion 或 hpasmcli -s "show powersupply" 查清固件版本,必要时统一升级。
电源问题不显山不露水,但真出事就是批量宕机。与其等告警邮件半夜炸屏,不如每月花五分钟做次基础检测:看灯、读 IPMI、听风扇。省下的不止是时间,还有你凌晨三点爬起来改配置的黑眼圈。