交换机日常维护秘籍,还得是老网工的经验之谈最牛逼
️号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
上午好,我的网工朋友。
对于新手网工来说,交换机就是“每个机柜里最亮的仔”,但真到了维护的时候,发现压根没人教你怎么搞——只能自己瞎摸索。
但在老网工眼里,这事有章法,有套路,更有细节。
今天这篇文章,我们不谈花里胡哨的理论,只说几个你日常维护中必须掌握的操作,从环境要求到命令配置,从软硬件检查到预防性维护,一步步把思路捋清楚。
️ps.关于日常运维,其实目前大趋势仍然是用AI去赋能网工工作。
具体要怎么做,我周四请到张总来咱们俱乐部聊一聊,感兴趣的朋友可以顺手预约一波。
️️今日文章阅读福利:️《华为交换机开局配置一本通 》
️️私信发送暗号“一本通”,即可获取这份优质PDF资源。️
交换机这种设备,虽说没服务器“高贵”,但对运行环境要求也不低,尤其是放在机房里,温湿度、电源质量、灰尘控制,这些都得管起来。
️温湿度控制
- ️推荐温度:20℃~25℃;
- ️湿度建议:40%~70%,不要太干,也不要太湿。
- ️如果太热:交换机核心芯片发热大,可能烧板子;
- ️如果太干:静电上身,轻则端口烧掉,重则整板失效。
???? ️老网工tips:
用温湿度计挂在机柜里,定期记录;空调出风口别对着设备吹,避免冷热交替;机房放除湿器或者加湿器,根据季节调整。
02 电源/线缆这些“小事”,才最容易出事有个网工调试新上的汇聚交换机,连不上网,结果一查——电源插头松了点,电压不足导致设备不断重启。
️电源方面
- 使用稳压电源或UPS;
- 电源线不要缠绕在一起,要整齐、标签清晰;
- 定期检查是否有“热插拔”风险,比如接触不良、电源老化。
️网线/光纤
- 线缆不能死弯,不然影响传输;
- 光纤记得插紧,有经验的都知道光纤没插到底的“绝望”;
- 尽量统一线缆管理标准,比如不同业务用不同颜色线缆。
别以为巡检只是“登上设备敲几个命令”,真正的巡检,要有节奏、有重点。
️每日巡检
- 查看端口状态、CPU/内存使用率
- 是否有告警(log、trap、LED灯)
- 网络连通性(Ping、Traceroute)
️每周巡检
- 核查配置文件(比对是否被修改)
- VLAN、ACL、链路聚合状态确认
- 检查SNMP、Syslog是否正常工作
️每月巡检
- 清理无用配置
- 检查风扇运行声(异响往往预示问题)
- 检查固件版本,是否存在已知BUG
设备出问题,多数不是某个配置改错了,而是一些「你没注意的小事」导致的。老网工看一眼就知道是硬件故障还是系统抽风,新手要具备的,是基础维护逻辑和判断思路。
️硬件维护建议
- 定期清灰。尤其机房在装修或灰尘大的地方,灰尘堵风扇,发热问题容易出。
- 检查风扇、电源指示灯、端口灯状态是否异常,很多小故障就是从一盏灯发现的。
- 观察设备是否有鼓包、变形、焦味等异常现象。
️软件维护建议
- 保存配置文件,定期备份。尤其是大项目上线前或更改重要配置后。
- 查看CPU和内存使用率:资源持续100%基本说明设备快顶不住了。
- 日志监控不能缺,Log信息里藏着很多你可能忽略的报错信息。
设备挂了不能远程连怎么办?Console口就是你的「最后一根救命稻草」。
️Console登录方式
- 用Console线连接交换机和电脑(一般是USB转串口或RS232接口)。
- 打开终端工具(如SecureCRT、Putty),设置波特率为9600,数据位8位,无校验位,停止位1位,无流控。
- 按回车进入命令行界面。
Console口不受网络影响,只要设备有电基本都能连上,适合做设备初始化、故障恢复。
️06 Telnet登录:轻便但不安全Telnet配置简单,早期用得多,但缺点也很明显——明文传输,容易被抓包。
️开启Telnet方法(以华为设备为例):
sys
user-interface vty 0 4
authentication-mode password
set password cipher YourPassword
user privilege level 15
protocol inbound telnet
- 配置完后,通过 telnet 设备IP 登录。
Telnet适合小型环境或内网调试,不建议在生产环境中广泛使用。
️07 SSH登录:远程运维首选方案SSH是Telnet的加密版,也是现在主流推荐方式。配置略复杂,但安全性高,支持账号权限控制。
️启用SSH基本流程(以华为为例):
sys
stelnet server enable
local-user admin password irreversible-cipher YourPassword
local-user admin privilege level 15
local-user admin service-type ssh
aaa
authentication-scheme default
authorization-scheme default
domain default enable default-domain
user-interface vty 0 4
authentication-mode aaa
配置好后,使用SecureCRT或Xshell等终端工具登录,协议选择SSH2,输入IP、用户名、密码即可。
️08 老网工最顺手的巡检命令清单(华为为主)掌握命令,是搞定一切维护工作的前提。下面这几条,建议熟练掌握,用来定位、排查、巡检,一条条敲,问题跑不了。
️✅ 查看接口状态
display interface brief
用途:快速查看所有端口状态(up/down)、速率、双工模式等。
️✅ 查看某个端口详细信息
display interface GigabitEthernet 0/0/1
用途:查看端口实时流量、错误统计、物理状态等。
️✅ 查看MAC地址表
display mac-address
用途:查看哪些设备连接在哪个端口,是排查环路、定位终端的利器。
️✅ 查看VLAN信息
display vlan
用途:确认哪些VLAN已创建,哪些端口在哪个VLAN里,尤其用于排查VLAN隔离问题。
️✅ 查看设备运行时间、资源占用
display version
display cpu-usage
display memory-usage
用途:判断设备是否长期运行未重启,资源是否跑满。
️✅ 查看日志
display logbuffer
用途:排查历史报错信息,尤其设备异常重启、电源问题、端口flap等情况。
️09 交换机对机房环境的要求,你真知道?很多设备明明没配置问题,却总出毛病?问题可能不在配置,而在️环境。
机房环境几个关键点:- ️温度控制:建议保持在18~27°C之间,超过35°C容易导致设备过热掉线。
- ️湿度控制:40%~60%为宜,过干容易产生静电,过湿易腐蚀电路。
- ️防尘防潮:定期清洁,避免灰尘堆积影响散热;机房地板需架空,线缆走弱电槽。
- ️电源保障:使用UPS,避免市电波动导致设备重启;关键设备考虑双电源冗余。
不要等设备挂了再想起环境问题,维护先维护机房。
️10 预防性维护,网工都需要“防范于未然”新手往往在“设备出事之后”才开始排查;而老网工,更重视“设备出事之前”的预警机制。
️预防性维护包含什么?
- 定期巡检计划 比如每周一次基础命令巡检,每月一次全面设备体检,每季度一次软件升级检查。
- 配置备份和对比 定期保存配置文件,并用脚本工具比对前后版本,快速识别人为误操作。
- 日志分析机制 日志不只是出事才看,而是每天关注是否有端口flap、电源波动、协议重协商等潜在异常。
- 设备健康监控 使用IMC、SolarWinds等网管系统设定告警阈值,比如CPU超80%、接口错误率飙升、掉线时间超过5分钟等。
- 软硬件生命周期管理 设备老化也会出问题,比如风扇寿命耗尽、内存老化频繁宕机,这些通过年限统计可预测。
️坑1:端口关闭、限速配置被遗忘
️现象:用户反馈某些电脑上不了网,但交换机上看端口是UP的。
️分析:其实很多时候是端口被人为配置了 shutdown 或限速配置,比如配置了 traffic-policy 或者限速到了2M。
️建议:
- 遇到网络慢或不通,先 display this 看端口有没有特殊限制;
- 统一整理配置标准,避免个别设备配置风格混乱。
️坑2:日志级别太低,看不到关键报警
️现象:设备重启、掉线、环路,都没第一时间发出警告。
️分析:大多时候是 info-center 级别配置不对,关键告警日志没入库,也没有发送到syslog服务器。
️建议:
- 配置正确的日志级别,例如 info-center source default channel 4 log level informational;
- 确保 syslog 服务器和邮件/短信告警正常工作。
️坑3:私拉网线、交换机级联太深
**现象:突然某一层网络不通,排查发现在某办公室有个“小八口交换机”藏在桌子底下。
️分析:这些“小交换机”没管理、没标准接线,环路、防广播风暴机制一概没有,出了问题难定位。
️建议:
- 禁止私拉网线和私接交换机;
- 启用 storm-control、loopback-detection、bpdu-guard 等防环机制;
- 对接入层端口开启 port-security,限制设备接入数。
给新手准备的超实用建议清单,建议直接抄进你的维护SOP里。
️每天
- 巡检核心交换机的 CPU、内存、接口状态;
- 查看日志缓冲区有无新报错;
- 检查设备是否异常重启、端口是否 flap。
️每周
- 核查VLAN、接口限速、防环配置;
- 对比备份配置,发现配置漂移;
- 网管平台生成健康报告。
️每月
- 设备固件/补丁检查是否为最新稳定版;
- 验证SNMP、SSH、Telnet访问策略及密码策略;
- 确认机房环境温度、湿度达标。
️每季度
- 全面配置备份,做好异地灾备同步;
- 检查设备标签、端口编号、机柜配线整理状态;
- 跑一次广播风暴模拟测试,验证防护机制是否生效。
日常维护,其实就是一个网工“做细活”的过程
维护交换机说难不难,说简单也不简单。很多故障、事故,不是技术不够,而是习惯不好、细节忽略。
一个老网工能站得稳,不是因为会敲命令敲得快,而是因为他做事️有流程、有章法、有预判意识。
你越早建立起自己的维护体系,越早能在事故发生前搞定它。
️原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部