对于整天与计算机网络打交道的网络管理员来说,遭遇网络故障几乎成为了家常便饭,而大多部分网络故障现象都局限在无法上网、频繁掉线或者是访问速度缓慢等。其实引起网络故障的原因可谓是繁多,既有人为操作因素引起的,也有网络设备自身状态引起的,还有可能是外界干扰引起的;但是在实际解决网络故障的过程中,笔者们有时会发现在排除了上面列出的各种可能因素后,网络故障仍然无法消除。下面的一则网络故障为核心层交换机主控板更换后,设备运行正常,但是业务并没有真正的恢复,竟然是上端设备端口资源没有释放所引起。相信各位看完下面的故障排除过程之后,一定会有新的收获。
故障现象
多个分支机构的局域网是通过租用当地运营商的10M光纤通道直接访问本地总部企业网,所有本地分支机构的网络汇聚到核心层交换,核心层交换直接连到路由器。其他的交换机负责各个网络业务的接入,这样网络结构比较简单明了,实际运行的状态也是比较稳定的。 前几天,网络突然出现大面积瘫痪故障,并导致企业业务无法正常运转。根据网络拓扑及出现的故障现象,可以迅速地定位到核心层交换设备出现了问题。到了现场的后,发现的主控板出现了告警,设备复位,告警并没有消除,可以判断为主控板损坏,更换新的主控板,设备运行正常,所有的二层透传业务恢复,但是所有IP业务没有恢复。
故障排查分析
排查一、物理故障还是逻辑故障?
故障的根源是核心层交换机的主控板出现了问题,这样网络故障的性质为物理故障。难道新更换的主控板有问题?但是设备运行正常,又没有告警信息。如:show card ,show cpu等,从运行状态上看,硬件没有问题。难道更换设备后,数据丢失了吗?察看相关的数据,发现并没有丢失,但是IP业务还是不能够恢复?可是部分透传业务又没有问题。究竟那里出现了问题呢?
排查二、DNS服务出了问题?
经过检查,笔者发现,虽然业务不能使用,但所有的路由信息都是正常的,PING所有的网元信息也都是正常的。难道是DNS服务出了问题?
所谓DNS,即域名服务器,它把域名转换为计算机能够识别的IP地址。如网站对应的IP是219.218.100.100。如果DNS服务器出错,则无法进行域名解释,自然也就不能上网了。有时候则是路由器的问题,无法与ISP的DNS服务连接,这时可把路由器关闭一会再开或是重新设置路由器即可。还有可能是网卡无法自动搜寻到DNS的服务器地址,可以尝试用指定的DNS服务器地址。进入“控制面板→网络和拨号连接”,双击“本地连接→属性→TCP/IP协议”,在弹出的对话框中选择“使用下面的DNS服务器地址”,然后填写相应的DNS服务器IP地址。经过核实后,DNS也没有问题。
排查三、是中ARP病毒还是有流量攻击?
故障发生前期,个别分支机构经常有人反映说上网时经常出现丢包现象,想到最近局域网中经常出现的ARP地址欺骗病毒,笔者就向所有相关的网络技术人员介绍了一下排查各自局域网,是否感染了ARP地址欺骗病毒,希望通过找到并解决感染ARP地址欺骗病毒的机器来解决IP业务不能恢复的问题,并没有查出结果。难道设备更换后,所有的路由表丢失了吗?把前几天的数据备份重新导入后,故障现象的依然存在。为了更快的恢复业务,咨询了设备厂家的技术支持,把所有的故障现象反馈给技术工程师,并查看了所有的告警及系统日志,并没有发现可疑的问题。最后得到的结果是:该设备运行正常,没有病毒的攻击、流量异常等现象。
责任编辑:虫虫