【二零壹参年壹月—陆月】 报告人:
报告时间:2013—07-10
内容摘要:
1、故障内容概述。
2013上半年度重大故障汇总。 2、故障原因分析
重大故障原因分析。 3、故障总结、后续工作重点 故障总结、后续工作安排。
各位领导好:
首先感谢贵方选用我司的WLAN系列产品。在此我们对上半年所有在网设备发生的重大故障做一个汇总并加以分析,并对我们的工作内容进行调整;以保证我司设备运行更稳定。同时也敬请各位领导对我们维护工作中的不中足之处提出重要建议.
一、故障内容概述:
1、设备概况:
目前在网的AC设备26组,AP两万台以上(包含:室内AP、村通、大覆盖)。具体信息见下表:
地市 7605I 榆林 1 延安 1 1 1 8610 AQ2000-ENH 910 265 AQ2000—AQ3000 E2AN2 878 351 208 63 AF4000 215 242 AF3120 9 AF3120-N 0 咸阳 2 宝鸡 2 西安 2 铜川 1 渭南 1 安康 3 汉中 1 商洛 合计 14
1 2 2 2 1 2 12 979 806 97 753 1133 1036 447 6426 3004 1729 240 1145 873 1339 364 9923 374 440 54 647 188 220 125 2319 503 207 624 5 100 129 205 74 5 7 0 268 3 0 0 0 112 0 112 2304 292 2、重大故障统计:
在过去的半年中,我司设备故障较多(14次),平均每台设备发一次故障。经过对比分析,共有9个故障.故障汇总如下:
序号 1 2 地市 咸阳 咸阳 故障现象简述 1号业务板下AP设备离线,手动使AP上线后用户无法接入网络,AC自动重启 某一业务板下挂的热点断电再来电后用户出现无法打开PORTAL页面以及无法认证的情况 陕西服装学院用户无法打开认证页面,现场用3 咸阳 户可以搜索到CMCC—EDU信号,可以获得业务IP地址,但无法推送认证页面,认证用户流量显示为0 4 5 6 7 8 9 咸阳 咸阳 宝鸡 宝鸡 榆林 汉中 4号业务板数据丢失 AC自动重启 AC掉死,现场测试无信号 PING不可达告警,不用认证直接登录,但用户上网正常 SNMP协议间隙性不同 用户不能认证,提示浏览器异常 1 2 1 1 1 4 Autex8610 Autex8610 Autex8610 Autex7605i Autex8610 Autex8610 1 Autex8610 故障次数 1 2 设备型号 Autex8610 Autex8610
二、故障原因分析、故障进展
地市 故障现象简述 故障原因 AC设备软件存在漏洞,对于dbus和主线程处理用户1号业务板下AP设备离咸阳 线,手动使AP上线后用户无法接入网络,AC自动重启 表项时,未加线程互斥锁;导致收到用户离线报文,主线程删除用户,同时在dbus侧调用该用户的相关参数,导致asd模块挂死,asd模块异常,频繁调用dbus,导致dbus收发包拥塞,AP接入关键进程WID需要dbus通信,dbus繁忙时会出现AP频繁上下线问题,由于asd进程长时间异常导致AC自动重启 某一业务板下挂的热点咸阳 断电再来电后用户出现无法打开PORTAL页面以及无法认证的情况 陕西服装学院用户无法打开认证页面,现场用户可以搜索到CMCC—EDU咸阳 信号,可以获得业务IP地址,但无法推送认证页面,认证用户流量显示为0 咸阳 4号业务板数据丢失 FD指针耗尽导致配置丢失 由于nat内存模块在使用了rcu锁之后,没有使用咸阳 AC自动重启 call_rcu去free该内存模块,而是直接free掉。导致非法内存访问,令内核挂掉,从而导致整机异常重启 宝鸡 宝鸡 AC掉死,现场测试无信号 PING不可达告警,不用认证直接登录,但用户上网正常 榆林 汉中 SNMP协议间隙性不同 用户不能认证,提示浏览器异常 SNMP进程占用内存过高,导致进程重启 eag模块异常 006补丁解决,未实施 建议升级2。0。18SP7 EAG模块掉死 Autex7605i 内核异常 2.0。18SP7解决 补丁解决,已实施 2。0。18SP7已经解决 现网配置的是iptables授权,从iptables取流量。iptables授权和取流量需要调用某个接口函数,从日志看,每次调用该函数都失败了,导致给用户的授权和取流量也失败了 2.0。18SP7已经解决 当热点断电再来电后,CMCC与CMCC—AUTO用户突然占用了同一个端口,导致EAG(负责用户认证的模块)服务锁死,用户出现打不开PORTAL以及无法认证的现象 2.0.18SP7已经解决 2。0。18SP7已经解决 是否彻底解决
三、故障总结,后续工作重点:
从上半年发生的故障分析得出结论,造成故障原因如下: 1、 2、
针对故障原因,我们会在以下方面做出改进:
1、加强与贵方维护人员、我司产品技术支持中心的沟通。对于其它省市已知发现的故障引患,在第一时间拿到解决方案(补丁或软件更新)并进行部署工作。避免因为已知的故障引患,造成设备重启、断网等重大事故。此事由我司李永强专人负责。
2、加强设备巡检工作,提高巡检频率。由目前的一天一次提高到一天两次。由各地市常驻人员负责。
3、发生重大故障后,由专人(地市技术负责人,目前有5位资深工程师,分别负责各地市)负责恢复业务,对故障进行跟踪直到处理完成;在处理故障及时给贵方汇报故障处理进展。
设备软件BUG。
与其它设备厂商的配合、组网等。
因篇幅问题不能全部显示,请点此查看更多更全内容