• 1. OptiX 10G(Metro 5000) 日常维护介绍熊世荣 31138
    • 2. 前言基于OptiX 10GV2产品日常维护操作和手段,开发此课程。 本课程旨在使工程师掌握OptiX 10GV2产品的维护相关的知识和思路,并能够在实际工作中加以运用。Page
    • 3. 课程目标学习完此课程,您应能: 了解常见告警的产生原因以及处理方法 掌握软件升降级方法和注意事项 掌握基础维护知识 掌握常见问题的处理方法Page
    • 4. 内容介绍常见告警介绍 软件升降级介绍 基础维护知识 常见问题处理 Page
    • 5. 10GV2常见告警介绍APS_INDI 告警名称: 复用段倒换告警,主控上报,表示发生了复用段倒换。 告警产生的原因: (1)发生了复用段倒换; (2)线性复用段备用通道失效。(10GV2从5.10.02.30版本开始,备用通道失效时增加了这个告警,其它4.0平台均如此处理) 告警参数说明: PARA1:表示复用段类型,(1:线性复用段,2:复用段环) PARA2:表示复用段保护组id。 126 23 apsindi major end 2004-8-19 16:20:7 0x02 0x01 0xff 0xff 0xff 处理方法: 排除触发复用段保护的故障或排除线性复用段备用通道故障后,查看告警是否排除。 Page
    • 6. 10GV2常见告警介绍NEBD_XC_DIF 告警名称: 主机与单板交叉矩阵数据不一致,由主机上报。 告警产生的原因: 主机与线路板或者交叉板上的高阶业务矩阵不一致, 或者主机与低阶交叉板上的 低阶业务不一致。当复用段(或者sncp)倒换异常或者以太网通信不通做配置 校验操作时,就可能出现此告警。 告警检测机制: 主机每5分钟会对单板侧的交叉矩阵数据进行一次比较,如果单板返回的矩阵和 主机侧的不一致,或者单板无返回,则认为主机和单板侧数据不一致,上报 NEBDXCDIF告警。5.10.02.30版本以后以后增加了新的校验机制:即第一次检 测到数据不一致并不上报告警,只有连续第二次检测到不一致才上报告警,并且 在第二次检测到该告警后,主机会重新下发配置数据给有问题的单板,单板完全 接收到交叉数据后,告警消失。 Page
    • 7. 10GV2常见告警介绍NEBD_XC_DIF 告警参数说明: Para1:表示数据不一致的板位; Para2:业务类型,1表示高阶业务矩阵不一致, 2表示低阶业务不一致; para[3-5]: 0xff, 保留。 举例: 590170 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6- 22 18:45:43 0x06 0x01 0xff 0xff 0xff 处理方法: 1、查看交叉板中是否有本单板的配置数据,如果没有数据,修改配置数据后重新 下发; 2、判断是否存在单板故障,如果单板故障,直接更换故障单板。Page
    • 8. 10GV2常见告警介绍APSMANUALSTOP 告警名称: 复用段协议人工停止告警 。维护版本和5.10.04.30P03正式版本增加的告警。级 别:次要。 告警产生的原因: 复用段协议停止。 告警参数说明: 第一个参数:0x01表示线性复用段,0x02表示环形复用段; 第二个参数:表示保护组ID号。 举例: 2952 23 apsmanualstop minor start 2003-12-30 16:53:56 None 0x02 0x01 0xff 0xff 0xff 处理方法: 重新启动复用段协议。Page
    • 9. HDLC_FAIL 告警名称: HDLC通信失败,主机上报。 告警产生的原因: 主机和单板之间的HDLC通道(紧急通道)通信失败,主机每分钟下发命令检测 HDLC通道是否正常,如果异常,上报告警。复用段(SNCP)在下发数据时,如 果下发失败就上报这个告警。这个告警可以导致倒换失败,因为协议的处理中都 时通过hdlc通道把数据下发给线路板和交叉板的。 告警参数说明: 第一个参数为板号,指主控与哪个单板通信失败;第二个参数为模块号,指那个 模块通过HDLC通信失败; 处理方法: 1、更换上报告警的单板,查看告警是否排除。 2、如果更换单板后,告警没有排除,更换插板的槽位,检查告警是否排除。 10GV2常见告警介绍Page
    • 10. COMMUN_FAIL 告警名称: 单板以太网通信失败告警,单板上报。 告警产生的原因: ACOM单板不在位,或者是单板之间的以太网通信故障(例如ACOM单板的BIOS 芯片版本较低)等,早期版本vxworks系统缺陷导致运行479天后误报该告警 。 告警参数说明: 第3个参数(PARA3)有4个值,值为1-3分别代表RS485的A/B/C通道故障(由单 板软件上报,单板检测到不通);值为4表示板间以太网通信不通。 5.10.02.30及以后版本进行了修改:由原来的只由以太网通信检测单板在线状态, 改为以太网通信和hdlc共同检测单板在线状态,即只有以太网通信和hdlc都不通 的情况下(告警维持3分钟左右)才报bdstatus告警(单板拔板的条件下)。仅仅 以太网通信不通只上报commufail告警,仅仅hdlc不通则上报hdlcfail告警。10GV2常见告警介绍Page
    • 11. 告警的影响: 1)以太网通信故障会导致主机和单板的配置无法正常下发; 2)以太网通信故障时,如果进行有校验的操作(如增删业务等),主机会重新 下发交叉矩阵,可能会导致主机和单板配置数据不一致,业务中断。 5.10.02.30之前的主机和配套的ACOM板有以太网通信通信故障的情况,主机升级 到5.10.02.30 及以后版本、ACOM板的BIOS芯片版本升级为302即可解决以太网通 信的问题。 告警参数说明: 参数3值为1表示紧急通道故障、2表示A通道故障、3表示B通道故障,4表示以太网故障。 举例: 64 14 communfail major start 2004-8-4 19:1:30 None 0x01 0000 0x04 0xff 0xff 处理方法: 1、如果是某块单板单独上报本告警,更换上报告警的单板,查看告警是否排除 ; 2、如果是多块单板同时上报本告警,逐一拔出单板,查看告警是否排除。 10GV2常见告警介绍Page
    • 12. SYSBUS_FAIL 告警名称: 设备总线异常告警,主机5.10.02.30、 5.10.04.20及以后版本开始支持,网管要 T2000V1R6及以后版本才支持。 告警含义: SYSBUSFAIL是在整改过程中为了方便定位问题而增加的告警。交叉板对线路板通 过母板送过来的622M业务总线进行检测,当检测到总线上有B1、OOF、LOS告警 时,交叉板会上报SYSBUSFAIL告警。 告警产生的原因: 告警产生表示交叉和线路之间的业务总线发生了问题,如果是交叉板上报线路板 业务总线异常告警,问题可能是线路板故障。如果是线路板上报交叉板总线异 常,则可能是交叉板故障。 告警参数含义: PARA1表示总线类型,(1-业务总线,目前只有1),PARA3表示有问题的线路板 板位号,PARA4表示该线路板有问题的622M总线序号。10GV2常见告警介绍Page
    • 13. SYSBUS_FAIL 告警举例: 48 4 sysbusfail major start 2004-8-16 16:31:8 None 0x01 0000 0x16 0x03 0xff 处理方法: 复位线路或交叉,如果不能恢复,直接更换线路或交叉。如: 1、如果交叉板上报线路板总线异常,使用:nptp:15,d,1f,x;或者:nptp:16,d,1f,x; 命令检查交叉板收线路板的业务情况(查询通道的OOF和B1情况),一般是线 路板故障,硬复位或者更换线路板。 2、如果线路板上报交叉板总线异常,就要使用:nptp:bid,9,37,x;来查询交叉板 业务总线状态。一般是交叉板故障,可以硬复位交叉板或者换板解决。 10GV2常见告警介绍Page
    • 14. SCC_CHANGE 告警名称: 更换了主控告警,主控上报。 告警意义: 做为更换主控板功能的一部分,更换主控板后,上报该告警,通知用户及时进 行相关干预,因为此时主机判断发生了更换主控板,那么所有的信息都是未校 验的(相当于下发过cfg-init-all命令,此时业务也无法得到复用段、SNCP等的 保护),只有用户下发cfg-verify命令这些信息才会下发,复用段协议也才会自 启动。 告警参数: 无 处理方法: 从网管重新下发业务配置后,告警自动解除。 10GV2常见告警介绍Page
    • 15. 本节我们主要学习了: 常见告警产生原因 常见告警处理方法小结Page
    • 16. 内容介绍常见告警介绍 软件升降级介绍 基础维护知识 常见问题处理 Page
    • 17. 10GV2升降级介绍主机升降级擦库说明 OptiX 10G主机软件升级时,不需要擦除数据库(除升级到5.10.06.30版本以外):即低版本升级到高版本如从R001升级到R002/R003/R004以及以上版本时,不需要擦除低版本的drdb、fdb0、fdb1数据库,直接擦除低版本的主机软件,然后加载高版本主机即可。 主机软件降级时,必须先擦除老的主机软件的数据库drdb、fdb0、fdb1,然后再加载老的主机软件。 擦除数据库有三种方式: 1、在主机软件运行状态下,可以通过命令“:dbms-delete-all:drdb”、“:dbms-delete- all:fdb0”、“:dbms-delete-all:fdb1”命令来擦除数据库; 2、在主机软件未加载仅运行BIOS状态下,可以采用如下方法擦除数据库: (1)串口下使用memset(0x2004a000,0x00,0x100000)直接擦除drdb; (2)串口下使用qefdb(1)、qefdb(2)命令分别擦除flash1和flash2。 3、使用ID拨码方式删除数据库:把低12位ID拨为全1,上电运行3分钟,可以擦除 DRDB/FDB0/FDB1以及两套主机软件;低12位ID的最低位拨为0,其它为1,则仅擦除 DRDB/FDB0/FDB1数据库。Page
    • 18. 软件加载说明: 主机软件加载时,要求先擦除第二套(默认第一套为active,第二套为inactive),然后加载第二套为新的主机软件,并且启用。接着再擦除第一套并且加载第一套。即采用“先擦除和加载第二套主机,再擦除和加载第一套”的方式; 加载主机软件规范要求:擦除一套加载一套,加载主机之前不需要停止复用段协议,不建议同时擦除两套老主机然后再加载新主机。开局时的主机升级等特殊情况可以同时擦除两套主机。 软件加载的顺序: 一般要求是主机-交叉板-线路板的顺序,对于部分版本,有SLQ4时要先升 级主机,再升级SLQ4,然后升级交叉板、最后升级线路板的顺序。 对于有AMXS交叉板时,不管是否有SLQ4单板,升级顺序都是先升级主机, 再升级线路板,然后升级AMXS交叉板。 每一个主机版本的升级顺序可以参考该版本的《产品软件升级指导书》。 10GV2升降级介绍Page
    • 19. 升级过程中,可以把所有单板的FPGA和单板软件升级完毕后再统一硬复位,但是不能一起复位所有单板,要求一块块的进行复位,等上一块复位正常开工后再继续复位下一块。 单板软件加载时,要求先加载FPGA,再加载单板软件(也可以先加载单板软件再加载FPGA),然后统一对单板硬复位;如果仅仅加载单板软件,则软复位即可。 对于没有保护的线路板,硬复位会导致业务中断!在升级过程中要充分和用户做好沟通。 软件加载可能出现的一些问题: 在下载新的主机后利用:sys-get-nesoftver查询为新的版本,但是用:ver查询仍然是老的主机版本; 主机是加载在FLASH里的,:sys-get-nesoftver就是查询FLASH的内容;而:ver查 询的是内存中的数据,需要复位主机内存中的数据才能更新为新的版本。 在下载5.10.04.30P03主机后,查询FDB0为空 ; R004主机调整了数据库的分配,导致fdb0地址变化,所以升级后会发现用“dbms- get-list”查询fdb0为空的情况,这里只需将drdb拷入fdb0即可,fdb1无此问题。10GV2升降级介绍Page
    • 20. 主机升降级案例: 降级主机软件时没有擦库导致降级后主机频繁复位 升级10GV2网元,主机软件从5.10.01.20升级到5.10.02.20,升级之后发现出现 一些问题,需要紧急倒回到原来的版本,现场倒回之后发现主机频繁复位,无法 正确下发配置。 原因分析: 两个主机版本数据库是不同的,可以平滑升级,但降级时一定需要先擦除数据 库,这一点是在主机版本说明书、升级指导书中已经明确说明的,现场降级时没 有先擦除数据库,而是直接启用了低版本主机软件,导致数据库格式不正确,主 机读取数据库失败,频繁发生复位,最后进入保护模式。 要求: 不同版本的主机之间降级时,由于数据库版本不一致,都要擦除数据库后再降级。 10GV2升降级介绍Page
    • 21. SLQ4单板升级时配套关系错误导致业务中断 版本升级时,SLQ4升级后业务中断。 原因分析: SLQ4单板目前网上有两种硬件版本:REV.0和VER.B。具体的配套关系 如下: 如果不配套,就会出现业务中断现象。单板单板软件FPGA硬件版本(PCB)SLQ4140、141、143、146 200REV.0SLQ4143、146、151及以后版本220VER.BSLQ4151及以后版本230VER.B10GV2升降级介绍Page
    • 22. APQ1单板升级时没有配套升级E75S等单板导致业务中断 现场升级APQ1单板到5.10.04.30P03配套版本后,业务中断 问题原因 现场仅仅升级了APQ1的FPGA和单板软件,由于该PCB的APQ1升级了FPGA 后,配套的E75S、CTPT/CTPR等接口板要配套升级。 1、现场升级工程师没有仔细查看版本配套表的配套关系; 2、E75S现场无法升级,需要烧制。 解决方法: 把APQ1降级到原来版本后即可。 总结: 升级前一定要提交升级方案,并且仔细对照版本配套表确认哪些单板需要升级, 需要准备哪些工具等。10GV2升降级介绍Page
    • 23. 升级环网全环同时硬复位单板导致业务长时间中断 10GV2软件升级过程中 ,所有SF64 升级完毕后,全环同时硬复位SF64板的方 法,结果复位之后多段之间出现RLOF,导致业务长时间中断,经过多次复位等处 理也没有解决,最后把该环降回原来的版本故障才恢复。 原因分析: 硬复位SF64光板后出现RLOF的原因是软件缺陷,已经在210 FPGA版本解决。 造成本次事故的主要原因并不在于软件缺陷,诚然单板软件存在质量问题,但现 场操作人员的不规范操作直接导致了业务的长时间中断。 要求: 线路板硬复位会产生RLOS等告警,如果全环线路板同时硬复位,则可能会使复用 段倒换状态异常影响业务。正常的操作是,先对一个区段的两块光板进行硬复位 后,应即时查看全环复用段状态是否倒换正常,并且在恢复到正常状态后,再对 下一个区段的线路板进行硬复位。10GV2升降级介绍Page
    • 24. 本节我们主要学习了: 主机软件升降级方法 软件升降级常见问题小结Page
    • 25. 内容介绍常见告警介绍 软件升降级介绍 基础维护知识 常见问题处理 Page
    • 26. 基础维护知识介绍版本查询 主机版本查询 :ver; :sys-get-nesoftver; 单板软件、PCB、FPGA查询命令 :cfg-get-bdversion:Bid; 返回结果: BOARD-VERSION Bid BD-TYPE RVER DVER HVER ONLINE-FALG 5 sl64 0x01 0x0a 0x001a online Total records :1 说明:“RVER”和“DVER”组成单板软件版本 ; HVER为两个字节(00 1a)16进制,包括PCB版本和FPGA版本。低3位为PCB版 本,高5位为FPGA版本 。Page
    • 27. 计算方法: 如上例,16进制的1a转化为二进制为“00011010”。 PCB版本:低三位为PCB“010”(A),则PCB为A+1=3; FPGA版本:高五位为FPGA“00011”(B+C,其中C为低二位“11”,B为 “000”),则FPGA为(B+1)× 100+C× 10=130 。 :cfg-get-bdverinfo; 查询的FPGA版本不需要转化,比较直观。见下面例子: :cfg-get-bdverinfo:22; BOARD-VER-INFO BSP Version : 1.10 BIOS Version : 1.30 Software Version : 1.30 Logic Version : (U27)300 (其中的U27表示该芯片的位置,有些单板可能有多个FPGA)基础维护知识介绍Page
    • 28. 制造信息的查询 :cfg-get-bdinfo:bid; 单板制造信息查询,查询内容包括:单板型号、条码、BOM编码、 BOM对外中文描述、BOM对外英文描述、PCB版本、生产日期、产地 。该单板下的所有的(包括扣板、配置板下的模块)软件的:芯片位置 、软件名称、软件的BOM编码、版本。 10GV2单板制造信息支持的范围: 从2002年3月以后发货的大部分单板都支持单板制造信息的查询。 T2000网管从V1R1版本就开始支持网管上查询。 基础维护知识介绍Page
    • 29. 板位查询 单板物理板位查询 :cfg-get-phybd; 查询单板的物理板位,能够查询上来单板,表示单板以太网通信正常。 对于有单板软件的单板,通过查询单板软件的方法查询,对于EU08、EU16、 ACOM、APIU、ATPR、ATPT、ASTI、CTPR、CTPT、E75S、E12S、ETF8,主机与这些 单板无通讯联系,但是可以通过在位线监测其在位状态,R002版本开始支持。 (ASTI因无在位线故不能监视其在位状态) 。 常见的问题: 1、:cfg-get-phybd;查询结果中,BD-TYPE 为“null type” ; 对于有单板软件的单板而言,要么单板不在位,要么和主机的以太网通信不通 (例如ACOM板不在位或者故障);对于接口板EU08、EU16、E75S、E12S、ETF8, 其物理板类型是根据对应的处理板查询得到的,如果处理板不在位或接口板类型 与处理板不匹配,则即使插上该接口板,也会认为物理板类型为“null type。 基础维护知识介绍Page
    • 30. 单板逻辑板位查询 :cfg-get-board; 查询到命令行或者网管配置的单板情况,可以和单板的实际类型不一致。 当前逻辑单板和物理板位不一致,会上报WRGBDTYPE告警。在空槽位上 配置逻辑单板,则不会上报该告警。 1、为什么显示结果中ACTIVE-STATE 不是“active”,而是“adding”或者“deleting”? 这是因为增加或者删除逻辑单板后没有下发校验。需要在网管上“校验配置”或者命令行中下发“cfg-verify”。 基础维护知识介绍物理槽位上真实板类型查询 :cfg-get-realbdtype:Bid; 输出格式:Bid: 单板槽位号;PHY-BDTYPE: 物理板类型,与cfg-get-phybd 查询的结果一致;REALBDTYPE:真实物理板类型;SUB-BDTYPE: 单板子类型。Page
    • 31. 黑匣子查询 单板黑匣子查询 :nptp:bid,1,51,x,1,1,0,ff,ff,ff,ff,ff; 查询完毕后使用“shift+右键”方式对查询结果进行翻译,如果黑匣子中记录的信 息超过5条,则必须通过下多条查询命令,即把最后一个ff修改为fe反复运行。 黑匣子绕接方式记录。 其中:x代表的意义,1表示性能,2表示告警,3表示复位,4表示命令,5表示异常; 查询主机黑匣子数据: bbquery 0x4ffffff c:\windows\desktop\bbdata.txt 1)注意没有“:”; 2)要使用黑匣子查看器查看结果; 3)R002开始支持ECC远程查询; (NAVIGATOR5.0以上的版本均支持查询单板和主机黑匣子,但是查询单板黑匣子 时可能会不全,要求逐项查询。)基础维护知识介绍Page
    • 32. 光接口描述 光接口标准通常可用:I-4.1、S-4.1、L-4.1等来表示,这些代码的含义是: 1、代码的第一位字母表示应用场合:I表示局内通信;S表示短距离局间通信;L表示长距离局间通信。 2、字母横杠后的第一位表示STM的速率等级:例如1表示STM-1;16表示STM-16。 3、第二个数字(小数点后的第一个数字)表示工作的波长窗口和所有光纤类型:1和空白表示工作窗口为1310nm,所用光纤为G.652光纤;2表示工作窗口为1550nm,所用光纤为G.652或G.654光纤;3表示工作窗口为1550nm,所用光纤为G.653光纤。 10G光接口还有如下标准:I-64.2R、S-64.2A、S-64.2B,如何理解? 对于代码R是一个附加代码,主要用于I(局内通信),表示比I还要小的标准(R是英文REDUCE的缩写)。对于I-64.2和I-64.2R光口最主要的区别就是传输距离:I-64.2为0~20KM,I-64.2R为0~2KM。 而对于S-64.A和S-64.B接口标准,A主要是表示使用的光接收端使用APD管,B表示采用PIN管,区别主要是接收灵敏度和过载点不同。基础维护知识介绍Page
    • 33. 环回和告警反转的支持 环回支持 10GV2的线路板基本上不支持VC4级别的环回,只有采用新的SD607/SD543的芯片的单板,如SL16A/SLQ4A等,才支持VC4级别的环回。 10GV2线路板支持光(电)口的环回,但是不是所有单板都只持光口的内外环回的。具体支持情况见各个单板的开局指导书。 “:cfg-init-all”命令已经可以清除由“:cfg-set-loop”命令设置的环回 。 从5.10.03.20以及以后的主机,开始支持自动解环回功能,网管从T2000V1R4才开始支持。 告警反转 从5.10.02.10主机开始支持告警反转功能。 “:cfg-init-all”命令不能清除主机的告警反转设置,只能使用:alm-init-all命令才可以清除告警反转设置。基础维护知识介绍Page
    • 34. 10GV2告警反转设置: 1、告警反转只针对光口或者支路板端口,设置告警反转时,必须先设置告警反转 的模式为“invmanual”或者“invauto ”,如果设置为invinhibit,表示不反转; 2、设置了告警反转模式之后,才能设置某个端口的告警反转。T2000网管从V1R2 版本开始支持10GV2的端口反转功能。 告警反转问题的处理经验: 1、建议使用T2000网管来设置告警反转,操作简单直观,设置步骤和命令行一致: 先设置反转模式,再设置告警反转; 2、一般遇到告警反转出现异常(不能正常设置或者反转后告警异常),多与主机 有关,和T2000网管关系不大。 3、告警反转的invmanual、invauto两种方式,前者属于人工反转,即端口处于 反置状态:反转后有RLOS时不上报,没有RLOS时会上报RLOS。后者属于自动方 式:有RLOS时不上报,光纤接上后,告警反转使能同时被清除,上报告警反转 清除事件,无告警上报;当再次断纤,端口有RLOS告警,告警能够正常上报。基础维护知识介绍Page
    • 35. 10GV2告警反转的案例一: T2000V1R2以及后续版本网管,网管重启或者同步告警后,10GV2 设备(主机为5.10.02.20)上设置了告警反转的端口仍然会上报 RLOS告警。 原因分析: 网管下发告警同步命令时,主机处理有问题,会把反转了的告警一同 上报,导致告警反转失效。 早期5.0平台版本以及2500+的4.5.4.16以前的主机也存在此缺陷, 10GV2在5.10.02.30P03以及后续版本解决了这个问题。可以采用升 级主机方式来解决。 基础维护知识介绍Page
    • 36. 10GV2告警反转的案例二: 工程师反馈,在10GV2维护版本升级更换ACOM单板的BIOS芯片后,发现有时 候某些网元设置了告警反转的端口仍然会上报RLOS告警,告警反转失效,而有 些网元又不存在此问题! 原因分析: 1、告警自动反转自动恢复式的反转机制:端口存在RLOS告警时,对该端口进行 告警自动反转,告警消失,如果端口又正常接入,则端口告警反转自动解除。 2、需要注意的是告警反转实际上是主机上的动作,主机对单板上报的告警进行 屏蔽处理;单板上的告警依然存在,单板闪灯状态依然是隔一秒三闪。 3、当单板正常接入(单板告警消失)时,主机检测到告警消失,则把自动反转 取消;当单板再次产生RLOS告警时即可正常上报。 4、10G设备的单板告警性能数据是通过LANSWITCH总线上报的,当拔出 ACOM板时单板的告警就无法上报,此时主机会认为单板告警结束,解除单板 的告警反转。基础维护知识介绍Page
    • 37. 5、主机的处理机制如下: 拔掉ACOM板后,主机首先检测会检测到COMMUN_FAIL告警(参数3 值为4,表示以太网通信不通),主机如果持续三分钟没有收到单板的告 警,(在5.10.04.30P03及以后主机版本中修改为延迟5分钟)即如果在 这三分钟内没有插上ACOM板,则认为告警结束,解除告警反转;如果 在这三分钟内把单板插回,则会继续认为告警持续,不会解除告警反 转,这就是为什么有的网元告警反转解除有的网元告警反转没解除的原 因。 该问题属于产品规格设计的问题,现场无需处理。基础维护知识介绍Page
    • 38. 10GV2交叉时钟板相关说明 10GV2交叉板使用的注意事项 1、微动开关: 10GV2高阶交叉板上有2个微动开关,作用是控制单板是否在位。 当两个交叉板都在位时,只有当上下两个微动开关同时打开时,单板才会被置不 在位;当只有一个交叉板在位时,微动开关的功能将被屏蔽,即此时打开拉手条 扳手对在位没有影响。 10GV2低阶交叉板上也有微动开关,作用和高阶交叉板基本一致。 2、不要同时复位两块高阶交叉板 当两块交叉板都离线后,系统时钟消失,线路板可能工作在不正常状态,并且可 能导致错误的状态迁移,因此在一块交叉板正常后要重新复位所有线路板。基础维护知识介绍Page
    • 39. 3、要求线路板跟踪的时钟和业务都在同一块高阶交叉板上 10GV2设备的线路板到两块交叉板各有一套业务和时钟总线,要求所 有线路板的业务和时钟选择同一块交叉板。 在工程和维护中要求遵守此规范。 高阶交叉板升级基本步骤: 10GV2的高阶交叉板有AXCS/EXCS/AMXS,可以通过交叉板的主备 倒换来实现交叉板的平滑升级,而保证升级过程中业务不会受影响。 详细的升级步骤请参见《10GV2交叉板升级专题 》。 基础维护知识介绍Page
    • 40. 时钟和业务主备倒换 时钟倒换会触发交叉的倒换。 1、主备倒换方式: 人工倒换:微动开关倒换或命令倒换; 自动倒换:交叉板或者线路板发起,自动检测。 2、主备倒换优先级: 交叉板在位状态(微动开关倒换)->交叉板工作状态(工作好、坏) ->业务时钟总线状态(好、坏)->命令设置。 由此可见,命令倒换的优先级最低。 想一想,为什么有时候无法用命令使交叉板主备倒换? 基础维护知识介绍Page
    • 41. 3、主备倒换过程 拔业务主板、扳开业务主板的微动开关、主控命令设置等都可以引 起业务主备倒换。 下面以主控命令:cfg-set-xcpswitch:21 为例说明一下倒换过程: 1)、各线路板接收主控下发的设置业务主板命令,根据此命令选择自 己的工作板; 2)、交叉板定时收集线路板的业务工作状态,确定当前的业务主板, 并进行业务同步。 3)、交叉板发现业务主备状态变化,上报主控当前的业务主备状态。基础维护知识介绍Page
    • 42. 4、主备倒换相关主机命令 :cfg-set-xcpswitch; 业务倒换命令,但是需要注意这条命令只是切换业务主备并不切换时钟主备, 线路板切换业务总线,时钟总线不切换,也不发生交叉板锁相环的切换。 :cfg-get-xcpstate; 查询业务主备状态 :cfg-set-clkswitch:0,BID; 时钟倒换命令,参数0表示主板,1表示备板。线路板切换业务和时钟总线,同 时有时钟主备倒换:交叉板锁相环切换。从R002版本才开始支持。 :cfg-get-clkstate; 时钟倒换查询命令 (以上命令适用于R003以前的主机,R003以后主机命令如下页胶片所述) 基础维护知识介绍Page
    • 43. :cfg-set-dpsswitch; 设置业务主备状态 :cfg-get-dpsstate:1; 查询业务或者时钟主备状态,参数1表示查询业务,2表示查询时钟。 :cfg-set-dpsswitch:1,BID; 设置业务或者时钟主备状态,参数1表示设置业务主板,2表示设置时钟主板。 5、交叉主备倒换单板相关ptp命令 :nptp:bid,d,63; 查询时钟主备情况,0为主,1为备。 :nptp:bid,d,64,1,1; 将当前时钟主板倒换为备板,同时会进行业务倒换。 :nptp:bid,9,33;//查询业务主板情况,返回0表示业务工作于左交叉板,1是右交 叉板。 :nptp:bid,9,32,0; //设置0表示业务工作于左交叉板,1是右交叉板。基础维护知识介绍Page
    • 44. 10GV2主控板相关说明 更换主控功能 早期的主机版本存在2分5秒的缺陷:10G MADM更换主控板后,如果不能及时 清空配置数据或下发配置正确的文件,主机会主控板当前的配置信息下发到单 板,造成业务中断。 主控开工后,主机会启动一个2分5秒定时器,如果没有下发配置的动作,2分5秒 后定时器会超时,主机将网元数据配置就绪标志置为ready。若此时网元的当前 状态是运行态,则配置模块会把所有的交叉矩阵向单板下发一遍;若此时网元的 当前状态是安装态,则不会重新下发配置。 在5.10.02.30系列以及5.10.04.30P03及以后的版本中,对主机和交叉板进行了修 改。做到:更换上主控后,可以通过判断是主机复位还是主机更换了,然后决定 是否下发配置数据。 实现该功能时,主机必须升级到5.10.02.30系列以及5.10.04.30P03及以后的版 本,交叉板也需升级到相应的配套版本。基础维护知识介绍Page
    • 45. 主控板更换注意要点 对于早期的主机,新换上的SCC板主机开工后(能连上网元即为开工 或者看主控板闪灯状态),必须在2分钟内登录到主控板,并使用 Navigator下发初始化配置的命令:cfg-init-all,注意不能再下发校验命 令;并且擦除该主控板上的数据库,命令为: :dbms-delete-all:drdb/fdb0/fdb1; //3个库需要分别下发命令, 单独删除。 如果该网络主机已经5.10.02.30系列以及5.10.04.30P03及以后的版 本,单板也升级到该主机配套版本,则可以直接更换主控,然后下发 配置数据,不存在2分5秒的问题。 基础维护知识介绍Page
    • 46. 本节我们主要学习了: 基础的维护知识(常见的查询命令、环回、告警反转的设置、交叉时钟主备倒换、主控更换功能)小结Page
    • 47. 内容介绍常见告警介绍 软件升降级介绍 基础维护知识 常见问题处理 Page
    • 48. 单板不对齐问题: 【问题现象】 日常巡检的过程中,在交叉板的异常黑匣子中有类似 “[ 4c]:[ 1],[2003.06.25,04:26:50]循检到单板[13]不对齐, 重新对齐!” 的信息。 【问题原因】 线路板的帧头位置相对于交叉板的搜帧范围有偏差,在交叉板定帧时无法对齐。 【问题影响】 长期的单板不对齐会导致业务中断,必须尽快处理。AXCS的135以前版本、 EXCS的129以前版本,SLQ4的138以前版本都存在单板不对齐的现象。 【判断依据】 1、对某一块单板,如果这种现象频繁而且持续出现即每隔两分钟左右出现,这 种情况一定要处理;常见问题处理Page
    • 49. 单板不对齐问题: 2、对某一块单板,如果这种现象只是偶然出现一两次,或在单板硬复位起来瞬 间出现过几次,此后不再出现,则认为不是问题,可以不解决; 3、对某一块单板,如果这种现象在较短的时间(5天)之内周期性地连续出现几 次,也需要处理。 【解决方法】 1、先采用硬复位交叉板方法来解决 ; 2、如果硬复位交叉板无法解决,则当网元上没有SLQ4板可以考虑把交叉板软件 升级到新版本(AXCS为135及以后版本,EXCS为129以及以后版本); 3、如果硬复位交叉板不行,又不能升级,则建议硬复位线路板,注意硬复位对 业务的影响; 4、对于SLQ4单板,可以考虑升级交叉板和SLQ4到5.10.02.30P03及以后的配套版 本解决。 常见问题处理Page
    • 50. 16244芯片问题: 【问题现象】 单板软件硬复位后ID信号失效,单板不能正常开工,需要更换单板恢复业务。该芯片失效 后,R004维护版本之前的主机上不会有告警产生。 【问题原因】 10G产品使用的仙童16244接口芯片存在磷桥失效。 【问题影响】 会导致业务中断,或者引发误操作(例如硬复位单板时,ID判断错误等)。 【判断依据】 1、16244芯片识别比较简单,在器件的表面有“16244”的标识 ; 2、该问题在2002年1月1日前生产的10G V2单板都存在问题. 3、软件判断方法见整改策略的相关资料。 【解决办法】 对存在问题的单板直接更换。R004维护版本会增加对16244芯片失效的检测告警。常见问题处理Page
    • 51. 以太网通信不通导致业务中断的问题: 【问题现象】 5.10.02.20主机的10GV2网元,部分单板上报BDSTATUS,这时增加这些单板的业务时,发 生部分业务中断。 【问题原因】 R002以前的版本使用BDSTATUS表示以太网通信不通。增加业务触发主机对当前配置数据重 新校验(只要是下发校验命令),计算新的交叉连接,并将相关参数下发到单板。而此时如 果某些单板以太网通信不通,将无法接收到新的参数包括交叉连接。对于10GV2三级CLOS 矩阵体系结构,这些单板的交叉连接很可能无法与其他单板保持同步,从而引发业务中断。 【解决办法】 1、5.10.02.30以前的主机、ACOM板302以前的BIOS芯片处理以太网通信存在问题; 2、升级主机到5.10.02.30系列版本(或者5.10.04.30P03以后版本)、更换ACOM单板 BIOS芯片(302及以后版本)可以解决以太网通信不通的问题。常见问题处理Page
    • 52. 级联受限导致倒换后业务中断的问题: 【问题现象】 某局网元sncp倒换后业务中断,6/10/21/22单板有sncpfail和nebdxcdif告警,:cfg-get- matrix查到的数据与:nptp:6,8,31命令查到的交叉矩阵不一致。 【问题原因】 网元配有36个sncp和4个线性复用段,其中有些是au4-16c和au4-4c级联业务。从历史告 警中可看到有以下告警: 590170 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x06 0x01 0xff 0xff 0xff 590169 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x15 0x01 0xff 0xff 0xff 590168 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x0a 0x01 0xff 0xff 0xff 590171 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x16 0x01 0xff 0xff 0xff 从告警参数可看到,6、10号线路板和两块交叉板报了交叉矩阵不一致告警,其中,6号板 是SL64,10号板是SL16。常见问题处理Page
    • 53. 级联受限导致倒换后业务中断的问题: 由于nebdxcdif告警的上报是需要最多检测10分钟才上报的,因此看17:41:22的 前10分钟内有哪些异常告警,发现在17:32:30时,有sncpfail告警: 590162 23 sncpfail critical end 2004-6-22 17:32:30 2004-6-22 17:32:30 0000 0x23 0xff 0xff 0xff 590165 23 sncpfail critical end 2004-6-22 17:32:30 2004-6-22 17:32:30 0000 0x24 0xff 0xff 0xff 从告警参数可看到,是sncp保护组35和36上报了sncp倒换失败告警。 35和36sncp保护组配置如下: PG-ID PU-ID SRC-BID SRC-PID SRC-AU4 SRC-PATH DST-BID DST-PID DST-AU4 DST-PATH XC-LEVEL 35 work 5 1 49 0 9 1 1 0 au4-16c 35 backup 6 1 49 0 9 1 1 0 au4-16c 常见问题处理Page
    • 54. 级联受限导致倒换后业务中断的问题: PG-ID PU-ID SRC-BID SRC-PID SRC-AU4 SRC-PATH DST-BID DST-PID DST-AU4 DST-PATH XC-LEVEL 36 work 5 1 49 0 10 1 1 0 au4-16c 36 backup 6 1 49 0 10 1 1 0 au4-16c 接着,我们看到5号板1光口49通道在这段时间附近有以下告警: 590128 5 auais major end 2004-6-22 17:32:0 2004-6-22 17:32:18 0x01 0000 0x31 0xff 0xff 590167 5 auais major end 2004-6-22 17:32:30 2004-6-22 18:42:29 0x01 0000 0x31 0xff 0xff 590166 6 auais major end 2004-6-22 17:32:30 2004-6-22 18:42:29 0x01 0000 0x31 0xff 0xff 590204 6 auais major end 2004-6-22 18:44:5 2004-6-22 18:44:6 0x01 0000 0x31 0xff 0xff 常见问题处理Page
    • 55. 级联受限导致倒换后业务中断的问题: 【分析结果】 1、 正常状态下,9号板1光口1通道(以下简称9.1.1,其它单板如此类推)和10.1.1均选用5.1.49业务。 2、 6月22日 17:32:0时刻,5.1.49上报SF,此时,第36 sncp保护组先发生了倒换,倒换结果为6.1.49到10.1.1,而5.1.49仍然到9.1.1。 2、 然后第35sncp保护组再发生sncp倒换,本来应该倒换成6.1.49到9.1.1,但由于10.1.1已选用了6.1.49,又由于在倒换中不能广播受限级联业务,此时6.1.49不能广播到9.1.1,因此,这时候,业务只有6.1.49到10.1.1的业务。此时主机侧已经将5.1.49到9.1.1业务删除掉了,但由于交叉矩阵计算失败,而并没有将计算后的交叉矩阵下发到线路板上。所以此时5、9号板和两块交叉板的交叉矩阵与主机侧的矩阵是不一致的,导致业务中断。常见问题处理Page
    • 56. 级联受限导致倒换后业务中断的问题: 3、 在同1秒内,6.1.49也报SF了,此时,第35sncp保护组先检测到6.1.49报SF,那么第35sncp保护组恢复IDLE状态,业务矩阵变成5.1.49到9.1.1,6.1.49到10.1.1。此时,主机与单板的交叉矩阵一致。 4、 然后第36sncp保护组再检测到6.1.49报SF,本来应该倒换成5.1.49到10.1.1,但由于在倒换中,不能广播受限级联业务,那么,此时业务矩阵变为5.1.49到9.1.1,此时6、10号板和两块交叉板的交叉矩阵与主机的交叉矩阵不一致,因此此时上报了6、10、21、22单板nebdxcdif告警。 【解决方法】 本问题是由于受限级联原因导致的,将SL16更换为SL16A可解决本问题。也建议一同将SLQ4更换为SLQ4A。 常见问题处理Page
    • 57. 本节我们主要学习了: 常见问题的处理方法(单板不对齐问题、16244问题、以太网通讯问题、受限级联问题)小结Page
    • 58. 本课程我们主要学习了: 常见告警的产生原因和处理方法 软件升降级方法和注意事项 日常维护的基础知识 常见问题的处理方法总结Page
    • 59. (本页无文本内容)