2003年1月14日上午,
2号机报宕机,任务已被1号机接管。远程对2号机检查时,发现能ping通其boot地址x.x.x.4,但无法登录。在重启动两次无效后,开始怀疑该".4"地址是另外主机冒用所至,而非2号机。遂扫描该局网络,初步判定不是2号机;后远程登录到该局某PC机,再对该".4"进行检查,发现该地址果然是被一台PC机冒用。
在将其地址更改后,再重启动2号机,仍旧不能连接,且无法ping通,遂请当地局网管协助,检查机器液晶板及显示输出,发现有人将恢复用的启动备份磁带放入磁带机,导致系统在启动时进行准备恢复状态,将其取出后,再重启动,顺利进入系统boot地址。但在启动HA时无法将ORACLE2文件系统加载,在停止无效的情况下,再启动2号机,手动加载文件系统失败,这时判断文件系统可能出现损坏,遂进行文件系统检查并修复受损的超级块,后顺利启动HA,双机正常运行。
2003年1月16日晚上
接报2号机又宕机,远程调试无法成功,连夜赶赴现场检查。因第二天有国家总局领导前来参观,任务紧急。为顺利糊过第二天的参观,暂时将2号机搁置未用,由1号机承担全部资源及任务。次日,在现场监视处于单机状态的1、2号机运行状况,同时进行诊断和日志分析。按errpt记录的时间先后发现如下错误:
1. SCSI0 报错
2. HDISK0 报错
3. HDISK1 报错
4. LVM、LVDD报错
5. JFS 报错
6. ROOTVG 不可访问
7. 部分文件系统不可访问
8. 大部分命令无法执行
9. 丧失ROOT权限,无法关机
10. 系统死机,如果此时运行着HA,则任务将被接管,但资源组无法释放
在死机后,将2号机重启,进行诊断,却未查出任何错误,系统完好。启动时进入维护模式也未查出任何故障。但不久后上面的错误现象又开始出现。无法判断出错的真正原因。临时决定所有任务继续由1号机执行,2号机进入观察期,并在观察期内配置crontab每10分钟记录一次系统各部件状态以便诊断。
2003年1月17日
因屡次发现errpt错误记录在重启动后丢失,于是手抄错误,
以下是我在重启动之前抄下的所有报过的错误:
0EC00096 P U SYSPFS STORAGE SUBSYSTEM FAILURE
C60BB505 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
0BA49C99 T H scsi1 SCSI BUS ERROR
D2A1B43E P U SYSPFS FILE SYSTEM CORRUPTION
613E5F38 P H LVDD I/0 ERROR DETECTED BY LVM
3CFF4028 U H hdisk1 UNDETERMINED ERROR
CAD234BE U H LVDD QUORUM LOST, VOLUME GROUP CLOSING
35BFC499 P H hdisk1 DISK OPERATION ERROR
F7DDA124 U H LVDD PHYSICAL VOLUME DECLARED MISSING
0BA49C99 T H scsi0 SCSI BUS ERROR
41BF2110 U H LVDD MIRROR WRITE CACHE WRITE FAILED
0BA49C99 T H scsi0 SCSI BUS ERROR
CD546B25 I O SYSPFS FILE SYSTEM RECOVERY REQUIRED
T H hidsk1 DISK OPERATION ERROR
| 论坛热门帖子: | [lch203] 写得蛮好的linux学习笔记(10-21) [黑马制造] 学习java的30个目标(10-19) [笑傲股林] 做测试半年了,有点迷茫,应该再学些什么提高自己的测试水平和测试能力呢?(10-19) [udp8589] 大家用google的来吱一声? 用百度的~~也来报道下?(10-18) [沂偌掳兆] 本人总结的一些认为C++比较经典的书籍,希望对大家有用(10-18) |
| TAG标签: | 处理 全过程 频繁 原因 不明 回复 启动 系统 问题 I/O |
注册
个人空间
