阅 读 文 章

不明原因频繁死机的处理全过程

[来源:网上转载 (http://www.chinaunix.net) | 作者:网友(baiyun) | 时间:2007-05-27 | 浏览:人次 ]


2003年1月14日上午,

2号机报宕机,任务已被1号机接管。远程对2号机检查时,发现能ping通其boot地址x.x.x.4,但无法登录。在重启动两次无效后,开始怀疑该".4"地址是另外主机冒用所至,而非2号机。遂扫描该局网络,初步判定不是2号机;后远程登录到该局某PC机,再对该".4"进行检查,发现该地址果然是被一台PC机冒用。

在将其地址更改后,再重启动2号机,仍旧不能连接,且无法ping通,遂请当地局网管协助,检查机器液晶板及显示输出,发现有人将恢复用的启动备份磁带放入磁带机,导致系统在启动时进行准备恢复状态,将其取出后,再重启动,顺利进入系统boot地址。但在启动HA时无法将ORACLE2文件系统加载,在停止无效的情况下,再启动2号机,手动加载文件系统失败,这时判断文件系统可能出现损坏,遂进行文件系统检查并修复受损的超级块,后顺利启动HA,双机正常运行。

2003年1月16日晚上

接报2号机又宕机,远程调试无法成功,连夜赶赴现场检查。因第二天有国家总局领导前来参观,任务紧急。为顺利糊过第二天的参观,暂时将2号机搁置未用,由1号机承担全部资源及任务。次日,在现场监视处于单机状态的1、2号机运行状况,同时进行诊断和日志分析。按errpt记录的时间先后发现如下错误:
1. SCSI0 报错
2. HDISK0 报错
3. HDISK1 报错
4. LVM、LVDD报错
5. JFS  报错
6. ROOTVG 不可访问
7. 部分文件系统不可访问
8. 大部分命令无法执行
9. 丧失ROOT权限,无法关机
10. 系统死机,如果此时运行着HA,则任务将被接管,但资源组无法释放

在死机后,将2号机重启,进行诊断,却未查出任何错误,系统完好。启动时进入维护模式也未查出任何故障。但不久后上面的错误现象又开始出现。无法判断出错的真正原因。临时决定所有任务继续由1号机执行,2号机进入观察期,并在观察期内配置crontab每10分钟记录一次系统各部件状态以便诊断。

2003年1月17日

因屡次发现errpt错误记录在重启动后丢失,于是手抄错误,

以下是我在重启动之前抄下的所有报过的错误:
0EC00096 P U SYSPFS STORAGE SUBSYSTEM FAILURE
C60BB505 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
0BA49C99 T H scsi1           SCSI BUS ERROR
D2A1B43E P U SYSPFS FILE SYSTEM CORRUPTION
613E5F38 P H LVDD           I/0 ERROR DETECTED BY LVM
3CFF4028 U H hdisk1 UNDETERMINED ERROR
CAD234BE U H LVDD           QUORUM LOST, VOLUME GROUP CLOSING
35BFC499 P H hdisk1 DISK OPERATION ERROR
F7DDA124 U H LVDD           PHYSICAL VOLUME DECLARED MISSING
0BA49C99 T H scsi0           SCSI BUS ERROR
41BF2110 U H LVDD           MIRROR WRITE CACHE WRITE FAILED
0BA49C99 T H scsi0           SCSI BUS ERROR
CD546B25 I O SYSPFS FILE SYSTEM RECOVERY REQUIRED
T H hidsk1 DISK OPERATION ERROR
论坛热门帖子: [lch203] 写得蛮好的linux学习笔记(10-21)
[黑马制造] 学习java的30个目标(10-19)
[笑傲股林] 做测试半年了,有点迷茫,应该再学些什么提高自己的测试水平和测试能力呢?(10-19)
[udp8589] 大家用google的来吱一声? 用百度的~~也来报道下?(10-18)
[沂偌掳兆] 本人总结的一些认为C++比较经典的书籍,希望对大家有用(10-18)
TAG标签: 处理 全过程 频繁 原因 不明 回复 启动 系统 问题 I/O

最新评论 共有0位网友发表了评论

发表评论

评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名:(注册)
密码:
验证码:
匿名发表

网站地图友情连接交流论坛网站投稿广告服务联系我们留言本站长统计
Some rights reserved: www.chmhome.com, 鄂ICP备07010232号 E-mail:chinakafei@live.com,QQ:552766
中国咖啡技术网(Chmhome):国外编程技术书籍,中文编程手册,经典编程文章,交流技术,技术软件下载,计算机论文,毕业论文.