您的当前位置：首页 SUN小型机故障处理指导书

SUN小型机故障处理指导书

来源：99网

SUN小型机故障处理指导书

第1章故障的定义 (1) 第1章故障信息的收集 (1) 1.1控制台信息 (1)

1.2系统故障记录(MESSAGES) (1) 1.3主机面板上的LED (2) 1.4系统引导的故障记录 (2) 1.5MAIL (3)

1.6运行故障诊断程序(PRTDIAD -V)对系统硬件进行检查和诊断 (3)

1.7其他用于收集系统信息的命令 (4) 第2章硬件故障定位方法 (1) 2.1PROM (1)

2.2系统的启动顺序 (1)

2.3系统引导的时候，发生停止 (1) 2.4系统DUMP (2)

第3章软件故障定位方法 (1) 3.1文件系统空间不够 (1) 3.2检查文件系统的完整性 (2) 第4章常用的系统状态查询命令 (1) 第5章网络故障定位方法 (1) 5.1网络不通的诊断过程 (1) 5.2网络配置的基本方法 (1)

第6章SUN CLUS TER环境下的排错 (1) 6.1了解问题的存在 (1) 6.2判断问题的出处 (1) 第1章故障的定义

根据以下这些方面来考虑故障定位：

●弄清楚系统发生了什么问题 ●系统现在能做什么不能做什么 ●故障什么时候发生的 ●有没有做平时不同的操作

●故障有没有规律定时还是不定时发生的频率有多高 ●是一台机器出现故障还是多台机器故障故障现象是否相同 ●最近有没有做改动如安装了新的硬件软件改变了系统的一些设置第1章故障信息的收集

收集故障信息对于判断诊断故障原因修复系统非常重要 1.1 控制台信息

通过系统控制台来收集系统的信息，系统启动时的硬件自检信息，系统日常

运行时的信息。如：

Sun Fire 480R, No Keyboard

OpenBoot 4.7.5, 4096 MB memory installed, Serial #54021334.

Ethernet address 0:3:ba:38:4c:d6, Host ID: 83384cd6. Rebooting with command: boot Boot device:

/pci@9,600000/SUNW,qlc@2/fp@0,0/disk@w21000004cfd98e33,0:a File

and args:

Starting VxVM restore daemon... VxVM starting in boot mode...

/usr/sbin/prtconf: getexecname() failed

vxvm:vxconfigd: NOTICE: atf vendor_info: readlink fails for /dev/rdsk/c2t1d0s2: No such file or directory

NOTICE: vxvm:vxdmp: added disk array OTHER_DISKS, datype =

OTHER_DISKS

vxvm:vxconfigd: NOTICE: Unable to resolve duplicate diskid. Please refer to release notes and admin guide for possible action/solution.

Following are the disks with duplicate diskid:

Vendor: SEAGATE Product: ST336607FSUN36G - c1t1d0s2, c1t0d0s2

vxvm:vxconfigd: WARNING: Detaching plex rootvol-01 from volume

rootvol

vxvm:vxconfigd: ERROR: Cannot start rootvol volume, no valid plexes

vxvm:vxconfigd: ERROR: System startup failed syncing file systems... done Program terminated 1.2 系统故障记录(messages)

syslog 进程在系统启动时自动运行。记录包括硬件软件及其他操作信息。

故障记录文件为/var/adm/messages，可备份下来或拷贝到别的机器上分析

#vi /var/adm/messages 列出简短出错信息

Apr 3 03:10:20 s9svr2 in.mpathd[1967]: [ID 4720 daemon.error]

phyint_inst_v4_sockinit

: setsockopt IP_DONTFAILOVER (inet rf2): Option not supported by

protocol

Apr 3 03:11:20 s9svr2 last message repeated 3 times Apr 3 03:11:40 s9svr2 in.mpathd[1967]: [ID 4720 daemon.error]

phyint_inst_v4_sockinit

: setsockopt IP_DONTFAILOVER (inet rf2): Option not supported by

protocol

Apr 3 03:26:08 s9svr2 rf: [ID 885255 kern.notice] NOTICE: rf1: link

down detected: mii_

stat:7809<100_BASEX_FD,100_BASEX,10_BASE_FD,10_BASE,CANAUTONEG,E

XTENDED> restarting auto -negotiation Apr

03:26:10

s9svr2

rf:

[ID

345559

http://www..com/doc/9115395412.html,] rf0:

auto-negotiation done Apr

03:26:10

s9svr2

rf:

[ID

345559

http://www..com/doc/9115395412.html,] rf1:

auto-negotiation done Apr

03:26:10

s9svr2

rf:

[ID

103695

http://www..com/doc/9115395412.html,] rf0: Link up: 100

Mbps full duplex with out flow control Apr

03:26:10

s9svr2

rf:

[ID

103695

http://www..com/doc/9115395412.html,] rf1: Link up: 100

Mbps full duplex with

out flow control

Apr 3 03:26:12 s9svr2 cl_runtime: [ID 273354 kern.notice] NOTICE:

CMM: Node s9svr1 (nod eid = 1) is dead

在每条记录中，有事件发生的时间，事件的id，以及事件的类型，在查看messages文件时，特别要注意，事件类型为error，或者warnning的项目

1.3 主机面板上的LED

根据具体机型的不同，LED灯的状态不同，具体含义，要参照各个产品的说明文档。

通常设备运行正常时，LED灯的状态是绿灯。 1.4 系统引导的故障记录

在系统引导的过程当中，系统的一些信息，包括正常的和错误的信息都不会直接显示出来，而是记录在日志文件中，我们可以在系统中用dmesg命令来显示这些信息。

如： # dmesg

Wed Apr 10 17:04:48 EDT 2002 Apr

16:39:35

s9svr2

genunix:

[ID

936769

http://www..com/doc/9115395412.html,] devinfo0 is

/pseudo/devinfo@0

Apr 10 16:39:35 s9svr2 cl_runtime: [ID 499756 kern.notice] NOTICE:

CMM: Node s9svr2: joined cluster.

Apr 10 16:39:36 s9svr2 cl_runtime: [ID 487827 kern.notice] NOTICE:

CCR: Waiting for repository synchronization to finish. Apr

16:39:37

s9svr2

pseudo:

[ID

1292

http://www..com/doc/9115395412.html,] pseudo-device:

clprivnet0 Apr

16:39:57

s9svr2

rootnex:

[ID

3499

http://www..com/doc/9115395412.html,] ffb0 at root:

UPA 0x1e 0x0 Apr

16:39:57

s9svr2

genunix:

[ID

936769

http://www..com/doc/9115395412.html,] ffb0 is

/SUNW,ffb@1e,0 Apr

16:40:14

s9svr2

xntpd[379]:

[ID

301315

daemon.notice] tickadj

= 5, tick = 10000, tvu_maxslew = 495, est. hz = 100 Apr

16:40:14

s9svr2

xntpd[379]:

[ID

798731

daemon.notice] using

kernel phase-lock loop 0041

Apr 10 16:40:14 s9svr2 last message repeated 1 time Apr 10 16:40:14 s9svr2 Cluster.Framework: [ID 801593 daemon.notice]

stdout: releasing reservations for scsi-2 disks shared with s9svr1

Apr 10 16:40:21 s9svr2 Cluster.Framework: [ID 801593 daemon.notice]

stdout: resetting scsi buses shared with non-cluster nodes Apr 10 16:42:12 s9svr2 in.mpathd[1962]: [ID 4720 daemon.error]

phyint_inst_v4_sockinit: setsockopt IP_DONTFAILOVER (inet rf2):

Option not supported by protocol

说明：与message文件一样，在每条记录中，都有事件发生的时间，事件的id，以及事件的类型，在查看messages文件时，特别要注意，事件类型为error，或者warnning的项目。

1.5 MAIL

通常系统出现故障后，系统会定时提醒root用户，向root用户发mail，报告出错信息。如：# mail

*****************.bTueApr906:53:562002Date: Tue, 9 Apr 2002 06:53:56 +0800 (CST) From: Super-User

Message-Id: <************************************.b>To:*************.b

Subject: Attempting VxVM relocation on host s9svr1 Content-Length: 940

Relocation was not successful for subdisks on disk rootdisk_1 in

volume lvtest1 in disk group rootdg. No replacement was made and

the

disk is still unusable.

The following volumes have storage on rootdisk_1: lvtest1 lvtest3 rootdisk_16vol rootvol swapvol

These volumes are still usable, but the the redundancy of those volumes is reduced. Any RAID-5 volumes with storage on

the failed disk may become unusable in the face of further failures.

1.6 运行故障诊断程序(prtdiad -v) 对系统硬件进行检查和诊断当发现有硬件故障时，或者怀疑有硬件故障时，应立即使用prtdiag。

如：

# prtdiag -v

System Configuration: Sun Microsystems sun4u Sun Ultra 30 UPA/PCI

(UltraSPARC-II 296MHz)

System clock frequency: 99 MHz Memory size: 512 Megabytes

========================= =========================

Run Ecache CPU CPU

Brd CPU Module MHz MB Impl. Mask --- --- ------- ----- ------ ------ ---- 0 0 0 296 2.0 US-II 2.0

========================= IO

=========================

Bus Freq

Brd Type MHz Slot Name Model

--- ---- ---- ---------- ---------------------------- ------ --------------

0 PCI 33 On-Board network-SUNW,hme 0 PCI 33 On-Board scsi-glm/disk (block) Symbios,53C875 0 PCI 33 pcib slot 2 ethernet-pci10ec,8139 0 PCI 33 pcib scsi-glm/disk (block) Symbios,53C875

0 PCI 33 - ethernet-pci10ec,8139 0 PCI 66 pcia slot 1 ethernet-pci1113,1211 0 UPA 99 30 FFB, Single Buffered SUNW,501-47

CPUs

Cards No failures found in System

注意看各个设备项目检查后的状态，和最后的结论。 1.7 其他用于收集系统信息的命令收集系统explorer信息 # cd /opt/SUNWexplo/bin/ ./explorer cd .. cd output ls -l

在这个目录下将看到一个最新的explorer文件，接着再用ftp(bin)方式下载到PC上进行分析。

# prtconf

System Configuration: Sun Microsystems sun4u Memory size: 256 Megabytes System Peripherals (Software Nodes): SUNW,Ultra-30

packages (driver not attached)

terminal-emulator (driver not attached) deblocker (driver not attached) obp-tftp (driver not attached) disk-label (driver not attached)

SUNW,builtin-drivers (driver not attached) sun-keyboard (driver not attached) ufs-file-system (driver not attached) chosen (driver not attached) openprom (driver not attached) client-services (driver not attached) options, instance #0 aliases (driver not attached) memory (driver not attached)

virtual-memory (driver not attached) pci, instance #0 ebus, instance #0

auxio (driver not attached) power (driver not attached) SUNW,pll (driver not attached) sc (driver not attached) se, instance #0 su, instance #0 su, instance #1

ecpp (driver not attached) fdthree (driver not attached) eeprom (driver not attached) flashprom (driver not attached) SUNW,CS4231 (driver not attached) network, instance #0 scsi, instance #0

收集系统中硬盘的个数的命令 # format

Searching for disks...done AVAILABLE DISK SELECTIONS: 0. c0t0d0 <=\"\"> 431>

/pci@1f,4000/scsi@3/sd@0,0 1. c1t0d0 <=\"\"> 214>

/pci@1f,4000/scsi@4/sd@0,0 2. c1t5d0 <=\"\"> 502>

/pci@1f,4000/scsi@4/sd@5,0

3. c1t12d0 <=\"\"> 320>

/pci@1f,4000/scsi@4/sd@c,0 Specify disk (enter its number):

如果有硬盘没有找到，则使用如下命令，可以搜索新硬盘。 # devfsadm –C # drvconfig # devlinks

第2章硬件故障定位方法 2.1 PROM

在Sparc平台下，Solaris系统中有一个类似PC BIOS的芯片程序(PROM OpenBoot)负责主机在加电后硬件的自检、文件系统和内核的加载，在Solaris 2.6之后的版本中，默认的内核文件存放/platform/`arch`/kernel/unix下，

通过PROM的硬件的自检功能，我们能够对系统的主要硬件的有一个大致的判断。

2.2 系统的启动顺序

solaris下，PROM下，硬件自检完成以后，进入OS的加载阶段，具体的流程如下：

init 0 openboot模式 -> (引导内核，加载硬件驱动) 可以选择从cdrom引导进入维护模式

| V

init 1 单用户模式 -> (加载/分区) 登陆进入维护模式，或按Ctrl+D进入多用户模式

| V

init 2 网络工作站模式 -> (连接网络，运行网络工作站服务) 运行/etc/rc2脚本连接网络

| |

| ->-> 启动S69inet服务,运行部分inetd网络服务 V

init 3 网络服务器模式 -> (运行各种网络服务) 运行/etc/rc3脚本启动其他的系统服务

2.3 系统引导的时候，发生停止

发生在系统启动时候的停止，最常见的原因是文件系统损坏修复方法：

用系统光启动操作系统执行 ok > boot cdrom -s 启动后检查修复文件系统 #fsck –y device-name

用exit命令退出文件系统会自动mount起来 2.4 系统dump

发生在系统崩溃时SOLARIS会做dump(系统内存的快照) 一般dump是由于软件出错引起，机器通常会发生重启dump的有关设置

当前的设置

# vi /etc/dumpadm.conf

# Configuration parameters for system crash dump.

# Do NOT edit this file by hand -- use dumpadm(1m) instead. #

DUMPADM_DEVICE=/dev/dsk/c0t0d0s1 DUMPADM_SAVDIR=/var/crash/s8svr1 DUMPADM_CONTENT=kernel DUMPADM_ENABLE=yes

如果要关闭dump的功能，那么设置DUMPADM_ENABLE=no 系统dump后的文件，保存在/var/crash/hostsname下，（可以根据需要把该目录重新定向到用户自定义的文件系统下），在故障比较难定位的情况下，可以通过把DUMP文件发到SUN 公司，由SUN产品技术专家通过分析该文件，来定位具体的故障原因。

第3章软件故障定位方法

软件故障情况错综复杂下面列举几个常见案例的故障处理方法 3.1 文件系统空间不够

特别要注意的是，不要有超过90%文件系统

“/”文件系统满可导致系统不能正常工作，比如会导致用户不能登录

用df –k可以查看文件系统的使用情况 #df –k

查看SOLARIS的基本文件系统

Filesystem kbytes used avail capacity Mounted on /dev/vx/dsk/rootvol 4534331 2624858 18130 59% / /proc 0 0 0 0% /proc mnttab 0 0 0 0% /etc/mntta b

fd 0 0 0 0% /dev/fd

swap 717288 112 717176 1% /var/run swap 717208 32 717176 1% /tmp /dev/dsk/c1t5d0s1 /opt/oracle

/dev/vx/dsk/rootdisk_16vol 507391 4742 451910 2% /global/.d evices/node@1

/dev/vx/dsk/rootdisk_26vol 507391 4726 451926 2% /global/.d evices/node@2

除/usr文件系统其他文件系统都不应太满一般不超过80% 处理方法1：删除垃圾文件 #du –sk * |sort -rn|head

查找出当前目录下占空间最大的子目录逐层往下直到找出占空间最大的文件要区分哪些目录是文件系统的mountpoint哪些是文件系

4334559

2504092

1787122

59%

统的子目录删除文件

释放空间有时删除文件后空间并不马上释放这是由于你删除的文件正被某个程序打开只有当这个程序停止后空间才释放有时甚至需要重起系统

处理方法2：增加文件系统大小 3.2 检查文件系统的完整性 #umount filesystem_name #fsck –y filesystem_name

注意文件系统必须先umount再做检查和修复否则可导致未知的后果

第4章常用的系统状态查询命令 #prtconf |grep scsi

列出各个SCSI设备的所有相关信息如逻辑单元号硬件地址及设备文件名等

#ps -ef

列出正在运行的所有进程的各种信息如进程号及进程名等 #netstat -rn

列出网卡状态及路由信息等 #netstat -in

列出网卡状态及网络配置信息 #df -k

列出已加载的逻辑卷及其大小信息 #mount

列出已加载的逻辑卷及其加载位置 #uname -a

列出系统ID号系统名称OS版本等信息 #hostname 列出系统网络名称 #vxdisk –o alldgs list 显示系统中所有卷组的信息

# vxdisk list

显示系统中包含哪些物理盘及vmdisk等 #vxprint -pht

显示逻辑卷各种信息如包含哪些盘是否有镜像等第5章网络故障定位方法5.1 网络不通的诊断过程查看网卡是否启动(up) # ifconfig 查看网卡状态 # netstat i

Ierrs/Ipkts和Oerrs/Opkts是否>1% ping自己网卡地址(ip地址)

# ping其它机器地址如不通在其机器上用prtdiag -v检测网卡是否有问题在同一网中subnetmask应一致

5.2 网络配置的基本方法

如需修改网络地址主机名,使用如下方法 # vi /etc/nodename 确认网络地址 # ifconfig -a 启动网卡

# ifconfig hme0 up 配置路由

有两种方式加入路由临时路由

#route add –net netadd local_gw_ip 永久路由

将以上的命令，添加到系统的启动配置文件中：如：

# vi /etc/rc3.d/S95router

route add –net netadd local_gw_ip 查看路由表

# netstat –rn

第6章 SUN CLUSTER环境下的排错

在一般情况下，SUN CLUSTER软件很少需要手工干预，但一旦有问题发生，诊断和恢复的技巧是很重要的需要能很快地断定问题然后运用你对SUN CLUSTER的理解来恢复SUN CLUSTER

的正常运作一般地,SUN CLUSTER环境下的排错包括: 1：了解问题的存在判断问题的出处 2：解决问题 6.1 了解问题的存在

可以通过以下途径了解一个CLUSTER环境下出现了哪些问题最终用户的投诉，他们无法访问应用程序，控制台上出现一些SUN CLUSTER的信息，应用服务无法访问

最终用户的抱怨通常预示CLUSTER出现了问题，他们无法正常执行应用或是无法登录到系统，我们必须采集到详细的信息以判断到底那里出现了问题，是否有错误的信息提示？如果可能的话，让用户重复步骤以确定哪里是错误的，开始也可以在自己的测试系统上进行重复，要知道用户应用不可用并不代表SUN CLUSTER有问题，问题可能出现在应用程序本身，或是它的启动或终止脚本出现了问题，因此应用程序本身的排错也应是HA排错的一部分。

6.2 判断问题的出处

当错误出现时,我们应尝试发现错误的所在但我们常常被错误的表面所误导以下的步骤可以

使我们得到更详细的信息

1：保存好LOG文件(/var/adm/messages*)

2：仔细检查messages中，SUN CLUSTER所产生的事件，根据它们能提供最初的判断线索3：用SUN CLUSTER的命令来检查SUN CLUSTER的部件是否正常

如：查看messages文件 #cat /var/adm/messages文件：

以下文件都是文本文件,可以用vi来看每个日志文件

Apr 3 03:10:20 s9svr2 in.mpathd[1967]: [ID 4720 daemon.error] phyint_inst_v4_sockinit