突然サーバが死んだ

昨日,お客さんのところのサーバが応答しなくなり、急遽行って来た。
調べたところ,メモリの問題でもディスクの問題でもなく、電源の問題でもなさそうで、
マザーボードかCPUがおかしいという結論に。
さてどうやって対処するかなのですが、見事にメールサーバなので、
速やかに復帰させる必要がある。
ディスクはRAIDを組んでいるのですが,PCIe の8倍なので,普通のマザーボードには搭載されていない。
x16の普通のパソコンだと動かないことが多かった経験があるので、
急遽会社で眠っている1Uサーバを貸してあげることにしました。
2時半に現地に向かい、一旦会社に戻り、
RAIDカードとディスクを代替サーバに入れてあげて起動したところ、
ちゃんと動き出しました。よかったよかった。
作業完了が18時過ぎ。結構スピード解決でした。
後で動き出してから死んだときのエラーログを見てみたところ、
このようになっていました。この後、完全に起動しなくなってしまいました。
お客さん側の今の担当者はシステムがわかる方で、
まじめに二重化を検討するそうです。よかったよかった。
iSCSIストレージ+本サーバ+フェイルオーバー用サーバの構成を月曜日までに提案です。
とりあえず、無料で代替サーバを貸しているのですが、
さすがにこれではいかんだろということになっていて、いい感じです。

Jan  9 13:17:01 sample /USR/SBIN/CRON[11192]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jan  9 13:22:34 sample kernel: drivers/usb/input/hid-core.c: input irq status -75 received
Jan  9 13:22:34 sample kernel: hub 4-0:1.0: port 2 disabled by hub (EMI?), re-enabling...
Jan  9 13:22:34 sample kernel: usb 4-2: USB disconnect, address 4
Jan  9 13:22:34 sample kernel: usb 4-2: new full speed USB device using uhci_hcd and address 5
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-20003200 delta_cpu=3996800 shadow=23076981785011861 off=17901451
4 processed=23076981984029333 cpu_processed=23076981960029333
Jan  9 13:22:35 sample kernel:  0: 23076981960029333
Jan  9 13:22:35 sample kernel:  1: 23076981980029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-18009947 delta_cpu=5990053 shadow=23076981785011861 off=18100761
6 processed=23076981984029333 cpu_processed=23076981960029333
Jan  9 13:22:35 sample kernel:  0: 23076981960029333
Jan  9 13:22:35 sample kernel:  1: 23076981980029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-20631356 delta_cpu=19368644 shadow=23076981785011861 off=4583863
55 processed=23076982264029333 cpu_processed=23076982224029333
Jan  9 13:22:35 sample kernel:  0: 23076982224029333
Jan  9 13:22:35 sample kernel:  1: 23076982260029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-18626019 delta_cpu=5373981 shadow=23076981785011861 off=46039156
3 processed=23076982264029333 cpu_processed=23076982240029333
Jan  9 13:22:35 sample kernel:  0: 23076982240029333
Jan  9 13:22:35 sample kernel:  1: 23076982260029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-16406687 delta_cpu=3593313 shadow=23076981785011861 off=46261092
2 processed=23076982264029333 cpu_processed=23076982244029333
Jan  9 13:22:35 sample kernel:  0: 23076982244029333
Jan  9 13:22:35 sample kernel:  1: 23076982260029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-14293560 delta_cpu=5706440 shadow=23076981785011861 off=46472403
8 processed=23076982264029333 cpu_processed=23076982244029333
Jan  9 13:22:35 sample kernel:  0: 23076982244029333
Jan  9 13:22:35 sample kernel:  1: 23076982260029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-12177055 delta_cpu=3822945 shadow=23076981785011861 off=46684054
7 processed=23076982264029333 cpu_processed=23076982248029333
Jan  9 13:22:35 sample kernel:  0: 23076982248029333
Jan  9 13:22:35 sample kernel:  1: 23076982260029333
Jan  9 13:22:35 sample kernel: Timer ISR/0: Time went backwards: delta=-10108016 delta_cpu=5891984 shadow=23076981785011861 off=46890961
0 processed=23076982264029333 cpu_processed=23076982248029333
Jan  9 13:22:35 sample kernel:  0: 23076982248029333
Jan  9 13:22:35 sample kernel:  1: 23076982260029333
Jan  9 13:22:36 sample kernel: Timer ISR/1: Time went backwards: delta=-56000016 delta_cpu=3999984 shadow=23076982060010460 off=98014364
5 processed=23076983096029333 cpu_processed=23076983036029333
Jan  9 13:22:36 sample kernel:  0: 23076983096029333
Jan  9 13:22:36 sample kernel:  1: 23076983036029333
Jan  9 13:22:37 sample kernel: usb 4-2: device descriptor read/64, error -75
Jan  9 13:22:38 sample kernel: usb 4-2: device descriptor read/64, error -71
Jan  9 13:22:38 sample kernel: usb 4-2: new full speed USB device using uhci_hcd and address 6
Jan  9 13:22:41 sample kernel: usb 4-2: device descriptor read/64, error -110
Jan  9 13:22:44 sample kernel: usb 4-2: device descriptor read/64, error -71
Jan  9 13:22:44 sample kernel: usb 4-2: new full speed USB device using uhci_hcd and address 7
Jan  9 13:22:45 sample kernel: Timer ISR/1: Time went backwards: delta=-12007876 delta_cpu=15992124 shadow=23076991851205185 off=5808165
60 processed=23076992444029333 cpu_processed=23076992416029333
Jan  9 13:22:45 sample kernel:  0: 23076992444029333
Jan  9 13:22:45 sample kernel:  1: 23076992416029333
Jan  9 13:22:46 sample kernel: Timer ISR/1: Time went backwards: delta=-28022981 delta_cpu=251977019 shadow=23076991851205185 off=852801
474 processed=23076992732029333 cpu_processed=23076992452029333
Jan  9 13:22:46 sample kernel:  0: 23076992732029333
Jan  9 13:22:46 sample kernel:  1: 23076992452029333
Jan  9 13:22:46 sample kernel: Timer ISR/1: Time went backwards: delta=-19686937 delta_cpu=12313063 shadow=23076991851205185 off=8611373
13 processed=23076992732029333 cpu_processed=23076992700029333
Jan  9 13:22:46 sample kernel:  0: 23076992732029333
Jan  9 13:22:46 sample kernel:  1: 23076992700029333