Forced node shutdown completed. Caused by error 2341（未解決） (OSTL)

NDBCLUSTERが頻繁に落ちる。

おそらく設定の問題か機器的な問題だとは思うのだけど。
今のところ週に2，3回片側データノードが落ちる。そして復旧時に全落ちしたりする。
要因不明で、いつも似たようなエラーナンバーがでる。あとは、トレースファイルしかなさそうだ。。。

7.1.8から継続的に発生。
ローリングバージョンアップで、mysql-5.1.51 ndb-7.1.10に更新した。

構成は
　物理4台構成で
DataNode 2式
SQLNode 兼　ManagemnetNode 2式

前日
DataNode3 restart modeでリスタート後停止。再度、initial mode でリスタート処理を行う。

2011-05-13 14:51:40 [ndbd] INFO -- Killed by node 3 as copyfrag failed, error: 1217
2011-05-13 14:51:40 [ndbd] INFO -- NDBCNTR (Line: 273) 0x00000006
2011-05-13 14:51:40 [ndbd] INFO -- Error handler shutting down system
2011-05-13 14:51:40 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-13 14:51:41 [ndbd] ALERT -- Node 3: Forced node shutdown completed. Occured during startphase 5. Caused by error 2303: 'System error, node killed during node restart by other node(Internal error, programming error or missing error message, please report a bug). Temporary error, rest

Node3 停止。
エラー発生
全ノードダウン

DataNode4 停止
2011-05-13 16:21:15 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-13 16:21:15 [ndbd] INFO -- DBTUP (Line: 64) 0x00000006
2011-05-13 16:21:15 [ndbd] INFO -- Error handler shutting down system
2011-05-13 16:21:15 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-13 16:21:16 [ndbd] ALERT -- Node 4: Forced node shutdown completed. Caused by error 2341:
'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message,
please report a bug). Temporary error, restart node'.

夜間に復旧させた。
DataNode3
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 6 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 7 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 8 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 9 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 100 completed
alloc_chunk(390327 16) -
2011-05-14 02:57:39 [ndbd] INFO -- Suma: handover from node 4 gci: 11671826 buckets: 00000001 (2)
11671826/0 (11671825/4294967295) switchover complete bucket 0 state: 1starting
2011-05-14 02:57:42 [ndbd] INFO -- Start phase 101 completed
2011-05-14 02:57:42 [ndbd] INFO -- Node started

次の日朝から、連日以下の問題が発生
DataNode3
2011-05-14 06:29:15 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-14 06:29:15 [ndbd] INFO -- DBTUP (Line: 64) 0x00000006
2011-05-14 06:29:15 [ndbd] INFO -- Error handler shutting down system
2011-05-14 06:29:15 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-14 06:29:16 [ndbd] ALERT -- Node 3: Forced node shutdown completed. Caused by error 2341:
'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message,
please report a bug). Temporary error, restart node'.

DataNode4
2011-05-14 07:24:42 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-14 07:24:42 [ndbd] INFO -- DBTUP (Line: 64) 0x00000002
2011-05-14 07:24:42 [ndbd] INFO -- Error handler shutting down system
2011-05-14 07:24:42 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-14 07:24:43 [ndbd] ALERT -- Node 4: Forced node shutdown completed. Caused by error 2341: 'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.

NDBCLUSTERのうち、データノードが頻繁に落ちる。
おそらく基本的な設定か、データの間違いだと思うんだけど、連日は痛い。

デバックメッセージが出力されるが、かなり困難。やはりオープンソースの壁は厚い
のかも。
要因わからず。

いわゆるこのエラーっぽい
http://dev.mysql.com/doc/refman/5.1/ja/mysql-cluster-ndbd-process.html

もし対応可能なら、
　データノードを4式にして、データグループを作り冗長にさせるかしかなさそうだ。

DRBDでリカバーリしたほうが現実的なのかも。NDBクラスターには、無停止でできるいい
メリットもあるけどWEB系で、カウント系のSQLが多用されていると、通常のMySQLよりは
遅くなるし厳しい。
1000万もするって言われたコンサルタントに相談すべきなのかなぁ。。。

OSTL

Research Technology Labo 個人的なメモ書きを兼ねてブログ始めてみた

Forced node shutdown completed. Caused by error 2341（未解決）

トラックバック

コメントを投稿

検索

About