NDBCLUSTERが頻繁に落ちる。
おそらく設定の問題か機器的な問題だとは思うのだけど。
今のところ週に2,3回片側データノードが落ちる。そして復旧時に全落ちしたりする。
要因不明で、いつも似たようなエラーナンバーがでる。あとは、トレースファイルしかなさそうだ。。。
7.1.8から継続的に発生。
ローリングバージョンアップで、mysql-5.1.51 ndb-7.1.10に更新した。
構成は
物理4台構成で
DataNode 2式
SQLNode 兼 ManagemnetNode 2式
前日
DataNode3 restart modeでリスタート後停止。再度、initial mode でリスタート処理を行う。
2011-05-13 14:51:40 [ndbd] INFO -- Killed by node 3 as copyfrag failed, error: 1217
2011-05-13 14:51:40 [ndbd] INFO -- NDBCNTR (Line: 273) 0x00000006
2011-05-13 14:51:40 [ndbd] INFO -- Error handler shutting down system
2011-05-13 14:51:40 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-13 14:51:41 [ndbd] ALERT -- Node 3: Forced node shutdown completed. Occured during startphase 5. Caused by error 2303: 'System error, node killed during node restart by other node(Internal error, programming error or missing error message, please report a bug). Temporary error, rest
Node3 停止。
エラー発生
全ノードダウン
DataNode4 停止
2011-05-13 16:21:15 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-13 16:21:15 [ndbd] INFO -- DBTUP (Line: 64) 0x00000006
2011-05-13 16:21:15 [ndbd] INFO -- Error handler shutting down system
2011-05-13 16:21:15 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-13 16:21:16 [ndbd] ALERT -- Node 4: Forced node shutdown completed. Caused by error 2341:
'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message,
please report a bug). Temporary error, restart node'.
夜間に復旧させた。
DataNode3
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 6 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 7 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 8 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 9 completed
2011-05-14 02:57:39 [ndbd] INFO -- Start phase 100 completed
alloc_chunk(390327 16) -
2011-05-14 02:57:39 [ndbd] INFO -- Suma: handover from node 4 gci: 11671826 buckets: 00000001 (2)
11671826/0 (11671825/4294967295) switchover complete bucket 0 state: 1starting
2011-05-14 02:57:42 [ndbd] INFO -- Start phase 101 completed
2011-05-14 02:57:42 [ndbd] INFO -- Node started
次の日朝から、連日以下の問題が発生
DataNode3
2011-05-14 06:29:15 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-14 06:29:15 [ndbd] INFO -- DBTUP (Line: 64) 0x00000006
2011-05-14 06:29:15 [ndbd] INFO -- Error handler shutting down system
2011-05-14 06:29:15 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-14 06:29:16 [ndbd] ALERT -- Node 3: Forced node shutdown completed. Caused by error 2341:
'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message,
please report a bug). Temporary error, restart node'.
DataNode4
2011-05-14 07:24:42 [ndbd] INFO -- dbtup/DbtupScan.cpp
2011-05-14 07:24:42 [ndbd] INFO -- DBTUP (Line: 64) 0x00000002
2011-05-14 07:24:42 [ndbd] INFO -- Error handler shutting down system
2011-05-14 07:24:42 [ndbd] INFO -- Error handler shutdown completed - exiting
2011-05-14 07:24:43 [ndbd] ALERT -- Node 4: Forced node shutdown completed. Caused by error 2341: 'Internal program error (failed ndbrequire)(Internal error, programming error or missing error message, please report a bug). Temporary error, restart node'.
NDBCLUSTERのうち、データノードが頻繁に落ちる。
おそらく基本的な設定か、データの間違いだと思うんだけど、連日は痛い。
デバックメッセージが出力されるが、かなり困難。やはりオープンソースの壁は厚い
のかも。
要因わからず。
いわゆるこのエラーっぽい
http://dev.mysql.com/doc/refman/5.1/ja/mysql-cluster-ndbd-process.html
もし対応可能なら、
データノードを4式にして、データグループを作り冗長にさせるかしかなさそうだ。
DRBDでリカバーリしたほうが現実的なのかも。NDBクラスターには、無停止でできるいい
メリットもあるけどWEB系で、カウント系のSQLが多用されていると、通常のMySQLよりは
遅くなるし厳しい。
1000万もするって言われたコンサルタントに相談すべきなのかなぁ。。。