祝! Apache Hadoop 2.2.0 GAリリース
Apache Hadoop 2.2.0 GAがついに公開!
Hadoop2.xといいながらも、今まで2.0.xはアルファ版、2.1.xがベータ版という不思議なリリースが続いていましたが、ついに2.2.0でGAとなりました。 http://hadoop.apache.org/releases.html#15+October%2C+2013%3A+Release+2.2.0+available
全く貢献できていませんが、公開おめでとうございます!
このリリースによってYARNの利用が促進されるのか、あるいはWindowsユーザーが増えるのかどうかはわかりませんが、より安定してエンタープライズ環境で広範囲に利用されることを願っています。
HDFSの拡張:スナップショットとNFSv3対応
そういえばHDFSはスナップショットに対応し、ついにNFSv3でもアクセスできるようになります。一部の方々にとっては朗報しれません。
#NFSはスケーラブルではないので、FlumeやSqoopの方が使い勝手は良いかもしれないですが、、、
2013/10/16更新:目玉機能を書けと言われたので追記します。リリースノートから興味深いものを抜粋。
YARN
YARN(Yet Another Resource Negotiator)、MapReduce version2 (MRv2)やApache Giraph、Mahoutなどにも利用される分散処理の実行基盤。いくつか不具合が残っていましたが、このリリースで修正されています。MRv2でフェアスケジューラも利用できるようになったようですね。
Resource Managerの高可用性(YARN-149)はまだ対応できていない模様。
HDFSはかなり機能追加されています。多いので目についたものだけ。
HDFS SnapShot
スナップショットは任意の時点における、読み取り専用のHDFSのコピーです。元々HDFSはライトワンスのため更新できない(追記はできる)のですが、任意の時点でのバックアップを取りたい場合、ディザスタリカバリに役立つことが期待されています。スナップショットは実際のブロックのコピーを取るわけではないので、かかる時間もボリュームのサイズに依存せず、O(1)となります。既にスナップショットのページも用意されているので、興味があるかたはご覧になってはいかがでしょう。
NFSv3対応
JIRAのチケットが分散していますが、HADOOP-9515「Add general interface for NFS and Mount」とHDFS-4750「Support NFSv3 interface to HDFS」、HDFS-4762「Provide HDFS based NFSv3 and Mountd implementation」あたりのチケットをみると良さそうです。 まだ追えていないんですが、デザインドキュメントを見ると、HttpFsのように、NFSゲートウェイを置き、クライアントからアクセスするモデルのようです。
これを見ると、単一サーバーはスケールアウトしないんじゃないの?とか、単一障害点では?いう方もいらっしゃるでしょう。細かいことは調べていないのでわかりませんが、HDFS-4750をフォローすると良さそうです。今回は最初のリリースですし、(そもそもNFS必要な人ってそんなに多い?)きっとOSSのチカラで良いものになっていくと思います。
バランサーが新しいトポロジー形式に対応
HDFS-3495「Update Balancer to support new NetworkTopology with NodeGroup」を見ると、NodeGroupでのネットワークトポロジーをサポートするようにリバランス処理が変更されたようです。(良く読んでいない)
データノードでのブロックボリュームデバイスの選択ポリシー
以前Twitterでも書きましたが、先行してCDH4.3に含まれていたのがこれです。データノードに複数のディスクがある場合、ディスク間でのバランシングは行っていませんでした。(データノード間のリバランスは従来より可能。これは同一データノード内に複数のディスクがある場合のバランシングです)。このHDFS−1804はディスクボリューム間でのリバランスポリシーの機能です。
NameNodeのリカバリーツール
HDFS-3004もCDH4では利用できていましたが、正式に(?)利用できるようになった模様です。日本語のブログ:HDFSにおける、NameNodeのリカバリ・ツールについて
他にもいろいろありますが、この辺で。。
2013/10/17 0:00更新
書き忘れていましたが、このバージョンでWindowsがサポートされましたね。運用ノウハウやチューニング、Windowsに特化した問題など、課題はいくつもありそうですが、選択肢が増えることは喜ばしいです。
注)本家ブログは http://linux.wwing.netです。はてなブログはバックアップ/待避用のため、内容が古いことがあります。