hdfs
※このブログは本家(http://linux.wwing.net)のバックアップコピーです Hadoopの分散ファイルシステムであるHDFSはビッグデータ用のストレージ用に広く利用され、ビッグデータにおけるファイルシステムのデファクトスタンダードになっていると言っても過言…
9日目です(すみません、土日に書くのは休むことにしました) ご存知の通り、HDFSはマスターとスレーブ群から構成されます。スレーブノードを大量に用意することで、膨大なデータを蓄積することができます。 現状のHDFSでは、個々のデータノードが持ってい…
HDFSとヘテロジニアスな構成 一般的に、Hadoopは同一構成のサーバを大量に並べる方が、運用が簡単です。非均一な構成は、特に設定ファイルの管理、チューニングが厄介です。 そんな中、HDFS-2832で「Enable support for heterogeneous storages in HDFS」と…
@daisukebe_氏が執筆しているHadoopオペレーションズの付録の手伝いで、QJMを使用した高可用性HDFS (HDFS-HA)の環境を構築しました。ネームノードのWebUIのスクリーンショットを取ったので、自分用に貼っておきます。
Hadoopのセキュリティについての雑記 認証についてはKerberosを使うというのがスタンダードですが、暗号化についても徐々に進んでいます。 ネットワークの暗号化 例えば、ネットワークの暗号化については下記のブログがお勧めです。http://blog.cloudera.com…
本日公開された HDFS-4949 のJIRAは、HDFSにインメモリキャッシュ機構を導入しようというものです。 Jiraに添付されているドキュメントより興味深い点を抜粋してみます:Centralized cache management 問題点1:複数ノードでのキャッシュの利用 HDFS上のデー…