Tech Blog 〜ぞうの日記

HadoopやLinux関連の技術的な内容の紹介です

hdfs

HDFSが変わる?HDFSのイレイジャーコーディング対応

※このブログは本家(http://linux.wwing.net)のバックアップコピーです Hadoopの分散ファイルシステムであるHDFSはビッグデータ用のストレージ用に広く利用され、ビッグデータにおけるファイルシステムのデファクトスタンダードになっていると言っても過言…

HDFSのヘテロジニアス(非均一)ストレージ構成

9日目です(すみません、土日に書くのは休むことにしました) ご存知の通り、HDFSはマスターとスレーブ群から構成されます。スレーブノードを大量に用意することで、膨大なデータを蓄積することができます。 現状のHDFSでは、個々のデータノードが持ってい…

HDFSのヘテロジニアス対応

HDFSとヘテロジニアスな構成 一般的に、Hadoopは同一構成のサーバを大量に並べる方が、運用が簡単です。非均一な構成は、特に設定ファイルの管理、チューニングが厄介です。 そんな中、HDFS-2832で「Enable support for heterogeneous storages in HDFS」と…

QJMによる高可用性HDFSのWebUIスクリーンショット

@daisukebe_氏が執筆しているHadoopオペレーションズの付録の手伝いで、QJMを使用した高可用性HDFS (HDFS-HA)の環境を構築しました。ネームノードのWebUIのスクリーンショットを取ったので、自分用に貼っておきます。

Hadoopのセキュリティ

Hadoopのセキュリティについての雑記 認証についてはKerberosを使うというのがスタンダードですが、暗号化についても徐々に進んでいます。 ネットワークの暗号化 例えば、ネットワークの暗号化については下記のブログがお勧めです。http://blog.cloudera.com…

HDFSが高速に?キャッシュメカニズムの追加

本日公開された HDFS-4949 のJIRAは、HDFSにインメモリキャッシュ機構を導入しようというものです。 Jiraに添付されているドキュメントより興味深い点を抜粋してみます:Centralized cache management 問題点1:複数ノードでのキャッシュの利用 HDFS上のデー…