Tech Blog 〜ぞうの日記

HadoopやLinux関連の技術的な内容の紹介です

hadoop

HDFSが変わる?HDFSのイレイジャーコーディング対応

※このブログは本家(http://linux.wwing.net)のバックアップコピーです Hadoopの分散ファイルシステムであるHDFSはビッグデータ用のストレージ用に広く利用され、ビッグデータにおけるファイルシステムのデファクトスタンダードになっていると言っても過言…

2014年版Hadoopアドベントカレンダーまとめ

2014版Hadoopアドベントカレンダーまとめ 年末なので久しぶりにこちらのブログも更新します。本家はこちらをどうぞ。 Tech Blog | Linux and Hadoop and other technologies 今年も各所でアドベントカレンダーが実施されていましたが、昨日のクリスマス、25…

Apache Hadoop 2.3.0 公開

Apache Hadoop 2.3.0 公開! (注)この記事は http://linux.wwing.net のバックアップコピーです 昨日、Apache Hadoop 2.3.0 が公開されました! http://hadoop.apache.org/releases.html#20+February%2C+2014%3A+Release+2.3.0+available 全く貢献できてい…

(5日目)MRv1におけるフェアスケジューラでのプリエンプション

元記事 5日目です 3日目に書いたMapReduceのスケジューラでうち、フェアスケジューラには「プリエンプション」という設定ができます。この設定をすることで、例えば緊急度の高くない長時間実行されているタスクを強制的にKillして、すぐに実行する必要がある…

(4日目)HueでCSVデータからHiveのテーブルを作る

元記事 4日目です。 本日はHadoopアドベントカレンダー2013の立候補がいないようなので、あえて書く@choplinさんが今 (22:30)書いて下さっているとのこと。凄い!ありがとうございます! #決して無理強いはしてないはず、、、、、と信じたい(汗 本日のお…

(3日目)MapReduce v1のスケジューリングアルゴリズム

元記事 3日目です。 本日のHadoopアドベントカレンダー2013は@shiumachi氏の「HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」」です。コンパクションも進化しているということがわかりますね。 さて、MapReduceでJobTrackerにジョブ…

(2日目)HDFSとMapReduceのハートビートの設定

元記事 2日目です。書き溜めた技術情報を書き続けてみるテスト中。 技術ネタ HDFSのハートビートなど a) ハートビート(デフォルト3秒: dfs.heartbeat.interval) 1) DataNodeからNameNodeに一定間隔で送付される。以下の情報が含まれる。(容量、使用…

(1日目)2013年の象(Hadoop)四方山話

元記事 Hadoopアドベントカレンダー2013、1日目です。 みんな大好き、かわいい象のマスコット(画像)でお馴染みのApache Hadoop(以下Hadoop)。運良く初日を取れたので、2013年のHadoop関連の話題をまとめてみました。 ※このブログの内容は所属している組…

Hadoopのアドベントカレンダー2013

Hadoop Advent Calendar 2013が始まっています! 初日分は本家のブログに書きましたが、こっそりと一人アドベントカレンダー(?)でHadoopネタを書き溜めています(笑 どこまで続けられるかわかりませんが、こちらにも転記しておくことにします

「Hadoopを40分で理解する」のスライド公開!

Cloudera World 2013の資料が公開されました 先週開催されたCloudera World Tokyo 2013、資料が公開され始めました。 http://www.cloudera.co.jp/cwt2013-session.html まだ全てのスライドは揃っていませんが、順次公開されるとのこと。 「Hadoopを40分で理…

祝! Apache Hadoop 2.2.0 GAリリース

Apache Hadoop 2.2.0 GAがついに公開! Hadoop2.xといいながらも、今まで2.0.xはアルファ版、2.1.xがベータ版という不思議なリリースが続いていましたが、ついに2.2.0でGAとなりました。 http://hadoop.apache.org/releases.html#15+October%2C+2013%3A+Rele…

HDFSのヘテロジニアス対応

HDFSとヘテロジニアスな構成 一般的に、Hadoopは同一構成のサーバを大量に並べる方が、運用が簡単です。非均一な構成は、特に設定ファイルの管理、チューニングが厄介です。 そんな中、HDFS-2832で「Enable support for heterogeneous storages in HDFS」と…

QJMによる高可用性HDFSのWebUIスクリーンショット

@daisukebe_氏が執筆しているHadoopオペレーションズの付録の手伝いで、QJMを使用した高可用性HDFS (HDFS-HA)の環境を構築しました。ネームノードのWebUIのスクリーンショットを取ったので、自分用に貼っておきます。

Hadoopのセキュリティ

Hadoopのセキュリティについての雑記 認証についてはKerberosを使うというのがスタンダードですが、暗号化についても徐々に進んでいます。 ネットワークの暗号化 例えば、ネットワークの暗号化については下記のブログがお勧めです。http://blog.cloudera.com…

Giraph関係のメモ

Facebookのグラフ処理はApache Giraph たまたまTwitterでGiraphの記事を見つけたのでメモ。 Facebookがグラフ処理にApache Giraphを使っているという記事 https://m.facebook.com/notes/facebook-engineering/scaling-apache-giraph-to-a-trillion-edges/101…

Enterprisezine連載2回目

前回に引き続き、EnterprisezineのDBOnlineに記事が掲載されました! Cloudera Managerはかなり良くできていますし、無償版でもかなり使えるので、疑心暗鬼な方もだまされたと思って一度使って下さい。きっと止められなくなる、、、はずですw。(ツールなの…

Hadoopがzipをサポートしていない理由

夏なので、軽いネタをいくつか投稿していきます。 [質問] Hadoopって圧縮ファイルをサポートしているよね?例えばgzipとかbzip2とか。でも、何でzipはダメなの?意味わからへん。 という質問をもらったので、Jiraを調べてみました。結果、恐るべき事実が、、…

象本3版出版記念セミナー

オライリー&Clouderaによるセミナーが7/24の夜に開催されます。 タイトル:『プログラミング Hive』 『Hadoop 第3版』刊行記念 Hadoopセミナー 申し込み、詳細:http://connpass.com/event/2944/ 現時点で残り48名なので、興味のある方はお早めに!

Hue 2.5がHBaseに対応!

今日Twitterを見ていたところ、 という気になる情報が。 Apache HBaseの操作を行うには HBase Shell、またはAPIを使うのが一般的で、GUIで操作(例えばテーブル作成とか)したいという要望は以前からありました。 スクリーンショットを見ると何となく凄そう…

Hadoop 第3版(象本3版)の発売が決定!

象本! 「象本」の愛称で有名な、O'ReillyのHadoop。(原題:Hadoop: The Definitive Guide) 第2版の日本語版は2011年7月23日に発売、2年の歳月を経て、ようやく第3版の発売が7/26に確定したとのことです。(まだウェブには公開されていません) #思えばち…

Hadoopを10分で試す(まとめ)

Hadoopを使ってみたい! 新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket(旧Readitlater)に大…

HDFSが高速に?mmapによるzero-copyでの読み込み

本日公開されたHDFSの高速化に関連するJIRAの2つ目です。 通常、アプリケーションはread()などのシステムコール経由でファイルを読み出します。 このHDFS-4953はmmap()システムコールを使用することで、読み取り時にかかるオーバーヘッドを減らそうというも…

HDFSが高速に?キャッシュメカニズムの追加

本日公開された HDFS-4949 のJIRAは、HDFSにインメモリキャッシュ機構を導入しようというものです。 Jiraに添付されているドキュメントより興味深い点を抜粋してみます:Centralized cache management 問題点1:複数ノードでのキャッシュの利用 HDFS上のデー…

Hadoop運用管理の今、連載開始

Enterprisezinでの連載が始まりました! 昨年に続き、翔泳社様のEnterprisezin/DBOnlineでの連載が始まりました。 今回の連載ではCloudera Managerを使ったHadoopの運用について、数回に渡って連載予定です。今回のタイトルは「Hadoop運用管理の今」。 Hadoo…