Tech Blog 〜ぞうの日記

HadoopやLinux関連の技術的な内容の紹介です

Hadoopがzipをサポートしていない理由

夏なので、軽いネタをいくつか投稿していきます。

[質問] Hadoopって圧縮ファイルをサポートしているよね?例えばgzipとかbzip2とか。でも、何でzipはダメなの?意味わからへん。


という質問をもらったので、Jiraを調べてみました。結果、恐るべき事実が、、、

全ては2007年のことだった。Hadoopの作者でもある Doug Cuttingが Zipサポートのパッチを投稿した。
https://issues.apache.org/jira/browse/MAPREDUCE-210 (*1)

zipをサポートするというニーズも多く、開発も順調に進み、途中までテストも通っていよいよゴールも近づいていた。ところがリリース間近なある日のこと。zipは4GB超のファイルを扱えない(64bizのzipが必要)という課題が発覚!zipをサポートするという目論みは途中で頓挫してしまい、今に至っている。

 

***

今jiraがエラーになってしまい読めないため、後半はかなり記憶に頼って脚色していますが、対応したら、世界中から喜ばれると思いますよ :)



[*1] 2013/8/5 14:30現在、Jiraにもエラーが表示されてしまい閲覧できないという、恐るべき事態にw