Hadoopがzipをサポートしていない理由
夏なので、軽いネタをいくつか投稿していきます。
[質問] Hadoopって圧縮ファイルをサポートしているよね?例えばgzipとかbzip2とか。でも、何でzipはダメなの?意味わからへん。
という質問をもらったので、Jiraを調べてみました。結果、恐るべき事実が、、、
全ては2007年のことだった。Hadoopの作者でもある Doug Cuttingが Zipサポートのパッチを投稿した。
https://issues.apache.org/jira/browse/MAPREDUCE-210 (*1)
zipをサポートするというニーズも多く、開発も順調に進み、途中までテストも通っていよいよゴールも近づいていた。ところがリリース間近なある日のこと。zipは4GB超のファイルを扱えない(64bizのzipが必要)という課題が発覚!zipをサポートするという目論みは途中で頓挫してしまい、今に至っている。
***
今jiraがエラーになってしまい読めないため、後半はかなり記憶に頼って脚色していますが、対応したら、世界中から喜ばれると思いますよ :)
[*1] 2013/8/5 14:30現在、Jiraにもエラーが表示されてしまい閲覧できないという、恐るべき事態にw