第16回オープンソーステクノロジー勉強会に行ってきました。初参加です。
Hadoop関連ネタでした。
Hadoopの概要と最新の動向 - 株式会社プリファードインフラストラクチャー 太田 一樹さん -
- 名前は、開発者Doug Cuttingの子供の持っている、ぬいぐるみの名前から。ロゴがかわいくない。
- 国内での使用事例も増えてきた。
- 今のところ、データ処理が中心で分散ファイルシステムとしての事例は少ない。
- 某キャリアが分散ファイルシステムとして、ある程度の評価をしているらしい。
- 最新版の0.19はまだ安定していないが、ファイルのappendをサポートした。
- 想定しているデータサイズとしては、数十GB程度から。
- 1台で処理するのが厳しいときとか。
- 小さいサイズのデータ処理は、JobTrackerやTaskTrackerの起動オーバーヘッドが大きいため、有効ではない。
- オーバーヘッドが10〜20秒程度あるため、100kのワードカウントとかでも時間がかかる。
- NameNode(Master)がSingle Point of Failureとなる。
- Googleでは、Shadow NameNodeなるものがあるらしい。
- 大規模データ処理では、リアルタイム性(同期)はあまり考慮しない。
- 既存のDBデータとかは、1時間に1度ダンプして取り込むとか。
- Hadoop上でhBaseはまだ動いていない。
HadoopとEC2による、『安くて簡単』大規模データ処理 - blogeye開発者 大倉 務さん -
- 500万サイトのブログを解析
- 2億記事
- 60万記事/日で増加
- テキストデータで200〜300GB
- Amazon EC2 + Hadoopは相性が良い
- クロール
- インデックス
- Mapper起動と同時にReducerが確保
- 待ちが発生してもったいないので、Mapper処理完了を待ってから、Reducerを確保するようにカスタマイズ。
- 今後のバージョンでサポートしてほしい。
- 待ちが発生してもったいないので、Mapper処理完了を待ってから、Reducerを確保するようにカスタマイズ。
- 1年間の運用で、データロストはなかった。
- ログが大きくなり、ローカルディスクを圧迫するので、定期的なログ削除が必要。
- 1年間で40万円くらいAmazonへ貢いだ。
まとめ
ログ解析とかに使ったら、面白そうだなと思いました。
すぐに仕事(実務)では難しいと思いますが、数十台で試してみたいです。
懇親会では、いろいろな方とお話できて勉強になりました。
消費電力の話とか、勉強になりました。
参加された皆さん、ありがとうございました。
トラックバックを打つまでが勉強会です。
http://labs.gree.jp/Top/Study/20081125.html
http://labs.gree.jp/Top/Study/20081125/Report.html