「データをいかに速くソートできるか」という競技があり、Googleが1TBのソートで記録を樹立したそうです。競技を開催してるHPがやけにシンプルで、ちょっと面白い。
Sorting 1PB with MapReduce
Sort Benchmark Home Page
昔の記録:209秒(910台のコンピューターを使用)
新記録:68秒(1000台のコンピューターを使用)
「たくさんのコンピューターを使えば速いのはあたりまえじゃないか」と思うかもしれませんが、複数のPCで分散処理を実行すると、データ転送に時間がかかったり、データ制御が複雑になるので、むしろ「たくさんのコンピューターを使うところに技術が必要」なのでしょう。
試しにGoogleでは1PB(1000TB)のデータソートも挑戦してみたそうです。記録は6時間(4000台のコンピューターを使用)だったそうです。この実験をするために、4万8千台のHDDを用意して、そこに1PBのデータを保存してたそうです。この実験で1回ソートを走らせると、必ず1台のHDDが故障するとのこと。これは統計上HDDが故障する確率と整合が取れるらしく、どうしようもないそうです。なので、同じデータを3台のHDDに書いておいて、あるHDDが故障してもデータロスとならないような仕組みが取られているとのこと。
こうやって、日々大量のデータを処理する方法を模索しているのは心強い限り。Googleがさくっと欲しい情報を我々に返してくれるのは、Googleのエンジニアのあくなき挑戦の賜物なのかもしれませんね。ありがたや。
<関連記事>
・ワンクリック募金で社会貢献
・Diggに隠されたメッセージ
・Amazonのアフィリエイトバナーを作成する「amazlet」
<追伸>
今日は休暇だったので、じっくり掃除洗濯しました。天気がよくて、洗濯がはかどりました。このところ週末に遠出する用事が多くて、洗濯ができないことが多かったのですが、これでスッキリ。ついでに、たまってた牛乳パックもリサイクルに出しました。廊下がやけに広く感じます。これからは、こまめに捨てよう、っていつも思うけどできない。