2011年1月号にMap/Reduce(Pig/Hive)の記事を書いたのに続き、ASCII.technologies(アスキードットテクノロジーズ)2011年5月号にHBaseの特集記事を書きました。
ASCII.technologies (アスキードットテクノロジーズ) 2011年 05月号 [雑誌]
まるでクラウドの上の人のようです。
原稿を一部ページ数の関係で削りました。せっかくなのでここに載せます。前後の文脈なしでこれだけ載せてもどうか、という内容ですが、なんとなく言いたいことが伝わることを期待しています。
まとめに代えてHBaseとBigtableを取り巻く技術を紹介する。Cassandra開発元のFacebook社がメッセージシステムにHBaseを採用したニュースが記憶に新しい。これを聞いてHBaseがCassandraより優れていると思うのは早計だ。用途に向き不向きがあるというだけだからだ。このニュースはHBaseが向くアプリを示唆している点で興味深い。HBaseのレプリケーションの戦略から想像できるように同一データへのアクセスが集中しやすいアプリはHBaseよりCassandraが向いている。一方、Facebookの利用者が相互に送るメッセージのようなシステムでは個々のメッセージに各利用者がそれぞれアクセスするパターンが多そうだ。このような大量アクセスにHBaseはスケールする。
最初、上記の原稿が「Facebookメッセージの用途にCassandraよりHBaseのほうがスケールする」と誤読されました。そう主張するつもりはありません。言いたかったことは「Facebookメッセージの用途では、HBaseも(Cassandraと同程度に)スケールする」です。同程度にスケールするなら、より整合性を確保しやすいHBaseを選ぶ理由になります。
さて、まだASCII.technologies誌の他の記事はほとんど読んでいませんが、IBM Watsonの記事は面白かったです。HBaseの記事より面白いです。これは素直に負けを認めます。INDRIとか初めて聞きました。
なんでIBMはこんなに凄いのに、他のソフトは…(以下自主規制)。
浦底
井上さん
いつも読ませていただいております。SFDCでご一緒させていただいた浦底です。
あの時話されていた内容ですね。本件は表現しづらい事象なのかもしれませんね。
またご一緒できた際には、よろしくお願いいたします。