Personal tools
You are here: Home ブログ takatsuka Categories Google様、Amazon様
Document Actions

Google様、Amazon様

Up one level
全文検索とか、他の方法でも情報を発見することに関する事柄。

Document Actions

超えます、超えます

誰が何を超えるのかはともかく、こんなんどうでしょ、というお話です。おまけに、ふと今日、思っただけのことで。

 

きっかけは世間でのGoogleの人気が凄いなあという感慨です。個人的にもこの数年、Webの検索はGoogle頼りだし、最近、翻訳が出たジョン・バッテルという人の書いた「ザ・サーチ」という本も早速、読みました。

一方で、Googleの凄さの源泉はどこだったのかということが完全には理解できていません。そりゃ今や巨人の風情があってお金持ちとしての凄さはあるとしても、貧乏であった頃から凄かったからこそ、大きく太れたはずです。

ある時点からは、検索対象のカバレッジの広さ、深さがアピールしたのかなと思ったりもします。そういう意味で、より広く、深く、速く情報を収集する技術、しかもその処理と収集した情報の蓄積を安価(相対的に)に実現するための基盤技術が凄いから、というのは一つの答えのようにも思います。しかし、これは検索サービスの装置産業的な匂いを漂わす側面で、あんまりクールには思えません。

そこでやっぱり、Googleの誕生神話として外せないPage Rankというところに話は落ち着きます。

学術論文が引用関係で重要性が評価されていたことを、Webサイトのリンク関係に置き換え、サイトの重要性を自動的に判定する考え方がPage Rankです。Page Rankを検索結果の順位に利用することにより、Googleの検索結果は、利用者にとって有用な結果が上位に表示されて便利となった、ということになっています。

 

さて、ここから、今日、駅に向かう道すがら思いついたことです。

しばらく前に、ネットワークの科学についての本を読んだのですが(因みにこの「ネットワーク」はIT、情報通信のネットワークではなく、より広義な意味でのネットワークです)、その中に、「エルデシュ数」「ケビン・ベーコン・ゲーム」というのが紹介されていました。

エルデシュというのは放浪し続けた数学者で、ケビン・ベーコンはそこそこ有名な俳優ですね。

「エルデシュ数」というのは、ある数学者が何人の共同研究者を介在させればエルデシュにつながるか、「ケビン・ベーコン・ゲーム」は、ある俳優が何人の共演者を介在させればケビン・ベーコンにつながるかというものです。意外な位、この次元数が低いというのがこの2つの数字の面白さのようです。

その面白さはもちろんどうでもよくって、そうです、もうお察しの通り、この考え方をWebのランキングに使えないものかと思ったのです。Page Rankがどれだけ多くのしかも重要なサイトからリンクされているかで、あるサイトの重要度を判定したのに対して、エルデシュ数的ランクは、特定のテーマに関してのオーソリティ的な重要サイトからのリンクのホップ数でランキングします。

検索のテーマに応じて、エルデシュやケビン・ベーコンの役割のサイトを変えたり、あるいは検索利用者自身が指定することによって、ランキングのスコープが絞られて、検索結果に好影響となるのではないかと想像するのですが。どうでしょう。

え、エルデシュやケビン・ベーコンの役割サイトはどう決定されるのか?

それは、Page Rankかなあ!?

The URL to Trackback this entry is:
http://dev.ariel-networks.com/Members/takatsuka/8d853048307e305930018d853048307e3059/tbping

グーグルを辞典のように使用する超簡単は方法

Posted by 教えて!google 使用法 at 2006-11-20 02:15
google 検索を、辞典のように簡単に使用する超簡単な方法は、調べたいとか意味を知りたい語句の後に、「とは」を付けて、google の検索ボックスの中に入れて、検索をクリックしたら、よいだけです。例えば、鍼灸の経脈で、大便や尿や汗の出を調節している三焦の意味を調べ...

記号と語彙と構文と意味

シニフィアンとシニフィエとか語りだしそうなタイトルですが、キャラクターとワードとシンタックスとセマンティクスと言えば、途端にソフトウェア周縁のお話の雰囲気に変わりますね。

セマンティックウェブという言葉には違和感があるというところから話が始まります。所詮は、意味を伝達するための構造を規定しているだけで、それはシンタックスなのではないのか、と。
じゃあ、単純な単語の辞書でなく、概念レベルのオントロジー辞書のようなものを充実させれば、コンピュータは意味を理解できるのかというと、それも違いそうです。「知っている」と「理解する」ということの間には、どこまで語彙や知識を充実させても永遠に埋まらない溝があるのではないでしょうか。
「理解する」には、主観的な経験の裏づけが必要だと思います。「理解」とは誰にとっても同じという保障はないもので、「理解」する主体の経験的な価値体系や、「理解」する時点での主体の主観的状況など、非常に広範なコンテキストの中でしか「理解」は成立しないはずです。そして、理解されない「意味」なんて、それこそ意味ないものでしょう。そう考えると、現在のソフトウェアの概念では、そういう主観的経験を構成するのは難しいように思えます。

では、仮にコンピュータには意味の理解が難しいとして、その壁を越えるためにどんな工夫が存在するのか、です。
人の主観的理解を人工的に再現するアプローチが難しければ、人の主観的理解の結果を記号として扱う、というのは代替手段としては理に適っていると思われます。それは、GoogleやAmazonの武器にとりこまれていますし、ソーシャルなんとかとか、フォークソノミーとかも該当します。
シンプルかつダイレクトに人の主観的な知恵を活用するための方法としてQ&A掲示板のようなものもありますが、GoogleやAmazonのようにアルゴリズムとして隠蔽した方が、神秘性があってかっこいいですよね。プトレマイオスの理論みたいに無茶している数式っぽくて。

さて、いつの日にか、プトレマイオスの理論のように、GoogleやAmazonの得意技は、コペルニクス的に画期的で、よりエレガントな発想に駆逐されるのでしょうか?できれば、私も、それでも地球は回っている、とか言ってみたいものです...

The URL to Trackback this entry is:
http://dev.ariel-networks.com/Members/takatsuka/8a1853f730688a9e5f59306869cb65873068610f5473/tbping

サーチエンジンの利用は増えていてもいいんじゃない?

井上さんが、サーチエンジンの利用は増えているのか?  というblogエントリの中で、
要約すると以下のようなことを述べられていました。
(1) その登場時点からサーチエンジンに目に見えた進化はない
(2) 定点観測的なWebサイト訪問をする人が増加していると思っていた
(3) この2点からサーチエンジンの利用は増大どころか減少していてもおかしくないと思っていた
さすが、井上さん、何事にも一家言をお持ちです。

(1)は多分、その通りだと思います。Googleの凄さは、その装置の素晴らしさにあって、その機能そのものの先鋭さにあるのではないと思います。
(2)はよくわかりません。そうかもしれないし、そうではないような気もします。
で結論の(3)については、別の考え方があるように思います。
今まではサーチエンジンの存在や利用方法そしてその恩恵についての知識が少なかった利用者層にまで、サーチエンジンが浸透してきたのではないだろうか、と。
あるいは、Webで公開される情報の質量が増大した結果、求めている情報が見つかるはずだという期待値が上がったことが、アドホックに何かを探すという行為の妥当性を高めているのでは、とも思います。
そもそも、見つかりそうもないのなら、誰も端から探そうとはしないでしょう。
つまり、サーチエンジンという探す手段の進化ではなく、探される対象すなわちWeb上のコンテンツの充実が、サーチエンジンの利用増大につながっているのではないかと思うのです。

このロジックが正しいとすると、探す手段の進化は福音となるはずです。まだ誰も、その福音を鳴らす鐘を作り出せていないだけで。

ついでながら、「ぼくは昔からいわゆる定点観測的なWebの使い方をほとんどしていません。(中略)  同じサイトを毎日まわるだけのWebの使い方は敗北しているような気がしているからです」とのことですが、ぼくの場合は非常に限定的な定点観測のみです。

それは勝敗というよりも、戦う前に逃げているからです。情報の洪水からの逃避です。

The URL to Trackback this entry is:
http://dev.ariel-networks.com/Members/takatsuka/30b530fc30c130a830f330f3306e52297528306f5897304830663044306630823044304430933083306a3044/tbping

Re:サーチエンジンの利用は増えていてもいいんじゃない?

Posted by inoue at 2006-02-16 10:41
> (1) その登場時点からサーチエンジンに目に見えた進化はない

正確な要約を求めるなら、「Google以降に目に見えた進化は無いと思う」、と書いたつもりです(Googleは過大評価が多すぎるので少し反発したくなりますが、変化はありました)。


> で結論の(3)については、別の考え方があるように思います。
[snip]

サーチエンジン専門家の意見を聞きたいので、議論をしてみます。
ふたつの疑問があります。
a. 随分以前から、Webを始める人が最初に知るサイトはyahooだったと思います
b. Webで公開される情報の量(質は不問)は、遥か昔に個人の把握できる閾値を越えていました

前者は雑誌などからの推測で、間違っているかもしれません(雑誌でyahooを知ることが日本特有かもしれません。インターネット系雑誌自体を読むことが、既に初心者ではないのかもしれません)。
後者の観測には自信があります。ぼくはソースコードの量と人間が把握できる閾値についてずっと考えています(2年前にも書いていますが、考えているのはもっと前からです。http://dev.ariel-networks.com/blog/inoue.php?blogid=2&archive=2003-12-24)。ソフトウェアの安定性は、結局、人間が把握できることにかかっていると思っているので真剣に考えています。言いたいことは「情報量が増えていること」より「情報量が閾値を越えたこと」の方が、人間の行動に与える影響は大きいだろう、ということです。閾値を越えたのが、ここ2,3年とは思えません(情報量に対して、あまりに人間の頭がスケールできないので嫌になります)。


> 探す手段の進化は福音となるはずです。まだ誰も、その福音を鳴らす鐘を作り出せていないだけで

これは同意します。
現状のサーチエンジンにはまったく満足していませんし、Google以降に進化が停滞している気すらして(ぼくの認識不足の可能性もありますが)大いに不満です。もちろん、不満を他人のせいにするつもりはありません。

Re:サーチエンジンの利用は増えていてもいいんじゃない?

Posted by takatsuka at 2006-02-17 01:27
閾値については同感です。とっくの昔に既にWebの情報量は個人の閾値を超えていたという点にも、閾値を超えるか超えないかが重要であるという点でも。
特に、閾値を超えることが人間の行動へ与える影響が大きいという点への同意には、百匹目のサルという社会的な脈絡についてと、認識の限界という個人的な脈絡についての両方の意味を含みます。

ただ、事実としてWebの情報量が個人の把握できる閾値を超えていたとしても、そのことを万人全てが認識してはいなかったのかもしれませんし、認識していたとしてもその閾値の向こう側には興味を持たなかったのかもしれません。
興味を持たなかったとすれば、その理由も実は重要な気もします。ただ、話が発散しそうなので、その点は放置しておきましょう。
つまり、Yahoo!のディレクトリ階層の浅い段階までで完結した世界で充足していた人、その範囲外の存在には無自覚だった人、その範囲外には期待してなかった人、そういう人たちもかなりいたのではないでしょうか。
もちろん、これは単なる推論でしかなく、傍証となるデータなどに基づく仮説ではありませんが。

で、こういうアナロジーはどうでしょう? いや、特に意味はないのですけど。
孤島に暮らす人々がいました。
島の人々にとって、「世界」とは村を中心とした半径10kmのことです。島は明らかにもっと大きいのに、その範囲より遠くは、世界の果てとしか認識されないのです。
多くの人は、村に伝わる野風土記という書物の情報を参考にして、「世界」をうろうろしていました。それで基本的な用事は事足りるように思えましたし、何しろ「世界」の外側には何があるのかもわからないので、探検しようもないのですから。
でも、いつ頃からか、傀儡を使った呪術師が村に現れました。その傀儡に果物の在り処を尋ねると、その場所を教えてくれるのです。しかも村内だけでなく、島全体です。
最初の頃は、その呪術師の傀儡に尋ねる人はそう多くはありませんでした。ただ、そういう人たちが村では手に入らない果物を食べている姿は、他の村人の目にも入るようになり、少しずつ傀儡に尋ねる人も増えていきました。
そうして、百人目の村人が傀儡に尋ねるようになった時点を契機に、傀儡に尋ねるという行為はごく当たり前のこととなりましたとさ。


ところで、エントリ本文を読み直して、修正しておきたい箇所を見つけました。
> サーチエンジンという探す手段の進化ではなく、探される対象すなわちWeb上のコンテンツの充実が
というくだりでは、「コンテンツの充実」は「コンテンツの深化」とすべきでした。
そうすれば、ロングテールという現象をも微妙に意味しつつ、しかも「手段の進化」と韻を踏めたのに...

Re:サーチエンジンの利用は増えていてもいいんじゃない?

Posted by Anonymous User at 2006-02-17 09:53
「百匹目の猿」はトンデモ系の用語なので、下手に使わない方がいいんじゃないかなぁ。
http://ja.wikipedia.org/wiki/%E7%99%BE%E5%8C%B9%E7%9B%AE%E3%81%AE%E7%8C%BF%E7%8F%BE%E8%B1%A1

フォークソノミーは有機農法でありリサイクルである

さて、豊穣の秋に立派な収穫を得るために、役立つ情報が欲しいと思います。しかし今の世の中、流通する情報量は膨大です。探し物がきっとどこかにあるという期待が膨らむ一方で、それを探すことの労力に関して絶望させられかねません。
おまけに情報収集に汲々とするのは、本末転倒のようにも思えます。そんなことやってないで、自ら畑を耕せということです。そこで、溢れる情報の選別のために、全文検索とかRSSリーダーという、ちょうど雑草の除草のための草刈機のようなものが登場します。ですが、全文検索には、再現率と精度のトレードオフの問題があってどうしてもノイズは含まれてしまうものですし、単純なRSSリーダーは情報源を特定しているだけです。

対して、信頼性の高い賢い価値判断アルゴリズムを実装している「人間」のノイズの除去能力は、大変、優秀です。人手で取捨選択された純度の高い情報はありがたいものです。但し、人手というものは、一般に、かなり高価となものです。機械生産よりも手作りの方が、高いのです。
本来は高級で高品質なものを、なんとか安価に利用するための工夫として、草の根的な発想が生まれます。それは例えばフォークソノミーであったり、Wiki的な共同編集であったりです。
実現のスタイルはどうであれ、人々の有機的な判断を有機的に結合することによって、価値は高まりコストは低減することを期待する訳です。言ってみれば、それはちょうど、合鴨農法のような感じでしょうか。

では、そのような情報のエコシステムはどういう仕組みであれば成立するのか、そして、それを持続するためには何が重要なのか?
とくると、使い捨て大量消費型社会ではなく、リサイクル型社会みたいなオチになりそうな流れですが......いや、その通りで。でも情報のリサイクルって考え方は、やっぱり重要だと思っていたりします。


高価で高品質な情報は、使い捨てるのはもったいないので、何とかしなければ。

The URL to Trackback this entry is:
http://dev.ariel-networks.com/Members/takatsuka/30d530a930fc30af30bd30ce30df30fc306f67096a5f8fb26cd53042308a30ea30b530a430af30eb3042308b/tbping

My 水先案内人

中学生の頃に読んで以来、読み返したいと思っていたSF小説がありました。 でも、とても面白かったという印象と、かなり漠然とストーリーを覚えているだけで、タイトルも著者名も失念してしまっていて、その思いをずっと実現できずにいました。
ところがしばらく前に、ある雑誌のミステリーベストセレクション的な特集で、SFにも関わらずそれらしき小説が取り上げられていたのを、偶然、発見したのです。もちろん、早速、Amazonで注文して、その「星を継ぐもの」という小説と二十年以上ぶりの再会を果たしました。

でもここで話題としたいのは、その小説の面白さとか、SFなのにミステリーの特集に取り上げれられている点とか、そんなことではもちろんありません。
その頃も今もSFには興味のない私が、そもそもなぜその小説と出会えたのか? その謎についてです。
と言っても、その謎の解明は容易です。その頃の私には本と音楽についての水先案内人がいて、私自身はっきりとは覚えていないのですが、「星を継ぐもの」も、その人から貸して貰って読んだことはまず間違いないからです。
今となって思うと、その水先案内人、実家の向かいに住む同級生のお兄さん、ヨシカタくんは、たった二つしか歳が離れていないのに、随分と大人びた嗜好の持ち主でした。そうして、まだ幼かった私に、多くの未知への扉を開いてくれたのです。イーグルスとかフリートウッド・マックとかの今や古典とも言える音楽、ミステリを中心とした数々の小説とか......ヨシカタくんがいなかったら、もしかすると、その後の私の嗜好も変わっていたかもしれません。
それ位、ヨシカタくんは、私にとってありがたい存在だったと思います。

そんな私もすっかり歳をとって、今や、そんな親切な水先案内人は身近にはいません。
でも今の私には、Amazon がヨシカタくん代わりなのです。いえ、購入データの向こう側にいる何人もの見ず知らずのヨシカタくんと私を、Amazon が結びつけてくれるのです。
そうです。今や Amazon こそ、私の水先案内人なのです。

なんてことを思って、会社の周りの人に「星を継ぐもの」再発見の話をしたら、そのタイトルを言う前にわずかなヒントから、二人の人が間髪を入れず、「星を継ぐもの」じゃないのかと当ててしまいました。
身の周りには、実はまだまだヨシカタくんが埋もれているのかもしれません。

でも、ヨシカタくん探しもまた一苦労ですし、身の周りで遠慮なく会話できる限られた人数に留まらず、広く世の中から勝手に集めてくれるという意味で、やっぱり、Amazon ありがたやありがたや、なのです。

The URL to Trackback this entry is:
http://dev.ariel-networks.com/Members/takatsuka/my-6c345148684851854eba/tbping

時間という無慈悲な作用

ページランクという初期の Google を差別化した秀逸なアイディアは、エンタープライズサーチの世界ではあまり役立たない、という話を聞きました。確かに、普通の文書ファイルにはリンク構造が記述されることは多くないでしょう。なので、ページランクの算出はそもそも無理な試みです。
ではどうやって、ページランクなしでページランクと同じように、より価値のある情報を検索結果の上位にランキングすればいいのでしょう? もちろん、同等ではなく、ページランク以上に有効でも構わないわけですが...

アクセス件数は情報の価値を間接的に表現している可能性があります。また、時間の経過に情報の価値は影響されるということは、多分、間違いないでしょう。このことを何とか利用するアルゴリズムはないものか、なんてことをボンヤリと考えてみたりします。
例えばニュースの価値は、その鮮度が高いほど、つまり最新のニュースほど価値があるはずです。またそのニュースを購読・視聴した人の多さが関心の高さを表すはずです。1ヶ月前のニュースを今になって読みたいとは、普通は思わないでしょうから、結果的にリリースされた直後と1ヶ月後の今では、そのニュースを読む人数は比べものにならないでしょう。時代考証的な資料的な価値が、古いニュースに発生したりという特殊な事情は、ここでは無視しておきます。

一方で、ニュースとは全く別の価値評価が成立する情報もあります。
先日、「星を継ぐもの」という本を購読した結果、Amazon から「夏への扉」というSF 小説をリコメンドされました。SF について無知な私は知らなかったのですが、それは1950年代に発表された SF の古典的名作で、読んでみると、今となっては古びた内容もあるものの、なかなかどうして面白いものでした。
例えばこの「夏への扉」のように、時間の経過に風化せずに、読者を惹きつけ続けている情報も存在します。
つまり、鮮度という評価要素は重要であるものの、逆に鮮度が落ちてもアクセスされ続ける情報は、別種の価値を保持していると判断できるということです。

下図のようなイメージです。
Value of information

さてと。
これをちゃんとモデル化して、必要なメトリクスを採集する仕組みを構築して、となるとお手上げなんですけど...
しかも、後から振り返って分類したい訳ではなく、ある瞬間において判断できなくては意味がありませんし。

The URL to Trackback this entry is:
http://dev.ariel-networks.com/Members/takatsuka/664295933068304430467121614860b2306a4f5c7528/tbping

Copyright(C) 2001 - 2006 Ariel Networks, Inc. All rights reserved.