Why data matters グーグルはぼくらの情報を必要としている!

昨日のグーグルのオフィシャルブログに、Why data mattersというエントリーがあった。

書いているのは、Hal Varian, Chief Economistとある。ハルバリアンという名前に引っかかった。彼は、カリフォルニア大学バークレー校の経済学教授で、"Information Rules”という名著を書いたハルバリアンではないか?と。ウィキペディアで調べたところ、2007年にグーグルにフルタイムで入社している。グーグルはこんなネットワーク経済の理論家まで参加しているのか、と驚いた。

さて、このエントリーは、グーグルの検索技術の進化のために、いかにぼくらの検索履歴データが不可欠であるかを述べている。検索アルゴリズム向上のために重要なのはよくわかるが、しかし、ユーザーであるぼくらにとって、コストとベネフィットは果たして釣り合っているのだろうか?ベネフィットは、欲しい情報に瞬時に辿り着けるという便利さ。コストは、過去からの検索履歴を含む一切の個人情報が記録保存され解析され続けることから生まれるリスク。リスクといっても具体的に考えなければいけないが。

この比較はなかなか難しいが、"crowds"であるぼくらユーザーがかなり割を食っているかもしれないのではないか?


以下、エントリーに線を引きたい箇所をいくつか挙げる。最後には参考までに、ぼくが試みた全訳を掲載しておく。間違い多々あると思うので、何かあれば教えてください。

Better data makes for better science. The history of information retrieval illustrates this principle well.

(訳)よりよいデータはよりよいサイエンスをもたらす。情報検索の歴史はこの原則をよく説明している。

Today's web search algorithms are trained to a large degree by the "wisdom of the crowds" drawn from the logs of billions of previous search queries. This brief overview of the history of search illustrates why using data is integral to making Google web search valuable to our users.

(訳)今日のウェブ検索アルゴリズムは、過去の何十億の検索項目から引き出された群衆の知恵(wisdom of crowds)によってかなりの程度鍛えられている。ここで検索の歴史を簡潔に概観し、なぜデータを利用することがグーグルのウェブ検索をユーザーにとって価値あるものにするために不可欠なのかがわかる。

But in order to come up with new ranking techniques and evaluate if users find them useful, we have to store and analyze search logs. (Watch our videos to see exactly what data we store in our logs.) What results do people click on? How does their behavior change when we change aspects of our algorithm? Using data in the logs, we can compare how well we're doing now at finding useful information for you to how we did a year ago. If we don't keep a history, we have no good way to evaluate our progress and make improvements.

(訳)しかし、新しいランキング技術を生み出し、ユーザーがそれを使えると思えるかどうか評価するために、検索ログを保存し解析する必要がある。(当社のログにどんなデータが保存されているか正確に知るためにビデオをみてください。)どの結果をみんながクリックするのか?私たちがアルゴリズムのさまざまな部分を変更したときに、みんなの振る舞いが変わるのか?ログに残されたデータを使って、私たちはみなさんに有益な情報を見つける点において一年前と今と自分たちがどれだけうまくできているか比較することができる。もし、このヒストリーを保存していないと、自分たちの進歩を評価し、改善していくことはできない。

Storing and analyzing logs of user searches is how Google's algorithm learns to give you more useful results. Just as data availability has driven progress of search in the past, the data in our search logs will certainly be a critical component of future breakthroughs.

(訳)ユーザーの検索履歴を保存し分析することは、どのようにグーグルのアルゴリズムがより有益な結果をだせるかを学ぶために必要である。過去に入手可能なデータが検索の進化を促したように、当社の検索履歴データが将来のブレイクスルーにとって決め手となるだろう。

                  • -

(参考)全訳

なぜデータが重要か
2008/3/4 by Hal Varian, Chief Economist


(前段 略)


よりよいデータはよりよいサイエンスをもたらす。情報検索の歴史はこの原則をよく説明している。


この情報検索の仕事は、コンピューターの利用が始まった頃に遡り、簡単な文書検索は文書ファイル中の単語や文に質問事項が一致するかどうかによって行われていた。新たなデータ元が入手できることで、アルゴリズムが進化し、より洗練されていった。ウェブの到来は検索にとって新たな試練をもたらし、ウェブリンクや他の多くの指標を重要度を表す情報として利用することが一般的である。


今日のウェブ検索アルゴリズムは、過去の何十億の検索項目から引き出された群衆の知恵(wisdom of crowds)によってかなりの程度鍛えられている。ここで検索の歴史を簡潔に概観し、なぜデータを利用することがグーグルのウェブ検索をユーザーにとって価値あるものにするために不可欠なのかがわかる。


検索の歴史


今検索はホットな話題だ。特にウェブ利用の広がりのせいで。しかし、文書検索の歴史は1950年代に遡る。検索エンジンはそんな古い時代にも存在した。しかし、その主な利用は、静態的集合体である文書を検索することだった。60年代初め、研究者らが記事の要約をデジタル化することで新たなデータを集めたが、このことで60年代、70年代に急速な進展を促した。しかし、80年代後半には、この進展は大幅にスローダウンした。


文書検索の研究を刺激するため、National Institute of Standards and Technology (NIST)が1992年にText Retrieval Conference (TREC) をスタートさせた。TRECは、フルテキスト文書の形式の新たなデータを導入し、人間の判断を使って特定の文書が検索事項に関連があるかどうかを分類した。このデータのサンプルがリリースされ、研究者らは自分たちのシステムを開発、改善し、新たな検索事項に関連ある文書を探せるかどうか、その結果をTRECの人間の判断や他の研究者らのアルゴリズムと比較した。


TRECのデータは文書検索に関する研究を復活させた。標準的で、広く入手可能で、慎重に作られたデータセットをもつことで、この分野のさらなるイノベーションの土台を作った。TRECの年次総会は、コラボレーション、イノベーション、そしてある程度の競争(そして自慢できる権利)を促し、より優れた文書検索をもたらそうとした。


新しいアイディアというのは素早く広がり、アルゴリズムは改善される。しかし、新たな改善がある度に、前年の技術を踏襲して改善することがますます難しくなり、最後には進歩のスピードが再び落ちた。


そしてウェブが登場した。最初の段階では、研究者らはTRECの研究に基づいた業界標準アルゴリズムを使って、ウェブ上の文書を探した。しかし、より優れた検索に対するニーズが、研究者のみならず普通のユーザーにとっても明らかとなった。ウェブは多くの新たなデータをリンクの形でもたらし、これが新たな前進の可能性を開いた。


二つの面で展開があった。商業面においては、いくつかの会社がウェブ検索エンジンの提供を開始した。しかし、どんなビジネスモデルが可能かちゃんとわかっているところはなかった。

研究面においては、National Science FoundationがDigital Library Projectをスタートさせ、いくつかの大学に補助金をだした。スタンフォード大学コンピュータサイエンス専攻の二人の院生、ラリーペイジとセルゲイブリンがこのプロジェクトに携わった。彼らは、既存の検索アルゴリズムはウェブ文書の特殊なリンク構造を使うことで劇的に改善されることを見抜いた。こうして、ページランクが生まれた。


グーグルはどのようにデータを使うか


ページランクは、既存のアルゴリズムに大きな改善をもたらした。ウェブページの重要性をキーワードのみではなく、そのウェブページにリンクしたサイトの質と量にもよってランキングしたのだ。もし、私のサイトにウォールストリートジャーナルやニューヨークタイムズや上院など6つのリンクが貼られたら、それはウェブを始めた大学時代の友人らから20のリンクを貼られるようりも価値がある。


ラリーとセルゲイはこのアルゴリズムを最初は新しくできたウェブ検索エンジンにライセンスしようとした。しかし誰も興味を示さなかった。アルゴリズムを売れなかったので、自分たちで検索エンジンをスタートさせる事を決心した。その後の話は有名だ。


数年にわたって、グーグルは検索をよりよくするために投資を続けている。当社の情報検索のエキスパートたちは、200以上の新たな印(signals)をアルゴリズムに加え、ユーザーの検索に対するウェブサイトの重要性を決定してきた。


で、その200の印はどこから来たのか?検索の次の段階は?よりいっそう重要な情報をオンラインで見つけるために何をすればいいのか?


私たちは常に自分たちのアルゴリズムを実験している。毎週いろいろといじってみてはユーザーにとってより意味のある利用価値のある結果をだせるようにしている。


しかし、新しいランキング技術を生み出し、ユーザーがそれを使えると思えるかどうか評価するために、検索ログを保存し解析する必要がある。(当社のログにどんなデータが保存されているか正確に知るためにビデオをみてください。)どの結果をみんながクリックするのか?私たちがアルゴリズムのさまざまな部分を変更したときに、みんなの振る舞いが変わるのか?ログに残されたデータを使って、私たちはみなさんに有益な情報を見つける点において一年前と今と自分たちがどれだけうまくできているか比較することができる。もし、このヒストリーを保存していないと、自分たちの進歩を評価し、改善していくことはできない。


ひとつ簡単な例を挙げよう。グーグルのスペルチェッカーはログからまとめたユーザーによる検索を分析することで行っており、辞書を使っているのではない。同様に、検索事項データを使うことで、地理位置に関する情報を改善し、よりよいローカル検索サービスの提供を可能にしている。


ユーザーの検索履歴を保存し分析することは、どのようにグーグルのアルゴリズムがより有益な結果をだせるかを学ぶために必要である。過去に入手可能なデータが検索の進化を促したように、当社の検索履歴データが将来のブレイクスルーにとって決め手となるだろう。