WebDB Forum 2008 に行ってきた (1日目)

1日目は、なんとなくWebよりな話。

セッション1A: 特別セッション(情報爆発と情報信憑性)

京大の田中先生が司会で、東大の喜連川先生、MSRAのHang Liさん、クイーンズランド大Xiaofang Zhouさん。

喜連川先生は協賛の1つ情報爆発プロジェクトの代表という立場でなんか話をしろと振られたらしく、でも時差ボケでだそうでけっこうてきとうな話をしてました。

情報爆発が科研費の領域に採択された直後くらいに、実はちょっとだけ関わったことがあって、あの頃は「情報大航海時代に情報爆発でどうしましょう」なんて言ってたくらいでした。それがどうも、去年から「情報信憑性」というのもキーワードとして加わっていたそうです。そういえば「総務省がウソ発見機」ってちょっとニュースになってましたね。

適切かどうかさっぱりわかんないですが、ググったら次の内閣府の資料が見つかりました。

ここにあるように、いまは

と、すごい予算がついてるそうです。

喜連川先生

気になったフレーズはこんなかんじ:

  • webは社会のsenseである (socio sense)
    • non webなinformationとのfusionが大事
  • credible information has a long tail, how to obtain credible info from tail?
  • pls design a benchmark test for info-crediblity
Hangさん
  • Windows Azure, Azure Services Platform (日本語だとアズルと読むかも? だそうで)
    • an operating system for the cloud
  • BrowseRank
    • SIGIR2008 Best Student Paper
    • IEのextensionでbrowsing experience (staying timeとか)を収集して、continuous-time markov modelでpage rankみたくする
    • Link Spamに強い
  • Context Aware Query Suggestion
    • SIGKDD2008 Best Application Paper
    • mining freq patterns from session data and building a conept sequence suffix tree
    • concept sequenceをsuffix treeにして云々とか言ってた。まさにあとで読むです。
Xiaofangさん
  • データは爆発しても知識は増えずデータ品質は下降ぎみ
    • accuracy, consistency, completeness, currency, assciblity, reliablity
  • data-centricからusage-centricへ
  • データの獲得、統合、利用に伴うデータ品質確保が重要
田中先生
  • テキストとマルチメディアの信頼性の判定支援
  • 詳しくは明日の発表で
  • 情報検索のコンテクストで
  • WICOW2009 を WWW2009 でやるよ
全体として

んーと、MSの話はちょっと毛色が違う気がしたので別にして、ほかの3方の話は

  • 相変わらず情報は増えてる上にユビキタスとか言ってるし、 (webに乗ってるけど) web originじゃないデータも爆発だ
  • 爆発して保存するの大変、検索するの大変、はもう既知として
  • 情報増えても知識 (knowledge) は増えてないかも or 質が低下してるかも
  • 検索結果も増えるし、その信頼性が大事だよね!
  • headからじゃなくtailから信頼できる情報を見つけたい

というようなことを言ってるのかな、と思いました。

その後の研究発表で「yahooやgoogleの検索APIから上位N件を取得してsnippetを云々」ってのがけっこうありましたが、検索エンジンのbias問題もさることながら、まさにheadから拾ってるんじゃね? ってことになっちゃいますよね。

これは自分が学生のときにボスからさんざん認識しておけと言われていた問題で、悲しいことにこのセッションの主張がまだ個々の研究にまで降りてきてないことを改めて実感することとなりました。

あと、質疑にもあったんですが、信頼性ってのも難しい。webがほんとにsocio senseなんだったらいいんですけど、まだbiasがたくさんですよ。この日記にしても然りで、きっとこのセッションの感想を日記に書いてる人なんてそんないないでしょうから、信頼性なんて判定しようがないんですよね。

MSのHangさんの話は、2日目にIBMの浦本さんがポロっと言ってましたが、Googlezonに負けずにがんばってるよ感は否めないです…。でも、4人の中では一番おもしろかったw

セッション2A: ブログとマッシュアップ

えーと、マッシュアップはいいとして…(すいません)。ちなみに以下、筆頭者が発表してたのかどうかまでは確認してません。

局所構造を考慮したブログネットワークの分析

藤村さん、NTTサイバー研。

  • 同種のネットワークにおいてはネットワークモチーフ(局所部分構造)の分布が類似
  • PageRankみたく、従来は隣接しているノードからの影響を考えたが、近傍の局所構造に注目してみた
  • 3nodeのmotifは13種類あって、さらに分類して30種類の役割が考えられる
  • あるノードに対して30種類の役割を30次元のベクトルにする
  • ただし、各次元はdependentなので距離を入れちゃだめよ
  • アルファブロガースパムブログを比較してみた

んー、こういうのってすでにないんですかね。というか独立な基底とれないのかな? 物理化学屋さんがいいの知ってそうな気もした。実験内容はだいぶ不満あったけど、でもまあ話の方向性はすごいおもしろかった。

ブログ空間における情報伝播ネットワークの抽出と分析

風間さん、NTTみらいねっと研。

  • ブログの情報(話題とか)が時系列で伝搬していく様子を見よう
  • 引用して記事を書く = 伝搬した、と考える
  • 記事中のhrefをがんばってゴミ削って、書いた記事の日付付きのedge張ってPajekでグラフ書いてみた
  • 日時のスライダーを動かしながらグラフが成長する様子が見れる

可視化の分野ってなにを考察するもんなんだか知らないんです。へー、という以上のコメントはしづらいな…。

セッション3A: Web検索とランキング

3Bの情報推薦と迷ったけど、前半でAだなと思ってそのままAの部屋に残留しちゃった。

ソーシャルブックマークの周期性発見に基づく時期連動型検索ランキング手法

山家さん、京大(田中先生)。

  • 検索結果のランキングを時期に応じて変えよう (ex, 花粉症)
  • deliciousとかのブックマークが年間で急増しているときに、キーワードに対するブックマークされたページのスコアを加算する
  • (ちゃんと読んでないけど) ランキングは単純に「急増した年数」を別軸で与えてもとのスコアは「年数=0」扱い??

ブックマークって時期はわかるものの、周期性にすごく効く感じはそんなにしなかった。それとランキングの調整ってすごい難しくて、たとえば関連検索の提示みたいなアプローチもあると思います。

午前にMSの話を聞いたあとだったので、「ここ最近検索数が多い単語とクリックされたページ」を使うのとはどう違うと思う? って質問をしたんだけど、あんまよくわかんない回答だった。ポスターで聞けばよかったなぁ。

ただ、これはひょっとするとtailからなにか拾えるかも? とりあえず現状でも、けっこう面白い事例を引き出せそうな予感がしました。

語の共起を用いたWebの類似関係検索

加藤さん、京大(田中先生)。

  • 「京都 : 八つ橋 = ニュージーランド : ??」(A:B=C:X)を求めたい(答えはハチミツらしい)
  • 関連研究として SAT Question (おなじ関係のものを選べ的四択テスト) を機械が回答するってのがある
  • A, Bと共起する語 w をA+B, A-B, B-Aとかでググり、chi square testで関係 R_w(A, B) を作りまくる
  • R_w(C, X) を満たすものを出現確率順とかで並べる
    • と思ったんだけど、あとで聞いたら微妙に違うらしい??
  • A:Bのペアをたくさん入力できるようにしたいけど、ユーザも大変だし、裏でググるのが遅くてたいへん。

うーん、某システムそっくりですね。基本的アルゴリズムが言語非依存なところとかも。やりたいことは全然違うけど。遅くてもいいから動くシステムを公開してください。すごい触ってみたいです。

Xを求める部分について、その場で計算するのでちまちま学習してらんないでしょうからだいたいこれで良さげだけど、R_wのほうはもうちょっと工夫できそうな気がしました。

ちなみにYさんとかRさんから賞をもらってました。自分もこれかな…?と思ったけど、もうちょい上がいた、ってことで。

ソーシャルブックマークによる情報の鮮度を考慮したWebページ評価手法

高橋さん、筑波大。

  • ブックマークの鮮度を考慮してページを評価したい
  • 最後のブックマークからの日数 < max (7day, 正規分布と四分位点が??) ならば新鮮とする
  • 新鮮でないページについてのブックマークを除外して、ユーザとページでHITSを計算

評価は被験者4人とかで、これだけだと何とも言えないかな。ニュース記事だと半減期モデルがよくあるんじゃないかと思うんですが、なぜそれではないんでしょう??

セッション4A: 企業の巨大データ徹底解剖 -新たな研究の可能性と産学連携-

Y!Jの勝さんと国語研の前川先生のセッション。どうしてこのお二人がペアかというと、Yahoo!知恵袋のデータ提供をうけているからのようでした。

勝さん

雰囲気的に現場の人じゃなさそう感がありましたが、どういう立場の方なんでしょう? だれか教えてください。

  • 社外にはYJDNってのがあるよ
  • 社内ではたくさんのログを日本からUSのDWHにlatency 1hourくらいで送ってる
  • 企業がもつ巨大なデータのknowledge managementをROI含めて急進するネットベンチャーに教えたいと思っている

というような話をしていたんじゃないかと思います…。

前川先生

KOTONOHAについての話。

  • 均衡コーパスを作ってます
  • 日本はニホン/ニッポンどっち?
    • イメージだと6:4くらいだが、実際にはニッポンは3%以下 (たぶん用例数として)
  • NHKはじつは「エヌエチケー」がほとんどだが、辞書の見出し語にはない
  • ら抜き言葉とか「社会的規範として正しい」ことによるbiasを考慮
  • webからもサンプリング
    • Yahoo!知恵袋のデータも入ってる
    • ただし、書誌情報(著者とか)がないのが問題
  • 著作権の問題
    • webもさることながら
    • 出版業界の閉じた社会で不文契約と大変ですよ
    • 著作権法が(いい方向に)改正されそう
全体として

「大人の産学連携」って気がしました。APIつくっちゃったから使ってねー、というノリじゃなくて。

あと、いちおうはモバイルサービスとかやってる身として、絵文字もこういう世界に入る時代が近いだろうなと思います。けれどすごい難しいでしょうなぁ。これがきっかけで絵文字コードが統一されちゃったりしたらすごいですよね。法律に影響できるくらいなんだから、なんとかならないのかな??

ポスター兼メシ兼懇親会

裏でやってた企業セッションは、あとでポスターあるからいいやとおもって聞きませんでした。ところが全然発表とちがうこと言ってたり、採用活動しかしてなかったり、と、ちょっと残念な結果。研究発表の方は聞きたいところを回ったりした。あと mysql, postgres, firebirdのユーザ会のみなさまも。

SRA OSSの石井さんは、再帰関数をPostgresに実装してMandelbrot集合を表示するってデモをしてくれた。(概念的に)木構造なビューに対して探索するのに使うんだそうです。へー。へー。