Web DB Forum 2008 に行ってきた (2日目)

今日はWebよりDBの話が多かったかな?

セッション5A: Webの可視化とナビゲーション

朝早い上に別の作業しながらだったので、最初のほうはあんまり覚えてないです…。

社会ネットワーク分析を用いた包括的Webナビゲーション手法の評価

島田さん、筑波大。

  • 「特定性を表すキーワード」(より具体的な語)と「網羅性を表すキーワード」(全容がつかめる語)を区別して、関連語を提示する
  • 社会ネットワーク分析でつかう次数中心性と媒介中心性に注目するらしい??

んと、正直ちょっとよくわかんなかったです。関連研究に(松尾ぐみの)松尾先生の研究があがっていて、久しぶりにpublication list見させてもらったら、いろいろ面白そうなことが書いてありますねぇ。PDFも用意してあって大変ありがたい限りです。(発表と関係ないコメントですいません。)

検索結果の推移の可視化による検索支援

長畑さん、岡山大。

  • 繰り返し検索の履歴から、検索結果の特徴語グラフをバネモデルで可視化
  • 2回目の検索で結果から出現頻度が減った語は関係ないだろう、という方針

方針はわかりやすくて面白いです。firefoxのextensionとかになってほしい。

可視化の部分は自力でやってるのかな。西尾さん@サイボウズラボのGRINEditとか、便利なツールがいろいろあっていいですね。(これもあんま関係ないコメントですな…)

セッション6A: クラウドコンピューティングが変える世界とデータ管理

このまえhadoopの話を聞いた直後ということもあって、ふんふん、という感じでした。

クラウドコンピューティング、プログラミングモデルとデータアクセスを中心に

IBM基礎研の浦本さん。

グリッドとは違う、みたいなことを言ってたんでしょうが、よくわかんなかった。以前Salesforceの方とお会いしたときは全然そのへんわかってなかったので、次にお会いできる機会があったらもうちょいいろいろ聞いてみたいです。

  • まとめ: cloud computingのchallenge
    • IBMなどが自己のビジネスモデルを破壊しかねないものに投資していることは注目
    • 技術的には、並列分散プログラミング、非リレーショナル Web DB, 分散キャッシュなどが研究開発のテーマ
    • ユーザ(開発者/企業)はcloudに移行できるか?
      • 99.9% is good enough (8hour/1year)
      • security, complianceなど、適用できるシナリオによる

けっこうキーワードの羅列なかんじですが、自分ながらにまとめちゃうと

  • Web 上で "XaaS" な枠組みがそろってきた
  • アルゴリズムは並列分散、データ構造はrelationalからkey-value

という感じかなぁ?? よくわからん。

ずいぶん昔にGoogleの工藤さんが日吉の言語処理学会MapReduceの話をするのを聞いて、「やりたいことをMapReduce的に記述できるかがキモ」と言ってた(と思う)のが印象に残っていました。

たぶん自分がやりたいこと/やらなきゃいけないことの多くができるとは思うんですが、何も考えずにMapReduce脳にならないように気をつけなきゃいけないと思いました。午後にXMLの話もあったりして、木構造とか再帰とかいろいろあるんだから。

クラウドコンピューティングを高速化するストレージ技術

筑波大計算科学研究センターの建部さん。

Gfarmというクラウド向きファイルシステムを開発されているそうで、後半はGfarmの話でした。

  • cloud
    • 必要なcpu, storage資源をon demandに利用可能
    • loosely coupled data intensive computing
    • 第2のMPIとなる?
  • Belle実験データ解析
    • SC06 HPC storage challenge, winner
  • Japan Lattice Data Grid @つくば
    • 計算素粒子物理学の高度データ共有基盤JLDGの構築、運用
    • 広島大、KEK、京大、阪大
  • Gfarm v2
    • sf.netでオープンソース開発
    • ファイル複製管理、メタデータと実ファイル間の一貫性の保持、ファイル操作の遅延時間
    • close-to-open 一貫性の保持
    • applicationがhang upしても大丈夫
  • 性能評価
    • つくば、AIST、SDSC(サンディエゴ、rtt=119ms)
    • 並列I/Oバンド幅: 22ノードで 1,433MB/s
    • 近い順にノードを追加していってもちゃんとスケールしていた
    • ローカルクラスタではNFSとほぼ同様

先日某S社、Y社の方々とHadoopに関する飲み会(ほんとにただの飲み会)があって、その中で「もはやNFSなんて使わない」という話がありました。Gfarmは、userlandのようですがふつうにmountできるそうです。とりあえず使ってみないとなんとも言えないかな。

セッション7C: 基盤技術

ロックフリーGCLOCKページ置換アルゴリズム

NAIST油井さん。

  • CPUスケーラビリティを阻害する要因としてバッファ管理の同期化処理がある
  • hit rate優先のLRUじゃなく、scalableなnon-blockingバッファ管理を (NB-GCLOCK)

んーと、詳細は正直よくわかってません。ここに資料を公開されているので見ていただいたほうがよいかと…。

MySQLが8スレッドまでしかスケールしないって話が解決するなら、自分には直接的にありがたいです。ってのもあるんですが、このへんのことが全然わかっていない自分にもなんとなくイメージがわくような分かりやすい説明をしていただきました。

ポスターのときにMyNAの坂井さんも言っていましたが、MySQLの中の人がこれを見たらすぐ実装してくれるのかな? 応用範囲はRDBMSだけじゃないので、仮想化するしか使いこなせなかったマルチコアに新しい光となるんじゃないかと思いました。

RDFデータベースのためのファイル構造に基づくマテリアライズドビューの構築

AIST的野さん。

materialized viewってのが何なのか分からないので全然わかりませんでした。が、前のセッションではcloudでrelationalじゃなくて、という話を聞いていたので、こういったstructuredな形式は今後どうなるんだろう? と思いながら聞いていた。

んーと、非決定性チューリングマシンとかじゃないけど、分散型の木構造ストレージってないんですかね。ありそうだけど知らないだけ感満載。

関連画像集合内における典型度と特殊度を用いた画像の信憑性分析

京大山本さん。1日目の田中先生の話ででてきたやつです。

  • web画像の信憑性を判断するシステムを作りたい
  • 画像とテキスト対の組み合わせに注目して、画像の典型性、特異性を判定
  • 信憑性はコンテキストによるので、提示してユーザに判断させるようなシステム
  • VisualRank
    • 画像間の類似度を測って閾値を超えたらedgeを張ってグラフをつくり、PageRankを計算

発表中の問題点だか質問だかで出てましたが、画像とテキスト対が正しくとれていることが前提になります。あと、この研究の本題ではないでしょうが、画像の類似度が難しいですね。

全般的に「Mドナルドのハンバーガーの画像はねつ造である」かのように聞こえて、あまりいい印象ではありませんでした。これもWeb上でのmajorityを探しているだけになるし。

アノテーションのセンチメント分析に基づく映像の信頼性判断手法

京大清水さん。

  • 動画を見なくても釣り動画やスパム動画をユーザのannotationで判定したい
  • ニコニコ動画のコメントを肯定/否定に分類し、再生時間軸にそってグラフを表示
    • firefoxのextensionで実装。肯定/否定は正規表現で。(ニコ動ならでは、として)
  • 何人かの被験者で実験した
  • 課題: コメントの肯定/否定が、動画自体/動画内のある対象などのどれに対するのコメントなのかが判断できないと無理

課題がすべてを物語っています。CGMって難しいよね。評判分析だけで1つの研究になるんだから、ここはもうちょっとがんばってもらいたいところ。ニコ動のコメントに着目した、ということくらいしか面白みがないかも。

なんというか、田中先生はこのへんにあんま興味ないのか? と疑問が湧いてくる勢いなんですが、どうなんでしょう…。

セッション8A: ユーザ発信型メディアの衝撃

Podcastle: ユーザに育ててもらう音声情報検索サービス

AIST後藤さん。Podcastleという、ポッドキャストと音声自動認識システムの話です。

  • 音声認識技術の問題点
    • ユーザが有用な技術であることを実感していない。ミスが多くて使えないという先入観
  • Podcastle
    • 登録されたポッドキャスト音声認識でテキスト化し、検索できる
    • テキストを見ながら再生し、間違っている箇所をユーザが簡単に訂正できる
    • 訂正結果は自動学習し、実際に認識率が上がってる
  • 音声認識研究2.0を目指して
    • Podcastleのテレビ報道で(認知され)、ユーザによる訂正があるものが全体の4%くらいにまで増えた
    • アイドルのポッドキャストはすぐ直してくれる人がいる
    • wikipediaと違い、直したエントリだけでなく、学習によってほかのエントリも直すことができる
    • 元の音声データがあるので、極端なスパムは弾ける

CGMとか言うならユーザがやる気になること(UI, incentive, etc.)が重要だよね、という主張だったんだと思います。音声認識としてすごいのかどうかは全く分かりませんでした。

なんにしても、見せ方がすごいうまい。大学にいるとなかなかそこまでやれない or めんどうなのでやらないことも多いんですよね。とりあえず動くもの作っちゃえば、意味付けなんてあとでどうにでもなるんだし。

ニコニコ動画(仮)〜(秋)の軌跡

ドワンゴ千野さん。そんなに目新しい話は特にありませんでした。

全体的な感想

ちょうどhadoopの話だったり、楽天と研究開発の話だったり、直前に聞いていた話を整理して見直すことができました。それぞれの立場が自分なりに明確になったと思う。

WebDB Forumは国内DB系で唯一の査読あり会議なんだそうです。ちょっとWeb系に甘いような気がするし、次回はDB系の皆さまがもっとがんばってほしい。

「これすげぇ」にはあまり出会えなかった気がするので、SIGIRで面白いの漁ってみたくなった。でも大学にいないとPDFが落とせないとかいろいろ障壁。そういうところも産学連携の壁を崩してほしいです!