今日はWebよりDBの話が多かったかな?
セッション5A: Webの可視化とナビゲーション
朝早い上に別の作業しながらだったので、最初のほうはあんまり覚えてないです…。
社会ネットワーク分析を用いた包括的Webナビゲーション手法の評価
島田さん、筑波大。
- 「特定性を表すキーワード」(より具体的な語)と「網羅性を表すキーワード」(全容がつかめる語)を区別して、関連語を提示する
- 社会ネットワーク分析でつかう次数中心性と媒介中心性に注目するらしい??
んと、正直ちょっとよくわかんなかったです。関連研究に(松尾ぐみの)松尾先生の研究があがっていて、久しぶりにpublication list見させてもらったら、いろいろ面白そうなことが書いてありますねぇ。PDFも用意してあって大変ありがたい限りです。(発表と関係ないコメントですいません。)
セッション6A: クラウドコンピューティングが変える世界とデータ管理
このまえhadoopの話を聞いた直後ということもあって、ふんふん、という感じでした。
クラウドコンピューティング、プログラミングモデルとデータアクセスを中心に
IBM基礎研の浦本さん。
グリッドとは違う、みたいなことを言ってたんでしょうが、よくわかんなかった。以前Salesforceの方とお会いしたときは全然そのへんわかってなかったので、次にお会いできる機会があったらもうちょいいろいろ聞いてみたいです。
- cloud computingのスタック
- cloud computingの分類としての "XaaS"
- CPU as a Service: EC2
- Storage as a Service: S3
- Platform as a Service: Google App Engine, Windows Azure
- cloud computingによるcomputing model
- 分散キャッシュ
- まとめ: cloud computingのchallenge
- IBMなどが自己のビジネスモデルを破壊しかねないものに投資していることは注目
- 技術的には、並列分散プログラミング、非リレーショナル Web DB, 分散キャッシュなどが研究開発のテーマ
- ユーザ(開発者/企業)はcloudに移行できるか?
- 99.9% is good enough (8hour/1year)
- security, complianceなど、適用できるシナリオによる
けっこうキーワードの羅列なかんじですが、自分ながらにまとめちゃうと
という感じかなぁ?? よくわからん。
ずいぶん昔にGoogleの工藤さんが日吉の言語処理学会でMapReduceの話をするのを聞いて、「やりたいことをMapReduce的に記述できるかがキモ」と言ってた(と思う)のが印象に残っていました。
たぶん自分がやりたいこと/やらなきゃいけないことの多くができるとは思うんですが、何も考えずにMapReduce脳にならないように気をつけなきゃいけないと思いました。午後にXMLの話もあったりして、木構造とか再帰とかいろいろあるんだから。
クラウドコンピューティングを高速化するストレージ技術
筑波大計算科学研究センターの建部さん。
Gfarmというクラウド向きファイルシステムを開発されているそうで、後半はGfarmの話でした。
- cloud
- 必要なcpu, storage資源をon demandに利用可能
- loosely coupled data intensive computing
- 第2のMPIとなる?
- cloudにおけるstorage system
- availablity, reliability, commodityな高性能広域ファイルシステム
- Belle実験データ解析
- SC06 HPC storage challenge, winner
- Gfarm v2
- 性能評価
先日某S社、Y社の方々とHadoopに関する飲み会(ほんとにただの飲み会)があって、その中で「もはやNFSなんて使わない」という話がありました。Gfarmは、userlandのようですがふつうにmountできるそうです。とりあえず使ってみないとなんとも言えないかな。
セッション7C: 基盤技術
ロックフリーGCLOCKページ置換アルゴリズム
NAIST油井さん。
- CPUスケーラビリティを阻害する要因としてバッファ管理の同期化処理がある
- hit rate優先のLRUじゃなく、scalableなnon-blockingバッファ管理を (NB-GCLOCK)
んーと、詳細は正直よくわかってません。ここに資料を公開されているので見ていただいたほうがよいかと…。
MySQLが8スレッドまでしかスケールしないって話が解決するなら、自分には直接的にありがたいです。ってのもあるんですが、このへんのことが全然わかっていない自分にもなんとなくイメージがわくような分かりやすい説明をしていただきました。
ポスターのときにMyNAの坂井さんも言っていましたが、MySQLの中の人がこれを見たらすぐ実装してくれるのかな? 応用範囲はRDBMSだけじゃないので、仮想化するしか使いこなせなかったマルチコアに新しい光となるんじゃないかと思いました。
RDFデータベースのためのファイル構造に基づくマテリアライズドビューの構築
AIST的野さん。
materialized viewってのが何なのか分からないので全然わかりませんでした。が、前のセッションではcloudでrelationalじゃなくて、という話を聞いていたので、こういったstructuredな形式は今後どうなるんだろう? と思いながら聞いていた。
んーと、非決定性チューリングマシンとかじゃないけど、分散型の木構造ストレージってないんですかね。ありそうだけど知らないだけ感満載。
関連画像集合内における典型度と特殊度を用いた画像の信憑性分析
京大山本さん。1日目の田中先生の話ででてきたやつです。
- web画像の信憑性を判断するシステムを作りたい
- 画像とテキスト対の組み合わせに注目して、画像の典型性、特異性を判定
- 信憑性はコンテキストによるので、提示してユーザに判断させるようなシステム
- VisualRank
発表中の問題点だか質問だかで出てましたが、画像とテキスト対が正しくとれていることが前提になります。あと、この研究の本題ではないでしょうが、画像の類似度が難しいですね。
全般的に「Mドナルドのハンバーガーの画像はねつ造である」かのように聞こえて、あまりいい印象ではありませんでした。これもWeb上でのmajorityを探しているだけになるし。
アノテーションのセンチメント分析に基づく映像の信頼性判断手法
京大清水さん。
- 動画を見なくても釣り動画やスパム動画をユーザのannotationで判定したい
- ニコニコ動画のコメントを肯定/否定に分類し、再生時間軸にそってグラフを表示
- 何人かの被験者で実験した
- 課題: コメントの肯定/否定が、動画自体/動画内のある対象などのどれに対するのコメントなのかが判断できないと無理
課題がすべてを物語っています。CGMって難しいよね。評判分析だけで1つの研究になるんだから、ここはもうちょっとがんばってもらいたいところ。ニコ動のコメントに着目した、ということくらいしか面白みがないかも。
なんというか、田中先生はこのへんにあんま興味ないのか? と疑問が湧いてくる勢いなんですが、どうなんでしょう…。
セッション8A: ユーザ発信型メディアの衝撃
Podcastle: ユーザに育ててもらう音声情報検索サービス
AIST後藤さん。Podcastleという、ポッドキャストと音声自動認識システムの話です。
- 音声認識技術の問題点
- ユーザが有用な技術であることを実感していない。ミスが多くて使えないという先入観
- 新しい言葉を自動学習するために
- はてなキーワードやGoogle Newsなどのニュース記事を読み込ませる
- 音声認識研究2.0を目指して
CGMとか言うならユーザがやる気になること(UI, incentive, etc.)が重要だよね、という主張だったんだと思います。音声認識としてすごいのかどうかは全く分かりませんでした。
なんにしても、見せ方がすごいうまい。大学にいるとなかなかそこまでやれない or めんどうなのでやらないことも多いんですよね。とりあえず動くもの作っちゃえば、意味付けなんてあとでどうにでもなるんだし。