兆し
非常に興味深いサイトがあったので紹介します。
その名も「kizasi」!
http://kizasi.jp/
インターネット上にある日付がついた文書のなかでブログにだけ限ってその記載内容を分析し、どんな内容についてエントリーされているのかを自動で分析するサイトなんです。
過去24時間、1週間、1ヶ月のそれぞれの期間の中でブロガーがどんなことに興味を持ってそれぞれ自分のブログに書き込みをしているか、インターネットを利用する人と言うある程度狭い領域ではあるけれども、その中の人がどんなことに興味を持ちどんな風にそれが変遷しているか世の中の「兆し」が一見して分かるというサイトです。
ちなみに僕がアクセスした時点では91万人のブロガーの1144万エントリーを分析すると、過去24時間は「ジャニーズヒストリー」らしいです。
NHKもこのサイトをもとに番組を構成し来年1月から放映を開始するそうです。
さらに面白いことにRSS配信(http://kizasi.jp/rss.xml)していて、このXMLデータをもとに各自のサイトで今の世の中のトレンド分析を表示したりビジネスに利用したりと言うことをあらかじめ目的にして構築されているのです。ヒジョーに面白い!
サイトの説明によると、このサイトの検索技術は以下のようになっているらしい。
kizasi.jpで使われている最も重要な技術は、株式会社シーエーシー 技術研究センターにて研究開発された『時系列共起パターン解析エンジン(Kizasi Search Engine)』です。この解析エンジンが、ブログデータを収集、言語処理、解析し、ある時間におけるブログの話題をkizasi語として抽出しています。この解析エンジンには次のような特徴があります。
・関連性解析
時間情報をもつテキスト集合を対象として検索語の周辺文脈を解析し、語の関連性を時系列分析できます。
・準実時間のインデクシング
クローリングからインデクシングまでの処理をパイプライン化し、時間とともに増加するテキストデータを準実時間で解析できます。その結果、話題の傾向を遅延なく捉えることができます。
・概念辞書(オントロジー)の内蔵
語の分類属性を利用して、ジャンルによるランキングや関連性検索を可能としています。確率的アルゴリズムを使用し、同形異義語の判定も可能です。
若干難しい話だけれども、いままでウェブの検索エンジンというのは、そこにある文章を形態語分析し、キーワードでインデックスに登録、検索によってその文書のソースへのリンクを表示すると言ったある程度狭い範囲で固定化された技術だったと思います。
この検索サイトでは、文書の時間情報を柱にして、言葉の関連性をタイムライン化してインデキシングされているのです。同じキーワードでも時間軸が違えば別の意味合いを持たせることが出来る。そんな新しい検索エンジンだと思います。
言語の形態語分析技術というのは前から興味があって追っているのですが、情報というのはこうやって新しい側面を与えることで「価値のある」情報となり利用可能になる。ちょっとわくわく。