コンテンツ連動型広告の仕掛けについて考える〜その弐
「コンテンツ連動型広告の仕掛けについて考える」の第二弾。前回は、ページに書かれた内容(ページコンテンツ)の取得まで。今回は、その解析部分から。(第一弾は、こちら)
前回の処理のステップをまとめたもので言えば、
- クローラが取得したコンテンツは、解析サーバにより解析される
- うどん
- は
- 讃岐
- に
- 限る
- うどん(名詞)
- は(助詞)
- 讃岐(名詞)
- に(助詞)
- 限る(動詞)
- うどん
- 讃岐
- 限る
- うどん
- 讃岐
- 讃岐
- うどん
- まずい
- 先月の出張で、香川に行った。
- 香川の取引先の山田部長はなかなかの人格者で、彼を慕う部下も多いと聞く。
- 彼のチームメンバーからいろいろお話を聞くことができた。
- 山田部長の若いころのエピソードで面白かったのは、食い道楽の話。
- あんなスリムな人なのにありえないぐらい食べるらしい。
- なんでも近くのうどん屋でうどん七玉食べた後、もう一軒別のところに行ってそこで三玉。
- ありえない。。。
- しかし、山田部長のオススメのうどん屋さん、マジうまいっす。
- やっぱり、うどんは讃岐に限る。
さっきの文章では「山田部長」だけがフィーチャーされていたけど、「山田部長はじめ、高橋部長、佐藤部長には大変お世話になりました。 m(_ _)m」という文章も入ってくると、重要なのは形態素解析の結果としての最小単位で最頻出語は「部長」になってしまう。「うどん」か「部長」かで考えると難しいのだが、少なくとも「部長」の中でいちばん重要なのは、「山田部長」だろう。「山田」+「部長」。このように単語と単語の組み合わせ(連接)に着目して開発されたのが、専門用語自動抽出サービス「言選Web」。ブラウザから簡単に使えるので、ちょっと試してみる(より重要だと判断されたキーワードが上になるように並んでいる。横の数値は、その評価値。何点満点とかいう尺度ではない)と……
- 9.73 : 山田部長
- 3.46 : うどん屋
- 3.46 : うどん
- 2.00 : 香川
- 2.00 : m
- 1.93 : 高橋部長
- 1.93 : 佐藤部長
- 1.41 : 人格者
- 1.41 : 大変お世話
- 1.41 : 取引先
この「言選Web」については、『図書館の窓』東京大学付属図書館報に寄稿された「「言選Web」の世界」という記事でとてもわかりやすく説明されているので、興味のある人はどうぞ。
『たつをの ChangeLog』の「形態素解析と検索APIとTF-IDFでキーワード抽出」という記事もおもしろい。数式とか、Perl のコードとか出てくるんで、ちょっととっつきにくいかもしれないけど、文章はいたって平易。いわく、Yahoo! のウェブ検索を利用して、
- 文章(さっきの「うどん」の日記のようなもの)の中に特定のキーワード(例えば「うどん」)が出現する回数
- Yahoo! のウェブ検索でキーワードにマッチした文書数
- Yahoo! のウェブ検索の総文書数
他にもいろいろ手法はあるんだけど、基礎的なところとしては、こんなところだろうか。
こうして、文章の特徴となる言葉が抽出されて、じゃあ次は……ということになると、
- 商品引き当てサーバは、解析結果に基づき、妥当な商品を商品データベースから検索し、オススメ商品データを返す
- 抽出されたキーワードで商品データベースを検索する
- 検索結果が複数ある場合、その中でいちばん売れそうなものから順に表示候補にする
- 文書との関連度が高いから「売れそう」
- 文書との関連度は若干低いけど、けっこう売れてるから「売れそう」
- 文書との関連度は全くないけど、むちゃくちゃ売れてるから「売れそう」
「おまかせリンク」は、まだβ版だからなのか、関連性の低い結果が出ちゃってるのかどうかが微妙なところ。ちょっと前に書いた「心地よいユーザインターフェイス」に出てくるのは、『女性の品格』とか『不思議の国のアリス』の洋書、英文法の教科書(洋書)、プロジェクトマネジメントの本(洋書)、『のだめカンタービレ(18)』……。Ajax の本とか、インターフェイスデザインの本とかいろいろあるだろうに……。少なくとも『女性の品格』、『のだめカンタービレ』は売れせん狙いのフィラー広告だな。『わかりやすい洋ランの育て方』……大泉洋の「洋」ってことかい? それだったらまだ大泉洋の本の方がいいな。……とはいえ、なんかこうやって文句を書いている間に、『Web API マッシュアップブック』も Pipes の記事あたりで表示されるようになってきた。
とはいえ、AMAZON のコンテンツ連動型広告の場合は、
- 書籍に付随するメタ情報(著者名や出版社名、書籍の概要)
- 関連づけの対象となる商材が有限であること(バリエーションが多いとはいえ限られている)
- 商品ごとの売り上げ情報(売り上げランキング)
- その商品といっしょに買われた商品
- 検索から購買までのコンバージョン情報
- カスタマーレビュー情報
- リストマニア!(個人のオススメ作品リスト)
0 件のコメント:
コメントを投稿