情報検索
担当教員
授業の到達目標及びテーマ
情報検索の基盤となるアルゴリズム、手法、評価方法を理解することを目標とする。情報検索とは、google などの検索サービスの根幹となる技術であり、現在の情報アプリケーションの中で最も重要な技術の一つである。この技術は、全文検索と呼ばれる技術を基盤とし、様々な技術を加えて進歩してきた。本講義では、それらのうち中心的な技術の数理的な意味を理解することを目標とする。また、リコメンデーションなどの応用的な話題も紹介する。
授業の概要と方法
卒業研究などで実践的に役立つ技能の習得のために、取り上げる手法は、実際のデータが処理できる簡単なプログラミング例と関連付けて学びます。紹介する手法を簡単に実行するために、MATLABなどのプラットフォームや java のライブラリなどを利用します。演習課題を通して、処理手法の基礎を身につけることを目標とします。
授業計画
| 回 | テーマ | 内容 |
|---|---|---|
| 1 | ガイダンス/情報検索概論 | 情報検索とは何かについて学びます。 |
| 2 | 検索キーワードと索引付け | 情報検索に利用する検索キーワードの選定方法と、それを用いて、文書を索引付けする方法を学びます。 |
| 3 | キーワードのスコア | 検索キーワードのスコア付けの方法として TF/IDF 法などを学びます。 |
| 4 | 検索結果の評価 | 検索結果の評価尺度や評価方法について学びます。 |
| 5 | 検索結果の改善法 | 検索結果の改善方法として、関連性フィードバックやクエリ拡張について学びます。 |
| 6 | 文書の信頼性尺度 | 文書の信頼性尺度として Pagerank について学びます。 |
| 7 | 簡単な検索演習 | これまでに学んだことを実際にプログラミングする演習を行います。 |
| 8 | 画像の検索 | 画像検索の現状について説明します。残念ながら、純粋に画像の性質を使った検索ではなく、周囲の文字情報が用いられているようです。 |
| 9 | 画像検索演習 | 画像それ自体の情報を用いて検索をする場合に、利用可能な特徴量について説明します。それにより、画像間の類似度を定義します。 |
| 10 | 商品の類似性、利用者の類似性 | 利用者の嗜好情報、購買履歴などのデータから、商品の類似性、利用者の類似性を計算する方法を理解します。 |
| 11 | リコメンデーション | 商品や利用者の類似性に基づき、利用者にリコメンドする商品を決定する方法を学びます。 |
| 12 | クラスタリング | 大量の多次元のベクトルであらわされた利用者の嗜好情報から、似た嗜好をもつグループをクラスタ化する方法を学びます。 |
| 13 | XMLストリームデータ検索 | インターネット情報を連続的に流れるXMLデータから、必要なデータだけを抽出する方法について学びます。 |
| 14 | Webクローラ | Webのページをリンクをたどりながら集める手法について学びます。 |
| 15 | まとめ | これまでに学んだことをまとめる最終課題の発表を行います。 |
授業外に行うべき学習活動
授業内容に関する課題を復習として出題する。
テキスト
なし。
参考書
書名: Introduction to Information Retrieval 著者名: Christopher D. Manning/Prabhakar Raghavan/Hinrich Schütze 出版社: Cambridge University Press 出版年: 2008 備考: http://nlp.stanford.edu/IR-book/information-retrieval-book.html で内容をみることができる。 書名: 集合知プログラミング 著者名: Toby Segaran 出版社: オライリー・ジャパン 出版年: 2008
成績評価基準
講義内の課題、最終課題を総合して決定する。
情報機器使用
ノートPCを用いて演習を行う。授業支援システムを利用する。
前年度の授業改善アンケートからの気づき
特になし。
その他
「統計学1」(旧カリキュラムの「確率と統計」でもよい)、「線形代数の応用2」を履修しておくこと。 また、受講希望者は、第1回の講義の前に、MATLAB をインストールしておくこと。インストール方法は、RAT の web ページを参照のこと。http://rat.cis.k.hosei.ac.jp/article/rat/r/matlabinstall.html