ブクリス
2011.11.13 Sunday
以前のエントリー「OPACと戯れる日々」でお披露目するよといっていたサービス「ブクリス」を、無事に図書館総合展の場でお披露目することができました。
図書館総合展でをご覧いただけなかった方は、発表されたフォーラムの内容をまとめてくださっているブログをご覧ください。
さて、図書館総合展までにブクリスのチューニングについていろいろ考えたことを改めて紹介します。
・対象となる情報源について
ニュースサイトなら旬の話題にキーワードが取り出せて面白いのでは?
地域のポータルならその地域にまつわるキーワードが取り出せて面白いのでは?
といった感じで、どんな情報源がどんなキーワードが取りさせるかを考えました。
・キーワードの抽出方法
専門用語を切り出すキーフレーズ抽出:オリジナリティのある語が切り出せる。ただし長めの語になるのでOPACでHitしにくい。
形態素解析:短めの語になるのでOPACでHitしやすい。ただし一般的すぎる語は検索結果としての面白みに欠けるのでは。
<a>タグによる抽出:情報源にWikipediaを指定した時を想定。専門用語だけを的確に切り出せる。
・0Hit、過剰Hitのキーワードの排除
OPACで検索した際に0Hitではリストが作れない。
たくさんHitしすぎる語はキーワードとして適さないのでは?(ひらがな一文字とか)
・OPACへの負荷軽減
抽出したキーワードをすべて各OPACで検索して有効性を確かめるのは、OPACへの負荷が高い。
負荷に耐えられるシステムを経由して共通のフィルタを作ろう。
例えばCiNiiBooksで検索してヒットしないなら、OPACで検索してもヒットしないだろうからNGワードに認定。
とまぁ総合展発表までの主な論点だったことはこんな感じでしょうか。
あとは実際に図書館に導入してもらうため色々検討課題をクリアしながら頑張りたいです。
チームの皆様、あんまり役になってないかもしれませんが今後もよろしくお願いします。