HyperEstraierによる論文PDF全文検索(まとめ)

Estraierで論文PDFを検索する際、

  1. Estraierによる検索
  2. 検索したPDFをacroreadで開く
  3. 再度PDF文書内で単語検索

のように検索語を2回入力することがたびたびあり、不便に感じていました。

下記の試作検索CGIを利用することで、検索結果のDetailリンクより
ほぼ論文PDFそのまま(図も表示される)の形式で、かつ検索キーワードハイライト付きで読むことが出きるようになりました。

PDFからHTMLへの変換の際、数式など多少レイアウトがくずれますが、
ちょっとした文章確認には、十分利用可能な範囲です。


あとはsummary表示の部分に改善の余地がありそうです。
本当は、title, author, abstなどをそれぞれ成形して表示したいところです。
PDFフォーマットでは印刷レイアウトのみで文章構造を残していない以上、該当箇所を抜き出すのは、至難です。
実現するには、やはりpubmedpdfなどの論文管理ソフトと連動させる必要がありますね。