HyperEstraierによる論文PDF全文検索(まとめ)
Estraierで論文PDFを検索する際、
- Estraierによる検索
- 検索したPDFをacroreadで開く
- 再度PDF文書内で単語検索
のように検索語を2回入力することがたびたびあり、不便に感じていました。
下記の試作検索CGIを利用することで、検索結果のDetailリンクより
ほぼ論文PDFそのまま(図も表示される)の形式で、かつ検索キーワードハイライト付きで読むことが出きるようになりました。
PDFからHTMLへの変換の際、数式など多少レイアウトがくずれますが、
ちょっとした文章確認には、十分利用可能な範囲です。
あとはsummary表示の部分に改善の余地がありそうです。
本当は、title, author, abstなどをそれぞれ成形して表示したいところです。
PDFフォーマットでは印刷レイアウトのみで文章構造を残していない以上、該当箇所を抜き出すのは、至難です。
実現するには、やはりpubmedpdfなどの論文管理ソフトと連動させる必要がありますね。