goo blog サービス終了のお知らせ 

40代ヘタレプログラマ(組込系)のブログ

個人的な備忘録
ときどきつぶやきます
http://twitter.com/h100401jp

全文検索システム FESS を 試す (2)

2014-10-01 09:57:22 | 日記

※下記に更新記事あり
全文検索システム FESS を 試す (8) - 40代ヘタレプログラマ(組込系)のブログ


さっきつくった起動用バッチファイルをダブルクリックして FESS を起動。以下は FESS 起動後ユーザーPCから admin で WEB ログインして管理用 WEB 画面から設定する。


ログインURL は http://172.20.10.1:8080/fess/login/login

ちなみに admin の初期パスワードは admin

──────────────────────────────
システム > クロール全般 > クロール全般の設定
──────────
[同時実行のクロール設定数]

NAS や LAN に負担をかけたくないので1に変更

──────────
[インデックスの有効期限]

そんなに頻繁にインデックスを再構築する必要もあるまいと思って90日とした。

──────────────────────────────
クロール > ジョブ管理 > ジョブ
──────────
Crawler の[スケジュール]

毎日 22:01 からとした。

──
0 1 22 * * ?
──

昼間 8:00~22:00 はクロール作業にインターバル時間をいれていて、どうせ効率よくクロールがすすまないので、上記のようにした。ちなみにクロール作業は2週間ほどかかる。

──────────────────────────────
クロール > ファイルシステム > ファイルシステムクロールの設定
──────────
[設定名]

適当に名前を付けた

──────────
[パス]

smb:// で初めて 最後に / を入れる。たとえば下記のように入力

──
smb://172.20.1.1/規格情報/
──

──────────
[クロール対象とするパス]

ファイルシステムクロールの設定で、ブラックリスト方式だと、めちゃくちゃクロール作業時間がかかるのでホワイトリスト方式に変更。下記のようにクロール対象の URL を限定する。

フォルダを示す URL( .*/$ ) は全て対象
ファイルを示す URL は末尾が doc(x), xls(x), ppt(x), txt, pdf, htm(l), eml に限定。

──
.*/$
.*\.[dD][oO][cC][xX]?$
.*\.[xX][lL][sS][xX]?$
.*\.[pP][pP][tT][xX]?$
.*\.[tT][xX][tT]$
.*\.[pP][dD][fF]$
.*\.[hH][tT][mM][lL]?$
.*\.[eE][mM][lL]$
──

──────────
[クロール対象から除外するパス] の入力欄

ここは空欄

──────────
[深さ] (150209追記)

フォルダの深さを制限しないとクロール作業がいつまでたってもおわらないので、9 に設定した。

この場合、例えば [パス] の設定が下記のようになっていると
smb://172.20.1.1/Folder1/

下記の深さのファイルまでクロールしてくれる。
smb://172.20.1.1/Folder1/Folder2/・・・/Folder8/Folder9/File1.doc

──────────
[スレッド数]

NAS や LAN に負担をかけたくないので 1 に変更

──────────
[間隔]

NAS や LANに負担をかけたくないが、結局 500 ミリ秒にした

──────────────────────────────
クロール > ファイルシステム認証 > ファイル認証
──────────
[ホスト名]

深く考えないでそのままIPアドレスにした

──
172.20.1.1
──

──────────
[認証方法]

Samba を選択

──────────
[ユーザー名][パスワード]

FESS が NAS へログインするために必要な ID とパスワードを入れる。

──────────
[FS設定名]

対応するファイルシステム設定を選択。

──────────────────────────────


最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。