locked
SharePoint2007から他のWEBサーバーを検索したがヒットしないものが多い RRS feed

  • 全般的な情報交換

  • SharePoint2007から他のWEBサーバー(Windows2000 IIS)を全文検索したが、本来ヒットするはずのものが、ヒットしないことが多いです。

    他のWEBサーバーのSharePoint でのフルクロール時間は30分程度でした。他のWEBサーバーの文書はeveryone読み取り可で設定してあります。

    この程度の精度でしたら、WEBサーバーでインデックスサービスを有効にして、ASPで検索プログラムを書いてしまったほうが精度のいい検索ができると思うのですがいかかでしょうか?


    I LOVE WEB APPLICATION!
    • 種類を変更済み 星 睦美 2010年12月20日 4:20 意見を求める情報交換が適当
    2010年12月19日 23:42

すべての返信

  • [この程度の精度] が具体的にどのようなものか、がわからないのでコメントしようがないかと思いますが・・・

    そもそも検索の設定、インデックス対象のコンテンツにより、検索の精度は大きく変わるかと思います。

    ただ、一般論として、SHAREPOINT は汎用性を追及しているため、確かに検索精度はあまり高いとはいえません。

    もし「検索プログラム」で高い精度が実現でき、それが業務上必要と、ご判断されるなら、それもアリだと思います。


    SharePoint MANIACS あなたの SharePoint 活用できていますか?ちいさな「アドバイス」からご支援します。 http://sharepointmaniacs.com/
    2010年12月20日 8:45
  • こんにちわ

    SharePointのワードブレーカーの仕様に準拠していますので、ヒットして欲しいのがヒットしないことは多々あります。

    下記を一度ご確認お願いします。

    Microsoft Office SharePoint Server 2007 日本語ワード ブレーカーの概要

    http://technet.microsoft.com/ja-jp/office/sharepointserver/cc952467

    たしかに、プログラムを書いたほうが精度がよいと思いますが、その作業時間とお金があればよいのですが。

    では。

     

    2010年12月20日 9:24
  • 中村さん、tamakiさん こんにちは

    単純に自分の氏名と「俳句」 という単語で自分の氏名でワードで保存した文書で、「俳句」というキーワードで保存した文書です。ですからワードブレーカーは関係ないと思います。

    クロールの設定を http://サーバー名/ で指定しました。

    もしかして、デフォルトのトップページからリンクをたどって到達できない文書は無視される仕様になっていませんか?

    私の検索できない文書は、なにもリンクされておらず、ただ http://サーバー名/.../../ の下に存在するだけです。


    I LOVE WEB APPLICATION!
    2010年12月21日 1:42
  • 評価をを続行していますが、さらに以下のことに気づきました。

    環境については、MOSS2007とWEBサーバーは同じドメイン内でADによりアカウント、セキュリティ管理されているものです。

    1.MOSS2007のクロールサービスアカウントがWEBサーバーの文書に読み取り可のセキュリティ設定がされていなくても、MOSS2007はWEBサーバーより対象の文書のインデックスを作成してしまう。クロールをするために、WEBサーバーの全文書にMOSS2007のクロールアカントのセキュリティ設定をする必要はないという認識でよろしいのでしょうか?

    2.WEBサーバーにユーザーのセキュリティ設定がないものでも、検索すると文書の一部が出てくる。もちろんリンクをクリックをしても文書自体は参照できませんが・・・・ フルクロールを再実行しても、この現象は同じです。

    以上ご教授お願いします。特に2はMOSSの仕様ではセキュリティを維持して検索するそうですが、意外にそうでないので、びっくりしております。


    I LOVE WEB APPLICATION!
    2010年12月22日 4:00
  • クロールとセキュリティについてはちょっと検証してみないことにはなんともいえないため、私の経験であった事例を

    >単純に自分の氏名と「俳句」 という単語で自分の氏名でワードで保存した文書で、「俳句」というキーワードで保存した文書です。

    >ですからワードブレーカーは関係ないと思います。

    実はないとは言い切れないのが難しいところです。

    まず、俳句を「俳」「句」として分割(ブレイク)している可能性があります。

    次に、SharePointは一文字の単語をノイズとしてインデックスやクエリから弾くことがあります。

    そのため、実際にはインデックスされておらず・・・という場合があります。

    あくまで可能性ですが。

    私の環境では、MOSS内検索ですが、特定のユーザ名がヒットしなくてずいぶん苦労しました。

    少しでもお役に立てれば幸いです。


    SharePoint MANIACS あなたの SharePoint 活用できていますか?ちいさな「アドバイス」からご支援します。 http://sharepointmaniacs.com/
    2010年12月22日 8:56
  • 中村さん

    ヒットしなかった「俳句」と書いてある文書をリンクしたら増分クロールでヒットするようになりました。

    他のWEBサーバーをhttp パスでクロール指定した場合はやはり、リンクも意識してインデックスを作るようです。

    検索結果がセキュリティクリミングされないというのは深刻な問題なので、中村さん、他の方々、何かわかりましたらご教授ください。


    I LOVE WEB APPLICATION!
    2010年12月24日 4:09
  • こんばんは、

    俳句と書いてある文書をヒットさせたければ、シソーラス辞書 へ登録するべきです。
    Yawata133さんが想定している内容でワードブレイクしてないと想定してます。
    自社の想定するキーワードは辞書登録をするのが一般的だと思います。
    (2007だと特に、、登録できる数に制限もありますが、、)

    SharePointは形態素解析でインデックスしているので、日本語文書を解析してキーワードを分解しています。
    その為、キーワード解析次第なので、辞書登録はとても重要だと思いますよ、、
    たとえば、俳句に関連する物を検索したくても、「俳句論」「自由律俳句」はヒットしないのではと思います。
    (試してないですが、、)
    ヒットさせる為には辞書に登録する必要があります。
    また、カタカナなどもワードブレイクが苦手なようなので検証する必要があると思います。

    SharePointのクロール結果を使った検索プログラムを開発すれば、若干使い勝手はよくなる可能性があります。
    クエリサーバーに投げるクエリを調節すれば、ベース部分のカスタマイズをしないでもある程度の利用者の使用感は向上できると思います。
    ただし、通常のクエリに比べると、若干マシンパワーを必要とすると思うので、、検証は必要です。

     

    また、権限のないWebサーバーをクロール出来るとの事ですが、、出来ないと認識してます。
    ここでいう、Webサーバーが、MOSSのWFEの事を示しているのであれば、クロール用に権限が設定されている可能性があります。
    セットアップ手順にもよりますが、「Webアプリケーションのポリシー 」にクロールユーザーが自動的にクロール出来るように権限を設定されている為、個別のサイトに権限で設定しなくてもクロールは可能です。



    Blog:http://blog.sharepointissue.com HP:http://www.piecepoint.jp/
    2011年1月4日 15:17
  • あ、ごめんなさい、ちゃんと読んでなかった。

    セキュリティトリミングの話でしたね。

    ブラウザのキャッシュ等は大丈夫ですか?
    検証は、複数のPCを用意するか、数種類のブラウザを使用した方が良いです。

    あと、セキュリティ情報の更新は、フルクロールが必要だったと思います。
    検証でよく失敗するのが、検証のため、権限を書き換え、差分更新でクロールして、セキュリティが反映されない事が有ります。

    通常の運用では、フォルダ毎に権限が決まっている場合がほとんどだと思うので、大体大丈夫ですが、注意が必要です。
    ちゃんと設計すれば回避できる問題だと思います。


    Blog:http://blog.sharepointissue.com HP:http://www.piecepoint.jp/
    2011年1月4日 15:26
  • yama chan さん

    どうもアドバイスありがとうございます。

    どうも他のファイルサーバーをクロール対象とした場合は、セキュリティトリミングされるようですが、他のWEBサーバーでは、それが行えないように思えます。

    ファイルサーバーとWEBサーバー、UNCパスとHTTPパスでクロールの動きが違うということではないでしょうか?


    I LOVE WEB APPLICATION!
    2011年1月4日 23:39