クロールをする上で Sitemap.xml を利用してサイトのコンテンツを取得することができますが、サイトによっては Sitemap.xml に関して何も認証なしで見れない場合があります。今回はこの回避方法を確認します。
コンテンツ更新
以下のページで最新の情報を確認してください
Postman の活用
API を利用して動作確認をするのに便利な Postman ですが、今回はこれを利用して www.sitecore.com の sitemap.xml の取得に関して確認をします。
まず最初に、ブラウザでアクセスをした場合はどういう形で表示されるでしょうか?以下のように XML のデータが画面に表示されるだけとなります。
この Sitemap.xml は HTTP GET で取得できるのかどうか、を確認します。そのためには Postman を起動して、GET に対して URL を入れてアクセスをします。すると以下のような画面が表示されます。
この状況では XML のファイルを取得できていない形です。そこで、Headers に対して、 Key は User-Agent を、Value に対しては sitecorebot を指定します。これにより、アクセスをしているクローラーの User エージェントを指定して、サーバーにアクセスする形となります。
このように、XML のデータを取得することができました。
この Tips を利用することで、Sitecore Search のクローラーが sitemap.xml ファイルを取得することができるのかを事前に確認することができます。もちろん、User-Agent なしで取得することも可能ですが、今回は取得するにあたって User-Agent が必要となるため、これによりデータを取得する際のポイントを事前に確認することができました。
まとめ
今回は Sitecore Search 固有の Tips という形ではありませんが、データを取得する際に User-Agent を設定することで無難に手続きを進めることができるのを確認できました。