SEO Blog
2012.08.21

意外な盲点?SEOにおけるpdfファイルの影響

Bookmark and Share

index system

重複コンテンツというものはサイト内のテキストだけに限定されるものではありません。
今回企業のホームページなどでよく使用されるpdfファイルについておさらいしてみます。

Googleの検索エンジンは日々進化しており、
昨日認識されていなかったものが、今日は認識されるようになった
ということが多々起こります。

昔は認識されていなかったpdfファイルに対する動作も
進化しているのです。

よっぽど悪質なスパム行為を行なっていない限り、
ペナルティでインデックス削除となることはほとんどありません。

なんてことのない、ちょっとした修正で元に戻る可能性も十分にあるのです。

null

1.本当に消えているのか確認しよう

まずは本当にそのページがインデックスから削除されたのかを確認してみましょう。

もしかしたらただ順位が下がったために、たまたま見つからなかっただけかもしれません。

インデックスされているかを確認する方法としては

「site:」「info:」があります。

「site:」はURLの頭につけて検索することで、そのURLのページが置いてある階層以下の
インデックスされているページを見ることができます。

例 site:http://www.dymblog.jp/

階層以下が表示されるため、サイトによっては何千何万の結果がでることもあります。

その場合は同時にスペースを空けてページのタイトルも記述すると見つけやすくなります。

「info:」も「site:」同様URLの頭につけて検索することで、
そのURLのみのインデックス状況を見ることができます。

例 info:http://www.dymblog.jp/

これら「site:」、「info:」を行なったときに対策ページが表示されていれば、
インデックスから削除されていないことが分かります。

※注意点その1

・「site:」では出ないけど「info:」では出た

または

・「info:」では出ないけど「site:」では出た

というケースがたまにあります。

そのためどちらか片方だけでなく、両方で確かめることでより精度を高めることが可能となります。

※注意点その2

「info:」でチェックしたときにページが表示されても、
それが実際に入力したURLのページなのかをチェックしてください。

重複ページなどでGoogleにより正規化されている場合、
「info:」でその正規化されているページが表示されることがあります。

例 info:http://www.dymblog.jp/ と入力したのに
表示されたのは http://www.myd.jp/ だった
など

null

2.他のページに正規化されていないか確認しよう

URLの打ち間違い、単純な設定ミスなどで別ページへと正規化されている場合があります。

対策ページを実際に開いたときに、別のページへと301や302リダイレクトをしていないか、

またcanonicalタグに記述されているURLが正確なものかをチェックしてください。

このcanonicalタグが間違っていて、正しいページがインデックスされていなかった
という例が多数存在しております。

これらが間違っている場合正しい処理や記述に修正することで、
はやいうちに本来の順位へと戻ると思われます。

null

3.Googleのクローラを拒否していないか確認しよう

Googleのクローラはサイトを見るとき、まず最初にrobots.txtを見ます。

ここの記述が間違っており、クローラの巡回を拒否しているために

インデックスされない、という場合もよく見受けられます。

よくある間違いとして挙げられるのが、

User-agent: *
Disallow: /

という内容が記述されているケースです。

「Disallow:/」は全てのクローラで全ての巡回を拒否するという命令になるので、

この記述だとトップページどころかサイト全体がインデックスされなくなってしまいます。

robots.txtを設置するが、クローラの巡回をなにも拒否しない場合は

User-agent: *
Allow:/

もしくは

User-agent: *
Disallow:

と記述してください。

また、robots.txtと同じような動作をするものにメタ robotsタグがあります。

これは<head>部分に記述することで、そのページをインデックスするか
しないかを指定することができ、

ミラーページや重複コンテンツページをアップするときなどに使用されます。

このメタrobots タグの記述が誤っており、インデックスしないという
記述になっていないかもチェックしてください。

<meta name="robots" content="index">

と書かれているとインデックスを許可するという意味ですが

<meta name="robots" content="noindex">

だとインデックスを拒否するという命令になり、インデックスから外されることになります。

null

4.サーバーの環境を確認しよう

インデックスされていない原因が、サーバー側にある場合もあります。

何らかのトラブルによりサーバーがダウンし、ある程度の期間404状態だとクローラに

サイトを削除したと判断され、インデックスからも削除されることがあります。

わりと頻繁に落ちてしまうサーバーだと、こういった事になりやすいため
最悪サーバーの移転も考えたほうがよいでしょう。

またrobots.txtの設置を行なったが、サーバーの設定上.txtファイルを設置することができずに、

クローラがアクセスしようとすると「Internal Server Error」(HTTPステータスコード500)

が発生してしまう場合、インデックスから削除されることがあります。

その逆でrobots.txtを設置していないことが原因でインデックスから削除される場合もあります。

例:ページのないURLへアクセスすると、別ページへとリダイレクトする設定になっており、

robots.txtにアクセスしたクローラがリダイレクトされてしまう場合など

解決方法としては、設置してエラーになった場合は削除を、

設置していないためエラーになった場合はrobots.txtの設置をすることで大体復活できるでしょう。

robots.txtの読み込みでエラーが出ているかどうかは、ウェブマスターツールに
登録していないと非常に確認しづらいです。

robots.txtに限らず、様々なエラー情報も通知してくれるので登録を御薦めいたします。

null


5.ペナルティを受けていないか確認しよう

ここまでチェックしてどれも該当していなかった場合、

本当にペナルティが与えられている可能性があります。

ペナルティとなっている場合はGoogleウェブマスターツールに

Googleからメッセージが来ていることがあります。

もしメッセージが来ていたら、そのメールの内容にしたがって修正を行なってください。

もしメッセージが来ていない場合は、心当たりがあればその場所を修正し、
再審査リクエストを送ってください。

アルゴリズムではなく手動によるペナルティが与えられている場合は、

修正されていることが確認できればすぐにペナルティは解除されます。

特に心当たりがない場合もGoogleのミスという可能性も0ではないため、

心当たりがないという旨を記述し、一度再審査リクエストを送信してみてください。

もしかしたらなんらかのアクションが向こうから送られてくるかもしれません。

このように、ペナルティ以外が原因でインデックスから削除されるケースは実はかなり多く存在します。

インデックスから削除された!?と思ったら、最初からペナルティを疑わずに
まずは上記の順番でチェックを行なっていってください。

そのチェックを楽にするためにも、Googleウェブマスターツールへの
登録は早めに行っておいたほうがよいでしょう。

タグ: ,


コメントをどうぞ

タグクラウド

Google SEO SNS WordPress ニュース 事例 豆知識