サイト内検索:

Googleはスパムブログ排除のためにどのようなフィルタをブログ検索に施しているか

Google was granted a patent yesterday on Blog Search, and how the search engine might filter blog posts out of blog search based upon a number of factors.

How Google Might Filter Blog Posts from Google Blog Search

2006年にGoogleによって提出されたスプログと呼ばれるスパムブログを検索結果から排除するためのアルゴリズム(?)に昨日2月14日に特許が認められたようです。

でも2006年に提出されたものなので、現在それがどこまで使われている/有効なのかはわかりませんが、それを見ることでGoogleがどのブログ記事をスパムと判断しているのかのヒントが見えてくるわけです。

で、ざっとしたスパム判定フローチャートはこんな感じのようです。

まずはブログ記事のリポジトリから記事の読み込みが始まり、「○個以上の外向けのリンクがあるかどうか」の判定が行われるようです。例えば50個以上の外向けのリンクがあった時点ですぐさまスパム認定されるようです。この数はいくつだかわかりませんけどね。

で、次に「その記事に外からリンクされているか」の判定が入り、全然リンクされていないとこれまたスパム認定されるようです。いや、スパム認定というより「役に立たない記事」「必要ない記事」ということなんでしょうね。

そして次に「外からのリンクのリンクスコアが低いかどうか」の判定に移ります。つまり外からのリンクがあってもそのリンク元があまり価値のないブログだった場合はこれまた「役に立たない記事」「必要ない記事」扱いされるわけです。

そして最後に「記事にタイトルがあるかどうか」判定がされ、ない場合はスパムと判断されるようです。

For example, a blog post without a title may indicate that the blog post is not trustworthy and/or contains undesirable content. If the blog post has a title, then the blog post may remain in the repository and not be rejected.

タイトルのないブログ記事なんて信用できるか!ってことのようです。でもタイトルないブログ記事って私はこれまで見たことないですけど。

その他にも以下のような判定基準があるようです(面倒なので英語)。

Links to self or same domain - Blog posts with links to the same domain, whether to the post itself or other pages on the same domain, might also be removed from the repository, though the patent tells us that those links within the same domain might be ignored instead.

Links to electronic media - Posts with links to electronic media, such as images, movies, or audio, might also possible be rejected. Not stated in the patent, but it's possible that rejection might be based upon the type of media being linked to, like the kinds of undesirable content listed above.

Sufficient Length - If a post isn't of a sufficient length, it might also be removed. While that length might be required to be a certain amount of words, for instance, it might also be an amount determined by a machine learning process.

Distance of links from start of post - If the outgoing links in a post don't appear within a certain predetermined distance from the start of a post, it might also be rejected. This appears to be intended to avoid posts that might contain too many links.

Recency of posts - Posts that are older than a certain predetermined amount of time, such as 2 weeks, might not be included in search results. Those recent posts might also need to ahve a certain link based score to be presented as well.

その他にもいろいろあるようなので、このあたりをまじめに取り組みたい方はリンク先の記事を読んでみてください。

Google上位表示 64の法則 (WEB PROFESSIONAL) Google上位表示 64の法則 (WEB PROFESSIONAL)

blog comments powered by Disqus

2011年アルファブロガー受賞

新着DVD

モバイル

Powered by Movable Type 6.1.2

ブログ内検索

BlogPeople ReviewMe!

このサイトのレビューとか応援コメントを書いてもらえると励みになります。

Affi☆List for Amazon

バナー広告

このブログ記事について

このページは、nagasawaが2012年2月15日 19:04に書いたブログ記事です。

ひとつ前のブログ記事は「150億PV/月なTumblrのシステム構成」です。

次のブログ記事は「2月16日のラッキーさん」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。