Google was granted a patent yesterday on Blog Search, and how the search engine might filter blog posts out of blog search based upon a number of factors.
How Google Might Filter Blog Posts from Google Blog Search
2006年にGoogleによって提出されたスプログと呼ばれるスパムブログを検索結果から排除するためのアルゴリズム(?)に昨日2月14日に特許が認められたようです。
でも2006年に提出されたものなので、現在それがどこまで使われている/有効なのかはわかりませんが、それを見ることでGoogleがどのブログ記事をスパムと判断しているのかのヒントが見えてくるわけです。
で、ざっとしたスパム判定フローチャートはこんな感じのようです。

まずはブログ記事のリポジトリから記事の読み込みが始まり、「○個以上の外向けのリンクがあるかどうか」の判定が行われるようです。例えば50個以上の外向けのリンクがあった時点ですぐさまスパム認定されるようです。この数はいくつだかわかりませんけどね。
で、次に「その記事に外からリンクされているか」の判定が入り、全然リンクされていないとこれまたスパム認定されるようです。いや、スパム認定というより「役に立たない記事」「必要ない記事」ということなんでしょうね。
そして次に「外からのリンクのリンクスコアが低いかどうか」の判定に移ります。つまり外からのリンクがあってもそのリンク元があまり価値のないブログだった場合はこれまた「役に立たない記事」「必要ない記事」扱いされるわけです。
そして最後に「記事にタイトルがあるかどうか」判定がされ、ない場合はスパムと判断されるようです。
For example, a blog post without a title may indicate that the blog post is not trustworthy and/or contains undesirable content. If the blog post has a title, then the blog post may remain in the repository and not be rejected.
タイトルのないブログ記事なんて信用できるか!ってことのようです。でもタイトルないブログ記事って私はこれまで見たことないですけど。
その他にも以下のような判定基準があるようです(面倒なので英語)。
Links to self or same domain - Blog posts with links to the same domain, whether to the post itself or other pages on the same domain, might also be removed from the repository, though the patent tells us that those links within the same domain might be ignored instead.
Links to electronic media - Posts with links to electronic media, such as images, movies, or audio, might also possible be rejected. Not stated in the patent, but it's possible that rejection might be based upon the type of media being linked to, like the kinds of undesirable content listed above.
Sufficient Length - If a post isn't of a sufficient length, it might also be removed. While that length might be required to be a certain amount of words, for instance, it might also be an amount determined by a machine learning process.
Distance of links from start of post - If the outgoing links in a post don't appear within a certain predetermined distance from the start of a post, it might also be rejected. This appears to be intended to avoid posts that might contain too many links.
Recency of posts - Posts that are older than a certain predetermined amount of time, such as 2 weeks, might not be included in search results. Those recent posts might also need to ahve a certain link based score to be presented as well.
その他にもいろいろあるようなので、このあたりをまじめに取り組みたい方はリンク先の記事を読んでみてください。









