robots-nocontentとgoogle_ad_section_start

 Web Pageの本文抽出と言うのがそこそこ難しい問題だ(精度と再現率を追求するとそこそこどころではなく難しい問題だ)という事は、一度やってみるとすぐに分かる。
 そこで、ページ作者側に自分で本文箇所を指定させるための方法を検索エンジン各社が用意している。Yahooが去年導入した仕組みは、無視させたいところにclass="robots-nocontent"という指定を入れさせるもの。一方、Googleは検索インデックス作成用ではなく、AdSenseの精度向上のためにgoogle_ad_section_startというものを用意している。こちらはクラスとして指定させるのではなく、コメントとして埋め込ませる。
 素人考えでは、

  • 本文箇所を指定する方が本文で*ない*ところを指定するより簡単そう
  • classとして指定させるのでは場合によってはHTMLの構造を変更することになって工数がかかってしまうのではないか

 という事で、google_ad_section_startのやり方の方が良さそうに思える。一方、google_ad_section_startの方にも、コメントに意味をもたせるのってどうなの、と感じなくもない。