Cafe de Kerm ~毒味ブログ~

物言いにも、珈琲にも、もれなく毒が混入している可能性が無いこともないです。

サイトの「見た目」でフィルタリング

2010-09-14 22:17:49 | Technology

 普段は足を踏み入れることのない、いわゆるいかがわしいサイト。色々と危険を伴ったり、お目当てのものにたどり着くまでいたずらに時間を消費してしまうので、正直な所はあんまり近寄りたくは無いですが・・・検索の結果、迷い込んでしまうこともままあります。

 そう、検索をするとあっさり入り込めてしまう場合も少なくありませんので、子供に見せたくなかったり、大人でも「見たくない」場合がままあるものです。そういう場合はフィルタリングを使うのがお手軽ですが、その判断について画期的な方法が開発されました。文字情報ではなく、「見た目」で判断するというのです。

背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 INTERNET Watch

 株式会社KDDI研究所は13日、出会い系サイトや犯罪予告サイトなどの有害サイトを、ウェブサイトの外形的特徴のみで検出する技術を開発したと発表した。文書解析方式によるフィルタリングシステムと比べ、3倍以上の速度処理を実現するという。
-中略-
 KDDI研究所によると、ウェブサイトに含まれる単語を解析する従来の文書解析方式では、検出にあたって1万個の特徴が必要だったという。これに対して今回開発した技術では、26個の外形的特徴を用いるだけで、有害サイト1万件・無害サイト1万件で実験した結果、90.3%の検出精度を達成した。有害サイトの外形的特徴は類似性が高いため、少ない特徴で高速・高精度の判定が可能だとしている。

 なるほど、ああ言うようなサイトは、確かにどれも似通っています。リンクがやたらと多かったりサムネイルが格子状にびっしり配置されていたり・・・まるでページ作成ガイドラインでもあるのかと思っていましたが、そう感じていた感覚が、まさかフィルタリングに使えるくらいスタイルとして確立されていたというのは、正直なんだか微妙な気分です。

 似通うと言えば、通販サイト・・・特に楽天関連サイトは、くどいくらい順位を強調したり、ごちゃごちゃと商品を配置したり、やたらと縦に長いページを作ったりと、正直使いづらいところが多いような気がします。ブログはある意味仕方が無いと思いますけれど、目的によってサイトの作りというのは似通ってくる・・・というのは、どこの世界でもあるのかも知れません。・・・どうせなら、使い易い・見やすい方向に今後はまとまってくれるとうれしいのですけどね。