あかまど(仮)

net初心者で自称ソフト技術者。Gamer属性。netは人の望み?それとも?

さて。ネットで見かけたのですが<>という話題が。

2009-07-01 16:51:29 | Weblog
微妙にネットサーフィンしてて(とかいいつつGoogleから1リンク辿るだけな今日のこの頃)あるブログに偶然立ち寄ったのですが、こんな記事を見つけました。

意訳ですが。


<前振りの関係ないけどちょっと味のあるあいさつ。>

さて。

<日常のそれとない話題だけど本筋と関係ない「いま何してるよ」という話題。>ところで<ニュースサイトの記事タイトル>というニュースがありました。

<BLOCKQUOTEによる記事の引用>

ということなのですが、<ニュースサイトの記事タイトル>みたいな話題は最近よく目にするようになって来たように思います。

<日常のそれとない話題だけど本筋と関係なくて「これからどうするかなぁ」という話題。>

<ニュースサイトの記事タイトル>という情報にいては、まあ、正直そこまで興味があったわけではないのですが、話題としては知っておくべきなのかな、と。


ちょっと感動しました。
わたしが見つけたのは、自動生成されたBLOGです。
十中八九、というか12ぐらい。(「という情報にいては、」は原文のまま)
手動にしてもアルゴリズムが完成されてるので、自動と言って差し支えないと思います。
記事をいくつかみたのですが、「さて。」が「ところで。」になってたり、前振りとか日常の話題とか何パターンもあるようですが、構造とか改行の仕方とかはきれいに定型化されてました。

「朝日新聞的社説の自動生成」とかいうCGIもありましたが、BLOGだと見る人もいい加減な場合が多いと思うので、こっちの方がチューリングテスト的に優位な気もします。
「破綻した散文の自動生成BLOG」なんてのは既にあったように思うのですが、今回見たのは「記事タイトルと本文」程度のデータソースがあれば破綻することがほとんどないほど定型化されてるのが特徴です。たぶん、というか200%ぐらいの自信でですが、構文解析とかキーワード検出とかすら必要ない愚直さがうまく機能してる感じです。
たぶんRSSフィードから生成してるので、記事の長さとかも元記事書いた人にお任せできていい感じです。

単純にアフィリエイト目的なのか、技術者の遊びや実験なのかは判断できませんでしたが、BLOG記事ってそういう状況なんだなぁとか思いました。SEO対策でサービス化されそうというか既にされてるような気もしますが、あんまり関わりたくない世界です。

……わたしのこの記事も、自動生成できそうな雰囲気ですよね。
いや実は……?


2009/07/04追記。
gooBlogのトレンドランキング上位の話題についてちょっと見てたのですが、このロボット?は、いまのところ「livedoor Blogのみ対応」、「YahooNewsのフィードがソース」のようです。あんまりは追求しませんが。
2009/07/06追記。
gooBlogのトレンドランキングだけ見てると、このロボット、猛威を振るってるようです。ランキング上位の話題(のURLは)もう、ほとんど「Yahoo!ニュース」の記事ばっかりですね。対策とかカウンターでランキングを汚染するようなロボットが出てくるかしないと、「gooBlogのトレンドランキングは常人には無意味」なものとなりそうです。元RSS見たほうがノイズ少ないですし。
「人とかランキングを騙す方法」として、ちょっと興味深くはあるのですが、ここでの研究はたぶんやりません。「検索を前提としたBlogの文化」には危険すぎる問題なので、blogの運用者が対策するか、運用が困難になってBlogという概念が消滅するか別な所にシフトするかとった問題な気もします。
対策って言っても、どうなんでしょうねぇ。現状のアレはともかく、概念的にはクリッピングサービスとして役に立つ場面もあるでしょうし。
2009/07/22追記。
このロボット、Livedoor限定なところに良心を感じたりもするのですが、例文集更新したりとか構文?パターン変更したりとかまだがんばってるようです。
深刻になってきたら、ニュース提供者がRSS発行の段階で自動判別しにくいノイズを入れたりすると、締め出しに有効かもしれませんが、政治的な話とか商業的な話とかも絡んできたりしそうですし一筋縄では行かない気もします。住みにくい世の中になったものです。あるいはこれくらいダイナミックにいやなものが混ざるのが、インターネットが会社社会とか学校とかと同レベルのコミュニティの住処となった証なのかもしれません。当件については多分追記終わり。
2009/07/30追記。
LivedoorBlog以外のサービスでも確認しました。別に良心があったわけでもないのかも知れません。2009/07/30 2:00現在Googleで「という情報にいては、」というフレーズが2090件。ありがちな誤字ですし、このBLOG記事自体も含まれますが。

Diska

海賊狩りツアーに関する散文。

2009-07-01 02:14:15 | Weblog
いろいろ端折ってスラッシュドットの記事から。

SlashdotJ: 「ソマリア海賊狩りツアー」という嘘ニュース、あたかも事実のようにネットを伝わる

わかりやすいタイトルですね。

ただ、スラッシュドットにこの記事があったこと自体は海賊狩りツアーの反証にはなってないのも確かだったりするような気もします。「ああ、嘘ニュースだったんだ」っていうとすごく科学教っぽいひびきです。
わたし的には現時点でも「検証不可能」なのですが、たぶんその「検証不可能」であるところが理系的に大事なんじゃないかなと思います。

一方で、BLOGっぽいメディア上の情報で、検証が可能なものって何だろうなぁと考えると、うーん。困りましたね。
「Wikipediaに書いてあるから本当」
とか
「ほかのWebサイトでも見たから本当」
とか言のは、Wikiを使ったことがある人とか、Webサイトにものを書いたことがある人が多いであろう2009年という時代では、なかなか成立しにくい冗談、のはず、とも思うのですが、実際には、そういう
「自分が書き込める脆弱な情報源」

「自分が読んでいる頑丈そうな情報源」
が、同じものを指してるという認識は行きわたってないように見えたりもします。

テレビや新聞に載ったら信用できるか、っていうと、どうなんでしょうねぇ。
ちょっと前は一応「神話的」に、正しい、あるいは、間違ったら必ず訂正が加わるから信用できる、ということになってたと思うのですが、たとえば、Cnetとか、どれが編集部を通した記事でどれがCnet内のBLOGの記事かとかぱっと見判別しにくい作りになってたりしますし、偏向報道とかあったということがわかってもそれが20年後だったり、反省文書いてみても何月何日の記事や放送のこの部分に問題が合ったとか言わないと思いますし。

「本当だったらどうで、ウソだったらどう」っていうシミュレーションを脳内でしてみて、それによって「検証時間の上限」を設定してみたりとかっていうのが自衛策かなぁ。それは暗黙的にみんなやってますね。たぶん。

あとは「この人にならだまされてもいい、仕方ない」っていうのを作っとくとか「多数派に従う」とかいうのは、処世術的には有効にはたらいてる気もします。
権威主義っていうのはいつの世の中でも受け入れられてますし、赤信号みんなで渡れば恐くないですし。
「恐くない」って言葉は処世術の格言として重要ですよね。「悪くない」とか「正しい」とか「かっこいい」とか「安全だ」とかは、たけしさんも言ってなかったと思います。

Diska