昨日のブログにFDJの浅見編集長からトラックバックが送られました。
内容は、『不動産業の情報流通も今春から180度転換へ』でした。
どういう事かと内容を読んでみると、インターネットの利用方法が180度転換し、検索エンジンに集められた情報を見に行く(探しに行く)時代から、欲しい情報を宅配便のように自宅(自分のパソコン)まで運んできてもらえる時代が来る(既に来ている)ということのようです。
僕自身RSSという用語も知ってはいますし、それって何?何の役に立つの?が本音のところです。
でも実際にはGooのRSSリーダーというものを使っており、これを使うと新しく更新されたサイトを自動的に集めてきてくれるのです。
いちいちそのサイトに行って更新されたものがあるかどうか確認作業をしなくても、自動的にRSSリーダーが情報収集して自分が欲しい情報(何が欲しいか登録は必要ですが)のみを集めてくれます。
画期的ですよね!
RSSとは:Rich Site Summaryの略
実態はXML:eXtensible Markup Languageの略ですが、このXMLはHTML(HyperText Markup Language)と言語的には似ているというか兄弟のようなものなのかもしれません。
でもよく考えると仕組みはどうあれ、インターネットが普及し始めた頃(大分昔でいつか忘れました)に自動巡回ソフトなるものが流行りかけたことがありました。
一太郎のジャストシステムも情報収集の自動巡回システムをリリースしたことがあったような記憶があります。
インターネットの世界はメタタグやら何やらで仕組みが複雑になり、せっかく適切なキーワードを検索条件に選んだのに欲しい情報はほんの一部、要らない情報ばかりでいやになった記憶が多分誰でもあると思います。
情報はテキストデータが一番単純で解りやすいけど画面で見た時に文字の羅列で醜い、だからビジュアルで見やすくしたのがHTML、HTMLから本題のみ抜き出したものがXMLという解釈でいいのでしょうか?
僕自身目下勉強中なので不適切な部分があるかもしれないのですが、多分解釈はそんなところで良いのかな?と今日の時点では思っています。
最近では新聞のスクラップ・ワープロで作った文章・エクセルのデータ・インターネットから集めた情報もPDFで保存するのが当たり前のようになっています。
膨大な量のPDFファイルを探す時はどうする?
PDFにOCRデータを埋め込んで検索しやすくしますよね!
正にこれと同じことと考えれば判りやすいのかもしれません。
PDFでビジュアル的に見やすい状態のまま保存。
OCRで画像部分や余計な情報を排除し、検索の為にテキストデータのみ抽出。
これがPDFとOCRのようにHTMLとXMLのコラボレーションなのでしょうか。
僕の考えってこれで合っていますか。
まだ勉強中の岩崎和夫でした。
内容は、『不動産業の情報流通も今春から180度転換へ』でした。
どういう事かと内容を読んでみると、インターネットの利用方法が180度転換し、検索エンジンに集められた情報を見に行く(探しに行く)時代から、欲しい情報を宅配便のように自宅(自分のパソコン)まで運んできてもらえる時代が来る(既に来ている)ということのようです。
僕自身RSSという用語も知ってはいますし、それって何?何の役に立つの?が本音のところです。
でも実際にはGooのRSSリーダーというものを使っており、これを使うと新しく更新されたサイトを自動的に集めてきてくれるのです。
いちいちそのサイトに行って更新されたものがあるかどうか確認作業をしなくても、自動的にRSSリーダーが情報収集して自分が欲しい情報(何が欲しいか登録は必要ですが)のみを集めてくれます。
画期的ですよね!
RSSとは:Rich Site Summaryの略
実態はXML:eXtensible Markup Languageの略ですが、このXMLはHTML(HyperText Markup Language)と言語的には似ているというか兄弟のようなものなのかもしれません。
でもよく考えると仕組みはどうあれ、インターネットが普及し始めた頃(大分昔でいつか忘れました)に自動巡回ソフトなるものが流行りかけたことがありました。
一太郎のジャストシステムも情報収集の自動巡回システムをリリースしたことがあったような記憶があります。
インターネットの世界はメタタグやら何やらで仕組みが複雑になり、せっかく適切なキーワードを検索条件に選んだのに欲しい情報はほんの一部、要らない情報ばかりでいやになった記憶が多分誰でもあると思います。
情報はテキストデータが一番単純で解りやすいけど画面で見た時に文字の羅列で醜い、だからビジュアルで見やすくしたのがHTML、HTMLから本題のみ抜き出したものがXMLという解釈でいいのでしょうか?
僕自身目下勉強中なので不適切な部分があるかもしれないのですが、多分解釈はそんなところで良いのかな?と今日の時点では思っています。
最近では新聞のスクラップ・ワープロで作った文章・エクセルのデータ・インターネットから集めた情報もPDFで保存するのが当たり前のようになっています。
膨大な量のPDFファイルを探す時はどうする?
PDFにOCRデータを埋め込んで検索しやすくしますよね!
正にこれと同じことと考えれば判りやすいのかもしれません。
PDFでビジュアル的に見やすい状態のまま保存。
OCRで画像部分や余計な情報を排除し、検索の為にテキストデータのみ抽出。
これがPDFとOCRのようにHTMLとXMLのコラボレーションなのでしょうか。
僕の考えってこれで合っていますか。
まだ勉強中の岩崎和夫でした。
※コメント投稿者のブログIDはブログ作成者のみに通知されます