<お知らせ> GOOブログのサービス終了に伴って、「はてなブログ」に 新「天文ニュース」 を開き、
連載の試行を開始しました。試行の概略は こちら から。
今日のテーマ:よりスマートな検索:NASAのAI、科学データを見つけ易く
<前書き>: 以下は、宇宙あるいは天文学とは直接は関係していませんが、AIを主体とする翻訳技術の動向を見ていただくために、あえてその一部を取り上げてみました。
新しいランニングシューズをオンラインで購入することを想像してみよう。もし、売り手によって「スニーカー」、別の売り手が「トレーナー」、別の売り手が「運動靴」と異なる表現をしていたら、ミスマッチな専門用語の海にすぐに迷い込んでしまうだろう。幸いなことに、ほとんどのオンラインストアでは、標準化されたカテゴリとフィルターを使っているために、必要なものをすばやく見つけることができる。
この問題を科学研究に拡大してみる。スニーカーの代わりに、「エアロゾル光学深度」や「海面温度」を考えてみよう。データを記述するための共通言語がなければ、関連する地球科学のデータセットを見つけることは極めて困難となる。
そのために、NASAは、科学者達がデータセットに一貫性のある検索可能な方法でタグを付けるのに役立つ、標準化された語彙である包括的変換マスター辞書(GCMD:Global Change Master Directory)を作成した。しかし、科学が進化するにつれて、メタデータを整理して発見可能に保つという課題も進化している。
この課題に対応するため、マーシャル宇宙飛行センターのデータサイエンス・インフォマティクス・オフィス(ODSI)は、データプロバイダーやキュレーターが適切なキーワードを自動的に割り当てるように設計されたスマートツールであるキーワード勧奨(GKR:GCMD Keyword Recommender)を開発した。
・よりスマートなタグ付け、迅速な検出
アップグレードされたGKRモデルは、単なる技術的な改善ではない。これは、科学的知識を整理し、アクセスする方法の飛躍的な進歩がある。このモデルは、正確で標準化されたキーワードを自動的に推奨することで、メタデータの品質を高く保ちながら、人間の負担を軽減する。これによって、研究者達、学生達、一般の人達は、必要なデータセットを正確に見つけやすくなる。
・メタデータ・マッチメーカー
新たにアップグレードされたGKRモデルは、エクストリーム・マルチ・ラベル分類と呼ばれる情報科学の大きな課題に取り組んでいる。
写真に写っているすべての動物を特定しようとする例で考えてみよう。犬だけなら簡単である。しかし、犬、鳥、茂みの後ろに隠れているアライグマ、あるいは0.1%しか写っていない動物がいる場合、作業ははるかに難しくなる。GKRが直面しているのは、一部のキーワードの例が不足している場合でも、複雑なデータセットに正確にタグを付けることである。
問題は大きくなる一方である。新しいバージョンでは、以前の約430から3,200以上のキーワードが考慮されるようになった。これは、語彙の複雑さが 7 倍に増加し、学習して予測する必要があるモデルが大幅に飛躍したことを意味する。
この規模に対処するために、チームは、単にデータを追加しただけではなく、より高性能なモデルをゼロから構築した。アップグレードの中心となるのは、地球科学、生物科学、天文学などのさまざまな分野の科学文献から引き出された 660 億語という驚異的な単語でトレーニングされた高度な言語モデルである。
--- 以下略。
<イメージの説明>: 2025年3月15日にNASAの全球降水観測 (GPM) ミッションのワールドビューから撮影されたイメージスナップショットで、米国南東部全域で大雨が発生している様子と、地球科学、大気、降水量、雨滴サイズのGCMDキーワード推奨がオーバーレイされている。
<ひとこと>: 大判はイメージのリンクから。
<出典>: Derek Koehl(著者名です)
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
その他の記事は以下のリンクから。リンク先では広告なしでお読みいただけます。
最終更新日 7月25日 宇宙科学の話題 ----総合的な話題です
最終更新日 7月 7日 火星探査情報 -----多数の探査情報から
最終更新日 7月28日 ハッブル宇宙望遠鏡 --最新の発表から
最終更新日 7月24日 ジェムスウェブ宇宙望遠鏡 -最新の発表から
最終更新日 6月30日 地球観測 -------温暖化問題を中心に
・・・戻るときは、ブラウザーの“戻る”ボタンか、閲覧先記事の“BLOG”ボタンから。・・・
★ ★ ★ ★ ★ ★ ★ ★ ★ ★