ISeC(あいせっく:セマンティックコンピューティング研究開発機構)の
言葉を作り、知を創る
グローバル化時代とビッグデータ化時代の情報技術
ISeC10周年記念シンポジウム
にいってきた!その内容をメモメモ
■情報基盤技術としての日本発セマンティック技術を目指す
・Making Big Data Smarter!
SEMANTIC TECHNOLOGY & BUSINESS
コンファレンス スローガン
セマンティックコンピューティングコンファレンス
・セマンティック・テクノロジー
表層的処理、計算を超えて
・セマンティック技術の現状
多くの領域で関心
部分的でアドホック
将来に向けて件子な共通基盤必要
自然言語は意味を表現、伝達するのに重要
意味を扱うセマンティック技術の中核
人間と共にコンピューターがあるレベルで意味を理解しあう
・Google セマンティックサーチ
Knowledge Graph
GoogleはFreeBaseという会社を2010年に買っている
・IBM ワトソン Jeopardyで勝った
Webからのマイニング
→目的思考:ほかに応用するには、別の知識
・ISeCのアプローチ
セマンティック計算の基盤として、人間とともに
コンピューターでも意味がわかる共通言語
CDL Concept Description Language)
・中粒度を単位とする構造化言語
1.単語の粒度をノードとして関係を結ぶ
UNL
CDL
2.談話ユニットをノード
構造化言語
図式言語:セマンティックオーサリング
直接的記述
・セマンティックWebあるいはLODとの違い
三つ組み構造であらわす:関係-応用領域ごとに違う
→オントロジーマッピングが難しい
ISeC:自然言語にリンク
→マッピングがいらない
・機械翻訳
トランスファー
ピボット:中間言語(ピボットランゲージ)を使う
→UNL→CDL
CWL
・W3CでCWL:活動中止してしまっている
→英語の国は、関心うすい
・CDL:44個の関係:十分か証明できないけど、経験上十分
・セマンティックロール(英語に依存)
・意味
表層に近いレベル
・町田健の共通言語論
言語構造基礎論 文の意味と構造
言語世界地図
・グローバル化時代における日本発情報基盤技術の重要性
クラウド、巨大データベース・・・アメリカ強い
英語国は感心少ないので日本貢献する可能性
・CDL
人手コーディング、編集
自動化:デペンデンシーアナライズ 87%
・半自動
WSD:デモ
・セマンティックサーチ
意味が近い部分グラフを出す
→RDBになおすと早い
■ISeC技術の構造
横井俊夫氏
ISeC技術のアプローチ
言葉からの知へのアプローチ
2つのアプローチあり
Xビッグデータ、マイニング
○言葉を作るというアプローチ
→合成的にアプローチ
「言葉を作る」というアプローチ
(1)明晰に書き表し、正確に読み取る
(2)効率よく検索でき、必要な情報へと効率的に変換
(3)翻訳
(4)マルチモーダルメディア
(5)処理・理解の仕組み
・要素技術の構造
人間側
知のコミュニケーションメディア
テキスト知の構造化技術
間テキスト知の構造化技術
機械側
知の処理理解プラットフォーム
事象・事物
事象間
行為
役割分担
知のコミュニケーションメディア
構造化言語
利子基地図
知の処理理解プラットフォーム
UNL
図式言語
プロセス型知識
それぞれ独自の技術
UNL
グローバルに知を共有化
知識処理のためのコンピューターへのインターフェース言語
→コンピューター用の言語。人は母語で話す
生成技術
構造化言語
情報の伝達構造(談話構造を含む)に基づいて構造化をデザインされた言語
構造化テキストを読むと通常の言葉に
図式言語
セマンティックWebのオントロジー技術
→セマンティックオーサリング
知識地図
共時的な関連図(マップ)と通時的な変遷図(シナリオ)がある
プロセス型知識
プロセス文書におけるプロセス知の理解処理を行うシステム環境を構成
■UNL 知を共有化するe国際共通技術
内田氏
知識創造:コンピューターのための言語
人間がやるのと同じことができる言語
機械翻訳より、多言語処理(機械翻訳も含まれる)
図、テーブル形式
UNL
1996年 国連大学
26の言語
2001 UNDL財団に開発を移管
UNL
人工言語:ハイパーノードをもつ意味ネットワーク
ノード:概念
アーク:概念間の関係
ノードは属性子で注釈される
構成
語彙
構文
意味
UNLではどのように情報を表現するのか
情報を客観と主観に分けて表現
客観的情報はUWとリレーションで表現
リレーション:42くらい
アトリビュート
時制など
UW:一番重要。概念を表す
フォーマルに言葉の意味を定義
あいまい性があるときは、上位概念や格関係を使用して概念を束縛
UNLオントロジー
UWシステム
意味的共起関係
UW定義:意味をUNLで記述→内容検索で推論
UNLエクスプローラー
Access Online www.undl.org/unlexp/
UNL IMS:テーブルの知識→同じ形で推論
デモ:UNLエクスプローラー
構造化言語
知を構造化する言葉の構造化技術
構造化言語とは
知の構造化技術の高度化
↓
言葉の構造化技術
↓
ヒトのために構造化をデザイン
→知のコミュニケーションメディア→構造化言語
↓
構造化はコンピューターのためにも役立つ
知の構造に密着させる
通常の言語
→先行する音声言語→線状化言語
↓
知の操作
→四次元と1次元の相互作用
↓
大きすぎる変換の距離
→不確定不安定不明瞭
→低機能で非効率
↓
距離をちじめる
↓知の構造に密着
対象分野ごとの専用メディア
↓
汎用メディア
→構造化言語
構造化すべき構造とは
言語における情報の表現機能
→言語化に関する汎用性
言語のもうひとつの機能→伝達機能
情報伝達機能の構造化
情報伝達構造を構造化する
情報伝達機能
質問応答構造:3つのもので構成
対象
問い
答え
2種類
事物ー事象間
事象ー事象間
参照構造
範囲構造
言語学の知見との対照
整合性と結束性
結束性表現
文章理解過程における予測
文の断続関係
断続関係表現
構造化言語の表記法(以下を具体的な図で表現)
質問応答構造
<対象>-<問い>-<答え>
ノード4種類
ブロック化
グループ化
トピックノード
ブレインノード
参照構造が導入された構造化テキスト
事象間関係を問う質問応答構造
情報伝達構造によって構造化されたテキスト
構造化テキストを読む
連体修飾形式に読む
複文形式に読む
連文形式に読む(文をきる)
線状化テキストの明晰性
(1)構造化テキストとして明晰
(2)線状化によって非明晰さが生じない
構造化テキストの伝達様式とテキスト例
(1)印象深さ重視
(2)正確さ重視
(3)厳格さ重視
英文構造化を和文構造化に翻訳
これからの展開
構造化言語として
(1)構造化クレーム(あらたなパテントマップ)への普及
(2)明晰日本語ライティングのためのマニュアル作成
ISeC技術として
(1)プラットフォーム技術との連携
・構造化UNL
(2)ライティング環境の整備
・構造化テキストのエディタ
■図式言語-セマンティックオーサリング-
橋田氏@産総研
セマンティックオーサリング
・オントロジーに基づくコンテンツ作成
・オントロジーで定義されたクラスと関係(属性)
のインスタンスとしてのノードとリンクからグラフを作る
グラフに基づく発想支援
マインドマップなど
グラフがいい
グラフはわかりやすい
論理構造がすぐわかる→加工が容易:要約
グラフは作りやすい
グラフは質が高い(和歌山大 八木下ら1998)
見落としが少ない
考えが深まる(推論連鎖長い)
談話グラフ
ノード
リンク:20から40個程度
→連結グラフにならないと腑に落ちない
共同セマンティックオーサリング
オントロジーに基づくグループウェア
グラフの共同編集
セマンティック
従来のサービスの比較
従来のメールやSNS
時間とともにながれていってしまう
ビッグデータの源泉
共同セマンティックオーサリング
半永久的
ビッグデータの生成を防止
assemblogue
共同セマンティックオーサリングのSNS
分散SNS
各利用者のコンテンツはPLRにより本人管理
PLRとともにアセンブローグ(株)が提供
→ユーザーが管理:大学などでもできる
PLR
パーソナルなデータをほかの事業者に管理させる
Dropboxなど
集められないビッグデータ
個人の全データを集められるのは本人だけ
Googleでさえ個人の医療データを集められない
個人データを集中管理するのではなく、必要なデータを
随時アクセス可能にしておく
各個人が本人のデータをPRLで管理
プライバシーのリスクと通信の秘密に関する懸念
個人情報の漏洩
検閲や言論統制:アメリカでも
グラフを見せないセマンティックオーサリング(SA)
意味的スペルチェッカー
テキストの意味構造
木構造テキスト:単文または名詞句
ヘルスケアデータ連携
地域の医療機関同士のデータ連携:現在7000億円!
オントロジーに基づくデータ連携
技術的課題
・照応、共参照の扱い
・提示(プレゼン)
・ビジネス・サービスのモデル
■知識地図 知のダイナミズムを捕らえるマップ化・シナリオ化技術
・FGCS出発点の問題意識
・1990年にいたるシナリオ
第五世代コンピューター
日本:ハードウェアとDRAM
電電公社民営化→配当が政府へ→基盤センター
・ITサービス、ビジネスモデルとアーキテクチャ
この絵はシナリオ:時間軸がある
・抽象から具体はない
テレコムとITプラットフォーム
マップ形式
ICTサービス・家電、プラットフォーム戦略地図
みんな、図の感じが違う
ITシナリオ俯瞰図
・テキストとして記述される事柄概念を地形図メタファー
に基づいて地図として構造化し、地図の変遷を
タイムチャート上にシナリオ状に構造化したのが知識地図
・知識地図、シナリオ図
・知識地図のよる戦略企画の全体像
社会シナリオ
技術シナリオ
自社固有の条件→近未来(未来の断面図)
業界シナリオ
隣接業界シナリオ
↓
知識地図(スナップショット、断面図)
・書き方について
すごい勢いでいったので省略
■プロセス型知識の抽出と活用
言語知を抽出する技術
モデルができてもシステムできない
→知識を集める必要
・プロセス型知識
規格規則
論理
政策的戦略的手続き
プロセス管理
プロセス型知識の特徴
・プロセス知識の特徴
断片的知識集合
矛盾の内包
汎用性とあいまい性
適用可能性判断の困難性
・問題解決最適プロセス
目的別動的合成
環境従属性
不完全な改善策と妥協
プロセス知識の抽出・活用技術
プロセス文書中の文のタイプ
概念定義
行為、行為者
対照、状態
道具、方法
時間、場所
関係
状態遷移
プロセス知識記述モデル
ハイパーグラフモデル
行為節点
状態節点
状態遷移リンク
トリガーリンク
用語リング
関係リング
ハイパー関係
例:IAEA
用語リンクを消すとわかりやすい
節点・リンクの特徴
(細かいので省略)
フレーム辞書
解析するのにつかう
フレーム型:どういう格助詞がつながるかを書いてある
用語辞書
従来の構文解析意味解釈との違い
動詞と行為動詞と状態動詞に分解
さまざまな名詞句に潜む動詞など→明示的に
プロセス知識ベースの活用
・知識発見/プロセスの視覚的支援
・一般知識とその事例の収集管理
事業の失敗・成功例とイノベーション戦略
・戦略・対策の不完全性、あいまい性、矛盾の発見
・作文支援
・プロセス型知識以外にも適用できる?
知識の最小単位とその関連
単文では捕らえられない
オブジェクトでは広すぎる
このあと討論(省略)
言葉を作り、知を創る
グローバル化時代とビッグデータ化時代の情報技術
ISeC10周年記念シンポジウム
にいってきた!その内容をメモメモ
■情報基盤技術としての日本発セマンティック技術を目指す
・Making Big Data Smarter!
SEMANTIC TECHNOLOGY & BUSINESS
コンファレンス スローガン
セマンティックコンピューティングコンファレンス
・セマンティック・テクノロジー
表層的処理、計算を超えて
・セマンティック技術の現状
多くの領域で関心
部分的でアドホック
将来に向けて件子な共通基盤必要
自然言語は意味を表現、伝達するのに重要
意味を扱うセマンティック技術の中核
人間と共にコンピューターがあるレベルで意味を理解しあう
・Google セマンティックサーチ
Knowledge Graph
GoogleはFreeBaseという会社を2010年に買っている
・IBM ワトソン Jeopardyで勝った
Webからのマイニング
→目的思考:ほかに応用するには、別の知識
・ISeCのアプローチ
セマンティック計算の基盤として、人間とともに
コンピューターでも意味がわかる共通言語
CDL Concept Description Language)
・中粒度を単位とする構造化言語
1.単語の粒度をノードとして関係を結ぶ
UNL
CDL
2.談話ユニットをノード
構造化言語
図式言語:セマンティックオーサリング
直接的記述
・セマンティックWebあるいはLODとの違い
三つ組み構造であらわす:関係-応用領域ごとに違う
→オントロジーマッピングが難しい
ISeC:自然言語にリンク
→マッピングがいらない
・機械翻訳
トランスファー
ピボット:中間言語(ピボットランゲージ)を使う
→UNL→CDL
CWL
・W3CでCWL:活動中止してしまっている
→英語の国は、関心うすい
・CDL:44個の関係:十分か証明できないけど、経験上十分
・セマンティックロール(英語に依存)
・意味
表層に近いレベル
・町田健の共通言語論
言語構造基礎論 文の意味と構造
言語世界地図
・グローバル化時代における日本発情報基盤技術の重要性
クラウド、巨大データベース・・・アメリカ強い
英語国は感心少ないので日本貢献する可能性
・CDL
人手コーディング、編集
自動化:デペンデンシーアナライズ 87%
・半自動
WSD:デモ
・セマンティックサーチ
意味が近い部分グラフを出す
→RDBになおすと早い
■ISeC技術の構造
横井俊夫氏
ISeC技術のアプローチ
言葉からの知へのアプローチ
2つのアプローチあり
Xビッグデータ、マイニング
○言葉を作るというアプローチ
→合成的にアプローチ
「言葉を作る」というアプローチ
(1)明晰に書き表し、正確に読み取る
(2)効率よく検索でき、必要な情報へと効率的に変換
(3)翻訳
(4)マルチモーダルメディア
(5)処理・理解の仕組み
・要素技術の構造
人間側
知のコミュニケーションメディア
テキスト知の構造化技術
間テキスト知の構造化技術
機械側
知の処理理解プラットフォーム
事象・事物
事象間
行為
役割分担
知のコミュニケーションメディア
構造化言語
利子基地図
知の処理理解プラットフォーム
UNL
図式言語
プロセス型知識
それぞれ独自の技術
UNL
グローバルに知を共有化
知識処理のためのコンピューターへのインターフェース言語
→コンピューター用の言語。人は母語で話す
生成技術
構造化言語
情報の伝達構造(談話構造を含む)に基づいて構造化をデザインされた言語
構造化テキストを読むと通常の言葉に
図式言語
セマンティックWebのオントロジー技術
→セマンティックオーサリング
知識地図
共時的な関連図(マップ)と通時的な変遷図(シナリオ)がある
プロセス型知識
プロセス文書におけるプロセス知の理解処理を行うシステム環境を構成
■UNL 知を共有化するe国際共通技術
内田氏
知識創造:コンピューターのための言語
人間がやるのと同じことができる言語
機械翻訳より、多言語処理(機械翻訳も含まれる)
図、テーブル形式
UNL
1996年 国連大学
26の言語
2001 UNDL財団に開発を移管
UNL
人工言語:ハイパーノードをもつ意味ネットワーク
ノード:概念
アーク:概念間の関係
ノードは属性子で注釈される
構成
語彙
構文
意味
UNLではどのように情報を表現するのか
情報を客観と主観に分けて表現
客観的情報はUWとリレーションで表現
リレーション:42くらい
アトリビュート
時制など
UW:一番重要。概念を表す
フォーマルに言葉の意味を定義
あいまい性があるときは、上位概念や格関係を使用して概念を束縛
UNLオントロジー
UWシステム
意味的共起関係
UW定義:意味をUNLで記述→内容検索で推論
UNLエクスプローラー
Access Online www.undl.org/unlexp/
UNL IMS:テーブルの知識→同じ形で推論
デモ:UNLエクスプローラー
構造化言語
知を構造化する言葉の構造化技術
構造化言語とは
知の構造化技術の高度化
↓
言葉の構造化技術
↓
ヒトのために構造化をデザイン
→知のコミュニケーションメディア→構造化言語
↓
構造化はコンピューターのためにも役立つ
知の構造に密着させる
通常の言語
→先行する音声言語→線状化言語
↓
知の操作
→四次元と1次元の相互作用
↓
大きすぎる変換の距離
→不確定不安定不明瞭
→低機能で非効率
↓
距離をちじめる
↓知の構造に密着
対象分野ごとの専用メディア
↓
汎用メディア
→構造化言語
構造化すべき構造とは
言語における情報の表現機能
→言語化に関する汎用性
言語のもうひとつの機能→伝達機能
情報伝達機能の構造化
情報伝達構造を構造化する
情報伝達機能
質問応答構造:3つのもので構成
対象
問い
答え
2種類
事物ー事象間
事象ー事象間
参照構造
範囲構造
言語学の知見との対照
整合性と結束性
結束性表現
文章理解過程における予測
文の断続関係
断続関係表現
構造化言語の表記法(以下を具体的な図で表現)
質問応答構造
<対象>-<問い>-<答え>
ノード4種類
ブロック化
グループ化
トピックノード
ブレインノード
参照構造が導入された構造化テキスト
事象間関係を問う質問応答構造
情報伝達構造によって構造化されたテキスト
構造化テキストを読む
連体修飾形式に読む
複文形式に読む
連文形式に読む(文をきる)
線状化テキストの明晰性
(1)構造化テキストとして明晰
(2)線状化によって非明晰さが生じない
構造化テキストの伝達様式とテキスト例
(1)印象深さ重視
(2)正確さ重視
(3)厳格さ重視
英文構造化を和文構造化に翻訳
これからの展開
構造化言語として
(1)構造化クレーム(あらたなパテントマップ)への普及
(2)明晰日本語ライティングのためのマニュアル作成
ISeC技術として
(1)プラットフォーム技術との連携
・構造化UNL
(2)ライティング環境の整備
・構造化テキストのエディタ
■図式言語-セマンティックオーサリング-
橋田氏@産総研
セマンティックオーサリング
・オントロジーに基づくコンテンツ作成
・オントロジーで定義されたクラスと関係(属性)
のインスタンスとしてのノードとリンクからグラフを作る
グラフに基づく発想支援
マインドマップなど
グラフがいい
グラフはわかりやすい
論理構造がすぐわかる→加工が容易:要約
グラフは作りやすい
グラフは質が高い(和歌山大 八木下ら1998)
見落としが少ない
考えが深まる(推論連鎖長い)
談話グラフ
ノード
リンク:20から40個程度
→連結グラフにならないと腑に落ちない
共同セマンティックオーサリング
オントロジーに基づくグループウェア
グラフの共同編集
セマンティック
従来のサービスの比較
従来のメールやSNS
時間とともにながれていってしまう
ビッグデータの源泉
共同セマンティックオーサリング
半永久的
ビッグデータの生成を防止
assemblogue
共同セマンティックオーサリングのSNS
分散SNS
各利用者のコンテンツはPLRにより本人管理
PLRとともにアセンブローグ(株)が提供
→ユーザーが管理:大学などでもできる
PLR
パーソナルなデータをほかの事業者に管理させる
Dropboxなど
集められないビッグデータ
個人の全データを集められるのは本人だけ
Googleでさえ個人の医療データを集められない
個人データを集中管理するのではなく、必要なデータを
随時アクセス可能にしておく
各個人が本人のデータをPRLで管理
プライバシーのリスクと通信の秘密に関する懸念
個人情報の漏洩
検閲や言論統制:アメリカでも
グラフを見せないセマンティックオーサリング(SA)
意味的スペルチェッカー
テキストの意味構造
木構造テキスト:単文または名詞句
ヘルスケアデータ連携
地域の医療機関同士のデータ連携:現在7000億円!
オントロジーに基づくデータ連携
技術的課題
・照応、共参照の扱い
・提示(プレゼン)
・ビジネス・サービスのモデル
■知識地図 知のダイナミズムを捕らえるマップ化・シナリオ化技術
・FGCS出発点の問題意識
・1990年にいたるシナリオ
第五世代コンピューター
日本:ハードウェアとDRAM
電電公社民営化→配当が政府へ→基盤センター
・ITサービス、ビジネスモデルとアーキテクチャ
この絵はシナリオ:時間軸がある
・抽象から具体はない
テレコムとITプラットフォーム
マップ形式
ICTサービス・家電、プラットフォーム戦略地図
みんな、図の感じが違う
ITシナリオ俯瞰図
・テキストとして記述される事柄概念を地形図メタファー
に基づいて地図として構造化し、地図の変遷を
タイムチャート上にシナリオ状に構造化したのが知識地図
・知識地図、シナリオ図
・知識地図のよる戦略企画の全体像
社会シナリオ
技術シナリオ
自社固有の条件→近未来(未来の断面図)
業界シナリオ
隣接業界シナリオ
↓
知識地図(スナップショット、断面図)
・書き方について
すごい勢いでいったので省略
■プロセス型知識の抽出と活用
言語知を抽出する技術
モデルができてもシステムできない
→知識を集める必要
・プロセス型知識
規格規則
論理
政策的戦略的手続き
プロセス管理
プロセス型知識の特徴
・プロセス知識の特徴
断片的知識集合
矛盾の内包
汎用性とあいまい性
適用可能性判断の困難性
・問題解決最適プロセス
目的別動的合成
環境従属性
不完全な改善策と妥協
プロセス知識の抽出・活用技術
プロセス文書中の文のタイプ
概念定義
行為、行為者
対照、状態
道具、方法
時間、場所
関係
状態遷移
プロセス知識記述モデル
ハイパーグラフモデル
行為節点
状態節点
状態遷移リンク
トリガーリンク
用語リング
関係リング
ハイパー関係
例:IAEA
用語リンクを消すとわかりやすい
節点・リンクの特徴
(細かいので省略)
フレーム辞書
解析するのにつかう
フレーム型:どういう格助詞がつながるかを書いてある
用語辞書
従来の構文解析意味解釈との違い
動詞と行為動詞と状態動詞に分解
さまざまな名詞句に潜む動詞など→明示的に
プロセス知識ベースの活用
・知識発見/プロセスの視覚的支援
・一般知識とその事例の収集管理
事業の失敗・成功例とイノベーション戦略
・戦略・対策の不完全性、あいまい性、矛盾の発見
・作文支援
・プロセス型知識以外にも適用できる?
知識の最小単位とその関連
単文では捕らえられない
オブジェクトでは広すぎる
このあと討論(省略)