英語の学習

2024-04-09 10:41:00 | 日記

error by radix conversion

基数変換による誤差

(・レイディックス=根源、基)

(コン・ヴァージョン、コン・ヴァーション=変えることを、転換、換算、転向、改宗、宗旨変え)

10進数を内部表現の2進数に変換されたとき制限されたbit数に収まり切れない場合の誤差で、例えば、10進数0.2を入力すると2進変換されて0.00110011001100…となる。

これを小数部第1位に“1”が来るように正規化すると0.11001100110011…× 2の−2乗となる。

bit数には制限があり、仮数部を例えば、8bitとすると0.11001100 × 2のー2乗となる。

これは、(1/2 +1/4 +1/32 +1/64)× 1/4 = 0.19921875となり、10進数0.2は、2進数では正確に表現できないことになる。

誤差は、0.2 − 0.19921875 = 0.000078125。

多くのコンピュータでは整数部第1位に“1“が来るように正規化しているが、bit数に制限がある事は同様で、誤差が生じる。

正規化とは

（セイキカ,ノーマライズ,カノニカライズ,normalize,canonicalize,canonicalization,）

正規化とは、データの冗長性をなくしたり、混在している等価な表現をある統一形式に整形したりすることによって、同じ形式でデータを扱えるようにすることである。

英語の「normalize」と「canonicalize」（canonicalization）両方の訳語として正規化という表現が用いられており、リレーショナルデータベース（RDB）やオーディオファイル、テキストファイルなど、様々な分野で正規化が行われている。リレーショナルデータベースにおける正規化とは、リレーションを一定の形式に準拠させることによってデータを構築することである。正規化を行うことによって、データの冗長性を省き、メンテナンス性を高めることができる。リレーショナルデータベースでは正規化の種類や程度によって分けられた第一正規形、第二正規形、第三正規形～第五正規形の形式が知られている。オーディオの分野における正規化とは、オーディオファイルの音量を一定レベルで補正することを指す。様々な音源から得た音量の異なるオーディオファイルを、同じ音量レベルに統一したり、あるいは音質を劣化させることなく音量レベルを最大化したりすることができる。また、unicodeやXMLといったテキストファイルにおける正規化は、使用上許容されている表記のゆれをある一定の表記に統一することを指す。特にXMLでは、電子署名などで暗号化を行う際に表記ゆれ（一例として、要素や属性の順番などのゆれ）によって異なる内容に変換されてしまい、照会が失敗する可能性がある。そのためXMLでは「Canonical XML」と呼ばれる統一的記法が策定され、W3Cによって勧告されている。

一般的に正規化（Normalization）とは、さまざまな大きさや単位の情報／データを、比べやすく考えやすくするために、共通の基準やルールに合わせること、つまりデータを「普通の（Normal）」状態にする作業のことを指す。例えば走った距離を比較する際に、メートル（m）単位とキロメートル（km）単位が混在していると理解しづらいため、共通の単位に合わせる（例えば全てをkmに統一する）ことで情報が扱いやすくなる。

「正規化」や「標準化」という用語はさまざまな分野で用いられており、各分野で意味も異なる場合がある。例えばデータベース設計の「正規化」は、同じテーブル内のデータの重複をなくすなどの目的で、データを複数のテーブルに分割したりして整理することを指す。以下では「数学／統計学／機械学習における正規化」について説明している。

　数学／統計学／機械学習における正規化（Normalization）とは、データのスケール（単位）を扱いやすいものに整えることである。正規化にはさまざまな方法が考えられるが、主要な方法に、

最小値0～最大値1にスケーリングする「Min-Max normalization」
平均0、分散1にスケーリングする「Z-score normalization」

の2つがある。

　通常、単に「正規化」と言った場合は、Min-Max normalizationを指す。この場合の正規化とは、データの最小値からの偏差（＝最小値を中心0にした場合の値）をデータ範囲（＝最大値－最小値）で割ることである。これにより、データの最小値は0、最大値は1に変換される。

　Z-score normalizationは、標準化（Standardization）と呼ばれるのが一般的である。標準化とは、データの平均値からの偏差（＝平均値を中心0にした場合の値、中心化した値）を標準偏差で割ることである。これにより、データの平均は0、分散（標準偏差）は1に変換される（※分散1の平方根（√）はやはり1なので、標準偏差も1となる）。ちなみに、標準化を応用したのが「偏差値」である

機械学習における正規化や標準化は、主に機械学習モデルに入力する前のデータに対して行われる。例えばデータの列（特徴量）によっては、その範囲が0～1の場合もあれば、－50～＋5000の場合もあり得るが、このように列によって数値の範囲が違いすぎると機械学習がうまくできなかったり、学習により多くの時間がかかったりする可能性がある。よって多くの場合では、データの前処理として正規化／標準化を行った方がよい。

正規化（せいきか、英語: normalization）とは、データなどを一定の規則に基づいて変形し、利用しやすくすること。言い換えると、正規形でないものを正規形（比較・演算などの操作のために望ましい性質を持った一定の形）に変形することをいう。多くの場合、規格化と訳しても同義である。

用語「正規化」は、非常に多くの分野で使われていて、分野によって意味も大きく異なるので、頻度が高い分野についてそれぞれ個別に説明する。

ベクトル[編集]

ノルムが定義されたベクトル空間のベクトル $v$ に対し、それにノルムの逆数 $‖ v ‖ -1$ を掛けてノルムが 1 であるベクトルにすることを、正規化という。

なお、数学的なベクトルでなく、情報科学分野で数列を意味するベクトルの正規化は、この意味での正規化ではなく、後で述べる数量の正規化になる。多変量データをベクトル空間に表した場合などはどちらの意味にもとれ、結果が定数倍異なるので、注意が必要である。

波動関数[編集]

詳細は「規格化」を参照

量子力学で現れる波動関数 Ψ は二乗可積分関数の空間のベクトルとみなすことができる。この意味でベクトル Ψ は正規化されることが多い。物理的には、この操作は全空間での存在確率の合計を 1 にすることと解釈される。

代数多様体の正規化[編集]

「代数多様体の正規化（英語版）」を参照

ネーターの正規化定理[編集]

「ネーターの正規化定理」を参照

数量[編集]

数量を代表値で割るなどして無次元量化し、互いに比較できるようにすることを、正規化という。

正規化した結果は単位系によらない。したがって、正規化することによって、たとえば身長と体重など、次元が異なりそのままでは比較できない数量が比較できる。次元が同じでも、夏と冬の1日の気温変化のように、条件が異なるデータも正規化によって比較しやすくなる。

正規化は特に多変量解析の前処理として行われ、この用途の正規化を特徴軸の正規化という。

正規化の方法には様々なものがあり、次の2つが基本的である。

二乗平均平方根が 1 になるよう、線形変換（比例変換）をする。
平均が 0、分散が 1 になるよう、アフィン変換をする。

どちらが適しているかは、どのようなデータをどのような解析のために正規化するかによる。多変量解析には2.が用いられる。

用途によっては、同じように比例変換やアフィン変換をするのでも、最大値が 1、最小値が 0（または −1）となるように正規化をすることもある。また、べき乗して歪度を 0 にする、あらかじめ与えられた分布に一致させるなど、もっと強い正規化が用いられることもある。

浮動小数点数[編集]

「非正規化数」も参照

浮動小数点数には、「正規化数」と「非正規化数」という概念がある。浮動小数点数において（ゼロを除く）正規化数は、仮数部が必ず1以上基数（通常は2）未満である。

« 英語の学習 | トップ | 英語の学習 »

このブログの人気記事

最新の画像［もっと見る］

英語の学習 13時間前
英語の学習 1日前
英語の学習 2日前
英語の学習 4日前
英語の学習 4日前
英語の学習 4日前
英語の学習 5日前
英語の学習 6日前
英語の学習 1週間前
英語の学習 1週間前

コメントを投稿

「日記」カテゴリの最新記事

goo blog お知らせ

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#GW」をチェック