
Tomokazu Konishi
Three-parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment
BMC Bioinformatics 2004, 5:5
[PDF][Web Site]
・マイクロアレイデータの正規化法の提案。Three-parameter lognormal distribution model を使用。
・データ:E.coli, B.subtilis, S.cerevisiae, C.elegans, H.sapiens, A.thaliana, ・・・などなど
・比較法:Local background method, LOWESS method, globalization, vaiance stabilization method, ・・・などなど
・現況「In many cases, a lognormal distribution would be the optimal model for microarray data, and indeed this distribution has been reported for some data sets [2,14,15]. Additionally, Hoyle et al. [16] have found that microarray data are in agreement with both Benford's law and Zipf's law, and suggested the lognormal model and power law model to be good candidates for assumptions concerning the distribution. However, the real data distributions sometimes do not fit closely to these models [9,16].」
・概要「In this article, a model-based normalization method that finds the background by calculation is introduced.」
・結局、マイクロアレイの画像データから発現量を数値化する際、背景部分も考慮に入れ、スポット内の強度分布(確率密度関数)(?)を決めるために三つのパラメータを使うことによって、数値化の精度を上げました、って話?? なんだかよくわからん。
Three-parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment
BMC Bioinformatics 2004, 5:5
[PDF][Web Site]
・マイクロアレイデータの正規化法の提案。Three-parameter lognormal distribution model を使用。
・データ:E.coli, B.subtilis, S.cerevisiae, C.elegans, H.sapiens, A.thaliana, ・・・などなど
・比較法:Local background method, LOWESS method, globalization, vaiance stabilization method, ・・・などなど
・現況「In many cases, a lognormal distribution would be the optimal model for microarray data, and indeed this distribution has been reported for some data sets [2,14,15]. Additionally, Hoyle et al. [16] have found that microarray data are in agreement with both Benford's law and Zipf's law, and suggested the lognormal model and power law model to be good candidates for assumptions concerning the distribution. However, the real data distributions sometimes do not fit closely to these models [9,16].」
・概要「In this article, a model-based normalization method that finds the background by calculation is introduced.」
・結局、マイクロアレイの画像データから発現量を数値化する際、背景部分も考慮に入れ、スポット内の強度分布(確率密度関数)(?)を決めるために三つのパラメータを使うことによって、数値化の精度を上げました、って話?? なんだかよくわからん。
これは、チップごとに一定の値を引くことで、データを対数正規分布に還元できるという話。その値がひとつのパラメータ、他の二つは自動的に求まる。
既知の分布様式に還元できれば様々なパラメトリック統計の手法が使えて有利。なんでこの分布になるのかはまた別の論文に。