goo blog サービス終了のお知らせ 

ぴかりんの頭の中味

主に食べ歩きの記録。北海道室蘭市在住。

【論】Yang,2001,Normalization for cDNA microarray ~

2007年03月16日 22時22分29秒 | 論文記録
Yee Hwa Yang, Sandrine Dudoit, Percy Luu, David M. Lin, Vivian Peng, John Ngai and Terence P. Speed
Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation
Nucleic Acids Research,2002, Vol.30, No.4 e15
[PDF][Web Site]

・マイクロアレイデータの正規化法の提案。サンプル内だけでなく、サンプル間や実験間のデータのばらつきも考慮に入れた、より普遍的な正規化法について。
・データ
A: apolopoprotein AI (apo AI) experiment, マウス, 16サンプル, 6384遺伝子 [Callow]
B: olfactory bulb experiment, マウス, 18000遺伝子 [RIKEN]
・比較した(サンプル内(within-slide))正規化法
1.Global median normalization
2.Intensity-dependent location normalization, "lowess"
3.Within-print tip group location normalization
4.Within-print tip group scale normalization

・問題点「However, such global normalization approaches are not adequate in situations where dye biases can depend on spot overall intensity and/or spatial location within the array.
・方法「In this article we propose a composite normalization procedure, based on robust local regression, to accommodate different types of dye biases and the use of control sequences spotted on the array.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Ng,1998,On feature selection: Learning with ex~

2007年03月13日 20時53分12秒 | 論文記録
Andrew Y. Ng
On Feature Selection: Learning with Exponentially many Irrelevant Features as Training Examples
Proc. 15th International Conf. on Machine Learning (1998)
[PDF][Web Site]

・マイクロアレイデータによる遺伝子抽出について、Wrapper modelに基づいたアルゴリズムの性能を評価する。設定をいろいろ変えた人工データを使って、識別率を出す。
・比較した方法:1.No feature selection, 2.STANDARD-WRAP, 3.ORDERED-FS

・問題点「the main source of error in wrapper model feature selection is from "overfitting" hold-out or cross-validation data.
・「In view of these significant empirical successes, one central question is: What theoretical justification is there for feature selection?
・「another central question is: How does the performance of feature selection scale with the number of irrelevant features?
・Filter modelとは「The filter model relies on general charasteristics of the training data to select some feature subset, doing so without reference to the learning algorithm.
・Wrapper modelとは「In the wrapper model, one generates sets of candidate features, runs them through the learning algorithm, and uses the performance of the resulting hypothesis to evaluate the feature set.
・データ作成「Training examples were corrupted at a noise rate η = 0.3 and all input features were i.i.d. zero-mean unit variable normally distributed random variables.

・理論的な話の部分がサッパリ通じない。
~~~~~~~
・そんなこんなで論文記録100本達成。特に目立った進歩も進展もなく。ここまで来る前には決着ついてると思ってたけど。。。200本までには決着ついていますように。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Liu,2005,An Entropy-based gene selection metho~

2007年03月08日 22時13分42秒 | 論文記録
Xiaoxing Liu, Arun Krishnan and Adrian Mondry
An Entropy-based gene selection method for cancer classification using microarray data
BMC Bioinformatics 2005, 6:76
[PDF][Web Site]

・マイクロアレイデータによるクラス分け(病理診断)法の提案。各遺伝子の相関度や冗長度をNormal mutual informationにより評価し遺伝子抽出。Leave-one-outによる識別率に基づきさらに遺伝子を絞り込む。
・アルゴリズムの検証用データ:ヒト
1.SRBCT data : 88サンプル(63 training / 25 test), 2308遺伝子 [Khan]
2.Breast cancer data : 49サンプル, 7129遺伝子 [West]
3.Colon cancer data : 62サンプル(40 tumor / 22 normal), 2000遺伝子 [Alon]
・他の方法との比較:Ding and Pengの結果と比較。Colon cancer、Leukemia、NCIの三種のデータを使用。

・「It is interesting to note that the classification accuracy is not affected by using a much reduced feature set.

・"Entropy"を使うことのウマみがよくわからず(なぜEntropyを使うと識別率が上がるのか?)。単にEntropyの数式を使ったらよい結果が出たというだけの話?
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Bar-Joseph,2004,Analyzing time series gene exp~

2007年03月06日 17時33分36秒 | 論文記録
Ziv Bar-Joseph
Analyzing time series gene expression data
Bioinformatics 2004 20(16):2493-2503
[PDF][Web Site]

・時系列マイクロアレイデータの解析について、四つのレベルに分けて(当時の)研究の状況を解説。
1.Experimental design
2.Data analysis level
3.Pattern recognition level
4.Networks
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Xing,2001,CLIFF: clustering of high-demensiona~

2007年03月02日 19時20分31秒 | 論文記録
Eric P.Xing and Richard M.Karp
CLIFF: clustering of high-dimensional microarray data via iterative feature filtering using normalized cuts
Bioinformatics Vol. 17 no. 90001 2001 Pages S306-S315
[PDF][Web Site]

・マイクロアレイデータのクラス分け法の提案。
・データ:白血病, 72サンプル(47 ALL/ 25 AML), 7130遺伝子 [Golub]
・比較したクラス分け法
1. Approximate NCut without feature selection
2. K-means (for K=2) without feature selection
3. CLIFF (Approximate NCut with iterative feature selection and partitioning)
4. K-means (for K=2) with feature selection

・問題点「This clustering problem is difficult for several reasons, in particular the sparsity of the data, the high demensionality of the feature (gene) space, and the fact that many features are irrelevant or redundant.
・CLIFFとは「In this paper, we propose a novel algorithm, CLIFF (Clustering via Iterative Feature Filtering), which combines a clustering process and a feature selection process in a bootstrap-like iterative way, where each process uses the output of the other as an approximate input, and the outputs of the two processes improve hand-in-hand over the course of the iterations.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Simon,2003,Pitfalls in the use of DNA microarr~

2007年02月27日 19時58分27秒 | 論文記録
Richard Simon, Michael D. Radmacher, Kevin Dobbin, Lisa M. McShane
Pitfalls in the Use of DNA Microarray Data for Diagnostic and Prognostic Classification
Journal of the National Cancer Institute, Vol.95, No.1, 14-18, January 1, 2003
[PDF]

・マイクロアレイデータを使って病気診断(クラス分け)を行う際の注意点についてまとめたもの。
・実験:人工の擬似データを使って、Cross-validationの設定と、識別率の関係をみた
・データ:20サンプル(10:10)、6000遺伝子、乱数を発生

・問題点「Although cluster analysis is approproate for class discovery, it is often not effective for class comparison or class prediction.
・問題点「Cluster analysis also does not provide statistically valid quantitative information about which genes are differentially expressed between classes.
・「One major limitation of supervised methods is overfitting the predictor. Overfitting means that the number of parameters of the model is too large relative to the number of cases or specimens available.
・実験「We performed a simulation to examine the bias in estimated error rates for a class prediction study with various levels of cross-validation
・「Simple methods such as diagonal linear discriminant analysis and nearest neighbor classification (18), the weighted voting method (1), and the compound covariate predictor (2,5) have been very effective in cancer studies with small numbers of cases.
・「We recommend that supervised methods rather than cluster analyses be used for class prediction and class comparison studies.
・「Finally, we urge investigators not to make strong claims about the value of new prediction algorithms without comparing them to more standard prediction methods.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Konishi,2004,Three-parameter lognormal distrib~

2007年02月24日 21時45分23秒 | 論文記録
Tomokazu Konishi
Three-parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment
BMC Bioinformatics 2004, 5:5
[PDF][Web Site]

・マイクロアレイデータの正規化法の提案。Three-parameter lognormal distribution model を使用。
・データ:E.coli, B.subtilis, S.cerevisiae, C.elegans, H.sapiens, A.thaliana, ・・・などなど
・比較法:Local background method, LOWESS method, globalization, vaiance stabilization method, ・・・などなど

・現況「In many cases, a lognormal distribution would be the optimal model for microarray data, and indeed this distribution has been reported for some data sets [2,14,15]. Additionally, Hoyle et al. [16] have found that microarray data are in agreement with both Benford's law and Zipf's law, and suggested the lognormal model and power law model to be good candidates for assumptions concerning the distribution. However, the real data distributions sometimes do not fit closely to these models [9,16].
・概要「In this article, a model-based normalization method that finds the background by calculation is introduced.

・結局、マイクロアレイの画像データから発現量を数値化する際、背景部分も考慮に入れ、スポット内の強度分布(確率密度関数)(?)を決めるために三つのパラメータを使うことによって、数値化の精度を上げました、って話?? なんだかよくわからん。
コメント (1)
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Armstrong,2001,MLL translocations specify a di~

2007年02月21日 20時13分55秒 | 論文記録
Scott A. Armstrong, Jane E. Staunton, Lewis B. Silverman, Rob Pieters, Monique L. den Boer, Mark D. Minden, Stephen E. Sallan, Eric S. Lander, Todd R. Golub & Stanley J. Korsmeyer
MLL translocations specify a distinct gene expression profile that distinguishes a unique leukemia
Nature Genetics 30, 41-47 (2001)
[PDF][Web Site]

・遺伝子発現プロファイルによる白血病の診断。ALL、MML、AMLの三種。
・データ:白血病、57サンプル [20 ALL, 17 MLL, 20 AML]、約12600遺伝子
・遺伝子ランキング法:Signal-to-noise statistic → (μ0 - μ1)/(σ0 + σ1) μ:median, σ:SD
・クラス分け法(Class predictor):k-nearest-neighbors

・「To our knowledge, this is the first whole-genome profiling study to show that a chromosomal translocation can specify a unique gene expression program.

・白血病の細かい分類に関する議論についていけない。生物学・医学寄りの内容。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Khan,2001,Classification and diagnostic predic~

2007年02月17日 16時42分47秒 | 論文記録
Javed Khan, Jun S. Wei, Markus Ringnér, Lao H. Saal, Marc Ladanyi, Frank Westermann, Frank Berthold, Manfred Schwab, Cristina R. Antonescu, Carsten Peterson & Paul S. Meltzer
Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks
Nature Medicine 7, 673-679(2001)
[PDF][Web Site]

・ガンの診断へのAritificial neural networks (ANNs)の応用。
・データ:SRBCTs (small, round blue-cell tumors), 6567 genes, 88 samples (63 training + 25 test), 4クラス(EWS,RMS,NB,BL)に分類される
・ランキング上位96遺伝子のときに、クラス分けの結果は最適(エラー率0)になった。

・問題点「However, despite the many statistical techniques to analyse gene-expression data, none so far has been rigorously tested for their ability to accurately distinguish cancers belonging to several diagnostic categories.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Xing,2001,Feature selection for high-demensio~

2007年02月14日 20時11分28秒 | 論文記録
Eric P. Xing, Michael I. Jordan, Richard M. Karp
Feature selection for high-dimensional genomic microarray data
Proceedings of the Eighteenth International Conference on Machine Learning, (ICML2001).
[PDF][Web Site]

・遺伝子抽出法の提案
・データ:ヒト, 白血病(ALL/AML),72サンプル, 7130遺伝子 [Golub.1999]
・遺伝子抽出法:Markov Blanket filter [Koller and Sahami,1996]を改良
・クラス識別法:1.Gaussian classifier, 2.Logistic classifier, 3.Nearest neighbor classifier

・抽出法「Our approach is a hybrid of filter and wrapper approaches to feature selection.
・「Wrapper algorithms can perform better than filter algorithms, but they can require orders of magnitude more computation time.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする