goo blog サービス終了のお知らせ 

ぴかりんの頭の中味

主に食べ歩きの記録。北海道室蘭市在住。

【論】Alter,2000,Singular value decomposition for ~

2006年07月06日 19時00分04秒 | 論文記録
Orly Alter, Patrick O. Brown, and David Botstein
Singular value decomposition for genome-wide expression data processing and modeling
PNAS, August 29, 2000, vol. 97, no.18, 10101-10106
[PDFダウンロード][Webサイト]

・SVD (singular value decomposition)のマイクロアレイデータ解析への応用。
・データ:酵母[Spellman]
・データ解析
1.Elutriation-Synchronized Cell Cycle
2.αFactor-Synchronized Cell Cycle and CLB2 and CLN3 Overactivations

・SVDとは「SVD is a linear transformation of the expression data from the genes × arrays space to the reduced "eigengenes" × "eigenarrays" space.

・主成分分析のように次元を減らして見る手法の一つ。
・遺伝子の描く模様(図)が美しい。
・SVDの計算法がわからな~い。
http://www.neurosci.aist.go.jp/~akaho/ibis/learningtheory/node25.html
日本語でもワカラン・・・orz
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Frigyesi,2006,Independent component analysis ~

2006年07月03日 18時00分40秒 | 論文記録
Attila Frigyesi, Srinivas Veerla, David Lindgren, Mattias Hoglund
Independent component analysis reveals new and biologically significant structures in micro array data.
BMC Bioinformatics 2006, 7:290
[PDFダウンロード][Webサイト]

・独立成分分析(ICA, Independent Componet Analysis)の遺伝子クラス分けへの応用。
・マイクロアレイデータ(公開、ヒト)
1.AML (acute myeloid leukemia) data set [Bullinger]
2.Head and Neck Squamous Cell Carcinoma (HNSCC) data set [Chung]
3.Time series data (serum) [Chang]

・仮説「In the context of micro array data, “sources” may correspond to specific cellular responses or to co-regulated genes.
・目的「We show that hidden, latent variables identified by ICA may in certain datasets surface as clusters of correlated genes and hence that “expression modes” identified by ICA have distinct biological correlates.

・『gene ontology (GO) categories』→謎
・これまでにもICAの応用はされているが、それらとの違いがハッキリしない。GOと比較した所が新しい??それ以前に話の筋もハッキリしない。ICAとGOの結果に相関が見られる→ICAは使える、て話??
~~~~~~~
・内容が理解できずとも斜めに読み飛ばし、ようやっと40本まできました。ここからは英英辞典使っていこうと思います。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Dean,2005,Normal uniform mixture differential ~

2006年06月30日 18時07分04秒 | 論文記録
Nema Dean and Andrian E Raftery
Normal uniform mixture differential gene expression detection for cDNA microarrays
BMC Bioinformatics 2005, 6:173
[PDFダウンロード][Webサイト]

・サンプル間で発現量が有意に異なる遺伝子を抽出するための新しい手法として、Normal Uniform Differential Gene Expression (NUDGE)を提案する。
・比較した手法:unadjusted and Bonferroni-adjusted t tests, Significance Analysis of Microarrays (SAM), and Empirical Bayes for microarrays (EBarrays) with both Gamma-Gamma and Lognormal-Normal models
・'R'のパッケージとして使用可能。

・比較の手順がなんだかよくわからないが、結果の数値だけ見ると、提案法(NUDGE)だけが完璧な結果となっている。あまりに完璧だと、それはそれで疑わしい感じ。
・結局、肝心のNUDGEの計算法が理解できない。数式が読めない。
・全体的にものすご~く読みづらい~~
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Wu,2005,Evaluation of normalization methods ~

2006年06月27日 18時25分50秒 | 論文記録
Wei Wu, Eric P Xing, Connie Myers, I Saira Mian and Mina J Bissell
Evaluation of normalization methods for cDNA microarray data by k-NN classification
BMC Bioinformatics 6: 191 (2005)
[PDFダウンロード][Webサイト]

・数あるデータの正規化法を片っ端から比較・評価した。
・正規化法
1.Location normalization : 10種(spacial effectまたはintensity effectを相手にするかで、更に2グループに分かれる)
2.Scale normalization : 3種
これらを組み合わせることにより、計41の方法を試した
・評価法
1.k-NN LOOCV classification error rates
2.IMPROVEMENT : 独自に設定した評価尺度
・cDNAマイクロアレイデータ(Web公開)
1.LIVER CANCER[Chen,2002]
2.LYMPHOMA[Alizadeh,2000]
3.RENAL CELL CARCINOMA[Higgins,2003]
4.GASTRIC CARCINOMA[Chen,2003]
5.LUNG CANCER[Garver,1998]

・問題点「However, to date there have been few published systematic evaluation of these techniques for removing variations arising from dye biases in the context of downstream, higher-order analytical tasks such as classification.
・結果「We found that k-NN classifiers are sensitive to dye biases in the data.
・結果「We also found that the investigated scale normalization mathods do not reduce LOOCV classification error.
・「Global normalization techniques adjust the center (e.g., mean or median) of the distribution of the log ratio M values on each microarray to a constant.
・結果「Empirically, however, we found that the LOOCV errors we obtained from various round of classification are quite stable, therefore we believe that our estimation is in practice reliable and suitable for ranking.

・一応、試した41のうちの3つの成績がよい、という結論ですが、その差は微妙なところ。結局場合によって使い分け、のオチ。あんまりゴチャゴチャと前処理しすぎるのもデータの原型をとどめなくなりそうで気持ち悪い感じがある。

《チェック論文》
S.Dudoit, Y.H.Yang, T.P.Speed, and M.J.Callow (2002). Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Statistica Sinica, Vol.12, No.1, p.111-139. [PDFダウンロード]
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Berrar,2006,Instance-based concept learning ~

2006年06月24日 13時58分54秒 | 論文記録
Daniel Berrar, Ian Bradbury and Werner Dubitzky
Instance-based concept learning from multiclass DNA microarray data
BMC Bioinformatics 7:73, doi:10.1186/1471-2105-7-73.
[PDFダウンロード][Webサイト]

・アレイデータを用いた遺伝子のクラス分けの手法として、次々と複雑な方法が登場している。しかし、結局のところ昔ながら(?)の、直観的にアルゴリズムの理解が容易なNearest Neighbor法で十分な結果が出せる。
・比較したアルゴリズム
1.k-NN : distance-weighted k-nearest neighbor
2.SVMs : support vector machines
3.DT : decision tree C5.0
4.MLPs : artificial neural networks, multiplayer perceptrons
5.NN : 'classic' nearest neighbor classifiers (1-NN, 3-NN, 5-NN), majority voting
・アルゴリズムの評価法 : a ten-fold repeated random subsampling strategy
・データ
1.NCI60 : 60 human cancer cell lines of various origins, cDNA [Scherf]
2.ALL : 327 pediatric acute lymphoblastic leukemia samples, Affy. [Yeoh]
3.GCM : Global Cancer Map, 198 specimens of predominantly solid tumors, Affy. [Ramaswamy]

・現況「Simple instance-based classifiers such as nearest neighbor (NN) approaches perform remarkably well in comparison to more complex models, and are currently experiencing a renaissance in the analysis of data sets from biology and biotechnology.
・問題点「Microarray data analysis is beset by the 'curse of dimensionality' (a.k.a. small-n-large-p problem)[4]. This problem relates to the high dimensionality, p, i.e., the number of gene expression values measured for a single sample, and the relatively small number of biological samples, n.
・概要「This paper focuses on a simple and intuitive model, the k-nearest neighbor based on distance weighting, for the classification of multiclass microarray data and aims at addressing the aforementioned key limitations of previous comparative studies in this field.

《チェック論文》
・Tsai CA, Lee TC, Ho IC, Yang UC, Chen CH, Chen JJ., Multi-class clustering and prediction in the analysis of microarray data., Math Biosci. 2005 Jan;193(1):79-100. Epub 2004 Dec 28.
・Alter O, Brown PO, Botstein D., Singular value decomposition for genome-wide expression data processing and modeling., Proc Natl Acad Sci U S A. 2000 Aug 29;97(18):10101-6.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Tibshirani,2006,A simple method for assessing ~

2006年06月21日 17時43分31秒 | 論文記録
Robert Tibshirani
A simple method for assessing sample sizes in microarray experiments
BMC Bioinformatics. 2006; 7: 106.
[PDFダウンロード][Webサイト]

・マイクロアレイ実験の最適なサンプル数を、FDRとFNRを指標にして決定する方法を提案。
・この仕組みは、SAMソフトウェアに組み込まれている。
・話の流れがサッパリつかめない。統計の力不足。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Michaels,1998,Cluster analysis and data ~

2006年06月20日 19時42分08秒 | 論文記録
George S.Michaels, Daniel B.Carr, Manor Askenazi, Stefanie Fuhrman, Xiling Wen, Roland Somogyi
Cluster analysis and data visualization of large-scale gene expression data.
Pac Symp Biocomput. 1998;:42-53.
[PDFダウンロード][Webサイト]

・大量の時系列マイクロアレイデータをうまく図示することにより、遺伝子間の相互関係(ネットワーク)を推定する。
・データ:ヒト、cDNA、112遺伝子、時間点9点。
・クラスタリング指標(2種) 
1.Euclidean distance measure
2.Normalized mutual information

・目的「A goal of this work is to determine whether genes within these categories exhibit overlapping mRNA expression trajectories or control patterns.

・マイクロアレイ関連としては、初期の論文。アレイデータをどう図示するか、まだ手探り状態。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Tusher,2001,Significance analysis of ~

2006年06月17日 09時37分08秒 | 論文記録
Virginia Goss Tusher, Robert Tibshirani, and Gilbert Chu
Significance analysis of microarrays applied to the ionizing radiation response.
Proc Natl Acad Sci U S A. 2001 Apr 24;98(9):5116-21. Epub 2001 Apr 17.
[PDFダウンロード]

・遺伝子の電離放射線に対する反応を調べる。発現量の評価量としてSAM(Significance Analysis of Microarrays)を用いる。

・SAMについて「We describe a method, Significance Analysis of Microarrays (SAM), that assigns a score to each gene on the basis of change in gene expression relative to the standard deviation of repeated measurements.
・従来法の問題点「Cluster analysis of microarray data can find coherent patterns of gene expression but provides little information about statistical significance. Methods based on conventional t tests provide the probability (P) that a difference in gene expression occured by chance. Althrough P=0.01 is significant in the context of experiments designed to evaluate small numbers of genes, a microarray experiment for 10,000 genes would identify 100 genes by chance.

・肝心要のSAMの計算方法がよくわからない。どうも単純な式代入で値が出てくるというわけではないらしい。

《関連ページ》
マイクロアレイの斜め読み : 同じようなことやってた人発見。
SAMソフトウェア
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Saito-Hisaminato,2002,Genome-wide profiling ~

2006年06月15日 18時15分41秒 | 論文記録
Akihiko Saito-Hisaminato, Toyomasa Katagiri, Soji Kakiuchi, Tohru Nakamura, Tatsuhiko Tsunoda, and Yusuke Nakamura
Genome-wide profiling of gene expression in 29 normal human tissues with a cDNA microarray
DNA Research 9, 25-45(2002)
[PDFダウンロード]

・疾病などの異常な組織ではなく、正常な組織のデータを解析し、組織特異的な遺伝子を抽出する。
・データ:ヒト。29組織(成人25、胎児4)。23,040遺伝子。cDNAアレイ。
・組織特異的遺伝子抽出
1.一つまたはいくつかの組織のみで、少なくとも5倍発現 → 4080遺伝子
2.一つの組織のみで、少なくとも10倍発現 → 1163遺伝子
・抽出した遺伝子を、Northern blotで検証。

・展望「These data should provide useful information for medical research, especially for efforts to identify tissue-specific molecules as potential tergets of novel drugs to treat human diseases.
・本論文のウリ「This is the first study to apply that technique for analyzing gene expression profiles of normal human tissues on a large scale.

・日本人の書く英語はなぜか読みやすい。教科書通りの英語、ということなのだろうか。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【論】Reis,2001,Extracting knowledge from dynamics ~

2006年06月10日 07時30分24秒 | 論文記録
Ben Y.Reis, Atul S.Butte, and Issac S.Kohane
Extracting knowledge from dynamics in gene expression.
J Biomed Inform. 2001 Feb;34(1):15-27.
[PDFダウンロード]

・遺伝子発現量の時系列データの解析について、従来の静的(statics)な解析ではなく、動的(dynamics)な解析を提案する。
静的解析:各時点の発現量(蛍光強度)の絶対量(赤・黄・緑)を見る
動的解析:2点間の相対量を見る
・静的解析では埋もれてしまう情報(緑→黄への変化等)も、動的解析で抽出できる。
・データ:酵母の刺激応答。10サンプル(時点:計79点)。アノテーションのついた2467遺伝子。[Eisen]

・研究の意義「While many differences among these various approaches exist, all of them cluster according to the absolute level of genetic expression. In this study, we propose an alternate approach involving the dynamics of genetic expression, and formulate a methodology for clustering genes according to changes in genetic expression level.
・方法「We use the term dynamics to refer to the rate of change of genetic expression over time, calculated as the first-order difference of the genetic expression levels (Et2-Et1, Et3-Et2). This is defferent from the simple temporal pattern of genetic expression (Et1, Et2, Et3) that we refer to as statics.
・結論「From these results we conclude that to extract all the valuable information from gene expression measurements, one needs a full set of complementary analysis methodologies that capture the dynamics of these systems.

・ネットワーク図(Fig.4)の見方がイマイチわからない。

《チェック論文》
・Michaels GS, Carr DB, Askenazi M, Fuhrman S, Wen X, Somogyi R.,Cluster analysis and data visualization of large-scale gene expression data.,Pac Symp Biocomput. 1998;:42-53.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする