EP3969622
[0001] This disclosure generally relates to model-based featurization and classifiers for predicting disease state from nucleic acid samples.
【0001】
本開示は、一般に、核酸試料から疾患状態を予測するためのモデルベースの特徴量化および分類器に関する。
/////////////
[0003] Disclosed herein are methods for training and applying models for generating features and/or for classification of a disease state (e.g., presence or absence of cancer, a cancer type, and/or a cancer tissue of origin) using nucleic acid samples.
【0005】
本明細書においては、核酸試料を使用した、特徴量の生成のための、ならびに/または疾患状態(たとえば、がんの有無、がんタイプ、および/もしくはがん原発組織)の分類のためのモデルを訓練および適用するための方法が開示される。
In one aspect, the present disclosure provides a method for analyzing sequence reads to generate a plurality of features comprising:
一態様においては、本開示は、複数の特徴量を生成するために、配列リードを解析するための方法であって、
generating a first plurality of reference sequence reads from a first reference sample,
第1の複数の参照配列リードを、第1の参照試料から生成するステップであって、
////////////
[0058] In some embodiments, the method further comprises determining, by the second classifier,
【0060】
いくつかの実施形態においては、方法は、第2の分類器によって、
a score indicating a probability that the tissue of origin associated with the disease state is present in the second test biological sample;
疾患状態と関連付けられた原発組織が、第2の試験生物試料中に存在する確率を示すスコアを決定するステップと、
and calibrating the score.
スコアを較正するステップとをさらに含む。
In some embodiments, calibrating the score comprises performing a k-nearest neighbor operation in association with the score using a feature space output by the second classifier.
いくつかの実施形態においては、スコアを較正するステップは、第2の分類器によって出力された特徴量空間を使用して、スコアに関連して、k近傍法演算を実行するステップを含む。
US2020167593
[0031] Two common types of problems in machine learning are classification problems and regression problems.
【0019】
機械学習における2つの一般的なタイプの問題は、分類問題(classification problems)と回帰問題(regression problems)である。
Classification problems, also referred to as categorization problems, aim at classifying items into one of several category values (for example, is this object an apple or an orange).
分類問題は、カテゴリ付け問題とも呼ばれ、項目群をいくつかのカテゴリ値の1つに分類する(例えば、このオブジェクトはリンゴ又はオレンジ)ことを目的としている。
Regression algorithms aim at quantifying some items (for example, by providing a value that is a real number).
回帰アルゴリズムは、いくつかの項目を(例えば、実数である値を提供することによって)定量化することを目的としている。
The machine-learning algorithms utilize the training data 112 to find correlations among identified features 102 that affect the outcome.
機械学習アルゴリズムは、訓練データ112を利用して、結果に影響を及ぼす、識別された特徴量(features)102間の相関を見出す。
[0032] The machine-learning algorithms utilize features 102 for analyzing the data to generate assessments 120 .
【0020】
機械学習アルゴリズムは、データを分析して評価(assessments)120を生成するために、特徴量102を利用する。
A feature 102 is an individual measurable property of a phenomenon being observed.
特徴量102は、観察される現象の個々の測定可能な特性である。
The concept of a feature is related to that of an explanatory variable used in statistical techniques such as linear regression.
特徴量の概念は、線形回帰のような統計的手法で用いられる説明変数(explanatory variable)の概念と関連している。
Choosing informative, discriminating, and independent features is important for effective operation of the MLP in pattern recognition, classification, and regression.
パターン認識、分類、及び回帰におけるMLPの効果的な動作には、有益な、識別可能な、及び独立した特徴量を選択することが重要である。
Features may be of different types, such as numeric features, strings, and graphs.
特徴量には、数値特徴量、文字列、グラフなど、さまざまな種類がある。
US11103171
[0095] Accordingly, systems and methods disclosed herein provide for stratifying patients in the neurobehavioral space using, for example, multiple modalities and/or short interpretable algorithms.
【0047】
したがって、本明細書に開示されるシステム及び方法は、例えば、複数のモダリティ及び/または短い解釈可能なアルゴリズムを使用して、神経行動空間中で患者を層別化することを提供する。
These algorithms are able to process an extraordinary amount of features and/or attributes, but
これらのアルゴリズムは、極端な量の特徴量及び/または属性を処理することができるが、
only output a relatively short rule list that is easily interpretable, yet still classifies patients with accuracy.
簡単に解釈可能である比較的短いルールリストしか出力せず、それでも患者を正確に分類する。
////////////
[0105] Thus, the Bayesian approach combines existing knowledge or requirements (so-called priori distributions) while also fitting to the data.
【0057】
したがって、ベイズアプローチは、既存の知識または要件(いわゆる事前分布)を組み合わせ、そのうえデータに適合する。
In the case of decision lists, the Bayesian model favors decision lists to be short with short rules.
決定リストの場合、ベイズモデルは、短いルールを有する短い決定リストを好む。
In some examples, the goal is to sample decision lists from the posteriori distribution:
いくつかの実施例では、目標は事後分布から決定リストをサンプリングすることである。
[0106] p(d|x,y,A,α,λ,η)︸posteriori∝p(y|x,d,α)︸likelihood·p(d|A,λ,η)︸priori
where d is a decision list, x is the features, y is the output,
式中、dは決定リストであり、xは特徴量であり、yは出力であり、
A is the set of pre-mined conditions, λ is the prior expected length of the decision lists,
Aはプレマイニングされた条件セットであり、λは決定リストの事前分布の期待長さであり、
η is the prior expected number of conditions in a rule,
ηはルール内の条件の事前分布の期待数であり、
a is the prior pseudo-count for the positive and negative classes which is best fixed at (1,1).
αは(1,1)に最もよく固定される正及び負のクラスについての事前分布の擬似カウントである。
/////////////
[0109] In some examples, the following equation represents the prior distribution of the decision lists.
【0060】
いくつかの実施例では、次の式は決定リストの事前分布を表す。
P(d|A,λ,η)
P(d|A,λ,η)
[0110] The equation may combine a truncated Poisson distribution (parameter λ) for the number of rules in the list and a truncated Poisson distribution (parameter η) for the number of feature values in the conditions of the rules.
この式は、リスト内のルール数について打ち切られたポアソン分布(パラメータλ)と、ルールの条件中の特徴量の値の数について打ち切られたポアソン分布(パラメータη)とを組み合わせてもよい。
A decision list has a high posterior probability if it explains the outcome y well, and is also likely according to the prior assumptions.
決定リストは、アウトカムyをうまく説明している場合に事後確率が高く、事前分布の仮定に従っている可能性も高い。
US2021369775
[0053] FIG. 5 illustrates an example of features defined in the dataset.
[0053]データセットに定義された特徴量の一例を示す。
US2021369775
[0127] In some embodiments, the samples of both the target entity, and the samples of the other entities, are used to generate an analytical signature prior to comparison.
[00127] 一部の実施形態において、比較前に、対象実体の試料及び他の実体の試料を両方とも使用して分析用シグネチャが生成される。
In some embodiments, the analytical signature comprises one or more features.
一部の実施形態において、分析用シグネチャは、1つ以上の特徴量を含む。
In some embodiments, the analytical signature is derived from electrophoresis or chromatography data.
一部の実施形態において、分析用シグネチャは、電気泳動又はクロマトグラフィーデータから導き出される。
As described herein, in some embodiments, the analytical signature is derived from mass spectra data.
本明細書に記載されるとおり、一部の実施形態において、分析用シグネチャは、質量スペクトルデータから導き出される。
US10217456
[0010] The feature value conversion method of 3. is a method of converting the feature value of test speech to adapt it to an acoustic model of a source domain at the time of decoding,
3.の特徴量変換法は、デコード時にテスト音声の特徴量をソースドメインの音響モデルに合わせるように変換する手法であり、
and Feature Space Maximum Likelihood Linear Regression (fMLLR) and
特徴量空間最尤線形回帰法(Feature space Maximum Likelihood Linear Regression : fMLLR)や、
Feature Space Minimum Mutual Information (fMMI) correspond thereto (for example, see Non-patent Literatures 3 to 5, and 7 (“fMPE: Discriminatively Trained Features for Speech Recognition”)).
特徴量空間相互情報量最小化法(Feature speace Minimum Mutual Information : fMMI)がこれに該当する(例えば、非特許文献3~5、非特許文献7を参照)。
[0011] The normalization method of 4. is a method of normalizing distribution of feature values of test speech to adapt it to an acoustic model of a source domain,
4.の正規化法は、テスト音声の特徴量の分布を正規化してソースドメインの音響モデルに合わせる手法であり、
and Cepstral Mean Normalization (CMN)
ケプストラム平均正規化法(Cepstral MeanNormalization: CMN)、
and Mean and Variance Normalization (MVN) correspond thereto (for example, see Non-patent Literature 8 (“Experimental Analyses of Cepstral Coefficient Normalization Units”)).
分散平均正規化法(Mean and Variance Normalization: MVN)がこの手法に該当する(例えば、非特許文献8を参照)。
US2022100820(JP)
(Feature Value Extraction Unit 111 )
【0205】
(特徴量抽出部111)
[0275] The feature value extraction unit 111 extracts respective feature values of musical compositions selected as hit songs.
特徴量抽出部111は、ヒット曲として選出された楽曲の各特徴量を抽出する。
Specifically, the feature value extraction unit 111 can extract, as feature values, element information (material data) constituting the selected musical compositions on the basis of metadata added to the selected musical compositions (e.g., AI musical composition metadata added to the AI musical compositions).
具体的には、特徴量抽出部111は、選出された楽曲に付与されたメタデータ(例えば、AI楽曲に付与されたAI楽曲メタデータ)に基づいて、当該楽曲を構成する要素情報(素材データ)を、特徴量として抽出し得る。
For example, the feature value extraction unit 111 is capable of extracting musical elements constituting the AI musical compositions such as bars, musical instrument parts, musical interval parts, codes, and styles.
例えば、特徴量抽出部111は、小節、楽器パート、音程パート、コード、スタイル等といった、当該AI楽曲を構成する音楽要素を抽出することができる。
Moreover, “new record or old record,” “presence or absence of tie-up,” and others are also collected as musical composition information.
また、楽曲の情報として、「新譜/旧譜」、「タイアップの有無」なども収集する。
Further, the feature value extraction unit 111 may also extract information associated with users who views and listens to, purchases, or reproduces (uses) the musical compositions as feature values of the corresponding musical compositions.
また、特徴量抽出部111は、楽曲の特徴量として、当該楽曲を視聴/購入/再生している(利用している)ユーザに関する情報を併せて抽出してもよい。
Examples of information associated with the users include attribute information (e.g., ages, genders, districts, and nationalities), social graphs, and channels (means for viewing and listening, purchase, or reproduction of the musical compositions, e.g., what SNS (Social Networking Service) is used, whether live reproduction is used),
ユーザに関する情報としては、例えば、属性情報(年齢、性別、地域、国籍等)、ソーシャルグラフ、チャネル(楽曲視聴/購入/再生の手段。例えば、どのSNS(Social Networking Service)を用いているか、ライブ再生しているか)、
reproduction environments (e.g., time, place, and position information), accompanying information (e.g., reproduction order in reproduction with other musical compositions and reproduction device types), and others.
再生環境(時間等、場所・位置情報など)、付随情報(他の楽曲との再生順序、再生機器の種類など)等が挙げられる。
US2021335364(JP)
[0089] (2) Feature Extraction Section 212
【0066】
(2)特徴量抽出部212
[0090] The feature extraction section 212 is able to perform, for example, a short time frame analysis of various speech signals input by the speech input section 210 .
特徴量抽出部212は、音声入力部210により入力された様々な音声信号に対して、例えば短時間フレーム分析を施すことができる。
Thus, the feature extraction section 212 is able to extract various features (speech features) in each time frame.
これにより、特徴量抽出部212は、各時間フレームにおける各種の特徴量(音声特徴量)を抽出することができる。
In one embodiment, the feature extraction section 212 is able to extract at least one of the following features.
一実施形態では、特徴量抽出部212は、以下に示す特徴量のうちの少なくとも1つの特徴量を抽出することができる。
[0091] (i) Fundamental frequency indicating a voice pitch
(i)声の高さを示す基本周波数
[0092] (ii) Plurality of frequency components emphasized by vocal tract resonance, for example, first formant
(ii)声道の共鳴によって強調される複数の周波数成分、例えば、第1フォルマント
[0093] (iii) Plurality of frequency components emphasized by vocal tract resonance, for example, second formant
(iii)声道の共鳴によって強調される複数の周波数成分、例えば、第2フォルマント
[0094] In another embodiment, the feature extraction section 212 is able to extract at least one of the following features.
【0067】
別の実施形態では、特徴量抽出部212は、以下に示す特徴量のうちの少なくとも1つの特徴量を抽出することができる。
[0095] (i) Fundamental frequency indicating a voice pitch
(i)声の高さを示す基本周波数
[0096] (ii) Spectral envelope obtained by smoothing a spectrum and representing timbre
(ii)スペクトルを滑らかにした、音色を示すスペクトル包絡
[0097] (iii) Aperiodic indicator indicating influences of fluctuations of vocal cord vibration and inclusion of noise
(iii)声帯振動のゆらぎや雑音混入による影響を示す非周期性指標