Feature Model and Feature Selection
2015, Thomas W. Rauber, Member, IEEE, Francisco de Assis Boldt, and Flรกvio Miguel Varejรฃo
Introduction
CWRU dataset ์ฌ์ฉ
Statistical feature
envelope feature
Feature selection
dimension์ ์ค์ด๊ณ parameter์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํจ
univariate feature์ ๊ฒฝ์ฐ์๋ feature selection์ด ํ์ํ์ง ์์
ex) Fisher score ์ฌ์ฉ
multivariate feature๋ search algorithm ํ์
statistical, wavelets, and envelopes ๊ฐ์ ์๋ก ๋ณ๊ฐ์ธ ๋ชจ๋ธ์์ feature๋ฅผ ์กฐํฉํ ์๋ ์์
SVM ์ด์ฉ๊ตฌ
Training, validation, and test data splitting
Validation
LOO(leave-one-out), K-fold cross validation
estimated accuracy๊ฐ ์ ์ผํ ์ฑ๋ฅ ํ๊ฐ ๊ธฐ์ค์ด์ง๋ง AUC-ROC(area under the receiver operating characteristic curve)๊ฐ์ ๊ฒ๋ ์์
Feature models
๊ฐ๊ฐ ๋ค๋ฅธ signal feature extraction methods์์ ๋น๋กฏ๋ feature๋ฅผ ์ตํฉํด์ ์ฌ์ฉํ๋ ์ฐ๊ตฌ๋ ์์์
โ bearing fault diagnosis๋ฅผ ์ํ ์ผ๋ฐ์ ์ธ framework์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ framework

Sequence of Information Processing
Signal feature extraction: ์ผ์๋ก ๋ฐ์ดํฐ ์ทจ๋
Feature pooling: ์ต๋ํ ๋ง์ ์ ๋ณด๋ฅผ ๊ฐ๋๋ก global feature vector๋ฅผ assemble
Feature extraction on the feature level: feature vector์์ ์๋ก์ด feature๋ฅผ extract, ์ด ์๋ก์ด feature๋ dimension๋ ์ค์ด๋ค๊ณ machine condition์ ์ ๋ณด๋ฅผ ์ถ์์ ์ผ๋ก ๊ฐ์ง๊ณ ์์
Feature selection: dimension reduction๊ณผ ํ๋ณ๋ ฅ์ ์ฆ๊ฐ์ํค๊ธฐ ์ํจ
Classification
์ด ๋ฐฉ๋ฒ์ extraction ๋จ๊ณ์์ ๊ด๋ จ ์๋ feature๋ ๋ฒ๋ฆฌ๊ณ ๊ด๋ จ ์๋ feature๋ฅผ ์ป์ ์ ์์
Statistical feature


time domain, freq. domain์ statistical features
(time domain feature 10๊ฐ + freq. domain feature 3๊ฐ) * (DE, FE ๋ ๊ฐ์ง ์ง๋ ๋ฐ์ดํฐ) = 26๊ฐ์ feature
Complex envelope analysis
๋ฒ ์ด๋ง ๊ณ ์ฅ์๋ 4๊ฐ์ง fault freq.๊ฐ ์์
f_s = shaft rotational freq.
f_c = fundamental cage freq. (CWRU ๋ฐ์ดํฐ์๋ ์์)
f_bpi = ball-pass inner-raceway freq.
f_bpo = ball-pass outer-raceway freq.
hilbert transform์ผ๋ก ๊ณ์ฐ๋จ
definition: ์ ํธ h(t)์ 1/ฯt์ convolution
h~(t):=H{h(t)}:=h(t)โฯt1โ=ฯ1โโซโโโโh(t)tโฯdฯโanalytic signal
haโ(t):=h(t)+ih~(t)
์์๋ฅผ ๋ค์ ์ ๋ฆฌํ๋ฉด
high pass filtering of the raw signal โ signal h(t) ์ป์
h(t)์์ h_a(t) ์ป์
Fourier transform: F{h_a(t)}
analysis its spectrum: |F{h_a(t)}|
Feature: 1% narrowband RMS energy ๊ณ์ฐ
(DE, FE ๋ฐ์ดํฐ 2๊ฐ์ง) * (f_bpi, f_bpo, f_b ์ธ๊ฐ์ง ์ฃผํ์) * (cross detection) * (sixth harmonic)
= 2 * 3 * 2 * 6 = 72๊ฐ์ envelope feauture
cross detection? : For the CWRU database, the sensor at the DE, although with less confidence, can detect the faults at the FE; hence, the number of features duplicates.
Wavelet packet analysis
wavelet decomposition๋ณด๋ค felxibleํจ
mother wavelet: Daubechies 4 ์ฌ์ฉ
level 4๊น์ง ๋ถํด
~~ ๋ณต์กํ ์ํ์ ์ธ ์ ์ ~~
Feature pooling and dimensionality reduction
feature model์ ์ป๊ณ ๋์ ๊ทธ๊ฒ๋ค์ common pool๋ก merge ์ํด
feature pool์ index(?)
26๊ฐ์ statistical features + 72๊ฐ์ complex envelope features + 32๊ฐ์ wavelet packet feature = 130๊ฐ
์ด feature๋ค์ ์ค๋ณต๊ณผ noise๊ฐ ํฌํจ๋์ด ์์ โ feature vector์ dimension์ ๋ฎ์ถ๋ ๊ฒ ๋ชฉ์
reference 28์์๋ PCA, partial least squares, independent component analysis, Fisher discriminant analysis, and subspace-aided approach ๋ฑ์ ๋ฐฉ๋ฒ ์ฌ์ฉ
Feature selection
๊ธฐ๋ณธ์ ์ผ๋ก selection criterion๊ณผ search strategy๋ก ๊ตฌ์ฑ๋จ
wrapper approach
classifier์ ์ฑ๋ฅ์ estimate..?
๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ feature์ subset์ ๋ฝ์๋ด๋ ๋ฐฉ๋ฒ
filter approach
feature set์ ํ๊ฐํ๊ธฐ ์ํด ๋ค๋ฅธ ๊ธฐ์ค์ ์ฌ์ฉํจ
selection filter์ ์ฅ์ : ์๋๊ฐ ๋น ๋ฆ
๋จ์ : wrapper ๋ฐฉ์์ ๋นํด ์ฑ๋ฅ์ด ์ ์ข์
์ฌ์ฉ์์๊ฒ feature-rank๋ฅผ ์ค์ ๊ฐ feature๊ฐ ์ผ๋งํผ์ ์ํฅ๋ ฅ์ ๊ฐ์ง๋์ง ์๋ ค์ฃผ๋ ๋ฐฉ๋ฒ
Best feature(BF) search
์ ํ ๊ธฐ์ค์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ
๊ฐ feature x_j(j = 1, 2, ..., D)์ ๋ํ ์ ํ ๊ธฐ์ค J({x_j})๋ฅผ ํ๊ฐํ๊ณ J์ ๋ํด feature์ ๋ด๋ฆผ์ฐจ์์ผ๋ก ์ ๋ ฌํ๊ณ ์ ํ๋ set X_d๋ฅผ ์ ๋ ฌ๋ set์ ์ฒซ๋ฒ์งธ d feature๋ก ์ค์ ํจ
BF ์ฅ์ : ์๋๊ฐ ๋น ๋ฆ
BF ๋จ์ : multidimensionality of the problem์ ๋ฌด์ํจ
Sequential forward selection (SFS)
empty set์์ ์์ํด์ feature ํ๋ณด๊ตฐ๊ณผ ์ด๋ฏธ ์ ํ๋ set๋ค์ ๊ฐ์ด ํ ์คํธํ๋ ๋ฐฉ๋ฒ
Sequential backward selection (SBS)
๋ชจ๋ (D๊ฐ์) feature๋ฅผ ์ ํํ๊ณ D-d feature๊ฐ ์ญ์ ๋ ๋๊น์ง feature๋ฅผ ํ๋์ฉ ์ญ์ ํ๋ ๋ฐฉ๋ฒ
= d feature๊ฐ ๋จ์์์๋๊น์ง
floating techniques
SFFS
SFBS
์ต๊ทผ ์ฐ๊ตฌ์์ wrapper์ filter method๋ฅผ combineํ๋ ค๋ ์๋๋ ๊ณ ๋ ค๋์ง ์๋๋ค(...?)
Classification and performance estimation
CV(Cross validation) techniques
x% training data, 100-x% test data
K-fold CV
๊ณ์ฐ์ ๋ณต์ก์ฑ์ ์ค์ด๋ฉด์๋ ํต๊ณ์ ์ ์์ฑ์ ์ป์ ์ ์์
K๊ฐ์ subset์ผ๋ก ๋๋ ์ง
๊ฐ subset์ training์ K-1๋ฒ, test์ 1๋ฒ ์ฌ์ฉ๋จ
+) ๋ฐ์ดํฐ์ ์ k๊ฐ์ ๊ฐ์ ํฌ๊ธฐ๋ก ๋๋ ์ ํ ๋ถ๋ถ์ฉ test set์ผ๋ก ์ฌ์ฉํ์ฌ k๊ฐ์ test performance๋ฅผ ํ๊ท ์ ๋ด๋ ๋ฐฉ๋ฒ
์ฅ์ : LOO CV์ ๋นํด ๋น ๋ฅธ ์๋, validation set approach๋ณด๋ค ๋์ ์ ํ๋
LOO(leave-one-out) CV
training ์๊ฐ์ด ๋๋ฌด ๊ธธ์ง ์๋ค๋ฉด ์ฌ์ฉํ ์ ์์
K-fold CV์ ํน์ํ ๊ฒฝ์ฐ์: total dataset์ด N pattern์(K = N)
๋จ์ํ๊ฒ train-test data๋ก ๋๋๋ ๊ฒ๋ณด๋ค ๋ ์ ๋ขฐ๋๊ฐ ๋์ - ์๋ฌต์ ์ผ๋ก ๊ฐ available pattern์ด ํ ์คํธ๋๊ธฐ ๋๋ฌธ์(...?)
+) N๋ฒ์ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ๊ฐ ๋ชจ๋ธ์ ๋ง๋ค ๋ ํ๋์ ์ํ์ ์ ์ธํ๋ฉด์ ๊ทธ ์ ์ธํ ์ํ๋ก test set performance๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํจ
์ฅ์ : ๋ชจ๋ ์ํ์ ๋ํด ํ๋ฒ์ฉ์ testํ๊ธฐ ๋๋ฌธ์ randomness๊ฐ ์์, validation set approach์ ๋ค๋ฅด๊ฒ ๋งค์ฐ stableํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์
๋จ์ : ์ฐ์ฐ๋์ด ๋ง์, k-fold CV์ ๋นํด model์ ๋ค์์ฑ์ด ์ ์
์ด ๋ ผ๋ฌธ์์๋ classifier architecture์ training cost์ ๋ฐ๋ผ LOO์ K-fold CV๋ฅผ ์ฌ์ฉํ์
Performance criteria
accuracy์ AUC-ROC ๋ ๊ฐ์ง๊ฐ ์ฌ์ฉ๋จ
AUC-ROC: ๋ถ๋ฅํด์ผํ ํด๋์ค๊ฐ ๋ ๊ฐ์ง์ด๊ณ , ๊ฐ ํด๋์ค๋ก ๋ถ๋ฅ๋ ํ๋ฅ ์ returnํ๋ ๊ฒฝ์ฐ์ ์ฌ์ฉ ๊ฐ๋ฅ
negative class๊ฐ positive class๋ณด๋ค ํจ์ฌ ๋ง์ ๊ฒฝ์ฐ์ ์ข์ ( = normal condition์ด fault๋ณด๋ค ํจ์ ๋ง์)
Classifier architectures
k-nearest neighbor classifier
nonparametric method์ ํ ์ข ๋ฅ
์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ๊ทผ์ฒ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ k๊ฐ์ majority votes๋ก classificationํ๋ ๋ฐฉ๋ฒ
MLP
๋ํ์ ์ธ artificial neural network์ ํ ์ข ๋ฅ
SVM
์ค๋ซ๋์ ๋ง์ ์์ญ์์ ์ฌ์ฉ๋ classifier
Experimental result
CWRU dataset ์ฌ์ฉ
Condition classes

โ table 3. machine condition classes defined for the experiments
์ผ๋ฐ์ ์ธ CWRU data๋ฅผ ์ฌ์ฉํ ๋ ผ๋ฌธ๋ค๋ณด๋ค ๋ ๋ง์ class๋ฅผ ์ฌ์ฉํจ
fault์ ์์น, fault์ ์ฌ๊ฐ์ฑ, ๋ชจํฐ์ ๋ํ ์์น ๋ฑ์ ๊ตฌ๋ถํ๊ธฐ ์ํจ
load ๋ถ๋ฅ๊ฐ ๊ฐ์ฅ ์ด๋ ค์ด ๋ฌธ์
Signals to patterns
์ ์ฒด ์ ํธ๋ ํ์ ์ ํธ์ ๋ฐ๋ณต์ด๊ธฐ ๋๋ฌธ์ ์ผ์ ํ time interval์ ์ฐ์์ผ๋ก ์๋ฅด๋ ๊ฒ ์ข์
ํ ์คํธ๋ฅผ ํตํด 15๋ฒ์ nonoverlapping interval์ด ์ฑ๋ฅ ์ ํ์ threshold๋ผ๊ณ ์ฐพ์
Experiment 1: Feature extraction
๊ฐ machine condition์ ๋ฐ๋ผ feature vector๋ก splitํจ
โ statistical features in the time and freq. domain

narrow band energy of the complex envelope magnitude์์ 72๊ฐ์ feature

six harmonic freq. ์ฃผ๋ณ์ 1%๋งํผ narrow band๋ผ๊ณ ์ ์ํจ
ex) expected freq.๊ฐ 30Hz (running speed of the machine) * 5.4152์ธ ๊ฒฝ์ฐ๋ 2*30* 5.4152 ( = 324.91) ๊ทผ์ฒ๋ฅผ ๋ด์ผํจ : narrow band๋ interval [(324.91*0.99), (324.81*1.01)] = [321.66, 328.16 Hz]
wavelet packet analysis


fault์ ์ข ๋ฅ๋ ๊ฐ์ง๋ง ์ฌ๊ฐ๋(๊ฒฐํจ์ ํฌ๊ธฐ)๊ฐ ๋ค๋ฆ
๋๋น๋ฅผ ๋์ด๊ธฐ ์ํด 0.007 ๊ฒฐํจ์ 0hp, 0.021 ๊ฒฐํจ์ 3hp์ธ ๋ฐ์ดํฐ ์ฌ์ฉ

freq. band 4,4์ 4,12์์ ๊ฐ์ด ํฌ๊ฒ ์ฐจ์ด๋จ
normal ๋ฐ์ดํฐ๋ 4,0์์ ๊ฐ์ด ํ ๋์์ง
Experiment 2: Performance Without Feature Selection
1-nearest neighbor classifier๋ ํญ์ LOO CV๋ก validationํด์ผํจ
SVM๊ณผ MLP๋ ์ฐ์ฐ๋์ด ๋ง๊ธฐ ๋๋ฌธ์ tenfold CV(10๊ฐ์ fold๋ก ๋๋๋ CV)๋ฅผ ์ฌ์ฉํด์ผ ํจ

statistical feature model์ด ๊ฐ์ฅ ์ ํ๋๊ฐ ๋จ์ด์ง๊ณ wavelet packet์ด ๊ฐ์ฅ ์ ํ๋ ๋์
complete pool์ด ํญ์ ๊ฐ์ฅ ์ ํํ ๊ฑด ์๋(์ผ๋ถ feature์ ๋ ธ์ด์ฆ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ ์ ์ข์ ์๋ ์์)
Experiment 3: Feature selection

x ์ถ์ ์ ํ๋ feature์ ์
global pool๊ณผ ์ธ๊ฐ์ง feature pool ๋ค ํ ์คํธํ์ง๋ง wavelet ๊ฒฐ๊ณผ๋ง ํ์
global pool์ ๊ฒฝ์ฐ์๋ SFFS, SFS๊ฐ ๊ฐ์ ๊ธฐ๋ฅ์ํ๊ณ SBS, SFBS๊ฐ ๊ฐ์ ๊ธฐ๋ฅ์ ํจ
wavelet์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด floating๊ธฐ๋ฒ์ด sequential ๊ฒฐ๊ณผ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์
๊ฒฐ๋ก : global pool์์ ์ ํ๋ feature์ ์ฑ๋ฅ์ด ๋ ์ข๋ค
Experiment 4: AUC-ROC for different feature models and number of selected features

ROC ๊ณก์ ์ ๋ณด๊ธฐ ํธํ๊ฒ ๋ง๋ค๊ธฐ ์ํด(?) separating the classes ๋์ด๋๋ฅผ ์ธ์์ ์ผ๋ก ๋์
signal sampling resolution์ ๋ฎ์ถค
ํ signal์์ pattern์ ์๋ฅผ 15๊ฐ์์ 50๊ฐ๋ก ๋๋ฆผ
50๊ฐ์ ํจํด์ sampleํ๊ธฐ ์ํด ์ฒซ 2์ด๋ง ์ฌ์ฉํจ


fig. 4, 5๋ฅผ ํตํด one feature model๋ณด๋ค ์ฌ๋ฌ feature๋ฅผ ๋์์ ์ฌ์ฉํ๋ ๊ฒ ๋ ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์
Experiment 5: Comparison of feature selection and feature extraction by PCA
PCA๋ feature selection๊ณผ ๋ค๋ฅด๊ฒ ๊ธฐ์กด์ feature๋ค์ ์กฐํฉํด์ ์๋ก์ด feature๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ฐฉ๋ฒ, feature selection์ original feature๊ฐ ๋ณํ์ง ์์ง๋ง PCA๋ variance์ ๋ฐ๋ผ rank๋จ(variance๊ฐ ํฌ๋ค๊ณ ํด์ ๋ฌด์กฐ๊ฑด ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฑด ์๋)

table 9 : feature selection(SFS) ๋ฐฉ๋ฒ๊ณผ feature extraction(PCA) ๋ฐฉ๋ฒ์ ์ฑ๋ฅ ๋น๊ต


fig. global pool๊ณผ wavelet packet์ PCA ๊ฒฐ๊ณผ
Conclusion
3๊ฐ์ feature model๊ณผ classifier architecture, performance criteria๋ ์ด๋ฏธ ๋ง์ด ์ฌ์ฉํ๊ณ ์๋ ๊ฒ๋ค์
๊ทธ๋ฌ๋ ๋ค๋ฅธ ๋ ผ๋ฌธ๋ค์ feature model์ ๋ฎ์ ์ฑ๋ฅ์ ์ง๋์น๊ฒ ์ ๊ตํ classifier model๋ก ๋ณด์ํ๋ ค๊ณ ํจ
์ด ๋ ผ๋ฌธ์์๋ good process description์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์๋ classifier๋ ๊ฐ๋จํด๋ ๊ด์ฐฎ๋ค๋ ์ ์ ์์ฌํจ
Last updated