Data matrix
N record
each record has p features
N is very large
p is very large
both of them
N no problem, p is very large
p no peoblem, N is very large
کاهش ویژگی Feature Reduction
فرض کنیم در فضای ۱۰ بعدی کار می کنیم می خواهیم بعد ها را کاهش دهیم
بر اساس مساله کار می کنند
supervised , unsupervised
minimum Information Loss
فاصله بین کلاس ها را هم بهتر است که بیشتر کنیم
x1 تا xn مشاهدات ما هستند
که فضای p بعدی ما هستند
G ماتریس تبدیل هست
داده های با حجم زیاد Hign Dimentional را باید حجمش را کم کنیم
دسته بندی
Feature Selection : اگر p تا بعد دارم فقط با فیوچر های موثر کار کنیم
Visualization
Data Compression
Noise Removal
—————-
Application of feature reduction
Face recognition
Handwrittien digit recognition
textmining
Image retrieval
Microarray Data Analysis
Protein classification
——————
Feature Reduction Algorithms :
Unsupervised :
-latent Semantinc Indexing ( LSI) : truncated SVD
– Independent Component Analysis (ICA)
PCA
CCA
Supervised :
LDA
Semi-supervised :
Research Topics
——————–
Linear
LSI
PCA
LDA
CCA : cononical Correclation
—————————–
PCA : principal Component Analysis
http://www.sas.com/data-visualization/overview.html