Oct 212013
 

خلاصه درس خوشه بندی جلسه ۹۲/۰۷/۲۹

GMM assumption
فرض می کنیم هر کلاستر تابع توزیع نرمال هست

اگر بخواهیم یک مدل آمیخته را نمایش دهیم
اگر Latent Variable ها را بدانیم
Latent Varible ها Parent های کلاستار ها هستند

aic : Akaike information Criteria
BIC :Bayesian Information Criteriaumber of cluster

می توانیم از فرمول قانون بیز استفاده کنیم
clustering-GMM-bayesian

اگر تعداد داده ها زیاد باشد و شکل نمایشی آن gaussian مانند باشد استفاده از روش GMM بسیار خوب است
ولی اگر داده ها کم است از GMM استفاده نکنید

clustering-GMM-bayesian2bayesClassifier

الگوریتم EM – یک فرض می گذارد
اساس کار این است که به صورت پیش فرض اطلاعات کافی نیست
و مشاهدات ناقص هست
یک متغیر zk به مساله اضافه می کند
و بر اساس متغیر پنهان (Latent variable )

هدف : با استفاده از الگوریتم EM، پارامتر های توزیع آمیخه(Mixture Model ) را بدست بیاوریم

قدم اول : مقدار دهی اولیه : Log Lokely hood را حساب می کنیم
قدم دوم : expectarion امید را حساب می کنیم
قدم سوم : مجددا پارامتر های استفاده شده را در وضعیت حاضر بدست میاریم
قدم آخر : فرض میکنیم Stop کردیم
موی کا ، سیگما کا و پای کا را بدست آوردیم
احتمال پسین هر کلاس به شرط مشاهده xi را حساب می کنیم
از قاعده بیز هر کدام که احتمالش بیشتر بود
داده کلاستر ۲ می شود
عمل انتصاب را انجام می دهیم

جلسه بعد AIC , BIC و همچنین Evaluation را می گوییم

پروژه :
برای پروژه درس از داده های شغلی تان استفاده کنید
مقاله از jornal international استفاده نکنید
از ۲۰۱۱ یا ۲۰۱۲ به بعد باشد

 

Oct 212013
 

خلاصه جلسه داده کاوی – دکتر محمد پور ۹۲/۰۷/۲۹
GMM – Gaussian Mixture Model
چهار روش بر آوردی پارامتر های یک مدل آمیخته گاوسی

در آمار مفهوم مستقل و هم توزیع داریم

۲- مدل آمیخته گاوسی :
برای نشاهدات مستقل و هم توزیع x1,…,xn ، مجموع وزن دار K مولفه ، با تابع چگالی گاوسی است که با معادله زیر نشان میدهیم :

GMM-formula


۳- برآورد پارامتر های مدل آمیخته گاوسی به روش تحلیلی
* مهم : باید داده ها را شبیه سازی کنیم

کلاسترینگ سالانه کنفرانس دارد ، ۸۰ مجله به چاپ مقالات کلاسترینگ می پردازند
۳-۱ روش گشتاوری
می خواهیم از دو جامعه نرمال آمیخته …
مثال قد و وزن دختر ها و پسر ها خوشه بندی کنیم
به چهار روش این مساله را بررسی می کنیم ( برای دو متغیره )
۱- روش دقیق
۲- روش ریاضی
۳- EM روش آماری
۴- Gip Sampling – شبیه سازی

آیا این مساله به روش تحلیل قابل حل است ؟
با روش تحلیل فوق العاده پیچیده می شود ( گشتاور مرکزی )

در آخر صفحه کد های تولید GMM آورده شده است با نرم افزار R
GMM-program1
۳-۲ ماکسیمم درستنمایی
با این روش می توانیم پارامتر ها را دقیق تر بر آورد کنیم
تابع چگالی را به عنوان یک پارامتر ببینیم
پیدا کردن maximum Likelyhood

maximum-likelyhood

در حالت چند متغیره :
در حالت ۵ متغیره با روش تحلیلی بسیار پیچیده می شود.

maximum-likelyhood-multivariable

کد بر آورد پارامتر های GMM با روش عددی
اگر بخواهیم ماکزیمم تابع را پیدا کنیم با استفاده از دستور optim می توانیم انجام
دهیم
۳-۲-۲ برآورد پارامتر های GMM با الگوریتم EM

 

الگوریتم EM
روش Gipsampling
قبلا به روش های آمار کلاسیک حل می کردیم
ولی با این روش در چارچوب آمار بیز حل کنیم
یعنی یک اطلاعات پیشین هم باید داشته باشیم
توزیع پیشین مزدوج : (یک مساله استاندارد است )
تمرین برای جلسه بعد : تولید عدد تصادفی از GMM چند متغیره در متلب انجام
بدهید – مثل مقاله –

چگونه با استفاده از متلب با GMM اعداد تصادفی تولید می کنید ؟
جواب را به Email statdatamining بفرستید


maximum-likelyhood-multivariable-code

 

با کلیک روی آگهی زیر مبلغ 400 ریال به حساب من واریز می گردد

با کلیک روی آگهی زیر مبلغ 1000 ریال به حساب من واریز می گردد