خلاصه درس تدریس یار خوشه بندی – مهندس برادران
پارامتر گاما z k
متغیر تصادفی است که نسبت داده می شود به خوشه k ام
احتمال پیشین : پیش از اینکه x وجود داشته باشد ، فقط احتمال پیشین می دهیم
تابع توزیع نرمال
مرکز یک توزیع نرمال محلی است که بیشترین چگالی داده وجود دارد
خوشه بندی با GMM
فرض کنیم یک GMM 3 مولفه ای را برای خوشه ها کافی است
استفاده از فقط liklihood – بردار x را اگر در هر گوسی بگذاریم و عدد بزرگتری را بدهد می گوییم مربوط به همان خوشه است
اگر پارامتر پسین هم داشته باشیم ، ممکن است در Prior هر خوشه هم ضرب کند.
اگر صورت کسر بیشتر بود تاثیری بر مخرج کسر ندارد
مخرج در خوشه بندی تاثیر ندارد
جمع prior ها در تابع GMM مساوی ۱ است
برای اینکه نرمال سازی انجام دهیم تقسیم می کنیم
چون احتمال پسین جمعش باید ۱ باشد
آیا جمع likelihood هم باید ۱ باشد ؟ خیر ، چون ممکن است داده های پرتی داشته باشیم که احتمال آن برای مرتبط شدن به هر خوشه ای بسیار کم باشد.
مهمترین رابطه GMM
[image1]
با فرض iid بودن داده ها (مستقل و یکسان )
کل داده ها را با X نمایش می دهیم
لگاریتم
log a + log b
ضرب لگاریتم که پشت خط هستند میشه جمع لگاریتم ها شون
اگر در GMM مشتق بگیریم به رابطه بسته نمی رسیم بنابراین EM ارائه شد
تابع likelihood
مشتق نسبت به میو کا ( متوسط یک خوشه مشتق می گیریم )
برای خوشه بندی یک تابع Cost تعریف می کنیم که در اینجا تابع likelihood است
Nk یک عدد اعشاری است
– ماکزیمم سازی بدون قید
– ماکزیمم سازی مقید