2013 October 14 » باشگاه دانشجویی کارشناسی ارشد دانشگاه امیرکبیر

خلاصه جلسه پنجم درس خوشه بندی – دکتر زارع ۹۲/۰۷/۲۲

Oct 142013

خلاصه جلسه پنجم درس خوشه بندی – دکتر زارع ۹۲/۰۷/۲۲

بحث کلاسترینگ و Mixture Model

N تا آبجکت داریم که می خواهیم به K تا گروه خوشه بندی کنیم

مدل آمیخته(Mixture Model ) ترکیبی از توزیع های احتمالاتی است

چون هر خوشه با خوشه دیگر تفاوت دارد می توانیم این فرض را بگیریم که هر خوشه خودش دارای یک توزیع احتمال است و مجموع کل داده ها یک توزیع احتمالاتی دارد که ترکیبی از تک تک چگالی های داخل هر خوشه است

کاربرد مدل آمیخته در خوشه بندی :
در روشهای سلسله مراتبی و k-means نداشتیم نمی دانستیم که الگوریتم تا کجا باید پیش برود و تعداد K چند تا باشد جواب بهینه بدست می آید و بیشتر به خروجی نگاه می کردیم
ولی در Mixture Model می توانیم برای انتخاب بهترین مدل، معیار داشته باشیم

مثل BIC و AIC
Akaeki Information Cretaria
Baysian Information Cretaria

معمولا از تابع گوسی استفاده می کنیم

GMM – Gaussian Mixture Model

آقای Andrew Moore
مولفه را با امگا i نشان داده ایم

برداری از ویژگیها داریم

فرض می کنیم نوع تراکنش هر گونه باهم برابر است

توزیع یونیفرم
ابتدا یک عدد تصادفی بین صفر و یک ایجاد می کنیم

اگر عدد تصادفی ایجاد شده کمتر از ۰٫۳ بود امگا ۱ می گذاریم
اگر عدد تصادفی ایجاد شده کمتر از ۰٫۵ و بیشتر ۰٫۳ بود امگا ۲ می گذاریم

و بزرگتر از ۰٫۵ بود امگا ۳ می گوییم

ممکن است شکل خوشه ها شکل هم نباشد
همبستگی خطی
تا هفته بعد تمرین که حداکثر ۱ نمره دارد بفرستید
Mixture of Gaussian
متغیر پنهان

هر نقطه در آن واحد فقط می تواند به یک خوشه متعلق باشد

محاسبه واریانس

آموزش متلب No Responses »

Oct 142013

برای محاسبه واریانس عدد های زیر را تغییر دهید

خلاصه درس داده کاوی ۹۲/۰۷/۲۲ – دکتر محمد پور

داده کاوی 1 No Responses »

Oct 142013

خلاصه درس داده کاوی ۹۲/۰۷/۲۲ – دکتر محمد پور

صفحه ۱۸/۲۱
OLAP Operations : Data Cube
جدول ها را نرم افزار می کشد ، لازم نیست
اگر بعضی وقت ها داده ها دو بعدی باشد ، هیستوگرام را سه بعدی می کشیم

hist2D فراوانی داده ها را به صورت دو بعدی محاسبه میکند

OLAP را رسم کنید

خلاصه شده داده ها را نشان میدهد

با استفاده از خلاصه سازی رابطه بین متغیر ها را می توانیم مشخص کنیم
مثلا برای جدول ۷ بعدی ۲۴۰۰۰ مدل داریم
clustering یک روش unsupervised هست که هدفش قرار دادن داده های همگون در خوشه هست

اگر داده های یک بعدی باشد همان متر معمولی را در نظر می گیریم
ولی اگر داده ها بیش از یک بعد داشت ( p بعدی )

مولفه ها را با هم مقایسه می کنیم
نرم اقلیدسی
با یک تبدیل می توانیم بردار را به ماتریس تبدیل کنیم

در روش سلسله مراتبی ما اطلاع نداریم که چند تا خوشه داریم

با روش جمع شونده
هر یک از داده ها را یک خوشه می گیریم
و در هر مرحله یک خوشه کم می شود
برای همین محاسبات خیلی سنگین می شود

فاصله یک نقطه از مجموعه : چند روش مختلف داریم

۱- فاصله نقطه تا مینیمم مجموعه Single Linkage ( Nearest Neighbor )
مثال جرم و جنایت در شهر های آمریکا

رسم دندوگرام
۲- روش Complete Linkage
در مرحله بعدی جدولی که بدست می آوریم مشابه جدول روش اول است
۳- Average Linkage

میانگین فاصله
۴- روش Centroid

چون روش agerage محاسبات سنگینی دارد در Centroid به جای فاصه میانگین ها ، از میانگین فاصله ها استفاده می کنیم

۵- روش median میانگین وزنی است

۶- روش ward

تمرین : برای هفته آینده

جدول جرم و جنایت در آمریکا
با سه روش
single linkage
Complete Linkage
Average Linkage
به ایمیل بفرستید

statdatamining@gmail.com