۲۲ – دکتر محمد پور

Oct 142013

صفحه ۱۸/۲۱
OLAP Operations : Data Cube
جدول ها را نرم افزار می کشد ، لازم نیست
اگر بعضی وقت ها داده ها دو بعدی باشد ، هیستوگرام را سه بعدی می کشیم

hist2D فراوانی داده ها را به صورت دو بعدی محاسبه میکند

OLAP را رسم کنید

خلاصه شده داده ها را نشان میدهد

با استفاده از خلاصه سازی رابطه بین متغیر ها را می توانیم مشخص کنیم
مثلا برای جدول ۷ بعدی ۲۴۰۰۰ مدل داریم
clustering یک روش unsupervised هست که هدفش قرار دادن داده های همگون در خوشه هست

اگر داده های یک بعدی باشد همان متر معمولی را در نظر می گیریم
ولی اگر داده ها بیش از یک بعد داشت ( p بعدی )

مولفه ها را با هم مقایسه می کنیم
نرم اقلیدسی
با یک تبدیل می توانیم بردار را به ماتریس تبدیل کنیم

در روش سلسله مراتبی ما اطلاع نداریم که چند تا خوشه داریم

با روش جمع شونده
هر یک از داده ها را یک خوشه می گیریم
و در هر مرحله یک خوشه کم می شود
برای همین محاسبات خیلی سنگین می شود

فاصله یک نقطه از مجموعه : چند روش مختلف داریم

۱- فاصله نقطه تا مینیمم مجموعه Single Linkage ( Nearest Neighbor )
مثال جرم و جنایت در شهر های آمریکا

رسم دندوگرام
۲- روش Complete Linkage
در مرحله بعدی جدولی که بدست می آوریم مشابه جدول روش اول است
۳- Average Linkage

میانگین فاصله
۴- روش Centroid

چون روش agerage محاسبات سنگینی دارد در Centroid به جای فاصه میانگین ها ، از میانگین فاصله ها استفاده می کنیم

۵- روش median میانگین وزنی است

۶- روش ward

تمرین : برای هفته آینده

جدول جرم و جنایت در آمریکا
با سه روش
single linkage
Complete Linkage
Average Linkage
به ایمیل بفرستید

statdatamining@gmail.com

باشگاه دانشجویی کارشناسی ارشد دانشگاه امیرکبیر

خلاصه درس داده کاوی ۹۲/۰۷/۲۲ – دکتر محمد پور

Leave a Reply Cancel reply