Oct 142013
 

خلاصه درس داده کاوی ۹۲/۰۷/۲۲ – دکتر محمد پور

صفحه ۱۸/۲۱
OLAP Operations : Data Cube
جدول ها را نرم افزار می کشد ، لازم نیست
اگر بعضی وقت ها داده ها دو بعدی باشد ، هیستوگرام را سه بعدی می کشیم

hist2D فراوانی داده ها را به صورت دو بعدی محاسبه میکند

OLAP را رسم کنید

 

خلاصه شده داده ها را نشان میدهد

با استفاده از خلاصه سازی رابطه بین متغیر ها را می توانیم مشخص کنیم
مثلا برای جدول ۷ بعدی ۲۴۰۰۰ مدل داریم
clustering یک روش unsupervised هست که هدفش قرار دادن داده های همگون در خوشه هست

اگر داده های یک بعدی باشد همان متر معمولی را در نظر می گیریم
ولی اگر داده ها بیش از یک بعد داشت ( p بعدی )

مولفه ها را با هم مقایسه می کنیم
نرم اقلیدسی
با یک تبدیل می توانیم بردار را به ماتریس تبدیل کنیم

در روش سلسله مراتبی ما اطلاع نداریم که چند تا خوشه داریم

با روش جمع شونده
هر یک از داده ها را یک خوشه می گیریم
و در هر مرحله یک خوشه کم می شود
برای همین محاسبات خیلی سنگین می شود

datamining-oghlidosi-meter

 

فاصله یک نقطه از مجموعه : چند روش مختلف داریم

۱-   فاصله نقطه تا مینیمم مجموعه Single Linkage ( Nearest Neighbor )
مثال جرم و جنایت در شهر های آمریکا

رسم دندوگرام
۲-  روش Complete Linkage
در مرحله بعدی جدولی که بدست می آوریم مشابه جدول روش اول است
۳-  Average Linkage

میانگین فاصله
۴- روش Centroid

چون روش agerage محاسبات سنگینی دارد در Centroid  به جای فاصه میانگین ها ، از میانگین فاصله ها استفاده می کنیم

۵- روش median میانگین وزنی است

۶- روش ward

datamining-Ward-Method

تمرین : برای هفته آینده

datamining-tamrin-usa-crime

جدول جرم و جنایت در آمریکا
با سه روش
single linkage
Complete Linkage
Average Linkage
به ایمیل بفرستید

statdatamining@gmail.com

 

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)


1 + five =

با کلیک روی آگهی زیر مبلغ 400 ریال به حساب من واریز می گردد

با کلیک روی آگهی زیر مبلغ 1000 ریال به حساب من واریز می گردد