خیلی وقت ها در داده کاوی مجبوریم Data Alaysis انجام دهیم
فرق Data Analysis با Datamining این است که در تحلیل داده ها فرضیه ای را مطرح می کنیم و در مورد صحت و سقم آن نظر می دهیم
ولی در داده کاوی سوال هنوز مطرح نشده
می بینیم چه سوال میشه از دل این داده ها در آورد
یکی از تکنیک ها کمتر شنیدیم جداول توافقی یا جداول پیشایندی هستند
clementine قوی ترین نرم افزار در جداول پیشایندیContigency Table هست
برای جدول یک بعدی و دو بعدی یک مدل بیشتر برازش نمیشود
اساس جداول پیشاوندی DataAlanysis هست
چون به این سوال می خواهیم جواب دهیم که
داده ها را به دو قسمت تقسیم بندی می کنیم
(کمی – کیفی)
داده های کمی به دو دسته ( پیوسته – گسسته ) تقسیم بندی می کنیم
داده های ترتیبی هم می تواند باشد
فرض هایی که در مورد داده های کیفی هست :
۱-در مورد درصد نظر می دهیم (درصد اقایان بیشتر است یا خانم ها )
۲- یا در مورد استقلال ، مثل (سیگار به سرطان ربط دارد ؟ )
Z test
chi square
سرطان – سیگار – جنسیت )- تعداد مدل ها خیلی زیاد می شود
مثلا درصد آرای ۵ کاندیدایی که در انتخابات شرکت می کنند
خطای غیر نمونه گیری و خطای نمونه گیری داریم
فر می کنیم ازمایش Multinomial داریم که حالت توسعه یافته برنولی هست
آزمایش های مولتی نومیال مانند باینومیال مستقل از هم و درصد احتمال هم یکی است
( اگر از یک نفر بپرسند که به کدام یک از این ۳ نفر رای می دهی احتمال انتخاب با نفر بعدی که پرسش می شود یکی است )
آزمایش مولتی نومیال n نفر را به تصادف انتخاب می کنیم
هر یک نفر که انتخاب شده اند به یکی از این k کاندیدا رای می دهند
شرط اول : اگر نفراول احتمال انتخاب p بود نفر بعدی هم احتمال p باشد
شرط دوم : رای نفرات از هم مستقل باشد
N=100
k=3
p=1/3
در جدول پیشایندی نمایش می دهیم ( جدول توافقی )
سوال: ایا ارای این سه نفر یکی است ؟
درآمار شاید ۳۵ با ۴۵ برابر باشد چون ممکن است خطای نمونه گیری داشته باشیم
بنابراین باید آزمون انجام بدهیم
chi Square Test
به دنبال یک استراتژی منطقی برای Treshould که بتوانیم مقایسه کنیم
چون می شود ثابت کرد که این treshold
آمار آزمون همون استراتژی منطقیمون هست
آمار آزمون میاد تعداد مشاهدات را در مورد p1 انجام شده است n1 Observed Value منهای exepected Value
مقایسه را زمانی انجام می دهیم که فرض H0 درست باشد
استقلال را جدول دو بعدی می گوییم
با داده های کیفی در مورد استقلال صحبت می کنیم
در تست استقلال برای جداول دوبعدی مطرح می کنیم
مانند شرایط قبل آیا ارتباطی بین
فرض ها Mulinomial experient هست
فرض H0 آیا نوع خانه و مکان ساخته شده آیا با هم وابسته هستند و یا مستقلند
اگر وابسته نباشند درصد خانه ها چقدر است ؟
expected =حاصلضرب …. تقسیم بر تعداد کل
جدول توافقی دو بعدی
اگر قرار باشه مکان و نوع ربطی به هم نداشته باشند
۱۱۲/۱۶۰ تابع چکالی کناری Marginal
باید تابع چگالی توام مساوی
از نظر شهودی اگر آزمایش انجام دادیم که با آزمایش دیگری از نظر فیزیکی ربطی به هم نداشت از نظر ریاضی هم مستقل هستند
احتمال joint را چجوری حساب می کنیم ؟
احتمال ۶۳ مشیه حاصلضرب این دو احتمال
و وقتی می خواهیم Expected را انجام دهیم ….
در این جلسه در باره جدول توافقی وجدول chi square
صحبت شد
سه فصل امتحان می گیریم
– فصل ۱ و ۲ کتاب Tan به صورت تستی
– خوشه بندی از جزوه انگلیسی و به عنوان کمکی جزوه فارسی می توانید استفاده کنید
– Asociation Role ها
بارم نمرات : ۶ تا ۸ نمره پروژه و ۱۲ تا ۱۴ نمره امتحان دارد