Dec 162013
 

خیلی وقت ها در داده کاوی مجبوریم Data Alaysis انجام دهیم
فرق Data Analysis با Datamining این است که در تحلیل داده ها فرضیه ای را مطرح می کنیم و در مورد صحت و سقم آن نظر می دهیم
ولی در داده کاوی سوال هنوز مطرح نشده
می بینیم چه سوال میشه از دل این داده ها در آورد

یکی از تکنیک ها کمتر شنیدیم جداول توافقی یا جداول پیشایندی هستند

clementine قوی ترین نرم افزار در جداول پیشایندیContigency Table هست

برای جدول یک بعدی و دو بعدی یک مدل بیشتر برازش نمیشود
اساس جداول پیشاوندی DataAlanysis هست
چون به این سوال می خواهیم جواب دهیم که

داده ها را به دو قسمت تقسیم بندی می کنیم
(کمی – کیفی)
داده های کمی به دو دسته ( پیوسته – گسسته ) تقسیم بندی می کنیم

داده های ترتیبی هم می تواند باشد
فرض هایی که در مورد داده های کیفی هست :

۱-در مورد درصد نظر می دهیم (درصد اقایان بیشتر است یا خانم ها )
۲- یا در مورد استقلال ، مثل (سیگار به سرطان ربط دارد ؟ )

Z test
chi square

سرطان – سیگار – جنسیت )- تعداد مدل ها خیلی زیاد می شود

مثلا درصد آرای ۵ کاندیدایی که در انتخابات شرکت می کنند

خطای غیر نمونه گیری و خطای نمونه گیری داریم

فر می کنیم ازمایش Multinomial داریم که حالت توسعه یافته برنولی هست

آزمایش های مولتی نومیال مانند باینومیال مستقل از هم و درصد احتمال هم یکی است
( اگر از یک نفر بپرسند که به کدام یک از این ۳ نفر رای می دهی احتمال انتخاب با نفر بعدی که پرسش می شود یکی است )

آزمایش مولتی نومیال n نفر را به تصادف انتخاب می کنیم
هر یک نفر که انتخاب شده اند به یکی از این k کاندیدا رای می دهند
شرط اول : اگر نفراول احتمال انتخاب p بود نفر بعدی هم احتمال p باشد
شرط دوم : رای نفرات از هم مستقل باشد

N=100
k=3
p=1/3

در جدول پیشایندی نمایش می دهیم ( جدول توافقی )

سوال: ایا ارای این سه نفر یکی است ؟
درآمار شاید ۳۵ با ۴۵ برابر باشد چون ممکن است خطای نمونه گیری داشته باشیم
بنابراین باید آزمون انجام بدهیم

chi Square Test
به دنبال یک استراتژی منطقی برای Treshould که بتوانیم مقایسه کنیم
چون می شود ثابت کرد که این treshold

آمار آزمون همون استراتژی منطقیمون هست

آمار آزمون میاد تعداد مشاهدات را در مورد p1 انجام شده است n1 Observed Value منهای exepected Value
مقایسه را زمانی انجام می دهیم که فرض H0 درست باشد

استقلال را جدول دو بعدی می گوییم
با داده های کیفی در مورد استقلال صحبت می کنیم

در تست استقلال برای جداول دوبعدی مطرح می کنیم
مانند شرایط قبل آیا ارتباطی بین
فرض ها Mulinomial experient هست

فرض H0 آیا نوع خانه و مکان ساخته شده آیا با هم وابسته هستند و یا مستقلند

اگر وابسته نباشند درصد خانه ها چقدر است ؟

expected =حاصلضرب …. تقسیم بر تعداد کل

جدول توافقی دو بعدی
اگر قرار باشه مکان و نوع ربطی به هم نداشته باشند
۱۱۲/۱۶۰ تابع چکالی کناری Marginal
باید تابع چگالی توام مساوی
از نظر شهودی اگر آزمایش انجام دادیم که با آزمایش دیگری از نظر فیزیکی ربطی به هم نداشت از نظر ریاضی هم مستقل هستند

احتمال joint را چجوری حساب می کنیم ؟
احتمال ۶۳ مشیه حاصلضرب این دو احتمال
و وقتی می خواهیم Expected را انجام دهیم ….

در این جلسه در باره جدول توافقی وجدول chi square
صحبت شد

سه فصل امتحان می گیریم
– فصل ۱ و ۲ کتاب Tan به صورت تستی
– خوشه بندی از جزوه انگلیسی و به عنوان کمکی جزوه فارسی می توانید استفاده کنید
– Asociation Role ها

بارم نمرات  : ۶ تا ۸ نمره پروژه  و ۱۲ تا ۱۴ نمره امتحان دارد

 

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)


eight × = 48

با کلیک روی آگهی زیر مبلغ 400 ریال به حساب من واریز می گردد

با کلیک روی آگهی زیر مبلغ 1000 ریال به حساب من واریز می گردد