خلاصه درس داده کاوی – دکتر محمدپور – ۹۲/۰۸/۲۷
برای پیدا کردن Association Role
Apriori : پیچیدگی محاسباتی را تا حد قابل قبولی کاهش دهد
دومین الگوریتم علاوه بر عدم پیچیدگی ذخیره سازی روی هارد کمتر انجام شود
Rapid miner : پروسسور ها بصورت موازی استفاده می کند
نرم افزار هایی که در داده کاوی استفاده می شوند معمولا قابلیت استفاده از چند
پروسسور یا استفاده از GPU را دارد
دو مرحله دارد :
۱- تمام itemset هایی که تکراری هستند پیدا می کند
۲- از itemset ها برای ساخت Rule ها استفاده می کند
تعریف frequent itemset : ساپورت آن از یک minimum support بیشتر باشد
F1 شامل تمام itemset های با اندازه ۱ هست
F2 یکی از اعضاشون frequent بوده را شامل می شود
مثال :
یا روی تعداد کار می کنیم یا روی احتمال ( فراوانی یا مینیمم ساپورت )
min support= x /n
ابتدا تمام itemset های تکی را با تعداد تکرارشان می نویسیم
چون ۴ فقط یک بار تکرار شده در قدم بعدی اصلا ترکیب با itemset 4 را نمی آوریم
در مرحله بعد itemset های دو تایی
تمام itemset هایی که فقط یک بار تکرار شده اند در مرحله بعد محاسبه نمی آوریم
در صورت دلخواه الگوریتم Apriori را پیاده سازی کنید
Candidate Generator
هرس , join می کنیم
بعد از الگوریتم Apriori بین Frequent itemset ها Association rule ها را بدست می آوریم
برای مجموعه حساب نمیشه چون شرطی است
در مورد confidence فقط برای assotioation Rule ها استفاده می کنیم
تمام زیر مجموعه ها = ۲ به توان n
صورت :
مخرج : تعداد کل ایتم ها
با الگوریتم Apriori یک مثال برای خودتان حل کنید
برای حل مسئله از مجموعه ۱ عضوی شروع می کنیم تا تعداد اعضا