2013 December 9 » باشگاه دانشجویی کارشناسی ارشد دانشگاه امیرکبیر

خلاصه درس خوشه بندی – دکتر زارع – ۹۲/۰۹/۱۸

Dec 092013

روش فیشر

پراکنش داده ها
داده ها را از دو بعد به یک بعئ می خواهیم map کنیم

فقط جهت بردار مهم است
معیار یا جهت مناسب ، جهتی است که جدا پذیری دو کلاس زیادباشد
و تقسیم بر پراکنش درون کلاسی هم می کنیم (که هر چه کمتر باشد بهتر است )

نام این مساله : مساله مقدار ویژه تعمیم یافته

این نمونه معمولا در امتحان می آید
یا مفهوم این که Fisher با PCA جه فرقی می کند

نمونه ای که ممکن است در امتحان بیاید

معمولا دوستان در اینورس کردن ماتریس اشتباه می کنند
جهتش هم می خواهیم که رسم کنید
——————————–

روش های خوشه بندی

فرض می کنیم دستگاهی برای دسته بندی و بسته بندی ماهی داریم
برای تفکیک ماهی ها از روش های خوشه بندی می خواهیم استفاده کنیم

اولین قدم data Gathering هست – طبقه بندی اطلاعات اولیه جمع آوری شده

خیلی از مسایل خوشه بندی تعبیر Geo metric دارند
اگر بتوانیم Rule برایش تعریف کنیم

آقای فیشر اولین بار مساله pattern Recognition را حل کرد و داده های IRIS رو مطرح کرد

قانون که می گذاریم باید برای داده های بعدی هم خوب کار کند
هر چه مدل ساده تر باشد احتمال اینکه برای داده های بعدی هم کار کند محتمل تر است

over fitting
به صورت simple از هم جدا کنیم

Predictive Accuracy
صحت پیش بینی
Accuracy صحت : تعداد صحیح ها تقسیم بر تعداد کل نمونه ها
خطا : تعداد اشتباهات تقسیم بر تعداد کل نمونه ها

روش k-fold :

داده ها را به دو قسمت تقسیم می کنیم
داده های train و داده های test
یک مدل را بر اساس داده های Train می سازیم و test را با آن آزمایش می کنیم
داده ها را به k قسمت مساوی تقسیم می کنیم
قدم اول : مدل را می سازم و با قسمت k ام خطای مدل را بدست می آوریم
قدم دوم : k-1 را Train در نظر می گیریم و باز خطا را بدست می آوریم

یک مقاله به صورت تجربی (imperical ) بخش ها را به ۱۰ قسمت تقسیم کردند
و ما هم اکثر مسایل رو ۱۰-fold می گوییم
Nearest Neighbor Classifier
هر داده جدیدی که آمد فاصله اش را با کل داده های قبلی حساب کن ، سپس sort کن

کمترین فاصله ها اکثریت را پیدا می کنیم
جزء روش های Lazy محسوب می شود چون خیلی هزینه بر هست ( با محاسباتی زیاد
هست )

جلسه بعد nearest neghbor را می گوییم

خلاصه مباحث درس مهندسی تجارت الکترونیک – خانم قوامی پور ۹۲/۰۹/۱۸

مهندسی سیستم های تجارت الکترونیک No Responses »

Dec 092013

خلاصه مباحث درس مهندسی تجارت الکترونیک – خانم قوامی پور

فاز دوم تمرین تا هفته دیگه مهلت دارد
مقاله : اونهایی که آپلود کردند
برای پروژه تحقیقاتی معمولا تا بعد از امتحان فرصت دارید
PGFD را به صورت پیوست بفرستید

مقاله در مورد hidden markov chain کسی کار کرده ؟ ( از بچه های کلاس کسی کار نکرده بود )

خروجی فعالیت های بازار یابی : خروجی حاصل عمل بازاریابی – علاقه مندی هر کالا چه چیزی هست

توضیحات روی فاز دوم تمرین :

در شیت اول ماتریس جریان کار ، هر کدام از ستون های برای چه هدفی ایجاد شده اند
مراحل انجام فعالیت جزء به جزء نوشته می شود

برای تکمیل شیت دوم بهتر است که PGFD را از قبل کشیده باشید
برای ۵ تا فعالیت که PGFD دارید این شیت دوم را کامل کنید
نوع جریان : داده ، کالا ، مالی می تواند باشد
موضوع جریان :
ابزار جریان : وسیله ای که توسط آن جریان اتفاق می افتد ، مثلا داده در چه فرمی ارسال شده ، یا کالایی که توسط خط هوایی ارسال شده
می توانید فعالیت ها را جدا در نظر بگیرید یا اینکه در یک شیت بکشید

برای فعالیت هایی که تمام الکترونیکی یا نیمه الکترونیکی هستند را بیاورید ، چون فعالیت های غیر الکترونیکی کمکی به سیستم شما نمی کند.

مثلا یک مشتری keyword وارد سیستم می کند
از کاربر به ECS – نوع جریان : داده – موضوع محتوای جریان

حتما موضوع مقاله را بفرستید

اطلاعیه ارزیابی اساتید توسط دانشجویان

اطلاعیه ها No Responses »

Dec 092013

دانشجویان گرامی:
ارزیابی دروس از طریق وب از تاریخ ۹۲/۰۹/۱۶ تا ۹۲/۱۰/۰۲ اجرا می گردد. دفتر نظارت و ارزیابی توجه دانشجویان محترم را به نکات زیر جلب می‌نماید.
دقت در پاسخگویی به سئوالات، مشارکت همه جانبه و ارائه پیشنهادات سازنده در بهبود کیفیت آموزش و امر تدریس دانشگاه بسیار مؤثر می باشد.
نظرات شما بدون ثبت اطلاعات فردی ذخیره و مورد ارزیابی قرار خواهد گرفت.
خواهشمند است شخصاً اقدام به انجام ارزیابی نمایید.
تذکر: ارزیابی کلیه دروس ثبت نامی برای تمامی دانشجویان الزامی می‌باشد و در صورت عدم انجام، مشاهده کارنامه در پورتال آموزشی امکان‌پذیر نخواهد بود.

از همکاری شما متشکریم
دفتر نظارت و ارزیابی و برنامه ریزی دانشگاه

خلاصه درس داده کاوی – دکتر محمد پور – ۹۲/۰۹/۱۸

داده کاوی 1 No Responses »

Dec 092013

خلاصه درس داده کاوی – دکتر محمد پور – ۹۲/۰۹/۱۸

برنامه ارائه مقالات کنفرانس داده کاوی در لینک ذیل قرار دارد:

http://dl.irandatamining.com/users/uploads/BarnamehConference.pdf

امروز در مورد محک های ارزیابی تجربی صحبت می کنیم

سه روش مشهور داریم
که معروفترینشان Cross validation هست

اگر از روش هایی استفاده می کنیم فقط دستورش را ببینیم در clementine هر کدام یک مدل با فرض های مختلفی هستند

و بهتر بودن هر کدام مشخص نیست
با اینکه همه خوشه بندی انجام میدهند ولی ممکن است در ارزیابی موفق نباشند

انتخاب مدل مناسب کار بسیار سختی است

در مرحله ارزیابی مدل را تست می کنیم

از داده ها استفاده می کنیم ببینیم چقدر می تواند پیشبینی را انجام دهد

اگر روشی جدید ابداع کردید باید صحت پیشبینی آن از بقیه روشهای بهتر باشد

قابل تعمیم بودن
قابل تفسیر بودن : روش ما باید قابل تفسیر باشد
سادگی
کیفیت نشانگر ها Domain-Dependent quality indicators
————

چطور خطا را حساب می کنیم
با تابع Loss Function
ساده ترین آنها Zero Loss Function است

امید Loss میشه Risk

در مساله خوشه بندی خیلی ساده تعداد ۱ ها بخش بر n می شود

در خوشه بندی وقتی می خواهیم Evaluate کنیم
Nc تعداد داده های درست کلاس بندی شده
Nt تعداد کل
درصد درست کلاس بندی شده هاست

e درصد اشتباه کلاس بندی شده هاست

C اپسیلون داد ها
هزینه برای داده های بد کلاس بندی شده ها

miss clasification Cost

اگر بخواهیم به صورت نظری

COLT typical research questions

با داده های مثال از پیش تست شده روش جدید را می توانیم تست کنیم

چرا ؟ چون باید در بدترین شرایط تست شود

Emprical evaluation
سعی و آزمون
مثلا به تصادف چند داده را انتخاب کنیم
Resampling : ( باز نمونه گیری ) چند بار به صورت تصادفی انتخاب میکنیم میانگین آنها را محاسبه می کنیم
BootStrap : Resampling با جایگذاری است

Hold out برای داده های بزرگ کاربرد دارند

k-fold Cross Validation :
خیلی ها اتفاق نظر دارند که این روش خیلی بهتری است
در این روش جای داده های train و test عوض می شوند

۱- شکستن داده ها ( به صورت تصادفی ) مثلا یک سوم test دو سوم tranining
۲-
۳- داده هایی را که برای تست در نظر گرفتیم خطا ها را حساب می کنیم
——————————–
در Hold-out ما overlapping داریم
ولی در Cross-validation بحث overlapping را نداریم

اگر بخواهیم دو الگوریتم را با هم مقایسه کنیم
از روش های آماری می توانیم استفاده کنیم