خلاصه درس یادگیری ماشین ۹۲/۰۲/۱۰

یادگیری ماشین ۱ Response »

Apr 302013

۹۱/۰۲/۱۰

فصل ۸ – ژنتیک

الگوریتم زنتیک و کاربرد آن در یادگیری ماشین

تکامل طبیعی (قانون انتخاب طبیعی داروین)

الگوریتم ژنتیک
مجموعه ای از افراد داریم
هر فردی خصوصیاتی دارند
هر ژن ویژگی های خاصی را میتواند رمز کند

هر کروموزوم دارای مجموعه ای خواص ژنتیکی هست.

ساختار الگوریتم های ژنتیک

مساله –>مدلسازی مساله –> تشکیل جمعیت اولیه –> جستجوی ژنتیکی–> جواب

نحوه کدکردن مساله خیلی مهم است
چون در تمامی مراحل از همین کد و دی کد استفاده می کنیم

معمولا از روش باینری استفاده می کنیم

صفحه ۱۲ از ۳۲
بازنمایی
فضایی از مساله داریم

جمعیت ، مجموعه از راه حل ها ( کروموزوم ها )

ارزیابی جمعیت – Fitness

بهینه کردن شایستگی ها

انتخاب Selection (انتخاب والدین )

روش های انتخاب والدین :
۱- انتخاب تمام جمعیت به عنوان والدین
۲- انتخاب تصادفی
۳- روشهای دیگر
۳-۱ انتخاب مناسب ترین هر اجتماع
۳-۲ چرخ رولت – مبتنی بر شایستگی
۳-۳ Scaling Selection
۳-۴ Tournoment Selection

عملگر های الگوریتم ژنتیک
ترکیب مجدد (Crossover)

چندین روش برای ترکیب هست

۱- ترکیب تک نقطه ای ( از یک قسمت ژنوم هر کدام از والد ژنوم را تقسیم کنیم و با هم ترکیب کنیم )

۲- ترکیب دو نقطه ای ( در چند نقطه می تواند ژنوم ها ترکیب شود )

۳- ترکیب بر اساس مدل

جهش ژنتیک : اگریکی از بیت ها مخالف والدین باشد

شرط خاتمه

مزایای GA

مشکل Crowding
راه حل های Crowding :
۱- استفاده از ranking
۲- Fitness sharing

کاربرد الگوریتم ژنتیک در یادگیری ماشین

خلاصه درس بهینه سازی ۹۲/۰۲/۰۹

بهینه سازی ریاضی بنیان No Responses »

Apr 292013

۹۲/۰۲/۰۹
optimization
الگوریتم ژنتیک

ژنوم یا کروموزوم

min x1^2 + x2^3

الگوریتم های هیوریستیک روی مسایل
گسسته بهتر عمل می کنند

ناحیه شدنی مسایل گسسته نقطه
نقطه هست
اکر نقطه بهینه ما روی نقاط قرار نگرفته
باشد ، نزدیک ترین نقطه به نقطه بهینه
جواب ما می شود

با ۹ بیت ژنوم را می توان نمایش داد
(کد گزاری)
magic matrix جواب مساله جلسه حضوری است
در کد کردن :
x={0,1,2,3,4,…,31}
xhat={1,1.1,1.2,1.3,…,3}

x=1+xhat/10
یک روش برای کد کردن کروموزوم است

خلاصه درس ریاضیات یادگیری ۹۲/۰۲/۰۷ – تصمیم بیز – ریسک بیز

ریاضیات یادگیری No Responses »

Apr 272013

۹۱/۰۲/۰۷ ESL

معادله اصلی قضیه بیز

فرض می‌کنیم $B_1,... ,B_k$ یک افراز برای فضای نمونه ای $S$ تشکیل دهند. طوری که به ازای هر $j=1,... ,k$ ، داشته باشیم $P(B_j)>0$ و فرض کنید $A$ پیشامدی با فرض $P(A)>0$ باشد، در اینصورت به ازای $i=1,... ,k$ ، داریم:

$P(B_i|A) = \frac{P(B_i) \, P(A|B_i)}{\sum_{j=1}^k P(B_j) \,P(A|B_j)}$

تصمیم بیز : تصمیمی است که ریسک بیز آن کمترین باشد

تابع ریسک بیز

ریسک پسین
چگالی پیشین اطلاعاتی که از قبل داریم
چگالی پسین ، احتمال شرطی به شرط تتا
اگر تصمیم بیز داشته باشیم
ریسک پسین کمترین مقدار خودش را دارد

اگر تابع زیان درجه ۲ باشد می نیمم بیز E(teta|x) است

E(L(teta , d)

احتمال پیشین

در آمار، توزیع احتمال پیشین یک کمیت احتمالاتی مانند $q$ (که مثلاً میزان رای به یک نامزد انتخابات را مدل می کند.) یک توزیع احتمالاتی است که میزان عدم قطعیت یک فرد را در مورد آن کمیت قبل از مشاهده داده نشان می دهد.

کمیت احتمالاتی می تواند پارامتر یا متغیر نهان باشد.

با استفاده از قضیه بیز می‌توان احتمال پیشین را در درستنمایی داده مشاهده‌شده ضرب و پس از نرمالیزه کردن توزیع احتمال پسین را به‌دست آورد.

احتمال پیشین کاملاً به نظر متخصص داده و آگاهی قبلی او در مورد داده بستگی دارد.

احتمال پسین

در آمار بیزی، توزیع احتمال پسین یک کمیت احتمالاتی توزیع احتمالی است پس از مشاهده شواهد (داده ). به عبارت دیگر، توزیع احتمال پسین احتمال شرطی آن کمیت است به شرط دیدن داده.

به بیان ریاضی: احتمال پسین یک پارامتر $\theta$ پس از مشاهده داده $X$ برابر است با $P(\theta|X)$ . اگر $P(\theta)$ احتمال پیشین $\theta$ ، یعنی آگاهی پیشین ما در مورد $\theta$ ، را نشان دهد، با استفاده از قاعده بیز می‌توان نوشت:

$p(\theta|X) = \frac{p(\theta)p(X|\theta)}{p(X)}.$

که در آن $p(X|\theta)$ درستنمایی داده را نشان می‌دهد. برای به خاطر سپردن این رابطه می‌توان به صورت زیر نیز فکر کرد:

$\text{Posterior probability} \propto \text{Prior probability} \times \text{Likelihood}$

برای امتحان ۱ خرداد فصل ۳ ( رگرسیون subset selection , Ridge , Lasso , PCR) و تصمیم آماری تا ابتدای تصمیم روا ( ابتدای فصل ۶ گرفته می شود.

فصل ۶ و ۷ برای پایان ترم امتحان گرفته می شود

کتاب تصمیم آماری دکتر بهبودیان را بگیرید

شماره تلفن کتابفروشی که دوستان در اختیار گذاشتند :
۶۶۴۰۵۴۰۳
۶۶۴۷۵۷۹۴

منبع : ویکی پدیا

قضیه بیز :

http://fa.wikipedia.org/wiki/%D9%82%D8%B6%DB%8C%D9%87_%D8%A8%DB%8C%D8%B2

احتمال پیشین :

http://fa.wikipedia.org/wiki/%D8%A7%D8%AD%D8%AA%D9%85%D8%A7%D9%84_%D9%BE%DB%8C%D8%B4%DB%8C%D9%86

احتمال پسین :

http://fa.wikipedia.org/wiki/%D8%A7%D8%AD%D8%AA%D9%85%D8%A7%D9%84_%D9%BE%D8%B3%DB%8C%D9%86

توزیع فراوانی توزیع نرمال به ازای واریانس های مختلف

توزیع نرمال ، یکی از مهمترین توزیع ها در نظریه احتمال است. و کاربردهای بسیاری در علمفیزیک و مهندسی دارد.این توزیع توسط کارل فریدریش گاوس در رابطه با کاربرد روش کمترین مربعات در آمارگیری کشف شد.فرمول آن بر حسب ،دو پارامتر امید ریاضی و واریانس بیان میشود. همچنین تابع توزیع نرمال یا گاوس از مهمترین توابعی است که در مباحث آمار و احتمالات مورد بررسی قرار می گیرد چرا که به تجربه ثابت شده است که در دنیای اطراف ما توزیع بسیاری ازمتغیرهای طبیعی از همین تابع پیروی می کنند.

منحنی توزیع

منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد و به همین دلیل به آن Bell Shaped هم گفته میشود. با وجود اینکه ممکن است ارتفاع و نحوه انحنای انواع مختلف اینمنحنی یکسان نباشد اما همه آنها یک ویژگی یکسان دارند و آن مساحت واحد می باشد.
ارتفاع این منحنی با مقادیر میانگین () و انحراف معیار() ارتباط دارد. با وجود فرمول نسبتا” پیچیده و دخیل بودن پارامترهای ثابتی چون عدد (p) یا عدد (e) در این فرمول، می توان از آن برای مدل کردن رفتار میزان IQ، قد یا وزن انسان، پراکندگی ستارگان در فضا و … استفاده کرد.

سطح زیر منحنی نرمال برای مقادیر متفاوت
مقدار میانگین و واریانس

این منحنی دارای خواص بسیار جالبی است از آن جمله که نسبت به محور عمودی متقارن می باشد، نیمی از مساحت زیر منحنی بالای مقدار متوسط و نیمه دیگر در پایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختصات نزدیک می شویم احتمال وقوع بیشتر می شود.

سطح زیر منحنی نرمال برای مقادیر متفاوت مقدار میانگین و واریانس فراگیری این رفتار آنقدر زیاد است که دانشمندان اغلب برای مدل کردن متغیرهای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنند. بعنوان یک مثال در یک امتحان درسی نمرات دانش آموزان اغلب اطراف میانگین بیشتر می باشد و هر چه به سمت نمرات بالا یا پایین پیش برویم تعداد افرادی که این نمرات را گرفته اند کمتر می شود. این رفتار را بسهولت می توان با یک توزیع نرمال مدل کرد.

تابع چگالی احتمال

تابع چگالی احتمال برای توزیع نرمال بر حسب امید ریاضی و واریانس تعریف میشود.و تابع آن به صورت زیر است:

اگر در این فرمول باشد در این صورت به آن تابع توزیع نرمال استاندارد گویند. در این حالت تابع توزیع به صورت زیر خواهد بود:

کاربردها

از مهمترین کاربردهای این تابع توزیع در دانش اقتصاد و مدیریت امروز می توان به مدل کردن پورتفولیوها (Portfolios) در سرمایه گذاری و مدیریت منابع نام برد. هنگامی که مقدار منفی برای متغییر معنی نداشته باشد معمولا” در محور x منحنی را منقل می کنند و مقدار میانگین – که دارای بیشترین احتمال وقوع هست – را به سمت مقادیر بزگتر شیفت میدهند.

مرجع : مجله رشد

http://daneshnameh.roshd.ir/mavara/mavara-index.php?page=%D8%AA%D9%88%D8%B2%DB%8C%D8%B9+%D9%86%D8%B1%D9%85%D8%A7%D9%84&SSOReturnPage=Check&Rand=0

نکات امتحانی میان ترم درس یادگیری ماشین دکتر شیری ۹۲/۰۲/۰۴

اطلاعیه ها, یادگیری ماشین No Responses »

Apr 232013

امتحان ۱۰ صبح روز چهارشنبه ۹۲/۰۲/۰۴ برگزار خواهد شد.

امتحان از ۵ فصل اول خواهد آمد

مقدمه
یادگیری مفهوم
درخت تصمیم
شبکه های عصبی مصنوعی
ارزیابی فرضیه

نمونه هایی از حل تمرین یادگیری ماشین مربوز به فصل ۴ ( شبکه های عصبی ) که خانم مهندس مولایی تدریس یار محترم زحمت کشیدند را ملاحظه بفرمایید.

خلاصه کلاس تدریس یار بهینه سازی ریاضی بنیان ۹۲/۰۲/۰۱

بهینه سازی ریاضی بنیان No Responses »

Apr 212013

الگوریتم SA
GA الگوریتم

در فضای ۳ بعدی ممکن است بعضی نقاط مینی مم باشد و بعضی نقاط ماکزیمم

کانتور آنرا کشیده ایم
الگوریتم متا هیوریستیک

exploration یک الگوریتم یعنی تمام مساله را بررسی کند
explotation توانایی پروراندن پاسخ های فعلی

یعنی کنار جوابی را که پیدا کردم خوب بتونم بگردم
Population

۱- تپه نوردی
Simulated Analing
PSI
Ant Colony

در الگوریتم SA یک فرمول داریم :
احتمال اینکه یک جواب بد را بپذیرم
T اول الگوریتم یک مقدار بزرگ مثلا برابر ۱۰۰ هست

الگوریتم شبیه سازی تبرید

چه وقتی دلتا اف منفی است ؟

۴ شنبه یک مساله TSA می سازیم و حل می کنیم

swap –
reversion
insertion
در SA استفاده می شود

چهارشنبه ۴ اردیبهشت ساعت ۲ تا ۴ با دکتر شمسی
و۴ تا ۸ با اقای بابایی کلاس جبرانی برگزار می شود

امتحان میان ترم ریاضیات یادگیری خانم دکتر امین غفاری – خرداد ۹۲

اطلاعیه ها No Responses »

Apr 212013

همکلاسی های گرامی به اطلاع میرساند خانم دکتر امین غفاری امتحان میان ترم را به در خواست دوستان به کلاس حضوری خرداد ۹۲ موکول کردند.

موفق باشید.

اینشالله همه ۲۰ بشید.

محمد نادی

خلاصه درس ریاضیات یادگیری ۹۲/۰۱/۱۷

ریاضیات یادگیری No Responses »

Apr 062013

۹۲/۱/۱۷ ESL

اگر سیگما را نداشته باشیم باید برآورد کنیم SSE
برآوردسیگما ۲ می شود SSEتقسیم بر درجه آزادی

امتحان از آمار و رگرسیون هست
بطور مستقیم از آمار امتحان نمی آید
مشابه نمونه سوالاتی که خانم گرجی حل می کنند

پروژه هم انجام بدهید در فصل ۳
۸ سری داده هست
۴ نمره اضافی پروژه دارد
مهلت تحویل پروژه تا زمانی که میشه نمره ها رو قطعی کرد( تیر یا مرداد)
بهتر است ۲ تا متغیر در نظر بگیرید

روشهای Shrinkage

اسلاید ۱۱ از ۱۹
Ridge Regression
توزیع Yi به شرط بتا j
سیگمای بتا j^2 ها را در نظر میگیریم
————————————
امروز مبحث Lasso Regression را توضیح میدهیم
مجموع مربعات خطا را مینیمم میکنیم به شرط اینکه سیگمای قدر مطلق بتا j ها از یک مقداری کمتر باشد

تفاوت ریج و لاسو :
در ریج هیچ ضریبی صفر نمی شود ولی در لاسو ممکن است ضرایب صفر شوند

در این ۳ روش پارامتر هایی دارند که باید آنها را مشخص میکنیم که به آن Cross Validation می گوییم

subset selection
df landa

می توانیم از تصویری از داده ها استفاده کنیم تا وضوح بهتری داشته باشیم

کاری که در Principal Component Regression انجام میدهیم تصویر سازی است
ماتریس مربع داریم که تجزیه میکنیم به دو ماتریس
ماتریس D (قطری) و ماتریس V ( اوتوگونال ) Di ها مقادیر ویژه هستند

اگر بتوانیم به این صورت بنویسیم از روش پرینسیپال به راحتی میتوانیم حل کنیم

Principal Component یعنی یک X داریم مولفه های اصلی اش را با تجزیه پیدا می کنیم

در واقع اگر دو بعد داشته باشیم p=2

یک سری داده داریم در قالب X1 , X2 که نقاط سبز را تشکیل می دهند

مولفه های اصلی D1 , D2 را پیدا کنیم

در این شکل نقطه ها در جهت D1 پراکنده شده اند

اگر بخواهیم متغیری را حذف کنیم بعد D2 را حذف می کنیم چون D1 مهم تر است

(اجباری هم در حذف بعد نیست )

مقادیر وِیژه را در متلب می توانیم با دستور (SVD(x’x محاسبه کنیم

به جای اینکه p تا Z داشته باشیم M تا Z را نگه میدارم
پس در Principal به جای اینکه بین x , z رگرسیون بگیرم بین y , z رگرس میکنم
M=p least Square
z=xv

کاهش بعد هم انجام داده می شود

۴ روش در این فصل گفتیم :

Subset Selection
Ridge Regression
Lasso Regression
Principal Component Regression

4 روشرگرسیون

معمولا روش ریج دقیق تر است
امتحان از فصل ۱ و ۳ هست