Oct 262013
 

خلاصه درس تدریس یار خوشه بندی ۹۲/۰۸/۰۴
تمرین : حتما از مقالات جدید استفاده کنید
مثلا از Fuzzy FCMeans استفاده کنید
هر الگوریتم خوشه بندی یک تابع هدف دارد که آنرا مشخص می کنیم
چند تا معیار پیدا کردن خوشه های بهینه را گفته است
تعداد خوشه بندی بهینه در روش های مختلف ممکن است متفاوت باشد

گزارش حتما باید فارسی باشد.
تا جمعه ۹۲/۰۸/۱۰ تمدید شد.

به فرمت : HomeWork1_nadi
مرجع GMM ما از کتاب Bishop می گوییم
روابط بویژه از طریق فرمولاسیون

روش مخلوط گوسی مثل Fuzzy هست

تعلق به خوشه های مختلف ممنکن است متفاوت باشد

میانگین و واریانس پارامتر ها هستند
اگر داده ها چند بعدی بودند
یک ماتریس برای میانگین داشتیم – یک بردار برای واریانس

مثلا می گوییم : در مدل سازی یک مجموعه داده ای از یک مخلوط با ۳ تابع گوسی استفاده شده

توزیعی وزنش بیشتر است که تابع های بیشتری به آن Fit شده اند
Pi,k بیشتری دارد

پارامتر وزن : pi k
بردار میانگین : mio k
مولفه : Sigma k

یک متغیر تصادفی Z تعریف می کنیم ، یک بردار است
تعداد مولفه هایش به تعداد مولفه های گوسی هست
۳ مولفه دارد
هر کدام از مولفه ها می توانند ۰ یا ۱ باشند
و مجموع موله ها باید۱ شود
k تا حالت می شود

به جای اینکه بگوییم مولفه گوسی سوم ، متناظر Z آنرا می گوییم

پس توزیع Z پر رنگ میشه :
z=[z1 z2 z3]

توزیع توام

Ta-Clustering-GMM-pxk

p(a/b)= p(a)*p(b/a) / S(p(a,b))

در صورت وزن هر گوسی را در تابع توزیع ضرب می کنیم
تقسیم بر مجموع pi ها در تابع نرمال ها
اسلاید ۹ : Prior Probablility
zk =1 احتمال پیشین
احتمال پسین ، احتمال گوسی k پس از مشاهده x

—————————–

تمرین به صورت PDF و داخل یک فایل زیپ باشد

 

Oct 212013
 

خلاصه درس خوشه بندی جلسه ۹۲/۰۷/۲۹

GMM assumption
فرض می کنیم هر کلاستر تابع توزیع نرمال هست

اگر بخواهیم یک مدل آمیخته را نمایش دهیم
اگر Latent Variable ها را بدانیم
Latent Varible ها Parent های کلاستار ها هستند

aic : Akaike information Criteria
BIC :Bayesian Information Criteriaumber of cluster

می توانیم از فرمول قانون بیز استفاده کنیم
clustering-GMM-bayesian

اگر تعداد داده ها زیاد باشد و شکل نمایشی آن gaussian مانند باشد استفاده از روش GMM بسیار خوب است
ولی اگر داده ها کم است از GMM استفاده نکنید

clustering-GMM-bayesian2bayesClassifier

الگوریتم EM – یک فرض می گذارد
اساس کار این است که به صورت پیش فرض اطلاعات کافی نیست
و مشاهدات ناقص هست
یک متغیر zk به مساله اضافه می کند
و بر اساس متغیر پنهان (Latent variable )

هدف : با استفاده از الگوریتم EM، پارامتر های توزیع آمیخه(Mixture Model ) را بدست بیاوریم

قدم اول : مقدار دهی اولیه : Log Lokely hood را حساب می کنیم
قدم دوم : expectarion امید را حساب می کنیم
قدم سوم : مجددا پارامتر های استفاده شده را در وضعیت حاضر بدست میاریم
قدم آخر : فرض میکنیم Stop کردیم
موی کا ، سیگما کا و پای کا را بدست آوردیم
احتمال پسین هر کلاس به شرط مشاهده xi را حساب می کنیم
از قاعده بیز هر کدام که احتمالش بیشتر بود
داده کلاستر ۲ می شود
عمل انتصاب را انجام می دهیم

جلسه بعد AIC , BIC و همچنین Evaluation را می گوییم

پروژه :
برای پروژه درس از داده های شغلی تان استفاده کنید
مقاله از jornal international استفاده نکنید
از ۲۰۱۱ یا ۲۰۱۲ به بعد باشد

 

Oct 142013
 

خلاصه جلسه پنجم درس خوشه بندی – دکتر زارع ۹۲/۰۷/۲۲

بحث کلاسترینگ و Mixture Model

N تا آبجکت داریم که می خواهیم به K تا گروه خوشه بندی کنیم

مدل آمیخته(Mixture Model ) ترکیبی از توزیع های احتمالاتی است

چون هر خوشه با خوشه دیگر تفاوت دارد می توانیم این فرض را بگیریم که هر خوشه خودش دارای یک توزیع احتمال است و مجموع کل داده ها یک توزیع احتمالاتی دارد که ترکیبی از تک تک چگالی های داخل هر خوشه است

 

 

کاربرد مدل آمیخته در خوشه بندی :
در روشهای سلسله مراتبی و k-means نداشتیم نمی دانستیم که الگوریتم تا کجا باید پیش برود و تعداد K چند تا باشد جواب بهینه بدست می آید و بیشتر به خروجی نگاه می کردیم
ولی در Mixture Model می توانیم برای انتخاب بهترین مدل، معیار داشته باشیم

مثل BIC و AIC
Akaeki Information Cretaria
Baysian Information Cretaria

معمولا از تابع گوسی استفاده می کنیم

GMM – Gaussian Mixture Model

آقای Andrew Moore
مولفه را با امگا i نشان داده ایم

برداری از ویژگیها داریم

clustering-gmm-formula

فرض می کنیم نوع تراکنش هر گونه باهم برابر است

توزیع یونیفرم
ابتدا یک عدد تصادفی بین صفر و یک ایجاد می کنیم

اگر عدد تصادفی ایجاد شده کمتر از ۰٫۳ بود امگا ۱ می گذاریم
اگر عدد تصادفی ایجاد شده کمتر از ۰٫۵ و بیشتر ۰٫۳ بود امگا ۲ می گذاریم

و بزرگتر از ۰٫۵ بود امگا ۳ می گوییم

ممکن است شکل خوشه ها شکل هم نباشد
همبستگی خطی
تا هفته بعد تمرین که حداکثر ۱ نمره دارد بفرستید
Mixture of Gaussian
متغیر پنهان

هر نقطه در آن واحد فقط می تواند به یک خوشه متعلق باشد

Oct 122013
 

۹۲/۰۷/۲۰
این جلسه باقی K-means را می گوییم و در جلسه بعدی درس بعدی GMM هست

در تمرین ها
توضیح معیار را از مقاله کپی نکنید ( به صورت انگلیسی )
برداشت خودتان را به فارسی بنویسید

در LMS بفرستید
و اگر نتونسید به ایمیل clustering_1391@yahoo.com
تا روز جمعه بفرستید
محدودیت اصلی روش k-means مبنایی
چنانچه مقادیر اولیه بردار های میانگین خوشه درست و مناسب انتخاب نشود.
ممکن است J در مینیمم محلی متوقف شود.

۳ روش برای مقدار دهی اولیه الگوریتم خوشه بندی K میانگین
۱- تصادفی
۲- تقسیم باینری
۳- آماده سازی حساس به هیستوگرام

روش آماده سازی رندوم : Random Selection
در این روش الگوریتم خوشه بندی k میانگین چندین بار با مراکز اولیه رندوم اجرا شده ، مراکزی که اولین مقدار تابع هدف اعوجاج به عنوان مراکز اولیه الگوریتم خوشه بندی در نظر گرفته می شوند.

روش تقسیم باینری :Binary Splitting
۱- از کل بردار ها یک مقدار متوسط و یک مقدار انحراف استاندارد می گیرد
۲- از مقدار متوسط یک ضریبی از انحراف استاندارد مقدار با کم و به اندازه همان زیاد می کند
۳- هر خوشه را بر اساس متوسط و انحراف استاندارد به دو گروه دیگر تقسیم می کند
درنهایت به k مرکز میرسیم
مثلا به ۷ تا خوشه که رسیدیم خوشه ها را ۸ تا در نظر میگیریم

این روش نسبت به روش رندوم سریعتر و موفق تر هست

روش حساس به هیستوگرام Histogram Sensitive
این روش یک هیستوگرام را بدست می آورد( نمودار فراوانی داده ها ) Hist در متلب را تست کنید.

Ta-clustering-K-means-HSI

مجموعه اول خالی هست
روش کار در اسلاید
اولی بردار از مجموعه یادگیری را در مجموعه رفرنس قرار می دهیم
یک شاخص فراوانی داریم که به هر خوشه یک بردار نسبت میدهد
اگر فاصله از یک آستانه کمتر بود بردار دوم را بیرون می اندازیم و تعداد فراوانی که در آستانه بود را ۲ می کنیم

نمونه سوم را فاصله اش را با این یک نمونه پیدا می کنیم
نمونه سوم را حذف نمی کنیم بلکه به عنوان نمونه جدید در X_ref می گذاریم

مقایسه می کنیم ، با هر کدام که کمترین بود

پس سه روش K-means
RSI
BSI
HSI
هست

قلب الگوریتم خوشه بندی تابع هدف آن است.

سوال : در توزیع نرمال اینکه بردار داریم در این صورت توزیع نرمال چطور محاسبه می شود؟ منظورم در قسمت ایکس منهای میو است

 

Oct 072013
 

خلاصه جلسه خوشه بندی دکتر زارع
max یا Complete linkage
Group Average
تقسیم بر تعداد کل اعضا

محدودیت : اگر یک سری ساختار ها ی global
داشته باشیم ، نسبت به آنها اریب خواهد داشت

هزینه محاسباتی : O^3
دیگه نمیشه تصمیم را بر گرداند

در روش Hierarchical اول هر نقطه را یک خوشه
می گرفتیم و بعد merge می کردیم

ولی در روش divisive برعکس
ابتدا یک کلاستر داریم و در مرحله بعدی میشکنیم

در عمل از الگوریتم Divisive خیلی استفاده نمی
شود.

یک مثال در hirearchical هست :
یک ماتریس آمده در قدم اول
در امتحان شبیه این ماتریس میدهیم که شما در
ابتدا تشخیص دهید که ماتریس Distance هست یا
….

در امتحان میان ترم این نمونه سوال میاد
قدم اول Merge A,B
قدم دوم Update Min یا sinlge Linkage
قدم بعدی تکرار update Min
که نتیجه {{A,B},{C}
{{A,B},{C}},D}
دندروگرام هم میشه کشید.
برنامش هم میتونید بنویسید.

صفحه ۳ / ۱۷
صفحه ۵ / ۱۷

Single Linkage
Average Linkage
Warde Linkage

هر distance شما در یک خوشه باید قرار گیرد

الگوریتم خوشه بندی افرازی تفاوتش این است
Algorithm K-means
۱- decide on a value for k
۲- initialize the k cluster centers ( randomly , if
necessary )
۳- decide the class member ships of the N
objects by assigning them to the nearest
cluster center.
۴- Re-estimate the k Cluster centers, by
۵-

نقاط قوت :
k-means
قدرت محاسباتی خوبی دارد

نقاط ضعف :
داده های گسسته خیلی کارایی ندارد

بایدتعداد خوشه ها را باید ار قبل تعیین کنیم
نویز دیتا
برای کلاستر های مقعر مناسب نیست

ایمیل استاد
h . zare @ ut . ac . ir
hadizare @ gmail . com

 

Oct 052013
 

۹۲/۰۷/۱۳
تدریس یار خوشه بندی

تمرین تا ۲۴ مهر فرصت داده شده

الگوریتم K-means

تعداد خوشه ها به صورت پیش فرض به ما داده می شود
اما خیلی مواقع این تعداد در دسترس نیست

یک سری بردار ویژگی داده می شود که باید تقسیم بندی کنیم که چند دسته نقسیم می شوند.

هدف خوشه بندی :خوشه بندی تا حد امکان فشرده باشند و خوشه های مختلف تا حد امکان فاصه آنها از هم بیشتر باشد.

تعداد پارامتر های مدل را باید بیشتر کرد

باید یک پارامتر جریمه باید گذاشت که تعداد خوشه ها خیلی زیاد نشوند

به عنوان تمرین هفته آینده گفته می شود : هر کسی حداقل ۵ معیار را پیدا کند که تعداد خوشه های بهینه در یک الگوریتم خوشه بندی بهینه باشد
این برچسب ها در ابتدا مشخص نیستند.

این برچسب ها می گویند هر داده مربوط به چه خوشه ای است
در K meas
n اندیس نمونه k هست
k بین ۱ تا ۳ تغییر پیدا می کند

 

 

برای هر نمونه X(n)
نمونه یکم در مرحله اول به چه خوشه ای تعلق دارد
توسط تابع j مجموع مجذورات بردار نمونه را حساب میکنیم

قرار است تابع را مینی مایز کنیم ، فاصله هر نمونه تا مرکز خوشه حداقل شود

هدف k-means حداقل سازی
به روش تکرار شونده انجام می دهد .
اول از همه شروع الگوریتم ۳ تا مرکز اولیه را بدهد

چند تا نقطه local min می تواند داشته باشد

اهمیت دارد که Global min داشته باشد

در یک فرایند دو فازی این
یک تابع دو پارامتری هست

فرض می کنیم میو k ثابت هست
نسبت به rnk حداقل کنیم

تعلق داده ها به خوشه ها

برچسب نمونه
ولی j را در فاز دوم نسبت که میو k حداقل کنیم

در هر فاز تابع j را پیدا میکنیم

فاز دوم اینکه چجوری میو k را انتخاب کنیم
مشتق میگیریم

در جایی که الگوریتم را تکرار کنیم و برچسب های خوشه عوض نشد ، نقطه پایانی هست ( یکی از معیار ها )

 

روش K-means

روش K-means

EM : Expectation Maximization روش بیشینه سازی امید در K-means

 

محدودیت اصلی روش K-means مبنایی

روشهای دیگر : فازی C-means و gmm و کاهش بعد را در این درس بررسی میکنیم

 

Sep 282013
 

۹۲/۰۷/۰۶
تدریس یار خوشه بندی

تابع توزیع گوسی :
یک تابع توزیع نرمال معروف هست

تابع توزیع گوسی
در خوشه بندی یک نوع ورودی داریم feature vector
مولفه های ویژگی در یک بردار جمع می شوند ( بردار ویژگی می گوییم )

در درس خوشه بندی با بردار ویژگی سر و کار داریم

مدل گوسی یک مدل پارامتریک هست
پارامتر های توزیع گوسی ” میانگین و واریانس ” هستند
این پارامتر ها در

مثلا ۱۲۰ تا بردار ویژه بیماران داریم ، یک بردار ۳ بعدی میانگین ویژگی های آن بیماران را داریم .
Multi Variable هست
واریانس در حالت کلی یک ماتریس هست

در حالت ابتدایی اگر فقط یک پارامتر را از بیماران داشته باشیم

مشابه زنگوله هست

حساسیت به ازای تغییر دلتا زیگما ،

انحراف استاندارد :

var : واریانس
cov : کواریانس
det : دترمینان
std – جزر واریانس

داده ها که به سمت میانگین نزدیک می شوند …
هر چه واریانس بیشتر شود ، زنگوله پهن تر می شود

هر ماتریس چند مولفه روی قطر دارد و چندین مولف خارج از قطر

مولفه های روی قطر : واریانس هستند
مثلا مولفه دوم : پراکندکی ( واریانس ) ویژگی قند خون را نشان می دهد

مولفه های غیر قطر : کواریانس هستند
مثلا پراکندگی قند خون و فشار خون نسبت به یکدیگر

پس ماتریس کواریانس یک کاتریس متقارن هست

بردار های ویژگی D بعدی هستند
یعنی x یک ماتریس D * 1 هست

mio هم که متوسط هست
x*mio همان D * 1 می شود

سیگما D*D هست
معکوسش هم D* D هست

 

Sep 162013
 

۹۲/۰۶/۲۵
خوشه بندی Clustering

n تا رکورد داریم ، می خواهیم آنها را به k قسمت تقسیم کنیم

هدف اصلی کلاسترینگ ، گروه بندی اطلاعات

روشهای semi supervised

Complex Network
شبکه های اجتماعی
اجتماعات پنهان
شبکه های تکنولوژیک – مثل شبکه برق یک منطقه -یا شبکه فرودگاه های یک کشور

recommender system

text mining

term Document Matrix
High dimential Data با روش های خوشه بندی کوچک می کنیم

مثال ساده برای مفاهیم :
یک سری حیوان داریم می خواهیم به یک سری خوشه بندی همگن تقسیم کنیم

پستانداران ، پرندگان ، خزندگان ، ماهیان ، دوزیست

معیار ها مهم هستند
محیطی که حیوانات زندگی می کنند ( دریا ، خشکی )
یا نحوه تولید مثل

اگر معیار ها را عوض کنیم دسته بندی ها متفاوت می شود
خوشه بندی … نیست ؟

Supervised classification نیست
Simple Segmentation نیست
Results of query نیست
Graph Partitioning نیست
————————————-

fraud detection کشف تقلب در بانک ها

Domain expert ها بایستی نتایج اطلاعات را تایید کنند

دسته بندی را دو بخش می کنیم
۱- روشهای افرازی Partitional Clustering
۲- روشهای سلسله مراتبی Hirerachical Clustering
——————————————–

fuzzyClustering

دسته بندی در بانک ممکن است یک سری از اطلاعات بدرد نخور باشد
که ممکن است آنها را حذف کنیم
روشهای خوشه بندی :

Newarest Neigbor
Density-Based
Conceptual Clusters

یک سری نکات :
انواع Features
مراحل خوشه بندی
۱- feature selection
۲- proximity measure
۳- معیار
۴- الگوریتم
۵- اعتبار سنجی نتایج ( روشهای ارزیابی یا domain expert )
۶- تفسیر

 

با کلیک روی آگهی زیر مبلغ 400 ریال به حساب من واریز می گردد

با کلیک روی آگهی زیر مبلغ 1000 ریال به حساب من واریز می گردد