آذر ۲۴۱۳۹۲
 

الگوریتم SVM
یکی از مثالها : تشخیص سلولهای سرطانی
ID رو Typeless کردیم
Class رو Target کردیم

در گزینه SVM از اونجایی که متغیر target رو انتخاب کرده ایم
و سایر متغیر ها به عنوان Input شناخته شده اند

گزینه Model مربوط به مدل آیا دیتا های ما از چند قسمت تشکیل شده اند یا خیر

کرکره Expert دو گزینه دارد (Simple , Expert)

یاد آوری می شود روش های SVM از تابع کرنل هست
ممکنه روشهای مختلفی استفاده کنیم

با انتخاب گزینه Expert می توانید از توابع Kernel استفاده کنیم
در قسمت اول متغیر ها را بر اساس درجه اهمیت نشان می دهد

احتمال برای درست پیش بینی شدن را می دهد

یکبار به روش RBF خروجی گرفتیم

این مقدار احتمال ها ممکن است خیلی به ۱ نزدیک باشد

به روش Polynomial ، خروجی مربوطه برای متغیر هایی که این فرم را دارند

میزان دقت polynomial صد در صد هست

داده کاوی و کشف دانش گام به گام با Clementine خانم علیزاده
داده کاوی و کشف دانش گام ب گام با نرم افزار Clementine علیزاده د.خواجه نصیر

یکی از روشهای مورد استفاده از متد های شبکه عصبی در داده کاوی هست
مثلا رگرسیون ارتباط متغیر های وابسته به متغیر های مستقل نشان می دهد

مثلا شرکت ها چقدر بدهی داشته باشند

سوالات :
سوال اول تعریفی است
مثلا desicion Tree

الگوریتم هایی که استفاده می کنید
درجه اطمینان و میزان پشتیبانی
روشهای خوشه بندی – kmeans خوشه بندی کنید
با Complete Linckage یا Average Linkage
آزمون تمام مطالب سر کلاس هست

Continue reading »

آذر ۲۱۱۳۹۲
 

کلاس حضوری داده کاوی – ۹۲/۰۹/۲۱

آقای مهندس حائری – مرکز افکار سنجی جهاد دانشگاهی
دموی تمام الگوریتم ها را ببینید

در داده کاوی ممکن است یکی از کار های بخواهیم
توصیف
مقایسه کردن ( با استفاده از الگوریتم های t , z , Anova , Manova امکان پذیر است )
بررسی رابطه (ضریب همبستگی یا ضرایب پیوند – انواع رگرسیون )
رده بندی و خوشه بندی (درخت تصمیم – درخت رگرسیونی)
پیش بینی (time series)

 

آذر ۱۷۱۳۹۲
 

خلاصه جلسه تدریس یار داده کاوی – ۹۲/۰۹/۱۷

برای روابط می توانیم از روش های آماری مختلف استفاده کنیم

می توانیم از جداول دو بعدی هم استفاده کنیم

اگر متغیر هایی که ما می خواهیم بررسی کنیم هر دو کمی باشند می توانیم از ضرایب همبستگی پیرسون استفاده کنیم

مثلا در آمد افراد با سن افراد نسبتی را بدست بیاوریم

رابطه بین دو متغیر را با پیرسون مشخص می کنیم

آیا سن روی در آمد تاثیر می گذارد ؟

سن به عنوان متغیر ورودی ، تاثیر گذار
در آمد به عنوان متغیر تاثیر پذیر

بنابراین از روش های رگرسیونی استفاده می کنیم

متغیر وابسته ما مقدار کمی است
اگر متغیر وابسته صفر و یک باشد نمی شود رگرسیون گرفت
ممکن است رگرسیون لوجستیک دو حالتی را انتخاب کنیم

ممکن است رگرسیون پواسن را انتخاب کنیم

اگر متغیر وابسته عددی باشد …

فرم رگرسیون خطی را باید مشخص می کنیم

در فیلد های کمی سرشماری می تواند به عنوان متغیر target استفاده شود

اگر متغیر ما تحصیلات باشد و به آن کد اختصاص داده باشیم باید آنرا به متغیر های مجازی تبدیل کنیم

مثلا برای در آمد
income = a + B1.Age+B2.Edj1+B3.Edj2+B4
جدول آنالیز واریانس را در خروجی می بینیم

 

SVM
Support vector Machine
از روشهای هوش مصنوعی است مثل درخت های تصمیم گیری بر اساس یک متغیر هدف خاص که ترجیحا از جنس کیفی باشد

داده ها را می خواهیم پیشگویی کنیم
ستون ID را بدون فرمت می کنیم (Typeless)
متغیر اصلی و هدف class هست

از پارامتر عرض ازمبدا که پیش فرض را ۱۰ گرفته است استفاده می کنیم

مهمترین متغیر های موثر را به ما نشان میدهد

آذر ۰۳۱۳۹۲
 

خلاصه مباحث درس Celementine 92/09/03
الگوریتم Quest

Modeling –> Feauture Selection
اگر بخواهیم از بین مولفه های زیادی چند گزینه را انتخاب کنیم
باید تک تک متغیر ها را با متغیر هدف مورد مطالعه قرار دهیم
و آن متغیر که تاثیر بیشتری دارد را نگه می داریم

پس ما به دنبال متغیر های مناسب هستیم

Modeling –> Anomaly
با استفاده روش های تحلیل خوشه با حضور چند متغیر پرت هستند شناسایی کنیم (Anomaly Detection )
داده هایی که بیشترین مغایرت با داده های دیگر را دارد شناسایی کنیم

 

 

آبان ۱۲۱۳۹۲
 

خلاصه درس تدریس یار خوشه بندی – مهندس حائری ۹۲/۰۸/۱۲
درخت تصمصم گیری
یک روشی هست که بر اساس قوانین .. ایجاد میشه

درخت تصمصم گیری تارگت شان متغیر های کمی هست
متغیر خروجی اگر کیفی باشد ، درخت رده بندی گفته می شود

می توانیم درخت های متعددی بکشیم
در C5 ممکن است چندین روش وجود داشته باشد ولی بهترینش را نشان می دهد ولی در درخت تصمیم همه درخت ها را نمایش می دهد

از معایبش اینکه اگر تعداد متغیر ها زیاد باشد در صفحه مونیتور نمی توان دید

درخت تصمیم کاربرد های زیادی دارد

برای اینکه الگوریتم C5 را فرا بخوانیم لازم بود type را بدانیم و آن چیز هایی که لازم نیست را حذف کنیم

ReadValue را می زدیم تا اطلاعات را بخواند

الگوریتم C5 ویژه متغیر های کیفی بود

این الگوریتم خیلی تحت تاثیر مشاهدات بی پاسخ قرار نمی گیرید

Target کیفی است ولی input هم می تواند کیفی باشد هم کمی

هر چقدر تعداد use Boosting ها مون کمتر باشد پیچیدگی کمتری خواهیم داشت

اگر از گزینه Expert استفاده می کردیم
گزینه Window Attributes قبل از اینکه C5 شروع بع کار کند متغیر هایی که در رشد درخت نقض سازنده ای نداشته باشد در مدل بندی استفاده نخواهد کرد

Costs :
use misclassification costs
اگر دیتایی بخواهد بد رده بندی شود جریمه ای در نظر گرفته شود یا خیر

در گزینه Analyze
Calculate predictor impotance : اهمیت هر کدام از متغیر های مسقل ورودی را برای ورود به ساخت درخت

 

 

آبان ۰۵۱۳۹۲
 

خلاصه درس تدریس یار داده کاوی ۹۲/۰۸/۰۵
K-means

Unomary Detection
تحلیل خوشه ای نیاز به هیچ پیش شرط آماری نیست

یک متغیر Target یا هدف باید داشته باشیم
که یا از قبل مشخص می کنیم به عنوان Target
یا به جای اینکه از use type node setting استفاده کنیم از use
custom setting استفاده می کنیم

یکی از این الگوریتم ها الگوریتم C5 هست

الگوریتم C5 اولا برای متغیر های کیفی ( چه به فرم اسمی باشد یا
به فرم ترتیبی )

ملاک برای خوشه بندی چه متغیر هایی می تواند باشد ؟
باید مجموعه ای از متغیر های ( کمی و یا کیفی ) در دسته بندی
متغیر ها مورد استفاده قرار بگیرد

متغیر های ورودی Input را باید وارد کنیم

در نسخه IBM modeler 14 یک گزینه اضافه شده : Use Weight Field
(مثلا به تفکیک سال )

Build model each split
اگر مدلی را به عنوان تقسیم کننده انتخاب کرده باشیم ، برای هر
بخش تقسیم شده کدش را نمایش می دهد

مدل می تواند Simple ساده باشد یا Expert حرفه ای

درخت تصمیم بایستی با کمترین شاخه بتواند ما را با نتیجه برساند
در تمرین قبل الگوریتم C5 را اجرا کنید و بفرستید

 

مهر ۲۸۱۳۹۲
 

خلاصه درس تدریس یار داده کاوی – ۹۲/۰۷/۲۸

spss 14 modeler
File – Open – Demo

Source – Node Statistic files – Demos -
از لیست فایل ها فایل telco را انتخاب می کنیم
این فایل شامل ۴۲ ستون و ۱۰ ردیف هست

این فایل را برای مثال K میانگین و ۲ Step Cluster باز می کنیم

از بین لیست متغیر هایی که داریم ، چند فیلد را وارد کرده ایم
در این کار هدف این است که از ۴۲ متغیر با استفاده از این ۵ متغیر کار خوشه بندی داده ها را انجام بدهیم
۱۰ تا مشاهده داریم
به چند روش می توانیم این داده ها را خوشه بندی کنیم
قسمت Field – User Custom Setting را می زنیم
در کرکره Model اتوماتیک هست و یا نام دلخواهی را انتخاب کنیم
اگر از داده های بخش بندی شده استفاده کنیم
ما در سیستم K میانگین محدودیتی داریم که باید بدانیم به چند خوشه می خواهیم تقسیم بندی کنیم
به صورت پیش فرض ۵ خوشه داریم

آیا می خواهیم ستون مربوط به فاصله ها را
در کرکره بعدی Expert : آیا اطلاعاتی که داریم می خواهیم یک خوشه بندی ساده باشد یا اطلاعات کاملتری را هم بدهد.
اگر اجرا کنیم این شکل دیده می شود

ta-datamining-Spss-Clementine

 

ta-datamining-Spss-Clementine2

5 تا خوشه ای که انتخاب کرده ایم
اگر تعداد خوشه های کمتری را انتخاب می کردیم ممکن بود مقدار سایه نما Siloet بهتری را داشتیم
در View گزینه cluster داریم
که می گوید چه ویژگی هایی وارد شده
در ردیف size درصد خوشه ها را نمایش می دهد
در پایین منو نمونه ها و جدول های دیگری را نمایش می دهد
Show Basic : درجه اهمیت و تعداد متغیر های موثر در خوشه بندی اعلام می کند.

متغیر های پیشگو : Predictor importance
Summary : خلاصه اطلاعات را می دهد
می توانیم چند بار از K-means استفاده کنیم

یک روشی دیگر داریم به نام ۲ Step Cluster

باید نرمال چند متغیره باشد
در k-means برای متغیر های کمی هست
و نمی توانیم از متغیر های کیفی استفاده کنیم

در سیستم ۲Step Clustering
امکان محاسبه فاصله برای متغیر های کیفی هم بوجود امده است .

قبلا خوانیم که باید داده ها نرمال چند متغیره باشد

Node 2 Step Cluster را اضافه کردم
با کلید f2 اتصال را برقرار کردم
DblClick که می کنیم روی ۲ step cluster
مشابه متغیر هایی که برای k-means انتخاب کرده بودیم اینجا هم انتخاب می کنیم
در تب Model گزینه ای برای عددی کردن داده ها وجود دارد
exclude outlier : مشاهدات پرت را از تحلیل حذف می کند
به صورت پیش فرض اگر بیش از ۳ داده پرت باشد از دور خارج می کند

برای نفر دوم ، سن نفر دوم را منهای انحراف میانگین نفرات می کند

بهینه تعداد خوشه ها می تواند تشخیص دهد
یا اینکه امکان این هست که تعداد کلاستر را اجبار کنیم
Distance Major : حداکثر درست نمایی : فاصله اقلیدسی هم داریم
معیار خوشه بندی بر اساس معیار بیضی شوارتز BIC یا AIC باشد

 

 

مهر ۲۱۱۳۹۲
 

۹۲/۰۷/۲۱ تدریس یار داده کاوی

ما می خواهیم که ۴ سری دیتا به عنوان تمرین وارد کنید و ارسال کنید

فایل cars
در sample های spss معمولی اگر باز کرده باشید می توانید باز کنید و استفاده کنید در folder sample هست
بعد از اینکه node statistic را لود کردیم

spss-cars

در ستون value متغیر ها لود می شود
ممکن است در متغیر ها بی پاسخی داشته باشیم

مثلا در متغیر MPG اطلاعاتش نباشد

وقتی روی missing کلیک می کنیم می توانیم آنرا خاموش یا روشن کنیم
یعنی بی پاسخی را برای آن تعریف کنیم

در سیستم این امکان وجود دارد که با بی پاسخی هر جا اطلاعات داشته باشد استفاده کند و رهر جایی که missing باشد آنرا رها میکند

برای کنترل داده های معتبر می توانیم در missing specify را انتخاب کرده و در ستون check محدوده اعداد و یا شرطی را انتخاب کنیم و جایگذاری کنیم
نحوه برخورد با بی پاسخی را تنظیم می کنیم
گزینه Coerce : وقتی به محدوده بی پاسخی میرسد , متغیر کمی است میانگین داده ها در نظر می گیرید

اگر داده ها به صورت عددی باشد و مثلا ۰ را به عنوان بی پاسخ داده باشیم نزدیکترین عدد را جایگذاری می کند
اگر در Type Set بگذاریم در داده ها عدد هم باشد ، اعداد با کوچکترین عددی که سیستم می شناسد جایگذاری می کند.

در مورد جنسیت True / False بی پاسخ باشد به صورت کد کوچکترین را قرار می دهد ( false خواهد بود )
داده ها می تواند بدون نقش باشد ( مثل شماره دانشجویی ) محاسباتی نیست

برای اینکه بدانیم که داده ها به طور صحیح وارد شده Table آنرا ایجاد میکنیم

روی مبدا کلیک , F2 و سپس روی مقصد کلیک می کنیم



سیستم که می خواهد مدلی را Run کند

در قسمت expert هم نوع خروجی که سیستم میدهد مشخص می شود

اگر expert را انتخاب کنیم شرط توقف را هم در داده ها خواهیم داشت

نمودار siloet
هر چه مقدارش به ۱ نزدیک تر باشد نشان دهنده مناسب بودن خوشه هاست

 

 

شهریور ۳۱۱۳۹۲
 

۹۲/۰۶/۳۱
تدریس یار داده کاوی – استاد حائری

لینک spss modeler

http://soft98.ir/software/engineering/14714-IBM-SPSS-Modeler.html
آشنایی با محیط کلمنتیاین

A : صفحه جریان
B : صفحه جریان / خروجی / مدل ها
C : برای کریسپ و کلاس ها
D : کلید های میانبر

 spss-snapshot
نقطه شروع داده کاوی : منبع داده هاست
از notepad , sas , spss, Database می توانیم بخوانیم

برای وارد کردن اطلاعات در صفحه استریم :
می توانیم دوبار کلیک کنیم
یا اینکه node را به صفحه استریم Drag کنیم

برای لود کردن داده ها node ها را باید بیاریم

فرمت داده های spss با پسوند .sav هست

 

spss-snapshot2

 

Continue reading »

با کلیک روی آگهی زیر مبلغ 400 ریال به حساب من واریز می گردد

با کلیک روی آگهی زیر مبلغ 1000 ریال به حساب من واریز می گردد