نادی

برنامه نویس و تحلیل گر داده علاقه مند به موتور های جستجوی مفهومی

Dec 092013
 

خلاصه درس داده کاوی – دکتر محمد پور – ۹۲/۰۹/۱۸

برنامه ارائه مقالات کنفرانس داده کاوی در لینک ذیل قرار دارد:

http://dl.irandatamining.com/users/uploads/BarnamehConference.pdf

 

امروز در مورد محک های ارزیابی تجربی صحبت می کنیم

سه روش مشهور داریم
که معروفترینشان Cross validation هست

اگر از روش هایی استفاده می کنیم فقط دستورش را ببینیم در clementine هر کدام یک مدل با فرض های مختلفی هستند

و بهتر بودن هر کدام مشخص نیست
با اینکه همه خوشه بندی انجام میدهند ولی ممکن است در ارزیابی موفق نباشند

انتخاب مدل مناسب کار بسیار سختی است

در مرحله ارزیابی مدل را تست می کنیم

از داده ها استفاده می کنیم ببینیم چقدر می تواند پیشبینی را انجام دهد

اگر روشی جدید ابداع کردید باید صحت پیشبینی آن از بقیه روشهای بهتر باشد

قابل تعمیم بودن
قابل تفسیر بودن : روش ما باید قابل تفسیر باشد
سادگی
کیفیت نشانگر ها Domain-Dependent quality indicators
————

چطور خطا را حساب می کنیم
با تابع Loss Function
ساده ترین آنها Zero Loss Function است

امید Loss میشه Risk

در مساله خوشه بندی خیلی ساده تعداد ۱ ها بخش بر n می شود

در خوشه بندی وقتی می خواهیم Evaluate کنیم
Nc تعداد داده های درست کلاس بندی شده
Nt تعداد کل
درصد درست کلاس بندی شده هاست

e درصد اشتباه کلاس بندی شده هاست

datamining-evaluating

C اپسیلون داد ها
هزینه برای داده های بد کلاس بندی شده ها

miss clasification Cost

اگر بخواهیم به صورت نظری

COLT typical research questions

با داده های مثال از پیش تست شده روش جدید را می توانیم تست کنیم

چرا ؟ چون باید در بدترین شرایط تست شود

Emprical evaluation
سعی و آزمون
مثلا به تصادف چند داده را انتخاب کنیم
Resampling : ( باز نمونه گیری ) چند بار به صورت تصادفی انتخاب میکنیم میانگین آنها را محاسبه می کنیم
BootStrap : Resampling با جایگذاری است

Hold out برای داده های بزرگ کاربرد دارند

k-fold Cross Validation :
خیلی ها اتفاق نظر دارند که این روش خیلی بهتری است
در این روش جای داده های train و test عوض می شوند

datamining-evaluation-step1

 

 

datamining-evaluation-step2

datamining-evaluation-step3

 

۱- شکستن داده ها ( به صورت تصادفی ) مثلا یک سوم test دو سوم tranining
۲-
۳- داده هایی را که برای تست در نظر گرفتیم خطا ها را حساب می کنیم
——————————–
در Hold-out ما overlapping داریم
ولی در Cross-validation بحث overlapping را نداریم

اگر بخواهیم دو الگوریتم را با هم مقایسه کنیم
از روش های آماری می توانیم استفاده کنیم

 

Dec 082013
 

خلاصه جلسه تدریس یار داده کاوی – ۹۲/۰۹/۱۷

برای روابط می توانیم از روش های آماری مختلف استفاده کنیم
مثل رگرسیون

می توانیم از جداول دو بعدی (توافقی) هم استفاده کنیم

اگر متغیر هایی که ما می خواهیم بررسی کنیم هر دو کمی باشند می توانیم از ضرایب همبستگی
پیرسون استفاده کنیم

بعضی مواقع روابط بین متغیر ها هر دو ممکن است کمی نباشند
و یکی از آنها کیفی ترتیبی باشد

مثلا در آمد افراد با سن افراد نسبتی را بدست بیاوریم

رابطه بین دو متغیر را با پیرسون مشخص می کنیم

ضریب همبستگی فقط شدت و جهت متغیر ها را نشان می دهد

چه رابطه ای بین متغیر مستقل و ثابت وجود دارد ؟
کدام متغیر روی دیگری اثر می گذارد ؟
آیا سن روی در آمد تاثیر می گذارد ؟

سن به عنوان متغیر ورودی ، تاثیر گذار
در آمد به عنوان متغیر تاثیر پذیر
به این دلیل که درآمد که نمیتواند روی سن تاثیر بگذارد

بنابراین از روش های رگرسیونی استفاده می کنیم

در روش های رگرسیونی متغیر وابسته چیست ؟
متغیر وابسته ما مقدار کمی است
اگر متغیر وابسته بین صفر و یک باشد رگرسیون معمولی نمی توان گرفت
ممکن است رگرسیون لوجستیک دو حالتی را انتخاب کنیم

اگر پاسخ کمی و عددی باشد ممکن است رگرسیون پواسن را انتخاب کنیم و یا رگرسیون دو جمله
ای منفی

اگر متغیر کیفی ترتیبی باشد …

اگر متغیر وابسته عددی باشد …

در رگرسیون خطی آیا فرمولش مشخص است؟
فرم رگرسیون خطی را باید مشخص می کنیم

در فیلد های کمی سرشماری می تواند به عنوان متغیر target استفاده شود

بعضی از پیش فرض ها ذهنی هستند
مثلا در مناطق مرفه نشین خانه ها بزرگ تر ، انرژی بیشتری مصرف می کنند
اگر متغیر ما تحصیلات باشد و به آن کد اختصاص داده باشیم باید آنرا به متغیر های مجازی تبدیل
کنیم
مثلا متاهل =۱ و مجرد=۰ قرار می دهیم
برای تحصیلات فوق دیپلم =۰ یا ۱ ، لیسانس = ۰ یا ۱ ، فوق لیسانس =۰ یا ۱
(فقط صفر و یک )

مثلا برای در آمد
income = a + B1.Age+B2.Edj1+B3.Edj2+B4
جدول آنالیز واریانس را در خروجی می بینیم

برای مثال در فایل دیتای نمونه telco را کار می کنیم

در گزینه Expert گزینه include را می زنیم
در گزینه output علاوه بر دو تیک بالایی که خلاصه مدل و اطلاعات مربوط به ضرایب رگرسیونی را می دهد ضرایب جزیی و نیمه جزیی را می دهد

در کرکره analyze می زنیم

اینکه کدام از یک از متغیر ها در مدل تاثیر دارد نشان داده میشود

در کرکره summary خلاصه را می بینیم
در کرکره Advanced گزینه های پیشرفته را داریم

در جدول correlations ضرایب همبستگی متغیر ها با هم نشان داده می شود

متغیر هایی که خارح شمد و داخل شدند در جدول Variables Entere/Remoed نشان داده می شند
در model Summary نشان دهنده شدت همبستگی همه متغیر های وابسته با متغیر مستقل را نشان می دهد

به فرم درصدی نشان داده می شود

R square ضریب تعیین کننده است ، هر چه به ۱ نزدیک تر باشد نشان دهنده این است که متغیر ها خوب است
و هر چقدر به صفر نزدیک باشه نشان دهنده خوب نبودن متغیر های وابسته هست

آماره durbin-watsin هر چقدر از ۲ فاصله بگیرد ، ناخالصی را نشان می دهد
اگر آماره durbin-watsin بین ۰ و ۲ باشد نشان دهنده خود همبستگی مثبت است
اگربین ۲ تا ۴ باشد یعنی بین متغیر ها نتوانسته رابطه خوبی را تشخیص دهد

جدول آمالیز واریانس ANOVA
آیا مدل رگرسیون که انتخاب کردیم مدل مناسبی هست ؟
ویژگی های آماری
ستون درجه آزادی
ستون آماره F
sig – significant level سطح معنی داری (اگر از ۰٫۵ کتر باشد نشان دهنده این است که متغیر ضریبش مخالف ۰ است )

می خواهیم ببینیم که بیشترین تاثیر را دارد ستون بتا را می بینیم
صرف نظر از اینکه مثبت یا منفی باشد ، عدد نشان دهنده بیشترین تاثیر را نشان می دهد

zero-order
partial ضریب همبستگی سن و درآمد را وقتی مابقی متغیر ها هم اثر را گذاشتند و این اثر را حذف کردیم
Part ضریب همبستگی نیمه جزیی بین سن و در آمد ، همه متغیر ها روی متغیر وابستهاثر گذاشتند و ثابت مانده اند ( حذف نکردیم )

Col
بعضب مواقع بین متغیر ها رابطه رگرسیونی اجرا می کن تا بین متغر ها رابطه همخطی نباید وجود داشته باشد

ستون vif باید زیر ۱۰ باشد

در جدول بعدی مقادیر ویژه و مقادیر شرطی را مطرح کرده

شاخص شرطی هم باید زیر ۳۰ باشد
در قسمت variance proportions
وقتی عرض از مبدا اثر می گذارد سن دیگر نقش موثری ندارد

جدول آخر مقادیر پیش گویی شده را نشان می دهد
مشاهدات واقعی منهای جواب پیشگویی

 

SVM
Support vector Machine
از روشهای هوش مصنوعی است مثل درخت های تصمیم گیری بر اساس یک متغیر هدف خاص که
ترجیحا از جنس کیفی باشد

داده ها را می خواهیم پیشگویی کنیم
ستون ID را بدون فرمت می کنیم (Typeless)
متغیر اصلی و هدف class هست

از پارامتر عرض ازمبدا که پیش فرض را ۱۰ گرفته است استفاده می کنیم

مهمترین متغیر های موثر را به ما نشان میدهد

Dec 072013
 

خلاصه درس تدریس یار خوشه بندی – ۹۲/۰۹/۱۶
فیشر دو کلاسه را جلسه قبل گفتیم

هم واریانس بین کلاسی و هم واریانس درون کلاسی را محاسبه می کردیم

از لاگرانژ استفاده نکردیم و مستقیم مشتق گرفتیم ( چون صورت و مخرج با هم ساده می شد)
که رابطه ۴٫۲۹ بدست آمد

برای خوشه بندی کافیست روی داده ها یک میانگین های تصویر شده را محاسبه کنیم
متوسط میانگین های تصویر شده

——————————————
فیشر چند کلاسه :

مثلا روی داده های IRIS که چهار بعدی هست که می خواهیم به دو یا سه بعد کاهش می دهیم

فیشر حالت چند کلاسه – تعداد ابعاد از D بعد به به بیشتر از یک بعد و کمتر از D بعد هست

می خواهیم ‘D ویژگی خطی بدست بیاوریم

اگر ۴ بعد داریم می خواهیم به دو بعد کاهش بدهیم یعنی ‘D مساوی ۲ هست دوبردار باید داشته باشیم w1 و w2 داریم

رابطه ۴٫۳۹

clustering-fisher-multi





S Within جمع روی k کلاس واریانس درون کلاسی

clustering-fisher-multi-solution

یک ماتریس نسبت به دو کلاسه بیشتر داریم به اسم :
S total ماتریس کواریانس کل نمونه ها ( پراکندگی کل داده ها صرف نظر از کلاسشون )

ماتریس کواریانس کل را می توان به صورت جمع ماتریس درون کلاسی و ماتریس بین کلاسی نوشت

متوسط هر کلاس با متوسط همه کلاس ها S Bitween

Trace : اعضای قطر اصلی را با هم جمع کنیم

برای اینکه مساله فیشر را حل کنیم Sw , Sb را باید محاسبه کنیم
S^-1w*Sb

y1 , y2 در کنار هم بردار دو بعدی کاهش یافته می شود

clustering-fisher-multi2

نکته : Rank ماتریس ( درجه ماتریس )
می خواهیم ببینیم که حداکثر به چند بعد می توانیم کاهش بدهیم

هر ماتریس درون کلاسی Rank آن ۱ است
و k تا ماتریس را که با هم جمع می کنیم Rank آن K می شود

چون تمام متوسط ها به m ربط پبدا کردند Rank k-1 می شود

پس برای IRIS به دو بعد می توانیم کاهش دهیم چون ۳ تا کلاس دارد

clustering-fisher-multi-note

——————————–
تمرین : فیشر ۳ کلاسه IRIS را انجام دهید
——————————–

تمرین مهم :
موضوع اول : K-means
Search کنید در موضوعات k-means که به آن VQ یا LBG هم می گویند
می خواهیم انواع حالت های آنرا بگویید ( weighted VQ )
مقاله های جدید را پیدا کنید
۱- انواع روش های VQ را بگویند
۲- روش دوم VQ را بهبود دادند
۳- روشهای VQ را Weighted را گفته اند
Wave Distance – چه تابع هایی را می توان به جای Distance اقلیدسی ، معیار فاصله جدید استفاده کرده

به جای تابع نرم اقلیدسی چه تابع های دیگری را گذاشته است
ترجیحا مقالاتی را پیدا کنید که Cost Function های جدید ارائه کرده اند

————————————
موضوع GMM

————————————
موضوع Kernel

————————————
موضوع Fisher

Dec 072013
 

محتوای الکترونیکی
۱- موضوع –> ماهیت و موضوع –> تحلیل نیازمندی های مشخص شده
۲- شکل –> قالب و نحوه نمایش و عرضه یا دریافت محتوا

مشخص شده در هر انباره چه مقولاتی ذخیره شده است

هر عنوانی که در {} آمده، نشان دهنده این است که هر یک از موارد مشخصات مشتمل بر مجوعه ای از این داده ها خواهد بود
به ازای هر ردیف از جدول مقادیری تکرار شونده هستند
که این انباره را به دو قسمت تقسیم کرده ام
یک ارتباطی هم بینشان برقرار کرده ام

برای تمام جدول ها باید کلید اختصاصی کننده ایجاد کنم تا در تمام جدول ها یکتا باشد

ecs-entity






ecs-1nf
ecs-2nf
ecs-3nf

ecs-relations

 

در نرمال سوم کلیه فیلد هایی که مقدار آنها وابسته به مقدار سایر فیلد ها است

جدولی را در نظر می گیریم که تک تک فیلد ها را لیست می کنیم و مشخص می کنیم هر کدام از چه منبعی استفاده می شود.

SB : System Base ( متغیر سیستمی )
DB : Database ( بانک اطلاعاتی )
MB : Momory Base ( فرمول محاسباتی در حافظه )

مجموعه رویداد ها و اتفاقاتی که این واسط کاربری را اعلام کند را در جدولی دیگر می آوریم Detail Design

ما بین واسط های کاربری را مدل پیمایشی داشته باشیم

ecs-UI-property ecs-detail-Design ecs-UI-Browse

Dec 032013
 

مدل ریاضی انتخاب تکنولوژی

f هزینه نصب تکنولوژی هست

هر تصمیم گیری ITS در رفتار کاربران تاثیر می گذارد

 Ci,j هزینه ای است که کاربر K پرداخت می کند تا از مبدا i به مقصد j پرداخت می کند

Xi.j مسیر بین  i , j هست

برای پیدا کردن مسیر از لاگرانژ استفاده می کنم

قید ها به دو دسته تقسیم می شود ( آسان و سخت )

مثال  : متغیرصفر و یک برای الگوریتم های درختی (این متغیر برای این الگوریتم متغیر آسان است)

ولی اگر الگوریتم اگر حرکت باشد متغیر صفر و یک بدرد نمی خورد و در اینجا قید سخت محسوب می شود

در این مسایل هم قید های سخت را باید حذف کنیم

باید کرانی برای جواب پیدا کنیم

لاگرانژ به جای اینکه جواب دقیق پیدا کند یک جواب تقریبی برای مساله پیدا می کند

در اینجا فقط با یک قید سخت Complicated Constrained  کار می کنیم

Ci,j هزینه سفر از i به j هست

Xi,j صفر یا یک می گیریم

لاگرانژ کمک می کند تا قید سخت را در این مسایل حذف کنیم

آزاد سازی لاگرانژ

فرض کنیم که لاندا مقدار جریمه باشد
با اضافه کردن ضریب جریمه لاندا در تابع هدف  قید سخت را حذف می کنیم

تابع هدف که مینیمم سازی هزینه می خواست بکند
حالا با جریمه لاندا این قید های سخت را هم حذف می کنیم

حالا جریمه چقدر باشد تا جواب معقول بدست بیاوریم ؟

آیا مکانیزمی داریم که بعد از حذف قید های زاید جواب بهینه را پیدا کنیم ؟

بله لاندا را باید ثابت فرض کنیم

یک عدد ثابت را در یک تابع مینیمم سازی اضافه یا کم کنیم در جواب مساله تاثیر حاصل نمی شود

اول منفی لاندا تی را در نظر نمی گیریم

its--select-technology

چجوری میشه لاندا را کم و زیاد کرد
آیا مقادیر بهینه لاندا را پیدا کرد؟

برای پاسخ به این سوال تست عددی را محاسبه می کنیم

در ابتدا لاندا را صفر در نظر می گیریم ( بدون در نظر گرفتن ترافیک یا شلوغی مسیر)

C1,6 : که مسیر ۱ به ۲ به ۴ به ۶ کوتاه ترین مسیر هست که با ۳ مسیر به مقصد می رسیم

T1,6 : ولی زمان سفر ۱۰+۱+۷ می باشد

حالا جریمه لاندا را اضافه می کنیم که به ازای لاندا مساوی ۱ با توجه به مقادیر ثابت یالها هزینه رسیدن به مقصد را پیدا می کنیم

(Ci,j+(Lamba)(Ti,j

its--select-technology-landa1

همین کار را گسترش می دهیم با لاندا مساوی ۲ که می بینیم بهبودی مشاهده نمی شود

its--select-technology-landa2

همین کار را برای مقادیر دیگر لاندا هم انجام میدهیم

در این شکل به ازای مقادیر مختلف لاندا هزینه های مسیر مشاهده می شود

its--select-technology-Lambda-All

اگر می توانستیم به ازای تمام مقادیر جریمه های لاندا جواب بهینه را پیدا کنیم ، خیلی خوب بود
ولی نمی توانیم تمام مقادیر لاندا را پیدا کنیم
پس لاندا را باید به صورت رندوم یا به صورت غیر خطی پیدا کنیم

اگر متناسب با L لاندا که یک عدد ثابت حقیقی هست جوابی را پیدا کنیم P جواب مساله می شود

its--select-technology-formula
در مساله لاگرانژین درسته که هدف ما ماکزیمم سازی L میو هست
اگر یک جواب بهینه پیدا کردیم که مساوی L میو شد بهترین حالت رخ داده است
ولی اگر پیدا هم نشد به عنوان جواب تقریبی قبول می کنیم

به عنوان homework مساله را با T=13 پیدا کنید

its-homework

 

Dec 022013
 

یک گزارش از مقاله Datamining Report حداکثر ۳ صفحه بنویسید

موعد تحویل پروژه ۲۳ دی ماه است

بررسی پایان نامه خانم نعمت الهی به عنوان نمونه

فصل ۱ و ۲ که مقدمه هست ، فصل  ۳ و نهایتا فصل ۴

فصل چهارم : پیاده سازی فرایند داده کاوی بر روی داده های هزینه و در آمد خانوار های شهری

datamining-sample

در فصل ۲ روی داده ها تحلیل خوشه ای انجام میدهید

قواعد پیوند

نکات :

فهرست اشکال نیاز نیست
عنوان فصل نیاز نیست

مرجع صحیح است ، منبع که می نویسید نشان از کپی کردن دارد

می نماید ، می نمایید استفاده نمی شود به جایش از فعل کرد استفاده کنید
فایل تبدیل شده به PDF را نگاه کنید که بهم ریختگی نداشته باشد

آمار های رسمی Official Statistic : آمار هایی که دولت جمع آوری می کند

در Data Analysis یک فرضیه مطرح می شود با روش های آماری قبول یا رد می شود

ولی در داده کاوی فرضیه از قبل نداریم ولی اگر در داده کاوی Data Alanysis هم استفاده
کردید بد نیست

بزگترین چالش داده کاوی Data Quality هست ، خطای نمونه گیری هم جزء اشکالات هست

لازم نداریم یک روش را توضیح بدهیم ( مثل k-means )

تحلیل خوشه ای
قواعد پیوند

امتحان از دو بخش  Hirarchical Clustering و قواعد پیوند می گیریم

یک صفحه A4 می توانید سر جلسه بیاورید ، ولی موبایل و تبلت نمی شود

 

 

تحلیل خوشه ای باید انجام بدهید

کتاب الکترونیکی خوشه بندی دکتر حسین هوشیار منش را بخوانید

 

Nov 302013
 

 

Mobility Management Evaluation
مدیریت موبیلیتی
به دنبال ارزیابی مدیریت حمل و نقلی هستیم

برنامه ریزی حمل ونقل

ارزیابی روی Benchmark یا Pilot
انتخاب پایلوت باید دقیق باشد

چرا از ابزار های نرم افزاری برنامه ریزی حمل و نقل استفاده می کنیم

مدل های ریاضی قابل اطمینان برای تست کردن روش های مختلف رایج و سیستم های آینده بدست بیاوریم

کانادا و آمریکا یک زیر سیستم ITS خیلی قوی را ایجاد کرده

سسیتم نباید کاملا انتقال پیدا کنه و سیستم باید بومی سازی بشه

مدل ریاضی تخصیص ترافیک
مدل های شبیه سازی را در اندازه میکروسکوپی ، ماکروسکوپی ، ماکزوسکوپی طبقه بندی کرد

ماکزوسکوپی Aim sum , emm , Transcad ,
ماکروسکوپی نرم افزار های Visum ،Cube , Paramics

مقایسه نرم افزار های شبیه ساز :

its-Compare-Simulation-Software

 

فلوچارت ارزیابی

در سه فاز (Planning , Analysis , Classification )

its-Evaluation-Flow

Nov 302013
 

خلاصه درس تدریس یار خوشه بندی – آقای برادران – ۹۲/۰۹/۰۹
تمرین که تا پنج شنبه ۱۴/۰۹/۹۲ تمدید شد

Fisher Linear Discriminant
جدا ساز خطی فیشر

فیشر ۲ کلاسه (C1 , C2) داریم
D بعدی هستند و می خواهیم به فضای ۱ بعدی کاهش دهیم

y=W’*X
w محور خروجی فیشر هست
y داده های تصویر شده

در جدا سازی خطی به روش فیشر، نگاشت با دید کلاسه بندی انجام می شود و شامل ۲ مرحله است :
مرحله ۱ : نگاشت در فضای D بعدی به یک بعدی یا چند بعدی
مرحله ۲ : طبقه بندی بر اساس محور های جدید

در این روش نگاشت به صورتی انجام شود که کلاس ها در دستگاه مختصات جدید متمایز هستند

(m2-m1=w'(m2-m1

m2-m1 سمت چپ میانگین داده های تصویر شده هستند
m2-m1 سمت راست میانگین داده های اصلی هستند

چون نمی توانیم m2-m1 سمت راست را تغییر دهیم بایستی w را تغییر دهیم تا m2-m1 زیاد شود

برای اینکه فاصله بین کلاس ها بیشتر باشد
fisher2class1
اگر واریاس را لحاظ کنیم :

fisher2class2

پراکندکی بین دو کلاس زیاد شده
ولی پرکندگی داخل کلاس ها کم شده
که این از اهداف فیشر است

پس بهینه سازی انجام شده توسط روش فیشر :
در عین حالی که فاصله بین متوسط کلاس ها را ماکزیمم کند
واریانس درون کلاسی را هم حداقل نماید تا در حد ممکن هم پوشانی کلاس ها با یکدیگر کاهش یابد.

—————————–
– Bitween – Inter Class – ماتریس بین کلاسی Sb=(m2-m1)-(m2-m1)transpose
– Within – Intra Class ماتریس درون کلاسی

clustering-fisher2class3
برای محاسبه w این را لحاظ می کنیم که با جهت w سر و کار داریم و نه اندازه اش

clustering-fisher2class-formula

 

 

 

 

 

Nov 302013
 

خلاصه درس مهندسی سیستم های تجارت الکترونیک – دکتر هاشمی ۹۲/۰۹/۰۹

ecs-LGFD

شما می توانید PGFD و LDFD را ترکیب هم بکنید

 

ecs-PGFD2

 

در مدل تلفیقی نمودار و مدل اخیر بطور دقیق مشخص می نماید که هر یک از نقش ها یا عوامل دخیل در تجارت ، که با سیستم تجارت الکترونیکی مرتبط خواهند بود ، کیستند.

– نوع و موضوع نیازی که هر یک از عوامل تجاری ، بر ساس آن به ECS مراجعه خواهند داشت ، در نمودار تلفیقی مشخص شده است .
————
مستند سازی
فرم ثبت جریان های عمومی ( فیزیکی – منطقی )
کد – از کاربر / ECS – به کاربر / ECS – نوع جریان – موضوع متوای جریان –
———————————–
معماری کسب و کار تجاری و ECS
– اهداف طراحی معماری تجارت الکترونیکی
۱- تعیین ساز و کار و جزییات اولیه انجام خدمات تحاری بر بستر الکترونیکی
۲- تعیین جزیی پاسخ به سوال : چگونه خدمات تعیین شده در محدوده تجاری را می توان بر بستر الکترونیکی ارائه داد ؟

سناریو های ممکن :
۱- تغییر معماری فعلی کسب و کار تجاری و بکار گیری ECS در آن
۲- طراحی معماری کسب و کار مبتنی بر سیستم تجارت الکترونیکی
مرحله طراحی ( طراحی معماری کلی ECS – طراحی ECS Apps )

 





 

ecs-public-Flow
مراحل فرآیند مهندسی و ایجاد ECS
– شناخت ( طراحی ) کسب و کار تجاری
– تجزیه و تحلیل نیازمندی ها
– طراحی سیستم تجارت الکترونیکی
– ایجاد سیستم تجارت الکترونیکی
– بهره برداری از سیستم تجارت الکترونیکی
– ارزیابی سیستم تجارت الکترونیکی
——————————————
مراحل طراحی سیستم تجارت الکترونیکی
– طراحی محتوای الکترونیکی ECS
– طراحی ابزار های کاربری
– طراحی شبکه ارتباطی و خدمات دسترسی
– طراحی خدمات الکترونیکی
– طراحی زیر ساخت های پردازشی
– طراحی سناریو های خدمت رسانی به کاربران
——————————————-
شکل واسط های کاربری
ECS-UI
در پروژه شما نمودار PGFD شما کفایت می کند
برای انجام پروژه آنچه که در نمودار ها حاصل شده است را درج و ثبت کنید

 

 

 

 

Nov 262013
 

نسبت حمل و نقل عمومی با ITS
شناسایی فناوری ITS و ترسیم درخت فناوری
مدل ریاضی انتخاب تکنولوژی

HOT , HOV , PT
اگر بخواهیم در تهران مکان یابی ۵ دوربین را انجام بدهیم
چون تعداد مکان ها زیاد هست مساله را تحلیلی باید حل کرد

روش های غیر تحلیلی در انتخاب تکنولوژی : تطابق دو طرفه
– تغییر در هر کمان یا گره، تغییر رفتار های سفری کاربران
– تغییر رفتار های کاربران، تغییر در انتخاب تکنولوژی

مسایل در دیدگاه تطابق دو طرفه
– مساله ۱ : ( مساله شارژ یا ساخت کمان با قیود حاشیه ای
– مساله ۲ : مساله انتقال

روش های حل مساله ساخت کمان : شبیه سازی – بهینه سازی (Simulation – Optimization)
– نظام بخشیدن به داده های شبکه در قالب یک ابر مدل مانند درونیاب اسپلاین، رگرسیون یا شبکه عصبی
– به کار گیری یک تکنیک بهینه سازی کلاسیک یا ابر مکاشفه ای روی ابر مدل

در الگوریتم دمبرگ کوتاهترین مسیر را پیدا می کردیم
مشابه آن در این شمارش مسیر را انجام میدهیم

الگوریتم ابر ابتکاری هیبریدی با استفاده از تکنیکهای شمارش مسیر

 

 

Nov 252013
 

خلاصه مباحث درس خوشه بندی – دکتر زارع – ۹۲/۰۹/۰۴

مبحث Kernel
و روش فیشر

نکته : یک فایل ورد یک صفحه ای Topic مقاله به همراه سال Journal بفرستید
که در موضوع کلاس باشید

تغییرات را با ماتریس کواریانس نشان می دادیم
با استفاده از تابع لاگرانژ انجام می دادیم

خلاصه PCA: اول ماتریس را Centralize می کردیم ماتریس S را می سازیم ، مقدار
ویژه و بردار ویژه را بدست می آوریم

میشه ثابت کرد اگر بخواهیم کمترین میزان Reconstruction را داشته باشیم
نگاشت تولید شده توسط PCA کمترین خطای بازیابی را می دهد
PCA یک روش Unsupervised هست
ولی روش های جدید Supervised آن هم آمده است
دقیقترین نمایش داده ها در فضای با بعد کمتر (مثل مپ کردن تصویر )
————————————–
Kernel Trick
افزایش بعد برای جدا سازی خطی

PCA را بر اساس Dot Product می خواهیم بنویسیم

کتاب Principal Component Analysis
—————————————–
بحث بعدی : fisher LDA کاهش بعد با در نظر گرفتن کلاس ها است

اشکال PCA در کاهش بعد این بود که کلاس ها با هم ترکیب می شوند

PCA-DataRepresentation-VS-DataClassification

 

روش فیشر :

 
Fisher-Linear-Discriminant

Nov 252013
 

 

خلاصه مطالب درسی تدریس یار مهندسی تجارت الکترونیک – خانم قوامی پور – ۹۲/۰۹/۰۴

 

برای تمرین دوم : ماتریس جریان کار بکشید

ecs-matrix-WorkFlow

مراحل / عوامل : مشتری – سیستم – واحد مالی – واحد تحویل – …
۱- جستجو
۲- درخواست
۳- پرداخت وجه
.
.
.

PGFT رسم می کنید :
ماتریس جریان کار را نگاه می کنید

تحت فرم الکترونیکی اگر داده داره ارسال میشه در چه غالبی ارسال می شود
مثلا مشتری به سایت داده را انتقال میدهد ( محصول انتخابی )
(فرمت داده مشخص باشد )
مثلا : داده با رنگ آبی ، کالا با رنگ قرمز ،
مشخصات جریان های عمومی سازمان
باید PGFT ها را با ابزار جریان توضیح دهید

 

 

ecs-PGFT

 

برای مقاله تحقیقی در درگاه سایت قرار دهید با بتوانیم نظر بدهم

مقاله فارسی یا انگلیسی فرق نمیکند ولی از ژورنال یا کنفرانس معتبر باشد

مقاله حتما باید ارسال شود

پاور پوینت ها را فعلا صدا گذاری نکنید

Nov 242013
 

خلاصه مباحث درس Celementine 92/09/03
الگوریتم Quest

Modeling –> Feauture Selection
اگر بخواهیم از بین مولفه های زیادی چند گزینه را انتخاب کنیم
باید تک تک متغیر ها را با متغیر هدف مورد مطالعه قرار دهیم
و آن متغیر که تاثیر بیشتری دارد را نگه می داریم

پس ما به دنبال متغیر های مناسب هستیم

Modeling –> Anomaly
با استفاده روش های تحلیل خوشه با حضور چند متغیر پرت هستند شناسایی کنیم (Anomaly Detection )
داده هایی که بیشترین مغایرت با داده های دیگر را دارد شناسایی کنیم

 

 

Nov 232013
 

خلاصه مباحث تدریس یار حمل و نقل هوشمند – ۹۲/۰۹/۰۲

ATIS
سامانه اطلاعات مسافران

سناریوی ۱ : اطلاع رسانی در نزدیکترین قطعه ممکن به مکان وقوع
سانحه با درصد تطابق ۴۰

میزان تبعیت رانندگان

پس از آمارگیری و لحاظ کردن داده های واقعی می توان در مورد مسیر
های مختلف پیشنهادی و انتخاب مسیر بهتر نیز اظهار نظر کرد

نتایج بدست آمده از اثر تصادف بر روی شبکه
سناریو ۲ : اطلاع رسانی قبل از رمپ شیخ فضل ا… با در صد تطابق
۵۰ %

سناریو ۳ : اطلاع رسانی در ورودی رمپ چمران با درصد تطابق ۱۰

سناریو ۴ : اجرای همزمان سناریوی ۱ با درصد تطابق ۴۰ و سناریوی ۲
با درصد تطابق ۵۰

سناریو ۵ : ترکیب سناریو های ۱ و ۳ با درصد تطابق به ترتیب ۵۰ و ۱۰

سناریو ۶ : ترکیب سناریوهای ۲ و ۳ با درصد تطابق به ترتیب ۵۰ و ۱۰

سناریوی ۷ : ترکیب سناریوی ۱ و ۲ و ۳ با در صد تطابق به ترتیب ۴۰ و
۵۰ و ۱۰

 

Nov 232013
 

فرمولاسیون ماکزیمم واریانس

بحث PCA
و بحث Kernel

ورودی مساله : N تا داد ها ی D بعدی
یک زیر فضا را می خواهیم بدست بیاوریم که بعد داده های جدید از بعد داده های اصلی
کمتر باشد.

پراکندگی داده های تصویر شده حداگثر شود
Max ( Variance )
بردار U فقط جهتش مهم بود

برای تصویر داده روی بردار ، داده را در بردار ضرب می کنیم
اگر اندازه یک برداری بزرگ باشد ، داده را که ضرب میکنیم مقدار بزرگتری بدست می آید

اگر فضای تصویر M بعدی را در نظر بگیریم
تصویر خطی بهینه ای که برای آن واریانس داده های تصویر شده بیشینه شود.
————————————————
Kernel Method
ابزار خیلی پر کاربرد در مسایل غیر خطی
در مساله که داده ها در فضا قرار گرفته اند که با یک خط نمی توانیم جدا کنیم
مثل دو تا شکل ماه که ترکیب شده اند

از یک سری منحنی های غیر خطی باید استفاده کنیم که Kernel این امکان را فراهم
میکند

Kernel داده ها را به فضایی با بعد بالاتر تصویر می کند (فضای وِیژگی)

Motivations – Kernet Definiation – Mercer’s Theorem – Kernel Matrix – Kernel
Construction

یکسری Classifier خطی داریم ، یکسری Label داریم
کلاس ضربدر و کلاس دایره
شکل سمت چپ کلاس اولیه است

اگر خطی جدا می شد روش های SVM می شد استفاده کرد
به دنبال راهی می گردیم که به صورت خطی بتوانیم جدا کنیم

داده ها را از فضای ۲ بعدی به فضای ۳ بعدی تبدیل می کنیم

روش شکل تبدیل یافته سمت راست می توانیم classifier خطی بزنیم

فضای توسعه یافته را فی می گوییم

اگر بتوانیم دو تا فی را پشت سر هم بنویسیم به جایش می توانیم تابع کرنل را جایگزین کنیم

جلسه حضوری پنج شنبه ۷ آذر
مهلت تمرین تا جمعه ۸ آذر

 

 

Nov 182013
 

 

می خواهیم بیشترین تغییرات را حفظ کنیم
تغییرات را با واریانس نمایش می دهیم

بیشترین نسبت تغییرات داخل z1
z2 دومین مولفه اصلی

مقادیر ویژه
بردار ویژه
eig(A) در متلب eigenVector و eigenValue
را به ما خواهد داد

یا SVD(A) برای هر ماتریسی یک تجزیه می
دهد
باید possitive definite باشد

از ضرایب لاگرانژ استفاده کنیم
از یک فضای p بعدی به فضای ۱ بعدی
کاهش دادیم
—————————————–
Reconstruction بازیابی

تبدیل زدیم برای کاهش بعد
ولی باید برگردانیم به فضای اولیه

PCA
برای حذف نویز در تصویر

 

Nov 182013
 

خلاصه مباحث تدریس یار تجارت الکترونیک – خانم مهندس قوامی پور

ابزار دات نت بشرطی که open source باشد اشکالی ندارد استفاده
کنید

اگر فرایند قلم کالاهای مختلف در سیستم یکی است لزومی ندارد که کالا ها را مجزا کنید

در حدود ۵ قلم کالا را در نظر بگیرید
در مورد مقاله تحقیقاتی – حتما جنبه مهندسی داشته باشد

مثلا ارائه فریم ورک باشد
حتما از جنش کمی باشد
مقاله های تحقیقیاتی خوب مثل :
DSS ها و Recomender ها : Secision Support System
user behabior
تحلیل کمی روی رفتار کاربران
Social Commerce
دو سه تا مقاله کافی است

که دید پیدا کنید و تبدیل به پاور پوینت کنید

فارسی و انگلیسی بودنش مهم نیست
حتما معتبر و ترجیحا ژورنال باشد

از تز های دانشگاه های خارجی می توانید استفاده کنید
پیشنهاد مقاله را در درگاه پورتال درس وارد کنید تا تایید کنم

اصل مقاله را هم باید بفرستید
خروجی کار تحقیقاتی فقط پاورپوینت با صدا گذاری باشد

پروژه کلاسی را باید در مورد یک سایت تجاری باشد
از جنس کالا یا خدمت
به صورت انفرادی

زمان آپلود کردن تمرین را در پورتال سایت ببینید

Business Plan مراحل طراحی و در نهایت پیاده سازی را در کل می خواهیم
از بین افعال تجاری درج شده، مواردی را که در حوزه تجاری منتخب مطرح می باشد انتخاب و بقیه را حذف نمایید

 

 

Nov 182013
 

خلاصه درس داده کاوی – دکتر محمدپور – ۹۲/۰۸/۲۷

برای پیدا کردن Association Role

Apriori : پیچیدگی محاسباتی را تا حد قابل قبولی کاهش دهد
دومین الگوریتم علاوه بر عدم پیچیدگی ذخیره سازی روی هارد کمتر انجام شود
Rapid miner : پروسسور ها بصورت موازی استفاده می کند

نرم افزار هایی که در داده کاوی استفاده می شوند معمولا قابلیت استفاده از چند
پروسسور یا استفاده از GPU را دارد

datamining-iterative-algorithm

دو مرحله دارد :
۱- تمام itemset هایی که تکراری هستند پیدا می کند
۲- از itemset ها برای ساخت Rule ها استفاده می کند

تعریف frequent itemset : ساپورت آن از یک minimum support بیشتر باشد

datamining-iterative-algorithm-example

F1 شامل تمام itemset های با اندازه ۱ هست
F2 یکی از اعضاشون frequent بوده را شامل می شود

مثال :
یا روی تعداد کار می کنیم یا روی احتمال ( فراوانی یا مینیمم ساپورت )
min support= x /n
ابتدا تمام itemset های تکی را با تعداد تکرارشان می نویسیم
چون ۴ فقط یک بار تکرار شده در قدم بعدی اصلا ترکیب با itemset 4 را نمی آوریم

در مرحله بعد itemset های دو تایی
تمام itemset هایی که فقط یک بار تکرار شده اند در مرحله بعد محاسبه نمی آوریم

در صورت دلخواه الگوریتم Apriori را پیاده سازی کنید

Candidate Generator
هرس , join می کنیم

بعد از الگوریتم Apriori بین Frequent itemset ها Association rule ها را بدست می آوریم

برای مجموعه حساب نمیشه چون شرطی است
در مورد confidence فقط برای assotioation Rule ها استفاده می کنیم

تمام زیر مجموعه ها = ۲ به توان n

صورت :
مخرج : تعداد کل ایتم ها

با الگوریتم Apriori یک مثال برای خودتان حل کنید
برای حل مسئله از مجموعه ۱ عضوی شروع می کنیم تا تعداد اعضا

 

 

با کلیک روی آگهی زیر مبلغ 400 ریال به حساب من واریز می گردد

با کلیک روی آگهی زیر مبلغ 1000 ریال به حساب من واریز می گردد