Sep 232013
۹۲/۰۷/۰۱
داده کاوی
دکتر محمد پور
مجموعه شمارا – گسسته
صفت های پیوسته :
مثل وزن ، قد
– در خصوصیت داده ها به سه مساله باید اشاره کنیم
۱- تعدد بعد داده ها Dimensionality
۲- پراکندگی داده ها Sparsity
۳- دقت Reslution
کیفیت داده ها خیلی مهم است
Unomarly Detection
missing Value
missing At Random (میانگین داده را جایگزین کنیم – بد ترین را ه ممکن هست – یا اینکه داده را حذف کنیم )
بهترین روش از روش EM -Algorithm باید استفاده کرد
(—————————–
کتاب روش شناسی آماری ( دکتر صالحی )
ترجمه پژوهشکده آمار
۱- خطاهای نمونه گیری
۲- خطاهای غیر نمونه گیری
شناسایی خواندن فرمها با روش ICR
Intelligent Charachter Recognition
نسل قدیمی آن OCR بود
————————)
Duplicate Data
به علت خرابی صدا کلاس ناتمام ماند