نادی

برنامه نویس و تحلیل گر داده علاقه مند به موتور های جستجوی مفهومی

خلاصه پروژه پیشنهاد واژگان در موتور جستجو jamsheed.ir

Nov 132016

خلاصه پروژه پیشنهاد واژگان در موتور جستجو

ابتدا دامینی به نام jamsheed.ir ثبت شد و کلید واژه هایی که در موتور جستجوی گوگل بیشترین جستجو را داشتند روی صفحه اول قرار دادم

این کلمات به صفحاتی لینک شدند که از وب سرویس پارسی جو محتوای زیادی را نمایش می دادند

با ورود کلید واژهای جستجو شده ترکیبی که در google Alanytics ثبت می شوند آنها را در دیتا بیس ذخیره کردم

کلمات کلیدی بهم پیوسته با برنامه ای به تک واژه شکسته می شوند و هر تک واژه در جدولی که شامل نام آن واژه و تعداد تکرار آن هست ذخیره می شود

با این روش تعداد واژه ها در یک بازه زمانی خاص به دست آمد

به طور مثال واژه هایی مثل “دانلود” با ۵۰۰۰۰ بار تکرار و واژه “آهنک” با ۱۵۰۰۰ تکرار به دست آمد

در مرحله بعد ، واژگان ترکیبی با دو واژه در جدولی جداگانه توسط برنامه ای که نوشتم به دست آمد و تعداد تکرار آنها هم ذخیره شد

به طور مثال واژه های ترکیبی مثل “ضمن+خدمت” با ۲۷۰۰ تکرار و “فیش+حقوقی” با ۱۷۰۰ بیشترین ضریب چسبندگی را به خود اختصاص دادند

در این مرحله واژه های ترکیبی غیر معمولی هم به دست می آمد که نشان می داد برای بالابردن دقت پیشگویی کننده باید ضریب چسبندگی ۳ واژه با هم را نیز به دست آورم

به طور مثال واژگان ترکیبی مثل “ضمن+خدمت+فرهنگیان” با ۳۹۰۰ تکرار و ” آموزش+و+پرورش” با ۳۳۰۰ تکرار و “دانلود+فیلتر+شکن” با ۲۴۰۰ تکرار جزو پر تکرار
ترین کلمات بودند

که نتایج قابل قبولی برای شبیه سازی آماری پیشنهاد دهنده واژگان در اختیار قرار می دادند

نصب پایتون ۳٫۵ install python

پایتون No Responses »

Aug 032016

برای نصب پایتون به آدرس https://www.python.org/downloads می رویم و آخرین نسخه را دانلود می کنیم

برای نصب Django روی پایتون به شاخه Scripts می رویم و در command ویندوز دستور زیر را می نویسیم

pip install django

تا از روی سرور اقدام به نصب Django کند

آموزش تحلیل شبکه اجتماعی در زبان R

نرم افزار R No Responses »

Feb 162016

آموزش گام به گام تحلیل شبکه اجتماعی در زبان R
محسن رییسی
دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)

Raeesi-SNA_in_R_in_Farsi.pdf

تعریف نرم افزار R از ویکی پدیا

نرم افزار R No Responses »

Feb 132016

آر (زبان برنامه‌نویسی)

از ویکی‌پدیا، دانشنامهٔ آزاد

نرم‌افزار آر


سیستم‌عامل	چندسکویی
پروانه	GPL
وب‌گاه	پروژهٔ آر

R، یک زبان برنامه‌نویسی و محیط نرم‌افزاری برای محاسبات آماری و تحلیل داده است، که بر اساس زبان‌هایاس و اسکیم پیاده‌سازی شده است. این نرم‌افزار بازمتن، تحت اجازه‌نامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.

زبان اس بجز R، توسط شرکت Insightful، در نرم‌افزار تجاری اس‌پلاس نیز پیاده‌سازی شده است. اگرچه دستورات اس‌پلاس و R بسیار شبیه است لیکن این دو نرم‌افزار دارای هسته‌های متمایزی می‌باشند.

محتویات

ویژگی‌ها

R، حاوی محدودهٔ گسترده‌ای از تکنیک‌های آماری (از جمله: مدل‌سازی خطی و غیرخطی، آزمون‌های کلاسیک آماری، تحلیل سری‌های زمانی، رده‌بندی، خوشه‌بندی و غیره) و قابلیت‌های گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره می‌توانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.

نمونه‌ای از نمودارهای تولید شده توسط آر.

گرچه نرم‌افزار R اغلب به منظور انجام محاسبات آماری به کار می‌رود، این نرم‌افزار قابل به کارگیری در محاسبات ماتریسی است و در این زمینه، همپای نرم‌افزارهایی چون اُکتاو و نسخهٔ تجاری آن متلب(MATLAB) است.^[۲]

R، همچنین نرم‌افزار قدرتمندی برای ایجاد اشکال گرافیکی و نمودارهاست.

بسته‌ها

امکان توسعهٔ قابلیت‌های R، با افزودن بسته‌های ایجاد شده توسط کاربران آن، یکی از ویژگی‌های مهم این نرم‌افزار است. این بسته‌ها توسط R، LaTeX، جاوا، سی++ و فورترن نوشته شده‌اند. مجموعه‌ای از بسته‌های اصلی R، هنگام نصب همراه برنامه وجود دارند و در مجموع ۴۴۴۲ بسته (تا آوریل ۲۰۱۳) در شبکهٔ بایگانی فراگیر آر (CRAN) وجود دارد.^[۳] این بسته‌ها طیف وسیعی از قابلیت‌ها را در زمینه‌های مختلف تحلیل داده‌ها به R می‌دهند.

ابزار جانبی

R، دارای محیط خط فرمان برای ورود و اجرای دستورات است. ابزار مختلفی جهت تسهیل ویرایش دستورات و ارتباط با کاربر برای R ساخته شده است، که برخی از آنها در فهرست زیر آمده‌اند:

JGR: ویرایشگر چندسکویی بر پایهٔ جاوا.
R Commander: رابط گرافیکی بر پایهٔ tcltk، دارای قابلیت استفاده از منوها به جای نوشتن دستورات (مناسب برای کاربران مبتدی و آشنا با اس‌پلاس)
آراکسل RExcel: امکان استفاده از R و R Commander در برنامهٔ ماکروسافت اکسل
rggobi: رابط برنامهٔ GGobi برای به تصویر کشیدن داده‌های ماتریسی

مثال

کد کوتاهی که با زبان آر نوشته شده برای مجموعه مندلبرو که ۲۰ تکرار از z = z² + c را با ضابت‌های پیچیده متفاوت نمایش می‌دهد.

library(caTools) # external package providing write.gif function
jet.colors <- colorRampPalette(c("#00007F", "blue", "#007FFF", "cyan", "#7FFF7F",
                                 "yellow", "#FF7F00", "red", "#7F0000"))
m <- 1200 # define size
C <- complex(real=rep(seq(-1.8,0.6, length.out=m), each=m),
              imag=rep(seq(-1.2,1.2, length.out=m), m))
C <- matrix(C,m,m) # reshape as square matrix of complex numbers
Z <- 0 # initialize Z to zero
X <- array(0, c(m,m,20)) # initialize output 3D array
for (k in 1:20) { # loop with 20 iterations
  Z <- Z^2+C             # the central difference equation
  X[,,k] <- exp(-abs(Z)) # capture results
}
write.gif(X, "Mandelbrot.gif", col=jet.colors, delay=100)

تصویر مندلبرو با ۱۲ خط کد زبان آر

تعریف نرم افزار R در ویکی پدیا

R – wikipedia

خزنده وب و موتور جستجو بر اساس Nutch + Hadoop + Hbase + ElasticSearch

موتور جستجو No Responses »

Jan 192015

خزنده وب و موتور جستجو بر اساس Nutch + Hadoop + Hbase + ElasticSearch

معماری خزنده وب Nutch + Hadoop، نمونه آنلاین توزیع معماری پردازش دسته ای است، توان خزیدن عملکرد بسیار خوبی دارد و ارائه گزینه های زیاد پیکربندی برای سفارشی سازی. خزندگان به عنوان تنها مسئول خزیدن در منابع شبکه وب است، بنابراین نیاز به یک موتور جستجو توزیع شده، مورد استفاده برای خزیدن منابع شبکه خزنده وب در زمان واقعی نمایه سازی و جستجو می باشد.

معماری موتور جستجو در ElasticSearch، توزیع آنلاین زمان واقعی معماری پرس و جوی تعاملی تقریبا با هیچ نقطه شکستی، به طور مقیاس پذیر، بسیار در دسترس است. از مقادیر زیادی از اطلاعات را با شاخص های جست و جو می تواند در مورد نزدیکی زمان واقعی است به اتمام است، این امکان وجود دارد تا به سرعت برای فایل در زمان واقعی و میلیاردها داده در سطح PB جستجو، در حالی که ارائه این گزینه از تمام جنبه، می تواند تقریبا در هر جنبه از موتور سفارشی ساخته شده است. پشتیبانی از API آرام، شما می توانید با استفاده از JSON تماس توابع مختلف خود را از طریق HTTP، از جمله جستجو، تجزیه و تحلیل و نظارت. علاوه بر این، برای جاوا، پی اچ پی، پرل، پایتون، روبی و و زبان های دیگر کتابخانه های مشتری بومی است.

پس از خزنده از طریق خزنده وب برای استخراج داده های ساخت یافته را مشاهده کنید برای جستجو شاخص موتورهای حرفه ای برای تجزیه و تحلیل پرس و جو. به عنوان موتور جستجو است که به نزدیکی زمان واقعی پرس و جو های پیچیده تعاملی طراحی شده است، بنابراین موتورهای جستجو به شاخص نیست صفحه برای نجات محتوای اصلی، بنابراین، نیاز به نزدیکی زمان واقعی پایگاه داده توزیع شده برای ذخیره محتویات صفحه اصلی.

معماری پایگاه داده توزیع شده در Hbase + Hadoop، نمونه توزیع آنلاین زمان واقعی معماری دسترسی تصادفی است. سطح قوی از مقیاس پذیری برای حمایت از میلیاردها و میلیون ها نفر از ردیف ستون، داده ها می تواند بر روی خزنده وب است در زمان واقعی نوشته شده است را مشاهده کنید، و می تواند موتور جستجو، زمان واقعی دسترسی به داده ها بر اساس نتایج جستجو را تامین کند.

خزنده وب، پایگاه داده توزیع شده، موتور جستجو در یک خوشه از سخت افزار تجاری عادی اجرا شود. خوشه با استفاده از معماری توزیع شده است که می تواند به هزاران نفر از ماشین آلات، مکانیزم های تحمل پذیر خطا، بخشی از شکست گره دستگاه از دست دادن داده نمی شود نمی خواهد به شکست وظایف محاسبات منجر گسترش داده است. نه تنها در دسترس بودن، هنگامی که یک شکست گره می تواند به سرعت عدم موفقیت، و گسترش بالا، دستگاه باید قادر به سادگی به افزایش سطح انبساط خطی، بهبود ظرفیت ذخیره سازی داده ها و سرعت محاسبات.

روابط خزنده وب، پایگاه داده توزیع شده، موتور جستجو بین:

۱، پس از خزنده وب را به رندر صفحه HTML خزیدن کامل است، داده تجزیه به صف بافر، توسط دو موضوعات دیگر مسئول برای پردازش داده ها، یک موضوع مسئول برای صرفه جویی در داده ها به پایگاه داده توزیع شده است، یک موضوع مسئول داده است به شاخص های ارائه شده به موتورهای جستجو.

۲، موتور جستجو فرآیندهای ضوابط جستجو کاربر، و نتایج جستجو بازگشت به کاربر در صورتی که کاربر مشاهده عکس فوری صفحه وب را از یک پایگاه داده توزیع شده برای به دست آوردن محتوای وب اصلی است.

معماری کلی به عنوان زیر نشان داده شده:

خوشه خزندگان، خوشه پایگاه داده توزیع شده، موتور جستجوی خوشه در استقرار فیزیکی، را می توان در همان خوشه سخت افزار مستقر می توان به طور جداگانه مستقر، تشکیل ۱-۳ سخت افزار خوشه.

خزنده وب خوشه دارای یک خزنده وب سیستم مدیریت پیکربندی اختصاصی مسئول پیکربندی و مدیریت از خزندگان است، به عنوان زیر نشان داده شده:

موتور جستجو توسط تکه تکه شدن (سفال) و کپی (ماکت) برای دستیابی به عملکرد بالا، مقیاس پذیر و بسیار در دسترس است. روش برش برای نمایه سازی و جستجوی انبوه موازی را فراهم می کند پشتیبانی، که تا حد زیادی بهبود عملکرد نمایه سازی و جستجو، که تا حد زیادی بهبود سطح مقیاس پذیری، فن آوری فراهم می کند نسخه اضافه از اطلاعات، بخشی از شکست ماشین می کند استفاده عادی از سیستم تاثیر نمی گذارد، برای اطمینان از در دسترس بودن ادامه از سیستم.

ساختار شاخص وجود دارد ۲ و ۳ نسخه از قطعات به شرح زیر است:

شاخص کامل از ۰ و ۱ به دو قسمت جداگانه قطع، هر بخش دارای دو نسخه از آن بخش خاکستری زیر کلیک کنید.

در یک محیط تولید، با افزایش اندازه داده، به سادگی یک گره به دستگاه های سخت افزاری را اضافه کنید، موتور جستجو به طور خودکار تنظیم به جای تعداد سخت افزار تکه تکه شدن را افزایش می دهد، زمانی که برخی از گره بازنشسته، موتور جستجو خواهد شد به طور خودکار تنظیم به جای کاهش در تعداد قطعات سخت افزاری، در حالی که تعداد نسخه را می توان با توجه به تغییرات در سطح اطمینان از سخت افزار و ظرفیت ذخیره سازی در هر زمان تغییر می کند، تمام این پویا است، بدون راه اندازی مجدد سیستم خوشه، که آن هم تضمین مهم برای در دسترس بودن بالا.

منبع : http://my.oschina.net/apdplat/blog/308396

یکپارچه سازی Nutch 1.7 با ElasticSearch

موتور جستجو No Responses »

Jan 192015

یکپارچه سازی Nutch 1.7 با ElasticSearch

قابلیت یکپارچه سازی Nutch 1.7 با ElasticSearch بوجود آمده است.
تنظیم یکپارچه سازی ارزش فوق العاده ای دارد

این راهنما برای افرادی که با Nutch و ElasticSearch کار کرده اند می تواند دستورالعمل خوبی باشد

Nutch کار خزش (Crawl) ، واکشی (fetch) و تجزیه (parse) را برای نمایه سازی (indexing) به طور معجزا آسایی انجام می دهد ، ولی با این حال یکپارچه نیست.

این کاری که انجام میدهیم تغییر فایل nutch-site.xml در شاخه conf در جایی که Nutch نصب شده است.
اول از همه احتیاج داریم که افزونه نمایه ساز ( Indexer Plugin ) را فعال کنیم که این کار را با دستورات زیر انجام میدهیم :

<name>plugin.includes</name>

<description>Regular expression naming plugin directory names to include. Any plugin not matching this expression is excluded.

In any case you need at least include the nutch-extensionpoints plugin. By default Nutch includes crawling just HTML and plain text via HTTP,

and basic indexing and search plugins. In order to use HTTPS please enable protocol-httpclient, but be aware of possible intermittent problems with the

underlying commons-httpclient library.

</description>

</property>

آیتم های که اینجا اضافه شده اند برای نمایه ساز Elastic هستند.
در مرحله دوم احتیاج داریم که موارد زیر را در nutch-site.xml تغییر دهیم

<!– Elasticsearch properties –>

<name>elastic.host</name>

<value>localhost</value>

<description>The hostname to send documents to using TransportClient. Either host

and port must be defined or cluster.</description>

</property>

<name>elastic.port</name>

</description>

</property>

<name>elastic.cluster</name>

<value>elasticsearch</value>

<description>The cluster name to discover. Either host and potr must be defined

or cluster.</description>

</property>

<name>elastic.index</name>

<value>nutch</value>

<description>Default index to send documents to.</description>

</property>

<name>elastic.max.bulk.docs</name>

<description>Maximum size of the bulk in number of documents.</description>

</property>

<name>elastic.max.bulk.size</name>

<description>Maximum size of the bulk in bytes.</description>

</property>

در این مورد من ElasticSearch را روی همان کیس نصب کرده ام ، به همین دلیل elastic.host نام localhost من هست

نکته مهم دیگر نام elastic.cluster است، اگر شما چیزی در این مورد نمیدانید فایل elasticsearch.yml را در شاخه ای که تنظیمات نصب ElasticSearch قرار دارد می توانید پیدا کنید.

پورت elastic.port به صورت پیش فرض ۹۳۰۰ برای واسط است ( برای خرمجی وب پورت ۹۲۰۰ که زمانی است که با nutch یکپارچه سازی نشده ).
در نهایت ایندکس را در ElasticSearch در فایل تنظیمات elastic.index بسازید.

دیگر نیاز نیست که conf/elasticsearch.conf را تغییر دهید و یا به Nutch 2.x ارتقا دهیم.

ترجمه : نادی سنجانی

منبع : https://www.mind-it.info/integrating-nutch-1-7-elasticsearch

درباره Elasticsearch -Nutch – HBase

موتور جستجو No Responses »

Jan 182015

الاستیک سرچ

یک موتور ایندکس گذاری روی متن با قابلیت پشتیبانی از کوئری های پیچیده و انواع درخواست ها به صورت تقریبا ریل تایم و نحوه ذخیره سازی جی سان . به عنوان یک دیتابیس روی الاستیک شاید نتوان حساب کرد چون اصلا برای این منظور طراحی نشده است و سازندگان آنهم هنوز آنرا به عنوان یک دیتابیس اصلی توصیه نکرده اند و بهتر است به صورت یک دیتابیس جانبی برای جستجوهای متنی پیشرفته مورد استفاده قرار گیرد و حتی اگر ایندکس های آن دچار اشکال شد ، بتوان از روی دیتابیس اصلی داده ها را بازیابی کرد .

بنابراین برای بخش جستجو ، اخبار مرتبط و نیز چنل ها ، انجمن های گفتگو، سوال و جواب ها، نظرات کاربران و مانند آن که نیاز به کوئری گرفتن روی متن داریم (با فیلترهای مختلف) یک انتخاب ایده ال خواهد بود با این شرط که اصل انتری ها و نیز چنل های کاربر در دیتابیسی جداگانه نیز ذخیره شود تا به هر دلیلی بعدها نیاز به ساخت مجدد ایندکس ها را داشته باشیم، بتوانیم این کار را انجام دهیم .

منبع

Elasticsearch یک «موتور جستجوی توزیع شده» است که به صورت یک پروژه منبع-باز جاوایی تولید شده است. این موتور جستجو خود بر اساس Lucene (موتور جستجوی محبوب در جاوا) تولید شده است. از اصلی ترین خصوصیات این موتور جستجو، مقیاس پذیری (یعنی استفاده از آن در زمانی که حجم و اندازه داده ها زیاد باشد) و ایندکس و جستجوی داده ها «در لحظه» (realtime) است.

Apache Solrموتور جستجوی محبوب و سریع محصول شرکت آپاچی می باشد که شما را قادر خواهد ساخت تا بر روی کلمات و محتواهای سایتتان جستجوی سریعی داشته باشید. این ابزار با زبان جاوا پیاده سازی شده است. مزایای استفاده از Solr:

جستجو بصورت Full-Text، Hit Highlighting، Fast Searching، Dynamic Clustering، Database Integration

مهترین مزیت استفاده از Solr این است که می توان بار جستجو را بر روی یک سرور دیگر انداخت تا جستجو باعث کندی پورتال نشود.

منبع

الاستیک سرچ(Elasticsearch) یک موتور قابل انعطاف، سریع، متن باز و قدرتمند برای جستجوی در لحظه در سایت هاست که بسیاری از سایت های معروف نظیر سونی، وردپرس، گیت هاب، پت، موزیلا، استک اورفلو و … از آن استفده می کنند. استفاده از این موتور باعث افزایش سرعت و کارایی وبسایت می شود

منبع

تعاریف اولیه :

Apache Hadoop

هادوپ بستر نرم‌افزاری منبع‌بازی است که برای نرم‌افزارهای توزیع‌شده داده محور طراحی شده است. این بستر توسط Doug Cutting توسعه یافت تا بتواند در موتور جستجوی منبع‌باز Nutch کار کند. برای بهره‌گیری از سیستم پردازش چند ماشینه بستر سخت‌افزاری Nutch، کاتینگ از سیستم فایل توزیع‌شده و تکنیک کاهش نگاشت استفاده کرد که با کمک همدیگر هادوپ را تشکیل دادند. هادوپ نام فیل اسباب‌بازی پسر او است. از طریق کاهش نگاشت، هادوپ داده‌های بزرگ را در تکه‌های کوچک‌تر و در گره‌های شبکه قرار می‌دهد. این فناوری هم‌اکنون به‌عنوان محبوب‌ترین واسط ذخیره‌سازی داده‌های بزرگ ساخت‌یافته، نیمه‌ساخت‌یافته و بدو ساختار استفاده می‌شود. هادوپ تحت مجوز آپاچی ۰/۲ منتشر شده است.

ElasticSearch

شای بنون، الاستیک‌سرچ را تحت مجوز آپاچی منتشر کرده است. این نرم‌افزار جستجو که کاملا مبتنی بر REST است، می‌تواند بدون پیکربندی خاص، به‌صورت لحظه‌ای جواب‌های جستجو را بیاورد. شرکت‌های زیادی از جمله موزیلا و StumbleUpon از الاستیک سرچ استفاده می‌کنند.

Apache HBase

اچ‌بیس که به زبان جاوا نوشته شده، مدلی از BigTable‌ گوگل است. این دیتابیس توزیع‌شده غیر رابطه‌ای ستونی می‌تواند روی سیستم فایل هادوپ اجرا شود. ذخیره و بازیابی بدون خطا و دسترسی به تعداد زیادی از داده‌های اسپارس از جمله قابلیت‌های این دیتابیس است. اچ‌بیس یکی از چند مدل انباره‌های داده NoSQL است که طی سال‌های اخیر توسعه یافته است. سال ۲۰۱۰، گوگل از اچ‌بیس برای سرویس پیغام‌دهی خود استفاده کرد.

تفاوت ElasticSearch با Solr

https://www.youtube.com/embed/mkt3f-lgizQ

راه اندازی موتور جستجو با PHP توسط ElasticSearch

https://www.youtube.com/embed/3xb1dHLg-Lk

دانلود nutch-elasticsearch

https://github.com/duffj/nutch-elasticsearch/archive/master.zip

الستیک چیست ؟

الستیک سرچ یک موتور جستجو و تحلیل در لحظه است که اپن سورس ، قابل انعطاف و قدرتمند و توزیع پذیر است

الستیک سرج

ویژگی ها :

تجزیه و تحلیل ترافیک همزمان
توزیع شدگی
توانمند
معماری چند مستاجره
متن کامل
سند گرا
طرحواره رایگان
RESTful API
استمرار هر عملگر

توزیع شدگی :
در شروع در اندازه کوچک و مقیاس پذیر به صورت افقی پیاده سازی کنید.
برای ظرفیت های بیشتر، فقط گره را اضافه کنید و اجازه دهید خوشه خود را سازماندهی مجدد کند.

دسترس پذیری

خوشه بندی های ElasticSearch گره های شکست خورده را شناسایی و حذف می کند و خود را دوباره سازماندهی می کند.

چند مستاجره

یک خوشه می تواند با شاخص های متعدد میزبانی شود بطوری که می تواند به طور مستقل یا به عنوان یک گروه درخواست پرس وجو زده شود.

سند گرایی

ذخیره موجودیت های پیچیده دنیای واقعی در Elasticsearch در قالب مستندات ساخت یافته JSON.

RESTful API

تقریبا هر عملی را می توان با استفاده از یک رابط RESTful با JSON روی HTTP انجام داد.

curl -X GET
curl -X PUT
curl -X POST
curl -X DELETE

Apache Lucene

ElasticSearch روی آپاچی Lucene ساخته شده است. Lucene یک کتابخانه با کارایی بالا، با قابلیت کامل بازیابی اطلاعات است که با زبان جاوا نوشته شده است.

اصطلاحات ElasticSearch

در ElasticSearch، همه چیز به عنوان یک سند ذخیره می شود. سند می تواند آدرس دهی شوند و توسط خصوصیات کوئری ها بازخوانی شوند

انواع سندها
خصوصیات سند ها متمایز می شوند بنابراین ما می توانیم آنها را از هم جدا کنیم. (PDF , PPT , Doc)

Shard

هر Shard یک ایندکس طبیعی مستقل از Lucene است.

که ما اجازه می دهد بر محدودیت های RAM، ظرفیت دیسک سخت غلبه داشته باشیم.

منبع : http://xinh.org/5el/#/5

پیاده سازی موتور جستجو با HBase Nutch Elasticsearch

موتور جستجو No Responses »

Jan 182015

Nutch 2.2 with ElasticSearch 1.x and HBase

This document describes how to install and run Nutch 2.2.1 with HBase 0.90.4 and ElasticSearch 1.1.1 on Ubuntu 14.04

Prerequisites

Make sure you installed the Java-SDK 7.


$ sudo apt-get install openjdk-7-jdk

And you set JAVA_HOME in your .bashrc:
Add the following line at the bottom of HOME/.bashrc:


export JAVA_HOME=/usr/lib/jvm/java-7-openjdk

(the jdk might differ)

Now you need to either reconnect with your terminal or type:


$ source ~/.bashrc

To load the changes in that file.

Download Nutch 2.2.x

Download the latest release or 2.2.1 from:
https://nutch.apache.org/downloads.html

Unpack it and follow the steps described in the tutorial:
http://wiki.apache.org/nutch/Nutch2Tutorial

Download HBase

It’s proven to work with version 0.90.4. This version is quite old (2011) so you might try with newer versions but nutch doesn’t support them. Hopefully there will be an upgrade soon.

http://archive.apache.org/dist/hbase/hbase-0.90.4/

Download ElasticSearch

Download and unpack ElasticSearch 1.x from:

http://www.elasticsearch.org/overview/elkdownloads/

To run ElasticSearch with the default configuration just go to ES_HOME and type:


$ bin/elasticsearch

Install HBase

Install HBase according to:
http://hbase.apache.org/book/quickstart.html

If you’re running on Ubuntu you need to change the file /etc/hosts
Due to some internal problems with old versions of HBase and the loopback of IP-addresses you need to specify localhost as 127.0.0.1
Just change all localhost-ips to the format above. Sometimes (on Ubuntu) localhost is 127.0.1.1.
Apparently this is fixed in newer versions of HBase, but you cannot use them yet.

Now you have to change the configuration of HBASE_HOME/conf/hbase-site.xml.
Hbase and Zookeper need directories where to save data to. Default is /temp which would be gone after restarting the computer.
So create 2 folders one for HBase and one for Zookeeper where they can save their data.


<property>
<name>hbase.rootdir</name>
<value>file:///DIRECTORY/hbase</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/DIRECTORY/zookeeper</value>
</property>

Just replace DIRECTORY whith a folder of your choice. Don’t forget file:// in front of your hbase.rootdir
You need to specify a location on your local filesytem for running HBase in standalone-mode (without hdfs).

Now start Hbase and run in HBASE_HOME:


$ ./bin/start-hbase.sh

Now you can check the logs at the specified location.

Now please use the shell and test your HBase installation.


$ ./bin/hbase shell

You should be able to create a table:


$ create 'test', 'ab'

Expected output:


$ ۰ row(s) in 1.2200 seconds

With the command scan you can just list all the content of the created table:


$ scan 'test'

If there are no errors, you’re HBase should be set up correctly.

Setting up Nutch to work with HBase and ElasticSearch 1.x

Go to your NUTCH_HOME and edit conf/nutch-site.xml:
Enable HBase as backend-database:


<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>

<property>
<name>http.agent.name</name>
<value>My Private Spider Bot</value>
</property>

<property> <name>http.robots.agents</name> <value>My Private Spider Bot</value> </property>

Now set the versions in your dependency-manager in NUTCH_HOME/ivy/ivy.xml:


<!-- Uncomment this to use HBase as Gora backend. -->
<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />

To make sure that the correct version of ElasticSearch is used you also need to change the default version to the one you want to use:


<dependency org="org.elasticsearch" name="elasticsearch" rev="1.1.1" conf="*->default"/>

Now you need to edit a line of Java-Source-Code.
NUTCH_HOME/src/java/org/apache/nutch/indexer/elastic/ElasticWriter.java
The line with item.failed() needs to be changed. Since there was an API-Update from the version that was used per default.


if (item.isFailed()) {...}

Now you need to edit in gora.properties:
Enable HBase as a default datastore:


gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

Compile Nutch

Just go to your NUTCH_HOME directory and run:


$ ant runtime

When the build was succesful you can start working.

Make sure Hbase is running!

Now you can start crawling a website

Create a folder called e.g. ‘urls’ in NUTCH_HOME/runtime
Create a file called seed.txt inside and add, line per line all the URLs that you want to crawl.

Now for the standalone mode (not using hadoop) go to NUTCH_HOME/runtime/local:

Now you need to execute a pipeline of commands all starting with bin/nutch:
http://wiki.apache.org/nutch/CommandLineOptions


۱ $ bin/nutch inject <seed-url-dir>
۲ $ bin/nutch generate -topN <n>
۳ $ bin/nutch fetch -all
۴ $ bin/nutch parse -all
۵ $ bin/nutch updatedb
۶ $ bin/nutch elasticindex <clustername> -all

To check whether everything worked you can look at hbase (via hbase-shell):


$ > scan 'webpage'

Then repete the steps 2-5 as much as you want and then write everything to the index (6).

To check whether something has been written to the ElasticSearch index just execute:


$ curl -XGET 'http://localhost:9200/index/_search?q=*&pretty=true'

There you should see the crawled and downloaded documents with the raw text and all the metadata in json-format.

Nutch saves everything from HBase ‘webpage’ to an index called ‘index’ per default and exports all ‘documents’ to ElasticSearch with the type ‘doc’.

Useful Links:

http://www.sigpwned.com/content/nutch-2-and-elasticsearch
http://etechnologytips.com/create-web-crawler-data-miner/
http://wiki.apache.org/nutch/CommandLineOptions
http://de.slideshare.net/digitalpebble/j-nioche-lucenerevoeu2013
https://www.inkling.com/read/hadoop-definitive-guide-tom-white-3rd/chapter-16/nutch-search-engine

نصب ElasticSearch در ۵ دقیقه :

Install Elasticsearch in 5 Minutes

This is a short tutorial to install Elasticsearch in 5 minutes on Ubuntu in a Digital Ocean droplet.

I’ve been working with WordPress for a long time and what really got me hooked in the early days was the “Famous 5-Minute Install”. I’m extending that same concept to one of my new favorite tools – Elasticsearch. It’s a super fast search service built on Lucene that has an embedded RESTful JSON API.

Since it’s native JSON, any object you have in your code – whether it be a Javascript object or a C# object – can be serialized and inserted into an Elasticsearch Index. So technically you can use it as a NoSQL database. It clusters and does a lot of other fancy stuff but that’s not the point of this article. Anyway you probably already know what it is if you stumbled on this post so lets get your very own Elastic Search sandbox up and running…

Step 1: Get A Server

Screen Shot 2014-05-23 at 1.23.28 PM In order to get this done in 5 minutes we’re going to useDigital Ocean to spin up a cloud server. Why? Because it’s awesome and your server will be ready in 55 seconds… It’s cheap to run and free to get started if you use one of their many promo codes. If this doesn’t sound awesome to you, feel free to spend an hour or so setting up a Linux virtual machine. Either way, this tutorial assumes you are going to run ElasticSearch on Linux, specifically Ubuntu.

So after you sign up for Digital Ocean, setup a free Ubuntu Droplet (more info than you need is here). They’ll email you the root password and you should be good to go to access the Linux console from their website.

Note: there are a bunch of other things you’ll want to do if you run this server in production – like setting up SSH, disabling root login, and other things. Follow this tutorial for ‘Initial Server Setup With Ubuntu‘ for more details.

Step 2: Install Elasticsearch

Now you are ready to install Elasticsearch. Fortunately that’s the easy part. Run the shell script in this gist to get up and running.

۱۲۳۴۵۶۷۸۹

cd ~

sudo apt-get update

sudo apt-get install openjdk-7-jre-headless -y

wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.2.2.deb

sudo dpkg -i elasticsearch-1.2.2.deb

sudo service elasticsearch start

#curl http://localhost:9200

view raw es.sh hosted with ❤ by GitHub

Aaaand you’re done.

Want to make sure it’s running? Run a curl in your console, hitting port 9200.

curl http://localhost:9200

You should see something like this giving you some meta data about your Elasticsearch instance.

Now, if I had DNS setup for this hostname, you will now be able to hit Elasticsearch externally with http://elastic.brudtkuhl.com:9200 but for now you can just go at the public IP address that Digital Ocean provides.

This is the first in a series of posts on my experiences working with Elasticsearch. Do you have any questions on how to install Elasticsearch?

Now onto your next step: Securing Elasticsearch.

معرفی OpenSearchServer

آموزشی تحقیقاتی, موتور جستجو No Responses »

Jan 182015

ویژگیهای OpenSearchServer
نا محدودیت ها :

مجموعه ای کامل از توابع جستجو
ساخت استراتژی دلخواه نمایه سازی
یک راه کار کاملا یکپارچه
سازه استخراج داده از متن کامل
خزنده (Crawler) می تواند همه چیز را شاخص گذاری کند

جستجو:

متن کامل، بولین و جستجوی آوایی
پیوند های بیرونی و درونی
خوشه بندی بند به بند و آبشاری
فیلتر جستجو بر اساس تاریخ، فاصله
موقعیت جغرافیایی با استفاده از مربع یا شعاع
الگوریتم های غلط گیر املایی متنوع
سفارشی سازی ارتباطات
پیشنهادات (تکمیل خودکار واژه جستجو )

نمایه سازی:

گزینه های ۱۷ زبان
تجزیه و تحلیل ویژه برای هر زبان
فیلترهای متعدد:n-gram, lemmatization, shingle, elisions, stripping diacritic و غیره
تشخیص خودکار زبان
شناسایی نام موجودیت ها
مترادف (کلمه و چند واژه ای )
طبقه بندی خودکار

یکپارچه سازی:

وب سرویس REST API و SOAP
ماژول مانیتورینگ
تکرار نمایه گذاری
برنامه ریزی برای کارهای دوره
قابلیت برنامه نویسی طراحی شده توسط Selenium®
پیاده سازی چند زبانه: پی اچ پی، روبی، پرل، C #، و غیره

دریافت:

اسناد Office® (Word®، Excel®، PowerPoint®، Visio®، Publisher®)
اسناد OpenOffice®
نرم افزار Adobe PDF® (با OCR)
صفحات وب (HTML)، RTF، متن ساده
ابرداده فایل های صوتی
تصاویر (ابرداده و OCR)
پیام های MAPI®
و غیره

خزنده

خزنده وب شامل گنجاندن یا حذف فیلتر با نویسه عام، ورود و خروج HTTP، تصویر، نقشه سایت، و غیره
بقیه خزنده خدمات شاخص وب داده
سیستم فایل خزنده مرور SMB / CIFS، FTP (S)، SWIFT
خزنده پایگاه داده پشتیبانی از تمام پایگاه های داده (JDBC)

معرفی
اضافه شده توسط نوین، آخرین ویرایش توسط امانوئل کلر در ۲۰۱۲ سپتامبر ۳ (تغییر مشاهده) برو به شروع فراداده
محتویات
منبع باز
صفحه اول در خزنده وب، فایل خزنده، پایگاه داده، XML ساختار بر اساس
نمایه سازی در چند زبان
تجزیه و تحلیل چند زبانه
فرمت سند های مختلف پشتیبانی
توابع پیشرفته
تنظیم آسان
ادغام سریع
OpenSearchServer است در سیستم عامل های زیر پشتیبانی
OpenSearchServer نرم افزار موتور جستجو تحت GPL V3 مجوز منبع باز توسعه یافته است. این مجموعه از متن کامل الگوریتم های جستجوی قوی ساخته شده است با استفاده از بهترین فن آوری های منبع باز در دسترس است.
منبع باز
این یک نرم افزار منبع باز تحت GPL V3 مجوز منبع باز توسعه یافته است.
صفحه اول در خزنده وب، فایل خزنده، پایگاه داده، XML ساختار بر اساس
شما می توانید شاخص از محتوای وب یا محتوای فایل های در حال اجرا خزنده وب و یا فایل خزنده به ترتیب ایجاد کنید. محتوای پایگاه داده می تواند به راحتی با استفاده از خزنده پایگاه داده، و همچنین به عنوان XML ساختار نمایه میشود.
نمایه سازی در چند زبان
محتوای وب / اسناد را می توان در هفده زبان ذکر شده در زیر نمایه: عربی، چینی، دانمارکی، هلندی، انگلیسی، فنلاندی، فرانسوی، آلمانی، مجارستانی، ایتالیایی، نروژی، پرتغالی، رومانیایی، روسی، اسپانیایی، سوئدی، ترکی.
تجزیه و تحلیل چند زبانه
انواع مختلف تجزیه و تحلیل در دسترس است با OpenSearchServer که جملات بریدن به کلمات وجود دارد، و سپس الگوریتم بر روی کلمات بر اساس زبان سند را (مفرد / جمع، جنس، افعال مزدوج، و غیره) را اجرا کنید.
فرمت سند های مختلف پشتیبانی
فرمت های زیر پشتیبانی می شوند: XML، XHTML / HTML، MS دفتر (ورد، پاورپوینت، اکسل)، ادوبی پی دی اف، دفتر گسترش، RTF، متن، صدا (OGG، MP3، WAV، تورنت)، تصاویر (JPEG، GIF، PNG ).
توابع پیشرفته
فکتینگ، مترادف، چک کردن غلط املایی، سقوط، stopwords، تکمیل خودکار، پیوست نمایش داده شد، OCR، تصویر.
تنظیم آسان
OpenSearchServer به راحتی قابل تنظیم از طریق فایل های XML و یا با استفاده از رابط وب غنی، که شامل تعریف رشته ها و گزینه های indexation است.
ادغام سریع
OpenSearchServer می تواند به سرعت یکپارچه:
راحتی (XML یا JSON)
SOAP خدمات وب
کتابخانه کارفرما: پی اچ پی، دات نت
دروپال و وردپرس پلاگین.
OpenSearchServer است در سیستم عامل های زیر پشتیبانی
Windows 20xx/XP/Vista/7/8
Linux
MacOS X
Solaris

Unlimited:
• A full set of search functions
• Build your own indexing strategy
• A fully integrated solution
• Parsers extract full-text data
• The crawlers can index everything
Search:
• Full-text, Boolean and phonetic search
• Outer and inner join
• Clusters with faceting & collapsing
• Filtered search (date, distance)
• Geolocation using square or radius
• Several spell-checking algorithms
• Relevance customization
• Suggestion (auto-completion(

Indexing:
• ۱۷ language options
• Special analysis for each language
• Numerous filters: n-gram, lemmatization, shingle, elisions, stripping diacritic, Etc.
• Automatic language detection
• Named entity recognition
• Synonyms (word and multi-terms)
• Automatic classifications
Integration:
• REST API and SOAP Web Service
• Monitoring module
• Index replication
• Scheduling for periodic tasks
• Scripting feature powered by Selenium®
• Multiple client implementations: PHP, Ruby, Perl, C#, Etc.

Parsing :
• Office® documents (Word®, Excel®, PowerPoint®, Visio®, Publisher®)
• OpenOffice® documents
• Adobe PDF® (with OCR)
• Web pages (HTML), RTF, plain text
• Audio files metadata
• Images (metadata and OCR)
• MAPI® messages
• Etc.

Crawlers
• The web crawler includes inclusion or exclusion filters with wildcards, HTTP authentication, screenshot, sitemap, Etc.
• The REST Crawler indexes Web Services data
• The file system crawler browses SMB/CIFS, FTP(S), SWIFT
• The database crawler supports all databases (JDBC)
OpenSearch Server

منبع : http://www.opensearchserver.com

http://www.opensearchserver.com/documentation/README.md

جزوه برنامه سازی منطق

برنامه سازی منطق No Responses »

Jan 172015

دانلود جزوه پایان ترم برنامه سازی منطق

( اسکن صفحات به ترتیب انجام نگرفته و ترتیب صفحات بر اساس شماره های نوشته روی برگه ها است)

که خانم مهندس راست خدیو زحمت کشیدند

ElasticWho?

موتور جستجو No Responses »

Jan 172015

ElasticWho?

ElasticSearch is a flexible and powerful open source, distributed real-time search and analytics engine.

Features

Real time analytics
Distributed
High availability
Multi tenant architecture
Full text
Document oriented
Schema free
RESTful API
Per-operation persistence

Distributed

Start small and scale horizontally out of the box. For more capacity, just add more nodes and let the cluster reorganize itself.

High Availability

ElasticSearch clusters detect and remove failed nodes, and reorganize themselves.

Multi Tenancy


$ curl -XPUT http://localhost:9200/people

$ curl -XPUT http://localhost:9200/gems

$ curl -XPUT http://localhost:9200/gems/document/pry-0.5.9

$ curl -XGET http://localhost:9200/gems/document/pry-0.5.9

A cluster can host multiple indices which can be queried independently, or as a group.

Document Oriented


{
    "_id": "pry-0.5.9", 
    "_index": "gems", 
    "_source": {
        "authors": [
            "John Mair (banisterfiend)"
        ], 
        "autorequire": null, 
        "bindir": "bin", 
        "cert_chain": [], 
        "date": "Sun Feb 20 11:00:00 UTC 2011", 
        "default_executable": null, 
        "description": "attach an irb-like session to any object at runtime", 
        "email": "jrmair@gmail.com"
    }
}

Store complex real world entities in Elasticsearch as structured JSON documents.

RESTful API

Almost any operation can be performed using a simple RESTful interface using JSON over HTTP.

curl -X GET
curl -X PUT
curl -X POST
curl -X DELETE

Apache Lucene

ElasticSearch is built on top of Apache Lucene. Lucene is a high performance, full-featured Information Retrieval library, written in Java.

ElasticSearch Terminology

Document

$ curl -XGET http://localhost:9200/gems/document/pry-0.5.9


{
    "_id": "pry-0.5.9", 
    "_index": "gems", 
    "_source": {
        "authors": [
            "John Mair (banisterfiend)"
        ], 
        "autorequire": null, 
        "bindir": "bin", 
        "cert_chain": [], 
        "date": "Sun Feb 20 11:00:00 UTC 2011", 
        "default_executable": null, 
        "description": "attach an irb-like session to any object at runtime", 
        "email": "jrmair@gmail.com", 
        "executables": [
            "pry"
        ], 
        "extensions": [], 
        "extra_rdoc_files": [], 
        "files": [
            "lib/pry/commands.rb", 
            "lib/pry/command_base.rb", 
            "lib/pry/completion.rb", 
            "lib/pry/core_extensions.rb", 
            "lib/pry/hooks.rb", 
            "lib/pry/print.rb", 
            "lib/pry/prompts.rb", 
            "lib/pry/pry_class.rb", 
            "lib/pry/pry_instance.rb", 
            "lib/pry/version.rb", 
            "lib/pry.rb", 
            "examples/example_basic.rb", 
            "examples/example_commands.rb", 
            "examples/example_command_override.rb", 
            "examples/example_hooks.rb", 
            "examples/example_image_edit.rb", 
            "examples/example_input.rb", 
            "examples/example_input2.rb", 
            "examples/example_output.rb", 
            "examples/example_print.rb", 
            "examples/example_prompt.rb", 
            "test/test.rb", 
            "test/test_helper.rb", 
            "CHANGELOG", 
            "LICENSE", 
            "README.markdown", 
            "Rakefile", 
            ".gemtest", 
            "bin/pry"
        ], 
        "has_rdoc": true, 
        "homepage": "http://banisterfiend.wordpress.com", 
        "id": "pry-0.5.9", 
        "licenses": [], 
        "name": "pry", 
        "platform": "ruby", 
        "post_install_message": null, 
        "rdoc_options": [], 
        "require_paths": [
            "lib"
        ], 
        "requirements": [], 
        "rubyforge_project": null, 
        "rubygems_version": "1.5.2", 
        "signing_key": null, 
        "specification_version": 3, 
        "summary": "attach an irb-like session to any object at runtime", 
        "test_files": [], 
        "version": {
            "prerelease": null, 
            "version": "0.5.9"
        }
    }, 
    "_type": "document", 
    "_version": 1, 
    "exists": true
}

In ElasticSearch, everything is stored as a Document. Document can be addressed and retrieved by querying their attributes.

Document Types

Lets us specify document properties, so we can differentiate the objects.

Shard

Each Shard is a separate native Lucene Index. Lets us overcome RAM limitations, hard disk capacity.

Replica

An exact copy of primary Shard. Helps in setting up HA, increases query throughput.

Index

ElasticSearch stores its data in logical Indices. Think of a table, collection or a database.

ElasticSearch Index

An Index has atleast 1 primary Shard, and 0 or more Replicas.

Cluster

A collection of cooperating ElasticSearch nodes. Gives better availability and performance via Index Sharding and Replicas.

ElasticSearch Workshop

Download and start

Download ElasticSearch from http://www.elasticsearch.org/download


							# service elasticsearch start


							# /etc/init.d/elasticsearch start


							# ./bin/elasticsearch -f

ElasticSearch Plugins

A site plugin to view contents of ElasticSearch cluster.


# cd /usr/share/elasticsearch
# ./bin/plugin -install mobz/elasticsearch-head


# cd /opt/elasticsearch-0.90.2
# ./bin/plugin -install mobz/elasticsearch-head

Restart ElasticSearch. Plugins are detected and loaded on service startup.

elasticsearch-head

RESTful interface


$ curl -XGET 'http://localhost:9200/'


{
  "ok" : true,
  "status" : 200,
  "name" : "Drake, Frank",
  "version" : {
    "number" : "0.90.2",
    "snapshot_build" : false,
    "lucene_version" : "4.3.1"
  },
  "tagline" : "You Know, for Search"
}

Create Index


$ curl -XPUT 'http://localhost:9200/gems'


{
  "ok":true,
  "acknowledged":true
}

Cluster status


$ curl -XGET 'localhost:9200/_status'


{"ok":true,"_shards":{"total":20,"successful":10,"failed":0},
"indices":{"gems":{"index":{"primary_size":"495b","primary_size_in_bytes":495,
"size":"495b","size_in_bytes":495},"translog":{"operations":0},
"docs":{"num_docs":0,"max_doc":0,"deleted_docs":0},"merges":
{"current":0,"current_docs":0,"current_size":"0b","current_size_in_bytes":0,
"total":0,"total_time":"0s","total_time_in_millis":0,"total_docs":0,
"total_size":"0b","total_size_in_bytes":0},
...
...
...

Pretty Output


$ curl -XGET 'localhost:9200/_status?pretty'


$ curl -XGET 'localhost:9200/_status' | python -mjson.tool


$ curl -XGET 'localhost:9200/_status' | json_reformat


{
    "ok": true,
    "_shards": {
        "total": 20,
        "successful": 10,
        "failed": 0
    },
    "indices": {
        "gems": {
            "index": {
                "primary_size": "495b",
                "primary_size_in_bytes": 495,
                "size": "495b",
                "size_in_bytes": 495
            },
...

Delete Index


$ curl -XDELETE 'http://localhost:9200/gems'


{
  "ok":true,
  "acknowledged":true
}

Create custom Index


{
    "settings" : {
        "index" : {
            "number_of_shards" : 6,
            "number_of_replicas" : 0
        }
    }
}


$ curl -XPUT 'http://localhost:9200/gems' -d @body.json


{
  "ok":true,
  "acknowledged":true
}

Index a document


{
  "name": "pry", 
  "platform": "ruby", 
  "rubygems_version": "1.5.2", 
  "description": "attach an irb-like session to any object at runtime", 
  "email": "anurag@example.com", 
  "has_rdoc": true, 
  "homepage": "http://banisterfiend.wordpress.com"
}


$ curl -XPOST 'http://localhost:9200/gems/test/' -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"test",
  "_id":"lsJgxiwET6eg",
  "_version":1
}

Get document


$ curl -XGET 'http://localhost:9200/gems/test/lsJgxiwET6eg' | python -mjson.tool


{
    "_id": "lsJgxiwET6eg", 
    "_index": "gems", 
    "_source": {
        "description": "attach an irb-like session to any object at runtime", 
        "email": "anurag@example.com", 
        "has_rdoc": true, 
        "homepage": "http://banisterfiend.wordpress.com", 
        "name": "pry", 
        "platform": "ruby", 
        "rubygems_version": "1.5.2"
    }, 
    "_type": "test", 
    "_version": 1, 
    "exists": true
}

Index another document


{
  "name": "grit", 
  "platform": "jruby", 
  "rubygems_version": "2.5.0", 
  "description": "Ruby library for extracting information from a git repository.", 
  "email": "mojombo@github.com", 
  "has_rdoc": false,
  "homepage": "http://github.com/mojombo/grit"
}


$ curl -XPOST 'http://localhost:9200/gems/test/' -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"test",
  "_id":"ijUOHi2cQc2",
  "_version":1
}

Custom Document IDs


{
  "name": "grit", 
  "platform": "jruby", 
  "rubygems_version": "2.5.1", 
  "description": "Ruby library for extracting information from a git repository.", 
  "email": "mojombo@github.com", 
  "has_rdoc": false,
  "homepage": "http://github.com/mojombo/grit"
}


$ curl -XPUT 'http://localhost:9200/gems/test/grit-2.5.1' -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"test",
  "_id":"grit-2.5.1",
  "_version":1
}

IDs are unique across Index. Composed of DocumentType and ID.

Document Versions


$ curl -XPUT 'http://localhost:9200/gems/test/grit-2.5.1' -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"test",
  "_id":"grit-2.5.1",
  "_version":2
}

Searching Documents


{
  "query": {
    "term": {"name": "pry"}
  }
}


$ curl -XPOST http://localhost:9200/gems/_search -d @body.json | python -mjson.tool


{
  "_shards": {
    "failed": 0, 
    "successful": 6, 
    "total": 6
  },
  "hits": {
    "hits": [
      {
        "_id": "MWkKgzsMRgK", 
        "_index": "gems", 
        "_score": 1.4054651, 
        "_source": {
          "description": "attach an irb-like session to any object at runtime", 
          "email": "anurag@example.com", 
          "has_rdoc": true, 
          "homepage": "http://banisterfiend.wordpress.com", 
          "name": "pry", 
          "platform": "ruby", 
          "rubygems_version": "1.5.2"
        }, 
        "_type": "test"
      }
    ], 
    "max_score": 1.4054651, 
    "total": 1
  }, 
  "timed_out": false, 
  "took": 2
}

Counting Documents


{
  "term": {"name": "pry"}
}


$ curl -XGET http://localhost:9200/gems/test/_count -d @body.json


{
    "_shards": {
        "failed": 0, 
        "successful": 6, 
        "total": 6
    }, 
    "count": 1
}

Update a Document


{
  "doc": {
   "platform": "macruby" 
  }
}


$ curl -XPOST http://localhost:9200/gems/test/grit-2.5.1/_update -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"test",
  "_id":"grit-2.5.1",
  "_version":4
}

The partial document is merged using simple recursive merge.

Update via Script


{
    "script" : "ctx._source.platform = vm_name",
    "params" : {
        "vm_name" : "rubinius"
    }
}


$ curl -XPOST http://localhost:9200/gems/test/grit-2.5.1/_update -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"test",
  "_id":"grit-2.5.1",
  "_version":5
}

Delete Document


$ curl -XDELETE 'http://localhost:9200/gems/test/grit-2.5.1'


{
  "ok":true, 
  "found":true,
  "_index":"gems",
  "_type":"test",
  "_id":"grit-2.5.1",
  "_version":6
}

Put Mapping


{
  "gem" : {
    "properties" : {
      "name" :        {"type" : "string", "index": "not_analyzed"},
      "platform" :    {"type" : "string", "index": "not_analyzed"},
      "rubygems_version" : {"type" : "string", "index": "not_analyzed"},
      "description" : {"type" : "string", "store" : "yes"},
      "has_rdoc" :    {"type" : "boolean"}      
    }
  }
}


$ curl -XPUT 'http://localhost:9200/gems/gem/_mapping' -d @body.json


$ curl -XGET 'http://localhost:9200/gems/_mapping' | python -mjson.tool

Index Document with Mapping


{
  "name": "grit", 
  "platform": "ruby", 
  "rubygems_version": "2.5.1", 
  "description": "Ruby library for extracting information from a git repository.", 
  "email": "mojombo@github.com", 
  "has_rdoc": false,
  "homepage": "http://github.com/mojombo/grit"
}


$ curl -XPUT 'http://localhost:9200/gems/gem/grit-2.5.1' -d @body.json


{
  "ok":true,
  "_index":"gems",
  "_type":"gem",
  "_id":"grit-2.5.1",
  "_version":1
}

Matching documents


{
  "query": {
    "match" : {
        "description" : "git repository"
    }
  }
}


$ curl -XPOST http://localhost:9200/gems/gem/_search -d @body.json

Highlighting


{
  "query": {
    "match" : {
        "description" : "git repository"
    }
  },
  "highlight" : {
        "fields" : {
            "description" : {}
        }
    }
}


$ curl -XPOST http://localhost:9200/gems/gem/_search -d @body.json


"highlight": {
  "description": [
    "Ruby library for extracting information from a git repository."
  ]
}

Search Facets


{
  "query": { "match_all" : {} },
  "facets" : {
    "gem_names" : {
      "terms" : { "field": "name" }
    }
  }
}


$ curl -XPOST http://localhost:9200/gems/_search -d @body.json


...
  "facets": {
    "gem_names": {
      "_type": "terms", 
      "missing": 0, 
      "other": 0, 
      "terms": [
        {
          "count": 2, 
          "term": "pry"
        }, 
        {
          "count": 2, 
          "term": "grit"
        }, 
        {
          "count": 1, 
          "term": "abc"
        }
      ], 
      "total": 5
    }
  },
  "hits": {
    "hits": [
...

(Lab)

Analyzing Aadhaar’s Datasets

Download Public Dataset

Download from Aadhaar Public Data Portal at https://data.uidai.gov.in

Download Tools

$ git clone https://github.com/gnurag/aadhaar

Prepare Data & Configure


# gem install yajl-ruby tire activesupport

$ git clone https://github.com/gnurag/aadhaar
$ cd aadhaar/data
$ unzip UIDAI-ENR-DETAIL-20121001.zip
$ cd ../bin
$ vi aadhaar.rb

Configuration


AADHAAR_DATA_DIR = "/path/to/aadhaar/data"
ES_URL           = "http://localhost:9200"
ES_INDEX         = 'aadhaar'
ES_TYPE          = "UID"
BATCH_SIZE       = 1000

Index

$ ruby aadhaar.rb

Running Examples

$ curl -XPOST http://localhost:9200/aadhaar/UID/_search -d @template.json | python -mjson.tool

Additional Notes

Index Aliases

Group multiple Indexes, and query them together.


curl -XPOST 'http://localhost:9200/_aliases' -d '
{
    "actions" : [
        { "add" : { "index" : "index1", "alias" : "master-alias" } }
        { "add" : { "index" : "index2", "alias" : "master-alias" } }
    ]
}'


curl -XPOST 'http://localhost:9200/_aliases' -d '
{
    "actions" : [
        { "remove" : { "index" : "index2", "alias" : "master-alias" } }
    ]
}'

Document Routing

Control which Shard the document will be placed and queried from.

Parents & Children


$ curl -XPUT http://localhost:9200/gems/gem/roxml?parent=rexml -d '{
    "tag" : "something"
}'

Custom Analyzers

Boosting Search Results

ElasticSearch Ecosystem

A wide range of site plugins, analyzers, river plugins available from the community.

THE END

تاریخ جلسه دفاع از پایان نامه

اطلاعیه ها No Responses »

Oct 182014

سلام

به اطلاع می رساند، جسله دفاع بنده با عنوان :

” رویکردی بر پیشنهاد دهنده واژه ها در موتور جستجوی فارسی “

روز یکشنبه ۹۳/۰۷/۲۷ ساعت ۵ بعد از ظهر

دانشگاه امیرکبیر ، دانشکده ریاضی و علوم کامپیوتر ، کلاس ۳۰۴

برگزار خواهد شد.

با تشکر و قدردانی از تمام اساتید ، بویژه دکتر عادل محمد پور ، دکتر مصطفی شمسی و دکترمهدی قطعی

و همچنین دکتر زارع از دانشگاه یزد بخاطر در اختیار قرار دادن وب سریس های جستجوی فارسی Parsijoo.ir

و تمامی دوستانی که در این دوره کارشناسی ارشد در تولید علم و دانش همراه بوده اند.

چند مطلب آموزشی پایگاه داده و نمونه سوال دکتر شیری

پایگاه داده - پیشرفته No Responses »

Jun 062014

ﻭﺍﺑﺴﺘﮕﻲ ﻭ ﻧﺮﻣﺎﻝ ﺳﺎﺯﻱ

نرمال سازی بانک های اطلاعاتی

نرمال سازی ( Normalization ) یا به تعبیری هنجار سازی فرآیندی است در رابطه با بانک های اطلاعاتی که با دو هدف عمده زیر انجام می شود :

کاهش افزونگی اطلاعات ، به این معنی که اطلاعات فقط در یک مکان (جدول) ذخیره و در تمام بانک با استفاده از روابط منطقی تعریف شده (RelationShip) قابل دسترسی باشد .
حفظ یکپارچگی اطلاعات ، به این معنی که اعمال تغییرات بر روی اطلاعات ( نظیر ایجاد ، بهنگام سازی و حذف ) در یک مکان انجام و به دنبال آن آثار تغییرات در تمام بانک مشاهده گردد . برای روشن شدن مفهوم یکپارچگی بد نیست به مثال ذیل توجه نمائید :
فرض کنید در یک بانک اطلاعاتی دارای دو موجودیت کتاب و نویسنده باشیم . هر یک از موجودیت های فوق دارای المان های اطلاعاتی (Attribute) مختص به خود می باشند . به عنوان نمونه موجودیت “کتاب” دارای المان اطلاعاتی نام نویسنده و موجودیت “نویسنده ” دارای المان های اطلاعاتی متعددی نظیر نام نویسنده ، آدرس نویسنده و … باشد . در صورتی که در موجودیت “کتاب” یک رخداد (رکورد) ایجاد نمائیم بدون اینکه نام نویسنده آن را در موجودیت “نویسنده” ایجاد کرده باشیم ، دچار یک ناهمگونی اطلاعات خواهیم شد .

با توجه به اهداف فوق می توان گفت که فرآیند نرمال سازی از ناهنجاری های بوجود آمده به دلیل بروز تغییرات در بانک جلوگیری خواهد نمود . با اعمال فرآیند نرمال سازی ، یک بانک اطلاعاتی کارآ و مطمئن را خواهیم داشت .
فرآیند نرمال سازی ، فرم های متفاوتی دارد که انواع متداول آن به شرح ذیل است :

فرم اول نرمال سازی ۱NF
فرم دوم نرمال سازی ۲NF
فرم سوم نرمال سازی ۳NF
فرم بویس کد نرمال سازی BCNF
فرم چهارم نرمال سازی ۴NF

فرم اول نرمال ۱NF
موجودیت و یا جدولی در فرم اول نرمال است که تمامی المان های اطلاعاتی آن ( منظور Attribute است ) یکتا و یا اصطلاحا”atomic باشند . برای روشن شدن این موضوع فرض کنید دارای موجودیتی با نام “فاکتور فروش ” باشیم .

فاکتور فروش

شماره فاکتور(کلید اصلی)
تاریخ فاکتور
کد مشتری
نام مشتری
کالای ۱
تعداد کالای ۱
قیمت واحد کالای ۱
.
.
.
کالای n
تعداد کالای n
قیمت واحد کالای n

با مشاهده موجودیت فوق متوجه این موضوع خواهیم شد که المان های کالا ، تعداد کالا و قیمت واحد کالا بیش از یک مرتبه در موجودیت وجود داشته و اصطلاحا” یک گروه تکرار را تشکیل می دهند . برای اجرای مدل فیزیکی این موجودیت ناچار خواهیم بود در طراحی جدول آرایه ای به طول ثابت ( به عنوان نمونه با ده عضو ) تعریف و در آن به ترتیب کالای ۱ تا ۱۰ را تعریف نمائیم .

مشکل : طراحی فوق ما را با دو مشکل عمده روبرو خواهد ساخت : اول این که کارائی بانک اطلاعاتی پائین خواهد آمد (اگر در آینده تعداد کالاهای فاکتور فروش بیش از ۱۰ کالا باشد ، آنگاه مجبور خواهیم بود طراحی جدول مربوطه و متعاقب آن نرم افزارهائی که از آن استفاده می کنند را تغییر دهیم ) و مشکل دوم این که بسیاری از فاکتورها لزوما” دارای ۱۰ کالا نیستند و بنابراین محتوی بسیاری از فیلدها در جدول فوق خالی (دارای ارزش Null) خواهد ماند و حجم زیادی از فضای دیسک هدر خواهد رفت .

راه حل : برای حل این مشکل کافی است تمامی گروه های تکرار و یا آرایه ها را از موجودیت خارج کرده و به موجودیت دیگری منتقل نمائیم . در چنین مواردی ، کلید اصلی موجودیت اول را به عنوان بخشی از کلید اصلی موجودیت جدید قرار داده و با تلفیق یکی دیگر از آیتم های اطلاعاتی موجودیت جدید که تضمین کننده یکتا بودن رکوردهای آن موجودیت ( جدول ) است ، کلید اصلی موجودیت ایجاد می گردد . بدین ترتیب ، یک ارتباط بین موجودیت پدر و فرزند بر اساس کلید اصلی موجودیت پدر برقرار خواهد شد .
مجددا” به موجودیت “فاکتور فروش ” مثال قبل پس از تبدیل به فرم اول نرمال توجه نمائید :

ردیف های فاکتور فروش	ارتباط بین موجودیت پدر و فرزند بر اساس کلید اصلی موجودیت پدر (فاکتور فروش)	فاکتور فروش
شماره فاکتور(قسمت اول کلید اصلی) کالا (قسمت دوم کلید اصلی) تعداد قیمت واحد		شماره فاکتور(کلید اصلی) تاریخ فاکتور کد مشتری نام مشتری

به طور خلاصه می توان گفت که هدف از فرم اول نرم سازی حذف گروه های تکرار و آرایه ها از موجودیت یا جدول است . فرآیند فوق ، می بایست بر روی تمامی موجودیت های بانک اطلاعاتی اعمال گردد تا بتوان گفت بانک اطلاعاتی نرمال شده در فرم اول است .

فرم دوم نرمال ۲NF
موجودیتی در فرم دوم نرمال است که اولا” در فرم اول نرمال باشد و ثانیا” تمامی آیتم های (Attribute) غیر کلیدی آن وابستگی تابعی به تمام کلید اصلی‌ موجودیت داشته باشند نه به بخشی از آن .همانگونه که از تعریف فوق استنباط می گردد ، فرم دوم نرمال سازی در خصوص موجودیت هائی بررسی و اعمال می شود که دارای کلید اصلی مرکب هستند ( بیش از یک جزء ) . بنابراین در مثال فوق موجودیت “فاکتور فروش ” به خودی خود در فرم دوم نرمال است ولی موجودیت “ردیف های فاکتور فروش ” که دارای کلید اصلی مرکب است ، نیاز به بررسی دارد .

مشکل : در صورتی که موجودیت در فرم دوم نرمال نباشد ، آنگاه با تغییر اطلاعات قسمت های غیروابسته به تمام کلید ، این تغییرات در یک رکورد اعمال می شود ولی تاثیری بر روی سایر رکوردها و یا جداول نخواهد داشت . در مثال فوق با تغییر محتوی قیمت واحد در موجودیت “فاکتور فروش ” ، قیمت واحد کالا در یک فاکتور فروش اصلاح می گردد اما در سایر فاکتورها اعمال نخواهد شد .

راه حل : برای حل این مشکل کافی است موجودیت جدیدی ایجاد نمائیم و کلید اصلی آن را برابر با آن بخش از کلید اصلی موجودیت مورد بررسی که دارای المان های وابسته به آن است قرار دهیم ، سپس تمام المان های اطلاعاتی وابسته تابعی به این کلید را از موجودیت مورد بررسی خارج کرده و به موجودیت جدید منتقل نمائیم . در این حالت بین موجودیت جدید ایجاد شده و موجودیت نرمال شده ، بر اساس کلید اصلی موجودیت جدید ایجاد شده یک ارتباط پدر فرزندی تعریف خواهد شد . دقت کنید که بر عکس نرمال سازی فرم اول ، در این جا موجودیت موردبررسی فرزند بوده و موجودیت جدید پدر خواهد بود .
به مثال فوق برمی گردیم و فرم دوم نرمال سازی را بر روی آن اعمال می نمائیم . موجودیت “فاکتور فروش” دارای کلید مرکب نیست پس در فرم دوم نرمال بوده و نیاز به بررسی ندارد ، اما موجودیت “ردیف های فاکتور فروش” نیاز به بررسی دارد . در این موجودیت آیتم اطلاعاتی “قیمت واحد” وابستگی تابعی به آیتم کالا دارد که بخشی از کلید است نه کل کلید ، پس لازم است تا این موجودیت را تبدیل به فرم دوم نرمال نمائیم . بدین منظور موجودیتی به نام “کالا” ایجاد کرده ، کلید اصلی آن را برابر کالا قرار داده و آیتم قیمت واحد را از موجودیت ردیف های فاکتور فروش خارج نموده و به این موجودیت منتقل می نمائیم. مثال فوق پس از تبدیل به فرم دوم نرمال به شکل ذیل خواهد بود :

ردیف های فاکتور فروش	ارتباط بین موجودیت پدر و فرزند بر اساس کلید اصلی موجودیت پدر (فاکتور فروش)	فاکتور فروش
شماره فاکتور(قسمت اول کلید اصلی) کالا (قسمت دوم کلید اصلی) تعداد		شماره فاکتور(کلید اصلی) تاریخ فاکتور کد مشتری نام مشتری
ارتباط بین موجودیت پدر و فرزند بر اساس کلید اصلی موجودیت پدر (کالا)
کالا
کالا (کلید اصلی) قیمت واحد

فرم سوم نرمال ۳NF
موجودیت و یا جدولی در فرم سوم نرمال است که اولا” در فرم دوم نرمال بوده و ثانیا” تمام آیتم های غیر کلید آن وابستگی تابعی به کلید اصلی داشته باشند ، نه به یک آیتم غیر کلید .

مشکل : در صورتی که موجودیتی در فرم سوم نرمال نباشد ، آنگاه با تغییر آیتم یا آیتم های اطلاعاتی غیر وابسته به کلید اصلی در یک رکورد، تغییرات در سایر رکوردها اعمال نخواهد شد و دچار دوگانگی اطلاعات خواهیم شد (مثلا” یک مشتری با دو نام متفاوت) .

راه حل : کافی است آیتم های غیر کلیدی به هم وابسته را به موجودیت جدیدی منتقل و کلید اصلی موجودیت جدید را تعیین نمائیم ، آنگاه کلید اصلی موجودیت جدید را در موجودیت نرمال شده به عنوان یک کلید خارجی (Foreign Key) در نظر گرفت . در موجودیت “فاکتور فروش” مثال فوق آیتم نام مشتری وابستگی تابعی به آیتم کد مشتری دارد که خود یک آیتم غیر کلید است بنابر این باید نرمال سازی فرم سوم در خصوص آن اعمال شود . شکل ذیل نحوه انجام این کار را نشان می دهد :

ردیف های فاکتور فروش		ارتباط بین موجودیت پدر و فرزند بر اساس کلید اصلی موجودیت پدر (فاکتور فروش)	فاکتور فروش
شماره فاکتور(قسمت اول کلید اصلی) کالا (قسمت دوم کلید اصلی) تعداد			شماره فاکتور(کلید اصلی) تاریخ فاکتور کد مشتری (کلید خارجی)
	ارتباط بین موجودیت پدر و فرزند بر اساس کلید اصلی موجودیت پدر (کالا)			ارتباط بین موجودیت پدر ( مشتری ) و فرزند بر اساس کلید خارجی
کالا			مشتری
کالا (کلید اصلی) قیمت واحد			کدمشتری (کلید اصلی) نام مشتری

فرم بویس کد نرمال BCNF
فرم بویس کد دارای مفهوم جامع تری نسبت به فرم دوم و سوم نرمال است . در فرم دوم و سوم نرمال بحث بر سر وابستگی تابعی آیتم های غیر کلیدی به کلید اصلی است . اما در فرم بویس کد ، موجودیتی در فرم بویس کد نرمال است که اولا” در فرم اول نرمال بوده و ثانیا” تمام المان های غیر کلیدی آن کاملا” وابسته تابعی به یک کلید باشند و نه چیز دیگر . نکته حائز اهمیت در این فرم این است که بحث بر سر وابستگی تابعی با یک کلید است نه فقط کلید اصلی. مفهوم فوق در خصوص موجودیت هائی که دارای چندین کلید هستند (Alternate Key) مطرح می شود .

فرم چهارم نرمال ۴NF
این فرم در خصوص موجودیت هائی است که ارتباط بین المان های آن یک ارتباط چند ارزشه و یا چند به چند باشد . به عنوان مثال ، موجودیت کلاس درس می تواند شامل چندین دانش آموز و چندین معلم باشد. در چنین مواردی ارتباط بین معلم و دانش آموز یک ارتباط چند به چند می باشد . در این حالت با ایجاد یک موجودیت رابط مابین موجودیت های مذکور، مشکل ارتباط چند به چند حل خواهد شد (بسیاری از سیستم های مدیریت بانک های رابطه ای نظیر MSSQL از رابطه چند به چند پشتیبانی نمی نمایند ، یعنی نمی توان بین دو جدول یک رابطه چند به چند ایجاد نمود). معمولا” تمام المان های موجودیت رابط ایجاد شده بخشی از کلید اصلی است .

خلاصه
نرمال سازی فرم های دیگری نیز دارد که به دلیل نادر بودن و خاص بودن آنها در این مقاله به آنها اشاره نشده است . آنچه در خصوص نرمال سازی عمومیت دارد تا فرم سوم آن است ، یعنی در هنگام طراحی بانک های اطلاعاتی حتما” می بایست فرآیند نرمال سازی تا فرم سوم را انجام داد .
فرآیند نرمال سازی یک فرآیند تکراری (Recursive) است یعنی پس از هر مرحله نرمال سازی که منجر به ایجاد موجودیت های جدید می گردد ، فرآیند را باید از ابتدا تا انتها بر روی موجودیت های تازه ایجاد شده نیز اجرا نمود.

———————–

normalsazi

———————–

*جدول آنرمال

اگر در جدولی مانند جدول زیر به ازای هر شماره دانشجویی و نام دانشجو ؛ بجای یک شماره تلفن ، چند شماره تلفن وجود داشته باشد جدول آنرمال است.(یعنی اگر شماره ۷۸۰۱ ؛ مورد جستجو قرار گرفت ، دانشجوی آرش با ۲ شماره تلفن بدست می آید؛ در صورتی که باید یکی از دو حالت زیر رخ دهد:

۱: نتیجه جستجو یک رکورد باشد که در آن نام آرش با یک شماره تلفن بدست بیاید

۲: نتیجه جستجو۲ رکورد متفاوت باشد که در اولی نام آرش با شماره تلفن اول و در رکورد دوم نام آرش با شماره تلفن دوم بیاید )

تلفن

نام دانشجو

شماره داشجویی

۶۲۶۲۷۷۸-۰۳۱۱

۰۹۱۳۳۱۱۵۲۳۴

آرش

جدول آنرمال۷۸۰۱

۲۹۵۶۶۷۷-۰۲۱

۰۹۱۲۳۱۴۴۵۳۲

علی

۷۸۰۲

*نرمال سازی سطح ۱

جدولی نرمال سطح ۱ است که در برخورد هر سطر با ستون به یک مقدار تجزیه ناپدیر برسیم

مثلا در جدول بالا در سطر اول (آرش ۷۸۰۱) و ستون سوم (تلفن) به ۲ شماره دست می یابیم (بخشی که با قرمز پر رنگ مشخص شده) ؛ پس برای تبدیل جدول به نرمال سطح ۱ آن را بصورت زیر در می آوریم

تلفن	نام دانشجو	شماره داشجویی
۶۲۶۲۷۷۸-۰۳۱۱	آرش	نرمال سطح ۱ ۷۸۰۱
۰۹۱۳۳۱۱۵۲۳۴	آرش	۷۸۰۱
۲۹۵۶۶۷۷-۰۲۱	علی	۷۸۰۲
۰۹۱۲۳۱۴۴۵۳۲	علی	۷۸۰۲

تعریف نرمال سطح ۱ : زمانی یک جدول نرمال سطح ۱ است که در برخورد هر سطر با هر ستون فقط و فقط به یک مقدار واحد و نجزیه ناپذیر برسیم (مثلا در برخورد سطر اول با ستون تلفن فقط به یک شماره تلفن می رسیم ؛ و همین طور برای سطرهای بعدی )

نرمال سطح ۲ (زمانی برای یک جدول نرمال سازی سطح ۲و ۳و… انجام می دهیم که کلید اصلی آن چند بخشی باشد یعنی چند فیلد باهم کلید اصلی باشند)

مثال : جدول زیر نرمال سطح ۱ بوده ولی نرمال سطح ۲ نیست//« علامت # یعنی کلید»

چون اگر بخواهیم دانشجوی علی با شماره ۷۸۰۱ را از جدول حذف کنیم ؛ اطلاعات درس ریاضی هم ناخواسته حذف می شود و اگر دانشجوی جدیدی ثبت نام کند که هنوز هیچ درسی را نگرفته ؛ نمی توان فیلد شماره درس که جزیی از کلید است را خالی رها کرد.

#ترم	نمره گرفته شده	واحد درس	نام درس	#شماره درس	نام	#شماره دانشجویی
۲	۲۰	۳	پایگاه داده	۱۴۰۰	علی	۷۸۰۱
۱	۱۰	۳	ریاضی ۱	۱۵۰۰	علی	۷۸۰۱
۱	۲۰	۳	تجزیه و تحلیل	۱۶۰۰	علی	۷۸۰۱
۱	۷	۳	پایگاه داده	۱۴۰۰	آرش	۷۹۰۲
۱	۲۰	۱	تربیت بدنی	۱۷۰۰	آرش	۷۹۰۲

یک جدول نرمال سطح ۲ است اگر:

۱- نرمال یک باشد

۲- در آن جدول هیچ وابستگی جزیی به کلید اصلی وجود نداشته باشد(هیچ یک از ویژگی های جدول تنها به قسمتی از کلید اصلی وابستگی نداشته باشد) یعنی جستجوی مقداری در جدول به کلیه فیلدهایی که کلید هستند وابستگی داشته باشد.

۳- (وابستگی جزیی : حالتی است که بدست آوردن مقداری در جدول به قسمتی از کلید «نه کل کلید» وابستگی دارد ؛ حالت زیر:

#ترم	نمره گرفته شده	واحد درس	نام درس	#شماره درس	نام	#شماره دانشجویی
۲	۲۰	۳	پایگاه داده	۱۴۰۰	علی	۷۸۰۱
۱	۱۰	۳	ریاضی ۱	۱۵۰۰	علی	۷۸۰۱
۱	۲۰	۳	تجزیه و تحلیل	۱۶۰۰	علی	۷۸۰۱
۱	۷	۳	پایگاه داده	۱۴۰۰	آرش	۷۹۰۲
۱	۲۰	۱	تربیت بدنی	۱۷۰۰	آرش	۷۹۰۲

بدست آوردن نام درس فقط به فیلد شماره درس که قسمتی از کلید است وابستگی دارد چون اگر شماره درسی را داشته باشیم میتوان نام آن را بدست آورد و به چیز دیگری نیاز نیست .

)

تبدیل به نرمال سطح۲ : ص ۲۱۰ کتاب اصول و طراحی پایگاه داده ها ؛ تالین ساهاکیان

نرمال سازی سطح۳ :

جدولی نرمال سطح ۳ است که :

۱- نرمال سطح۲ باشد.

۲- در آن جدول ؛ ویژگی هایی که کلید نیستند به هم وابستگی تابعی نداشته باشند

یعنی اگر جدولی نرمال سطح۲ بود و ویژگی های غیر کلیدی آن ؛ به هم وابستگی نداشتند، آن جدول نرمال سطح ۳ است.

تبدیل به نرمال سطح ۳ و مثال : ص ۲۱۳ کتاب اصول و طراحی پایگاه داده ها

فرم پیشنهاد پروژه تحقیق

اطلاعیه ها No Responses »

May 312014

فرم پروپزال پروژه ( پیشنهاد پروژه)

خلاصه تدریس یار مبانی محاسبات نرم – دکتر رییسی ۹۳/۰۲/۳۰

مبانی محاسبات نرم No Responses »

May 202014

درخت تصمیم

FCL

خوشه بندی فازی
با استفاده از روال های آموزشی یک سری قوانین را تشخیص می دهند

ژنتیک و شبکه عصبی درابتدا باید در یک بازه آموزشی Learn شوند و if then rule ها را بسازند

درخت تصمیم : فرض کنیم ماشینی طراحی کردیم که می خواهد سیب ها را از پرتقال ها
جدا کند بر اساس ۴ مشخصه ( قند – رنگ – سفتی – وزن چگالی)

از این چهار خصوصیت ، دو خصوصیت برتر را مشخص می کنیم ( بهره اطلاعاتی )

مثلا خصوصیت سفتی بهره اطلاعاتی بیشتری دارد

سپس خصوصیتی که بهره اطلاعاتی بعدی را دارد شاخه های بعدی را تشکیل می دهند

بر این اساس درخت ایجاد شده بدست می آید

حالا بر اساس برگ های درخت Rule ها ایجاد شده اند

احتمال درست بودن هریک از برگ ها به صورت فازی مشخص می شوند

حالا که بر اساس داده های Train درخت تصمیم را ساختیم
مرحله بعدی داده های Test را به آن می دهیم

ممکن است بعضی از اطلاعات به صورت Crisp باشد و برخی دیگر به صورت Fuzzy

– اگر تعداد خصوصیت ها زیاد باشد درخت تصمیم خیلی بزرگ می شود

از تکنیک های هرس باید استفاده کنیم
و یا راهکار feature Selection استفاده می کنیم

—————-
برای تمرین یک سری داده بیاورد که از روی آن درخت تصمیم بسازیم

—————–
انواع درخت های تصمیم خیلی زیاد هستند ( C4 , C5 , Kart, ID3

در اینجا از درخت تصمیم نوع FID3 استفاده می کنیم

هرخصوصیت را A1 تا An می گیریم
هر خصوصیت می تواند چند تا مقدار داشته باشد A1mو A2m و A3m

بهره اطلاعاتی با از A1 تا An می سنجیم (می توان با استفاده از آنتروپی شانون بهره اطلاعاتی را سنجید)
و همچنین با روش زیر : کاردینالیتی مجموعه های فازی – که کل مقادیر تعلق را با هم جمع می کنیم )

به ازای هر کلاس Ti را تعریف می کنیم که به آن می گوییم اطلاعات ترکیبی تکمیلی

Cardinality

بهره اطلاعاتی : میزان اطلاعاتی که با توجه به آن خصوصیت بدست می آید

در این جدول مثال ۴ خصوصیت داریم که
برای A1 سه حالت داریم
برای A2 سه حالت داریم
برای A3 دو حالت داریم
و برای A4 دو حالت داریم
برای خروجی B1 هم سه حالت داریم

در این جدول مثلا ۱۰۰۰ رکورد اطلاعات داریم که با ۳۰۰ تای آن درخت تصمیم را می سازیم ( شکل می دهیم ) و با ۴۰۰ تای آن تست می کنیم

ابتدا ریشه درخت را بر اساس خصوصیتی که بهره اطلاعاتی بیشتری دارد می سازیم
پس در اولین مرتبه بهره اطلاعاتی I(B|A1) و I(B|A2) و I(B|A3) و I(B|A4) را محاسبه می کنیم

ماکزیمم آن ها را به عنوان ریشه درخت در نظر میگیریم
هرس :
می توانیم شاخه های درخت را هرس کنیم
معیار هرس : اگر درصد یکی از کلاس ها یک مقداری کمتری بود( minimum support ) دیگر آن شاخه را ادامه نمی دهیم

اگر بدون هرس کردن بخواهیم درخت تصمیم را بسازیم خیلی بزرگ می شود

هر چقدر بخواهیم دقیق تر باشد بتا را بیشتر می کنیم
اگر فرکانسی جواب با f نمایش می دهیم کمتر از ۰/۲۵ باشد ادامه نمی دهیم

گفتیم که به ازای تک تک برگ های درخت تصمیم قانون بوجود می آید
در این درخت مثال ۲۷ قانون بدست آوردیم

شیوه بدست آوردن Bi را اینجا آورده شده است

خلاصه درس پایگاه داده پیشرفته – دکتر شیری ۹۳/۰۲/۲۹

پایگاه داده - پیشرفته No Responses »

May 192014

خلاصه درس پایگاه داده پیشرفته – دکتر شیری ۹۳/۰۲/۲۹
انواع بن بست
بن بست حالتی است که دو یا بیش از دو تراکنش هر کدام منتظر پایان دیگریست

دو راه حل برای بن بست وجود دارد
۱- روشهای کشف بن بست
۲- روشهای جلوگیری از بن بست

روشها اغلب بد بینانه هستند و فرض می کنند اغلب بن بست پیش می آید و سعی می کنند از وقوع بن بست جلوگیری کنند.
استفاده از نظم خاص با استفاده از مهر زمانی
استفاده از الگوریتم عدم انتظار و انتظار محتاطانه
داده های مورد نیاز خود را قفل می کنند و عملیات را روی داده ها انجام میدهند تا مشکلی ایجاد نشود

۲- استفاده از مهر زمانی برای حل مشکل بن بست

مهر زمانی مقدار منحصر به فردی است که سیستم برای هر تراکنش در نظر می گیرد که می تواند ترکیبی از ID و زمان شروع تراکنش باشد

هر زمانی تراکنش Ti را با Ts(Ti) نشان می دهیم

دو الگوریتم در این رابطه مطرح می کنیم

۱- الگوریتم منتظر گذاشتن و پس راندن :
اگر Ts(Ti)<Ts(Tj) و Ti خواهان قفل کردن داده ای Tj ۀنرا قفل کرده و منتظر می ماند که کار Tj تمام شود . در غیر اینصورت طرد می شود

۲- الگوریتم زخمی کردن و منتظر گذاشتن :
اگر Ts(Ti)<Ts(Tj) و Ti خواهان قفل کردن داده ای است که Tj قفل کرده ، Ti زخمی می شود ( طرد می شود ) و داده از آن گرفته می شود و در اختیار Ti قرار می گیرد . در غیر اینصورت باید منتظر بماند

۳- عدم انتظار :
اگر ترامنشی ، داده مورد نیاز خود را نتواند قفل کند ، بدون درنگ ( بدون انتظار ) طرد می شود

۴- انتظار محتاطانه :
اگر تراکنش Ti خواهان قفل کردن داده ای است که Tj آنرا قفل کرده اگر Tj خود منتظر باز شده قفلی داده ای نباشد Ti منتظر می ماند ، در غیر اینصورت طرد می شود
————————————–
روشهای کشف مشکل بن بست

این روش های خوشبینانه هستند
فرض می کنند بن بست به ندرت رخ میدهد و اجازه می دهند تراکنش ها آزادانه اعمال خود را انجام دهند و اگر احساس کردند که لن بست رخ داده آنرا کشف و برطرف می کنند

۱- مهلت زمانی :
سیستم یک مهلت زمانی تعیین می کند و اگر تراکنش نتوانست در این مهلت زمانی به داده مورد نظر خود را قفل کند ، طرد می شود

۲- بررسی متناوب درخواست های قفل گذاری
در این روش سیستم به منظور کشف بن بست به طور متناوب درخواستهای قفل گذاری تراکنش ها را بررسی می کند
این کار را با رسم گراف انتظار انجام میدهد

گراف انتظار یک گراف جهت دار است که رئوس آن تراکنش ها هستند و یال جهت دار Ti–>Tj در این گراف وجود دارد .
اگر Ti خواهان قفل داده ای باشد که Tj قفل کرده باشد

اگر در این سیکل یا دور وجود داشته باشد یعنی بن بست رخ داده و سیستم باید بن بست را رفع کند (با طرد بعضی از تراکنش ها )

——————————-
سیاست های مختلفی برای طرد تراکنش هست
– تراکنشی که کمترین کار را انجام داده، طرد شود
– تراکنشی که زمان بیشتری تا پایان آن مانده، طرد شود
– تراکنشی که باعت loop شده
– تراکنشی که بیشترین داده را قفل کرده

——————
روش مهر زمانی
برای کنترل همروندی
در این روش غیر از مهر زمانی تراکنش ها که با Ts (T) نشان میدهیم برای هر فقره داده مانند D دو نوع مهر زمانی داریم

مهر زمانی خواندن Ts-r (D) که برابر است با بزرگترین مهر زمانی تراکنش ها مه داده D را خواندن

مهر زمانی نوشتن : Ts-W(D) برابر است با بزرگترین مهر زمانی که تراکنش هایی که داده D را تغییر داده یا نوشته
پروتکل To
۱- در عمل خواندن ، تراکنش Ti دستور R(D) صادر می کند آنگاه

الف ) اگر زمان مهر این تراکنش کوچکتز ار زمان مهر نوشتن داده D بود
Ts(Ti)>Ts-W(D) درخواست رد می شود و تراکنش طرد می شود
ب) در غیر اینصورت درخواست به سایت می شود
Ts-R(D)=Max{Ts-R(D),Ts(Ti){

۲- در عمل نوشتن ترانش Ti دستور W(D) را صادر می کند
در این حالت
الف ) Ts(Ti)<Ts-RD) درخواست رد می شود و تراکنش طرد می شود
ب) اگر Ts(Ti)<Ts-W(D) درخواست رد می شود و تراکنش طرد می شود چون نتیجه از دست رفته رخ میدند
ج) در غیر اینصورت درخواست اجابت می شود و قرار میدهیم

Ts-W(D)=Max {Ts-W(D), Ts(Ti)}
کتاب روحانی رانکوهی جلد دوم سیستم های مدیریت پایگاه داده ، یا حق جو – جلد دوم ، یا دیت – جلد دوم را بخوانید
سوال در این روش کدام یک از مشکلاتی ک مطرح شد رخ می دهد
۱- تضعیف همروندی
۲- طرد تسلسلی
۳- مشکل بن بست
۴- مشکل گرسنگی یا قحطی زدگی

۵- آیا این روش همروندی را تضمین می کند ؟
پروتکل مهر زمانی نوع دوم برای همروندی
یک زمان مهر ساختگی برای تراکنش با کمی اختلاف ایجاد کنیم
در اینصورت ممکن است خیلی از طرد شدن ها برطرف شود مشکل این اختلاف چقدر بگیریم
پروتکل مهر زمانی شدید برای همروندی
در عمل نوشتن دیدیم که اگر Ts(Ti)>Ts-R(D) عمل توشتن اجرا می شود
در این پروتکل این اجازه را وقتی می دهد که تراکنش داده را خوانده به ترتیب برسد

خلاصه درس مبانی محاسبات نرم – ۹۳/۰۲/۲۷

مبانی محاسبات نرم No Responses »

May 182014

خلاصه درس مبانی محاسبات نرم – ۹۳/۰۲/۲۷

فصل۱۱ :
Fusion of Fuzzy system

نرون های تک یاخته ای
ارتباط بین نرون ها شکل های مختلفی را تشکیل میدهد

رفتار تابعی داخل نرون ها قابل بررسی هستند
خروجی های شبکه عصبی می توانند با خروجی قابل انتظار برابر باشد

شبکه عصبی MLP Multilayer Percpetron

شبکه های عصبی می تواند تمام الگو ها را شناسایی کند

اسلاید ۱۳ Convergence problem
اسلاید ۱۴ و ۱۵
امکان پیاده سازی شبکه های عصبی با متلب

اسلاید ۱۸ :
ارتباط شبکه عصبی با منطق فازی
– شبکه عصبی امکان یادگیری دارد ولی منطق فازی امکان یادگیری ندارد
– با استفاده از شبکه عصبی یک سری ار دانش هایی که کامل مشخص
نیست امکان represent را به ما می دهد
شبکه های عصبی شکل لغت های زبانی می توانند به خودشان بگیرند
شبکه های فازی امکان یادگیری را ندارد
Fuzzy Network= Fusion
۱) یک فازی سیستم را با مجموعه شبکه عصبی supervised ترکیب
می کنیم
۲) شبکه های عصبی را با استفاده از فازی می سازیم
۳)درجه عضویت های فازی را می توانیم با شبکه های عصبی شناسایی کنیم
۴) فازی سیستم ها را می توانیم پشت سر هم بیاوریم
—————————————————-
Neural Fuzzy
معمولا ترکیبی از خصوصیات شبکه عصبی و فازی سیستم است

یک سری نود نیاز داریم که زبان فازی را بتوانند ترجمه کنند
پس input variable ها را به صورت شبکه عصبی تعریف می کنیم
linguestic term ها را به عنوان ورودی داریم

اسلاید ۲۴ :
در لایه L1 نرون های شبکه عصبی را داریم

اسلاید ۲۵ : پیک سیستم neural Fuzzy معروف در لایه اول همه
Acivation ها خطی هست
و در لایه دوم lingustic term داریم
در لایه سوم – درباره مقدم ها کار می کنیم ، از قوانینی که برای یکپارچه
سازی قوانین فازی داشتیم استفاده می کنیم

در این حالت وزن های سیناپسی بین مرحله دوم و سوم را مقایسه می
توانیم بکنیم
در لایه چهارم – بخش تالی با توجه به ورودی های فازی ، خروجی را می
توانیم
در لایه پنجم هم می توانیم defuzzification انجام دهیم

————————-
آموزش درشبکه های neuro fuzzy
با استفاده از ابزار های مختلف ، فرم خطا را محاسبه می کنیم

تفاوت بین مرکز ها و تفاوت بین پهنه چپ
نوع اول : اگر بتوانیم به صورت حقیقی مقدار استفاده کنیم ارتوابع خطی
می توانیم استفاده کنیم

نوع دوم : تشخیص توپولوژی های شبکه عصبی که با منطق فازی پیاده
سازی می کنیم ( مثلا چند تا نرون لازم داریم )

اسلاید ۳۴ : شبکه عصبی های در هم تنیده داریم

fuzzy classifier های مناسب کدام هستند ؟
fuzzy rule ها
.
.
.

اسلاید ۳۷ :
مجموعه دیتای تست
سومین نوع :
شبکه هایی که بتوانین membership function را خوب تعریف کنیم

گام اساسی :
دلتا ها با توجه به خصوصیت فازی بودن آنها تقسیم بندی آنها هم فازی
هست
در هر بخش یک شبکه عصبی به کار برده می شود تا بتواند rule های آن
بخش را داشته باشد

یک شبکه عصبی ۳ لایه می تواند تمام neural fuzzy ها را پیاده سازی
کند
——————–
اسلاید ۴۷ :
آخرین نوع Fusion با استفاده از شبکه عصبی ، سیستم فازی را ارزیابی
کنیم

structure of the emulator

خلاصه درس پایگاه داده پیشرفته – دکتر شیری ۹۳/۰۲/۲۲

پایگاه داده - پیشرفته No Responses »

May 122014

خلاصه درس پایگاه داده پیشرفته – دکتر شیری ۹۳/۰۲/۲۲

۲pl قفل گذاری دو مرحله ای

تضعیف همروندی : کند شدن همروندی
طرد تسلسلی
مشکل بن بست : دو یا چند تراکنش منتظر پایان یافتن تراکنش دیگری است
قحطی زدگی ( گرسنگی )

۲pl محافظه کار
صفحه ۱۰ – قفل های انحصاری

————————–
۲pl جسورانه :
قفل کردن داده ها را در لحظه نیاز انجام می دهد

تضعیف همروندی نداریم
طرد تسلسلی داریم
بن بست هم داریم
قحطی زدگی هم دچار می شود
————————–
۲pl دقیق
قفل گشایی کلیه قفل ها هم انحصاری و هم اشتراکی را در لحظه پایانی انجام می دهد

تضعیف همروندی +
طرد تسلسلی –
بن بست +
قحطی زدگی +
————————–

کلاس جبرانی : چهارشنبه کلاس حضوری ساعت ۳:۳۰ تا ۵:۳۰

———————-
همروندی – قسمت دوم

مشکل بن بست در ۲pl ها پیش می آمد

پیش بینی و اجتناب

روش خوشبینانه

—————–
برای هر تراکنش به مهر زمانی اختصاص می دهیم time stamp

مهر زمانی می تواند ترکیبی از چند چیز باشد
۱- ID تراکنش
۲- زمان شروع تراکنش
….
بنابراین هر time stamp منحصر به فرد است

بر اساس این مهر زمانی می توانیم نظمی ایجاد کنیم که بر اساس این نظم تراکنش ها همل کنند تا مشکل بن بست رخ ندهد

خلاصه درس مبانی محاسبات – دکتر قطعی – ۹۳/۰۲/۲۰

مبانی محاسبات نرم No Responses »

May 102014

FLC
– ورودی ها defuzzification interface
– خروجی ها
قوانین کنترلی
—————
اینترفیس فازی گشایی
– Mean of Maximum Method ( MOM)
– Center of Area Method (COA) ترکیب درجه عضویت ها
مساحت محصور بین …
– Bisector of Area ( BOA)
اگر هردو مساحت سفید و مشکی برابر باشد z0 مساوی می شود

برخی زمان ها ممکن است به صورت زمان پرتی سیستم باشد
که از lookup table ها استفاده می کنیم

control Variable ها در یک ستون جدول و input Variable
ها در ستون دیگر می گذاریم

طراحی پروسیژر فازی کنترل های منطقی FLC

۱- determination of state variables and Control
Variables
۲- determination of interface method
۳- روش های مختلفی را می توانیم پیاده سازی کنیم
۴- گسسته سازی و یا پیوسته سازی بهتر است ؟
۵- بخش بندی فضای متغیر ها
۶- شکل توابع فازی ، نوع اعداد فازی مهم هستند
۷- روی پایگاه دانش چه قوانینی را پیاده سازی کرده ایم
۸- استراتژی های مختلفی را می توانیم مشخص کنیم
۹ – با هر سیستم کنترلی احتیاج به تست دارد
۱۰- ساخت lookup table از خروجی های متغیرهای کنترل

Fuzzy Expert Systems

می تواند دانش بشری را در غالب فازی به خدمت بگیرد

Knowledge Base
Input interface
output Interface

ماژول Schaduler – بر اساس ارتباظ

تفاوت FLC با FXS
فازی کنترل ها به زبان سیستم ها نزدیکند
fuzzy expert system به زبان انسان نزدیکند و کنترل مرکزی
داریم

اسلاید ۲۸ :
تشابه FLC با FXS
در هر دو
موتور استنتاج
پایگاه دانش وجود دارد….

Interface Engine ( Decision Making Logic )

در حوزه اسنتتاج تمرکز بر این است که بتوانند در حوزه ورودی ها
بتوانند ارزیابی کنند و بهترین تصمیم را اتخاذ کنند

اسلاید ۳۱ :
Linguistic Approximation
اسلاید ۳۲:
Scheduler
مدیریت و کنترل همه فرایند ها را انجام میدهد
تعداد بسیار زیادی ممکن است rule داشته باشیم که هر کدام در جایگاه خودشان اهمیت پیدا می کند که این کار Scheduler است

پروژه خودتان را بر اساس fuzzy expert system معرفی کنید

خلاصه درس تدریس یار مبانی محاسبات نرم – دکتر رییسی ۹۳/۰۲/۱۶

مبانی محاسبات نرم No Responses »

May 062014

خلاصه درس تدریس یار مبانی محاسبات نرم – دکتر رییسی
خوشه بندی با استفاده از سیستم فازی
هر خوشه یک مرکز دارد که با Mi نشان می دهیم

تفاوت خوشه بندی نرم با خوشه بندی سخت

[image 1 , 2]

داده ای مثل Xi با خوشه ای مثل Ci داریم

در خوشه بندی سخت : اشتراک بین خوشه ها برابر تهی است

الگوریتم خوشه بندی :

معروفترین الگوریتم در حالت کریسپ k-means است
مرحله اول به هر داده یک خوشه را نسبت می دهیم ( به صورت رندوم )

برای هر خوشه با استفاده ار فرمول زیر مرکز را محاسبه می کنیم

میانگین داده ها را به عنوان مرکز خوشه معرفی می کنیم

در k-means از ابتدا باید تعداد خوشه ها مشخص باشد
در C1 داده های مشخصی عضو می شوند و مرکز C1 هم مشخص می
شود

داده های C2 هم مشخص هستند و مرکز C2 هم مشخص می شود

با توجه به مراکز جدید داده ها را مجددا خوشه بندی می کنیم

تا جایی که داده ها در خوشه ها ثابت شوند و دیگر تغییری در خوشه ها
نداشته باشیم

ولی می دانیم که همیشه داده ها ممکن است به یک خوشه تعلق
نداشته باشند و درصدی به خوشه دیگری هم تعلق داشته باشد

که این درجه عضویت مفهوم فازی را تداعی می کند.
FCM : Fuzzy Clustering Method

[img 6]

روی چه چیزی قید بگذاریم ؟

هدف کلی از کلاسترینگ : فاصله بین داده های تا مرکز خوشه مینیمم
باشد ( یعنی norm 2 )

و فاصله بین خوشه های مختلف ماکزیمم باشد

هر چه m در فرمول بزرگتر شود از حالت فازی فاصله می گیریم و
خوشه بندی ها به سمت کریسپ میل می کند

قید داریم که مجموع درجه عضویت ها برای هر داده به خوشه های
مختلف برابر ۱ است

قبل از پردازش خوشه بندی نیاز است که داده های پرت را دریک پیش
پردازش حذف کنیم

روش لاگرانژ :
به تعداد داده ها قیدی داریم که ضریب می خورند بنام لاندا k

.
کنفرانس انجمن کامپیوتر ایران – فردوسی مشهد را شرکت کنید
http://iccke2014.um.ac.ir/index.php

Older Entries