خلاصه پروژه پیشنهاد واژگان در موتور جستجو
ابتدا دامینی به نام jamsheed.ir ثبت شد و کلید واژه هایی که در موتور جستجوی گوگل بیشترین جستجو را داشتند روی صفحه اول قرار دادم
این کلمات به صفحاتی لینک شدند که از وب سرویس پارسی جو محتوای زیادی را نمایش می دادند
با ورود کلید واژهای جستجو شده ترکیبی که در google Alanytics ثبت می شوند آنها را در دیتا بیس ذخیره کردم
کلمات کلیدی بهم پیوسته با برنامه ای به تک واژه شکسته می شوند و هر تک واژه در جدولی که شامل نام آن واژه و تعداد تکرار آن هست ذخیره می شود
با این روش تعداد واژه ها در یک بازه زمانی خاص به دست آمد
به طور مثال واژه هایی مثل “دانلود” با ۵۰۰۰۰ بار تکرار و واژه “آهنک” با ۱۵۰۰۰ تکرار به دست آمد
در مرحله بعد ، واژگان ترکیبی با دو واژه در جدولی جداگانه توسط برنامه ای که نوشتم به دست آمد و تعداد تکرار آنها هم ذخیره شد
به طور مثال واژه های ترکیبی مثل “ضمن+خدمت” با ۲۷۰۰ تکرار و “فیش+حقوقی” با ۱۷۰۰ بیشترین ضریب چسبندگی را به خود اختصاص دادند
در این مرحله واژه های ترکیبی غیر معمولی هم به دست می آمد که نشان می داد برای بالابردن دقت پیشگویی کننده باید ضریب چسبندگی ۳ واژه با هم را نیز به دست آورم
به طور مثال واژگان ترکیبی مثل “ضمن+خدمت+فرهنگیان” با ۳۹۰۰ تکرار و ” آموزش+و+پرورش” با ۳۳۰۰ تکرار و “دانلود+فیلتر+شکن” با ۲۴۰۰ تکرار جزو پر تکرار
ترین کلمات بودند
که نتایج قابل قبولی برای شبیه سازی آماری پیشنهاد دهنده واژگان در اختیار قرار می دادند