پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده (پردازش متن)
پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده (در زمینه پردازش متن) ، تعدادی مقاله وجود دارد که میخواهیم آنها را به دو دسته تقسیم کنیم. یک دسته از مقالات ، مقالات مورد علاقه کاربر است و دسته دیگر مقالات مقالاتی که کاربر به آنها علاقه ندارد. داده ها به دو کلاس تقسیم شده اند و هر کلاس حاوی داده های آموزشی و ارزیابی است.این پروژه در دسته پروژه های پردازش متن (Text Proccessing) قرار می گیرد و با نرم افزار متلب انجام شده است.
پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده
تعریف مساله :
دو دسته مقاله داریم که کاربر به دسته اول علاقه مند است اما دسته ی دوم را دوست ندارد. میخواهیم از طریق این دسته مقالات و به کمک الگوریتم یادگیری ماشین (در زمینه پردازش متن) ، با استفاده از یک طبقه بندی بیز ساده، ماشین را طوری طراحی کنیم که مقالات تست را درست تشخیص دهد؛ به عبارتی ابتدا مقالات آموزشی که برچسب دار هستند را به کلاسیفایر بیز ساده می دهیم تا یاد بگیرد، سپس مقالات تست را به عنوان نمونه آزمایشی به طبقه بندی بیز ساده میدهیم تا ببینیم آیا آنها را درست دسته بندی میکند یا خیر، و سپس خطای آن را محاسبه میکنیم.برای هر کلاس مجموعه ای از کلید واژه ها تعریف میشود . مجموعه داده های آموزشی در برگیرنده همه کلاسها را انتخاب کنید . ابتدا با استفاده از یک الگوریتم آماری کلید واژه های مهم هر کلاس را استخراج کنید. سپس با استفاده از الگوریتم بیزی یک مدل یادگیر برای کلاسه بندی داده ها طراحی کنید و با استفاده از یک مجموعه داده آزمون شامل ۵۰ مقاله دیگر ، دقت سیستم را ارزیابی کنید. تعریف مساله: می خواهیم یک طبقه بندی روی موضوع مقالات انجام دهیم.
همچنین بخوانید: پروژه تشخیص بیماری قلبی با بیز ساده Naive Bayes
برای این منظور سه فاز اصلی طراحی کرده ایم که به تفصیل آنها را شرح می دهیم:
- فاز اول : بدست آوردن فراوانی کلمات هر کلاس
- فاز دوم : بدست آوردن تعدادی کلید واژه برای هر کلاس
- فاز سوم : تولید فایل های train و test جدید برای تحویل دادن به طبقه بندی بیز ساده (naive bayes classifier)
فاز اول : بدست آوردن فراوانی کلمات هر کلاس:
در این فاز ما به دنبال آن هستیم که تمامی کلمات موجود درنمونه های آموزشی برای هر کلاس را بررسی کنیم و در نهایت یک لیست از کلمات بکار رفته در کلاس به همراه تعداد فراوانی تکرار هر کدام را به عنوان خروجی این مرحله بسازیم.
فاز دوم : بدست آوردن بهترین کلید واژه ها برای هر کلاس:
طبق تعریف انجام شده از کلیدواژه ; ما نیاز داریم کلماتی را به عنوان کلیدواژه برای هر کلاس در نظر بگیریم که دارای ۲ شرط اساسی زیر باشد:
- داراری حداکثر فراوانی تکرار در کلاس خود باشد.
- دارای حداقل فراوانی تکرار در مجموع کلاس های دیگر باشد.
فاز سوم : ساخت فایل Train و Test و پیاده سازی کلاسیفایر بیز ساده (naive bayes classifier)
در فازهای قبلی ما از روی نمونه های آموزشی کلماتی را به عنوان کلیدواژه برای هر کلاس مشخص کردیم .در این فاز باید تمام داده های آموزشی ( تمام کلاس ها ) را با کلیدواژه های بدست آمده مقایسه کنیم.
ابزار
برای انجام این پروژه از نرم افزار متلب استفاده شده است. به منظور دسته بندی داده ها، یک کلاسیفایر بیز ساده طراحی شده است که در فایل توضیحات پروژه به شرح پیاده سازی آن پرداخته ایم.
نتایج پروژه طبقه بندی مقالات با استفاده از طبقه بندی بیز ساده
۴ معیار مهم برای ارزیابی classifier محاسبه شده که مقادیر آنها را در ادامه میبینید :

همچنین بخوانید: کاربرد دادهکاوی در تشخیص بیماری پارکینسون
توجه:
کارشناسان وب سایت MATLABDL قادر به انجام پروژه در زمینه های مشابه (طبقهبندی classification و …) نیز می باشند.
قیمت پروژه : ۸۴۰۰۰ تومان
حجم : ۱٫۹۴ مگابایت
توضیحات : این پروژه در نرم افزار متلب پیاده سازی شده است.
منبع : مطلب دی ال
رمز فایل : www.matlabdl.com
(این پروژه به صورت اختصاصی توسط برنامه نویسان مطلب دی ال تهیه شده است )

دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.