تمرکز اصلی مطالعه یاری و همکاران بر کاهش ویژگی ها و سعی در حفظ کارایی کلی شناسایی هرزنامه وب است] ۴۶[.
یکی از وظایف زمانبر و مهم در سیستم های شناسایی هرزنامه وب، استخراج ویژگی است که با کوشش فراوان و طی فاز شاخص بندی انجام می شود، اگر تعداد کمتری ویژگی در شناسایی هرزنامه استفاده شود هزینه محاسباتی کمتر و بنابراین کارایی سیستم بیشتر خواهد شد.
محققین انواع روش های انتخاب ویژگی را مبتنی بر۲ ، SVM، IG و CFS انجام داده، بعد از اینکه ویژگی ها به وسیله روش های انتخاب ویژگی انتخاب شدند، تاثیرگذاری آنها به وسیله الگوریتم های طبقه بندی برای ویژگی های انتخاب شده در برابر کل ویژگی ها مورد بررسی قرار گرفت.
اصل کار استفاده از تعداد کمتری ویژگی برای حصول به سطح عملکرد بالاتر است، براساس نتایج آزمایشات حاصله ویژگی هایی که با روش همبستگی[۶۸] انتخاب می شوند، دارای تاثیر بیشتری در شناسایی هرزنامه وب هستند، در حالیکه بعد از به کارگیری LADTree مشخص شد تعدادی از ویژگی ها در شناسایی بسیار تاثیرگذارتر و متمایزتر هستند.
نهایتاً از ۹ ویژگی(HST-9,HST-17,AVG-53,AVG-55,AVG-64,AVG-66,STD-95,Neighbors-2-mp,outdegree-mp) به عنوان ویژگی های نهایی سیستم شناسایی هرزنامه استفاده نموده اند. لازم به ذکر است مبتنی بر نتایج حاصله، سهم این ۹ ویژگی تاثیرات جدی در شناسایی صفحات هرزنامه از غیرهرزنامه دارد.
در این مطالعه سپس به طبقه بندی با الگوریتم های متفاوت پرداخته است. نتایج این الگوریتم ها برای مقایسه تاثیر روش های انتخاب ویژگی متفاوت کاربرد دارد.
برای وظایف طبقه بندی از الگوریتم های نظیر شبکه های عصبی، SVM، NaΪve Bayes، درخت تصمیم استفاده شده است. از آنجا که هدف از این تحقیق بیشینه کردن کارایی است، الگوریتمی انتخاب شده که کارایی را بیشینه کند. الگوریتم LADTree که نسبت به بقیه الگوریتم ها بهترین نتیجه را می دهد، بکار گرفته شده است.
به منظور ارزیابی الگوریتم های تشخیص هرزنامه، از مجموعه داده ای UK2007 استفاده شده و برای جلوگیری از Overfitting و اطمینان از صحت ارزیابی نهایی، ارزیابی متقاطع ۱۰-fold روی داده های آموزشی و تست استفاده شده و مجموعه آموزشی T از تعدادی زیادی سند هرزنامه و غیرهرزنامه تشکیل شده است و هر سند با تعدادی ویژگی ارائه می شود و برای هر سند یک درجه هرزنامه گی[۶۹] مشخص می شود.
از آنجا که ویژگی های ترکیبی به خوبی عمل می کنند ، آنها را با طبقه بندی کننده های متفاوت به کار برده و سپس تعدادی از آنها که دقت بالاتری داشته و نسبت به بقیه بهتر هستند اشاره شده است.
نتایج حاصل از آزمایشات با در نظر گرفتن ۱۴۰ ویژگی اولیه نشان می دهد که حداقل تعداد ویژگی ها با روش CFS انتخاب شدند. دقت بالا با Random Forest (با همه ۱۴۰ ویژگی) بدست آمد و با LADTree با ۲۶ ویژگی. دقت مشابه را در هر دو الگوریتم ببینیم اما در LADTree تعداد ویژگی ها کمتر است.
در عمل کاهش فضای ویژگی ها حتی در صورت از دست دادن اندک دقت امری ضروری است، بنابراین مدل ساخته شده با الگوریتم LADtree با ۲۶ ویژگی به مدل ساخته شده با Random Forest با همه ویژگی ها ارجحیت دارد .
با توجه به متریک F-measure نیز برای مدل SVM در زمان استفاده از روش انتخاب SVM کاهش ویژگی ها قابل توجه بوده (۹۳ ویژگی و اندازه ۷۰٫۳ %) و همچنین کاهش ویژگی ها در مدل LADtree با روش انتخاب CFS قابل توجه است (۲۶ ویژگی و ۷۰٫۷ %) و سرانجام الگوریتم LADtree انتخاب شده و از آنجا که درخت تصمیم می تواند ویژگی های مفید را در طی ساخت درخت ارائه کند ویژگی های نهایی مبتنی بر مدل LADtree انتخاب شده است.
و نهایتاً نتایج با بهره گرفتن از این ۱۰ ویژگی انتخابی و متریک ROC ارائه شده است.
جدول۳-۴: نتایج بدست آمده با ۱۰ ویژگی با اعمال الگوریتم های کاهش ] ۴۶[
ویژگی ها | LADtree | Neutral Network | SVM | NaΪve Bayes | Random Froset | |
۱۰ | ۷۶٫۸% | ۶۸٫۹% | ۶۳٫۷% | ۷۲% | ۷۶% |
در نهایت تکنیک های متفاوتی برای بهبود طبقه بندی کننده انتخابی مورد آزمایش قرار گرفت از جمله bagging و boosting.
در این مورد از boosting استفاده شده و ترکیب طبقه بندی کننده ها نتیجه بهتری را بدست داده است.
جدول ۳-۵: نتایج بدست آمده با ۱۰ ویژگی با بهره گرفتن از boosting ] 46[
ویژگی ها | دقت | بازیابی | F-measure | ROC |
۱۰ |