معرف تابع ضرر وɛ خطای مجاز در تابع ضرر می باشد . پارامترهای کنترل کننده تابع رگرسیون بهینه با حل مساله
بهینه سازی زیر به دست می آید .
(۲-۴۱)
در رابطه فوق و متغیرهای slack هستند . این متغیرها به همراه تابعضرر در شکل زیر نشان داده شده اند .[۵۷ , ۳۶]
شکل ۲-۱۲ تابع ضرر وپنیک و متغیرهای slack
برای حل مساله بهینه سازی فوق ، به کمک تئوری لاگرانژ ، تابع لاگرانژ به صورت زیر نوشه می شود .
(۲-۴۲)
با بیشینه شدن تابع فوق تحت قیدهای زیر ، مقادیر ضرایب و α به دست میآیند.این ضرایب،ضرایب لاگرانژ نامیده میشوند .
(۲-۴۳)
مساله بهینه سازی فوق به کمک روش های برنامه ریزی درجه دو (QP) قابل حل میباشد، در نتیجه رسیدن به اکسترمم کلی نیز قطعی خواهد بود وخطر به دام افتادن در اکسترمم محلی وجود ندارد.داده هاییکه ضرایب لاگرانژ متناظر با آنها غیر صفر باشد، به عنوان بردار پشتیبان شناخته می شود. از نظر هندسی این داده ها دارای خطای پیش بینی بزرگتر از هستند، بنابراین بردارهای پشتیبان درون باند قرار نمیگیرند.بنابراین مقدار ɛ تعداد بردارهای پشتیبان را کنترل می کند .
به کمک ضرایب لاگرانژ وبردارهای پشتیبان ، پارامترهای کنترل کننده پاسخ بهینه به صورت زیر محاسبه می شود .
(۲-۴۴)
در رابطه فوق و دو بردار پشتیبان هستند .
برای ساخت مدل ماشین بردار پشتیبان، پارامترهای c و ɛ توسط کاربر تعریف میشوند . پارامتر c یک پارامتر تنظیمی است و می تواند مقادیر صفر تا بی نهایت را بپذیرد. نقش این پارامتر ایجاد تعادل میان کمینه کردن ریسک تجربی وبیشینه کردن قابلیت تعمیم یابی است . پارامتر ɛ نیز می تواند مقادیر صفر تا بی نهایت را بپذیرد . مقدار این پارامتر در وضعیت بردارهای پشتیبان ودر نتیجه کارایی مدل بسیار موثر است .
۲-۲۰-۲)رگرسیون غیر خطی بردار پشتیبان
مساله رگرسیون خطی در SVM به آسانی قابل گسترش به رگرسیون غیر خطی است .بدین منظور از توابع کرنل استفاده می شود . تاکنون کرنل های گوناگونی شناخته شده اند ، از جمله کرنل های چند جمله ای وپایه شعاعی(RBF) ، بدین ترتیب در حالت رگرسیونغیر خطی در SVMپارامترهای کنترل کننده تابع بهینه با روابط زیر محاسبه میشوند. [۳۶]
(۲-۴۵)
(۲-۴۶)
در این روابط k( , ) نشانگر تابع کرنل میباشد .
۲-۲۱) مزایا و معایب ماشین بردار پشتیبان (SVM)
۲-۲۱-۱) مزایای ماشین بردار پشتیبان درطبقه بندی ها نسبت به شبکه های عصبی چند لایه :
۱ . حذف مشکل بهینه یابی محلی : طبقه بندی های مبتنی بر شبکه های عصبی چند لایه نسبت به داده های خارجی آسیب پذیرند، زیرا از حاصل جمع مربعات خطا ها استفاده می کند . بنابراین ، برای جلو گیری از تاثیر داده های خارجی بایستی پیش از آموزش حذف گردند.و یا مکانیزمی برای کم اثر کردن داده های خارجی باید در آموزش اتخاذ شود. در ماشین بردار پشتیان پارامتر حاشیه c خطای طبقه بندی را کنترل می کند.اگر مقدار آن را بزرگ انتخاب کنیم ، خطای طبقه بندی به کمینگی گرایش پیدا می کند و اگر مقدار کوچکی برای آن برگزینیم، در واقع پذیرفته ایم که داده هایی که از مراکز تجمع دور هستند اشتباه طبقه بندی می شوند.پس با انتخاب درست پارامتر حاشیه c ، داده های خارجی کم اثر خواهند بود.
-
- بیشینه کردن قابلیت تعمیم:
در آموزش یک طبقه بندیکننده مبتنی بر شبکه عصبی چند لایه، حاصل جمع مربعات خطا های موجود میان ورودی ها وخروجی های مطلوب کمینه می شود. بنابراین ، مرزهای کلاس ودر نتیجه قابلیت تعمیم به مقدار قابل ملاحظه ای تقلیل می یابد . در صورتیکه در ماشین بردار پشتیبان هدف آموزش بر بیشینه کردن حاشیه است .
۲-۲۱-۲) معایب ماشین های بردار پشتیبان
۱ . طولانی بودن زمان آموزش :
به دلیل اینکه آموزش ماشین های بردار پشتیبان توسط حلکردن مسئله ثانویه مربوطه انجام می شود، تعداد متغیرها برابر با تعداد داده های آموزش می باشد. بنایراین در صورتی که تعداد داده های آموزش زیاد باشد، حل مسئله ثانویه از جهت مدت زمان آموزش طولانی خواهد بود.
۲ .طبقه بندی مسائل چند کلاسه :
بر خلاف طبقه بندی های مبتنی بر شبکه های عصبی ماشین های بردار پشتیبان از توابع تصمیم مستقیم استفاده می کنند. بنابراین گسترشآنها برای مسائل چندکلاسه با مشکلاتی رو به رو است و فرمول بندی های فراوانی برای این کار طراحی گردیده است ولی تعیین رابطه میان این فرمول ها ومقایسه آنها کار ساده ای نیست .
۲-۲۲) شبکه های عصبی و عملکردهای متفاوت
مطالعات زیادی در زمینه مقایسه روشهای خطی از قبیل مدل خودرگرسیو میانگین متحرک انباشته و غیرخطی از قبیل شبکه های عصبی انجام پذیرفته است. آنچه از این مطالعات بر می آید، وجود نتایج متفاوت در استفاده از شبکه های عصبی است.
شاردا و پاتیل (۱۹۹۰) در مقالهای تحت عنوان «شبکه های عصبی به عنوان کارشناسان پیش بینی: یک تست تجربی» از ۷۵ سری زمانی برگرفته از مقاله مارکادیس و همکاران [۵۲]، به منظور مقایسه عملکرد شبکه عصبی و خودرگرسیو میانگین متحرک انباشته بهره جستند که در ۳۹ سری زمانی عملکرد شبکه، و در ۳۶ سری زمانی، عملکرد خودرگرسیو میانگین متحرک انباشته دقیقتر بود.[۵۸]
فاستر و همکاران (۱۹۹۲) در مقالهای تحت عنوان «پیش بینی شبکه عصبی از سریهای زمانی کوتاه و نوفهدار» به مقایسه عملکرد شبکه عصبی با مدل رگرسیون خطی و میانگین شش مدل هموارسازی نمایی در ۳۸۴ سری زمانی اقتصادی و جمعیتشناختی پرداختند. نتایج نشان داد که استفاده از رگرسیون خطی به طور معناداری از شبکه عصبی به عنوان تخمین زننده، در این سری های تصادفی، بهتر است. حتی حذف اثرات فصلی بوسیلهی پیشپردازش در داده ها با وجود افزایش در دقت پیش بینی شبکه عصبی، نتوانست منجر به بهبود عملکرد این مدل نسبت به میانگین شش مدل هموارسازی نمایی گردد.
آنها در ادامه تحقیق خود بر اساس آموزش شبکه در طول گروهی از سریهای زمانی سعی ترکیب بهینه روشهای پیش بینی سنتی نمودند و این امر به دلیل حذف کردن بیش برازشی (Over Fitting) و استخراج قوانین عمومی پیش بینی از نمونههایی در طول سریهای زمانی مختلف، هر چند کم، اما منجر به بهبود معنادار عملکرد شبکه نسبت به مدلهای پیش بینی سنتی گردید.[۳۴]
تانگ و فیش ویچ (۱۹۹۳) در مقالهای تحت عنوان «شبکه عصبی پیشخور به عنوان مدلی برای پیش بینی سریهای زمانی» از دو سری زمانی مسافران فرودگاه از سال ۱۹۴۹ تا ۱۹۶۰ و سری زمانی فروش شرکت بهره جستند. نتایج نشان دادند که عملکرد مدلهای شبکه عصبی و مدل باکس و جنکینز در این دو سری زمانی با توجه به معیار ارزیابی میانگین قدر مطلق درصد خطا [۱۴۰]متفاوت است. برای ارزیابی مدلهای مذکور به منظور پیش بینی چند مرحله ای، از دو روش بهره گرفته شده است که در روش اول با افزودن متغیر خروجی به شبکه عصبی به طور مستقیم مدل چند مرحله ای برازش گردیده و در روش دوم از پیش بینی مدلهای کوتاه مدت به عنوان ورودی برای پیش بینی مراحل بعدی استفاده شده است (Step Wise). در سری زمانی اول (مسافران فرودگاه) برای پیش بینی یک مرحله و همچنین پیشبینی شش مرحله پیشرو، عملکرد مدل خودرگرسیو میانگین متحرک انباشته از شبکه عصبی بهتر و در این حالی است که، در پیشبینی دوازده و بیست و چهار مرحله پیش رو، مدل شبکه عصبی دارای عملکرد بهتری نسبت به مدل خودرگرسیو میانگین متحرک انباشته می باشد. اما در سری زمانی دوم (فروش)، عملکرد شبکه عصبی مبتنی بر روش اول (ساخت شبکه چند مرحله ای) در بلندمدت، به دلیل مشاهدات کم، چندان جالب نمی باشد؛ این در حالی است که، عملکرد شبکه عصبی مبتنی بر روش دوم پیشبینی چند مرحله ای (Step Wise) در پیش بینی بلندمدت، از مدل باکس و جنکینز بهتر است.
آنها در پایان اذعان داشتند، عملکرد شبکه به ماهیت داده ها وابسته میباشد و برای سریهای زمانی بیقاعده و پیش بینی چند مرحله ای، این مدل نسبت به مدل خودرگرسیو میانگین متحرک انباشته دارای خطای کمتری است.[۶۱]
هیل و همکاران (۱۹۹۶) در مقالهای تحت عنوان «مدلهای شبکه های عصبی برای پیشبینی سریهای زمانی» به مقایسه عملکرد شبکه های عصبی با مدلهای سری زمانی سنتی (هموارسازی نمایی و مدل خودرگرسیو میانگین متحرک انباشته) و روشهای قضاوت محور (روشهای گرافیکی که توسط لاورنس و همکاران در سال ۱۹۸۵ شرح داده شد) پرداختند. برای این منظور از ۱۰۴ سری زمانی استفاده کردند. نتایج این پژوهش به شرح زیر است:
عملکرد مدل شبکه عصبی از مدلهای سنتی و قضاوتی در سریهای زمانی فصلی و ماهانه، به طور معناداری بهتر است، اما در سریهای زمانی سالانه، بین عملکرد شبکه و مدلهای سنتی تفاوت معناداری وجود ندارد.
شبکه، در سریهای زمانی غیرخطی و ناپیوسته، عملکرد بهتری از خود ارائه می دهد.
عملکرد شبکه وابسته به سایز نمونه است.
معماری شبکه عصبی در موفقیت شبکه عصبی تأثیر بسزایی دارد.
در مدلهای خطی نمی توان عملکرد شبکه عصبی را از مدل خودرگرسیو میانگین متحرک انباشته بهتر دانست.[۴۱]
ایندرو و همکاران (۱۹۹۹) در مقالهای تحت عنوان «پیش بینی عملکرد صندوقهای مشترک سرمایه گذاری با بهره گرفتن از شبکه های عصبی مصنوعی»، بعد از برازش شبکه عصبی با تعداد پارامتر بهینه با بهره گرفتن از روش حذف رو به عقب و تابع توزیع فیشر، اذعان داشتند که، عملکرد شبکه عصبی نسبت به رگرسیون خطی، به نوع صندوق وابسته است، به طوری که عملکرد رگرسیون خطی در صندوقهای ارزشی از شبکه عصبی و عملکرد شبکه عصبی در صندوقهای رشدی از رگرسیون خطی بهتر است. آنها افزودند که عملکرد شبکه عصبی به طبیعت داده ها وابسته میباشد.[۴۴]
کلین و راسین (۱۹۹۹) در مقالهای تحت عنوان «کیفیت داده در مدلهای شبکه عصبی» به منظور ارزیابی اثر کیفت داده در عملکرد شبکه عصبی برای پیش بینی ارزش خالص دارایی، از دو آزمایش بهره جستند، که در آزمایش اول از دادههایی با تغییر نرخ خطا[۱۴۱] از ۲۵% تا ۱۰۰% و تغییر مقدار خطا[۱۴۲] از ۵% تا ۲۰% و در آزمایش دوم از دادههایی با تغییر نرخ خطا از ۵% تا ۲۰% و تغییر مقدار خطا از ۵% تا ۲۰% استفاده نمودند.
نتایج تحقیق مبنی بر بررسی اثر خطا در بخش تست داده ها، نشان داد، با کاهش نرخ خطا و مقدار خطا در داده ها، دقت شبکه عصبی افزایش یافته است؛ در حالیکه نتایج بررسی در بخش آموزش داده ها نشان داد، دقت شبکه عصبی با کاهش مقدار خطا بهبود یافته اما با افزایش نرخ خطا ابتدا بهبود و سپس کاهش یافته است.