بنابراین، در هر صنعت، پژوهش، بر روی شرکت معرفی شده انجام می گردد و برای شناسایی سری های زمانی مشابه نیز از شرکت های موجود در همان صنعت استفاده خواهد شد.
۳-۳- پیش پردازش داده ها
همانگونه که شرح داده شد، برای هر یک از سه شرکت مذکور اندیکاتورهای تکنیکی به دست خواهد آمد و علاوه بر این سری های زمانی مشابه نیز شناسایی خواهند شد. بر طبق متدهای داده کاوی در ابتدا باید پیش پردازشی روی داده ها انجام گیرد و کاهش سطری صورت پذیرد، اطلاعات لازم ساخته شده و متغیرها و پارامترها شناسایی شوند و پس از آن برای جلوگیری از بیش برازش شبکه عصبی باید بر اساس متدهای داده کاوی کاهش ستونی نیز صورت گیرد.
۳-۳-۱- کاهش سطری داده ها
داده های به دست آمده در مورد هر شرکت و سری های زمانی مشابه آن باید در ابتدا مورد بررسی قرار گیرند تا داده های مغشوش[۲۳۴] و داده های پرت[۲۳۵] شناسایی و از میان پایگاه داده حذف گردند. داده های مغشوش شامل داده هایی هستند که اعداد آنها غیرمنطقی بوده و قابل استفاده نیستند و داده های پرت نیز همانگونه که گفته شد، دارای تأثیر به سزایی در کاهش دقت شبکه بوده و آن را دچار بیش برازش می کند. در این راستا همانگونه که در ادامه خواهیم دید، در ابتدا به حذف داده های مغشوش و سپس داده های پرت خواهیم پرداخت.
۳-۳-۱-۱- حذف رکوردهای مغشوش
همانگونه که گفته شد، داده های مورد نیاز این پژوهش عبارت از قیمت های بالا، پایین، بسته شدن و حجم معاملات. تعریف داده های مغشوش در یکی از سه حالت زیر رخ خواهند داد :
- قیمت بالا کمتر از قیمت پایین باشد
- قیمت بالا کمتر از قیمت بسته شدن باشد
- قیمت بسته شدن کمتر از قیمت پایین باشد
مشخص است که بر طبق قواعد بالا، داده های با این وضعیت کاملا غیر منطقی بوده و به دلایل خطاهای ثبتی ایجاد شده اند و لذا از میان پایگاه داده حذف خوهند شد. علاوه بر این قسمتی از داده ها نیز اصلا ثبت نشده و یا به صورت غیر منطقی ثبت شده اند، برای مثال به جای اعداد NaN نوشته شده و یا رکورد خالی ثبت شده است. این موارد از داده ها نیز از میان پایگاه داده حذف خواهند شد.
۳-۳-۱-۲- حذف داده های پرت
برای شناسایی داده های مغشوش از حدود بلینگر[۲۳۶] استفاده می شود. حدود بلینگر در واقع حدود نوسانی[۲۳۷] هستند که بر روی یک میانگین متحرک قیمت زده می شوند. هنگامی که پراکندگی داده ها زیاد می شوند این حدود از هم باز شده و در هنگام کاهش این پراکندگی، حدود به هم نزدیک می شوند. فرمول کلی حدود بالا و پایین بلینگر در این تحقیق به شکل زیر هستند :
۳-۱
۳-۲
از آنجا که این حدود وابسته به واریانس قیمت های گذشته می باشد، می توان گفت که این اندیکاتور انتظارات سرمایه گذار را برای قیمت آتی با توجه به قیمت بیست دوره گذشته مشخص می کند و لذا در صورتی که داده ای از این حدود خارج شود، می توان گفت که داده پرت بوده و به علت خاصی رخ داده است. داده های پرت تأثیر به سزایی در کاهش دقت مدل و افزایش بیش برازش دارند و علاوه بر این به دلایلی رخ می دهند که قابل تشخیص نبوده و تکرار هم نمی شوند. بنابراین در تحقیقات با دو رویکرد به این داده ها پرداخته می شود؛ برخی آنها را تلطیف[۲۳۸] کرده و برخی آنها را حذف می کنند. در پژوهش حاضر، پس از تشخیص داده های پرت از طریق حدود بلینگر، این داده ها از پایگاه داده حذف می گردند و لذا رکوردی که شامل این داده است نیز به صورت کلی از میان داده ها پاک می شود.
۳-۳-۲- ساخت اطلاعات مورد نیاز
در این تحقیق، از اندیکاتورهای تحلیل تکنیکال و همچنین سری های زمانی مشابه به عنوان ورودی های شبکه عصبی استفاده می شود. در این بخش در ابتدا اندیکاتورهای بررسی شده در این تحقیق و سپس سری های زمانی مشابه که توسط داده کاوی سری های زمانی[۲۳۹] شناسایی می گردند، شناسایی می شوند. این مرحله به این دلیل پس از کاهش سطری انجام می گیرد که این اطلاعات بر پایه رکوردهای به دست آمده در مرحله اول ساخته شده و یا شناسایی می شوند و لذا در صورتی که داده های مغشوش یا داده های پرت در میان داده های ابتدایی وجود داشته باشند، این اطلاعات و متغیرها را نیز دستخوش تغییر و داده های مغشوش می نمایند.
۳-۳-۲-۱- ساخت اندیکاتورهای تحلیل تکنیکال
همانگونه که در فصل دوم شرح داده شد، اندیکاتورهای تحلیل تکنیکال حوزه بسیار وسیع و گوناگونی دارند و علاوه بر این می توانند به دلخواه سرمایه گذاران تغییر کرده و یا با ترکیب با یکدیگر، اندیکاتورهای جدیدی را تشکیل دهند. لذا باید توجه کرد که بررسی تمام اندیکاتورهای در دسترس سرمایه گذاران و جمع آوری آنها کاری تقریبا ناممکن است و علاوه بر این، هیچ سرمایه گذاری از تمام اندیکاتورها استفاده نمی کند. لذا در این تحقیق تعداد مشخصی از اندیکاتورها که در جدول ۳-۲ معرفی شده اند مورد استفاده قرار خواهند گرفت. لازم به ذکر است که این اندیکاتورها بر اساس اندیکاتورهای پرکاربرد شناسایی شده در ادبیات تحقیق انتخاب شده اند.
جدول ۳-۲ : اندیکاتورهای به کار رفته در پژوهش
اندیکاتور
شرح و کارکرد
ADL
با ترکیب قیمت و حجم معاملات، تعیین می کند که جریان پولی وارد شونده یا خارج شونده از سهم چقدر است
Aroon
با بهره گرفتن از دو اندیکاتور ارون بالا و ارون پایین، وجود روند در قیمت را تأیید یا رد می کند
Aroon oscillator
تفاوت دو اندیکاتور ارون بالا و ارون پایین را مشخص می کند
ADX
نشان می دهد که آیا روند خاصی در قیمت سهام در حال ایجاد شدن است یا خیر