روشهای مختلفی برای استخراج قوانین از مجموعه داده وجود دارد ازجمله آنها میتوان به روشهای مبتنی بر شبکههای عصبی [۱۱] و روشهای مبتنی بر خوشهبندی [۱۲] اشاره کرد. با توجه به قابلیتهای روشهای فرا اکتشافی برای پوشش فضای جستجو، این الگوریتمها برای استخراج قوانین میتوانند یک گزینه مناسب باشند. این روشها با ایجاد یک راه حل اولیه در فضای جستجو آغاز میشوند و سپس به وسیله یک مجموعه قواعد جستجوی بهینه شروع میشود. در هر مرحله از الگوریتم جستجو همواره یک راه حل یا یک مجموعه از راه حلها وجود دارند که وضعیت فعلی الگوریتم را نشان میدهند. برخی از روشهای اکتشافی، روشهای راه حل به راه حل هستند یعنی در فضای جستجوی مسئله از طریق یک راه حل به راه حل دیگر دست مییابند. بقیه روشها بر پایه مجموعه میباشند که با اعمال تغییراتی در مجموعه فعلی به مجموعه جدید میرسیم. برای استفاده از روشهای مکاشفهای در برنامههای داده کاوی باید آنها را با یک روش محلی ادغام کنیم. این روشهای محلی، استراتژی کلی روشهای مکاشفهای را هدایت میکنند.
۱-۳- اهداف تحقیق
هدف از روش ارائه شده کشف الگوها در میان مجموعه داده بیماران دیابتی برای کمک به پزشکان در تصمیم گیری میباشد رسیدن به نرخ دسته بندی و قابلیت تفسیر مطلوب از مجموعه داده با ترکیب مفهوم فازی و الگوریتم هوش جمعی بهینهسازی ازدحام ذرات برای استخراج قوانین فازی بدست میآید.
۱-۴- سوالات تحقیق
سوالاتی که در این تحقیق سعی شده به آنها پاسخ دهیم به شرح زیر میباشد:
-
- در دادههای با ابعاد بالا چه روشی برای انجام دسته بندی با نرخ صحیح دسته بندی مناسب است؟
-
- چگونه با ترکیب الگوریتم بهینهسازی محلی و سراسری نتایج جستجو را بهبود دهیم؟
-
- چه الگوریتمی ارائه دهیم برای اینکه هم نرخ دسته بندی بهبود یابد و هم قابلیت تفسیر خوبی داشته باشد؟
-
- نقش روش ترکیبی از سیستم فازی، الگوریتم ازدحام ذرات در انجام بهتر عمل دسته بندی چه خواهد بود؟
۱-۵- فرضیات مسأله
در این پایان نامه قصد داریم با کمک تکنیک دسته بندی، دانش را از مجموعه دادههای دیابت واکشی کنیم که این دانش در قالب مجموعه قوانین فازی نمایش داده میشود. الگوریتم پیشنهادی با بهره گرفتن از ترکیب مکاشفهی بهینه سازی ازدحام ذرات ارتقاء یافته مجموعهای از قوانین فازی که بیانگر الگوی حاکم بر دادههای مربوط به بیماران دیابتی است، استخراج خواهند شد. این الگوریتم با توجه به معیارهای مورد استفاده برای بهینه سازی پایگاه قوانین به دنبال مجموعه قوانینی میگردد که بهترین معیارهای ذکر شده را دارا باشد. هدف ما به دست آوردن دانش بهینه میباشد که با معیارهای نظیر دقت و قابلیت تفسیر مورد ارزیابی قرار میگیرد.
مجموعه داده دیابت بکار گرفته شده در این پایان نامه مجموعه داده Pima از دانشگاه UCI است که شامل ۷۸۶ نمونه و ۸ صفت میباشد. متغیر کلاس این مجموعه دو مقدار ۰ و ۱ را به خود اختصاص میدهد که به ترتیب بیانگر عدم ابتلا و ابتلا به این بیماری میباشند. که صفتهای آن شامل: تعداد دفعات بارداری، غلظت گلوکز پلاسما، فشارخون دیاستولی بر حسب میلی لیتر جیوه، ضخامت چین پوستی یک عضله در بازوها، تزریق سرم دو ساعت، شاخص تودهای بدن برای بررسی چاقی، سن و متغیر کلاس (۰ و ۱) میباشد.
۱-۶- نوآوریهای تحقیق
-
- ارائه یک مدل ترکیبی از الگوریتم ازدحام ذرات و مجموعه فازی
-
- ارائه یک روش جدید برای افزایش قابلیت اکتشاف در الگوریتم بهینهسازی ازدحام ذرات
-
- ارائه یک روش جدید برای افزایش قابلیت بهرهکشی در الگوریتم بهینهسازی ازدحام ذرات
-
- روش کدگذاری همزمان توابع عضویت و قوانین فازی
۱-۷- تعریف واژگان
داده کاوی: به استخراج اطلاعات از میان حجم انبوهی از اطلاعات که به آن کشف دانش نیز میگویند.
دستهبندی: برای تخصیص یک برچسب به مجموعهای از دادهها که دستهبندی نشدهاند، استفاده میشود. در دستهبندی یک متغیر هدف گروهی وجود دارد که به دسته ها و گروههای از پیش تعیین شده افراز میگردد. سپس دادهها بر اساس ویژگیهایشان به دستههایی که نام آنها از قبل مشخص میباشد، تخصیص داده میشوند.
الگوریتمهای تکاملی: الگوریتمهایی که جنبههای انتخاب طبیعی و بقای بهترینها را با هم ترکیب میکنند. یک الگوریتم تکاملی جمعیتی که شامل ساختارهایی میشوند که عموماً به صورت تصادفی مقدار دهی اولیه شدهاند و سپس این ساختارها طبق قوانین مشخصی مانند انتخاب و جهش تکامل مییابند. یک محیط که برای تمام اعضا مشترک است مناسب بودن و کارایی هر یک از اعضای جمعیت را مشخص میکند. اعضای مناسبتر شانس بیشتر برای انتخاب و یا ساخت مجدد توسط هر یک از عملگرهای الگوریتم را دارند.
هوش جمعی: نوعی از روشهای تکاملی هستند که شیوه ارتباط عاملها با یکدیگر از طریق محیط و به صورت غیر مستقیم است. این قابلیت اجازه میدهد، این الگوریتمها به صورت توزیع شده بخش عظیمی از فضای جستجو را پوشش دهند و در نتیجه شانس الگوریتم برای یافتن یک راهحل مناسب افزایش یابد. در سطح بالاتر، گروهی از عاملها که با هم برای رسیدن به اهداف مشخص رفتار خاصی را بروز میدهند. هوش همگانی از مجموع گروههای بزرگی از عاملهای نسبتاً ساده پدیدار میشود. [۱۳].
استنتاج فازی: وظیفه فرایند استنتاج نگاشت ورودیهای فازی (که از فرایند فازی سازی دریافت شدند) به پایگاه قوانین فازی و تولید خروجی فازی برای هر یک از قوانین است.
۱-۸- ساختار پایان نامه
مطالبی که در فصول بعدی ارائه خواهد شد به شرح زیر خواهد بود:
-
- در فصل دوم مفاهیم پایهای مانند دادهکاوی، کلیات مربوط به الگوریتمهای دسته بندی، الگوریتمهای رایج دستهبندی و معیارهای ارزیابی این الگوریتمها مورد بحث قرار میگیرد.
-
- در فصل سوم حاوی کارهای انجام شده و تحقیقات مرتبط با موضوع میباشد، همچنین فضای کلی مسأله معرفی شده و الگوریتمهای بهینه سازی ازدحام ذرات پیشنهادی برای ایجاد دستهبند فازی شرح داده میشوند.
-
- در فصل چهارم مدل پیشنهادی برای دستهبندی بر روی مجموعه دادههای دیابت اعمال و نتایج روش پیشنهادی با نتایج روشهای معروف در این زمینه مورد مقایسه و ارزیابی قرار گرفته است.
فصل پنجم نیز حاوی خلاصه، نتیجهگیری و پیشنهادات میباشد.
فصل دوم – ادبیات و پیشینه تحقیق
۲-۱- مقدمه
دنیای مدرن در حقیقت دنیایی در محاصره حجم عظیمی از دادهها، چه عددی و چه انواع دیگر است. پیشرفت فناوری اطلاعات و مجهز شدن به ابزار رایانهای امکان جمع آوری اطلاعات در زمینههای مختلف را فراهم آورده و منجر به پیدایش ساختارهای دادهای با حجم عظیم شده است. دست پیدا کردن به اطلاعات نهفته در پایگاه داده شرکتها، دانشگاهها، مؤسسات دولتی و سایر مراکز نیازمند مدیریتی جدید است و با بهکارگیری سیستمهای سنتی این امر تحقق نمییابد. ضمن اینکه با گسترش رقابت در بخشهای مختلف علمی، اجتماعی، سیاسی و غیره زمان مورد نیاز برای دسترسی به این اطلاعات نیز اهمیت دوچندان پیدا کرده است. بنابراین نیاز به طراحی سیستمهای هوشمندی که توانایی دستیابی به اطلاعات مورد نظر کاربر را در مدت زمان کوتاه و با کمترین مداخله کاربر را داشته باشند کاملاً مشهود است.
۲-۲- دادهکاوی
داده کاوی فرآیندی است که از آغاز دهه ۹۰ پا به عرصهی ظهور گذاشته و با نگرشی نو به مسئلهی استخراج اطلاعات از پایگاه داده مینگرد. این فرایند یک مرحله فراتر از بازیابی ساده دادهها است و این اجازه را میدهد که دانش را در میان حجم انبوه دادهها کشف کرد [۱۴]. داده کاوی یک علم میان رشتهای است و ترکیبی از علومی نظیر پایگاه داده، تحلیل آماری، هوش مصنوعی و بینایی ماشین میباشد. داده کاوی یک مرحله ضروری از فرایند بزرگتر کشف دانش میباشد که شامل مراحل زیر میباشد [۱۵] :
۱٫ پاکسازی دادهها: حذف نویز و دادههای ناسازگار و نا ایستا.
۲٫ یکپارچگی دادهها: ترکیب انواع دادههای پراکنده و ناهمگن از منابع مختلف.
۳٫ انتخاب ویژگیها: انتخاب صفتهای تأثیرگذار از دادهها.
۴٫ تبدیل دادهها: تبدیل یا ترکیب دادهها به اشکالی که برای بکار بردن در دادهکاوی مناسب باشند.
۵٫ دادهکاوی: روشهای مختلف را برای استخراج الگو استفاده میکند.
۶٫ ارزیابی الگو: الگوهای مناسب برای ارائه دانش را بر اساس معیارهای مشخص شناسایی میکند.
۷٫ ارائه دانش: دانش کشف شده را با بهره گرفتن از روشهای نمایش اطلاعات نشان میدهد.
شکل ۲- ۱: فرایند دادهکاوی و کشف دانش