سیستم پیشنهاد دهنده اطلاعات با بهره گرفتن از روش ترکیبی مدل غذایابی بهینه و رتبهبندی سهگانه روابط معنایی دادههای متصل
اسفندماه 1391
است.
چکیده، حجم عظیم دادههای موجود در دادههای پیوندی باعث شده است که کاربر نتواند دادههای مورد نیازش را در زمان مناسب پیدا کند. برای رفع این معضل، سیستمهای بیشماری به منظور گزینش داده ها طراحی و پیادهسازی شده است که همچنان نتوانستهاند دقت و کارایی مناسبی داشته باشند. سازگار کردن الگوریتمهای موجود با ورودی و شرایط دادههای پیوندی می تواند دقت این سیستمها را بالا برد.
در این پایان نامه، سیستم پیشنهادگری طراحی و پیادهسازی میشود که با ورودی و مشخصات دادههای پیوندی سازگار باشند. روش پیشنهادی از دو الگوریتم به نامهای نظریه غذایابی بهینه و رتبهبندی سهگانه استفاده می کند و داده ها را از نظر تناسب با موضوع مورد علاقه کاربر رتبهبندی می کند. رتبهبندی سهگانه دادههای پیوندی را تحلیل کرده و میزان ارتباط آن داده را نسبت به یک موضوع خاص محاسبه می کند. سپس، نظریه غذایابی بهینه نتایج حاصل از رتبهبندی سهگانه را گزینش کرده و پس از مرتبسازی به کاربر ارئه می کند. پیشنهادهای ارائه شده توسط این سیستم هم از ارزش معنایی مناسبی برخوردار است و هم اینکه با ساختار و چگونگی شیوه یافتن و دریافت اطلاعات در انسان هماهنگ است.
روش پیشنهادی با الگوریتم استاندارد رتبهبندی سهگانه بر روی پنح مجموعه داده دیبیپدیا مقایسه شده است. ارزیابیها نشان میدهد که دقت روش پیشنهادی از روش استاندارد رتبهبندی سهگانه بیشتر بوده است، با این وجود روش استاندارد از کارایی زمان اجرای بهتری برخوردار است.
کلیدواژهها: سیستمهای پیشنهادگر، دادههای پیوندی، نظریه غذایابی بهینه، رتبهبندی سهگانه
فهرست مطالب
عنوان صفحه
فصل یکم: کلیات تحقیق
1-1 مقدمه. 1
1-2 موضوع تحقیق 2
1-3 اهداف تحقیق 4
1-4 اهمیت و ارزش تحقیق بر روی دادههای پیوندی 5
1-5 ساختار تحقیق 5
فصل دوم: معرفی سیستمهای پیشنهاد دهنده
2-1 مقدمه. 6
2-2 سیستمهای پیشنهاد دهنده. 7
2-3 بررسیهای تاریخی 7
2-4 طبقه بندی 8
2-4-1 روشهای همبستگی 9
2-4-1-1 الگوریتمهای مبتنی بر حافظه. 9
2-4-1-2 الگوریتمهای مبتنی بر مدل 11
2-4-1-3 نقاط ضعف روش های فیلتر همبستگی 12
2-4-2 روش مبنی بر محتوا 12
2-4-3 روشهای مبتنی بر دانش 13
2-4-4 روشهای آماری 14
2-4-5 روشهای مبتنی بر سودمندی 15
2-4-6 روشهای ترکیبی 16
2-5 سیستم های پیشنهاد دهنده مبتنی بر دادههای پیوندی 17
2-6 جمع بندی 20
فصل سوم: مروری بر دادههای پیوندی و نظریه غذایابی
3-1 مقدمه. 24
3-2 ایده اصلی RDF 23
3-2-1 منابع 24
3-2-2 ویژگیها 25
3-2-3 گزارهها 25
3-2-4 نمونه یک گزاره. 26
3-3 داده پیوندی 27
3-3-1 پشته تکنولوژی داده پیوندی 28
عنوان صفحه
3-3-3 پروژه دادههای باز پیوندی 29
3-3-4 انتخاب شناسه های همسان منابع و واژه نامههای RDF 30
3-4 نظریه ی چرای بهینه. 31
3-5 مدل محدودههای وصلهای 32
3-6 نظریه مقدار مرزی کارنوف. 34
3-7 مدل رژیم غذایی بهینه. 34
3-7-1 شرح مسئله روباه. 35
3-7-2 ساده سازی مسئله روباه. 35
3-7-3 روباه آسانگیر. 36
3-7-4 روباه سختگیر. 37
3-7-5 روباه حسابگر. 37
3-8 مدل ریاضی انتخاب غذای بهینه. 37
3-9 الگوریتم انتخاب رژیم بهینه. 38
3-10 اصول انتخاب رژیم غذایی بهینه. 39
3-11 جمعبندی 40
فصل چهارم: پیاده سازی مدل ترکیبی رتبهبندی سهگانه بهینه شده و غذایابی بهینه
4-1 مقدمه. 41
4-2 مدل رتبهبندی سهگانه. 43
4-2-1 جمع آوری داده ها 44
4-2-2 ساخت تنسور معادل گراف. 45
4-2-3 پیش پردازش 45
4-2-3-1 کاهش حجم داده ها از راه حذف خصوصیات غالب. 46
4-2-3-2 وزندهی خصوصیات. 47
4-2-4 تحلیل پارافک 47
4-3 تحلیل روش رتبهبندی سهگانه. 49
4-3-1 مرحله پیش پردازش 49
4-3-2 عملیات حذف. 49
4-3-3 عملیات وزن دهی 51
4-4 دسته بندی خصوصیات بر اساس دامنه. 52
4-4-1 خصوصیات تعریف شده در استاندارد RDF 52
4-4-2 خصوصیات تعریف شده درسطح منبع داده. 53
4-4-3 خصوصیات تعریفی یک حوزه خاص 54
عنوان صفحه
4-4-4 مثالی از دستهبندی خصوصیات. 54
4-4-5 رابطه تکرار خصوصیات با اهمیت آنها در موضوع. 55
4-4-6 خصوصیات ابهام آمیز. 56
4-4-7 خصوصیات زائد. 56
4-4-8 نتیجه بررسی خصوصیات. 57
4-5 اعمال پیش پردازش بر روی اسناد RDF 57
4-5-1 امتیازدهی و حذف خصوصیات. 58
4-5-2 انبارهی خصوصیات از پیش تعریف شده. 58
4-5-3 امتیازدهی خصوصیات. 59
4-5-4 وب به عنوان منبع امتیازدهی خصوصیات. 59
4-5-5 امتیازدهی پویا 62
4-5-6 ارسال جستار به گوگل 62
4-5-7 آماده سازی کلیدواژه های جستجو. 62
4-5-8 رفع ابهام از جستار. 63
4-5-9 پردازش صفحات بازگشتی 63
4-5-10 تحلیل آماری صفحات وب و محاسبه امتیاز خصوصیات. 64
4-6 تحلیل پارافک 65
4-7 افزودن خصوصیات جدید به انباره خصوصیات حذفی 67
4-8 کاربرد نظریه غذایابی بهینه در سیستم 68
4-9 تغییرات مورد نیاز روش انتخاب رژیم بهینه. 68
4-9-1 کاهش شباهت و تعداد نمونه ها با پیش پردازش 69
4-9-2 استفاده از نمونه به جای نوع. 70
4-10 تعریف بهره، هزینه و سودمندی 71
4-11 تنظیم الگوریتم و کنترل خروجیها 72
4-12 تحلیل عملکرد الگوریتم 72
4-13 جمعبندی 72
فصل پنجم: پیاده سازی و ارزیابی
5-1 مقایسه نتایج با پیش پردازش استاندارد. 74
5-2 پیاده سازی 75
5-3 مقایسه عملیات پیش پردازش در دو روش 75
5-4 مقایسه نتایج نهایی 77
5-5 کارایی زمان اجرا 83
عنوان صفحه
5-6 مقایسه نتایج پردازش شده و بدون پردازش با نظریه انتخاب بهینه رژیم غذایی 83
5-7 بررسی بیشترین دادههای قابل ارائه. 84
5-8 جمعبندی 85
فصل ششم: نتیجه گیری و کارهای آینده
6-1 خلاصه راهکارهای ارائه شده. 86
6-2 راهکارهایی برای ادامه پژوهش 88
منابع و ماخذ 90
فهرست شکلها
عنوان صفحه
شکل 1-1: ساختار انتزاعی دادههای پیوندی 2
شکل 1-2: یک مدل از روابط در دادههای پیوندی 3
شکل 2-1: ماتریس شباهت کاربران در روش همبستگی 11
شکل 2-2 :تعریف پروفایل کاربر در قالب FOAF 17
شکل 2-3 : معماری سیستم پیشنهادگر بر پایه FOAF 18
شکل 2-4 یک نمونه از پیشنهاد دهی دیبیرک. 19
شکل 2-5 یک نمونه از ارائه دلایل مربوط به یک پیشنهاد در دیبیرک. 19
شکل 3-1: نمونه ای از پیوندهای RDF 24
شکل 3-2: یک گزاره متشکل از دو منبع و یک صفت سازنده یک رابطه. 25
شکل 3-3: گزاره “امید رفیعی مالک صفحه وب است”. 26
شکل 3-4: نمونه یک RDF در قالب XML 26
شکل 3-5 : شمایی از ابر داده های باز متصل در مارچ 2009. 30
شکل 3-6: مدل جستجوی غذا در بین محدوده ها توسط یک چرنده. 32
شکل 3-7: الگوریتم انتخاب رژیم غذایی بهینه. 39
شکل 4-1: مدل رتبهبندی سهگانه. 43
شکل 4-2: یک گراف ساده معنایی 44
شکل 4-3: تنسور معادل گراف معنایی شکل 4-2. 45
شکل 4-4: تجزیه تنسور T به 3 ماتریس عامل 48
شکل 4-5: یک RDF ساده با خاصیت resource. 52
شکل 4-6: یک RDF ساده با خاصیت type. 53
شکل 4-7: یک RDF ساده با خاصیت wordnet_type. 53