۳-۱۳ نتیجه گیری
در این فصل، معماری خزنده های وب مورد بررسی قرار گرفت و چالش هایی که یک خزنده در هنگام اجرا شدن با آن ها مواجه خواهد شد بیان گردید. با توجه به تعداد بسیار زیاد صفحات وب و چالش های موجود، یک خزنده همواره باید بتواند بهترین گزینه را انتخاب و مرتبط ترین مطالب را در اختیار کاربر قرار دهد به همین جهت در این فصل، استراتژی های سنجش انتخاب صفحات به طور کامل مورد بررسی قرار گرفت و در ادامه استرتژی های خزش معرفی و الگوریتم های هر یک از آن ها به طور کامل تشریح گردید و همچنین پیچیدگی های زمانی و مکانی آن ها نیز مورد بحث و بررسی قرار گرفت. در فصل بعد این الگوریتم ها را بر روی چند پرس و جو[۱۲۶] بررسی و پیاده سازی خواهیم نمود.
فصل چهارم
تجزیه و تحلیل نتایج حاصل از تحقیق
۴-۱ مقدمه
در آزمایش صورت گرفته در این تحقیق، روش های اول عمق، اول سطح، الگوریتم ترکیبی اول عمق و اول سطح، بهترین-شروع و تپه نوردی را به هدف انتخاب الگوریتمی جامع جهت تشخیص اهمیت لینک ها مورد بررسی قرار داده و به کاوش و بررسی صفحـات بدسـت آمده و تحلیل و اندازه گیری انحـراف موضـوع در آنها تا عمـق و سطـح موردنـظر پرداخته شده است.
منظور از انحراف موضوع این است که وقتی از یک صفحه ای به صفحه دیگر لینکی برقرار می شود، صفحه دوم از موضوع مورد جستجو دور می شود. در واقع صفحه دوم، صفحه ای بی ربط با موضوع مورد جستجـو می باشد. به طـور کلی می توان گفت که در آزمایش صورت گرفته در این تحقیق، همواره درصد مرتبط و غیر مرتبط بودن صفحات یافت شده نسبت به موضوع مورد جستجو، محاسبه می گردد.
در این پژوهش، به علت بهینه نبودن سایر روش های جستجو و غیر عمـلی بودن استفاده ی آن ها در حـوزه ی موتورهای جستجو، از بررسی آنها خودداری شده است زیرا سایر روش ها زمان و هزینه زیادی صرف می کنند و امروزه نیز به علت بهینه نبودن در موتورهای جستجو کاربرد چندانی ندارند. همچنین سایر روش ها، همواره گره ای را به عنوان گره هدف در نظر می گیرند در صورتیکه وقتی در یک موتور جستجو، پرس و جویی را مورد کاوش قرار می دهیم، منظور رسیدن به گره ای با هدف مشخص و معین نمی باشد بلکه دنبال صفحات مرتبط با موضوع موردنظر می باشیم در حالیکه روش های استفـاده نشده، همواره هدفشـان رسیـدن به یک گره مشخص و معین می باشـد نه دستیابی به یک سری مطالب مرتبط.
در این تحقیـق، با ارسال پرس و جوهایی نظیر “Computer networks، Artificial Intelligence، crawler Web،Search engine ، Cloud computing، Software Engineering، Data mining، Computer Architecture، Operation System و Wi-Fi “ به موتور جستجوی گوگل، نتایج بدست آمده از روش های پیمایش گوناگون مورد تجزیه و تحلیل و اندازه گیری قرار گرفتند.
تمامی آزمایشـات صـورت گرفته در این پژوهش به صورت دستی و بر روی سیستمـی مبتنی بر سیستـم عامـل وینـدوز ۷، ۶۴ بیتـی و با ۴ گیگابایت حافظه اصلی و واحد پردازنده مرکزیIntel® coreTM i7-Q720 با فرکانس ۱٫۶۰ گیگاهرتز انجام گرفته است. همچنین بازه زمانی که آزمایش در آن صورت گرفته از ۸ تیرماه الی ۱۸ مهرماه سال ۹۳ می باشد.
۴-۲ مرحله اول: بررسی روش اول سطح
در حرکت اول سطح، واحد کنترل پس از تعیین صفحه هسته، کلیه گرههای هم عمق با یکدیگر را تعیین و به ترتیب به گردآورنده معرفی میکند. پس از رجوع به کلیه صفحات مشخص شده در آن سطح، واحد کنترل سطح دوم را مورد بررسی قرار می دهد]۱[. در این آزمایش نیز از این سیاست پیروی و به ترتیب وارد سطوح مورد نظر شده و تا سطح تعیین شده پیش می رویم. در ذیل به شرح آزمایش انجام گرفته بر روی اولین پرس و جو یعنی Computer networks پرداخته شده و نتایج حاصل از هر یک از صفحات هسته را به طور کامل شرح داده شده است.
در بررسـی انجام شـده با استفـاده از روش اول سطـح، با جستجـوی اولیـن پرس و جـو، یعنی Computer networks در موتور جستجوی گوگل، از میان تمامی صفحات پیدا شده، سه صفحه ای که دارای بیشترین لینک های خارجی مرتبط با موضوع موردنظر می باشند را به عنوان صفحات هسته انتخاب نموده و آن ها را به ترتیب s1، s2 و s3 می نامیم و الگوریتم اول سطح را بر روی تک تک این صفحات هسته پیاده سازی می نماییم. در سطـح اول مربـوط بـه اولیـن صفحه هسته[۱۲۷]، تمـامـی زیـر لینـک هـای خـارجـی آن را استخـراج نمـوده و مطابق شکل ۱-۴ بـه ترتیـب a1 , a2 , . . . , an می نامیم:
a1 | a2 | a3 | . . . | an |
شکل ۴-۱ لینک های استخراج شده سطح اول با بهره گرفتن از تکنیک BFS
در این سطح، درصد مرتبط بودن صفحات با بهره گرفتن از روش اول سطح را محاسبه نمـوده که مقدار ۹۰/۹۰ درصد بدست می آید. مشاهده می شود که اکثریت صفحات در این سطح مرتبط بوده و کلیات موضوع موردنظر کاوش و استخراج خواهد شد.
در سطـح دوم نیز همانند سطح قبل عمل نموده و تمـامی زیرلینـک های خـارجی a1 , a2 , . . . , an را استخـراج نمـوده و مطابق شکل ۴-۲ آن هـا را b1 , b2 , . . . , bn می نامیم.
b1 | b2 | b3 | . . . | bn |