۲۸
۳۵
SE1
-
-
۳۰
۴۰
۵۰
SE2
۵
۱۰
۱۵
۲۰
۲۵
SE3
بنابراین، به نظر میرسد اولین نتیجه در این رتبه، نتیجه اول موتور جستجوی SE2 است.
۳-۴-۲-۲ -۱-۲-۲ طبقهبندی سلسله مراتبی صفحات وب بازیابی شده
همانطور که قبلا ذکر شد، Captain nemo موضوعات مرتبط مورد نظر را برای طبقهبندی صفحات بازیابی شده، با بهره گرفتن از تکنیک های K همسایه نزدیک توصیه می نماید. سایر الگوریتم های طبقهبندی را می توان به آسانی اتخاذ نمود. با این حال، تلاش های ما روی ارائه چارچوب مناسب متمرکز شدهاست و نه آزمایش الگوریتم های طبقهبندی های مختلف، که به طور گسترده ای توسط بسیاری از محققان بررسی شدهاست. بنابراین، در عین حال روش ساده طبقهبندی موثر K همسایه نزدیک انتخاب میگردد[۵۲].
صفحات وب بازیابی شده توسط k-NN پردازش می شود و در سلسله مراتب موضوعی طبقهبندی می شود. بخشی از یک صفحه وب که برای طبقهبندی استفاده میشود شامل عنوان آن و بخشی از محتوای استخراج شده آن توسط موتورهای جستجو می شود. مورد دوم معمولا به شدت به پرسوجو تحمیل مربوط میباشد. تمام محتوای صفحات وب میتواند برای دقت بیشتر استفاده میشود، اما این زمان پاسخ راخراب کند[۵۲].
- طبقه بندیK-NN : روش طبقهبندی k-NN فرض می کند که یک گروه از رده ها برای مجموعه دادهها و مجموعه ای از اسناد آموزشی مربوط به هر موضوع تعریف می شود. با توجه به یک سند وارده، این روش تمام مدارک آموزشی را با توجه به ارزش شباهت میان این اسناد و پرونده های دریافتی رتبه بندی می نماید. سپس، روش رده های k سند رتبهبندی شده عالی را برای تصمیم گیری طبقهبندی مناسب برای سند ورودی با اضافه کردن مقادیر مشابهت در هر همسایه برای هر یک از این مجموعه ها استفاده می نماید که در فرمول (۳-۸) بیان میگردد[۵۲].
Eq.(3-8)
جایی که:
- x یک سند ورودی است، dj یک سند آموزش است، CJ یک رده است.
- در صورتی که di به cj متعلق باشد یا ۰ در غیراینصورت
- مقدار تشابه بین سند ورودی x و سند آموزشی di است.
با بهره گرفتن از آستانه ها در این نمرات، k-NN تکالیف رده باینری را بهدستمی آورد و به سیستم اجازه میدهد تا یک سند را به بیش از یک دسته اختصاص دهند. در عوض فقط میتواند از رده ای با بالاترین امتیاز به عنوان یک مورد صحیح برای سند ورودی استفاده نماید. Captain nemo از روش دوم پیروی می کند[۵۲].
- طبقهبندی k-NN سلسله مراتبی: الگوریتم های طبقهبندی k-NN سلسله مراتبی معمولا در یک رویکرد از بالا به پایین اجرا می شوند. این سند مورد نظر برای اولین بار در یکی از مقوله های سطح اول طبقهبندی شدهاست. به طور بازگشتی، طبقهبندی در زیر درخت ریشه دار در رده در انتخاب شده مرحله قبل همچنان ادامه دارد. این فرایند زمانی متوقف میشود که رده انتخاب شده یا یک برگ یا بیشتر شبیه به سند از زیر شاخه های آن است. در این روش، همه رده ها در سلسله مراتب باید با جزئیات برای جذب اسنادی تعریف شوند که متعلق به یکی از زیر شاخه های آن ها است. برای جلوگیری از این مشکل، در Captain nemo، که در آن توصیف موضوع توسط کاربران داده میشود، یک روش ترکیبی استفاده شدهاست[۵۲].
- رویکرد ترکیبی : این روش یک روش ترکیبی است. موضوعات مورد علاقه در یک سلسله مراتب موضوعی سازمان یافتهاست. هر موضوع سلسله مراتب به عنوان یک گروه مجزای دارای اطلاعات آموزش آن ها (توضیحات کلمه کلیدی خود را)، همانند مدل مسطح در نظر گرفته می شود. با این حال، مجموعه دادههای آموزش یک موضوع توسط دادهها از زیر موضوعات آن غنی می شود. به عنوان مثال، رده های سلسله مراتب، همانطور که در شکل ۳-۱۹ نشان داده شدهاست، غنی شدهاست. در نتیجه تصمیم اینکه آیا یک صفحه وب متعلق به یک رده است به شدت به نسل های آن بستگی دارد[۵۲].
شکل ۳-۱۹ سلسله مراتب غنی شده[۵۲]
در Captain nemo، توصیفات موضوع تعیین شده توسط کاربر به جای آموزش اسناد در k-NN استفاده می شوند. برای مشخص تر شدن، Captain nemo نیاز به محاسبه شباهت میان شرح هر صفحه وب بازیابی شده و شرح هر موضوع مورد علاقه شخصی دارد. اندازه گیری شباهت به کارگرفتهشده یک است. که D شرح یک موضوع مورد توجه و R شرح یک صفحه وب بازیابی شدهاست. شباهت بین موضوع مورد علاقه و صفحه وب بازیابی شده، sim (R,D) به صورت فرمول (۳-۹) تعریف میشود: