داده کاوی دسترسی به دادهها ی است خصوصی است و تنهااجازه داده دسترسی کاربر در پایگاه داده باشد.
وبکاوی دسترسی به دادههای عمومی است . در این نمی توان دادههایی که دسترسی به پایگاه داده وب دارند را مخفی کرد . امااجازه دسترسی به وبلاگ master و دسترسی به داده را دارد .
دسترسی(access)
در داده کاوی دریافت اطلاعات ازساختار صریح و روشن است . داده کاوی واکشی اطلاعات از پایگاه داده گسترده ای در مقایسه با پایگاه داده وبکاوی
نیست .
در وب کاوی دریافت اطلاعات ازساختار، بدون ساختار و نیمه ساخت یافته ازصفحات وب است. داده کاوی واکشی اطلاعات از پایگاه داده گسترده است
ساختار(strucrure)
۲-۶ الگوریتم های وبکاوی
در وبکاوی الگوریتم های زیادی استفاده میشود ازجمله:
-
- درخت تصمیم :یکی از الگوریتم های یادگیری ماشین است. در این الگوریتم نمونه های اشیاء و رکوردها، بر اساس مقادیر برخی صفات به گروه هایی تقسیم می شوند و این روند ادامه می یابد تا یک ساختار درختی شکل گیرد. این درخت مورد آموزش قرار می گیرد و برای دسته بندی دادههای جدید به کار می رود.
- شبکه عصبی :مجموعه ای از سیگنال های ورودی، گره ها و سیگنال های خروجی است. شبکه های عصبی ابتدا با دادهها و مثال های آموزشی، آموزش داده می شوند. سپس دادههای جدید به شبکه ارائه می شوند و شبکه به تحلیل آنها می پردازد. شبکه های عصبی در کاوش محتوای وب، برای خوشه بندی، تشخیص موجودیت ها، تحلیل انحرافات و سایر کاربردهای وب کاوی وهمچنین برای کشف الگوهای غیرعادی در تصاویر به کار میروند.
- نزدیکترین همسایه:به تحلیل دادههای جدید بر اساس همسایه های آنها می پردازند. در این روش اگر داده ی جدیدی باید تحلیل شود، دادههای موجود بررسی میشوند تا دادههایی که ویژگی هایی مشابه داده جدید دارند، تشخیص داده شوند. سپس بر اساس این دادهها در مورد داده جدید، تصمیم گیری می شود. برای تشخیص دادههای مشابه از توابع فاصله استفاده میشود.
- جریان بیشینه:در یک گراف که به یال های آن ظرفیت جریانی مثبت اختصاص داده شدهاست، هدف، محاسبه ی بیشینه جریانی که قابل انتقال از گره s به گره t است میباشد.
- Average Click:فاصله بین دو صفحه وب را اندازه گیری می کند. تعداد پیوندهایی که از یک صفحه برای رسیدن به صفحه دیگر باید پیموده شود، معیار مناسبی برای اندازه گیری فاصله دو صفحه نمی باشد. چرا که احتمال این که کاربران پیوندی از صفحه ای با تعداد کمتری پیوند را دنبال کنند بیشتر از احتمال پیمودن این پیوند در صفحه ای با تعداد بیشتری پیوند است. به همین دلیل Average Clicks فاصله بین صفحات را بر اساس احتمال کلیک کردن یک پیوند در قدم زدن تصادفی محاسبه می کند[۴۱,۶۳].
۲-۷ دسته بندی وبکاوی
وبکاوی همانطور که در شکل ۲-۲ نشان داده شدهاست شامل سه زیر مجموعه ی محتواکاوی، ساختار کاوی و کاربرد کاوی است[۳۹,۴۱].
شکل۲-۲. دسته بندی وبکاوی[۴۱]
۲-۷-۱محتوا کاوی وب
محتواکاوی وب اولین گروه از طبقه بندی ارائه شده در وب کاوی می باشد. وبکاوی اساسا فرایند استخراج اطلاعات مانند متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول مفید از محتوای مستندات وب است. بسیاری از صفحات برای دسترسی به اطلاعات در وب باز هستند. همچنین جستجوی اطلاعات و باز کردن صفحات جستجو، محتوای وب است . آخرین نتیجه دقیق یا صحیح ،نتیجه محتواکاوی وب را تعریف میکند[۵۱,۶۰] .
۲-۷-۱-۱دیدگاه های محتوا کاوی وب
محتواکاوی در وب را می توان از دو دید بررسی کرد:
- از دید بازیابی اطلاعات: هدف محتواکاوی در وب از نقطه نظر بازیابی اطلاعات تسهیل یا بهبود فرایند جستجوی اطلاعات یا فیلتر کردن اطلاعات برای کاربران است
- از دید پایگاه دادهها:از دید پایگاه دادهها هدف محتواکاوی، ارائه مدلی از دادههای وب و یکپارچه سازی آنها است به طوی که پرسوجوهای پیچیده تر از پرسوجوهای مبتنی بر کلمات کلیدی قابل پردازش باشند. محتواکاوی از دید پایگاه دادهها سعی در بدست آوردن ساختار سایت وب و یا تبدیل سایت وب به یک پایگاه داده دارد تا بتواند مدیریت و پرسوجوی اطلاعات موجود در وب را کاراتر انجام دهد. این کار با کشف شمای[۱۹] اسناد موجود در وب یا ساخت یک پایگاه داده مجازی قابل انجام است[۴۴,۶۰].
۲-۷-۱-۲ دادههای محتوا کاوی وب
دادههای محتوا کاوی وب در شکل ۲-۳ نشان داده شدهاست[۴۶,۵۳].
شکل۲-۳.دادههای محتواکاوی وب[۴۶,۵۳]
۲-۷-۱-۳ رویکردها و تکنیک های محتواکاوی وب
به طور کلی برای انجام کاوش محتوا برای یک کاربرد خاص، ابتدا باید نوع نتیجه مورد انتظار تعیین شود. سپس بر اساس آن تکنیکی که برای کاوش و بهدستآوردن آن نتیجه به کار می رود، انتخاب می گردد. در پایان نوع رویکرد مشخص می شود تا تعیین گردد، فرایند چگونه انجام شود. سه رویکرد[۲۰] یا متدولوژی اصلی برای کاوش محتوا وجود داردکه در شکل۲-۴ نشان داده شدهاست[۱۸,۱۲].
شکل۲-۴.رویکردهای محتواکاوی وب[۱۸,۱۲]
این متدولوژی ها می توانند مستقیم یا غیر مستقیم باشند. به متدولوژی های مستقیم، یادگیری بانظارت و به متدولوژی های غیر مستقیم، یادگیری بدون نظارت نیز گفته می شود. در رویکرد بالا به پایین کار از یک فرضیه، ایده یا الگوی مشخص آغاز می شود. سپس با بهره گرفتن از دادههای موجود، این فرضیه ارزیابی می شود. اگر برخی از دادهها، فرضیه مورد بررسی را تایید نکنند، فرضیه اصلاح می شود. برای این منظور بسیاری از تکنیک های استدلال آماری استفاده می شوند. به طور کلی ارزیابی فرضیه شامل تولید مدلی برای فرضیه و ارزیابی مدل برای تعیین صحت یا عدم صحت فرضیه می باشد. توسعه مدل چالش اصلی این فرایند می باشد. یک مدل می تواند مجموعه ای از قوانین باشد. برای ارزیابی مدل از دادههای موجود استفاده می شود[۱۸,۱۲,۲۷].
در رویکرد پایین به بالا، فرضیه ای برای ارزیابی وجود ندارد. این رویکرد دشوارتر از رویکرد بالا به پایین است، چرا که باید دادهها بررسی شده و از آنها الگویی استخراج شود. رویکرد پایین به بالا می تواند مستقیم یا غیر مستقیم باشد. در روش مستقیم که به آن یادگیری با نظارت نیز گفته می شود، ایده ای در مورد آنچه به دنبال آن هستیم، وجود دارد. در این حالت، مشابه رویکرد بالا به پایین، به توسعه مدل ها و ارزیابی آنها بر اساس دادهها پرداخته می شود. در روش غیر مستقیم که به آن یادگیری بدون نظارت نیز گفته می شود، ایده ای در مورد آنچه به دنبال آن هستیم، وجود ندارد. بلکه از ابزار موجود برای کاوش خواسته می شود که الگوهایی کشف کند. به عنوان مثال در کاوش تصویر، ابزار کاوش می تواند به جستجوی الگوهای غیر معمول بپردازد. پس از آن که الگوهای مورد نظر کشف شد، می توان از روشهای یادگیری مستقیم استفاده کرد.ودر رویکرد ترکیبی، از هر دو رویکرد بالا به پایین و پایین به بالا استفاده می شود. برای مثال می توان کار را با رویکرد پایین به بالا آغاز کرد و با تحلیل دادهها یک یا چند الگو را کشف نمود. این الگو می تواند فرضیه ای باشد که با بهره گرفتن از رویکرد بالا به پایین مورد ارزیابی قرار گیرد[۱۸,۱۲,۲۷].
۲-۷-۱-۴ انواع محتواکاوی وب
منظور از انواع محتواکاوی وب، انواع نتایج مختلفی است که پس از فرایند کاوش تولید می شود.که درجدول ۲-۳ آمده است[۳۲,۴۷,۴۱].
جدول۲-۳.انواع محتواکاوی وب[۳۲,۴۷,۴۱]
طبقهبندی[۲۱]
هدف از طبقه بندی مستندات، یافتن طبقه موضوعی مناسبی است که با کمترین خطا موضوع بحث یک سند را نشان می دهد. جزء روشهای یادگیری با نظارت به شمار می آید. یعنی ابتدا مجموعه اسنادی به سیستم داده می شود که طبقه آنها مشخص شدهاست. سپس سیستم با دیدن این نمونه ها ، نمونه های جدید را طبقه بندی میکند.هدف طبقه بندی، تحلیل نمونه های آموزشی و ساخت مدل دقیقی برای هر طبقه با بهره گرفتن از ویژگیهای موجود در دادهها و سپس استفاده از این مدلها برای طبقه بندی دادههای آتی است.