روش SBM[104]
SBM [33]یک مدل آماری[۱۰۵] است که برای توصیف گراف[۱۰۶]های ناهمگون[۱۰۷] مستقیم[۱۰۸] یا غیر مستقیم[۱۰۹] به کار میرود.[۶] این روش که به خوبی مورد مطالعه قرار گرفته است در آنالیز شبکه های اجتماعی با موفقیت مورد استفاده قرار گرفته است[۳۴][۳۵].
در مدل SBM یک شبکه به صورت زیر تولید می شود:
هر گره[۱۱۰] با احتمال به یک تشکل منتسب می شود. احتمال انتساب داده شدن یک گره به تشکل ام است.
بر اساس تشکلی که گره و گره j به آن منتسب شده اند (فرض می شود گره به تشکل و گره به تشکل تعلق یافته است) لینک ما بین گره های و با پیروی از یک توزیع[۱۱۱] برنولی[۱۱۲] با پارامتر[۱۱۳] تولید می شود.
بنابراین پارامتر های مدل SBM، و است. در اینجا توزیع پیشین[۱۱۴] تشکل هاست که به طور معمول در نظر گرفته می شود. نیز احتمالات تولید لینک را نشان میدهد. به اعضای[۱۱۵] قطری[۱۱۶] احتمال لینک “درون_تشکل[۱۱۷]” برای تشکل و به اعضای غیرقطری [۱۱۸] و احتمال لینک “بین_تشکل[۱۱۹]” برای تشکلهای و گفته می شود.
نمایش گرافیکی[۱۲۰] روش SBM در شکل (۳-۱) نشان داده شده است.
شکل ۳-۱- نمایش گرافیکی روش مدل بلوک تصادفی (SBM).
برای ساده سازی شکل فقط برای یک جفت گره و نمایش داده شده است.
برای بیان کردن Likelihood داده ها برای روش SBM ، فرض می شود لینک به نحوی تولید می شود که مستقل از سایر لینکها و گرههایی است که در تشکل منتسب به گره یعنی و تشکل منتسب به گره یعنی قرار دارند.
با بهره گرفتن از فرض فوق،احتمال [۱۲۱]تمام داده ها در مدل SBM به صورت زیر نوشته می شود:
(۳-۱)
(۳-۲)
در فرمولهای فوق، در صورتی می شود که یک لینک بین گره و گره وجود داشته باشد. بهعلاوه فقط در صورتی که گره متعلق به تشکل و گره متعلق به تشکل باشد، می شود. در این مدل، حلقه به خود[۱۲۲] در نظر گرفته نشده است، بنابراین در معادلات فوق به معنی روی تمام و ها به گونه ای که باشد، است. معادلات گفته شده در بالا یک بیان فشرده از مدل SBM هستند.
در نهایت عبارت که احتمال انتساب تشکل هاست به صورت زیر تعریف می شود:
(۳-۳)
روش LDA[123]
LDA [36]یک مدل تولیدی[۱۲۴] در آمار[۱۲۵] است. این مدل برای مدل سازی تعدادی متغیر پنهان[۱۲۶]، عناوین[۱۲۷]، در مجموعهای[۱۲۸] از متنها که شامل کلمات هستند بوجود آمده است. در حقیقت در یک متن شامل تعدادی کلمه، میتوان به هر کلمه تعدادی عنوان با احتمال مشخص نسبت داد که در نهایت با ترکیب با هم یک متن و عنوان آن را تشکیل میدهند.
در مدل LDA، هر سند به صورت ترکیبی[۱۲۹] از عناوین مختلف در نظر گرفته می شود و فرض میشود توزیع عنوانهااز یک توزیع احتمال پیشین دیریکله[۱۳۰] تبعیت می کند. هر عنوان مجموعه ای از کلمات را با احتمال مشخصی ایجاد می کند. کلماتی که تعلق خاصی به برخی از عناوین ندارند (مانند the در انگلیسی) می توانند با احتمال بکتواختی در هرکدام از عناوین قرار گیرند؛ یا میتوان آنها را دسته ی خاصی قرار داد. باید توجه کرد که تعریف صریحی برای عنوان از دیدگاه های معناشناسی یا معرفتشناسی مشخص نمیشود. بلکه اختصاص عناوین به صورت دستی[۱۳۱] و با حضور یک فرد خبره[۱۳۲] صورت میگیرد.
نکته ی دیگر این است که در این مدل چیزی برای مدل سازی ترتیب[۱۳۳] یا همبستگی[۱۳۴] عناوین در نظر گرفته نمیشود، و هر متن به عنوان کیسه کلمات[۱۳۵] در نظرگرفته شده و باعث می شود که هر کلمه قابل تعویض باشد.
نمایش گرافیکی روش LDA در شکل (۳-۲) نشان داده شده است.
شکل ۳-۲- نمایش گرافیکی روش LDA.
در این شکل مستطیلها نشان دهنده حلقه به تعداد پارامتر درون خود هستند. دایرههای توخالی نشان دهنده متغیرهای دیده نشده و دایرههای توپر نشان دهنده متغیر دیده شده و معلوم هستند. فلشها نشان دهنده پارامتر توزیعی هستند که هر متغیر از آن تبعیت می کند.
روابط زیر بیان کننده شکل (۳-۲) هستند. عنوان امین مولفه[۱۳۶] در امین سند از یک توزیع چند جملهای[۱۳۷] با پارامتر پیروی میکند:
(۳-۴)