۴-۶-۱ طراحیER 70
۴-۶-۲ طراحی مدل گرافی ۷۲
فصل پنجم: ارزیابی ۷۵
۵-۱ مقدمه ۷۶
۵-۲ روش اول: گروه متمرکز ۷۷
۵-۲-۱ آشنایی باگروه متمرکز ۷۷
عنوان صفحه
۵-۲-۲ مزایای گروه متمرکز ۷۷
۵-۲-۳روش شناسی گروه متمرکز ۷۷
۵-۲-۴ ارزیابی به وسیله ی گروه متمرکز ۷۹
۵-۳ روش دوم: پیاده سازی عملی پایگاه داده ۷۹
۵-۳-۱ نرم افزارنئوفرجی ۸۰
۵-۳-۲ داده های موردنیاز ۸۰
۵-۳-۳ ذخیره داده هادرپایگاه داده نئوفرجی ۸۱
۵-۴ نتایج ۸۳
فصل ششم:جمع بندی و کارهای آتی ۹۰
۶-۱ جمع بندی وکارهای آتی ۹۱
منابع ۹۷
فهرست جدول ها
عنوان صفحه
جدول (۳-۱) : پایگاه داده ی سنتی رابطه ای ۴۵
جدول (۳-۲) : پایگاه دادهEAV 45
جدول(۳-۳) : یک شمای کلیازEAV 46
جدول (۵-۱ ): زمان مربوط به پرس وجوهای مختلف ۸۵
فهرست نمودارها
عنوان صفحه
نمودار(۵-۱) پرس و جوهای یک گره………………………………………………………………………………….۸۶
نمودار(۵-۲) پرس و جوهای دو گره…………………………………………………………………………………..۸۷
نمودار(۵-۳) پرس و جوهای سه گره………………………………………………………………………………….۸۷
نمودار(۵-۴) پرس و جوهای تمام گره ها……………………………………………………………………………۸۸
نمودار(۵-۵) مقایسه کمترین-بیشترین و میانگین زمان پرس و جوها……………………………………….۸۹
فهرست شکل ها
عنوان صفحه
شکل(۲-۱ ) نمونه ای اولیه از پایگاه داده گراف…………………………………………………….. …………..۲۷
شکل(۳-۱)پیاده سازی بیماری همه گیری با پایگاه داده رابطه ای……………………………………………۴۴
شکل(۳-۲)یک پیاده سازی ساده از EAV/CR…………………………………………………………………….46
شکل (۳-۳) پیاده سازی بیماری همه گیری با پایگاه داده گرافی………………………………. ………….۴۷
شکل (۴-۱) نمودارER…………………………………………………………………………………………. ……….71
شکل (۴-۲) پایگاه داده گراف طراحی شده برای بیماری های ژنتیکی……………………………………۷۴
شکل(۵-۱) نمایش تمام گره ها روابط در پایگاه داده گرافی………………………………………………….۸۲
چکیده
در جامعه امروزی با توجه به پیشرفت علم پزشکی حجم داده های پزشکی به سرعت در حال افزایش هستند. برای تحلیل سریعتر و کارآمدتر این داده ها نیاز به ذخیره الکترونیکی این داده ها داریم. داده های مربوط به بیماریهای ژنتیکی نیز از این دسته داده ها به حساب میآیند. با توجه به این مسئله میبایست پایگاه دادهای مناسب ذخیره و بازیابی این داده ها طراحی نماییم. با توجه به ماهیت داده های ژنتیکی و این مسئله که در مورد انتقال بیماری های ژنتیکی روابط بین افراد و تجزیه تحلیل آن مسئله مهمی به حساب می آید در این مقاله برای ذخیره و بازیابی این داده ها از مدل دادهی گرافی که یکی از زیر مجموعههای مدل داده های غیر ساخت یافته (NOSQL)است استفاده مینماییم. برای این کار ابتدا نیازها و پرس و جوهای مربوط به این مسئله را مشخص میکنیم و بر اساس آن مدل داده گرافی را طراحی مینماییم. برای ارزیابی مدل داده طراحی شده یک تیم متشکل از متخصصان ژنتیک نیز این مدل داده را بررسی کرده و نظر مساعد خود را در خصوص کاربرد این مدل داده برای بیماری های ژنتیکی بیان نمودند. همچنین از نرم افزار Neo4j استفاده نمودیم که داده های مربوط به بیماری ژنتیکی تالاسمی را در آن ذخیره کرده و این مدل داده را بر اساس کارایی ذخیره سازی و بازیابی اطلاعات و زمان پرس و جوها مورد بررسی قرار دادیم که با توجه به زمان پرس و جوها و عدم پشتیبانی سایر مدل داده ها از روابط بین افراد، این مدل داده مدل مناسبی به شمار می آید.
کلمات کلیدی: ژن،بیماری های ژنتیکی، پایگاه داده های گرافی،neo4j،مدل داده
فصل اول: مقدمه
۱-۱-پیشگفتار
در زمینه پزشکی داده ها به سرعت در حال تولید وگسترش هستند. این داده ها در اشکال متفاوتتری نسبت به داده های گذشته تولید میشوند و با توجه به پیشرفتهای علم در این زمینه نیاز به مدیریتهای جدید بسیار بیشتر از گذشته احساس می شود. برای ذخیره این داده ها پایگاهدادهای که قادر به پشتیبانی از انواع مختلف داده ها و حجم زیاد داده ها باشد و همچنین توانایی انجام مدیریت صحیح و کامل داده ها را دارا باشد، نیاز داریم]۱۴[.
در خصوص بیماریهای ژنتیکی دادههایی که نیاز به ذخیره آنها داریم، داده های متنوعی هستند. با توجه به ماهیت بیماریهای ژنتیکی برای درک نحوه انتقال این بیماریها نیاز به ذخیره وضعیت سلامتی اجداد بیماران نیز داریم که در هر بررسی ممکن است فرد جدیدی به این شجره نامه اضافه شود، همچنین برای کشف مسیر انتقال بیماریها روابط بین افراد در این پایگاهداده بسیار مهم و ضروری میباشد. برای پشتیبانی از این نیازها و مدیریت روابط بین افراد و انتقال بیماری، پایگاهداده های ساختیافته[۱]گزینه مناسبی نیستند، زیرا قادر به پشتیبانی از انواع مختلف داده ها نمیباشند.
پایگاهداده های غیرساختیافته[۲]برای پشتیبانی انواع مختلف داده ها گزینه های مناسبتری هستند. پایگاهداده هایNOSQL انواع مختلفی دارند اما با توجه به این که در این نوع بیماری روابط بین افراد بسیار مهم است و همچنین باید در هر زمانی قادر به افزودن موجودیت ها باشیم پایگاهداده های گرافی مورد مناسبی میباشند.
۱-۲-بیان مسئله
بدن انسانها از تریلیون سلول تشکیل شده و هر سلول دارای یک هسته میباشد. هسته سلولها از تعداد ۴۶ کروموزوم یا۲۳جفت کروموزوم تشکیل شده است. کروموزومها دارای رشته های در هم پیچیدهای به نامDNA هستند که اینDNA ها شامل ژنها هستند.هر سلول بدن انسانها شامل۲۵۰۰۰تا۳۵۰۰۰ژن است]۱[.