معادله ۳‑۲۷ ۵۳
معادله ۳‑۲۸: درستنمایی الگوی پاسخدهی ۵۳
معادله ۳‑۲۹: درستنمایی داده ها در روش CML 53
معادله ۳‑۳۰: لگاریتم درستنمایی ۵۳
نه
معادله ۳‑۳۱: معادله های برآورد CML 54
معادله ۳‑۳۲ ۵۷
معادله ۳‑۳۳ مدل احتمال سراسری مسئله به عنوان شبکه باوری بیزین ۶۲
۶۵
۶۵
معادله ۳‑۳۶ ۶۷
معادله ۴‑۱ ۷۵
معادله ۴‑۲ ۷۸
معادله ۴‑۳ ۷۹
معادله ۴‑۴ ۸۲
ده
چکیده
آزمون انطباقی کامپیوتری یک روش رو به رشد ارزیابی در بسیاری از موسسات آموزشی و همچنین غیر آموزشی در سراسر جهان است. ویژگی متمایزکننده آزمون انطباقی کامپیوتری اجرای آزمون متناسب با توانایی آزموندهنده بر اساس پاسخ سوالات قبلی میباشد. از این رو، میتوان آزمون کوتاهتر را اجرا و در عین حال تخمین دقیقتری از توانایی آزموندهنده به دست آورد. روشهای مختلفی برای ایجاد آزمون انطباقی کامپیوتری بر اساس نظریه سوال پاسخ ارائه شده است. هدف این پایان نامه بهبود روش انتخاب سوال در آزمون انطباقی کامپیوتری بر اساس نظریه سوال پاسخ با توجه به سطح دانش آزموندهنده میباشد. در این پایان نامه علاوه بر پارامترهای سوال که در نظریه سوال پاسخ مطرح شده است، ساختاری برای سوالات پیشنهاد شده است که بر اساس آن میتوان روش انتخاب سوال را بهبود بخشید، علاوه بر این طول آزمون کوتاهتر خواهد شد. همچنین میتوان مبحثی که آزموندهنده در آن ضعیف میباشد را شناسایی و بر اساس آن رویکردی مناسب آزموندهنده پیشنهاد داد. یعنی اگر آزموندهندهای در مبحثی ضعیف بود، معلم می تواند تصمیمی متناسب با سطح آزموندهنده اتخاذ کند.
در انتخاب سوال، موضوع دیگری که مطرح است محاسبه سطح توانایی آزموندهنده است، چون بر اساس سطح او، سوال مناسب برای او انتخاب می شود. روشهای مختلفی برای محاسبه و تخمین سطح آزموندهنده وجود دارد، در این پایان نامه از شبکه های عصبی برای تحمین سطح دانش استفاده شده است. سه مدل شبکه عصبی در اینجا مطرح شده است، مدل اول شبکه عصبی هرس جامع است که شبکه ای دقیق ولی با طول زمان آموزش بالاست، مدلهای دیگر، شبکه عصبی پرسپترون چند لایه و مدل شبکه عصبی تابع پایه شعاعی است.
واژگان کلیدی: سنجش کامپیوتری ، آزمون های مبتنی بر کامپیوتر ، آزمون انطباقی کامپیوتری، نظریه سوال پاسخ، شبکه بیزین، شبکه عصبی.
فصل اول : مقدمه
آزمون یکی از رایجترین راههای آزمایش دانش است. هدف اصلی از آزمایش به منظور تعیین سطح دانش آزموندهنده از یک یا چند موضوع که در آن زمینه دانش انتخاب شده باشد، است. امروزه از روشهای مختلفی نظیر ارائه مطلب در کلاس ، نوشتن مقالات، پروژه ها، و غیره برای ارزیابی دانش استفاده می شود. با این حال، رایجترین ابزار برای سنجش دانش، آزمون و امتحان شفاهی است. از آنجا که در دهههای اخیر کامپیوتر به عنوان بیشترین ابزار آموزش مورد استفاده بوده است، و از آنجایی که استفاده از آن در همه سطوح آموزش و پرورش رایج شده است، آزمون مبتنی بر کامپیوتر بسیار مورد پسند است.
امروزه از انواع روشهای آزمونی که در دسترس میباشد، «آزمون انطباقی کامپیوتری» تعادلی حداکثری از دقت و کارایی را فراهم می کند. در طول چند دهه گذشته، «آزمون انطباقی کامپیوتری» در زمینه های آموزش، صدور گواهینامه و پروانه، بطورگسترده استفاده شده است. «آزمون انطباقی کامپیوتری» براساس پاسخ آزمودنی به سوالات پیشین، به صورت پیشروندهای، سوالاتی را انتخاب می کند که دقت آزمون را افزایش دهد. از نظر آزمودنی به نظر میرسد که دشواری سوال با سطح توانایی او انطباق پیدا می کند. به عنوان مثال، اگر آزمودنی در پاسخ به سوالی با دشواری متوسط خوب عمل کند به او سوالی ارائه می شود که دشواری بیشتری دارد و یا اگر در پاسخ به سوال با دشواری متوسط عمل کند سوال سادهتری ارائه می شود. در آزمونهای انطباقی کامپیوتری، در مقایسه با آزمونهای چند گزینهای ثابت که مجموعه ثابتی از سوالات به آزمودنی ارائه می شود، به تعداد سوالات کمتری نیاز دارد تا بتواند به همان نتایج دقیق دست پیدا کند. البته هیچ محدودیتی وجود ندارد که در روش شناسی «آزمون انطباقی کامپیوتری» الزاماً از سوالات چند گزینهای استفاده شود اما از آنجایی که اکثر سوالات چندگزینهای هستند، در بیشتر آزمونهای انطباقی کامپیوتری نیز از این نوع سوالات استفاده میشود.
«آزمون انطباقی کامپیوتری» از اجرای سوالات نامربوط اجتناب می کند. مانند سوالهایی که برای آزمودنی خیلی آسان و یا خیلی سخت هستند و رفتارهایی نامناسب مثل حدس زدن، بی توجهی، و الگوهایی که پاسخ دادن را تحریک می کنند. این سوالات تا حد خیلی زیادی حذف می شوند. زمانی که سوالات به گونه ای ارائه شوند که با سطح توانایی آزمودنی منطبق نباشد و سطح چالش سوال (درجه دشواری) بالا باشد آزموندهنده مضطرب خواهد شد و اگر پایین باشد دچار بی علاقگی خواهد شد. تنها در صورتی فرد تجربه آزمون مناسب را تجربه خواهد کرد که دشواری سوال با سطح تواناییاش منطبق باشد که آزمونهای انطباقی این ویژگی را دارند.
اهداف تحقیق و تبیین صورت مسئله
در این پایان نامه نحوه انتخاب سوال بعدی برای آزموندهنده را با توجه به اینکه بیشترین نزدیکی به سطح دانش او داشته باشد را بهبود داده شده است. برای انتخاب سوال سه تابع برای آن تعریف شده است :
انتخاب سوال بر اساس موضوع درس
انتخاب سوال بر اساس نظریه سوال پاسخ
انتخاب سوال بر اساس تاریخچه سوالها پاسخ داده شده
در تابع اول سوالاتی که به موضوع مورد نظر مربوط است انتخاب میشوند. سپس در تابع با بهره گرفتن از نظریه سوال پاسخ و بهبود روشهای محاسبه احتمال پاسخگویی آزموندهنده به سوال، سوالاتی که بیشترین احتمال را دارند که آزمون دهنده آنها را پاسخ دهد انتخاب میشوند. بعد از آنکه سوالات در تابع دوم انتخاب شدند، بر اساس سابقه سوالات، از بین آنها یک سوال انتخاب و از آزموندهنده پرسیده می شود. بهبود فرایند انتخاب سوال در تابع اول و دوم در این پایان نامه مورد نظر است. در واقع سوالاتی انتخاب خواهد شد که برای آزموندهنده از نظر سنجش دانش او، بهترین هستند.
در این پایان نامه، ساختار آزمون انطباقی کامپیوتری شرح داده خواهد شد که با ترکیب روشهای استفاده شده توسط دیگران و تغییری در پیادهسازی آنها ساخته می شود، پارامترهای مطرح شده در نظریه سوال پاسخ برای انتخاب سوال کافی نمی باشد و نیاز به ویژگیهای دیگری در این تابع است، به همین منظور ساختار سوال را با بهره گرفتن از موضوع، مبحث و مفهوم ایجاد کرده و سوالات با این دستهبندی از بانک سوالات انتخاب میشوند و در صورتی که آزموندهنده در مفهومی قوی بود، میتوان آن مفهوم را کنار گذاشته و به مفهوم دیگری مراجعه کرد.
مسئله مهم دیگری که در انتخاب سوالات آزمون انطباقی کامپیوتری باید به آن توجه کرد، برآورد و تخمین سطح دانش آزموندهنده است. روشهای مختلفی برای این برآورد وجود دارد که میتوان به اطلاعات فیشر، روش نیوتن-رافستر ، شبکه های بیزین و شبکه عصبی اشاره نمود. در این پایان نامه این برآورد با بهره گرفتن از سه مدل شبکه عصبی که عبارتند از شبکه عصبی هرس جامع، شبکه عصبی پرسپترون چند لایه و شبکه عصبی تابع پایه شعاعی. در این پایان نامه، این سه مدل شبکه عصبی را پیادهسازی و با بهره گرفتن از نتایج بدست آمده مقایسه خواهند شد.
این پایان نامه بدین صورت سازماندهی شده است. در فصل دوم در مورد آزمون انطباقی کامپیوتری بحث خواهد شد و در فصل سوم مباحث مرتبط با آزمون انطباقی کامپیوتری که شامل نظریه سوال پاسخ، شبکه های بیزین و کاربرد آن در آزمون انطباقی کامپیوتری و در آخر شبکه های عصبی، بحث خواهد شد. در فصل چهارم روش پیشنهاد شده شرح داده خواهد شد و در فصل پنجم در مورد پیادهسازی روش پیشنهادی صحبت می شود. در فصل ششم، مقایسات و نتیجه گیریها و کارهای آینده صحبت خواهد شد.
فصل دوم : آزمون انطباقی کامپیوتری
مقدمه
«آزمون انطباقی کامپیوتری» توسط لرد (۱۹۷۱) ، اوون (۱۹۷۵)، و وایس (۱۹۷۶)، در میان دیگران، برای اندازه گیری سطح توانایی آزموندهندهها با دقت بیشتر از آزمونهای معمولی و با ساخت یک آزمون فردی برای هر آزموندهنده، پیشنهاد شد [۱].
«آزمون انطباقی کامپیوتری» از نوع آزمون توسعه یافته برای افزایش بهرهوری برآورد دانش آزموندهنده است. هدف اصلی «آزمون انطباقی کامپیوتری»، بهینه کردن فرایند یادگیری آزموندهنده است [۲]. که برآورد را با انتخاب سوالها برای آزموندهنده بر اساس پاسخهای خود (بنابراین اغلب به آن، آزمون مناسب[۱] گفته می شود) در طول مدت آزمون قبلی به دست آورد. درجه دشواری سوال بعدی به طوری انتخاب می شود که برای آزموندهنده نه خیلی سخت باشد و نه خیلی آسان. بطور دقیقتر، سوال طوری انتخاب می شود که آزموندهنده با احتمال ۵۰ درصد سوال را به درستی پاسخ دهد. البته، سوال اول نمیتواند از این راه تعیین شود چرا که در این نقطه هیچ چیز شناخته شدهای در مورد قابلیت های امتحان بدست نیامده است (سوال با دشواری متوسط انتخاب می شود)، اما انتخاب از سوال دوم به بعد را میتوان برای هر آزموندهنده با سازگاری بهتر انتخاب نمود. با هر پاسخ به سوال ، کامپیوتر به طور بهتری می تواند ارزیابی دانش آزمونگر را انجام دهد.
انواع سنجش انطباقی
نظریه رایت و داگلاس [۳]
رایت و داگلاس (۱۹۷۵) سنجش انطباقی را که در آن سوالها بر اساس سطح دشواری الگوی منطقی راش مقیاس بندی شده بودند پیشنهاد کردند. آنها در این روش به آزمودنی اجازه می دهند سوالاتی را که می خواهند پاسخ دهد، خود انتخاب کند. به آزمودنی آزمونی ارائه می شود که در آن سوالات بر اساس افزایش درجات دشواری مرتب شده اند و به او گفته می شود که کار خود را با پاسخ دادن به سوالهایی دشوارتر و آسانتر ادامه دهد. نمره آزمودنی برابر است با تعداد سوالهایی که او درست پاسخ داده است، به اضافه تعداد سوالهایی که از نظر او ساده بوده و ارزش پاسخ دادن را نداشتهاند.
سنجش دو مرحله ای [۴]
نوع دیگر سنجش انطباقی، سنجش دو مرحله ای است. نمره آزمودنی در یک آزمون (معمولاً یک آزمون کوتاه جایگزین یک آزمون کوتاه معمولی) تعیین می کند که کدام سطح از آزمون دو مرحله ای باید پذیرفته شود. در برخی از موارد، در آزمون جایگزین، نمره آزمودنی فقط برای ارزشیابی دومین مرحله آزمون به کار برده می شود؛ نه به عنوان بخشی از برآورد نمره واقعی یا مقدار ویژگی آزمودنی. روش لرد (۱۹۶۹)بدین گونه است که اجرای آزمون عادی، با برآورد حاصل از اجرای دومین مرحله ترکیب می شود. لرد با بهره گرفتن از مطالعه شبیهسازی، اطلاعات توابع ترکیبهای مختلف طرحهای آزمون عادی و دومین مرحله را مورد بررسی قرار داده است. روش سنجش دو مرحله ای در برآورد ویژگی های افراطی بر سنجش تک مرحله ای مرسوم برتری دارد، اما برای برآورد ویژگیهایی که در حد متوسط قرار دارند، مفید نیستند.
بر اساس کامپیوتر
یک روش پیچیدهتر سنجش انطباقی استفاده از کامپیوتر در انتخاب سوال، ضمن پاسخگویی آزمودنی به هر سوال است (سنجش به کمک کامپیوتر). زمانی که آزمودنی به سوال پاسخ درست میدهد، بر اساس فرمول خاصی سوال مشکلتری به او ارائه می شود. چنانچه به سوال پاسخ غلط داده شود سوال اسانتری پیشنهاد می گردد. انتخاب سطح دشواری سوالهای متوالی بر اساس عملکرد آزمودنی در هر مرحله صورت می گیرد. دشواری سوال i+1، به نحوی انتخاب می شود که اندازه مرحله نامیده می شود. اندازه مرحله تفاوت بین دو درجه دشواری سوال است. در برخی از روشها، کاهش طول مرحله از اندازه های مرحله بزرگ شروع می شود و به تدریج اندازه مرحله کاهش مییابد و این روند ادامه مییابد تا موقعی که سطح دشواری آزمون همتا می شود. مثلاً در ابتدا سوالی با درجه دشواری ۱ به آزمودنی ارائه می شود وسپس در صورت پاسخ صحیح دادن سوالی با درجه دشواری ۱.۵ ارائه می شود(یعنی اندازه مرحله ۰.۵) میباشد، سپس سوال بعدی با درجه دشواری ۱.۹ ارائه می شود(اندازه مرحله ۰.۴) دشواری سوال بعدی ۲.۲ (اندازه مرحله ۰.۳) و الی آخر. در اینجا به تدریج اندازه مرحله کمتر شده است اما دقت اندازه گیری بیشتر شده است. در آزمون های دیگر، اندازه مرحله ممکن است در کلیه مراحل ثابت نگه داشته شود. مثلاً ابتدا سوالی با درجه دشواری ۱ به آزمودنی ارائه می شود وسپس در صورت پاسخ صحیح دادن سوالی با درجه دشواری ۱.۵ ارائه می شود (یعنی اندازه مرحله ۰.۵) میباشد، سپس سوال بعدی با درجه دشواری ۲ ارائه می شود (اندازه مرحله ۰.۵) دشواری سوال بعدی ۲.۵ (اندازه مرحله ۰.۵) و الی آخر. در اینجا به همه سوالات با یک اندازه مرحله ۰.۵ ارائه میشوند. و روش کاهش طول مرحله، برآورد خوبی از ویژگی مورد اندازه گیری به دست میدهد؛ با وجود این، برای انتخاب سوالهای مورد نظر وجود بانک وسیعی از سوالها الزامی است. مثلاً اگر یک آزمودنی به N سوال پاسخ دهد، سوال لازم است. برای N=5 در بانک سوالها، باید حداقل ۳۲ سوال، و برای N=10 حدود ۱۰۲۴ سوال لازم است. دستیابی به چنین بانک گسترده ای به ندرت امکان پذیر است. در صورتی که روش ثابت نگه داشتن اندازه مرحله به کار برده شده دقت برآورد ویژگی برای Nهای همانند، از روش کاهش طول مرحله کمتر است. برخی از مزایای «آزمون انطباقی کامپیوتری» به شرح زیر است [۵].
آزمون به محض درخواست انجام می شود و نمره بلافاصله در دسترس خواهد بود.
نه برگه پاسخ تست و نه مدیران آموزش دیده مورد نیاز هستند. و اشتباهات آزمونگیرنده نیز در سنجش خطا از بین میرود.
آزمونی که به صورت مراحل جداگانه انجام می شود، آزموندهنده لازم نیست برای رفتن به بخش بعد برای دیگران صبر کند تا همه آن بخش را به پایان برسانند و بصورت خودکار نیز زمان بیشتری را برای داوطلبان که به آن نیاز دارند، مدیریت می کند و به طور بالقوه سبب کاهش یک منبع از اضطراب امتحان می شود.
امنیت آزمون بالاتر است، چون هرگز نمی شود جزوات آزمون را کپی نمود.
آزمون کامپیوتری تعداد بیشتری از گزینه ها را برای زمان بندی و قالب بندی ارائه می دهد. بنابراین به طور بالقوه طیف وسیعتری از انواع آیتم قابل استفاده است.
«آزمون انطباقی کامپیوتری» می تواند موجب کاهش زمان آزمون به بیش از ۵۰ ٪ با حفظ همان سطح از قابلیت اطمینان، شود. بنابراین زمان کوتاهتر آزمون، خستگی را کاهش داده و میزان قابل توجهی نتایج آزمون آزمون دهنده را نیز تحت تاثیر قرار میدهد.
«آزمون انطباقی کامپیوتری» می تواند نمره دقیق بیش از یک طیف گسترده ای از توانائیها را فراهم آورد، در حالی که آزمونهای سنتی معمولا متوسط توانائی آزموندهندهها را فراهم می آورد.