برای مثال، اگر باشد، تعداد تکرارها (یعنی، تعداد CAT هایی که اجرا شده) در هر نقطهی ثابت میباشد، و ، میانگین برآوردهای در کل تکرار در میباشد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
اریب و میانگین مجذور خطا [۱۹۰](MSE)
این مقادیر توسط دو معادلهی (۲-۳۱) و (۲-۳۲) محاسبه میشود.
(۲-۳۱)
و
(۲-۳۲)
N تعداد محرکها میباشد و برآوردکنندهی j ام محرک با سطح توانایی میباشد.
اریب شرطی[۱۹۱] و میانگین مجذور خطای شرطی[۱۹۲] (CMSE)
این مقادیر توسط دو معادلهی (۲-۳۳) و (۲-۳۴)محاسبه میشوند:
(۲-۳۳)
و
(۲-۳۴)
که بهترتیب برای و برابر با برآورد کنندهی میباشد. این مقادیر به صورت میانگینهای شرطی خطاها و مجذور خطاهای برآوردهای نهایی در شبیهسازیها محاسبه میشود.
محاسبهی ضریب همبستگی بین تواناییهای برآورد شده و واقعی
این شاخص به منظور سنجش دقت برآورد تتا از طریق معادلهی (۲-۳۵) محاسبه میشود.
(۲-۳۵)
کجی توزیع نرخ مواجهه سؤال[۱۹۳]
آمارهی که توسط چانگ و یینگ (۱۹۹۹)، ارائه شده است، برای اندازهگیری میزان کجی توزیع مواجهه سؤال، به کار میرود. که آن توسط معادلهی (۲-۳۶) محاسبه میشود:
(۲-۳۶)
که
؛ نسبت نرخ مشاهده شدهی امین سؤال میباشد.
L ؛ طول آزمون میباشد، n ؛ تعداد سؤالات در خزانه میباشد.
معادله (۲-۳۶) اختلاف بین نرخهای مواجهه سؤال مشاهدهشده و ایدهآل را محاسبه میکند و این معادله مقدار اثربخشی استفاده از خزانهی سؤال را نیز تعیین میکند. مقدار پایین نشان میدهد که بیشتر سؤالات استفاده شدند. نسبت اندازههای از توزیع F پیروی میکند. همچنین میتوان برای مقایسهی نرخهای مواجهه سؤال در دو روش، معادلهی (۲-۳۷) را به کار برد:
(۲-۳۷)
اگر باشد، پس روش اول نسبت به روش دوم، از نظر تعادل کلی نرخهای مواجهه سؤال بهتر در نظرگرفته میشود.
درصد سؤالات بیش مواجهه شده[۱۹۴]
نرخ مواجهه یک سؤال را میتوان به عنوان نسب تعداد مشاهده شدهی اجراهای سؤال به تعداد کل آزمودنیها در نظر گرفت. درمجموع، سطح متوسط نرخ مواجهه سؤال مناسب میباشد. نرخ بالای مواجهه یک سؤال بدین معناست که خطر فاش شدن سؤال برای آزمودنیهای بعدی افزایش مییابد. اگر این چنین باشد، هم امنیت و هم اعتبار آزمون به دلیل نرخ بالای مواجهه سؤال مورد تهدید قرار میگیرد. بنابراین، درصد سؤالات بیش مواجهه شده، بهعنوان ملاک مهمی برای ارزیابی موفقیت برنامهی CAT در نظرگرفتهمیشود (هاو و چانگ[۱۹۵]، ۲۰۰۱).
درصد سؤالات کم مواجهه شده[۱۹۶]
نرخ کم مواجهه شدن یک سؤال بدین معناست که یک سؤال بندرت در برنامهی CAT مورد استفاده قرارگیرد. خزانهی سؤالی که دارای سؤالات بسیار زیادی میباشد که نرخ خیلی پایینی از مواجهه دارد، نشانهای از فایدهی کم خزانه میباشد. دو موضوع بهصرفهبودن طراحی سؤالات و مناسب بودن شیوهی انتخاب سؤالات، به دلیل نرخ مواجهه کم سؤال به چالش کشیده میشوند. نرخ مواجهه پایینتر از ۰۲/۰ به عنوان سؤال کم مواجهه شده درنظرگرفته میشود(هاو و چانگ، ۲۰۰۱).
نرخ همپوشی آزمون[۱۹۷]
نرخ همپوشی آزمون، عبارت است از، تعداد مورد انتظار سؤالات مشترکی که به دو آزمودنی که بهطور تصادفی نمونهگیری شدند، ارائه میشود، تقسیم بر طول مورد انتظار آزمون. بهطورایدهآل، تعداد سؤالات مشترک بین دو آزمودنی که به طور تصادفی نمونهگیری شدند، باید حداقل باشد. نرخ همپوشی آزمون میتواند به شیوهی زیر محاسبه شود:
(۱) شمارش تعداد سؤالات مشترک برای هر جفت از آزمودنیها. (۲) محاسبهی مجموع تمام . (۳). تقسیم تعداد کل شمارشها بر ، (چانگ و یینگ، ۱۹۹۹). معادلهی (۲-۳۸) محاسبات بالا را خلاصه میکند ( چن، آنکنمان، اسپری[۱۹۸]، ۱۹۹۹):
(۲-۳۸)
N تعداد طول ثابت CAT هایی که اجرا میشود را نشان میدهد، L، تعداد سؤالات در هر یک از CAT ها میباشد، n، تعداد سؤالات در خزانه میباشد، تعداد دفعاتی است که سؤال برای همهی N تعداد CAT اجرا میشود.
فصل سوم
روششناسی پژوهش
روششناسی پژوهش و طرح تحقیق
در این قسمت مدل CAT، طرح شبیهسازی CAT، شیوهی انجام تحقیق، جامعه و نمونه هم در مطالعهی عملیاتی و هم شبیهسازیشده، مجموعهای از ملاکهای استفاده شده برای ارزیابی عملکرد خزانهی سؤال بهینهی موردنظر، نرم افزارهای مورد استفاده به منظور شبیهسازی خزانهی سؤال بهینه و نرم افزارهای مورد استفاده برای مدرج کردن سؤالات شرح داده میشود.
مدل CAT عملیاتی
یک مدل CAT عملیاتی در یک مقیاس بزرگ به عنوان الگو یا محک ساخته شده است. این مدل از ویژگیهای زیر برخوردار است:
آزمون ریاضی (حسابان-دیفرانسیل) شامل یک آزمون ۲۰ سؤالی است که در آن وزن محتوایی سؤالات ارائه شده در نظر گرفته نشده است (این آزمون تنها به منزلهی اهداف پژوهشی اجرا شد). و یک آزمون ۶۰ سؤالی که در آن محتوای آزمون مهم میباشد. ( این تعداد سؤالات از تحقیقات، ریکیسی، ۲۰۱۰؛ هی و ریکیسی، ۲۰۱۰؛ گو و ریکیسی، ۲۰۰۷ گرفته شده است). آزمون ۶۰سؤالی شامل، ۲۵ سؤال حسابان (arithmetic)، ۱۵ سؤال جبر خطی (algebra) و ۲۰ سؤال هندسه (geometry) میباشد.
خزانهی سؤال مربوط به سؤالات حسابان شامل ۴۵۵ سؤال میباشد. همچنین، خزانهی سؤال مربوط به سؤالات جبر شامل ۲۰۸ سؤال است. و درپایان خزانهی سؤال مربوط به سؤالات هندسه نیز شامل ۲۵۸ سؤال است. سؤالات در هر سه قسمت از نوع چند گزینهای (چهار گزینهای) میباشند و همچنین، همهی سؤالات به صورت مستقل از یکدیگر طراحی شده اند و هیچ یک از سؤالات کاربرد مرحلهای یا زنجیرهای ندارند.
مدل IRT به کار رفته برای ساخت سؤالات، مدل سه پارامتری لوجستیک میباشد (لرد، ۱۹۸۰)، هر یک از سؤالات به صورت مستقل و با بهره گرفتن از نرم افزار BILOG-MG مدرج شده اند. (از آنجا که در عمل ساخت سؤالاتی برای چنین آزمونی بر اساس مدل یک یا دو پارامتری، با دشواری همراه بود، خزانهی سؤالات در CAT عملیاتی، بر اساس مدل سه پارامتری ساخته و مدرج شد).
اطلاعات مربوط به سؤالات اعم از برآورد پارامترهای سؤال، ویژگیهای روانسنجی کلاسیک سؤالات، طبقهبندیهای محتوایی (محتوا، کتاب، فصل، درس، صفحه)، طبقهی شناختی سؤالات و طراحان سؤال در یک سیستم بانک سؤال ذخیره شدند.
هر یک از سؤالات طوری طراحی شدند که هرکدام مفهوم کاملاً مستقلی نسبت به سؤالات دیگر بسنجند، از اینرو، به هر یک از سؤالات وزن محتوایی جداگانهای بر اساس نظر متخصصین محتوایی و موضوعی داده میشود. بنابراین، سؤالات بر اساس روش WDM برای اجرا انتخاب شدند.
توانایی اولیه برای هر فرد روی صفر تنظیم شد، و کامپیوتر به نحوی برنامهریزی شد که برای همهی افراد سؤال یکسانی که پارامتر باشد، اجرا کند.
برای بهدست آوردن برآورد اخیر توانایی هر آزمودنی قبل از اینکه دو پاسخ صحیح و غلط در الگوی پاسخ او مشاهده شود، از روش میانگین پسین (MAP) (اوون، ۱۹۷۵)، استفاده شد. پیشین مورد انتظار از توزیع نرمال پیروی میکند. پس از اینکه دو پاسخ صحیح و غلط در الگوی پاسخ مشاهده شد، برای برآورد توانایی از شیوهی بیشینهی درست نمایی (MLE) استفاده شد.
الگوریتم انتخاب سؤال به شیوهی بیشینهی آگاهی (MI) میباشد.
الگوریتم آزمون CAT طوری طراحی شد که طول تست برای آزمون تک محتوایی (حسابان-دیفرانسیل) ثابت و برابر با ۲۰ سؤال برای هریک از آزمودنیها باشد و برای آزمون ریاضی سه محتوایی (حسابان- دیفرانسیل، جبر و هندسه) بر اساس نظم و وزن محتوایی مشخص ۶۰ سؤال برای هر یک از آزمودنیها اجرا شد و پس از رسیدن به این تعداد آزمون متوقف شد.
در اجرای سؤالات در CAT عملیاتی، روش کنترل مواجهه سیمپسون-هتر با نرخ ۳۳/۰ بهکار رفت.
مقدار آگاهی هدف سؤالات بر اساس آگاهی سؤالات عملیاتی قرار گرفت، که بر اساس تحقیقات چنگ و چانگ (۲۰۰۹) گرفته شد.