<<
>>

Математико-статистические теории анализа тестовых заданий

Исторически выделяют два основных подхода к созданию теста и интерпретации результатов его выполнения: классическую теорию

статистической обработки тестовых результатов и современные методы статистического анализа в методике оценивания результатов тестирования (IRT).

На современном этапе развития методики обучения иностранным языкам, в частности в лингводидактическом тестировании, широко используются методы статистической и математической обработки результатов тестирования, которые требуют детального рассмотрения в нашем исследовании. Данные методы позволяют тестологу объективно оценить как уровень сформированности иноязычной компетенции учащихся, так и сами тестовые задания.

1.3.1. Классическая теория статистической обработки тестов

Как указывалось выше, создателем классической теории

статистического анализа является известный британский психолог, автор факторного анализа Чарльз Эдвард Спирмен (Spearman, 1910).

Большой вклад в развитие классической теории статистического анализа внес Льюис Гуттман. Наиболее всесторонним и полным считается изложение классической теория тестов в фундаментальном труде Гарольда Гулликсена (Gulliksen, 1950). С тех пор теория несколько видоизменилась, в частности совершенствовался математический аппарат. Современный вариант изложе­ния классической теории тестов принадлежит Крокеру (Crocker, Aligna, 1986). Из отечественных исследователей впервые эту теорию описал В. С. Аванесов (Аванесов, 1989). В работе М. Б. Челышковой (Челышкова, 2002) можно почерпнуть информацию о статистическом обосновании качества теста (Павловская, Башмакова, 2007).

В подходе, получившем развитие в рамках классической теории тестов, уровень знаний тестируемых оценивается с помощью их индивидуальных баллов. Балл тестируемого вычисляется как алгебраическая сумма оценок выполнения каждого задания теста. Тестовые баллы тестируемых обычно группируются вблизи наиболее вероятных значений, поэтому при анализе результатов тестирования необходимо оценить меры центральной тенденции всех результатов, которые получены при выполнении теста, — среднее выборочное (среднее арифметическое), моду и медиану.

Среднее выборочное (среднее арифметическое) — одна из наиболее распространенных мер центральной тенденции, представляющая собой сумму всех значений, поделенную на их количество (Павловская, Башмакова, 2007). Среднее арифметическое характеризует всю совокупность значений, так как на его величину влияют значения всех результатов, а следовательно, зачастую крайние значения (слишком маленькое или, наоборот, слишком большое значение) искажают представления о наиболее вероятном значении. Например: 0, 18, 18, 19, 19, 21, 23. Среднее арифметическое с учетом значения 0 будет 16.85, а без учета 19.6. Этого недостатка лишены мода и медиана (Гольдберг, Козлова, 1985).

Мода — это такое значение, которое встречается наиболее часто среди результатов выполнения теста (Павловская, Башмакова, 2007).

Соглашения об использовании моды (Глас, Стэнли, 1976):

1) Мода отсутствует, если все значения для данной выборки встречаются с одинаковой частотой. Например: 1, 1, 1, 4, 4, 4, 8, 8, 8.

2) Если два соседних значения встречаются одинаково часто, но чаще других значений, то мода будет равна среднему этих двух значений (Гольдберг, Козлова, 1985). Например: 2, 4, 7, 7, 25, 25, 25, 25, 26, 26, 26, 26, 30, 31, 40, мода равна 25,5.

3) Если два несмежных значения в группе встречаются одинаково часто, но чаще других значений, то существуют две моды. Такое распределение оценок является бимодальным (Наследов, 2008). Например: 4, 8, 8, 8, 9, 11, 14, 19, 19, 19, моды 8 и 19.

Наибольшей модой в группе называется единственное значение, удовлетворяющее определению моды. Стоит отметить, что во всей группе

может быть несколько меньших мод. Эти моды представляют собой локальные максимумы распределения частот (Ким, 2007).

Медиана — это значение, которое находится посередине упорядо­ченного множества данных так, что одна половина значений оказывается больше медианы, а другая — меньше. (Павловская, Башмакова, 2007). В случае четного количества различных значений медиана высчитывается как среднее арифметическое между двумя центральными значениями.

Например: 2, 4, 7, 7, 25, 25, 25, 25, 26, 26, 26, 26, 30, 31, 40, медиана равна 25.

Меры центральной тенденции используют для оценки качества теста при проведении апробации теста на репрезентативной выборке тестируемых (Павловская, Башмакова, 2007). Известно, что хороший нормативно­ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки участников (Гольдберг, Козлова, 1985). При этом в центре распределения находится среднее значение баллов, вокруг которого группируются остальные значения. Таким образом, в центре сосредоточено примерно 70% значений, а остальные постепенно уменьшаются к краям распределения, как это видно на рис. 5 (Наследов, 2008).

Рис. 5. Стандартное нормальное распределение (по: Наследов, 2008)

Если по результатам теста мы видим распределение баллов, близкое к нормальному, это означает, что на его основе можно определить среднее устойчивое значение баллов. Такое среднее значение корректно принять в качестве одной из репрезентативных норм выполнения теста (Павловская, Башмакова, 2007).

Для характеристик степени рассеяния отдельных значений вокруг среднего используются различные меры: размах, дисперсия, стандартное отклонение.

Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Редкое использование размаха связано с тем, что он является приблизительным показателем, так как учитывает только крайние значения в распределении баллов по тесту и не зависит от степени изменчивости промежуточных значений.

Более надежной мерой считается дисперсия, так как подсчет дисперсии основан на вычислении отклонений каждого значения показателя от среднего арифметического в распределении.

Формула для расчета дисперсии выглядит так (Ким, 2007):

где

Совокупность с большей неоднородностью будет иметь большие по модулю отклонения, и наоборот: для однородных распределений отклонения должны быть близки к нулю.

Знак отклонения указывает место результата ученика по отношению к среднему арифметическому по тесту. Если

просуммировать все отклонения, взятые со своим знаком, то для симметричных распределений сумма будет равна нулю.

Помимо дисперсии, для характеристики меры изменчивости распределения можно использовать еще один показатель вариации — стандартное отклонение. Стандартное отклонение равно корню квадратному из дисперсии.

где

Дисперсия играет важную роль в оценке качества нормативно­ориентированных тестов. Слабая вариация результатов тестируемых указывает на низкое качество теста (Челышкова, 2002). Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации тестируемых по уровню подготовки в группе, — а это прямо противоположна основной цели создания нормативно-ориентированного теста.

Излишне высокая дисперсия, характерная для случая, когда все учащиеся отличаются по числу выполненных заданий, свидетельствует о необходимости доработки теста.

Степень отклонения распределения наблюдаемых частот выборки от симметричного распределения, характерного для нормальной кривой, оценивается с помощью асимметрии (Глас, Стэнли, 1976; Гольдберг, Козлова, 1985).

Асимметрия устанавливается визуально при анализе полигона частот, или гистограммы (Наследов, 2008).

где

— анализируемый показатель,- среднее значение показателя, N — количество значений в анализируемой совокупности данных,

куб стандартного отклонения (по: Челышкова, 2002).

В случае симметричного распределения коэффициент асимметрии будет равен нулю.

При левосторонней асимметрии значение моды больше значения медианы, которая, в свою очередь, больше значения среднего арифметического; при правосторонней асимметрии наблюдается обратная зависимость: среднее арифметическое больше медианы, а медиана больше моды (Гольдберг, Козлова, 1985). Коэффициент асимметрии отрицателен при левосторонней асимметрии и положителен при правосторонней, то есть асимметрия распределения положительна, если основная часть значений индивидуальных баллов лежит справа от среднего значения, что обычно характерно для излишне легких тестов. Асимметрия распределения баллов отрицательна, если большинство студентов получили оценки ниже среднего

балла. Эффект отрицательной асимметрии встречается в излишне трудных тестах.

Помимо отклонения распределения частот от симметричного вида по отношению к среднему арифметическому необходимо определить, являются ли полигон частот, или гистограмма, островершинным или плосковершинным (Гольдберг, Козлова, 1985). Мерой островершинности графика распределения того признака, который измеряют, является эксцесс (Наследов, 2008).

где

Рис. 7. Распределение частот с разными значениями Ex (по: Наследов, 2008)

Нулевой эксцесс соответствует нормальному распределению, при величине эксцесса больше нуля наблюдается островершинное распределение, а если эксцесс лежит в пределах от -3 до нуля — плосковершинное распределение (Наследов, 2008).

Понятие «эксцесс» применимо лишь к унимодальным распределениям. Интерпретация результата, указывающего на крутизну кривой распределения, возможна в сравнительно небольшой окрестности моды и теряет свой смысл по мере удаления вдоль кривой.

В случае бимодального распределения необходимо рассматривать эксцесс в окрестности каждой моды. Бимодальное распределение указывает на то, что выборка студентов по результатам выполнения теста разделилась на две группы. Одна из них справилась с большинством легких заданий теста, а другая — с большинством трудных.

Наряду с исследованием распределения характеристик измеренного признака необходимо исследовать внутреннюю согласованность характеристик, которые описывают один и тот же признак, что удобно сделать при помощи вычисления коэффициента альфа Кронбаха.

Стандартизированный коэффициент альфа Кронбаха &st вычисляется по формуле (Клайн, 1994):

где

N — количество исследуемых компонентов, г — средний коэффициент корреляции между компонентами.

Также коэффициент можно вычислить по следующей формуле:

Несмотря на то, что альфа Кронбаха может принимать значения от 1 до да, только положительные значения поддаются интерпретации. Альфа Кронбаха сравнивает разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, это означает, что каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если получается случайный разброс при ответе на вопросы, коэффициент альфа Кронбаха будет равен 0. Тест в этом случае нельзя считать надежным. Если же все вопросы измеряют один и тот же признак, то коэффициент альфа Кронбаха в этом случае будет равен 1, и тест считается надежным. Ученые полагают, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.9 (Дружинин, 1997; Наследов, 2008).

После оценки характеристик теста в целом необходимо исследовать тестовые задания, в частности дискриминативность заданий теста. Дискриминативность заданий теста — способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно «максималь­ного» или «минимального» результата теста (Наследов, 2008; Павловская, Башмакова, 2007).

Любой ответ тестируемого на конкретное задание можно оценить по двухбалльной шкале — «верно» (1 балл), «неверно» (0 баллов). Сумма баллов

по всем пунктам представляет собой первичную («сырую») оценку. Мера со­ответствия успешности выполнения одной задачи всему тесту является пока­зателем дискриминативности заданий теста для данной выборки тестируемых и называется коэффициентом дискриминации (индексом дискриминации) (Ким, 2007):

где

х — среднее арифметическое всех индивидуальных оценок по тесту;

— среднее арифметическое оценок по тесту у тестируемых, пра­вильно выполнивших задание (в случае личностного опросника — соответ­ствие с «ключом»);

— среднеквадратическое отклонение индивидуальных оценок по те­сту для выборки;

— число тестируемых, правильно решивших задачу (или тех, чей ответ на данный пункт опросника соответствует «ключу»);

N — общее число тестируемых.

Также для вычисления коэффициента дискриминации можно использо­вать формулу (Павловская, Башмакова, 2007):

(RT - RB) / NT,

где

RT — количество правильных ответов в сильной группе; RB — количество правильных ответов в слабой группе; NT — количество тестируемых в сильной группе.

Коэффициент дискриминации (дифференцирующая способность) тестового задания — количественная характеристика способности тестового задания дифференцировать тестируемых по уровню их подготовленности.

Значения коэффициента дискриминации могут лежать в пределах от -1 до +1. Высокий положительный коэффициент дискриминации свидетельствует об эффективности деления тестируемых. Высокое отрицательное значение свидетельствует о непригодности данной задачи для теста, о ее несоот­ветствии суммарному результату. Коэффициент дискриминации является, по сути, показателем критериальной валидности отдельного тестового задания, поскольку определяется по отношению к внешнему критерию — суммарному результату. Считается, что коэффициент дискриминации не должен быть меньше 0.25 (Crocker, 1985). В соответствии со значением коэффициента дискриминации можно провести нормирование тестовых заданий в банке тестовых заданий.

Более точное представление о дискриминативности задания можно получить, посчитав коэффициент точечно-биссериальной корреляции (Че- лышкова, 2002).

Формула расчета коэффициента точечно-биссериальной корреляции (Челышкова, 2002):

где

mi и mo — средние значения Х со значением 1 или 0 по Y;

— стандартное отклонение всех значений по Х;

— количество значений Х с 1 или 0 по Y;

n — общее количество пар значений.

Расчет точечно-биссериальной корреляции является одним из видов проверки валидности (Челышкова, 2002).

Все эти величины, позволяющие оценить качество тестовых заданий и надежность теста в лингводидактическом тестировании, будут рассмотрены в главе 2.

Классическая теория статистического анализа основывается на том предположении, что эмпирически полученный результат измерения представляет собой сумму истинного результата измерения (T) и ошибки измерения (E); следует также учесть, что истинные и ложные компоненты не коррелируют (Ким, 2007).

Кроме этого, «основу классической теории статистической обработки тестовых результатов составляют два определения — параллельных и эквивалентных тестов» (Ким, 2007, с. 95). Истинные компоненты одного теста (Ti) должны быть равны истинным компонентам другого теста (T2) в каждой выборке тестируемых, отвечающих на оба теста. Предполагается, что Ti = T2 и, кроме того, равны дисперсии

Эквивалентные тесты должны соответствовать всем требованиям параллельных тестов за исключением одного: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на одну и ту же константу с.

Условие эквивалентности двух тестов записывается в следующем виде:

где ci2 — константа различий результатов первого и второго тестов.

Теория надежности тестов построна на основе приведенных выше поло­жений (Gulliksen, 1950; Lord, 1968).

Учитывая, что дисперсия полученных балловравна сумме дисперсий истинных компонентови ошибочных компонентов, после проведения несложных математических преобразований формула для вычисления надежности будет выглядеть следующим образом (Ким, 2007):

На основе этой формулы в последующем были предложены различные выражения для нахождения коэффициента надежности теста. Надежность теста представляет собой его важнейшую характеристику. Невозможно интерпретировать результаты тестирования, если неизвестна надежность. Надежность теста характеризует его точность как измерительного инстру­мента. Высокая надежность означает высокую воспроизводимость резуль­татов тестирования в одинаковых условиях.

В классической теории корреляционного анализа важнейшей проблемой является определение истинного тестового балла тестируемого (T). Эмпирический тестовый балл (X) зависит от многих условий — уровня трудности заданий, уровня подготовленности тестируемых, количества заданий, условий проведения тестирования и т. д. В группе сильных, хорошо подготовленных тестируемых результаты тестирования будут, как правило, лучше, чем в группе слабо подготовленных тестируемых.

В этой связи остается открытым вопрос, какова величина меры трудности заданий для данной генеральной совокупности тестируемых. Проблема связана с тем, что реальные эмпирические данные получают не на случайных выборках тестируемых, а, как правило, на тестируемых, входящих в состав учебных групп, представляющих собой множество учащихся, достаточно сильно взаимодействующих между собой в процессе обучения и обучающихся в условиях, часто не повторяющихся для других групп.

Выполнение статистической обработки результатов тестирования начинается с формирования матрицы тестовых результатов.

Матрица тестовых результатов щ — это матрица размерности N x M, содержащая числовые обозначения градации индикатора, связанного с изучаемой латентной переменной, где M — число индикаторов, N — число тестируемых. Эта матрица (таблица 1) представляет собой таблицу, строки которой соответствуют тестируемым, а столбцы — индикаторным переменным. На пересечении находится число, соответствующее ответу данного тестируемого на данное задание. В случае дихотомического оценивания: 1 — для верного ответа и 0 — для неверного ответа. Матрицу можно упорядочить как по строкам, так и по столбцам (таблица 2).

Таблица 1. Матрица результатов тестирования (по: Челышкова, 2002)
Номер Номер задания, j
испытуемого,

i

1 2 3 4 5 6 7 8 9 10
1 1 0 1 0 0 1 0 1 0 0
2 1 1 0 0 0 0 0 0 0 0
3 0 1 1 1 1 0 0 1 0 0
4 1 0 1 1 1 1 1 1 1 1
5 0 1 1 1 1 1 1 1 0 0
6 1 0 0 0 1 0 0 0 1 0
7 0 1 0 0 0 0 0 0 0 0
8 1 1 1 1 0 0 0 0 0 0

Таблица 2. Упорядоченная матрица данных тестирования (по: Челышкова, 2002)
Номер

испытуемого, i

Номер задания, j Индивидуальный

балл,

(множество Xi)

1 2 3 4 5 6 7 8 9 10
7 0 1 0 0 0 0 0 0 0 0 1
2 1 1 0 0 0 0 0 0 0 0 2
6 1 0 0 0 1 0 0 0 1 0 3
1 1 0 1 0 0 1 0 1 0 0 4
8 1 1 1 1 0 0 0 0 0 0 4
9 1 1 0 0 0 0 1 0 0 1 4
3 0 1 1 1 1 0 0 1 0 0 5
10 1 1 1 1 1 1 0 0 0 0 6
5 0 1 1 1 1 1 1 1 0 0 7
11 1 1 1 1 1 1 1 0 0 0 7
4 1 0 1 1 1 1 1 1 1 1 9
Число правильных ответов (множество R) 8 8 7 6 6 5 4 4 2 2 52

Важным параметром тестового задания является дисперсия тестовых баллов pjqj, где pj — доля тестируемых, правильно выполнивших j-е задание, qj, — доля тестируемых неправильно выполнивших j-е задание. Чем больше вариация, тем лучше задание дифференцирует тестируемых.

Таким образом, задание не может дифференцировать студентов по уровню подготовленности, если на него не ответил ни один участник или успешно ответили все.

Единообразие оценок выполнения достигается определением стати­стических норм теста, которые устанавливаются эмпирически по итогам выполнения теста репрезентативной группой тестируемых. Индивидуальные баллы, преобразованные в те или иные производные показатели, соотносятся с нормами. Это позволяет оценить положение тестируемого относительно нормативной выборки и определить достигнутый уровень обученности.

Несмотря на хорошо разработанный математический аппарат, классическая теория статистического анализа имеет ряд принципиальных недостатков. Так, тестовые баллы тестируемых зависят от трудности заданий в тесте, а трудность задания зависит от выборки тестируемых. Кроме того, в качестве недостатка классической теории статистического анализа можно выделить нелинейность тестовых баллов тестируемых, что делает невоз­можным анализировать качественные данные с помощью количественных методов (Ким, 2007).

Эффективность тестовых оценок в большой степени зависит от методов сравнения и интерпретации первичных («сырых») баллов тестируемых в группе, а не только от качества теста. Стремление исследователей выявить истинные различия в уровне знаний тестируемых приводит к необходимости разработки методов интерпретации, ведь «сырые» баллы не дают информации о реальном уровне знаний. Такие методы должны быть эффективны даже в том случае, если сравниваются результаты, полученные в результате проведения совершенно различных тестов. Один и тот же студент может казаться более слабым или более сильным в зависимости от уровня тестируемой группы.

Классическая теория статистического анализа тестов позволяет оценить тест в целом, его надежность и валидность, оценить каждое задание теста (по уровню сложности и дискриминативной способности), оценить выборку тестируемых (по успешности выполнения задания). Однако классическая теория статистического анализа не учитывает некоторые параметры тестирования — например, соотношения уровня сложности задания и уровня способности тестируемого. Эти и другие параметры рассматриваются в современной теории педагогических измерений (IRT), к изложению которой мы и переходим в следующем разделе.

1.3.2.

<< | >>
Источник: Сеничкина Ольга Авенировна. Методы оценивания сформированности иноязычной коммуникативной компетенции студентов-психологов (на материале английского языка). Диссертация, СПбГУ.. 2016

Еще по теме Математико-статистические теории анализа тестовых заданий:

  1. Малов Егор Андреевич. ФЕНОМЕН СОЦИАЛЬНЫХ СЕТЕЙ: АКТОРНО-СЕТЕВОЙ КОНТЕКСТ, ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЙ АНАЛИЗ. Диссертация, СПбГУ., 2014
  2. ПАНКИНА Марина Владимировна. ФЕНОМЕН ЭКОЛОГИЧЕСКОГО ДИЗАЙНА: КУЛЬТУРОЛОГИЧЕСКИЙ АНАЛИЗ. Диссертация на соискание ученой степени доктора культурологии, 2016
  3. Стрельцова Екатерина Александровна. Исследовательские гранты в поле современной науки (социологический анализ). Диссертация. СПбГУ,, 2014
  4. Лисанюк Елена Николаевна. Логико-когнитивная теория аргументации. Диссертация, СПбГУ., 2015
  5. КОЛЕСОВ Александр Семенович. ФИНАНСОВАЯ ПОЛИТИКА ГОСУДАРСТВА: МЕТОДОЛОГИЯ ОЦЕНКИ И ПОВЫШЕНИЯ РЕЗУЛЬТАТИВНОСТИ. Диссертация. СПбГУ, 2014
  6. ВАЩЕНКО Юлия Викторовна. ВНЕШНЯЯ ПОЛИТИКА БОЛИВИИ В ЭПОХУ ИНТЕГРАЦИИ: ПРОБЛЕМЫ И ПРОТИВОРЕЧИЯ., 2016
  7. Кононенко Виктор Михайлович. РАЗВИТИЕ ВЫСШЕГО ОБРАЗОВАНИЯ НА ЮГЕ РОССИИ (20-90-е годы XX века). Диссертация на соискание ученой степени доктора исторических наук., 2006
  8. Векшина Наталия Михайловна. МИССИОНЕРСКАЯ ДЕЯТЕЛЬНОСТЬ РУССКОЙ ПРАВОСЛАВНОЙ ЦЕРКВИ В СИБИРИ И НА ДАЛЬНЕМ ВОСТОКЕ ВО ВТОРОЙ ПОЛОВИНЕ XIX В. Диссертация. СПбГУ., 2014
  9. Сунарчина Мунира Мунировна. СОВРЕМЕННЫЕ ПРОФСОЮЗЫ В СИСТЕМЕ СОЦИАЛЬНОЙ ЗАЩИТЫ РАБОТНИКОВ (на примере Республики Башкортостан). Диссертация. СПбГУ., 2015
  10. Протопопов Иван Алексеевич. ПОНЯТИЕ НИЧТО И ПРИНЦИП НЕГАТИВНОСТИ В ГЕГЕЛЕВСКОМ АБСОЛЮТНОМ ИДЕАЛИЗМЕ. (Диссертация, Санкт-Петербургский государственный университет аэрокосмического приборостроения.), 2014
  11. Формулировка целей и задач исследования