Вопрос: Какой язык программирования вы предпочитаете
|
Иллюстрированный самоучитель по SPSS
16.5 Мультиномиальная логистическая регрессия
Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.
Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.
Для представления метода мольтиномиальной логистической регрессии был сначала
взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.
достройте частотные таблицы для четырёх переменных, находящихся в этом файле:
Alter (Возраст)
|
|
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
|
Valid (Действи- тельное значение) |
bis 45 Jahre (До 45 лет) |
1306 |
50,1 |
50,1 |
50,1 |
|
ueber 45 Jahre (Свыше 45 лет) |
1301 |
49,9 |
49,9 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)
|
|
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
|
Valid (Действи- тельное значение) |
eher links (Скорее левый) |
740 |
28,4 |
28,4 |
28,4 |
|
Mitte (Центрист) |
1212 |
46,5 |
46,5 |
74,9 |
|
eher rechts (Скорее правый) |
655 |
25,1 |
25,1 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Schicht (Прослойка)
|
|
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
|
Valid (Действи- тельное |
Unterschicht (Нижняя прослойка) |
879 |
33,7 |
33,7 |
33,7 |
|
значение) |
Mittelschicht (Средняя прослойка) |
1477 |
56,7 |
56,7 |
90,4 |
|
|
Oberschicht (Верхняя прослойка) |
251 |
9,6 |
9,6 |
100,0 |
|
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Schulbildung (Школьное образование)
|
|
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
|
Valid (Действи- тельное значение) |
Hauptschule (Неполное среднее) |
1499 |
57,5 |
57,5 |
57,5 |
|
Mittlere Reife (Среднее) |
610 |
23,4 |
23,4 |
80,9 |
|
Abitur (Атестат зрелости) |
498 |
19,1 |
19,1 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Мы хотим рассмотреть переменную polire (Политическая принадлежность к левым или правым) как зависимую переменную, а три остальные — как независимые переменные (факторы). В первом примере в качестве независимой переменной мы возьмем только переменную "Alter" (Возраст). Прежде всего построим таблицу сопряженности для этих двух переменных.
Переменной alter присвойте статус строчной переменной, a polire — столбцовой переменной, и через выключатель Cells... (Ячейки) активируйте вывод процентных показателей для ячеек.
Alter * Politische Links-Rechts-Einschfltzung Crosstabulation
(Возраст * Политическая принадлежность к левым или правым
- таблица сопряженности)
|
|
Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым
или правым) |
Total (Сумма) |
|
eher links (Скорее левый) |
Mitte
(Цент- рист) |
eher rechts (Скорее правый) |
|
Alter (Воз-раст) |
bis 45 Jahre (До 45 лет) |
Count (Коли- чество) |
446 |
615 |
245 |
1306 |
|
% of Total (% от возраста) |
34,2% |
47,1% |
18,8% |
100,0% |
|
ueber 45 Jahre (Свыше 45 лет) |
Count % of Total (Коли- чество) |
294 |
597 |
410 |
1301 |
|
(% от возраста) |
22,6% |
45,9% |
31,5% |
100,0% |
|
Total (Сум- ма) |
|
Count (Коли- чество) |
740 |
1212 |
655 |
2607 |
|
% of Total (% от возраста) |
28,4% |
46,5% |
25,1% |
100,0% |
Для младшей возрастной категории политическое самоопределение имеет тенденцию склонения симпатий к левым партиям, а для старшей — скорее к правым. Рассмотрим простую мультиномиальную логистическую модель, которая отражает взаимосвязь между политическим самоопределением и возрастом.
Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:
Нахождение коэффициентов b10, b11,
b20 и b21 (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Первая цифра индекса указывает на номер логита, а вторая на порядковый номер коэффициента в данном логите, причём цифра 0 на второй позиции индекса означает константу, за которой далее следует ровно столько коэффициентов, сколько независимых переменных (факторов) взято в рассмотрение. Коэффициентам последней (эталонной) категории присваивается значение 0.
Переменная Alter (Возраст), как единственная независимая переменная, имеет две категории, одна из которых рассматривается как эталонная, ее коэффициенты принимаются равными 0.
Откроется диалоговое окно Multinomial Logistic Regression (Мультиномиальная логистическая регрессия).
Откроется диалоговое окно Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики)
Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)
Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)
Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.
Parameter Estimates (Оценки параметров)
|
Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым
или правым) |
В |
Std. Error (Станда- ртная ошибка) |
Wald (Вальд) |
df (Сте-пень сво- боды) |
Sig. (Значи- мость) |
Ехр(В) |
95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для
Ехр(В)) |
|
Lower Bound (Нижний предел) |
Upper Bound (Верхний предел) |
|
|
eher links (Скорее левый) |
Intercept (Постоян- ное слага- емое) |
-,333 |
,076 |
18,938 |
1 |
,000 |
|
|
|
|
[ALTER= 1,00] |
,932 |
,110 |
71,353 |
1 |
,000 |
2,539 |
2,045 |
3,151 |
|
[ALTER= 2,00] |
Оа |
0 |
|
0 |
|
, |
|
|
|
Mitte (Цен-трист) |
Intercept (Постоян- ное слага-емое) |
,376 |
,064 |
34,320 |
1 |
,000 |
|
|
|
|
[ALTER= 1,00] |
,545 |
,099 |
30,198 |
1 |
,000 |
1,724 |
1,420 |
2,094 |
|
rALTER= 2,00] |
0" |
0 |
|
0 |
|
|
|
|
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, т.к. он является дублирующим)
Из таблицы можно взять следующие значения для
b-коэффициентов:
b10 =-0,333
b11 (до 45 лет) = 0,932
b20 = 0,376
b21 (до 45 лет) = 0,545 1
Таким образом, для возрастной группы до 45 лет получим
g1 = -0,333 + 0,932 = 0,599
g2 = -0,376 + 0,545 = 0,921
и следовательно
Для дублирующего логита по правилам вычисления логарифма справедливо
К примеру, в возрастной категории до 45 лет вероятность быть более склонным к тевым течениям в 1,820 раз выше вероятности склонности к правым течениям. Такой
же расчёт можно произвести и для другой возрастной категории; в данном случае будут отсутствовать коэффициенты
b11 и b21, т.к. они приравниваются к нулю.
Следует отметить, что прямое определение вероятности для трёх категорий политической самооценки, интересней, чем соотношение этих вероятностей между собой. Для каждой i-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:
Здесь для большей удобочитаемости экспоненциальная функция обозначена как ехр.
n указывает на число категорий (здесь n=3).
Для возрастной группы до 45 лет для трёх категорий политической самооценки получатся следующие вероятности:
Стало быть, для отдельного человека, принадлежащего к возрастной группе до 45 лет вероятность склонения политической самооценки в сторону левых составляет, 0,341 или 34,1 %, в сторону центристов 47,1 % и в сторону правых 18,8 %. Внимательный читатель может заметить, что эти числа соответствуют процентным показателям таблицы сопряженности для возраста и политической самооценки. Таким образом, в случае наличия лишь одной независимой переменной легко удостовериться в правдоподобности расчётов, производимых при мультиномиальной логистической регрессии.
Для возрастной группы свыше 45 лет расчёты будут выглядеть следующим образом:
g1 = - 0,333 + 0 = - 0,333
g2 = 0,376 + 0 = 0,376
gз=0
ехр (g1) - ехр (-0,333) = 0,717
ехр (g2). ехр (0,376) = 1,456
ехр (g3) = ехр (0) = 1
Если выразить полученные показатели в процентах, то и здесь так же наблюдается полное согласование с соответствующими процентными показателями таблицы сопряженности.
Следует отметить, что только в случае наличия лишь одной независимой переменной, как в приведённом примере, проведение расчёта с применением столь громоздкого метода, как многозначная логистическая регрессия, является достаточно бессмысленным — все соотношения могут быть выяснены
проще, при помощи таблиц сопряженности. Поэтому мы введем в рассмотрение ещё одну дополнительную переменную — переменную schule (образование).
-
В диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) поместите переменную schule вместе с переменной alter в поле факторов.
-
В диалоговом окне Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики) активируйте дополнительные опции Cell probabilities (Вероятность по ячейкам) и Likelihood ratio test (Тест отношения правдоподобия) и начните расчёт вновь.
Таблица теста коэффициентов правдоподобия содержит изменения функции правдоподобия для случая, когда исключается соответствующий главный действующий фактор; эти изменения выражаются через соответствующие значения теста %2 (хи-квадрат). Выдаваемый уровень значимости р < 0,001 указывает на то, что оба фактора (возраст и школьное образование) оказывают очень значимое влияние на зависимую переменную (политическая самооценка).
Model Fitting Information (Информация о приближении, обеспечиваемой моделью)
|
Model (Модель)
|
-2 Log likelihood (-2 логарифми- ческое правдопо- добие)
|
Chi-square (Хи-квадрат)
|
df (степень свободы)
|
Sig.
(Значи- мость)
|
|
Intercept Only (Только постоянное слагаемое)
|
252,208
|
|
|
|
|
Final (Оконча- тельно)
|
93,429
|
158,779
|
6
|
,000
|
Likelihood Ratio Tests (Тест отношения правдоподобия)
|
(Результат)
|
-2 Log Likelihood of Reduced Model (-2 логарифми-ческое правдоподобие
для сокращённой модели)
|
Chi-square (Хи-квадрат)
|
df (Степень свободы)
|
Sig. (Значи- мость)
|
|
Intercept (Постоянное слагаемое)
|
93,429
|
,000
|
0
|
•
|
|
ALTER (Возраст)
|
171,496
|
78,067
|
2
|
,000
|
|
SCHULE (Образо- вание)
|
178,489
|
85,060
|
4
|
,000
|
The chi-square statistic is the difference in -2 tog-likelihoods between the final model :-~d a reduced model. The reduced model is formed by omitting an effect from the
final model. The null hypothesis is that all parameters of that effect are 0 (Статистика
хи-квадрат отображает различие -2 логарифмического правдоподобия между
окончательной моделью и усеченной моделью. Суть расчёта усеченной модели
сводится к тому, что из окончательной модели исключается один фактор влияния.
Нулевая гипотеза соответствует обнулению всех параметров параметрических
оценок данного фактора влияния).
Таблица (b — коэффициентов) выглядит следующим образом.
|
Parameter Estimates (Оценки параметров) |
| Politische
Links-Rechts-Einschaetzung Политическая принадлежность к левым пли правым)
|
В |
Std. Error (Стан- дартная ошибка) |
Wald (Вальд) |
df (Сте-пень сво-боды) |
Sig. (Значи- мость) |
Exp (В) |
95% Confidence Interval for Exp(B) (95 % довери- тельный интервал для
Ехр(В)) |
|
Lower Bound (Ниж-ний пре-дел) |
Upper Bound (Верх-ний пре-дел) |
|
eher links (Ско- рее левый) |
(Посто-янное слага-емое) |
-,129 |
,137 |
,8feO |
1 |
,345 |
|
|
|
|
[ALTER= 1,00] |
,952 |
,117 |
66,600 |
1 |
,000 |
2,591 |
2,061 |
3,256 |
|
ALTER= 2,00] |
Oa |
0 |
|
0 |
|
, |
, |
|
|
SCHULE= 1,00] |
-,179 |
,142 |
,592 |
1 |
,207 |
,836 |
,632 |
1,104 |
|
SHULE= 2,00] |
-,480 |
,158 |
9,249 |
1 |
,002 |
,619 |
,454 |
,843 |
|
[SHULE= 3,00] |
0" |
0 |
l |
0 |
|
, |
, |
|
|
Mine (Цент-рист) |
(Постоян-ное слага-емое) |
-,236 |
,137 |
2,982 |
1 |
,084 |
|
|
|
|
[ALTER= 1,00] |
,766 |
,106 |
52,174 |
1 |
,000 |
2,152 |
1,748 |
2,939 |
|
[ALTER= 2,00] |
Oa |
0 |
|
0 |
, |
|
|
|
|
[SCHULE= 1,00] |
,802 |
,141 |
32,539 |
1 |
,000 |
2,231 |
1,693 |
2,939 |
|
[SHULE= 2,00] |
,149 |
,155 |
,922 |
1 |
,337 |
1,161 |
,856 |
1,574 |
|
[SHULE= 3,00] |
Oa |
0 |
, |
0 |
, |
, |
, |
, |
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, так как он является дублирующим)
В качестве примера определим вероятности для политической самооценки отдельного человека, принадлежащего к возрастной группе свыше 45 лет с неполным средним образованием. Для этого по аналогии с предыдущим примером произведём следующие вычисления:
g1 = - 0,129 + 0 - 0,179= - 0,308
g2 = - 0,236 + 0 + 0,802 = 0,566
gз= 0
exp (g1) = 0,735
exp (g2) = 1,761
exp (g3) - 1

Если перевести данные результаты в процентные показатели, то они будут означать, что среди граждан в возрасте свыше 45 лет с неполным средним образованием 21,0 % симпатизируют левым политическим течениям, 28,6 % правым, а 50,4 % остаются по центру.
Нет необходимости вычислять процентные показатели вероятностей самостоятельно. Вы можете взять их из следующей таблицы, отображающей наблюдаемые и прогнозируемые частоты:
|
Observed and Predicted Frequencies (Наблюдаемые и прогнозируемые частоты)
|
|
Schulb-ildung (Образо- вание) |
Alter (Возраст) |
Politische Links-Rechts-Einschfltzung (Политическая левая или правая принадлежность)
|
Frequency (Частота) |
Percentage (Процент) |
|
Observed (Наблю-даемая) |
Predicted (Прогно-зируемая) |
Pearson Residual (Остаток Пирсона) |
Observed (Набл-юдаемый) |
Predicted (Прогно-зируемый) |
|
Haupt- schule (Непол-ное среднее) |
bis 45 Jahre (До 45 лет) |
eher links (Скорее левый) |
143 |
157,488 |
-1,365 |
25,8% |
28,4% |
|
Mitte (Центрист) |
312 |
313,760 |
-,151 |
56,3% |
56,6% |
|
eher rechts (Скорее правый) |
99 |
82,752 |
1,937 |
17,9% |
14,9% |
|
ueber 45 Jahre(Свыше 45 лет) |
eher links (Скорее левый) |
213 |
198,512 |
1,157 |
22,5% |
21,0% |
|
Mitte (Центрист) |
478 |
476,240 |
,115 |
50,6% |
50,4% |
|
eher rechts (Скорее правый) |
254 |
270,248 |
-1,170 |
26,9% |
28,6% |
|
Mifflere Reife (Сред-нее) |
bis 45 Jahre (до 45 лет) |
eher links (Скорее левый) |
129 |
131,561 |
-,271 |
31,5% |
32,2% |
|
Mitte (Центрист) |
192 |
184,113 |
,784 |
46,9% |
45,0% |
|
eher rechts (Скорее правый) |
88 |
99,326 |
-,628 |
21,5% |
22.8% |
|
ueber 45 Jahre(Свыше 45 лет) |
eher links (Скорее левый) |
47 |
44,439 |
,435 |
23,4% |
22.1% |
|
Mitte (Центрист) |
67 |
74,887 |
-1,151 |
33,3% |
37,3% |
|
eher rechts (Скорее правый) |
87 |
81,674 |
,765 |
43,3% |
40,6% |
|
Abitur (Аттестат зрелости) |
bis 45 Jahre (до 45 лет) |
eher links (Скорее левый) |
174 |
156,952 |
1,848 |
50,7% |
45,8% |
|
Mitte (Центрист) |
111 |
117,127 |
-,698 |
32,4% |
34,1% |
|
eher rechts (Скорее правый) |
58 |
68,922 |
-1,472 |
16,9% |
20,1% |
|
ueber 45 Jahre(Свыше 45 лет) |
eher links (Скорее левый) |
34 |
51,048 |
-2,914 |
21,9% |
32,9% |
|
Mitte (Центрист) |
52 |
45,873 |
1,078 |
33,5% |
29,6% |
|
eher rechts (Скорее правый) |
69 |
58,078 |
1,812 |
44,5% |
37,5% |
The percentages are based on total observed frequencies in each subpopulation (Процентные показатели основываются на наблюдаемых суммарных частотах для каждой частичной совокупности).
Теперь вы можете видеть, что наблюдаемые и прогнозированные значения оказались рассогласованными. Это произошло потому, что теперь в модель входят только главные факторы влияния, а не взаимодействия.
Откроется диалоговое окно Multinomial Logistic Regression: Model (Мультиномиальная логистическая регрессия: Модель).
Вы можете включить в расчёт все главные факторы влияния и взаимодействия, если вместо предварительно установленной по умолчанию опции Main effects (Основные эффекты) активируете опцию Full factorial (Полнофакторная модель). При помощи опции Custom (Пользовательский режим), Вы можете отобрать включаемые в расчёт факторы влияния.
В таблице оценки параметра теперь находятся и взаимодействия. Если Вы обратите внимание на наблюдаемые и ожидаемые частоты, то заметите, что теперь они совпадают.
Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)
|
|
|