О сайте | Правила | Форум | Тексты | Полезные ссылки | Местные люди | ЧаВо | "Табакерка" | Вакансии и объявления
Авторизация
e-mail
пароль
автологин
забыли пароль?
регистрация
Опрос

   результаты опросов

Поиск

расширенный поиск
Последние 20 реплик:
Re: взвешивать лучше, если сможете., Zapata
Re: взвешивать лучше, если сможете., Zapata
Re: Отсутствие репрезентативности выборки, ulloi
взвешивать лучше, если сможете., Kostya_Aizenberg
Re: Отсутствие репрезентативности выборки, Helga
Re: Помогите начинающему аналитику! Плохо групируются кластеры., Дима
Re: Программное обеспечение для онлайн опросов, Дима
Re: ОФФ: поздравляйте :), Дима
Re: Workshop по использованию инструмента для маркетинга, Lexa
Re: ОФФ: поздравляйте :), Алексей Макаров
Отсутствие репрезентативности выборки, Zapata
оса new line, ludok
Дегустации, sister
Re: Re: Дисперсия признака, sister
Re: Re: Дерево потребительских решений, podavan
Re: Дерево потребительских решений, coffee
Re: Программное обеспечение для онлайн опросов, xpg934
Дерево потребительских решений, podavan
Re: Ищу интервьюеров ждя написания диссертации, ulloi
Ищу интервьюеров ждя написания диссертации, Annabelle
Форум


«Легализация» факторов - MiNi (2010/01/14 15:50)
Коллеги, думаю, большинство из присутствующих на этом сайте выполняли такую не совсем корректную операцию, как факторный анализ на порядковых переменных. После этого обычно возникает бинарная переменная типа: «показывать заказчику – не показывать» или «публиковать – не публиковать» (с унизительной ссылкой на эвристический характер). Мне представляется, что выполнять ФА на порядковых переменных, конечно, стоит. Но потом надо корректно «легализовать» полученные факторы.
Как вы считаете, если мы выполним порядковую регрессию (независимые – полученные ранее факторы, зависимые – переменные, на которых факторы строились) и получим хорошее предсказание (или по Nagelkerke, или по Спирмену между переменной и прогнозом), то это будет «легализацией» факторов типа вручения им Green Card? Естественно при условии, что прогноз хороший. Не слишком уверен, что предложенный путь легализации корректен, но общее направление, по-моему, правильное.

Re: «Легализация» факторов - Stas' (2010/01/15 19:13)
(отредактировано 2010/01/15 19:14:15)
Ну во-первых, продолжу выступать с позиций утилитаризма и эмпиризма :)
Если факторный анализ на порядковых переменных дает хорошие результаты, это значит, что переменные удовлетворяют линейной модели. Значит, они не такие уж порядковые. Следовательно, вопроса о легализации вообще не стоит.
Во-вторых, Ваше предложение упирается в следующее обстоятельство. Методы анализа данных, предназначенные для порядковых шкал, как правило, будут давать хорошие результаты, если их будут давать линейные методы. Ведь при линейных зависимостях отношения порядка, естественно, сохраняются. Поэтому, если факторный анализ дает хорошие результаты, то и предложенные Вами методы почти автоматически дадут хорошие результаты. Что делает их применение бессмысленным.

Re: Re: «Легализация» факторов - MiNi (2010/01/15 21:43)
Как утилитарный эмпирик :) готов подписаться под каждым Вашим словом. Думаю, доброжелательный слушатель с Вами тоже согласится. Однако проблема в том, что доброжелатели среди коллег встречаются не часто. Недавно общался со знакомым выпускником Мехмата (кстати, он много сотрудничает с ВЦИОМом), он тоже говорил, что «Пирсонс на тринарных – это, вообще, непонятно что. Соответственно и ФА на них лишен всякого смысла». Интуитивно понятно, что утилитарист правильно все делает, но при желании «закопать» его работу очень легко.
Поэтому нужны обоснования не интуитивные, а строгие. Я исхожу из следующего (поправьте меня, если я ошибаюсь) – результаты ФА на метрических переменных признаются хорошими, если они имеют внятно интерпретируемые нагрузки и объясняют значительную долю дисперсии первичных переменных, а вовсе не потому, что они были получены в результате определенных процедур.
Соответственно и факторы, полученные на порядковых переменных, следует проверить на соответствие упомянутым выше требованиям. Корреляции – это, например, Спирмен. А процент объясненной дисперсии – Нагелькерке. Как Вы думаете, если Спирмен хорошо интерпретируем, а Нагелькерке высок, это позволит смотреть прямо в глаза «непрагматичным антиутилитаристам»? :)

Re: Re: Re: «Легализация» факторов - Stas' (2010/01/16 0:08)
(отредактировано 2010/01/16 00:09:05)
Интуитивно понятно, что утилитарист правильно все делает, но при желании «закопать» его работу очень легко.
Поэтому нужны обоснования не интуитивные, а строгие.

Ну давайте сравним, у кого обоснования строже.
Высокий r означает хорошую аппроксимацию диаграммы рассеяния прямой линией. Это достаточно строгий факт. А какие Вы видите основания не принимать к сведению высокий r для ординальных шкал? Упоминание в некоторых учебниках о том, что "так делать нельзя"?

результаты ФА на метрических переменных признаются хорошими, если они имеют внятно интерпретируемые нагрузки и объясняют значительную долю дисперсии первичных переменных, а вовсе не потому, что они были получены в результате определенных процедур.
Соответственно и факторы, полученные на порядковых переменных, следует проверить на соответствие упомянутым выше требованиям. Корреляции – это, например, Спирмен. А процент объясненной дисперсии – Нагелькерке. Как Вы думаете, если Спирмен хорошо интерпретируем, а Нагелькерке высок,

У Вас перевернутое представление о соотношении порядковых и метрических шкал. Вам почему-то кажется, что факторный анализ недостаточно строг для изучения зависимостей между порядковыми шкалами, и надо его чем-то дополнить. Чтобы хорошие результаты ФА еще подкрепить, доказать, что они действительно хорошие. Но это ошибка, и выше я уже писала, почему.

Пирсон на порядковых - MiNi (2010/01/16 14:41)
Пирсон на порядковых переменных – это факт далеко не строгий, а во многом обусловленный волюнтаризмом исследователя. Проведите следующий эксперимент. Возьмите в любом из своих массивов две порядковые переменные. Обычно они нумеруются цифрами 1-2-3-4-5. Теперь перенумеруйте их, например, в 1-2-3-99-100. Вы увидите, что Пирсон между ними существенно изменился. А Спирмен, естественно, остался прежним. Подобным «жонглированием» можно на одних и тех же порядковых данных как «создавать» значимую пирсоновскую корреляцию, так и «ликвидировать» ее. А набор цифр 1-2-3-4-5 – это, как правило, также абсолютно произвольное «жонглирование. Речь идет о расстоянии между градациями шкалы. Для того чтобы обоснованно называть порядковую шкалу метрической надо быть уверенным, что значения, которые Вы присваиваете различным градациям, выставлены обоснованно. Сомневаюсь, что всегда найдете достойные аргументы, что расстояние от «согласен полностью» до «согласен отчасти» равно расстоянию от «затрудняюсь ответить» до «отчасти не согласен» А именно эти расстояния и влияют на величину r.
Это один из «подводных камней» на пути отождествления порядковых и метрических переменных. Уверен, далеко не единственный. Так что те, кто полагают, что нельзя считать Пирсона на порядковых по большому счету правы.
Во только сам я всегда шел по обозначенному Вами пути – говорил, что считаю переменные условно метрическими, поэтому и выполняю ФА. Но я не считаю этот путь оптимальным. Мне все же кажется, что оптимальная логика следующая:
а) да, мы согласны, что применение данной процедуры не совсем некорректно,
б) но полученные переменные (в силу того, что они удовлетворяют следующим требованиям) правильно отражают латентную структуру данных.
Пока не вижу причин, почему четыре переменные (не важно как полученные), которые хорошо предсказывают 20 первичных переменных нельзя считать латентной структурой.

Пожалуй, Вы абсолютно правы, что если ФА дал хорошие результаты, то и Спирмен и порядковая регрессия, почти наверняка, дадут хорошие результаты. Использование этих методов здесь нужно лишь потому, что их можно предъявить.

Re: Пирсон на порядковых - Stas' (2010/01/16 23:26)
Ну, судя по тому, что Вы мне начинаете объяснять на пальцах, чем порядковые переменные отличаются от метрических, моя аргументация была напрасной. Извините, но идти по второму кругу у меня нет желания. Ответ на Ваши "доказательства" Вы найдете в моем самом первом посте предыдущей ветки.

Re: Re: Пирсон на порядковых - MiNi (2010/01/17 19:03)
Все Ваши рассуждения базируются на убеждении, что Пирсон на порядковых – это «строгий факт». Однако (см. выше) r на порядковых столь же иллюзорен, как мед в горшочке у Вини-Пуха. Вот он есть… и вот его нет… Впрочем, если верить Сиддхартхе, все в этом мире – иллюзия. Так почему бы не выбрать одну из них в качестве точки опоры? Удачи!

Re: Re: Re: Пирсон на порядковых - Stas' (2010/01/17 20:35)
Все Ваши рассуждения базируются на убеждении, что Пирсон на порядковых – это «строгий факт». Однако (см. выше) r на порядковых столь же иллюзорен, как мед в горшочке у Вини-Пуха.

К сожалению, Вы заблуждаетесь и в первом и во втором суждении. Для исправления ситуации рекомендую Вам почитать (перечитать) Тьюки "Анализ результатов наблюдений" и Кендэла "Ранговые корреляции". Обе книги должны быть на torrents.ru.

Re: Re: Re: «Легализация» факторов - KO (2010/01/16 0:24)
(отредактировано 2010/01/16 01:53:36)
результаты ФА ... признаются хорошими, если они имеют внятно интерпретируемые нагрузки и объясняют значительную долю дисперсии первичных переменных

"Хорошими" в смысле "говорящими о присутствии четкой факторной структуры" - да. Но прежде нагрузки должны быть математически "валидными", и это важнее (см. мой ответ вам http://forum.gfk.ru/Go/ForumRead/id=55540#id_55571 ), так что - никак не обойтись без неких "определенных процедур" (оптимизирующих алгоритмов получения нагрузок).

Как вы считаете, если мы выполним порядковую регрессию (независимые переменные – полученные ранее факторы, зависимые – переменные, на которых факторы строились) и получим хорошее предсказание ... то это будет «легализацией» факторов?

Не будет. (Точнее, будет, так сказать, незаконной отмывкой грязных капиталов.) Потому что (1) в линейном ФА значения факторов вычисляются линейной регрессией, а не методом типа макс. правдоподобия. Ибо ФА полагает, что обратное предсказание переменных полученными факторами ("факторная модель") должно быть линейным. Вы же предлагаете тут порядковую регрессию. Кроме того (2), если говорить о "факторной" модели в узком понимании, то в нее в качестве предсказателей помимо факторов входят еще характерности, а значения последних нам недоступны; поэтому факторную модель проверить регрессионно (даже линейной регрессией) на точность вообще невозможно.

Возвращаясь же к топику дискуссии, "корректно ли применять традиционный факторный анализ к порядковым данным?", не буду оригинальным и напомню то, что пишет львиная доля всех текстов по ФА: ФА корректно применять к данным, если коэф-т корреляции Пирсона кажется вычислять для них reasonable [довольно многозначное слово]. Фраза достаточно многотолковная для того, чтобы и "утилитаристы", и "схоластики" и многие прочие нашли в ней подкрепление своим, на первый взгляд противоположным, позициям. Моя позиция если кратко, такова: r Пирсона и линейный ФА не годится для порядковых данных (напомню, для меня "порядковость" значит "подозревается нелинейное искажение при замере свойства"); но ведь ничто не препятствует тому, чтобы просто принять эти данные за мерные (некоторые говорят, "метрические"), т.е. пренебречь вышеуказанным подозрением. Дополнительные соображения: чем больше разных значений в переменных (т.е. чем более дробная шкала) и чем менее выражена разноскошенность формы распределений между переменными, тем оправданнее становится r Пирсона и ФА.

К Stas'
Мы с вами уже сравнили наши позиции и возвращаться нет нужды. И все же отмечу, что "хорошие" результаты на "плохих" данных - то, что вы считаете маловероятным (и на этом во многом основываетесь), - на самом деле встречается сплошь да рядом. Потом, выдвигая на первый план критерий "получились хорошие результаты", вы попадаете в зависимость от определения ("что такое хорошие?") и от меры ("насколько хорошие?"). Вот к примеру, r 0.8 для вас это достаточно высоко, чтобы посчитать переменные мерными и годными для ФА. Но ведь мы не часто имеем в данных даже r 0.4-0.6. Мы всегда имеем что-то "ни то ни сё", ни хорошее ни плохое, и как тогда, спрашивается, консультирует ваш, так сказать, "эмпиризм чистых линий"? Впрочем, повторюсь еще раз, ваша точка зрения в принципе уязвима не больше, чем любая противоположная.

Re: Re: Re: Re: «Легализация» факторов - Stas' (2010/01/16 3:36)
KO, у Вас несколько противоречивые представления о моих воззрениях :)
Вот это
"хорошие" результаты на "плохих" данных - то, что вы считаете маловероятным (и на этом во многом основываетесь), - на самом деле встречается сплошь да рядом.

прямо противоречит вот этому
Вот к примеру, r 0.8 для вас это достаточно высоко, чтобы посчитать переменные мерными и годными для ФА. Но ведь мы не часто имеем в данных даже r 0.4-0.6.

"Хорошими" я называю именно те результаты, относительно которых в этом определении не будет сильных расхождений. Для r 0.8 их не будет именно потому, что это "сплошь и рядом" не встречается. Если же мы имеем на кривых (называемых "порядковыми") шкалах r 0.4, мой эмпиризм консультирует не проводить факторный анализ, т.к. сильные аргументы в его пользу отсутствуют, а применять метод без аргументов не следует.
Да, я попадаю в прямую зависимость от ряда весьма нечетких критериев, но они просто являются конвенциями профессионального сообщества, и не могут быть четкими по определению. Я для того и употребляю такие термины как "хороший", "плохой", "внятный" (и теперь, с удовольствием присовокуплю сюда "reasonable"), чтобы подчеркнуть условный характер соответствующих им критериев.

Re: Re: Re: Re: Re: «Легализация» факторов - KO (2010/01/16 11:26)
(отредактировано 2010/01/16 12:16:56)
Никакого противоречия. "хорошее" r 0.8, т.е. объявившая себя линейность, для вас индульгенция на признание того, что свойства замерены без искажений и переменные могут быть приняты за мерные (напр. интервальные). А для меня не индульгенция, я знаю что довольно сильную линейность можно получить и от искаженных измерений - такова гримасы случайностей в природе. (Вы, вероятно, верите, что в природе преобладают линейные связи, поэтому если они явились, значит природа явилась, тогда как я не уверен в преобладании линейности в природе, и также верю в то природа склонна маскироваться.) В отличии от вас для меня решение, считать переменную мерной или порядковой, - не зависит от величины r между нею и какой-то посторонней переменной, и это более здравая позиция.

Далее, при r 0.4 ваш "эмпиризм консультирует не проводить факторный анализ, т.к. сильные аргументы в его пользу отсутствуют", но это ошибочная и невнятная тактика, в виду путаницы в роде аргументов. Теоретически (математико-статистически) ФА корректным будет проводить на r любой величины. И этим мы пользуемся каждый раз, поскольку каждый раз в корреляционной матрице встречаем более высокие и более низкие элементы. Другое дело, что практически бессмысленно делать ФА, когда все r матрицы очень низки (т.к. ясно: четкой факторной структуры нет и нагрузки будут ничтожны). Обычно мало интереса делать ФА и тогда, когда все r матрицы очень высоки (т.к. ясно: мы получим однофакторный результат).

P.S. Коррекция. Пардон, я не заметил того нюанса, что вы против ФА при r 0.4 только на данных, принимаемых за порядковые ["Если же мы имеем на кривых (называемых "порядковыми") шкалах r 0.4..."] и посчитал, что вы всегда против ФА, если r 0.4. Но вышесказанного мной я не отменяю. Для вас r 0.8 говорит о вероятной мерности данных, а r 0.4 в этом смысле ни о чем не говорит. Для меня ни r 0.8 ни 0.4 тут ни о чем не говорят: я предпочитаю не увязывать одномерную проблему адекватности измерения с наблюдаемой двумерной связью.

Re: Re: Re: Re: Re: Re: «Легализация» факторов - Stas' (2010/01/16 14:44)
"хорошее" r 0.8, т.е. объявившая себя линейность, для вас индульгенция на признание того, что свойства замерены без искажений и переменные могут быть приняты за мерные (напр. интервальные).

Пардон, но Вы мою логику ставите с ног на голову. Я с самого начала обозначила, что разделение на "мерные", "интервальные" и т.п. шкалы не всегда следует учитывать. Стивенсовская типология - полезная эвристика, но никак не безусловное основание. Поэтому вернее будет так: r 0.8, т.е. объявившая себя линейность - это индульгенция на дальнейшее применение линейных методов, более или менее независимо от того, какие у нас представления о природе наших переменных. Явно линейные связи можно анализировать линейными методами анализа связей - вот и все, на чем я настаиваю. И только во вторую очередь можно порассуждать о том, какова же вероятность того, что сильные нелинейные зависимости отражаются в наших кривых шкалах как линейные. Эти рассуждения в данном случае не являются основанием для анализа данных, но лишь дополняют интерпретацию.
А вот тогда, когда явных свойств данных, направляющих наш анализ нет (r 0.4 и т.д.), на первый план выступают рассуждения об адекватности измерения.

Re: Re: Re: Re: Re: Re: Re: «Легализация» факторов - KO (2010/01/16 15:22)
(отредактировано 2010/01/16 15:51:04)
объявившая себя линейность - это индульгенция на дальнейшее применение линейных методов, более или менее независимо от того, какие у нас представления о природе наших переменных

Вернулись к тому, с чего начали. Если задачей ставится изучение наблюдаемых циферек, тогда я и сейчас и всегда был с вами солидарен. Только мне больше улыбается другое - изучение свойств, стоящих за цифрами. Посему я отказываюсь быть независим от "представлений о природе переменных". Так что сначала - отдельный вопрос обо адекватности измерения, а потом - отдельный вопрос о линейности/нелинейности. Оттого исследователь вроде меня с самого начала обязан определиться (размышлением ли, специальным экспериментом ли), мерные ли или порядковые его переменные. Наличие линейности между наблюдаемыми циферками тут не в помощь. Типология шкал [P.S. не обязательно именно в стивенском варианте] - безусловное основание.

Re: Re: Re: Re: Re: Re: Re: Re: «Легализация» факторов - Stas' (2010/01/16 22:42)
Если задачей ставится изучение наблюдаемых циферек, тогда я и сейчас и всегда был с вами солидарен.

Ну что ж, а я полностью с Вами согласна применительно к случаям, в которых исследователь может
определиться (размышлением ли, специальным экспериментом ли), мерные ли или порядковые его переменные.

Предлагаю на этом и остановиться.



Форум
  Сopyright (©) Администрация сайта Forum.GfK.ru, 2001—2007
О сайте
Находится в каталоге Апорт Rambler's Top100