![]() |
|
Линейная регрессия: вопрос по теме - Aglaya
(2009/07/17 0:04)
Пожалуйста, подскажите, можно ли в список независимых переменных линейной регрессии закладывать переменные, которые участвовали в построении зависимой переменной? Например, если моделируется зависимость дохода от ряда факторов, законно ли включать в список независимых переменных зарплату, которая и так учитывается в составе доходов? Пожалуйста, обоснуйте ответ! Очень важно понять Ваше мнение. Спасибо!
Re: Линейная регрессия: вопрос по теме - KO
(2009/07/17 2:05)
Если Доход вы создавали как линейный образ Зарплаты, то в вашей регрессии ненулевой коэффициент будет только у Зарплаты. Получится просто тафтология. Если же Доход выведен из Зарплаты как-то нелинейно, тогда - формально можно, но разумно ли это - контаминировать зависимую характеристику независмой? Для чего это вам?
Re: Re: Линейная регрессия: вопрос по теме - Aglaya
(2009/07/21 11:37)
Доход - сумма зарплат, пенсий, пособий и т.д. Нужно это только для того, чтобы R sq сделать приличным. Набором переменных, не участвующих в построении дохода, большого объяснения не добьешься. Хотя по сути мне лично важна связка именно с ними, неучаствующими. Интуитивно чувствую, что некорректно в модель включать зарплату, но хочется разобраться, так ли это и почему.
Re: Re: Re: Линейная регрессия: вопрос по теме - KO
(2009/07/21 12:06)
(отредактировано 2009/07/21 12:15:10)
Вы чувствуете, что что-то делать не следует, но так и не объяснили позыв это "что-то" сделать. Для чего вам включать Зарплату в модель предсказания Дохода, что вы думаете этим добиться?P.S. А, видимо, "чтобы Rsq сделать приличным", и есть ваша мотивация. Забавно. Уверю вас, значимый, пусть и малый Rsq, это вполне пристойно.
Re: Re: Re: Re: Линейная регрессия: вопрос по теме - Aglaya
(2009/07/21 22:43)
КО, вы верно уловили мысль. Мне вообще ваши рассуждения близки и понятны. Скажем так, мне надо объяснить заказчику, почему "так делать не надо" даже для повышения R sq. Пытаюсь найти доходчивое и математическое обоснование. Сама только интуитивно это чувствую. P/S Про "малый, но значимый R sq" не поняла...
Re: Re: Re: Re: Re: Линейная регрессия: вопрос по теме - Roman
(2009/07/22 11:30)
Aglaya, позвольте поделиться некоторыми соображениями по теме:Для чего используется регрессия? Построение прогноза или предсказания явления/факта/поведения в будущем на основании: (1) совокупности независимых переменных или (2) его прошлого состояния Независимость переменных величина субъективная (отражает наши / заказчика представления о причинно-следственных связях). С точки зрения математики на этом этапе для нас важно избежать дублирование переменных в зависимой и независимой частях уравнения (в противном случае мы упираемся в то, что объясняем заведомо известные нам данные и переходим от прогноза к описательным статистикам - "так было потому что, но как оно будет дальше..?"), в остальном мы свободны. Что такое прогноз? Это функция (линейная, полиномиальная или иная) объясняющая закономерность в наших данных. Физический смысл: связав факты прошлого увидеть общую тенденцию и оценить направление ее движения в будущем. Фиксируем: строя прогноз, мы пытаемся на основании имеющихся данных предсказать что-то НЕ известное нам. Возвращаясь к вопросу о возможности включения зарплаты в модель прогноза доходов: 1. Да, можно, если мы желаем описать наши общие доходы как функцию от зарплаты. На мой взгляд это достаточно бесполезный результат как с позновательной или научной точки зрения, так и с позиции бизнес задач - узнали мы, что общий доход на 70% объясняется величиной зарплаты, порадовались, даже включили эти данные в наш CRM, а что дальше? Смею предположить, что построение модели прогнозирование затевалось, например, для того, чтобы имея лишь косвенную информацию о клиенте, спрогнозировать его общую доходность и интересность для нашего бизнеса, а в этом случае: 2. Для построения прогноза дохода (например, того, каким он будет у нашего клиента исходя из известной нам информации) мы не можем использовать данные зарплаты. В случае использования зарплаты мы подменяем значения истинных факторов (соц-дем, включая стаж, наличие подчиненных, должность, возраст, активность жизненной позиции, сфера деятельности, отрасль, вовлеченность и поведение с различными финансовыми институтами и пр. и пр.) на денежный эквивалент их функции (объективной конечно, но только функции). Простите за многословность, хотел донести главное. Первичны цели и задачи исследования/проекта, а в математике или методах (особенно в ограничениях) порочно искать оправдания действий. ПС. При построении уравнения регрессии (функция линии тренда) мы получаем 2 параметра (1) R sq и (2) sign (значимость). Первое отражает насколько точно мы смогли передать нашим уравнением ту закономерность, что содержится в данных (насколько близки все наши наблюдения к построенной линии - в идеале он может достигать 1 - все точки легли на линию). Второе показывает насколько полученный результат устойчив с точки зрения разброса ответов. Через статистические тесты мы оцениваем вероятность, с которой выявленная закономерность может быть применима к фактам, выходящим за пределы исследуемой совокупности данных. Т.е. насколько то, что мы получили на нашем массиве (выборке) может быть применимо жизни (генеральной совокупности). Малый, но значимый R sq это огромная радость аналитика - это слабый, но устойчивый тренд (перспективная ниша, мнение небольшой, но гомогенной группы потребителей и пр. - в общем повод поработать с данной подвыборкой).
Re: Re: Re: Re: Re: Re: Линейная регрессия: вопрос по теме - Kostya_Aizenberg
(2009/07/22 11:39)
ого. Вот это речь. Не речь, а радость аналитика. И я, отбросив костыли, встал и пошел! Роман, вы живо напомнили мне нашу первую встречу! (а также почти все последующие) Зачем просить прощения, прекрасных текстов должно быть много! Но, возможно, в нетленке "связав факты прошлого увидеть общую тенденцию и оценить направление ее движения в будущем" готичнее было бы сказать вместо "увидеть" - ", узреть"? Но не мне править Автора! Пиши еще! :) P.s.: Автору темы - ну правда, не занимайтесь тавтологией
Re: Re: Re: Re: Re: Re: Re: Линейная регрессия: вопрос по теме - Aglaya
(2009/07/24 1:57)
Ой, большое Вам аналитическое спасибище! Душа действительно радуется. Выступление на 10 баллов (хотя и без новостей).На счет задачи - не угадали:) Но это не важно. На счет "порочности" поиска оправдания в ограничениях Вы правы, но не применительно к этому случаю. Здесь не поиск оправданий, а попытка понять легитимность действий. Если я правильно поняла, сухой остаток: с т.з. математики такая модель имеет право на жизнь? (во всяком случае, никто не знает довода против) В целом ситуация отвратительна: я понимаю, что не нужны компоненты дохода в правой части уравнения, Вы в тавтологии упрекаете, но научно обосновать отказ не выходит.
|
|||||
О сайте |