کمی بیشتر از مدیریت بازرگانی

رگرسیون لجستیک
نویسنده : علی ایرانمنش - ساعت ۱:٢٢ ‎ب.ظ روز ۱۳٩٠/۳/٢٦
 

زمانی که متغییر وابسته ی ما دو وجهی است و می خواهیم از طریق ترکیبی از متغییرهای پیش بین دست به پیش بینی بزنیم باید از رگرسیون لجستیک استفاده کنیم. چند مثال از کاربردهای رگرسیون لجستیک در زیر ارائه می گردد.


1.    در فرایند شناخت همه گیر شناسی ما می خواهیم ببینیم آیا یک فرد بیمار است یا خیر. اگر به عنوان مثال بیماری مورد نظر بیماری قلبی باشد پیش بینی کننده ها عبارتند از سن، وزن، فشار خون سیستولیک، تعداد سیگارهای کشیده شده و سطح کلسترول.
2.    در بازاریابی ممکن است بخواهیم بدانیم آیا افراد یک ماشین جدید را می خرند یا خیر. در اینجا متغییرهایی مانند درآمد سالانه، مقدار پول رهن، تعداد وابسته ها متغیرهای پیش بین می باشند.
3.    در تعلیم و تربیت فرض کنید می خواهیم بدانیم یک فرد در امتحان نمره می آورد یا خیر.
4.    در روانشناسی می خواهیم بدانیم آیا فرد یک تکلیف را انجام می دهد یا خیر.
در تمام موارد گفته شده متغییر وابسته یک متغییر دو حالتی است که دو ارزش دارد. زمانی که متغییر وابسته دو حالتی است مسایل خاصی مطرح می شود.
1.    خطا دارای توزیع نرمال نیست.
2.    واریانس خطا ثابت نیست.
3.    محدودیت های زیادی در تابع پاسخ وجود دارد.
مشکل سوم مطرح شده مشکل جدی است. می توان از روش حداقل مجذورات وزنی برای حل مشکل مربوط به واریانس های نابرابر خطا استفاده نمود. بعلاوه با زمانی که حجم نمونه بالا باشد می توان روش حداقل مجذورات برآوردگرهایی را ارائه می دهد که به طور مجانبی و تحت موقعیت های نسبتا عمومی نرمال می باشند.
ما در رگرسیون لوژستیک به طور مستقیم احتمال وقوع یک رخداد را محاسبه  می کنیم. چرا که فقط دو  حالت ممکن برای متغییر وابسته ی ما وجود دارد.

رگرسیون لجستیک از لحاظ محاسبات آماری شبیه رگرسیون چند گانه است اما از لحاظ کارکرد مانند تحلیل تشخیصی می باشد. در این روش عضویت گروهی بر اساس مجموعه ای از متغییرهای پیش بین انجام می شود دقیقا مانند تحلیل تشخیصی. مزیت عمده ای که تحلیل لجستیک نسبت به تحلیل تشخیصی دارد این است که در این روش با انواع متغیرها به کار می رود و بنابراین بسیاری از مفروضات در مورد داده ها را به کار ندارد. در حقیقت آنچه در رگرسیون لجستیک پیش بینی می شود یک احتمال است که ارزش آن بین 0 تا 1 در تغییر است.
ضرایب رگرسیونی مربوط به معادله ی رگرسیون لجستیک اطلاعاتی را راجع به شانس هر مورد خاص برای تعلق به گروه صفر یا یک ارائه می دهد. شانس به صورت احتمال موفقیت در برابر شکست تعریف می شود. ولی بدلیل ناقرینگی و امکان وجود مقادیر بی نهایت برای آن تبدیل به لگاریتم شانس می شود. هر یک از وزن ها را می توان از طریق مقدار خی دو که به آماره ی والد مشهور است به لحاظ معناداری آزمود. لگاریتم شانس، شانسی را که یک متغییر به طور موفقیت آمیزی عضویت گروهی را برای هر مورد معین پیش بینی می کند را نشان می دهد.
به طور کلی در روش رگرسیون لجستک رابطه ی بین احتمال تعلق به گروه 1 و ترکیب خطی متغییرهای پیش بین بر اساس توزیع سیگمودال تعریف می شود.
 
 برای دستیابی به معادله ی رگرسیونی و قدرت پیش بینی باید به نحوی بتوان رابطه ای بین متغییرهای پیش بین و وابسته تعریف نمود. برای حل این مشکل از نسبت احتمال تعلق به گروه یک به احتمال تعلق به گروه صفر استفاده می شود. به این نسبت شانس گویند. به خاطر مشکلات شانس از لگاریتم شانس استفاده می شود. لگاریتم شانس با متغییرهای پیش بینی کننده ارتباط خطی دارد. بنابراین ضرایب بدست آمده برای آن باید بر اساس رابطه ی خطی که با لگاریتم شانس دارند تفسیر گردند. بنابراین اگر بخواهیم تفسیر را بر اساس احتمال تعلق به گروهها انجام دهیم باید لگاریتم شانس را به شانس و شانس را به اجزای زیر بنایی آن که احتمال تعلق است تبدیل نماییم. آماره ی والد که از توزیع خی دو پیروی می کند نیز برای بررسی معناداری ضرایب استفاده می شود. از آزمون هوسمر و لمشو نیز برای بررسی تطابق داده ها با مدل استفاده می شود معنادار نبودن این آزمون که در واقع نوعی خی دو است به معنای عدم تفاوت داده ها با مدل یعنی برازش داده با مدل است.