آمارتحلیل داده‌هاریاضیاتآموزش و پرورش

میانگین در مقابل انحراف معیار

Q: چرا به جای فقط دامنه تغییرات، از انحراف معیار استفاده میکنیم؟

این محدوده فقط دو مقدار بسیار زیاد را در نظر میگیرد که اگر فقط اتفاقات تصادفی باشند، میتوانند فریبنده باشند. انحراف معیار بسیار قویتر است زیرا به جایگاه هر نقطه داده نگاه میکند. این به شما درکی از «تراکم» دادهها میدهد، نه فقط مرزهای بیرونی.

Q: آیا دو مجموعه داده مختلف میتوانند میانگین یکسان و انحراف معیار متفاوتی داشته باشند؟

کاملاً، و این اتفاق همیشه در دنیای واقعی میافتد. دو شهر را با میانگین دمای ۷۰ درجه تصور کنید. یکی ممکن است در تمام طول سال بین ۶۸ تا ۷۲ درجه فارنهایت (انحراف کم) باقی بماند، در حالی که دیگری بین ۲۰ تا ۱۲۰ درجه فارنهایت (انحراف زیاد) در نوسان باشد. میانگین یکسان است، اما تجربه زندگی کاملاً متفاوت است.

Q: آیا انحراف معیار پایین به معنای «دقیق» بودن دادهها است؟

لزوماً نه. این بدان معناست که دادهها «دقیق» یا سازگار هستند. شما میتوانید ترازویی داشته باشید که خراب است و همیشه چیزهای ۵ پوندی (حدود ۲.۵ کیلوگرم) سنگینتر را وزن میکند. انحراف معیار کم خواهد بود زیرا نتایج سازگار هستند، اما میانگین در مقایسه با وزن واقعی نادرست خواهد بود.

Q: کدام یک برای سرمایهگذاری مهمتر است؟

سرمایهگذاران از هر دو استفاده میکنند، اما اغلب انحراف معیار را با دقت بیشتری زیر نظر دارند زیرا نشاندهنده «ریسک» است. میانگین، بازده مورد انتظار را به شما میگوید، اما انحراف معیار به شما میگوید که این بازده چقدر ممکن است نوسان داشته باشد. انحراف زیاد به معنای مسیری ناهموار با احتمال بیشتر ضررهای موقت است.

Q: دادههای پرت چگونه بر این دو معیار تأثیر میگذارند؟

دادههای پرت مانند آهنربایی برای میانگین هستند و آن را به سمت خود میکشند. برای انحراف معیار، یک داده پرت مانند یک تقویتکننده عمل میکند. از آنجا که فاصله از میانگین در محاسبه به توان دو میرسد، یک نقطه دور میتواند انحراف معیار را به طور نامتناسبی افزایش دهد و نشان دهد که مجموعه دادهها بسیار پراکنده است.

Q: چه زمانی باید به جای میانگین از میانه استفاده کنم؟

وقتی دادههای شما «اریب» هستند یا دادههای پرت زیادی دارند، مانند قیمت خانه یا حقوق، باید به میانه تغییر دهید. در این موارد، چند میلیاردر میتوانند میانگین را بسیار بالاتر از آنچه یک فرد معمولی در واقع درآمد دارد، نشان دهند. میانه در برابر این افراط و تفریطها «مقاوم» است.

Q: قانون ۶۸-۹۵-۹۹.۷ چیست؟

این یک قانون مفید برای توزیعهای نرمال است. این قانون بیان میکند که ۶۸٪ از دادههای شما در محدوده یک انحراف معیار از میانگین، ۹۵٪ در محدوده دو انحراف معیار و ۹۹.۷٪ در محدوده سه انحراف معیار قرار میگیرند. این یک روش قدرتمند برای تشخیص میزان «نرمال» یا «عجیب» بودن یک نقطه داده خاص است.

اگرچه هر دو به عنوان ستون‌های اساسی آمار عمل می‌کنند، اما ویژگی‌های کاملاً متفاوتی از یک مجموعه داده را توصیف می‌کنند. میانگین، نقطه تعادل مرکزی یا مقدار متوسط را مشخص می‌کند، در حالی که انحراف معیار، میزان انحراف نقاط داده از آن مرکز را اندازه‌گیری می‌کند و زمینه مهمی را در مورد ثبات یا نوسان اطلاعات فراهم می‌کند.

برجسته‌ها

میانگین «چه چیزی» را ارائه می‌دهد، در حالی که انحراف معیار «چقدر» از نظر تنوع را ارائه می‌دهد.
یک میانگین می‌تواند برای دو گروهی که از نظر بصری کاملاً متفاوت به نظر می‌رسند، یکسان باشد.
انحراف معیار اساساً میانگین فاصله هر نقطه از میانگین است.
بدون هر دو عدد، یک خلاصه آماری اغلب ناقص یا حتی گمراه‌کننده است.

میانگین چیست؟

میانگین حسابی یک مجموعه داده، که با جمع کردن تمام مقادیر و تقسیم آن بر تعداد کل محاسبه می‌شود.

این به عنوان مرکز هندسی یا «نقطه تعادل» یک توزیع عددی عمل می‌کند.
این محاسبه شامل تک تک مقادیر موجود در مجموعه داده‌های خاص می‌شود.
مقادیر پرت یا مقادیر بسیار زیاد می‌توانند نتیجه را به طور قابل توجهی از اکثر داده‌ها دور کنند.
در یک منحنی زنگوله‌ای کاملاً متقارن، دقیقاً با میانه و مد هم‌تراز می‌شود.
آمارشناسان نسخه جمعیتی را با حرف یونانی mu (μ) نشان می‌دهند.

انحراف معیار چیست؟

معیاری که میزان تغییرات یا پراکندگی را در مجموعه‌ای از مقادیر داده‌ای، کمّی‌سازی می‌کند.

مقادیر پایین نشان می‌دهد که نقاط داده بسیار نزدیک به میانگین محاسبه‌شده قرار دارند.
این در همان واحدهای فیزیکی مانند داده‌های اصلی اندازه‌گیری شده بیان می‌شود.
مقدار با گرفتن جذر واریانس بدست می‌آید.
مقادیر بالا نشان‌دهنده‌ی پراکندگی زیاد است که نشان‌دهنده‌ی قابلیت پیش‌بینی کمتر در داده‌ها می‌باشد.
حرف یونانی سیگما (σ) نماد استانداردی است که برای انحراف جمعیت استفاده می‌شود.

جدول مقایسه

ویژگی	میانگین	انحراف معیار
هدف اصلی	مرکز را پیدا کنید	اندازه‌گیری پراکندگی
حساسیت به داده‌های پرت	بالا (به راحتی کج می‌شود)	زیاد (مقدار در حالت افراطی افزایش می‌یابد)
نماد ریاضی	μ (Mu) یا x̄ (x-bar)	σ (سیگما) یا s
واحدهای اندازه‌گیری	همانند داده‌ها	همانند داده‌ها
نتیجه صفر	میانگین صفر است	تمام نقاط داده یکسان هستند
کاربرد کلید	تعیین عملکرد کلی	ارزیابی ریسک و ثبات

مقایسه دقیق

مرکزیت در مقابل پراکندگی

میانگین به شما می‌گوید که «میانه» داده‌های شما کجا قرار دارد و یک تصویر کلی از سطح کلی ارائه می‌دهد. در مقابل، انحراف معیار مکان مرکز را نادیده می‌گیرد تا کاملاً بر شکاف‌های بین اعداد تمرکز کند. ممکن است دو گروه با میانگین یکسان ۵۰ داشته باشید، اما اگر یک گروه از ۴۹ تا ۵۱ و گروه دیگر از ۰ تا ۱۰۰ متغیر باشد، انحراف معیار تنها ابزاری است که این تفاوت عظیم در قابلیت اطمینان را نشان می‌دهد.

حساسیت به مقادیر شدید

هر دو معیار وزن داده‌های پرت را احساس می‌کنند، اما به روش‌های متفاوتی واکنش نشان می‌دهند. یک عدد فوق‌العاده بالا، میانگین را به سمت بالا می‌کشد و به طور بالقوه تصویری گمراه‌کننده از تجربه «معمول» ترسیم می‌کند. همین داده پرت، انحراف معیار را به شدت افزایش می‌دهد و به محقق نشان می‌دهد که داده‌ها دارای نویز هستند و میانگین ممکن است نماینده قابل اعتمادی از کل گروه نباشد.

نقش در توزیع نرمال

وقتی به یک منحنی زنگوله‌ای نگاه می‌کنیم، این دو با هم برای تعریف شکل آن عمل می‌کنند. میانگین تعیین می‌کند که قله منحنی در محور افقی کجا قرار می‌گیرد. انحراف معیار، عرض را کنترل می‌کند؛ یک انحراف کوچک، یک برآمدگی بلند و باریک ایجاد می‌کند، در حالی که یک انحراف بزرگ، منحنی را به یک تپه کوتاه و ضخیم تبدیل می‌کند. این دو با هم به ما اجازه می‌دهند پیش‌بینی کنیم که تقریباً ۶۸٪ از داده‌ها در یک «گام» از مرکز قرار می‌گیرند.

تصمیم‌گیری کاربردی

در دنیای واقعی، میانگین اغلب برای اهدافی مانند میانگین فروش هدف استفاده می‌شود. با این حال، انحراف معیار چیزی است که متخصصان برای مدیریت ریسک از آن استفاده می‌کنند. به عنوان مثال، یک مسافر ممکن است مسیر اتوبوسی را انتخاب کند که میانگین زمان سفر آن کمی طولانی‌تر باشد، اگر انحراف معیار بسیار کمی داشته باشد، زیرا تضمین می‌کند که آنها هر روز به موقع می‌رسند و با نوسانات غیرقابل پیش‌بینی مواجه نمی‌شوند.

مزایا و معایب

میانگین

مزایا

+ محاسبه آسان
+ بسیار شهودی
+ از تمام داده‌ها استفاده می‌کند
+ برای مقایسه خوب است

مصرف شده

− آسیب‌پذیر در برابر داده‌های پرت
− گمراه‌کننده در داده‌های تحریف‌شده
− می‌تواند یک مقدار ناموجود باشد
− تنوع داخلی را پنهان می‌کند

انحراف معیار

مزایا

+ قابلیت اطمینان داده‌ها را نشان می‌دهد
+ واحدهای اصلی را حفظ می‌کند
+ برای احتمال بسیار مهم است
+ نوسانات را شناسایی می‌کند

مصرف شده

− محاسبه دستی دشوارتر است
− بی‌معنی بدون میانگین
− تحت تأثیر افراط و تفریط
− نیاز به نمونه‌های بزرگ

تصورات نادرست رایج

افسانه

میانگین ۸۰ به این معنی است که اکثر افراد نمره ۸۰ گرفته‌اند.

واقعیت

میانگین فقط یک نقطه تعادل است؛ اگر داده‌ها بین مقادیر خیلی بالا و خیلی پایین تقسیم شوند، ممکن است هیچ‌کس واقعاً امتیاز ۸۰ نگرفته باشد.

افسانه

انحراف معیار می‌تواند یک عدد منفی باشد.

واقعیت

از آنجا که این فرمول شامل به توان دو رساندن اختلاف از میانگین است، نتیجه همیشه صفر یا مثبت است. مقدار منفی از نظر ریاضی غیرممکن است.

افسانه

انحراف معیار بالا همیشه چیز «بدی» است.

واقعیت

این به سادگی نشان‌دهنده تنوع است. در یک کلاس درس، انحراف معیار بالا در علایق عالی است، حتی اگر برای تولیدکننده‌ای که سعی در ساخت پیچ و مهره‌های یکسان دارد، استرس‌زا باشد.

افسانه

شما می‌توانید انحراف معیار را بدون دانستن میانگین محاسبه کنید.

واقعیت

میانگین یک جزء ضروری در فرمول است. قبل از اینکه بتوانید فاصله همه چیز از مرکز را اندازه‌گیری کنید، ابتدا باید بدانید که مرکز کجاست.

سوالات متداول

چرا به جای فقط دامنه تغییرات، از انحراف معیار استفاده می‌کنیم؟

این محدوده فقط دو مقدار بسیار زیاد را در نظر می‌گیرد که اگر فقط اتفاقات تصادفی باشند، می‌توانند فریبنده باشند. انحراف معیار بسیار قوی‌تر است زیرا به جایگاه هر نقطه داده نگاه می‌کند. این به شما درکی از «تراکم» داده‌ها می‌دهد، نه فقط مرزهای بیرونی.

آیا دو مجموعه داده مختلف می‌توانند میانگین یکسان و انحراف معیار متفاوتی داشته باشند؟

کاملاً، و این اتفاق همیشه در دنیای واقعی می‌افتد. دو شهر را با میانگین دمای ۷۰ درجه تصور کنید. یکی ممکن است در تمام طول سال بین ۶۸ تا ۷۲ درجه فارنهایت (انحراف کم) باقی بماند، در حالی که دیگری بین ۲۰ تا ۱۲۰ درجه فارنهایت (انحراف زیاد) در نوسان باشد. میانگین یکسان است، اما تجربه زندگی کاملاً متفاوت است.

آیا انحراف معیار پایین به معنای «دقیق» بودن داده‌ها است؟

لزوماً نه. این بدان معناست که داده‌ها «دقیق» یا سازگار هستند. شما می‌توانید ترازویی داشته باشید که خراب است و همیشه چیزهای ۵ پوندی (حدود ۲.۵ کیلوگرم) سنگین‌تر را وزن می‌کند. انحراف معیار کم خواهد بود زیرا نتایج سازگار هستند، اما میانگین در مقایسه با وزن واقعی نادرست خواهد بود.

کدام یک برای سرمایه‌گذاری مهم‌تر است؟

سرمایه‌گذاران از هر دو استفاده می‌کنند، اما اغلب انحراف معیار را با دقت بیشتری زیر نظر دارند زیرا نشان‌دهنده «ریسک» است. میانگین، بازده مورد انتظار را به شما می‌گوید، اما انحراف معیار به شما می‌گوید که این بازده چقدر ممکن است نوسان داشته باشد. انحراف زیاد به معنای مسیری ناهموار با احتمال بیشتر ضررهای موقت است.

داده‌های پرت چگونه بر این دو معیار تأثیر می‌گذارند؟

داده‌های پرت مانند آهنربایی برای میانگین هستند و آن را به سمت خود می‌کشند. برای انحراف معیار، یک داده پرت مانند یک تقویت‌کننده عمل می‌کند. از آنجا که فاصله از میانگین در محاسبه به توان دو می‌رسد، یک نقطه دور می‌تواند انحراف معیار را به طور نامتناسبی افزایش دهد و نشان دهد که مجموعه داده‌ها بسیار پراکنده است.

چه زمانی باید به جای میانگین از میانه استفاده کنم؟

وقتی داده‌های شما «اریب» هستند یا داده‌های پرت زیادی دارند، مانند قیمت خانه یا حقوق، باید به میانه تغییر دهید. در این موارد، چند میلیاردر می‌توانند میانگین را بسیار بالاتر از آنچه یک فرد معمولی در واقع درآمد دارد، نشان دهند. میانه در برابر این افراط و تفریط‌ها «مقاوم» است.

قانون ۶۸-۹۵-۹۹.۷ چیست؟

این یک قانون مفید برای توزیع‌های نرمال است. این قانون بیان می‌کند که ۶۸٪ از داده‌های شما در محدوده یک انحراف معیار از میانگین، ۹۵٪ در محدوده دو انحراف معیار و ۹۹.۷٪ در محدوده سه انحراف معیار قرار می‌گیرند. این یک روش قدرتمند برای تشخیص میزان «نرمال» یا «عجیب» بودن یک نقطه داده خاص است.

آیا انحراف معیار همان واریانس است؟

آنها ارتباط نزدیکی با هم دارند، اما یکسان نیستند. واریانس میانگین مربعات اختلاف از میانگین است که منجر به «واحدهای مربع» (مانند دلار مربع) می‌شود که تجسم آنها دشوار است. ما جذر واریانس را برای بدست آوردن انحراف معیار می‌گیریم تا واحدها دوباره با داده‌های اصلی ما مطابقت داشته باشند.

حکم

وقتی به یک عدد نماینده واحد برای خلاصه کردن سطح کلی یک گروه نیاز دارید، میانگین را انتخاب کنید. وقتی نیاز دارید که پایایی آن میانگین یا تنوع در نمونه خود را درک کنید، به انحراف معیار تکیه کنید.

مقایسه‌های مرتبط

احتمال در مقابل آمار

احتمال و آمار دو روی یک سکه ریاضی هستند که با عدم قطعیت از دو جهت مخالف برخورد می‌کنند. در حالی که احتمال، احتمال نتایج آینده را بر اساس مدل‌های شناخته شده پیش‌بینی می‌کند، آمار داده‌های گذشته را برای ساخت یا تأیید آن مدل‌ها تجزیه و تحلیل می‌کند و به طور مؤثر از مشاهدات به عقب کار می‌کند تا حقیقت اساسی را پیدا کند.

احتمال در مقابل شانس

اگرچه اغلب در مکالمات روزمره به جای یکدیگر استفاده می‌شوند، احتمال و شانس دو روش مختلف برای بیان احتمال یک رویداد هستند. احتمال تعداد نتایج مطلوب را با تعداد کل احتمالات مقایسه می‌کند، در حالی که شانس تعداد نتایج مطلوب را مستقیماً با تعداد نتایج نامطلوب مقایسه می‌کند.

اعداد اول و مرکب

این مقایسه تعاریف، ویژگی‌ها، مثال‌ها و تفاوت‌های بین اعداد اول و مرکب، دو دسته اساسی از اعداد طبیعی، را توضیح می‌دهد و نحوه شناسایی آنها، نحوه رفتارشان در تجزیه به فاکتورها و اهمیت تشخیص آنها در نظریه اعداد پایه را روشن می‌کند.

اعداد حقیقی در مقابل اعداد مختلط

در حالی که اعداد حقیقی شامل تمام مقادیری هستند که ما معمولاً برای اندازه‌گیری دنیای فیزیکی استفاده می‌کنیم - از اعداد صحیح کامل گرفته تا اعداد اعشاری نامتناهی - اعداد مختلط با معرفی واحد موهومی $i$ این افق را گسترش می‌دهند. این افزودن به ریاضیدانان اجازه می‌دهد تا معادلاتی را که هیچ راه‌حل حقیقی ندارند حل کنند و یک سیستم اعداد دوبعدی ایجاد کنند که برای فیزیک و مهندسی مدرن ضروری است.

اعداد زوج در مقابل اعداد فرد

این مقایسه تفاوت‌های بین اعداد زوج و فرد را روشن می‌کند، نحوه تعریف هر نوع، نحوه رفتار آنها در حساب اولیه و ویژگی‌های مشترکی را نشان می‌دهد که به طبقه‌بندی اعداد صحیح بر اساس بخش‌پذیری بر ۲ و الگوهای موجود در شمارش و محاسبات کمک می‌کند.