در حالی که توزیع دادهها، فراوانی، پراکندگی و شکل نقاط داده را در مقادیر ممکن آنها ترسیم میکند، سیستمهای مختصات، چارچوب فیزیکی یا ریاضی مورد استفاده برای ترسیم و مکانیابی آن نقاط در فضا را فراهم میکنند. درک چگونگی پراکندگی دادهها در مقابل محل قرارگیری فیزیکی آنها روی یک شبکه، به تحلیلگران این امکان را میدهد تا سوگیری آماری را اصلاح کرده و تجسمهای مکانی دقیقی را طراحی کنند.
برجستهها
توزیعها، رفتار ریاضی و فراوانی مقادیر مجموعه دادههای شما را توضیح میدهند.
سیستمهای مختصات، زیرساخت شبکه فیزیکی مورد نیاز برای رندر دادهها را فراهم میکنند.
تبدیل یک توزیع، معیارهای آماری مانند چولگی و واریانس را تغییر میدهد.
تغییر یک سیستم مختصات، دیدگاههای مکانی را بدون تغییر ویژگیهای دادههای خام تغییر میدهد.
توزیع دادهها چیست؟
نمایه آماری که نشان میدهد مقادیر یا نتایج مختلف چند بار در یک مجموعه داده مشخص رخ میدهند.
این نمودار ویژگیهای ساختاری مهمی مانند چولگی، کشیدگی و گرایش به مرکز را آشکار میکند.
وقتی تحلیلگران فیلترهای ریاضی یا فرمولهای تبدیل را اعمال میکنند، شکل آن تغییر میکند.
این تعیین میکند که آیا یک مجموعه داده با فرضیات مورد نیاز برای آزمایش پارامتری مطابقت دارد یا خیر.
این روش با برجسته کردن مقادیری که از خوشههای متراکم فاصله زیادی دارند، دادههای پرت و ناهنجاریها را شناسایی میکند.
میتواند از الگوهای ریاضی خاصی مانند منحنیهای نرمال، دوجملهای یا پواسون پیروی کند.
سیستمهای مختصات چیست؟
چارچوبهای مرجع هندسی که از محورهای سازمانیافته برای اختصاص موقعیتهای مکانی ثابت به نقاط داده استفاده میکنند.
این روش به یک نقطه مبدا ثابت متکی است که تمام اندازهگیریهای مکانی از آن امتداد مییابند.
این ماتریسهای عددی انتزاعی را به ابعاد فیزیکی برای رندر کردن نرمافزار تبدیل میکند.
هنگام نگاشت نقاط کروی بر روی سطوح صاف، به فرمولهای تصویرسازی صریح نیاز است.
از چارچوبهای ریاضی متمایزی مانند ساختارهای دکارتی، قطبی یا جغرافیایی استفاده میکند.
کاملاً تحت تأثیر مقادیر واقعی یا چگالی دادههای ترسیم شده در آن قرار نمیگیرد.
جدول مقایسه
ویژگی
توزیع دادهها
سیستمهای مختصات
هدف اصلی
توصیف الگوهای فراوانی و احتمال دادهها
اختصاص موقعیتهای مکانی دقیق به نقاط داده
دامنه اصلی
نظریه احتمال و آمار پیشبین
جبر خطی، هندسه و نقشهبرداری
اجزای کلیدی
میانگینها، واریانسها، میانهها و منحنیهای چگالی
محورها، نقاط مبدا، ابعاد و خطوط شبکه
تأثیر تغییرات مقیاس
معیارهای واریانس و مقادیر چگالی احتمال را تغییر میدهد
مقیاسبندی مجدد فواصل هندسی بدون تغییر جهتگیری فضایی
تمرکز تحلیلی
دادهها از نظر ساختاری چگونه به نظر میرسند
جایی که دادهها از نظر مکانی قرار میگیرند
ابزارهای نرمافزاری اولیه
بستههای Pandas، NumPy، Scipy و R stat
موتورهای Matplotlib، D3.js، Leaflet و GIS
مقایسه دقیق
طبیعت و رفتار ریاضی
توزیع دادهها کاملاً بر رفتار اعداد تمرکز دارد و نقشهای از میزان تکرار مقادیر خاص در یک جمعیت ارائه میدهد. این سیستم به معیارهایی مانند واریانس، انحراف معیار و اینکه آیا یک منحنی دنباله ضخیمی دارد یا خیر، اهمیت میدهد. در مقابل، سیستمهای مختصات، ساختارهای هندسی سفت و سختی هستند که به خود اعداد اهمیتی نمیدهند. آنها صرفاً خطوط شبکه فیزیکی، محورها و نقاط مبدا مورد نیاز برای تبدیل آن اعداد خام به نشانگرهای بصری را ارائه میدهند.
نقش در نمایش بصری دادهها
وقتی یک نمودار میسازید، سیستم مختصات، طرح فیزیکی را تعیین میکند و تصمیم میگیرد که آیا دادههای شما در یک شبکه دکارتی مسطح پخش میشوند یا به صورت مارپیچی در اطراف یک نقشه قطبی دایرهای. توزیع دادهها تعیین میکند که وزن بصری در کجای آن شبکه قرار میگیرد و خوشههای متراکم یا تکههای پراکنده ایجاد میکند. یک تحلیلگر سیستم مختصات را تنظیم میکند تا یک نمودار قابل خواندن باشد، اما توزیع دادهها را تغییر میدهد تا روندهای اساسی از نظر آماری معتبر شوند.
تکنیکها و عملیات تبدیل
تغییر توزیع دادهها شامل تکنیکهای مقیاسبندی ریاضی مانند تبدیل لگاریتمی یا استانداردسازی امتیاز Z برای تغییر شکل یک منحنی کج به یک توزیع نرمال متعادل است. اصلاح یک سیستم مختصات به معنای چرخش محورها، تغییر مبدا یا تغییر تصویر نقشه، مانند تبدیل طول و عرض جغرافیایی به مختصات پیکسلی مسطح است. یکی از آنها ویژگیهای آماری متغیرها را تغییر میدهد، در حالی که دیگری فضای مشاهده فیزیکی را از نو مرتب میکند.
نقاط کور و خطاهای تحلیلی
نادیده گرفتن توزیع دادهها منجر به مدلهایی با نقصهای عمیق میشود، مانند اعمال الگوریتمهای خطی بر روی دادههای به شدت کج که فرضیات رگرسیون استاندارد را نقض میکنند. نادیده گرفتن سیستم مختصات باعث اعوجاج مکانی میشود که میتواند منجر به نقشههایی شود که اندازه مناطق جغرافیایی را تحریف میکنند یا نمودارهایی که فواصل را نادرست نشان میدهند. تحلیلگران باید برای حفظ حقیقت آماری به قوانین توزیع احترام بگذارند و برای حفظ دقت هندسی، قوانین را هماهنگ کنند.
مزایا و معایب
توزیع دادهها
مزایا
+فرضیات مدل را با خیال راحت اعتبارسنجی میکند
+سوگیریهای دادههای پنهان را علامتگذاری میکند
+ناهنجاریهای آماری شدید را جدا میکند
+ورودیهای یادگیری ماشین را بهینه میکند
مصرف شده
−تجسم شهودی دشوارتر است
−نیاز به نمونههای پایه تمیز
−میتواند در زیرمجموعهها تغییر کند
−نیاز به دانش آماری عمیق دارد
سیستمهای مختصات
مزایا
+ردیابی مکانی دقیقی را ارائه میدهد
+تجسم بصری دادهها را فعال میکند
+مدلهای نقشهبرداری فیزیکی را استاندارد میکند
+طرحبندیهای چندبعدی را به راحتی مدیریت میکند
مصرف شده
−میتواند اندازههای جغرافیایی واقعی را تحریف کند
−برای تحلیلهای غیرمکانی بیربط است
−نیاز به ترازبندی دقیق مختصات دارد
−هزینههای محاسبات رندر را افزایش میدهد
تصورات نادرست رایج
افسانه
تغییر محورهای یک نمودار، توزیع دادههای زیربنایی را تغییر میدهد.
واقعیت
تغییر از محور خطی به محور لگاریتمی، نحوه نمایش توزیع روی صفحه نمایش شما را تغییر میدهد، اما مقادیر خام دادهها و روابط آماری آنها دقیقاً یکسان باقی میمانند. شما در حال تغییر پنجره مشاهده هستید، نه خود دادهها.
افسانه
توزیع نرمال به این معنی است که مختصات دادههای شما همیشه باید حول صفر باشد.
واقعیت
توزیع نرمال میتواند در هر جایی در امتداد یک محور وجود داشته باشد، چه میانگین آن ۵۰۰۰ باشد و چه منفی ۵۰. این توزیع، شکل زنگولهای و پراکندگی متقارن دادهها را کاملاً جدا از موقعیت مختصات فیزیکی آنها تعریف میکند.
افسانه
سیستمهای مختصات جغرافیایی، شبکههای کاملاً مسطحی هستند.
واقعیت
زمین یک کره نامنظم است، به این معنی که مختصات جغرافیایی باید از محاسبات پیچیده تصویرسازی برای نمایش مسطح روی صفحه نمایش استفاده کنند. هر تصویرسازی نقشه مسطح، ناگزیر شکل، مساحت یا فاصله نقاط دادهای را که ترسیم میکنید، تحریف میکند.
افسانه
اگر دادهها در نمودار پراکندگی به صورت تودهای به نظر برسند، همیشه همبستگی آماری بالایی را اثبات میکند.
واقعیت
خوشههای بصری میتوانند به راحتی یک توهم باشند که در اثر انتخاب مقیاس نامناسب سیستم مختصات یا قرار دادن نقاط زیاد در یک فضای کوچک ایجاد میشود. برای تأیید وجود یک الگوی واقعی، باید محاسبات توزیع مناسبی را انجام دهید.
سوالات متداول
چرا دانشمندان داده از تبدیلات لگاریتمی در توزیعهای دادهای با انحراف زیاد استفاده میکنند؟
هنگام برخورد با توزیعهایی که دنبالههای بزرگی دارند، مانند سطح درآمد یا ترافیک وبسایت، چند مقدار غولپیکر، بقیه دادههای شما را در یک توده غیرقابل خواندن فشرده میکنند. اعمال یک تبدیل لاگ، این مقادیر بسیار زیاد را فشرده کرده و اعداد کوچکتر را امتداد میدهد و توزیع متعادلتری ایجاد میکند. این تغییر، شناسایی الگوهای ظریفی را که در غیر این صورت توسط دادههای پرت عظیم از بین میرفتند، برای مدلهای یادگیری ماشین بسیار آسانتر میکند.
چگونه انتخاب تصویر نادرست نقشه، تجسم دادههای مکانی را خراب میکند؟
تصاویر نقشه، مختصات کروی زمین را بر روی صفحات دوبعدی مسطح ترجمه میکنند. اگر تصویری مانند مرکاتور را برای نقشه موضوعی انتخاب کنید، اندازه مناطق دور از خط استوا را به شدت افزایش میدهد و باعث میشود مکانهایی مانند گرینلند در مقایسه با آفریقا عظیم به نظر برسند. این اعوجاج هندسی بینندگان را گمراه میکند و باعث میشود الگوهای تراکم دادههای شما در مناطق قطبی بسیار شدیدتر از آنچه در واقعیت هستند، به نظر برسند.
تفاوت بین سیستم مختصات دکارتی و سیستم مختصات قطبی چیست؟
یک سیستم دکارتی، نقاط را روی یک شبکه با استفاده از فواصل افقی و عمودی عمود بر یک نقطه مبدا، که معمولاً با X و Y مشخص میشوند، مکانیابی میکند. یک سیستم قطبی، مکانها را با استفاده از فاصله مستقیم از مرکز و یک زاویه چرخش خاص ردیابی میکند. شبکههای قطبی برای تجزیه و تحلیل دادههای چرخهای، سیگنالهای رادیویی یا حرکات دایرهای به طرز درخشانی کار میکنند، در حالی که شبکههای دکارتی به عنوان انتخاب استاندارد برای نمودارهای تجاری معمولی عمل میکنند.
آیا میتوانید توزیع یک مجموعه داده را بدون دانستن سیستم مختصات آن تعیین کنید؟
بله، زیرا توزیع دادهها صرفاً به روابط، فراوانیها و مقادیر درون خود مجموعه دادهها متکی است. شما میتوانید به راحتی میانگین، واریانس و چولگی لیستی از اعداد را با استفاده از فرمولهای آماری خام و بدون ترسیم آنها روی یک شبکه فیزیکی محاسبه کنید. سیستم مختصات فقط زمانی وارد تصویر میشود که بخواهید آن مقادیر را در یک طرح بصری ملموس ترسیم کنید.
چگونه مختصات مکانی با توزیع دادههای آماری در نرمافزار GIS ارتباط برقرار میکنند؟
در سیستمهای اطلاعات جغرافیایی، این دو مفهوم با هم کار میکنند تا تحلیلهای مکانی مانند نقشههای حرارتی را تقویت کنند. سیستم مختصات تضمین میکند که هر نقطه داده، مانند گزارش جرم یا مکان یک فروشگاه، دقیقاً روی مکان فیزیکی دنیای واقعی خود قرار میگیرد. سپس نرمافزار الگوریتمهای توزیع را در سراسر آن مختصات اجرا میکند تا چگالی را اندازهگیری کند و نشان دهد که نقاط در کجا به صورت نقاط داغ از نظر آماری معنیدار جمع میشوند.
وقتی یک تحلیلگر میگوید دادهها توزیع یکنواخت دارند، منظورش چیست؟
توزیع یکنواخت به این معنی است که هر نتیجه ممکن در یک محدوده مشخص، احتمال وقوع یکسانی دارد. در یک هیستوگرام، این نمودار مانند یک خط صاف و مستقیم در بالا به نظر میرسد که هیچ قله یا درهای را نشان نمیدهد. اگر یک توزیع یکنواخت را روی یک شبکه مختصات رسم کنید، نقاط داده شما به طور مساوی در فضا پخش میشوند و هیچ رفتار خوشهبندی یا گروهبندی طبیعی را نشان نمیدهند.
چرا باید قبل از کار با الگوریتمهای مختصات مبتنی بر فاصله، ویژگیهای دادهها را نرمالسازی کنید؟
الگوریتمهایی مانند خوشهبندی K-Means، ستونهای دادهها را به عنوان مختصات مکانی برای محاسبه فواصل بین نقاط در نظر میگیرند. اگر یک ستون حقوق سالانه را به هزار و ستون دیگر سن را به دو رقم دنبال کند، مقیاس حقوق کاملاً بر محاسبات هندسی غالب خواهد شد. نرمالسازی دادهها، همه متغیرها را در یک مقیاس برابر قرار میدهد و از تحریف فواصل مکانی توسط واحدهای عظیم جلوگیری میکند.
دادههای پرت در مقایسه با تأثیرشان بر سیستمهای مختصات، چه تأثیری بر توزیع دادهها دارند؟
دادههای پرت با دور کردن میانگین از مرکز و ایجاد دنبالههای بلند و نامتقارن که آزمونهای پارامتری را خراب میکنند، توزیع دادهها را به طرز چشمگیری تغییر میدهند. با این حال، در یک سیستم مختصات، یک داده پرت برای زیرساخت شبکه کاملاً بیضرر است. سیستم مختصات به سادگی یک محور مختصات را در پایین خط برای رسم نقطه ارائه میدهد و در حالی که مدل آماری برای مدیریت مقدار شدید تلاش میکند، خنثی باقی میماند.
حکم
وقتی هدف شما ارزیابی کیفیت دادهها، بررسی فرضیات آماری و درک پروفایلهای احتمال برای یادگیری ماشین است، توزیع دادهها را بررسی کنید. وقتی نیاز به ترسیم موقعیتهای مکانی، ساخت داشبوردهای تعاملی یا ترسیم دقیق مختصات جغرافیایی دارید، به سیستمهای مختصات تکیه کنید.