الگوهای ریاضی واقعی، روابط ساختاری، ثابت یا علی را نشان میدهند که در مجموعه دادهها و شرایط مختلف ثابت میمانند، در حالی که همبستگیهای تصادفی، همترازیهای زودگذر و تصادفی هستند که از نویز آماری یا مجموعه دادههای عظیم ناشی میشوند که در آنها تصادفها از نظر ریاضی اجتنابناپذیر میشوند.
برجستهها
الگوهای واقعی دارای ساختار ریاضی تغییرناپذیری هستند، در حالی که همبستگیهای تصادفی، حوادث آماری زودگذری هستند.
گسترش اندازه دادهها، الگوهای واقعی را روشن میکند، اما به طور فعال همبستگیهای تصادفی و جعلی بیشتری ایجاد میکند.
آزمایش خارج از نمونه، با نشان دادن فقدان کامل قدرت پیشبینی، فوراً یک همبستگی تصادفی را آشکار میکند.
نظریه رمزی ثابت میکند که برخی الگوها صرفاً به دلیل ضرورت هندسی باید در مجموعه دادههای عظیم ظاهر شوند.
الگوهای واقعی چیست؟
نظمهای سیستماتیک ریشه در اصول ریاضی زیربنایی یا ساختارهای علّی دارند که در مقیاسها و زمینههای مختلف صادق هستند.
آنها ذاتاً قابلیت پیشبینی دارند و به محققان اجازه میدهند نقاط یا حالتهای آینده را در یک سیستم به طور دقیق پیشبینی کنند.
آنها اغلب به جای مشاهدات صرفاً تجربی، توسط اثباتهای دقیق، استدلال قیاسی یا قوانین فیزیکی تغییرناپذیر پشتیبانی میشوند.
آنها تغییرناپذیری ساختاری را نشان میدهند، به این معنی که رابطه اصلی حتی زمانی که نویز خارجی یا متغیرهای جزئی تغییر میکنند، همچنان پابرجا میماند.
آنها به طور گسترده در نظریه رمزی مورد مطالعه قرار گرفتهاند، که به طور متناقضی ثابت میکند که بینظمی کامل در ساختارهای بزرگ از نظر ریاضی غیرممکن است.
آنها تکرارپذیری بالایی از خود نشان میدهند، به این معنی که تیمهای مستقلی که نمونههای مختلف را تحت پارامترهای مشابه آزمایش میکنند، بارها و بارها قانون یکسانی را کشف خواهند کرد.
همبستگیهای تصادفی چیست؟
همراستاییهای ریاضی تصادفی بین متغیرهای نامرتبط که کاملاً تصادفی یا به دلیل حجم زیاد دادههای تحلیلشده رخ میدهند.
آنها فاقد هرگونه مکانیسم منطقی، فیزیکی یا ریاضی هستند که دو متغیر را فراتر از مسیرهای تصادفی دادهها به هم مرتبط کند.
آنها به شدت مستعد ابتلا به اثر «به جای دیگری نگاه کن» هستند، که در آن تجزیه و تحلیل دادههای کافی، یافتن الگوهای جعلی را تضمین میکند.
آنها بلافاصله پس از آزمایش در برابر دادههای کاملاً تازه و خارج از نمونه یا در بازههای زمانی مختلف، از هم میپاشند.
آنها اغلب به عنوان همبستگیهای کاذب برچسبگذاری میشوند، که به طور مشهور با روندهای تطبیق عجیب و غریب مانند غرق شدن در استخر که با ردیابی انتشار فیلمهای خاص نشان داده میشوند، نشان داده میشوند.
آنها در محیطهای کلانداده به طور چشمگیری مقیاسپذیر هستند، زیرا مجموعه دادههای بزرگتر به طور طبیعی میلیونها تصادف کاملاً تصادفی و از نظر ریاضی اجباری را در خود جای دادهاند.
جدول مقایسه
ویژگی
الگوهای واقعی
همبستگیهای تصادفی
علت زمینهای
قوانین ریاضی یا مکانیک علّی
نویز آماری یا حجم عظیم دادهها
عملکرد خارج از نمونه
ثابت و قابل پیشبینی باقی میماند
روی مجموعه دادههای جدید کاملاً ناموفق است
اثبات ریاضی
میتوان به صورت قیاسی اثبات یا تأیید کرد
قابل اثبات نیست؛ فاقد ساختار منطقی است
تأثیر مقیاسبندی دادهها
الگو را شفاف و تقویت میکند
تعداد تصاعدی لینکهای نادرست ایجاد میکند
توصیف هسته
نظم ساختاری و تغییرناپذیری
همترازی و تصادف ساختگی
مثالهای دنیای واقعی
دنباله فیبوناچی یا توزیع اعداد اول
هزینههای ایالات متحده برای ردیابی علمی نرخ خودکشی
حساسیت به زمینه
مقاوم در برابر تغییرات محیطی
شکننده و در اثر تغییرات زمینه میشکند
مقایسه دقیق
سازوکار علّی در مقابل همترازی شانسی
الگوهای واقعی وجود دارند زیرا یک قانون اساسی یا موتور علّی آنها را هدایت میکند و یک رابطه واقعی بین متغیرها ایجاد میکند. در مقابل، همبستگیهای تصادفی، توهمات ریاضی هستند که از تصادف محض متولد شدهاند. آنها مانند ارتباطات معنادار در یک نمودار به نظر میرسند، اما کاملاً فاقد یک پل منطقی هستند که دو پدیده را به هم متصل کند.
رفتار با مجموعه دادههای در حال گسترش
جمعآوری دادههای بیشتر، مانند سرم حقیقت برای الگوهای ریاضی واقعی عمل میکند، وضوح آنها را اصلاح کرده و نویزهای سطحی را از بین میبرد. با این حال، برای همبستگیهای تصادفی، مجموعه دادههای عظیم در واقع بستر مناسبی هستند. با بزرگتر شدن یک پایگاه داده، قوانین احتمال حکم میکنند که معیارهای کاملاً نامرتبط، ناگزیر و کاملاً تصادفی با هم همسو میشوند.
قابلیت اطمینان پیشبینیکننده و آزمایش خارج از نمونه
اگر به یک الگوی واقعی، دادههای تازه و بررسی نشده بدهید، به پیشبینی دقیق نتایج ادامه میدهد زیرا منطق بنیادی آن همچنان پابرجاست. همبستگیهای تصادفی به محض مواجهه با آزمایش خارج از نمونه، از بین میروند. از آنجا که همترازی اولیه آنها فقط یک تاس آماری بوده است، دادههای جدید صفحه را از نو تنظیم میکنند و فقدان یک پیوند واقعی را آشکار میکنند.
نقش نظریه رمزی
نظریه رمزی با نشان دادن اینکه هرج و مرج کامل غیرممکن است، یک پل ریاضی جذاب بین این دو ایده ایجاد میکند. وقتی یک سیستم به اندازه کافی بزرگ میشود، الگوهای خاصی از نظر ریاضی مجبور به ظاهر شدن میشوند، حتی اگر دادهها کاملاً تصادفی باشند. این بدان معناست که برخی از الگوهای مشاهده شده در واقع محصول ضرورت ساختاری هستند تا یک رابطه جالب و معنادار.
مزایا و معایب
الگوهای واقعی
مزایا
+بسیار پیشبینیکننده و قابل اعتماد
+مبتنی بر قوانین ریاضی
+آزمایش خارج از نمونه را پشت سر میگذارد
+حقایق اساسی سیستمیک را آشکار میکند
مصرف شده
−اغلب کشف کردنش سختتر است
−نیاز به اثبات زمینهای عمیق دارد
−میتواند توسط نویز مبهم شود
−روشهای اعتبارسنجی دقیقی را میطلبد
همبستگیهای تصادفی
مزایا
+تشخیص بصری آسان
+فرضیههای اولیه خلاقانه را تحریک میکند
+محدودیتهای دادهکاوی را برجسته میکند
+تلههای آماری پایه را نشان میدهد
مصرف شده
−کاملاً بیفایده برای پیشبینی
−تحلیلگران و محققان را گمراه میکند
−با دادههای جدید از هم میپاشد
−منابع محاسباتی را به شدت هدر میدهد
تصورات نادرست رایج
افسانه
ضریب همبستگی بالا همیشه ثابت میکند که یک الگوی واقعی و درست بین دو متغیر وجود دارد.
واقعیت
همبستگی بالا به سادگی نشان میدهد که دو خط داده در طول یک دوره خاص با هم حرکت کردهاند. بدون یک پیوند علّی یا پایه ساختاری، این همترازی اغلب فقط یک همبستگی جعلی است که توسط شانس تصادفی هدایت میشود.
افسانه
کلانداده مشکل همزمانیهای تصادفی را از بین میبرد، زیرا حجم نمونههای بزرگتر همیشه دقیقتر هستند.
واقعیت
حجم عظیم دادهها در واقع تولد الگوهای جعلی را تقویت میکند. با میلیاردها نقطه داده، فرصتهای ریاضی برای همگامسازی متغیرهای کاملاً نامرتبط به صورت تصاعدی افزایش مییابد و همبستگیهای تصادفی را اجتنابناپذیر میکند.
افسانه
هر الگویی که توسط قوانین ریاضی مانند نظریه رمزی ظاهر میشود، نشاندهنده یک کشف علمی معنادار است.
واقعیت
نظریه رمزی نشان میدهد که نظم به طور طبیعی از انبوه دادهها صرفاً به دلیل محدودیتهای ساختاری پدیدار میشود. این الگوهای اجباری اغلب بیاهمیت هستند و چیزی در مورد رفتار فردی یا روابط علی به ما نمیگویند.
افسانه
اگر یک همبستگی طی چندین سال ادامه یابد، نمیتواند یک تصادف تصادفی باشد.
واقعیت
دادههای سری زمانی میتوانند به دلیل روندهای کلان نامرتبط، مانند تورم یا رشد جمعیت، سالها در جهتهای یکسانی حرکت کنند. این امر همبستگیهای تصادفی طولانیمدتی ایجاد میکند که هنوز کاملاً فاقد هرگونه ارتباط واقعی هستند.
سوالات متداول
تفاوت اصلی ریاضی بین یک الگوی واقعی و یک همبستگی تصادفی چیست؟
یک الگوی واقعی بر اساس یک قانون ریاضی ثابت و تغییرناپذیر یا پایه علّی ساخته شده است که در مجموعه دادههای مختلف ثابت میماند. همبستگی تصادفی، همترازی تصادفی نقاط داده است که کاملاً تصادفی رخ میدهد و معمولاً با معرفی دادههای جدید از بین میرود.
چگونه اثر نگاه به جای دیگر، همبستگیهای تصادفی ایجاد میکند؟
وقتی محققان هزاران متغیر را بدون فرضیه خاصی در برابر یکدیگر آزمایش میکنند، مطمئناً چیزی را پیدا میکنند که صرفاً به صورت تصادفی با هم همبستگی دارد. اثر «نگاه به جای دیگر» نشان میدهد که چگونه افزایش تعداد مقایسهها عملاً تضمین میکند که نوسانات آماری تصادفی از یک الگوی واقعی تقلید کنند.
آیا میتوان از همبستگی تصادفی برای پیشبینیهای کوتاهمدت استفاده کرد؟
تکیه بر یک همبستگی تصادفی برای پیشبینیها فوقالعاده خطرناک است و عموماً با شکست مواجه میشود. از آنجایی که هیچ مکانیسم واقعی برای پیوند دادن متغیرها به یکدیگر وجود ندارد، این همترازی میتواند در هر کسری از ثانیه از بین برود و منجر به پیشبینیهای کاملاً نادرست شود.
چرا نظریه رمزی بیان میکند که بینظمی کامل غیرممکن است؟
نظریه رمزی نشان میدهد که با بزرگتر شدن یک سیستم ریاضی، باید شامل زیرساختارهای کوچک و بسیار منظم باشد. برای مثال، در هر گروه تصادفی شش نفره، همیشه یا سه آشنای متقابل یا سه غریبه متقابل خواهید یافت، که ثابت میکند نظم در مجموعههای به اندازه کافی بزرگ، یک قطعیت هندسی است.
دانشمندان داده چگونه میتوانند تفاوت بین یک الگوی واقعی و یک اتفاق را تشخیص دهند؟
تحلیلگران عمدتاً از آزمایش خارج از نمونه استفاده میکنند، که در آن یافتههای خود را بر روی دادههای کاملاً جدیدی که در تحلیل اولیه استفاده نشدهاند، اعمال میکنند. اگر رابطه در دادههای جدید پابرجا بماند، احتمالاً یک الگوی واقعی است؛ اگر از بین برود، یک اتفاق تصادفی بوده است.
متغیرهای مخدوش کننده چه نقشی در ایجاد الگوهای نادرست دارند؟
متغیر مخدوشکننده، عامل سوم و پنهانی است که به طور مستقل بر هر دو متغیر مورد مطالعه تأثیر میگذارد. این امر همبستگی قوی بین دو متغیر مشاهدهشده ایجاد میکند و باعث میشود که وقتی آنها در واقع فقط مسافران غیرفعال یک راننده پنهان هستند، مانند یک الگوی مستقیم به نظر برسند.
آیا اصل لانه کبوتری نمونهای از یک الگوی واقعی است یا یک همبستگی تصادفی؟
اصل لانه کبوتری یک قانون اساسی ریاضیات است که یک الگوی ساختاری را تضمین میکند، مانند اینکه دو نفر در یک شهر بزرگ تعداد موهای یکسانی روی سر خود دارند. در حالی که خود الگو یک حقیقت مطلق است، تفسیر آن به عنوان یک ارتباط معنادار یا هدفمند بین آن دو فرد خاص خطا خواهد بود.
چگونه p-هکینگ به افزایش همبستگیهای تصادفی در تحقیقات کمک میکند؟
هک کردن P زمانی اتفاق میافتد که محققان دادهها را دستکاری میکنند یا آزمایشهای آماری بیپایانی را اجرا میکنند تا زمانی که نتیجهای پیدا کنند که از نظر آماری معنادار به نظر برسد. این عمل عمداً به دنبال همبستگیهای تصادفی میگردد و چیزی را منتشر میکند که به نظر یک کشف غیرمنتظره میرسد اما در واقع فقط یک قطعه برجسته از نویز آماری است.
آیا الگوهای ریاضی واقعی همیشه باید کاملاً خطی باشند؟
به هیچ وجه، زیرا الگوهای واقعی میتوانند بسیار پیچیده، نمایی، لگاریتمی یا آشوبناک باشند، مانند فرکتالها و سیستمهای آب و هوایی. ویژگی تعیینکننده یک الگوی واقعی، شکل بصری آن بر روی یک نمودار ساده نیست، بلکه پایداری ساختاری و اساس آن در قوانین اساسی است.
حکم
هنگام ساخت مدلهای پیشبینی، تأیید حقایق ریاضی یا ایجاد قوانین علمی که نیاز به ثبات بلندمدت دارند، به الگوهای واقعی تکیه کنید. همبستگیهای تصادفی را به عنوان مصنوعات فریبنده کاوش دادهها بشناسید که باید قبل از نتیجهگیری، با استفاده از آزمایش دقیق فرضیه و اعتبارسنجی خارج از نمونه، فیلتر شوند.