در حالی که تحلیل همبستگی، قدرت خطی و جهت رابطه بین دو متغیر را اندازهگیری میکند، تصویر برداری تعیین میکند که چه مقدار از یک بردار چند بعدی در امتداد مسیر جهتدار بردار دیگر قرار دارد. انتخاب بین آنها مشخص میکند که آیا یک تحلیلگر در حال کشف ارتباطات آماری ساده است یا در حال تبدیل فضای با ابعاد بالا برای خطوط لوله پیشرفته یادگیری ماشین.
برجستهها
همبستگی، روابط را به طور ایمن بین -1 و 1 مقیاسبندی میکند تا تفسیر آسان شود.
تصویر برداری، عمق هندسی و مقیاس مکانی را در ابعاد مختلف حفظ میکند.
تغییرات مقیاس دادهها، همبستگی را دست نخورده باقی میگذارد اما خروجیهای پیشبینی را تغییر میدهد.
پایگاههای داده برداری هوش مصنوعی مدرن به جای همبستگی کلاسیک، به مفاهیم تصویرسازی متکی هستند.
تحلیل همبستگی چیست؟
روشی آماری که برای ارزیابی قدرت و جهت رابطه بین دو سری داده مجزا استفاده میشود.
این معیار، مقادیر را دقیقاً بین ۱.۰- و ۱.۰+ مقیاسبندی میکند تا قدرت رابطه را نشان دهد.
این روش عمدتاً بر تطبیق واریانس استاندارد شده تمرکز دارد تا مختصات مکانی.
این امر دلالت بر رابطه علیت بین متغیرهای مورد بررسی ندارد یا آن را اثبات نمیکند.
میتواند به شدت توسط دادههای پرت شدید در مجموعه دادهها تحریف شود.
هنگام استفاده از محاسبات استاندارد پیرسون، یک اتصال خطی فرض میشود.
طرح ریزی برداری چیست؟
یک عملیات هندسی که یک بردار را بر روی بردار دیگر نگاشت میکند و آن را به مؤلفههای جهتدار تجزیه میکند.
این یک مقدار برداری یا اسکالر حاصل میدهد که مقیاس مکانی را حفظ میکند.
این، ریاضیات پایه برای تحلیل مؤلفههای اصلی و کاهش ابعاد را تشکیل میدهد.
این روش به شدت به محاسبه ضربهای نقطهای در فضای چندبعدی متکی است.
بزرگی آن بر اساس طول بردار پایه هدف تغییر میکند.
از نظر هندسی کوتاهترین فاصله عمودی تا یک خط هدف را مشخص میکند.
جدول مقایسه
ویژگی
تحلیل همبستگی
طرح ریزی برداری
دامنه ریاضی هسته
آمار و احتمال کلاسیک
جبر خطی و هندسه فضایی
فرمت خروجی
یک اسکالر بدون بعد بین -۱ و ۱
یک بردار جدید یا مقدار طول مقیاسبندیشده
ابعاد داده
معمولاً جفت آرایههای یک بعدی را مدیریت میکند.
در فضاهای مختصات چند بعدی عمل میکند
حساسیت مقیاس
مستقل از مقیاس دادهها به دلیل استانداردسازی
وابستگی زیاد به بزرگی و طول بردارها
مورد استفاده مدرن اولیه
تحقیق اکتشافی دادهها و آزمون فرضیه
جاسازیهای LLM، تشخیص چهره و گرافیک
تفسیر هندسی
کسینوس زاویه بین بردارهای مرکز-میانگین
سایهای که توسط یک بردار روی خط پایه دیگر ایجاد میشود
مقایسه دقیق
مبانی ریاضی و محاسبات
تحلیل همبستگی بر استانداردسازی دادهها با تقسیم کوواریانس بر حاصلضرب انحرافات معیار تمرکز دارد و یک معیار بدون مقیاس ایجاد میکند. تصویر برداری از این استانداردسازی اجتناب میکند و اجزای برداری را مستقیماً از طریق ضرب نقطهای ضرب میکند تا یک خط را بر روی خط دیگر نگاشت کند. این بدان معناست که همبستگی به همگامسازی رفتار استاندارد شده نگاه میکند، در حالی که تصویر بر ترازبندی جهتدار مطلق در یک سیستم مختصات تعریف شده تمرکز دارد.
مدیریت ابعاد و مقیاس دادهها
هنگام کار با همبستگی، شما عموماً به چگونگی تغییر دو متغیر در طول زمان یا در طول نمونهها، صرف نظر از واحدهای اصلی آنها، نگاه میکنید. تصویرسازی برداری در فضاهای چندبعدی عظیم، مانند ردیابی معنای معنایی در جاسازیهای متن هوش مصنوعی حاوی هزاران بُعد، رونق میگیرد. تصویرسازی به طول بردارها توجه میکند، به این معنی که بزرگیهای بزرگتر، خروجی فضایی نهایی را تغییر میدهند، در حالی که نوارهای همبستگی به طور کامل مقیاسبندی میشوند.
کاربردهای عملیاتی در تجزیه و تحلیل
دانشمندان داده در طول پاکسازی اولیه دادهها از همبستگی برای شناسایی ویژگیهای اضافی یا اعتبارسنجی فرضیات اساسی کسبوکار، مانند اینکه آیا هزینه تبلیغات به ترافیک وب مربوط میشود یا خیر، استفاده میکنند. تصویرسازی برداری به عنوان یک ابزار کمکی برای الگوریتمهای پیچیده عمل میکند و به کاهش نویز دادهها در تحلیل مؤلفههای اصلی یا محاسبه شباهت معنایی در پایگاههای داده برداری مدرن کمک میکند. یکی به شما در درک ارتباطات ساده کمک میکند، در حالی که دیگری معماری دادهها را برای الگوریتمها بازسازی میکند.
حساسیت به دادههای پرت و طرحبندی دادهها
معیارهای همبستگی خطی وقتی دادهها از منحنیهای غیرخطی پیروی میکنند یا حاوی ناهنجاریهای عظیم و نامشخصی هستند که خط روند را از واقعیت دور میکنند، به سرعت از هم میپاشند. تصویر برداری به دلیل پایبندی به قوانین هندسی سفت و سخت، قابل پیشبینی رفتار میکند، اگرچه یک بردار واحد با بزرگی عظیم میتواند به راحتی بر چشمانداز تصویر تسلط یابد. تحلیلگران باید قبل از تصویر برداری بردارها، تفاوتهای مقیاس را پاک کنند، در حالی که همبستگی به طور خودکار تغییرات واریانس را مدیریت میکند.
مزایا و معایب
تحلیل همبستگی
مزایا
+فوقالعاده آسان برای تفسیر فوری
+مصون از اختلاف مقیاس
+استانداردسازی شده در تمام برنامهها
+مناسب برای انتخاب سریع ویژگیها
مصرف شده
−روندهای پیچیده غیرخطی را نادیده میگیرد
−محدود به جفتسازیهای دو متغیره
−آسیبپذیری بالا در برابر دادههای پرت
−فاصله مکانی را ثبت نمیکند
طرح ریزی برداری
مزایا
+در مهندسی ابعاد بالا سرآمد است
+جهت گیری فضایی حیاتی را حفظ می کند
+جستجوهای مدرن جاسازی را قدرتمند میکند
+کاهش ابعاد کارآمد را ممکن میسازد
مصرف شده
−نیاز به مقیاسبندی برداری یکنواخت دارد
−انتزاعی و تجسم آن دشوارتر است
−نیاز به پردازش محاسباتی بیشتری دارد
−بدون سیستمهای مختصات ساختاریافته بیمعنی است
تصورات نادرست رایج
افسانه
تشابه کسینوسی و تصویر برداری دقیقاً یک عملیات ریاضی یکسان هستند.
واقعیت
آنها پسرعموهای نزدیکی هستند اما در مدیریت مقیاس متفاوتند. تشابه کسینوسی زاویه بین بردارها را جدا میکند و طول آنها را به طور کامل نادیده میگیرد، در حالی که تصویر برداری یک نقطه فرود مکانی واقعی را محاسبه میکند که بر اساس بزرگی بردارها تغییر میکند.
افسانه
نمره همبستگی صفر به این معنی است که دو متغیر مطلقاً هیچ رابطهای ندارند.
واقعیت
امتیاز صفر فقط عدم وجود رابطه خطی را تأیید میکند. متغیرها هنوز میتوانند یک الگوی سهموی یا چرخهای کامل و قابل پیشبینی را به اشتراک بگذارند که الگوریتمهای همبستگی استاندارد به سادگی نمیتوانند آن را ببینند.
افسانه
تصویر برداری فقط در فضاهای ساده دو بعدی یا سه بعدی قابل محاسبه است.
واقعیت
جبر خطی زیربنایی به طور بینقص در ابعاد نامتناهی کار میکند. مدلهای یادگیری ماشین مدرن مرتباً بردارها را در محیطهایی با هزاران بعد مجزا به جلو و عقب تصویر میکنند.
افسانه
همبستگی بالا ثابت میکند که یک متغیر به طور فعال تغییرات را در متغیر دیگر هدایت میکند.
واقعیت
این یک تله تحلیلی کلاسیک است. همبستگی بالا به سادگی نشان میدهد که دو الگوی دادهای به طور همزمان حرکت میکنند، اغلب به این دلیل که هر دو به یک عامل سوم پنهان که نقشهبرداری نشده است، پاسخ میدهند.
سوالات متداول
چگونه متمرکز کردن دادهها حول یک میانگین صفر، همبستگی را به تصویر برداری متصل میکند؟
وقتی یک مجموعه داده را در نظر میگیرید و مقادیر آن را در مرکز قرار میدهید تا میانگین روی صفر قرار گیرد، ریاضی این دو مفهوم به زیبایی همگرا میشوند. به طور خاص، ضریب همبستگی پیرسون با کسینوس زاویه بین آن دو بردار داده که در مرکز میانگین قرار دارند، یکسان میشود. این همپوشانی، شکاف بین آمار کلاسیک و جبر خطی فضایی را پر میکند و نشان میدهد که همبستگی اساساً یک بررسی زاویه هندسی تخصصی است.
چرا پایگاههای داده برداری، فواصل مکانی را به محاسبات همبستگی استاندارد ترجیح میدهند؟
پایگاههای داده برداری، فایلهای حجیمی مانند جاسازیهای متنی، تصاویر یا پروفایلهای صوتی را پردازش میکنند که به آرایههای طولانی از مختصات تبدیل میشوند. اجرای ماتریسهای همبستگی سنتی در میلیونها نقطه با ابعاد بالا از نظر محاسباتی طاقتفرسا است و جهتگیری مکانی را از دست میدهد. عملیات برداری مانند ضرب نقطهای و تصویرسازیها روی سختافزارهای مدرن با سرعت برق اجرا میشوند و آنها را برای تطبیق شباهت در زمان واقعی ایدهآل میکنند.
آیا میتوان از تصویرسازی برداری برای حذف ویژگیهای تکراری در یک مجموعه داده استفاده کرد؟
قطعاً، این استراتژی، طرح اصلی تحلیل مؤلفههای اصلی یا PCA را تشکیل میدهد. با تصویر کردن ابر عظیمی از بردارهای داده بر روی مجموعهای جدید از بردارهای خط پایه عمود، میتوانید ببینید کدام جهتها بیشترین واریانس را ثبت میکنند. سپس میتوانید ابعادی را که حداقل طول تصویر را نشان میدهند، حذف کنید و در عین حال اطلاعات اصلی را دست نخورده نگه دارید و حجم دادههای خود را کاهش دهید.
اگر ناگهان اندازه بردار هدف را دو برابر کنم، چه اتفاقی برای تصویر برداری میافتد؟
اگر بردار A را بر روی بردار B تصویر کنید، نتیجه واقعی تصویر برداری دقیقاً یکسان باقی میماند زیرا جهت B تغییر نکرده است. با این حال، اگر در حال محاسبه مؤلفه اسکالر هستید که از فرمولها برای یافتن طول نسبت به B استفاده میکند، مقدار بر این اساس تنظیم میشود. هنگام نوشتن کد الگوریتم، توجه به این نکته که آیا به بردار جهتدار نیاز دارید یا طول اسکالر خام، بسیار مهم است.
کدام معیار، داشبوردهای تجاری پر سر و صدا و واقعی را بهتر مدیریت میکند؟
تحلیل همبستگی معمولاً برای داشبوردهای تجاری پایه برنده میشود، زیرا با تمرکز صرف بر جهت روند، نویز اعداد خام را فیلتر میکند. اگر اعداد فروش شما از مقادیر عظیمی استفاده میکنند و نرخ تبدیل شما درصدهای کوچکی است، همبستگی آنها را به طور خودکار نرمال میکند تا بتوانید ببینید که آیا آنها با هم حرکت میکنند یا خیر. پیشبینی برداری مستلزم آن است که ابتدا مقیاس دادهها را به صورت دستی نرمال کنید تا از اختلال در محاسبات اعداد فروش جلوگیری شود.
چه زمانی یک تحلیلگر باید همبستگی اسپیرمن را به همبستگی استاندارد پیرسون ترجیح دهد؟
وقتی دادههای شما به طور مداوم با هم حرکت میکنند اما نه در امتداد یک خط کاملاً مستقیم، باید به همبستگی اسپیرمن روی آورید. اسپیرمن قبل از اجرای محاسبات خود، اعداد خام را به موقعیتهای رتبهبندی شده تبدیل میکند. این تغییر به آن اجازه میدهد تا روابط یکنواخت، مانند منحنیهای رشد نمایی، را با موفقیت اندازهگیری کند، در حالی که فرمولهای استاندارد پیرسون یک ارتباط ناقص و ضعیف را گزارش میدهند.
مفهوم تعامد چگونه در مورد این دو معیار اعمال میشود؟
تعامد به این معنی است که دو موجودیت کاملاً مستقل از یکدیگر هستند. در هندسه برداری، اگر دو بردار متعامد باشند، در زاویه ۹۰ درجه قرار میگیرند، به این معنی که تصویر کردن یکی بر روی دیگری نتیجه صفر را به همراه دارد. در آمار، وقتی دو جریان داده کاملاً غیر همبسته باشند، ضریب همبستگی آنها صفر است، به این معنی که آنها هیچ واریانس همپوشانی یا ارتباط خطی ندارند.
آیا شباهت برداری بالا به این معنی است که دو متغیر در طول زمان همبستگی قوی نشان خواهند داد؟
نه لزوماً، زیرا معیارهای شباهت اغلب به جای حرکت هماهنگ در یک جدول زمانی، به قرارگیری ایستا در یک فضای جاسازی نگاه میکنند. دو بردار ممکن است در نقشه مکانی یک مدل نزدیک به هم قرار بگیرند زیرا یک دسته مفهومی را به اشتراک میگذارند، اما مقادیر عملیاتی روزانه آنها ممکن است کاملاً مستقل حرکت کنند. شما باید ابزار را با سوال خاصی که میخواهید به آن پاسخ دهید، مطابقت دهید.
حکم
وقتی نیاز دارید که به سرعت رابطه بین دو متغیر را ارزیابی کنید یا همخطی چندگانه را در مدلهای آماری بررسی کنید، از تحلیل همبستگی استفاده کنید. هنگام ساخت گردشهای کاری یادگیری ماشین، دستکاری جاسازیهای مکانی یا کاهش ابعاد مجموعه دادههای پیچیده و چند متغیره، به تصویر برداری برداری روی آورید.