المكونات الرئيسية والقيم المفردة مفاهيم مستقلة تماماً.
إنها مترابطة بعمق من خلال مركزية البيانات. عندما يتم طرح المتوسط من مصفوفة البيانات، فإن قيمها المفردة تتناسب طرديًا مع الجذور التربيعية للتباينات على طول المكونات الرئيسية.
على الرغم من أن علماء البيانات يصادفون كلا المصطلحين بشكل متكرر في عملية تقليل الأبعاد، فإن المكونات الرئيسية تصف اتجاهات التباين الأقصى في مجموعة البيانات، بينما تقيس القيم المفردة مقدار التغير على طول تلك المحاور الهندسية أثناء تحليل المصفوفة. ويُعد فهم العلاقة الرياضية بينهما أساسيًا لإتقان خوارزميات مثل تحليل المكونات الرئيسية (PCA) وتحليل القيم المفردة (SVD).
المتجهات المتعامدة التي تشير إلى اتجاهات التباين الأقصى، مما يساعد على تبسيط وتكثيف البيانات عالية الأبعاد.
المدخلات القطرية لمصفوفة القيم المفردة، والتي تمثل عوامل القياس المطلقة للتحويل الخطي.
| الميزة | المكونات الرئيسية | القيم المفردة |
|---|---|---|
| الأصل الرياضي | المتجهات الذاتية لمصفوفة التغاير | عوامل تحليل المصفوفة (SVD) |
| التفسير الهندسي | اتجاهات التباين الأقصى | قياس أطوال المحاور الرئيسية |
| متطلبات البيانات | يتطلب ذلك بيانات مركزية حول المتوسط للحصول على دلالة إحصائية | ينطبق على أي مصفوفة مستطيلة أو مربعة عشوائية |
| العلاقة بالقيم الذاتية | مساوياً للقيم الذاتية لمصفوفة التغاير | يساوي الجذر التربيعي للقيم الذاتية لضرب المصفوفة |
| التطبيق الأساسي | تقليل الأبعاد واستخراج الميزات | معكوس المصفوفة، وحساب المعكوس الزائف، والتقريب منخفض الرتبة |
| الاعتماد على الحجم | تم تغييرها بشكل كبير عن طريق تغيير موضع البيانات أو تحجيمها | الخاصية المتأصلة للمصفوفة المحددة التي يتم تحليلها |
| التفسير المادي | محاور شكل بيضاوي لسحابة بيانات | عوامل التمدد للكرة الوحدوية المحولة |
تمثل المكونات الرئيسية الاتجاهات المحددة التي تتغير فيها البيانات بشكل كبير، وتعمل كمحاور جديدة لنظام إحداثيات مُحسَّن. في المقابل، القيم المفردة هي كميات قياسية تكشف عن مدى تمدد أو انضغاط المصفوفة للمساحة على طول تلك المحاور. فبينما يُعطي أحدهما اتجاه سحابة البيانات، يقيس الآخر مقدار التحويل نفسه.
لإيجاد المكونات الرئيسية بالطريقة التقليدية، يجب حساب المتجهات الذاتية لمصفوفة التباين المشترك لمجموعة البيانات. تنشأ القيم المفردة من تحليل القيم المفردة، حيث تنقسم أي مصفوفة إلى ثلاث مصفوفات مكونة متميزة. عند توسيط البيانات بطرح المتوسط، فإن مربع القيمة المفردة مقسومًا على حجم العينة ناقص واحد يساوي تمامًا تباين ذلك المكون الرئيسي.
تتغير المكونات الرئيسية بشكل كبير إذا أغفلتَ توسيط البيانات أو توحيدها، لأن التباين الإحصائي يعتمد بشكل كبير على نقطة الأصل ومقاييس المتغيرات. أما القيم المفردة، فهي خاصية جبرية أساسية للمصفوفة الأصلية. ولا تتأثر هذه القيم بالافتراضات الإحصائية إلا إذا قام المستخدم بإنشاء مصفوفة تباين مركزية أولاً.
يعتمد محللو البيانات على تحليل المكونات الرئيسية لتمثيل مجموعات البيانات المعقدة عالية الأبعاد في رسوم بيانية ثنائية الأبعاد بسيطة. في المقابل، يستخدم مهندسو رؤية الحاسوب القيم المفردة لضغط الصور وأنظمة التوصية عبر تقريبات المصفوفات منخفضة الرتبة. في الواقع، يُعد تحليل القيم المفردة (SVD) المحرك العددي المفضل وراء تحليل المكونات الرئيسية (PCA) لأن حساب القيم المفردة يتجنب فقدان الدقة الذي يحدث عند بناء مصفوفة التغاير.
المكونات الرئيسية والقيم المفردة مفاهيم مستقلة تماماً.
إنها مترابطة بعمق من خلال مركزية البيانات. عندما يتم طرح المتوسط من مصفوفة البيانات، فإن قيمها المفردة تتناسب طرديًا مع الجذور التربيعية للتباينات على طول المكونات الرئيسية.
يجب عليك دائمًا حساب مصفوفة التغاير لإيجاد المكونات الرئيسية.
نادراً ما تحسب البرامج الحديثة مصفوفة التغاير لأن ذلك يُدخل أخطاء تقريبية عددية. بدلاً من ذلك، تُجري الخوارزميات تحليل القيم المفردة (SVD) على مصفوفة البيانات مباشرةً، مما يستخرج المكونات الرئيسية بأمان وكفاءة أكبر.
يمكن أن تكون القيم المفردة سالبة إذا أظهرت البيانات ارتباطًا سلبيًا.
القيم المفردة هي، بحسب التعريف، الجذور التربيعية الموجبة للقيم الذاتية لمصفوفة متناظرة. وهي دائماً أعداد حقيقية غير سالبة، تمثل أطوالاً أو عوامل تمدد، بغض النظر عن الارتباطات في البيانات الأصلية.
تؤدي إضافة قيمة ثابتة إلى جميع نقاط البيانات إلى تغيير القيم المفردة والمكونات الرئيسية بالتساوي.
يؤدي تحريك البيانات بمقدار ثابت إلى تغيير القيم المفردة لأن عناصر المصفوفة الأصلية تتغير. ومع ذلك، ولأن المكونات الرئيسية تعتمد على مصفوفة التغاير، التي تطرح المتوسط بطبيعتها، فإن تحريك البيانات لا يُغير المكونات الرئيسية على الإطلاق.
المكون الرئيسي الأول يلتقط دائماً جميع المعلومات القيّمة.
لا يلتقط المكون الأول سوى أقصى تباين على طول محور واحد. إذا كانت بياناتك موزعة كرويًا أو تحتوي على أنماط غير خطية مهمة، فقد يغفل مكون خطي واحد أهم البنى تمامًا.
اختر تحليل المكونات الرئيسية عندما يكون هدفك الأساسي هو تفسير أو تصوير أو تقليل خصائص مجموعة بيانات إحصائية بناءً على التباين. اختر القيم المفردة عندما تحتاج إلى حل أنظمة خطية، أو ضغط المصفوفات، أو إجراء حسابات عددية مستقرة دون الحاجة إلى معالجة إحصائية مسبقة.
بينما توفر أنظمة الإحداثيات إطارًا شاملاً لرسم خرائط وتحديد مواقع النقاط عبر مساحة معينة، يركز القياس الزاوي تحديدًا على قياس الدوران أو الفتحة بين الخطوط المتقاطعة. يُعد فهم كيفية تفاعل هذين المفهومين الرياضيين أمرًا أساسيًا في مجالات تتراوح من الهندسة الأساسية إلى الهندسة المتقدمة والملاحة العالمية.
تعتمد آليات اللعبة على تصميمات رياضية أساسية مميزة لتشكيل تجارب اللاعبين، حيث تتناقض البيئات العشوائية غير المتوقعة مع الهياكل الحتمية تمامًا. تستخدم أنظمة الاحتمالات توليد الأرقام العشوائية لإضفاء عنصر عدم اليقين وإمكانية إعادة اللعب، بينما توفر أنظمة النتائج الثابتة إمكانية التنبؤ المطلق حيث ينتج عن كل إجراء محدد نتيجة مضمونة ومتطابقة.
بينما تقوم أنظمة خطوط الطول والعرض برسم المواقع على سطح كروي ثلاثي الأبعاد باستخدام قياسين زاويين متعامدين مثبتين على خط استواء الأرض وخط الزوال الرئيسي، فإن أنظمة الإحداثيات القطبية تحدد المواقع على مستوى ثنائي الأبعاد مسطح باستخدام مسافة شعاعية مستقيمة مقترنة بزاوية واحدة مقاسة من شعاع بداية مركزي.
بينما ينطوي التعرف على الأنماط على رصد الانتظامات والاتجاهات الظاهرة في البيانات الرياضية، يتعمق اكتشاف البنية أكثر للكشف عن القواعد الأساسية الخفية والأطر الجبرية التي تحكم تلك الملاحظات. إن إتقان كلا الأمرين يمكّن علماء الرياضيات ليس فقط من التنبؤ بالخطوة التالية في التسلسل، بل أيضًا من فهم القوانين الأساسية التي تحكم النظام بأكمله.
بينما تتعامل الأعداد المجردة مع الكميات كمنطق رمزي بحت تحكمه قواعد رسمية ومعادلات جبرية، فإن التفسيرات الهندسية تُسقط هذه القيم نفسها على أشكال وخطوط وأبعاد مكانية ملموسة. يشكل هذان المنظوران معًا لغة مزدوجة في الرياضيات، توازن بين الكفاءة الرمزية المجردة والفهم البصري البديهي.