Comparthing Logo
الرياضياتعلم البياناتالجبر الخطيالتعلم الآلي

المكونات الرئيسية مقابل القيم المفردة

على الرغم من أن علماء البيانات يصادفون كلا المصطلحين بشكل متكرر في عملية تقليل الأبعاد، فإن المكونات الرئيسية تصف اتجاهات التباين الأقصى في مجموعة البيانات، بينما تقيس القيم المفردة مقدار التغير على طول تلك المحاور الهندسية أثناء تحليل المصفوفة. ويُعد فهم العلاقة الرياضية بينهما أساسيًا لإتقان خوارزميات مثل تحليل المكونات الرئيسية (PCA) وتحليل القيم المفردة (SVD).

المميزات البارزة

  • تحدد المكونات الرئيسية التوجه المكاني لتباين البيانات، بينما تحدد القيم المفردة المقياس.
  • لا يمكن ربطها بجسر رياضي مباشر إلا عندما تكون مصفوفة البيانات الأساسية مركزية بشكل صحيح.
  • يقوم تحليل القيم المفردة (SVD) بحساب القيم المفردة مباشرة، مما يوفر مسارًا أكثر استقرارًا عدديًا لإيجاد المكونات الرئيسية.
  • يجب أن تكون المكونات الرئيسية متعامدة مع بعضها البعض، في حين أن القيم المفردة هي أعداد حقيقية غير سالبة تمامًا.

ما هو المكونات الرئيسية؟

المتجهات المتعامدة التي تشير إلى اتجاهات التباين الأقصى، مما يساعد على تبسيط وتكثيف البيانات عالية الأبعاد.

  • وهي تتوافق مباشرة مع المتجهات الذاتية لمصفوفة التغاير لمجموعة البيانات.
  • يمثل المكون الرئيسي الأول أعلى نسبة تباين ممكنة في البيانات.
  • كل مكون لاحق يكون متعامدًا تمامًا مع المكونات التي تسبقه، مما يضمن عدم وجود ارتباط.
  • تعتمد هذه الطرق بشكل كبير على قياس البيانات، مما يجعل عملية التمركز حول المتوسط خطوة أساسية في المعالجة المسبقة.
  • يستخدمها المهندسون لإسقاط المساحات عالية الأبعاد إلى أبعاد أقل مع الحفاظ على المعلومات.

ما هو القيم المفردة؟

المدخلات القطرية لمصفوفة القيم المفردة، والتي تمثل عوامل القياس المطلقة للتحويل الخطي.

  • يتم حسابها على أنها الجذور التربيعية الموجبة للقيم الذاتية للمصفوفة مضروبة في منقولتها.
  • كل مصفوفة حقيقية، سواء كانت مربعة أو مستطيلة، تمتلك مجموعة فريدة من القيم المفردة.
  • يتم ترتيبها بشكل تقليدي بترتيب تنازلي على طول قطر مصفوفة سيجما في تحليل القيم المفردة (SVD).
  • تشير القيمة المفردة للصفر إلى أن المصفوفة تعاني من نقص في الرتبة أو أنها منفردة.
  • إنها تحدد كمياً التمدد الهندسي أو التشوه الناتج عن تحويل خطي على كرة وحدة.

جدول المقارنة

الميزة المكونات الرئيسية القيم المفردة
الأصل الرياضي المتجهات الذاتية لمصفوفة التغاير عوامل تحليل المصفوفة (SVD)
التفسير الهندسي اتجاهات التباين الأقصى قياس أطوال المحاور الرئيسية
متطلبات البيانات يتطلب ذلك بيانات مركزية حول المتوسط للحصول على دلالة إحصائية ينطبق على أي مصفوفة مستطيلة أو مربعة عشوائية
العلاقة بالقيم الذاتية مساوياً للقيم الذاتية لمصفوفة التغاير يساوي الجذر التربيعي للقيم الذاتية لضرب المصفوفة
التطبيق الأساسي تقليل الأبعاد واستخراج الميزات معكوس المصفوفة، وحساب المعكوس الزائف، والتقريب منخفض الرتبة
الاعتماد على الحجم تم تغييرها بشكل كبير عن طريق تغيير موضع البيانات أو تحجيمها الخاصية المتأصلة للمصفوفة المحددة التي يتم تحليلها
التفسير المادي محاور شكل بيضاوي لسحابة بيانات عوامل التمدد للكرة الوحدوية المحولة

مقارنة مفصلة

التعريف والمفهوم الأساسي

تمثل المكونات الرئيسية الاتجاهات المحددة التي تتغير فيها البيانات بشكل كبير، وتعمل كمحاور جديدة لنظام إحداثيات مُحسَّن. في المقابل، القيم المفردة هي كميات قياسية تكشف عن مدى تمدد أو انضغاط المصفوفة للمساحة على طول تلك المحاور. فبينما يُعطي أحدهما اتجاه سحابة البيانات، يقيس الآخر مقدار التحويل نفسه.

الحساب الرياضي

لإيجاد المكونات الرئيسية بالطريقة التقليدية، يجب حساب المتجهات الذاتية لمصفوفة التباين المشترك لمجموعة البيانات. تنشأ القيم المفردة من تحليل القيم المفردة، حيث تنقسم أي مصفوفة إلى ثلاث مصفوفات مكونة متميزة. عند توسيط البيانات بطرح المتوسط، فإن مربع القيمة المفردة مقسومًا على حجم العينة ناقص واحد يساوي تمامًا تباين ذلك المكون الرئيسي.

الحساسية لمعالجة البيانات المسبقة

تتغير المكونات الرئيسية بشكل كبير إذا أغفلتَ توسيط البيانات أو توحيدها، لأن التباين الإحصائي يعتمد بشكل كبير على نقطة الأصل ومقاييس المتغيرات. أما القيم المفردة، فهي خاصية جبرية أساسية للمصفوفة الأصلية. ولا تتأثر هذه القيم بالافتراضات الإحصائية إلا إذا قام المستخدم بإنشاء مصفوفة تباين مركزية أولاً.

التطبيقات العملية في الصناعة

يعتمد محللو البيانات على تحليل المكونات الرئيسية لتمثيل مجموعات البيانات المعقدة عالية الأبعاد في رسوم بيانية ثنائية الأبعاد بسيطة. في المقابل، يستخدم مهندسو رؤية الحاسوب القيم المفردة لضغط الصور وأنظمة التوصية عبر تقريبات المصفوفات منخفضة الرتبة. في الواقع، يُعد تحليل القيم المفردة (SVD) المحرك العددي المفضل وراء تحليل المكونات الرئيسية (PCA) لأن حساب القيم المفردة يتجنب فقدان الدقة الذي يحدث عند بناء مصفوفة التغاير.

الإيجابيات والسلبيات

المكونات الرئيسية

المزايا

  • + ممتاز لتصور البيانات
  • + يزيل الارتباط الخطي المتعدد
  • + يقلل الضوضاء بشكل فعال
  • + يبسط نماذج التعلم الآلي

تم

  • يفتقر إلى معنى مادي مباشر
  • شديد الحساسية للقيم المتطرفة
  • يتطلب معالجة مسبقة صارمة
  • يحدث فقدان للمعلومات

القيم المفردة

المزايا

  • + يعمل على أي مصفوفة
  • + مستقر عدديًا بدرجة عالية
  • + مثالي للتقريب منخفض الرتبة
  • + يكشف عن رتبة المصفوفة على الفور

تم

  • مفهوم رياضي مجرد
  • مكلفة حسابيًا للمصفوفات الضخمة
  • يفتقر إلى السياق الإحصائي المتأصل
  • يتطلب التفسير الجبر الخطي

الأفكار الخاطئة الشائعة

أسطورة

المكونات الرئيسية والقيم المفردة مفاهيم مستقلة تماماً.

الواقع

إنها مترابطة بعمق من خلال مركزية البيانات. عندما يتم طرح المتوسط من مصفوفة البيانات، فإن قيمها المفردة تتناسب طرديًا مع الجذور التربيعية للتباينات على طول المكونات الرئيسية.

أسطورة

يجب عليك دائمًا حساب مصفوفة التغاير لإيجاد المكونات الرئيسية.

الواقع

نادراً ما تحسب البرامج الحديثة مصفوفة التغاير لأن ذلك يُدخل أخطاء تقريبية عددية. بدلاً من ذلك، تُجري الخوارزميات تحليل القيم المفردة (SVD) على مصفوفة البيانات مباشرةً، مما يستخرج المكونات الرئيسية بأمان وكفاءة أكبر.

أسطورة

يمكن أن تكون القيم المفردة سالبة إذا أظهرت البيانات ارتباطًا سلبيًا.

الواقع

القيم المفردة هي، بحسب التعريف، الجذور التربيعية الموجبة للقيم الذاتية لمصفوفة متناظرة. وهي دائماً أعداد حقيقية غير سالبة، تمثل أطوالاً أو عوامل تمدد، بغض النظر عن الارتباطات في البيانات الأصلية.

أسطورة

تؤدي إضافة قيمة ثابتة إلى جميع نقاط البيانات إلى تغيير القيم المفردة والمكونات الرئيسية بالتساوي.

الواقع

يؤدي تحريك البيانات بمقدار ثابت إلى تغيير القيم المفردة لأن عناصر المصفوفة الأصلية تتغير. ومع ذلك، ولأن المكونات الرئيسية تعتمد على مصفوفة التغاير، التي تطرح المتوسط بطبيعتها، فإن تحريك البيانات لا يُغير المكونات الرئيسية على الإطلاق.

أسطورة

المكون الرئيسي الأول يلتقط دائماً جميع المعلومات القيّمة.

الواقع

لا يلتقط المكون الأول سوى أقصى تباين على طول محور واحد. إذا كانت بياناتك موزعة كرويًا أو تحتوي على أنماط غير خطية مهمة، فقد يغفل مكون خطي واحد أهم البنى تمامًا.

الأسئلة المتداولة

كيف يتم تحويل قيمة مفردة إلى تباين أحد المكونات الرئيسية؟
إذا كان لديك مصفوفة بيانات مركزية ذات عدد معين من العينات، فإنك تربع القيمة المفردة وتقسمها على حجم العينة ناقص واحد. هذه العملية الحسابية تعطي القيمة الذاتية الدقيقة لمصفوفة التغاير، والتي تمثل التباين الذي يستوعبه ذلك المكون الرئيسي المحدد.
هل يمكنك إجراء تحليل المكونات الرئيسية (PCA) دون استخدام تحليل القيم المفردة (SVD)؟
نعم، يمكنك إيجاد المكونات الرئيسية بحساب مصفوفة التغاير بشكل صريح، ثم إيجاد متجهاتها الذاتية باستخدام تحليل القيم الذاتية التقليدي. مع ذلك، فإن هذه الطريقة أقل استقرارًا عدديًا وأكثر عرضة لأخطاء الفاصلة العائمة من طريقة تحليل القيم المفردة (SVD)، ولهذا السبب تُعدّ طريقة SVD المعيار الصناعي.
لماذا يُعدّ مركز البيانات مهماً للغاية بالنسبة للمكونات الرئيسية؟
تهدف تقنية تحليل المكونات الرئيسية (PCA) إلى زيادة التباين حول مركز سحابة البيانات. إذا لم يتم نقل متوسط البيانات إلى نقطة الأصل، فإن المكون الرئيسي الأول سيشير ببساطة من نقطة الأصل نحو مركز مجموعة البيانات، مما يفشل في التقاط البنية الهندسية الداخلية للتباين.
ماذا يحدث إذا كانت للمصفوفة قيمة مفردة تساوي صفرًا؟
تعني القيمة المفردة الصفرية أن المصفوفة ناقصة الرتبة ولا يمكن عكسها. هندسياً، يعني ذلك أن التحويل الخطي يضغط بُعداً واحداً على الأقل بشكل مسطح تماماً، مما يؤدي إلى تحويل الحجم إلى مستوى أو خط.
هل المكونات الرئيسية هي نفسها المتجهات الذاتية؟
هما مرتبطان ارتباطًا وثيقًا لكنهما يختلفان في المصطلحات. المكونات الرئيسية هي نقاط البيانات المسقطة الفعلية على طول المحاور الجديدة، على الرغم من أن العديد من الممارسين يستخدمون المصطلح بشكل عام للإشارة إلى الاتجاهات الرئيسية، وهي في الواقع المتجهات الذاتية لمصفوفة التغاير.
أيهما أفضل لضغط الصور، تحليل المكونات الرئيسية (PCA) أم تحليل القيم المفردة (SVD)؟
يُفضّل عمومًا استخدام تحليل القيم المفردة (SVD) لضغط الصور، فهو أكثر مباشرة، وذلك من خلال تقنية تُسمى تقريب الرتبة المنخفضة. ولأن الصورة عبارة عن مصفوفة مُهيكلة من البكسلات وليست عينة إحصائية من مشاهدات مستقلة، فإن تحليل القيم المفردة يقتطع أقل القيم المفردة أهمية لتقليل حجم الملف بسلاسة.
كم عدد المكونات الرئيسية التي يجب أن أحتفظ بها في النموذج؟
يتمثل أحد الأساليب الشائعة في النظر إلى مخطط التباين أو حساب التباين التراكمي المُفسَّر باستخدام القيم المفردة. ويهدف معظم علماء البيانات إلى الاحتفاظ بعناصر كافية لتغطية ما بين 80% و95% من التباين الكلي، وذلك تبعًا لمستويات التشويش في المشروع المحدد.
هل تتغير القيم المفردة إذا قمت بتبديل المصفوفة؟
لا، لا يؤدي نقل المصفوفة إلى تغيير قيمها المفردة. تبقى القيم المفردة غير الصفرية للمصفوفة ومنقولتها متطابقة تمامًا لأن القيم الذاتية لمصفوفات الضرب الاتجاهي الخاصة بهما متطابقة تمامًا.
ما الفرق بين القيمة الذاتية والقيمة المفردة؟
تُعرَّف القيم الذاتية فقط للمصفوفات المربعة، ويمكن أن تكون أعدادًا مركبة، وتمثل كيفية تغير حجم المتجه دون تغيير اتجاهه. أما القيم المفردة، فتُطبَّق على أي مصفوفة، وهي دائمًا حقيقية وغير سالبة، وتمثل أقصى تمدد للكرة الوحدة تحت تأثير تحويل ما.

الحكم

اختر تحليل المكونات الرئيسية عندما يكون هدفك الأساسي هو تفسير أو تصوير أو تقليل خصائص مجموعة بيانات إحصائية بناءً على التباين. اختر القيم المفردة عندما تحتاج إلى حل أنظمة خطية، أو ضغط المصفوفات، أو إجراء حسابات عددية مستقرة دون الحاجة إلى معالجة إحصائية مسبقة.

المقارنات ذات الصلة

أنظمة الإحداثيات مقابل القياس الزاوي

بينما توفر أنظمة الإحداثيات إطارًا شاملاً لرسم خرائط وتحديد مواقع النقاط عبر مساحة معينة، يركز القياس الزاوي تحديدًا على قياس الدوران أو الفتحة بين الخطوط المتقاطعة. يُعد فهم كيفية تفاعل هذين المفهومين الرياضيين أمرًا أساسيًا في مجالات تتراوح من الهندسة الأساسية إلى الهندسة المتقدمة والملاحة العالمية.

أنظمة الاحتمالات في الألعاب مقابل أنظمة النتائج الثابتة

تعتمد آليات اللعبة على تصميمات رياضية أساسية مميزة لتشكيل تجارب اللاعبين، حيث تتناقض البيئات العشوائية غير المتوقعة مع الهياكل الحتمية تمامًا. تستخدم أنظمة الاحتمالات توليد الأرقام العشوائية لإضفاء عنصر عدم اليقين وإمكانية إعادة اللعب، بينما توفر أنظمة النتائج الثابتة إمكانية التنبؤ المطلق حيث ينتج عن كل إجراء محدد نتيجة مضمونة ومتطابقة.

أنظمة خطوط الطول والعرض مقابل أنظمة الإحداثيات القطبية

بينما تقوم أنظمة خطوط الطول والعرض برسم المواقع على سطح كروي ثلاثي الأبعاد باستخدام قياسين زاويين متعامدين مثبتين على خط استواء الأرض وخط الزوال الرئيسي، فإن أنظمة الإحداثيات القطبية تحدد المواقع على مستوى ثنائي الأبعاد مسطح باستخدام مسافة شعاعية مستقيمة مقترنة بزاوية واحدة مقاسة من شعاع بداية مركزي.

اكتشاف البنية مقابل التعرف على الأنماط

بينما ينطوي التعرف على الأنماط على رصد الانتظامات والاتجاهات الظاهرة في البيانات الرياضية، يتعمق اكتشاف البنية أكثر للكشف عن القواعد الأساسية الخفية والأطر الجبرية التي تحكم تلك الملاحظات. إن إتقان كلا الأمرين يمكّن علماء الرياضيات ليس فقط من التنبؤ بالخطوة التالية في التسلسل، بل أيضًا من فهم القوانين الأساسية التي تحكم النظام بأكمله.

الأرقام المجردة مقابل التفسير الهندسي

بينما تتعامل الأعداد المجردة مع الكميات كمنطق رمزي بحت تحكمه قواعد رسمية ومعادلات جبرية، فإن التفسيرات الهندسية تُسقط هذه القيم نفسها على أشكال وخطوط وأبعاد مكانية ملموسة. يشكل هذان المنظوران معًا لغة مزدوجة في الرياضيات، توازن بين الكفاءة الرمزية المجردة والفهم البصري البديهي.