المزيد من الميزات يعني دائماً نموذجاً أفضل.
غالباً ما تؤدي إضافة ميزات دون مبرر إلى تشويش البيانات وتعدد الارتباطات الخطية، مما قد يؤثر سلباً على الأداء. فالجودة والملاءمة أهم بكثير من الكمية، ولذلك يبقى الحذف ضرورياً حتى بعد إضافة الميزات.
يمثل تقليم الميزات وإثرائها استراتيجيتين متضادتين في التعلم الآلي: الأولى تزيل البيانات غير الضرورية لتبسيط النماذج، بينما تضيف الثانية معلومات جديدة لتعزيز القدرة التنبؤية. ويعتمد اختيار إحداهما على ما إذا كان النموذج يعاني من تشويش أو من نقص في السياق.
تقنية تعمل على إزالة الميزات غير ذات الصلة أو الزائدة من مجموعة البيانات لتحسين أداء النموذج وتقليل التعقيد.
عملية إضافة متغيرات جديدة أو تحويل المتغيرات الموجودة لإعطاء نماذج التعلم الآلي معلومات أكثر ثراءً للتنبؤات.
| الميزة | تقليم الميزات | إثراء الميزات |
|---|---|---|
| الهدف الرئيسي | إزالة الميزات غير الضرورية | أضف ميزات قيّمة |
| التأثير على حجم مجموعة البيانات | يقلل من عدد الميزات | يزيد عدد الميزات |
| التأثير على تعقيد النموذج | يبسط النموذج | يزيد من تعقيد النموذج |
| يُفضل استخدامه عندما | النموذج يعاني من فرط التخصيص أو بطء في الأداء | النموذج غير ملائم أو يفتقر إلى السياق |
| التقنيات الشائعة | لاسو، الأهمية القائمة على الشجرة، تحليل المكونات الرئيسية | التشفير، والتضمينات، وتقاطعات الميزات |
| مخاطرة | إزالة الميزات المفيدة عن طريق الخطأ | إضافة ميزات مزعجة أو زائدة عن الحاجة |
| التكلفة الحسابية | عادةً ما تكون أقل بعد التقليم | أعلى عموماً بسبب المزيد من الميزات |
| قابلية التفسير | عادة ما يتحسن | قد يصبح تفسيرها أكثر صعوبة |
تعتمد عملية تقليم الميزات على فلسفة التبسيط: فالأقل هو الأكثر. من خلال إزالة المتغيرات التي لا تُضيف قيمة تنبؤية تُذكر، يُركز النموذج على ما يهم حقًا. أما إثراء الميزات فيتبنى موقفًا معاكسًا، إذ يعتقد أن المدخلات الأكثر ثراءً وتفصيلًا تُؤدي إلى تنبؤات أدق. لكلتا الفلسفتين مزاياها، ويعتمد الاختيار الأمثل على جودة واكتمال بياناتك الأولية.
تُعدّ عملية التقليم أكثر فعالية عند وجود مئات أو آلاف من الخصائص، مع الاشتباه في أن العديد منها مجرد تشويش، كما هو الحال في البيانات الجينومية أو تصنيف النصوص باستخدام نماذج "حقيبة الكلمات". أما عملية الإثراء فتُحقق نتائج ممتازة عندما تكون مجموعة البيانات لديك متفرقة أو تفتقر إلى سياق بالغ الأهمية، مثل التنبؤ بانقطاع العملاء باستخدام البيانات الديموغرافية الأساسية فقط دون تاريخ سلوكي. عمليًا، غالبًا ما يجمع علماء البيانات بين الطريقتين: الإثراء أولًا، ثم تقليم المجموعة الموسعة.
تتميز النماذج المُهذّبة بسرعة تدريبها واستهلاكها المنخفض للذاكرة، مما يجعلها مثالية للأجهزة الطرفية أو الأنظمة الآنية. قد تحقق النماذج المُحسّنة دقة أعلى، ولكن على حساب زيادة وقت التدريب واحتياجها إلى مساحة تخزين أكبر. يُمكن تبرير العبء الحسابي للتحسين عندما تُترجم مكاسب الدقة مباشرةً إلى قيمة تجارية، كما هو الحال في التشخيص الطبي أو مكافحة الاحتيال.
يكمن الخطر الأكبر في عملية التقليم في حذف ميزة بدت غير مهمة، لكنها في الواقع مؤثرة في التفاعلات الدقيقة. أما الخطر الرئيسي في عملية الإثراء فهو تضخم الميزات، حيث يؤدي إضافة عدد كبير جدًا من المتغيرات المشتقة إلى تعدد الارتباطات الخطية والتخصيص الزائد. ويمكن التخفيف من كلا المشكلتين من خلال التحقق المتبادل والمراقبة الدقيقة لمقاييس التحقق أثناء التجربة.
يؤدي التقليم بطبيعة الحال إلى نماذج أبسط يسهل على أصحاب المصلحة فهمها، إذ أن قلة المدخلات تعني تفسيرات أوضح. أما الإثراء فقد يُعقّد الأمور بإضافة خصائص مُصممة هندسيًا ذات معنى غير واضح، مثل متجهات التضمين أو مصطلحات التفاعل. مع ذلك، فإن مسارات الإثراء الموثقة جيدًا ذات أسماء الخصائص الواضحة تحافظ على قابلية التفسير مع تحسين الأداء في الوقت نفسه.
المزيد من الميزات يعني دائماً نموذجاً أفضل.
غالباً ما تؤدي إضافة ميزات دون مبرر إلى تشويش البيانات وتعدد الارتباطات الخطية، مما قد يؤثر سلباً على الأداء. فالجودة والملاءمة أهم بكثير من الكمية، ولذلك يبقى الحذف ضرورياً حتى بعد إضافة الميزات.
إن عملية تقليم الميزات هي مجرد حذف الأعمدة بشكل عشوائي.
تعتمد عملية التقليم الفعّالة على الاختبارات الإحصائية، أو درجات الأهمية المستندة إلى النماذج، أو الخبرة في المجال لتحديد الميزات عديمة الفائدة. أما الحذف العشوائي فسيؤدي حتماً إلى إزالة معلومات قيّمة مع الضوضاء.
تحسين الميزات يؤدي دائمًا إلى تحسين الدقة.
لا يُفيد الإثراء إلا عندما تحمل الميزات الجديدة معلومات تنبؤية حقيقية. ويمكن أن يؤدي إضافة ميزات مُصممة بشكل غير ذي صلة أو زائدة عن الحاجة إلى تدهور أداء النموذج بنفس سهولة تحسينه.
عليك أن تختار إحدى الاستراتيجيتين.
في مسارات التعلم الآلي الواقعية، تُعدّ عمليتا الإثراء والتقليم خطوتين متكاملتين. عادةً ما تقوم الفرق بإثراء البيانات الأولية أولاً، ثم تقوم بتقليم مجموعة الميزات الموسعة للاحتفاظ فقط بما يُحرك التنبؤات فعلاً.
يؤدي التقليم إلى جعل النماذج أقل دقة بحكم التعريف.
تُزيل عملية التقليم الميزات التي تُضعف التعميم، لذا فإن التقليم المُنفذ جيدًا غالبًا ما يُحسّن دقة مجموعة الاختبار. والهدف ليس تقليل الميزات بشكل عشوائي، بل الاحتفاظ فقط بتلك التي تُساهم بشكلٍ فعّال في التنبؤات.
اختر تقليم الميزات عندما يُعاني نموذجك من فرط التخصيص، أو بطء التدريب، أو صعوبة التعامل مع البيانات عالية الأبعاد. استخدم إثراء الميزات عندما تستقر دقة النموذج بسبب افتقار مجموعة البيانات إلى السياق اللازم لفهم الأنماط الواقعية. في معظم عمليات الإنتاج، يُعدّ الإثراء المدروس ثم التقليم المكثف هو المسار الأمثل للوصول إلى التوازن الأمثل.
يُحسّن كلٌّ من RAG ونماذج LLM المُحسّنة جودة مخرجات الذكاء الاصطناعي، لكنهما يعملان بطرق مختلفة تمامًا. يستخلص RAG المعلومات الخارجية عند الاستعلام، بينما يُدمج التحسين المعرفة الجديدة مباشرةً في أوزان النموذج. ويعتمد الاختيار بينهما على مدى تكرار تغيّر البيانات ومستوى الدقة المطلوب.
تُعد آليات الانتباه الذاتي ونماذج فضاء الحالة من المناهج الأساسية لنمذجة التسلسلات في الذكاء الاصطناعي الحديث. يتفوق الانتباه الذاتي في التقاط العلاقات الغنية بين الرموز، ولكنه يصبح مكلفًا مع التسلسلات الطويلة، بينما تعالج نماذج فضاء الحالة التسلسلات بكفاءة أكبر مع التوسع الخطي، مما يجعلها جذابة للتطبيقات ذات السياق الطويل والتطبيقات الآنية.
تُعدّ آليات الانتباه أساسية في الذكاء الاصطناعي الحديث، سواءً في مجال رؤية الحاسوب أو معالجة اللغة الطبيعية، إلا أنها تخدم أغراضًا مختلفة وتطورت عبر مسارات متباينة. يساعد الانتباه في مجال الرؤية النماذج على التركيز على مناطق الصورة ذات الصلة، بينما يُمكّن الانتباه في معالجة اللغة الطبيعية من فهم العلاقات بين الكلمات في النصوص.
تجمع أساليب الممثل-الناقد بين تدرجات السياسة ودالة القيمة المُتعلمة لتقليل التباين وتسريع عملية التعلم، بينما تعتمد أساليب تدرج السياسة البحتة كليًا على السياسة وعوائد مونت كارلو. ويعتمد الاختيار بينهما على ما إذا كنت بحاجة إلى الاستقرار وكفاءة العينة أم إلى البساطة والتقديرات غير المتحيزة.
تُفصّل هذه المقارنة الاختلافات الهيكلية الأساسية، وحالات الاستخدام العملية، والمفاضلات في الأداء بين تعلّم الرسم البياني الزمني ونمذجة التسلسل التقليدية. فبينما تُجسّد نمذجة التسلسل التطورات الخطية كالنصوص أو بيانات السلاسل الزمنية، يُعالج تعلّم الرسم البياني الزمني تفاعلات الشبكة والعلاقات المتغيرة مع الزمن في آنٍ واحد، مما يُوفر لك مخططًا شاملاً لاختيار البنية المناسبة.