معالجة اللغة الطبيعيةالتجزئةالتعلم الآليالتكيف مع المجالالذكاء الاصطناعي

تعميم التجزئة مقابل التجزئة الخاصة بالمجال

يقوم تعميم التجزئة ببناء مفردات الكلمات الفرعية من مجموعات ضخمة ومتنوعة للتعامل مع أي نص، بينما يقوم التجزئة الخاصة بالمجال بصياغة مفردات متخصصة لمجالات ضيقة مثل الطب أو القانون لتعزيز الدقة وتقليل تضخم الرموز في اللغة التقنية.

المميزات البارزة

يمكن لبرامج تحليل النطاقات أن تقلل عدد الرموز بنسبة 30-50% في المستندات التقنية مقارنة بالأساليب العامة.
تواجه أدوات التجزئة العامة مثل BPE و WordPiece صعوبة في التعامل مع الكيانات النادرة متعددة الكلمات التي تحافظ عليها مفردات المجال سليمة.
يُظهر كل من BioBERT و SciBERT مكاسب قابلة للقياس في التعرف على الكيانات المسماة من خلال تخصيص المفردات في الطب الحيوي والعلوم.
يعتمد الاختيار على ما إذا كانت المرونة عبر المجالات أو دقة المتخصصين القصوى توفر قيمة أكبر لحالة الاستخدام الخاصة بك.

ما هو تعميم التجزئة؟

أدوات تجزئة الكلمات الفرعية العالمية المدربة على مجموعات بيانات واسعة ومتعددة اللغات لمهام معالجة اللغة الطبيعية ذات الأغراض العامة.

تم تدريب مُجزئ الكلمات WordPiece الخاص بـ BERT على ويكيبيديا و BookCorpus، مما أسفر عن مفردات تضم حوالي 30000 رمز.
يقوم ترميز أزواج البايت (BPE)، الذي اشتهر بفضل GPT-2، بدمج أزواج الأحرف المتكررة بشكل متكرر من مجموعات نصية كبيرة ومتنوعة.
غالباً ما تواجه أدوات التجزئة العامة صعوبة في التعامل مع مصطلحات المجال النادرة، حيث تقوم بتقسيم عبارة "pneumonoultramicroscopicsilicovolcanoconiosis" إلى أكثر من 10 أجزاء.
تدعم أدوات التجزئة العامة متعددة اللغات مثل mBERT أكثر من 100 لغة بمفردات مشتركة واحدة.
تقوم مكتبة SentencePiece بتنفيذ عملية تجزئة الكلمات غير المعتمدة على اللغة، حيث تتعامل مع النص كتدفقات بايت خام دون تجزئة مسبقة خاصة باللغة.

ما هو تجزئة الكلمات الخاصة بالمجال؟

أدوات تجزئة مخصصة مُحسَّنة للمفردات المتخصصة في مجالات مثل الطب الحيوي والقانون والتمويل.

يقوم مُجزئ الكلمات في BioBERT بتوسيع مفردات BERT بمصطلحات طبية حيوية خاصة بالمجال، مما يحسن التعرف على الكيانات المسماة في أسماء الأمراض والأدوية.
يقوم SciBERT بتدريب نموذج SentencePiece الخاص به على 1.14 مليون ورقة بحثية من Semantic Scholar، مما يؤدي إلى التقاط الرموز العلمية والمصطلحات المتخصصة.
تحافظ أدوات التجزئة القانونية على الكيانات متعددة الكلمات مثل "habeas corpus" أو "force majeure" كرموز مفردة، مما يساعد في تحليل العقود.
يمكن لتكييف المجال أن يقلل عدد الرموز بنسبة 30-50% للمستندات التقنية مقارنة بأدوات التجزئة العامة، مما يقلل تكاليف الاستدلال.
تقوم أجهزة التجزئة السريرية في أنظمة مثل c2b2b بمعالجة المعلومات الصحية المحمية عن طريق الحفاظ على جرعات الأدوية الدقيقة والتواريخ كوحدات ذرية.

جدول المقارنة

الميزة	تعميم التجزئة	تجزئة الكلمات الخاصة بالمجال
مجموعة التدريب	نصوص متنوعة ضخمة (الويب، الكتب، ويكيبيديا)	مجموعات بيانات منسقة من مجالات محددة (أوراق بحثية، براءات اختراع، ملاحظات سريرية)
حجم المفردات	عادةً ما تتراوح بين 30 ألف و100 ألف رمز مميز	غالباً ما تتراوح بين 50 ألف و250 ألف كلمة في مصطلحات النطاق
التعامل مع المصطلحات الفنية	غالباً ما ينقسم إلى كلمات فرعية	يحافظ على المصطلحات الكاملة كرموز مفردة
الأداء عبر المجالات	خط أساس متسق عبر المجالات	يتدهور خارج نطاق الهدف
تكلفة النشر	نموذج واحد، صيانة أقل	يتطلب ذلك تحديد المجال أو نماذج متعددة
كفاءة الرموز في نص المجال	عدد أكبر من الرموز، تسلسلات أطول	عدد أقل من الرموز لكل مستند، واستدلال أسرع
أمثلة	مُجزئات الكلمات BERT و GPT-4 و T5	الرموز المميزة BioBERT وSciBERT وLegal-BERT

مقارنة مفصلة

بيانات بناء المفردات والتدريب

تستقي أدوات تجزئة النصوص العامة من نطاق واسع من اللغة البشرية - صفحات الويب، والكتب، والمحادثات - لبناء مفردات شاملة لا تتخصص في مجال محدد. أما أدوات تجزئة النصوص المتخصصة، فتركز بشكل دقيق على المجلات الطبية، والوثائق القانونية، والأوراق العلمية لاستخلاص المصطلحات التي نادرًا ما تتناولها المدونات اللغوية العامة. هذا التركيز الدقيق يعني أن أداة تجزئة النصوص الكيميائية تتعرف على مصطلح "1,2-ثنائي كلورو الإيثان" كمصطلح مألوف، وليس مجرد سلسلة نصية تُجزأ إلى أجزاء لا معنى لها.

كفاءة الرموز والتكلفة الحسابية

كل رمز إضافي يزيد من استهلاك الذاكرة ووقت المعالجة. غالبًا ما تُقسّم مُجزئات الكلمات العامة المصطلحات المتخصصة إلى أجزاء تتراوح بين 5 و8 كلمات فرعية، مما يُطيل طول التسلسلات ويُبطئ عملية الاستدلال. أما مُجزئات الكلمات الخاصة بالمجالات، فتُبقي المصطلحات مُختصرة، مُقلّصةً عدد الرموز بنسبة 20-40% في المستندات التقنية. بالنسبة للتطبيقات ذات الأحجام الكبيرة، مثل معالجة ملخصات خروج المرضى من المستشفيات، تتراكم هذه الوفورات لتُؤدي إلى تقليل زمن الاستجابة والتكاليف بشكل ملحوظ.

أداء المهام اللاحقة

في المقارنات المباشرة، تتفوق أدوات تجزئة النصوص المتخصصة باستمرار على الأدوات العامة في المهام المتخصصة - يتفوق BioBERT على BERT في التعرف على الكيانات المسماة في المجال الطبي الحيوي، ويتفوق Legal-BERT في تصنيف الجمل. ومع ذلك، يتلاشى هذا التفوق خارج نطاق التخصص؛ إذ تتعثر أداة تجزئة النصوص القانونية في نصوص وسائل التواصل الاجتماعي غير الرسمية بينما تعمل أداة تجزئة النصوص العامة بسلاسة. ويعكس فارق الأداء مدى توافق مفردات اللغة مع لغة المهمة.

الصيانة وقابلية التكيف

توفر أدوات تجزئة الكلمات العامة سهولة النشر لمرة واحدة: نموذج واحد يخدم البحث، وبرامج الدردشة الآلية، وتحليل المستندات في مختلف القطاعات. أما أدوات تجزئة الكلمات الخاصة بالمجالات فتتطلب تحديثًا مستمرًا - فالأدوية الجديدة، والسوابق القانونية المتطورة، والمصطلحات العلمية الناشئة، كلها تستلزم تحديثات للمفردات. يجب على الفرق أن توازن بين تحسينات الأداء والجهد الهندسي المبذول في مراقبة تغيرات المجال وإعادة تدريب أدوات تجزئة الكلمات بشكل دوري.

اعتبارات متعددة اللغات وعبر اللغات

تُوحّد أدوات تجزئة الكلمات متعددة اللغات العامة، مثل XLM-R، تمثيل الكلمات عبر اللغات، مما يُتيح نقلها دون الحاجة إلى تدريب مسبق. ولا تزال تجزئة الكلمات متعددة اللغات الخاصة بمجالات محددة مجالًا غير مستكشف بشكل كافٍ؛ إذ تُركز معظم الجهود المبذولة في هذا المجال على اللغة الإنجليزية. وبالنسبة لشركات الأدوية العالمية أو مكاتب المحاماة الدولية، يُمثل بناء مفردات خاصة بالمجالات تشمل لغات متعددة تحديًا لم يُحل بعد، مما يُجبر في كثير من الأحيان على اتباع مناهج هجينة تجمع بين قواعد عامة متعددة اللغات وقواعد تجزئة خاصة بالمجال.

الإيجابيات والسلبيات

تعميم التجزئة

المزايا

+ يعمل عبر أي نطاق نصي
+ انخفاض تكاليف الصيانة العامة
+ دعم قوي متعدد اللغات
+ أدوات واسعة النطاق ونماذج مدربة مسبقًا
+ نشر أولي أسرع

تم

− تضخم الوثائق التقنية
− يقسم المصطلحات النادرة بشكل غير متقن
− دقة التخصص دون المستوى الأمثل
− تسلسلات أطول، قدرة حسابية أعلى
− يغفل الفروق الدقيقة في المجال

تجزئة الكلمات الخاصة بالمجال

المزايا

+ دقة فائقة في النصوص المتخصصة
+ تمثيلات الرموز المختصرة
+ يلتقط المصطلحات الفنية والكيانات المسماة
+ استدلال أسرع لكل مستند
+ عائد استثمار واضح للمجالات ذات القيمة العالية

تم

− بناء وصيانة مكلفة
− أداء ضعيف خارج النطاق
− يتطلب خبرة في المجال
− حلول متعددة اللغات محدودة
− خطر ركود المفردات

الأفكار الخاطئة الشائعة

أسطورة

المفردات الأكبر تعني دائمًا تجزئة أفضل للكلمات.

الواقع

يتأثر حجم المفردات بحجم مصفوفة التضمين وندرة الرموز. قد يؤدي استخدام مفردات مجال تضم 250,000 رمز إلى إعاقة التعميم إذا ظهرت العديد من المدخلات بشكل نادر جدًا بحيث لا يمكن تعلم تمثيلات جيدة لها. يعتمد الحجم الأمثل على تنوع المدونة والمهمة اللاحقة، وليس فقط على العدد الإجمالي للرموز.

أسطورة

لا تُعدّ أدوات تحليل النطاقات ذات صلة إلا بالمجالات العلمية المتخصصة.

الواقع

أي فائدة لغوية متخصصة - كالعقود المالية، وتذاكر دعم العملاء التي تحتوي على رموز المنتجات، وحتى مجتمعات الألعاب ذات المصطلحات العامية المتطورة. إذا كان نصك يحتوي على أنماط متكررة غير معروفة في المدونات اللغوية العامة، فإن تكييفه مع المجال يستدعي النظر فيه.

أسطورة

تحتاج إلى تدريب نموذج كامل من الصفر للحصول على فوائد تجزئة المجال.

الواقع

يبدأ العديد من الممارسين باستخدام أدوات تجزئة الكلمات العامة، ثم يقومون بتطويرها تدريجيًا بإضافة رموز خاصة بالمجال إلى المفردات الموجودة، أو باستخدام تقنيات توسيع المفردات. يحافظ هذا النهج الوسطي على الأوزان المدربة مسبقًا مع توسيع نطاق تغطية المجال.

أسطورة

تُعد جودة التجزئة مشكلة محلولة باستخدام أساليب الكلمات الفرعية الحديثة.

الواقع

تتفوق خوارزميات الكلمات الجزئية في التعامل مع الكلمات غير المعروفة على أساليب تحليل الكلمات الكاملة، إلا أنها لا تزال تواجه صعوبات في التعامل مع الصرف غير التجميعي، وخلط الرموز، والنصوص الغنية بالرموز كالبراهين الرياضية أو الصيغ الكيميائية. ويستمر البحث النشط عن بدائل تراعي خصائص الأحرف والصرف.

أسطورة

أصبحت أدوات تجزئة الكلمات العامة قديمة الطراز مع توسع نطاق النماذج.

الواقع

لا تزال نماذج GPT-4 والنماذج الكبيرة المماثلة تعتمد على التجزئة العامة، وتُظهر كفاءتها الواسعة أن الحجم يُعوض جزئيًا عن عدم تطابق المجال. ومع ذلك، فإن مخاوف الكفاءة والدقة العالية تُبقي الأساليب الخاصة بالمجال ذات أهمية، لا سيما بالنسبة للتطبيقات ذات قيود النشر.

الأسئلة المتداولة

ما هو تعميم التجزئة في معالجة اللغة الطبيعية؟

يشير تعميم التجزئة إلى تصميم أنظمة تجزئة الكلمات الفرعية التي تعمل بكفاءة عالية عبر أنواع النصوص واللغات والمجالات المتنوعة دون الحاجة إلى تخصيص. تتدرب هذه الأنظمة على مجموعات بيانات ضخمة ومتنوعة - مثل زحف الويب ومجموعات الكتب والموسوعات - لبناء مفردات نادراً ما تصادف كلمات خارجة عن نطاقها، بل تقوم بتقسيم الكلمات غير المعروفة إلى أجزاء مألوفة.

كيف يُحسّن التجزئة الخاصة بالمجال أداء النموذج؟

من خلال مواءمة مفردات المُجزِّئ مع التوزيع الفعلي للمصطلحات في مجال معين، تُقلِّل التجزئة الخاصة بالمجال من تجزئة الكيانات المهمة. فعندما تبقى عبارة "احتشاء عضلة القلب" في كلمة أو كلمتين بدلاً من خمس، يتعلم النموذج دورها الدلالي في الملاحظات السريرية بسهولة أكبر. وعادةً ما تُحسِّن هذه المواءمة التعرف على الكيانات المسماة، واستخراج العلاقات، ومقاييس التصنيف بنسبة تتراوح بين 2 و5% في المقارنات المباشرة.

هل يمكنني استخدام أداة تجزئة عامة للنصوص الطبية أو القانونية؟

بالتأكيد، العديد من أنظمة الإنتاج تفعل ذلك تمامًا. تظل أدوات تجزئة الكلمات العامة فعّالة، لكنها تُضحي بالكفاءة وأحيانًا بالدقة. في التطبيقات التي يكفي فيها الأداء الوظيفي، تُفضّل البساطة. عندما تُسبب تجزئة الكلمات سوء فهم ذي دلالة سريرية أو غموضًا ذا تبعات قانونية، يصبح الاستثمار في تخصيص المجال مُبررًا.

ما هي الطرق الشائعة لإنشاء أدوات تجزئة خاصة بمجال معين؟

يبدأ الممارسون عادةً بمجموعات بيانات خاصة بالمجال، ثم يطبقون خوارزميات قياسية - مثل BPE أو WordPiece أو SentencePiece - مع تعديل أحجام المفردات. تبدأ بعض المناهج من نقاط تفتيش عامة للمُجزِّئ وتُوسِّع المفردات بمصطلحات المجال عالية التردد. أما الطرق الأكثر تقدماً فتتضمن التحليل الصرفي أو قواعد التعبير النمطي لحماية أنماط معينة من تجزئة الكلمات الفرعية.

هل يمكن تطبيق التجزئة الخاصة بالمجال على لغات متعددة؟

إنه تحدٍّ، لكنه ممكن. تركز معظم الأبحاث المنشورة حول تجزئة النصوص في المجالات اللغوية على اللغة الإنجليزية. أما في المجالات متعددة اللغات، فتقوم الفرق إما بتدريب برامج تجزئة منفصلة لكل لغة، أو بإنشاء قواميس مشتركة متعددة اللغات خاصة بكل مجال. يتطلب الخيار الأخير مجموعات بيانات متوازنة بعناية لتجنب هيمنة المفردات من لغات غنية بالموارد، ولا يزال مجالًا بحثيًا نشطًا مع قلة الحلول الجاهزة المتاحة.

ما مقدار البيانات التي أحتاجها لتدريب مُجزئ الكلمات الخاص بمجال معين؟

الجودة أهم من الكمية. غالبًا ما تكفي بضع مئات من الميغابايتات من النصوص الواضحة والممثلة للمجال لتعلم المفردات، وهو أقل بكثير مما يتطلبه تدريب النموذج الكامل. يكمن السر في التغطية: يجب أن تشمل مدونتك توزيع المصطلحات المتوقع عند الاستدلال. مجموعة ضيقة ولكنها عميقة أفضل من مجموعة واسعة ولكنها سطحية.

ما هو توسيع المفردات وكيف يرتبط بهذا الموضوع؟

تعتمد تقنية توسيع المفردات على إضافة رموز خاصة بمجال معين إلى مُجزئ الكلمات العام الحالي، ثم تعديل طبقة التضمين في نموذج مُدرَّب مسبقًا. تُمكّنك هذه التقنية من الحصول على تغطية شاملة للمجال دون الحاجة إلى تدريب من الصفر، مع العلم أن التضمينات الجديدة تتطلب ضبطًا دقيقًا. إنها حل وسط عملي بين التجزئة العامة البحتة والتجزئة المُخصصة بالكامل.

هل هناك سلبيات لجعل مفرداتي متخصصة للغاية في مجال معين؟

يُؤدي التخصص المفرط إلى خطر نسيان أنماط اللغة العامة بشكل كارثي، ويُنشئ أنظمة هشة تفشل عند تلقي مدخلات غير متوقعة. كما أن المفردات الضخمة للغاية تُضخّم حجم النموذج، وقد تُؤدي إلى ضعف تعلم العديد من الرموز بسبب قلة ظهورها. أما الوضع الأمثل فيُحافظ على الكفاءة العامة مع إضافة تغطية للمجال.

كيف تؤثر خيارات التجزئة على سرعة استنتاج النموذج؟

تؤدي سلاسل الرموز الطويلة إلى زيادة مباشرة في العمليات الحسابية في بنى المحولات نظرًا لتعقيد الانتباه التربيعي. ويمكن لمُجزئات المجال التي تحافظ على صغر حجم المستندات أن تُسرّع عملية الاستدلال بشكل ملحوظ، بنسبة تتراوح أحيانًا بين 20 و30% للمستندات التقنية. بالنسبة للتطبيقات الآنية أو النشر على الحافة، تُضاهي هذه الزيادة في الكفاءة أهمية تحسينات الدقة.

هل يمكن لعملية التجزئة وحدها أن تعالج ضعف أداء النموذج على النصوص المتخصصة؟

نادرًا. يُعدّ تجزئة الكلمات جزءًا من عملية التكيف؛ إذ تُعدّ بنية النموذج، وأهداف التدريب المسبق، وضبط البيانات بدقة عوامل بالغة الأهمية. مع ذلك، يُشكّل عدم تطابق تجزئة الكلمات عائقًا يصعب تجاوزه بالتحسينات الأخرى وحدها. يُمكن اعتباره ضروريًا ولكنه غير كافٍ لتحقيق الأداء الأمثل في المجال.

ما هي الأدوات المتاحة لبناء أدوات تجزئة الكلمات المخصصة؟

توفر مكتبة Hugging Face Tokenizers تطبيقات سريعة وقابلة للتخصيص لتقنيات BPE وWordPiece وSentencePiece. وتوفر SentencePiece تدريبًا مستقلًا عن اللغة. ولمزيد من التخصيص، تتيح مكتبات مثل YouTokenToMe (BPE) أو أدوات التجزئة المسبقة المخصصة القائمة على التعبيرات النمطية تحكمًا دقيقًا. ويقوم معظم المختصين ببناء مسارات عمل تجمع بين هذه الأدوات ومعالجة مسبقة لمجموعة بيانات المجال.

كيف يمكنني تقييم ما إذا كان تجزئة الكلمات الخاصة بالمجال يستحق الجهد المبذول لمشروعي؟

ابدأ بقياس تجزئة الكلمات في النص المستهدف - إلى كم جزء تنقسم الكلمات الرئيسية؟ قارن زمن استجابة الاستدلال وأداء المهام اللاحقة باستخدام أدوات تجزئة الكلمات العامة. إذا كانت التجزئة عالية، أو كان زمن الاستجابة مهمًا، أو كانت تحسينات الدقة تُترجم إلى قيمة تجارية واضحة، فمن المرجح أن يكون تخصيص المجال مُجديًا. جرّب توسيع المفردات قبل الالتزام بتطوير مُجزئ كلمات مخصص بالكامل.

الحكم

اختر تعميم التجزئة عند التعامل مع أنواع نصوص متنوعة، أو دعم لغات متعددة، أو عند نقص الموارد اللازمة لتنظيم المحتوى الخاص بالمجال. اختر التجزئة الخاصة بالمجال عندما تؤثر دقة المصطلحات التقنية بشكل مباشر على قيمة العمل - مثل دعم القرارات السريرية، أو البحث عن براءات الاختراع، أو الامتثال التنظيمي - ويكون محتوى المجال غنيًا بما يكفي لتبرير الاستثمار.

المقارنات ذات الصلة

RAG (التوليد المعزز بالاسترجاع) مقابل نماذج LLM المُحسَّنة

يُحسّن كلٌّ من RAG ونماذج LLM المُحسّنة جودة مخرجات الذكاء الاصطناعي، لكنهما يعملان بطرق مختلفة تمامًا. يستخلص RAG المعلومات الخارجية عند الاستعلام، بينما يُدمج التحسين المعرفة الجديدة مباشرةً في أوزان النموذج. ويعتمد الاختيار بينهما على مدى تكرار تغيّر البيانات ومستوى الدقة المطلوب.

آليات الانتباه الذاتي مقابل نماذج فضاء الحالة

تُعد آليات الانتباه الذاتي ونماذج فضاء الحالة من المناهج الأساسية لنمذجة التسلسلات في الذكاء الاصطناعي الحديث. يتفوق الانتباه الذاتي في التقاط العلاقات الغنية بين الرموز، ولكنه يصبح مكلفًا مع التسلسلات الطويلة، بينما تعالج نماذج فضاء الحالة التسلسلات بكفاءة أكبر مع التوسع الخطي، مما يجعلها جذابة للتطبيقات ذات السياق الطويل والتطبيقات الآنية.

آليات الانتباه في الرؤية مقابل الانتباه في معالجة اللغة الطبيعية

تُعدّ آليات الانتباه أساسية في الذكاء الاصطناعي الحديث، سواءً في مجال رؤية الحاسوب أو معالجة اللغة الطبيعية، إلا أنها تخدم أغراضًا مختلفة وتطورت عبر مسارات متباينة. يساعد الانتباه في مجال الرؤية النماذج على التركيز على مناطق الصورة ذات الصلة، بينما يُمكّن الانتباه في معالجة اللغة الطبيعية من فهم العلاقات بين الكلمات في النصوص.

أساليب الممثل-الناقد مقابل أساليب تدرج السياسة البحتة

تجمع أساليب الممثل-الناقد بين تدرجات السياسة ودالة القيمة المُتعلمة لتقليل التباين وتسريع عملية التعلم، بينما تعتمد أساليب تدرج السياسة البحتة كليًا على السياسة وعوائد مونت كارلو. ويعتمد الاختيار بينهما على ما إذا كنت بحاجة إلى الاستقرار وكفاءة العينة أم إلى البساطة والتقديرات غير المتحيزة.

أساليب تعلم الرسم البياني الزمني مقابل أساليب نمذجة التسلسل

تُفصّل هذه المقارنة الاختلافات الهيكلية الأساسية، وحالات الاستخدام العملية، والمفاضلات في الأداء بين تعلّم الرسم البياني الزمني ونمذجة التسلسل التقليدية. فبينما تُجسّد نمذجة التسلسل التطورات الخطية كالنصوص أو بيانات السلاسل الزمنية، يُعالج تعلّم الرسم البياني الزمني تفاعلات الشبكة والعلاقات المتغيرة مع الزمن في آنٍ واحد، مما يُوفر لك مخططًا شاملاً لاختيار البنية المناسبة.