NLP में टोकनाइज़र ट्रेनिंग और मॉडल ट्रेनिंग असल में अलग-अलग लेकिन आपस में गहराई से जुड़ी हुई प्रोसेस हैं, जिसमें टोकनाइज़र वोकैबुलरी और एन्कोडिंग रूल्स बनाता है, जिससे टोकनाइज़र न्यूमेरिकल डेटा से लैंग्वेज पैटर्न सीख पाता है।
मुख्य बातें
टोकनाइज़र ट्रेनिंग ग्रेडिएंट-बेस्ड ऑप्टिमाइज़ेशन के बजाय ग्रीडी मर्ज एल्गोरिदम का इस्तेमाल करती है, जिससे यह असल में न्यूरल लर्निंग के बजाय एक प्रीप्रोसेसिंग स्टेप बन जाता है।
मॉडल ट्रेनिंग का खर्च टोकनाइज़र ट्रेनिंग से कहीं ज़्यादा है, फिर भी टोकनाइज़र की क्वालिटी डाउनस्ट्रीम मॉडल परफॉर्मेंस पर एक सख्त लिमिट तय करती है।
मॉडल ट्रेनिंग शुरू होने के बाद टोकनाइज़र वोकैबुलरी के फैसले असल में इर्रिवर्सिबल होते हैं, जिससे लॉक-इन बनता है जो बाद की सभी फाइन-ट्यूनिंग तक बना रहता है।
मल्टीलिंगुअल मॉडल्स को गंभीर टोकनाइज़र बायस का सामना करना पड़ता है, जहाँ इंग्लिश और मुख्य यूरोपियन भाषाएँ अच्छे से टोकनाइज़ करती हैं, जबकि कई दूसरी भाषाएँ सीक्वेंस लेंथ इन्फ्लेशन से जूझती हैं।
टोकनाइज़र प्रशिक्षण क्या है?
सबवर्ड वोकैबुलरी बनाने और टेक्स्ट को न्यूमेरिकल टोकन में बदलने के लिए एन्कोडिंग नियम सीखने का प्रोसेस।
टोकनाइज़र ट्रेनिंग भाषा को दिखाने के लिए सबसे कुशल सबवर्ड यूनिट्स को खोजने के लिए एक बड़े टेक्स्ट कॉर्पस का विश्लेषण करती है।
बाइट पेयर एन्कोडिंग (BPE) और सेंटेंसपीस, रॉ टेक्स्ट पर टोकनाइज़र को ट्रेनिंग देने के लिए सबसे ज़्यादा इस्तेमाल होने वाले एल्गोरिदम हैं।
इसके नतीजे में वोकैबुलरी का साइज़ एक फिक्स्ड हाइपरपैरामीटर होता है, जो आम तौर पर 32,000 से 100,000 टोकन तक होता है।
टोकनाइज़र ट्रेनिंग में ग्रेडिएंट डिसेंट या न्यूरल नेटवर्क ऑप्टिमाइज़ेशन शामिल नहीं है
खराब तरीके से ट्रेंड टोकनाइज़र, टूटे हुए या साफ़ न दिखने वाले टोकन सीक्वेंस बनाकर डाउनस्ट्रीम मॉडल की परफॉर्मेंस को बहुत खराब कर सकता है।
एनएलपी में मॉडल प्रशिक्षण क्या है?
न्यूरल नेटवर्क ऑप्टिमाइज़ेशन प्रोसेस जहां लैंग्वेज मॉडल ग्रेडिएंट-बेस्ड तरीकों से टोकनाइज़्ड डेटा से पैटर्न सीखते हैं।
मॉडल ट्रेनिंग के लिए प्री-टोकनाइज़्ड डेटा की ज़रूरत होती है और अरबों पैरामीटर्स में प्रेडिक्शन लॉस को कम करने के लिए बैकप्रोपेगेशन का इस्तेमाल होता है।
ट्रांसफॉर्मर आर्किटेक्चर मॉडर्न NLP मॉडल ट्रेनिंग में हावी हैं, जिसे 2017 के पेपर 'अटेंशन इज़ ऑल यू नीड' में बताया गया था।
GPT-4 जैसे बड़े लैंग्वेज मॉडल्स को ट्रेनिंग देने में कंप्यूट रिसोर्सेज़ में करोड़ों डॉलर खर्च हो सकते हैं
मॉडल ट्रेनिंग में लर्निंग रेट, बैच साइज़ और वार्मअप स्टेप्स जैसे हाइपरपैरामीटर्स शामिल होते हैं जो कन्वर्जेंस पर काफी असर डालते हैं।
फाइन-ट्यूनिंग, पहले से ट्रेंड मॉडल्स को खास कामों के लिए अडैप्ट करती है, जिसमें शुरू से ट्रेनिंग करने के मुकाबले बहुत कम डेटा और कंप्यूट होता है।
तुलना तालिका
विशेषता
टोकनाइज़र प्रशिक्षण
एनएलपी में मॉडल प्रशिक्षण
प्राथमिक लक्ष्य
सबवर्ड वोकैबुलरी और एन्कोडिंग नियम बनाएं
भाषा के पैटर्न और काम के हिसाब से रिप्रेजेंटेशन सीखें
इनपुट डेटा
रॉ टेक्स्ट कॉर्पस (अक्सर बिना लेबल वाला टेक्स्ट टेराबाइट्स का होता है)
संख्यात्मक ID के साथ टोकनकृत अनुक्रम
अनुकूलन विधि
ग्रीडी फ़्रीक्वेंसी-बेस्ड मर्जिंग (BPE) या मैक्सिमम लाइकलीहुड (सेंटेंसपीस)
बैकप्रोपेगेशन के साथ ग्रेडिएंट अवरोहण
आउटपुट आर्टिफैक्ट
वोकैबुलरी फ़ाइल और एन्कोडिंग/डिकोडिंग फ़ंक्शन
ट्रेंड न्यूरल नेटवर्क वेट और आर्किटेक्चर कॉन्फ़िगरेशन
कंप्यूट आवश्यकताएँ
काफ़ी कम; एक मशीन पर घंटों
बहुत ज़्यादा; बड़े मॉडल्स के लिए हज़ारों GPU/TPU घंटे
उलटने अथवा पुलटने योग्यता
पूरी तरह से रिवर्सिबल; टेक्स्ट को टोकन से हूबहू बनाया जा सकता है
इर्रिवर्सिबल; मॉडल आउटपुट प्रेडिक्शन हैं, रिकंस्ट्रक्शन नहीं
सामान्य अवधि
कॉर्पस के साइज़ के आधार पर मिनट से घंटे
फाउंडेशन मॉडल के लिए दिन से महीने
निर्भरता संबंध
मॉडल ट्रेनिंग शुरू होने से पहले पूरा करना होगा
यह इस बात पर निर्भर करता है कि टोकनाइज़र पहले से ट्रेन और फिक्स है
विस्तृत तुलना
मुख्य उद्देश्य और कार्य
टोकनाइज़र ट्रेनिंग इंसानी भाषा और मशीन से पढ़े जा सकने वाले नंबरों के बीच प्रीप्रोसेसिंग ब्रिज का काम करती है। इसका काम यह तय करना है कि शब्दों को कैसे तोड़ा जाए, कौन से सीक्वेंस खास टोकन बनें, और अनजान शब्दों को कैसे हैंडल किया जाए। दूसरी ओर, मॉडल ट्रेनिंग वह जगह है जहाँ असल में सीखना होता है—जहाँ एक न्यूरल नेटवर्क भाषा में स्टैटिस्टिकल पैटर्न खोजता है, मतलब के रिप्रेजेंटेशन बनाता है, और टेक्स्ट को जेनरेट या क्लासिफ़ाई करने की क्षमता डेवलप करता है।
एल्गोरिथमिक आधार
टोकनाइज़र ट्रेनिंग के पीछे के एल्गोरिदम, मॉडल ट्रेनिंग को पावर देने वाले एल्गोरिदम से हैरानी की बात है कि अलग हैं। BPE अलग-अलग बाइट्स से शुरू होता है और सबसे ज़्यादा बार आने वाले आस-पास के जोड़ों को तब तक मर्ज करता है जब तक कि ज़रूरी वोकैबुलरी साइज़ न मिल जाए। SentencePiece इस प्रॉब्लम को Expectation-Maximization एल्गोरिदम का इस्तेमाल करके एक लैंग्वेज मॉडलिंग टास्क की तरह देखता है। दोनों में से किसी में भी न्यूरल नेटवर्क शामिल नहीं हैं। मॉडल ट्रेनिंग खास तौर पर हाई-डाइमेंशनल लॉस लैंडस्केप को नेविगेट करने के लिए डिफरेंशिएबल ऑप्टिमाइज़ेशन, आम तौर पर Adam या AdamW ऑप्टिमाइज़र का इस्तेमाल करती है।
संसाधन तीव्रता और स्केलिंग
इन प्रोसेस के बीच कंप्यूट गैप बहुत ज़्यादा है। 100GB टेक्स्ट पर SentencePiece टोकनाइज़र को स्टैंडर्ड हार्डवेयर पर ट्रेन करने में कुछ घंटे लग सकते हैं। उसी कॉर्पस पर Llama 3 जैसे मॉडल को ट्रेन करने के लिए हज़ारों इंटरकनेक्टेड एक्सेलरेटर वाले बड़े क्लस्टर की ज़रूरत होती है जो हफ़्तों तक चलते हैं। दिलचस्प बात यह है कि टोकनाइज़र ट्रेनिंग अक्सर एक बार की जाती है और कई मॉडल ट्रेनिंग रन में दोबारा इस्तेमाल की जाती है, जिससे यह ओवरऑल डेवलपमेंट पाइपलाइन में एक काफ़ी फिक्स्ड कॉस्ट बन जाती है।
मॉडल व्यवहार पर प्रभाव
टोकनाइज़र की पसंद मॉडल क्या सीखते हैं, यह आसानी से लेकिन असरदार तरीके से तय करती है। एक टोकनाइज़र जो 'एंटीडिसएस्टैब्लिशमेंटेरियनिज़्म' को कई टुकड़ों में बांटता है, वह मॉडल को टुकड़ों से मतलब निकालने के लिए मजबूर करता है, जबकि जो इसे पूरा रखता है, वह इसे एक एटॉमिक कॉन्सेप्ट की तरह मानता है। टोकनाइज़र का झुकाव फेयरनेस पर भी असर डाल सकता है—खराब टोकनाइज़ेशन एफिशिएंसी वाली भाषाएं लंबे सीक्वेंस में सिकुड़ जाती हैं, जिससे मॉडल के लिए उन्हें प्रोसेस करना ज़्यादा महंगा हो जाता है और कभी-कभी परफॉर्मेंस भी खराब हो जाती है।
जीवनचक्र और पुनरावृत्ति
असल में, टोकनाइज़र ट्रेनिंग आम तौर पर किसी प्रोजेक्ट की शुरुआत में लिया जाने वाला एक बार का फ़ैसला होता है। मॉडल ट्रेनिंग के बाद टोकनाइज़र बदलने का मतलब है सब कुछ शुरू से फिर से ट्रेन करना, क्योंकि टोकन IDs मनमानी होती हैं और मॉडल एम्बेडिंग खास टोकन पोज़िशन से जुड़ी होती हैं। इसके उलट, मॉडल ट्रेनिंग बहुत ज़्यादा दोहराई जाने वाली होती है—रिसर्चर लगातार आर्किटेक्चर, ट्रेनिंग रेसिपी और फ़ाइन-ट्यूनिंग स्ट्रेटेजी के साथ एक्सपेरिमेंट करते रहते हैं। इस असिमेट्री का मतलब है कि टोकनाइज़र चुनने के लंबे समय तक चलने वाले नतीजे होते हैं जिन्हें बदलना मुश्किल होता है।
लाभ और हानि
टोकनाइज़र प्रशिक्षण
लाभ
+कम्प्यूटेशनल रूप से चलाने में सस्ता
+पूरी तरह से नियतात्मक और पुनरुत्पादनीय
+कुशल टेक्स्ट कम्प्रेशन सक्षम करता है
+डोमेन-स्पेसिफिक वोकैबुलरी के लिए कस्टमाइज़ेबल
+प्रतिवर्ती पाठ एन्कोडिंग बनाता है
सहमत
−निश्चित शब्दावली अभिव्यक्ति को सीमित करती है
−विकसित होती भाषा के साथ संघर्ष
−एन्कोडिंग पूर्वाग्रह ला सकता है
−बदलाव के लिए दोबारा ट्रेनिंग की ज़रूरत है
−दुर्लभ भाषाओं के लिए उप-इष्टतम
एनएलपी में मॉडल प्रशिक्षण
लाभ
+समृद्ध अर्थपूर्ण निरूपण सीखता है
+कार्यों में स्थानांतरित करने योग्य
+डेटा और कंप्यूट के साथ अनुमानित रूप से स्केल करता है
+उभरती क्षमताओं को सक्षम बनाता है
+फ़ाइन-ट्यूनिंग अनुकूलन का समर्थन करता है
सहमत
−कम्प्यूटेशनल रूप से बेहद महंगा
−पर्यावरण पर प्रभावकारी ऊर्जा उपयोग
−बड़े पैमाने पर क्यूरेटेड डेटासेट की ज़रूरत है
−मतिभ्रम और पूर्वाग्रह से ग्रस्त
−आंतरिक तर्क को समझना मुश्किल है
सामान्य भ्रांतियाँ
मिथ
टोकनाइज़र ट्रेनिंग बस एक छोटा प्रीप्रोसेसिंग स्टेप है जिसका फ़ाइनल मॉडल क्वालिटी पर बहुत कम असर पड़ता है।
वास्तविकता
टोकनाइज़र की क्वालिटी सीधे तौर पर यह तय करती है कि मॉडल क्या सीख सकता है। खराब टोकनाइज़ेशन साफ़ नहीं दिखाता, सीक्वेंस की लंबाई बढ़ा देता है, और मॉडल के लिए कुछ भाषाई चीज़ों को समझना लगभग नामुमकिन बना सकता है। रिसर्चर्स ने दिखाया है कि टोकनाइज़र का चुनाव बेंचमार्क परफॉर्मेंस को कई परसेंटेज पॉइंट तक बदल सकता है।
मिथ
आप मॉडल को ट्रेन करने के बाद टोकन को रीमैप करके टोकनाइज़र को स्वैप कर सकते हैं।
वास्तविकता
मॉडल एम्बेडिंग, सीखे गए पैरामीटर स्पेस में खास जगहों पर खास टोकन ID से जुड़ी होती हैं। एक अलग टोकनाइज़र पूरी तरह से अलग टोकन डिस्ट्रीब्यूशन बनाता है, जिससे प्रीट्रेन्ड वेट सिमेंटिकली मिसमैच हो जाते हैं। एकमात्र सही रास्ता शुरू से पूरी रीट्रेनिंग है।
मिथ
मॉडल परफॉर्मेंस के लिए बड़ी टोकनाइज़र वोकैबुलरी हमेशा बेहतर होती हैं।
वास्तविकता
बड़ी वोकैबुलरी से सीक्वेंस की लंबाई कम हो जाती है, लेकिन वे एम्बेडिंग मैट्रिक्स का साइज़ बढ़ा देती हैं और मॉडल की एफिशिएंसी पर असर डाल सकती हैं। एक खास बात है—बहुत बड़ा होने पर मॉडल रेयर टोकन का कम इस्तेमाल करता है; बहुत छोटा होने पर सीक्वेंस टूट जाते हैं। ज़्यादातर प्रैक्टिशनर 32K–100K टोकन को मल्टीलिंगुअल मॉडल के लिए सबसे अच्छा मानते हैं।
मिथ
मॉडल ट्रेनिंग और टोकनाइज़र ट्रेनिंग एक ही एंड-टू-एंड प्रोसेस के हिस्से के तौर पर एक साथ होती हैं।
वास्तविकता
ये एक के बाद एक, अलग-अलग फेज़ होते हैं। मॉडल ट्रेनिंग शुरू होने से पहले टोकनाइज़र को पूरी तरह से ट्रेन और फ्रीज़ किया जाना चाहिए, क्योंकि मॉडल आर्किटेक्चर अपने एम्बेडिंग लेयर डाइमेंशन के लिए वोकैबुलरी साइज़ पर निर्भर करता है। कुछ हालिया रिसर्च जॉइंट ऑप्टिमाइज़ेशन को एक्सप्लोर करती हैं, लेकिन स्टैंडर्ड प्रैक्टिस पूरी तरह से एक के बाद एक होती है।
मिथ
एक टोकनाइज़र पर ट्रेन किए गए मॉडल को अलग-अलग तरीके से टोकनाइज़ किए गए टेक्स्ट पर फ़ाइन-ट्यून किया जा सकता है।
वास्तविकता
फाइन-ट्यूनिंग के लिए एक जैसा टोकनाइज़ेशन ज़रूरी है। अलग-अलग टोकनाइज़्ड टेक्स्ट फीड करने से मॉडल को ऐसी टोकन ID मिलेंगी जिनके लिए एम्बेडिंग उसने कभी सीखी ही नहीं, या इससे भी बुरा, जानी-पहचानी ID जिनका मतलब पूरी तरह से गलत होगा। इसीलिए मॉडल रिलीज़ में हमेशा यह बताया जाता है कि कौन सा टोकनाइज़र इस्तेमाल करना है।
मिथ
टोकनाइज़र ट्रेनिंग के लिए मॉडल ट्रेनिंग की तरह लेबल्ड डेटा की ज़रूरत होती है।
वास्तविकता
टोकनाइज़र पूरी तरह से रॉ, बिना लेबल वाले टेक्स्ट पर ट्रेनिंग करते हैं। उन्हें किसी एनोटेशन, टैग या टास्क-स्पेसिफिक फ़ॉर्मेटिंग की ज़रूरत नहीं होती। यह अनसुपरवाइज़्ड नेचर ही टोकनाइज़र को बिना किसी महंगी ह्यूमन लेबलिंग के बड़े वेब-स्केल कॉर्पोरा पर ट्रेनिंग करने देता है।
अक्सर पूछे जाने वाले सवाल
अगर मैं प्रीट्रेन्ड मॉडल के साथ गलत टोकनाइज़र का इस्तेमाल करूँ तो क्या होगा?
मिसमैच्ड टोकनाइज़र इस्तेमाल करने से बकवास चीज़ें बनती हैं। मॉडल को टोकन ID मिलती हैं जो उन सबवर्ड से बिल्कुल अलग होती हैं जिन्हें दिखाने के लिए उसकी एम्बेडिंग को ट्रेन किया गया था। सबसे अच्छी हालत में, आउटपुट बेकार हो जाता है; सबसे बुरी हालत में, मॉडल नुकसानदायक कंटेंट बनाता है क्योंकि टोकन अनजाने में सीखे गए एसोसिएशन को एक्टिवेट करते हैं। हमेशा मॉडल के साथ दिए गए एकदम सही टोकनाइज़र का इस्तेमाल करें।
मॉडल ट्रेनिंग की तुलना में टोकनाइज़र ट्रेनिंग में आम तौर पर कितना समय लगता है?
टोकनाइज़र ट्रेनिंग आमतौर पर घंटों में पूरी हो जाती है, कभी-कभी छोटे कॉर्पोरा के लिए मिनटों में। बड़े कंप्यूट क्लस्टर पर फाउंडेशन मॉडल के लिए मॉडल ट्रेनिंग हफ़्तों से लेकर महीनों तक चलती है। एक बड़े मॉडल को फ़ाइन-ट्यून करने में भी आमतौर पर एक टोकनाइज़र को शुरू से ट्रेन करने से ज़्यादा समय लगता है। यह फ़र्क दिखाता है कि टोकनाइज़र आसान स्टैटिस्टिकल एल्गोरिदम का इस्तेमाल करते हैं जबकि मॉडल इटरेटिव ग्रेडिएंट डिसेंट के ज़रिए अरबों पैरामीटर को ऑप्टिमाइज़ करते हैं।
क्या मैं GPT-4 जैसे मौजूदा मॉडल के लिए अपना खुद का टोकनाइज़र ट्रेन कर सकता हूँ?
टेक्निकली हाँ, लेकिन प्रैक्टिकली नहीं। आप एक कस्टम टोकनाइज़र को ट्रेन कर सकते हैं, लेकिन आप इसे GPT-4 के प्रीट्रेन्ड वेट के साथ इस्तेमाल नहीं कर सकते क्योंकि एम्बेडिंग डाइमेंशन और सीखे हुए रिप्रेजेंटेशन OpenAI के ओरिजिनल टोकनाइज़र से जुड़े होते हैं। आपको अपने टोकनाइज़र के साथ एक नया मॉडल शुरू से ट्रेन करना होगा, जो प्रीट्रेन्ड मॉडल इस्तेमाल करने के मकसद को खत्म कर देता है।
कुछ भाषाएं दूसरों की तुलना में ज़्यादा टोकन में क्यों बदल जाती हैं?
यह इस बात से पता चलता है कि BPE और इसी तरह के एल्गोरिदम ट्रेनिंग डेटा में फ़्रीक्वेंसी के लिए कैसे ऑप्टिमाइज़ करते हैं। ट्रेनिंग कॉर्पस में बड़े पैमाने पर रिप्रेजेंटेशन वाली भाषाएँ, खासकर इंग्लिश, अच्छे से टोकनाइज़ेशन पाती हैं। कम रिसोर्स वाली भाषाएँ कैरेक्टर-लेवल या सबवर्ड के टुकड़ों में बँट जाती हैं क्योंकि उनके पैटर्न शायद ही कभी सबसे ज़्यादा बार मर्ज होते थे। यह 'टोकनाइज़र टैक्स' कुछ भाषाओं को कम्प्यूटेशनली प्रोसेस करना ज़्यादा महंगा बना देता है।
क्या टोकनाइज़र ट्रेनिंग के लिए SentencePiece, BPE से बेहतर है?
SentencePiece कुछ खास इस्तेमाल के मामलों में फ़ायदे देता है। यह स्पेस को एक रेगुलर कैरेक्टर की तरह इस्तेमाल करता है, जिससे यह जापानी या चीनी जैसी बिना वर्ड बाउंड्री वाली भाषाओं के लिए ज़्यादा नेचुरल हो जाता है। यह BPE और यूनिग्राम लैंग्वेज मॉडल्स समेत कई एन्कोडिंग एल्गोरिदम को भी सपोर्ट करता है। BPE इंग्लिश-सेंट्रिक मॉडल्स में ज़्यादा आम है। सबसे अच्छा ऑप्शन आपके लैंग्वेज मिक्स और आपको रिवर्सिबल एन्कोडिंग की ज़रूरत है या नहीं, इस पर निर्भर करता है।
मुझे कैसे पता चलेगा कि मेरा टोकनाइज़र मेरे मॉडल में समस्याएँ पैदा कर रहा है?
खास भाषाओं या डोमेन पर बहुत ज़्यादा उलझन, अच्छी तरह से दिखाई देने वाली भाषाओं में मिलते-जुलते टेक्स्ट की तुलना में बहुत ज़्यादा सीक्वेंस की लंबाई, और कम मिलने वाले शब्दों या खास शब्दों वाले कामों में खराब परफॉर्मेंस पर ध्यान दें। टोकनाइज़ेशन आउटपुट को मैन्युअल रूप से एनालाइज़ करना—यह देखना कि खास शब्द कैसे बंटते हैं—अक्सर दिक्कतों का पता जल्दी चल जाता है।
'टोकनाइज़र एक्सप्लोजन' क्या है और यह मॉडल ट्रेनिंग को कैसे प्रभावित करता है?
टोकनाइज़र एक्सप्लोजन तब होता है जब एक छोटा सा इनपुट बदलाव बहुत अलग टोकन सीक्वेंस बनाता है, जो आमतौर पर साफ़ न होने वाले बाउंड्री नियमों या प्रीफ़िक्स/सफ़िक्स हैंडलिंग के कारण होता है। यह मॉडल ट्रेनिंग को अस्थिर कर देता है क्योंकि मॉडल एक जैसे इनपुट के अलग-अलग रिप्रेजेंटेशन देखता है। अच्छी तरह से ट्रेंड टोकनाइज़र लगातार प्रीप्रोसेसिंग और मज़बूत मर्ज नियमों के ज़रिए इसे कम करते हैं।
क्या बड़े लैंग्वेज मॉडल्स कभी अपने टोकनाइज़र्स को रीट्रेन करते हैं?
बड़ी मॉडल फ़ैमिली आम तौर पर बैकवर्ड कम्पैटिबिलिटी के लिए सभी वर्शन में टोकनाइज़र को फिक्स रखती हैं। जब ऑर्गनाइज़ेशन नए टोकनाइज़र रिलीज़ करते हैं, जैसा कि OpenAI ने GPT-2 और GPT-3 के बीच किया था, तो यह पूरी तरह से नई मॉडल ट्रेनिंग के साथ होता है। टोकनाइज़र बदलने की लागत और रुकावट का मतलब है कि वे धीरे-धीरे बदलते हैं, अक्सर सिर्फ़ बड़ी आर्किटेक्चर जेनरेशन के साथ।
क्या टोकनाइज़र ट्रेनिंग मेडिकल या लीगल NLP जैसे डोमेन-स्पेसिफिक एप्लीकेशन में मदद कर सकती है?
बिल्कुल। डोमेन-स्पेसिफिक टोकनाइज़र खास टर्मिनोलॉजी को अलग-अलग करने के बजाय सिंगल टोकन के तौर पर शामिल कर सकते हैं। इससे एफिशिएंसी और मॉडल की समझ दोनों बेहतर होती है। कई बायोमेडिकल NLP प्रोजेक्ट्स कस्टम टोकनाइज़र को PubMed या क्लिनिकल टेक्स्ट पर ट्रेन करते हैं ताकि वे ऐसी टर्मिनोलॉजी कैप्चर कर सकें जिसे आम टोकनाइज़र गलत तरीके से बांट देंगे।
ChatGPT को कभी-कभी आसान गिनती या स्पेलिंग के कामों में दिक्कत क्यों होती है?
यह लिमिटेशन कुछ हद तक टोकनाइज़ेशन की वजह से है। टोकनाइज़र सबवर्ड के टुकड़े देखता है, अलग-अलग कैरेक्टर नहीं, इसलिए लेटर गिनने के लिए मॉडल को टोकन एम्बेडिंग से कैरेक्टर-लेवल की जानकारी को रिवर्स-इंजीनियर करना पड़ता है। इसी तरह, स्पेलिंग में टोकन को ऐसे लेटर में तोड़ना शामिल है जिन्हें मॉडल कभी सीधे प्रोसेस नहीं करता। ये काम इंसानों के लिए आसान हैं लेकिन टोकन-लेवल इनपुट रिप्रेजेंटेशन को देखते हुए सच में मुश्किल हैं।
निर्णय
जब आपको किसी नए लैंग्वेज डोमेन के लिए टेक्स्ट को प्रीप्रोसेस करने की ज़रूरत हो या जब मौजूदा टोकनाइज़र आपकी खास वोकैबुलरी को ठीक से हैंडल न कर रहे हों, तो टोकनाइज़र ट्रेनिंग चुनें। जब आपका लक्ष्य काबिल लैंग्वेज सिस्टम बनाना हो, तो मॉडल ट्रेनिंग को प्राथमिकता दें, और जब तक आपके पास कस्टम टोकनाइज़ेशन के लिए पक्का सबूत न हो, तब तक GPT-2, BERT, या Llama जैसे पहले से मौजूद टोकनाइज़र का ही दोबारा इस्तेमाल करें।