अवलोकन
LoRA (Low-Rank Adaptation) एक फाइन-ट्यूनिंग तकनीक है जो उदाहरण इमेजेस के एक छोटे सेट का उपयोग करके एक AI मॉडल को एक नई विज़ुअल स्टाइल सिखाती है। यह एक मौजूदा मॉडल में नए “स्टाइल वेट्स” इंजेक्ट करके काम करती है, जिससे प्रशिक्षण तेज़ और कुशल दोनों बनता है। यह गाइड पूर्ण वर्कफ़्लो के बारे में बताती है:प्रशिक्षण इमेजेस तैयार करें
उच्च गुणवत्ता वाली इमेजेस को क्यूरेट और अपलोड करें जो आपकी इच्छित स्टाइल का प्रतिनिधित्व करती हैं
प्रशिक्षण इमेजेस तैयार करें
अपने डेटासेट को क्यूरेट करना
आपकी प्रशिक्षण इमेजेस की गुणवत्ता सीधे परिणामों को प्रभावित करती है। विभिन्न प्रशिक्षण प्रकारों की अलग-अलग आवश्यकताएँ होती हैं:| प्रकार | उपयोग केस | टिप्स |
|---|---|---|
| Style | कलात्मक स्टाइल, विज़ुअल एस्थेटिक्स | विभिन्न विषयों में सुसंगत स्टाइल |
| Character | व्यक्तिगत समानता, सुसंगत पात्र | विविध मुद्राएँ, अभिव्यक्तियाँ, लाइटिंग |
| Object | विशिष्ट वस्तुएँ, उत्पाद | कई कोण, सुसंगत ऑब्जेक्ट |
कितनी इमेजेस?
गुणवत्ता मात्रा से कहीं अधिक मायने रखती है। शानदार इमेजेस का एक छोटा सेट औसत दर्जे की इमेजेस के बड़े सेट से बेहतर प्रदर्शन करेगा।| डेटासेट आकार | मार्गदर्शन |
|---|---|
| 5 इमेजेस | न्यूनतम व्यवहार्य। सरल, सुसंगत स्टाइल्स के लिए काम कर सकता है |
| 10-30 इमेजेस | अनुशंसित। गुणवत्ता और कवरेज का सर्वोत्तम संतुलन |
| 50+ इमेजेस | जब तक स्टाइल में उच्च विविधता न हो, घटता हुआ रिटर्न |
उदाहरण डेटासेट्स
- कैरेक्टर प्रशिक्षण: विविध मुद्राओं, अभिव्यक्तियों, और लाइटिंग स्थितियों वाले किसी व्यक्ति की तस्वीरें। इमेजेस में अन्य लोगों को शामिल करने से बचें।
- स्टाइल प्रशिक्षण: एक सुसंगत स्टाइल में कलाकृतियों का संग्रह। उदाहरण के लिए, The Metropolitan Museum of Art Ukiyo-E Dataset एक कलात्मक स्टाइल के प्रशिक्षण के लिए आदर्श जापानी वुडब्लॉक प्रिंट्स प्रदान करता है।
इमेजेस अपलोड करें
प्रशिक्षण से पहले, होस्ट किए गए URL प्राप्त करने के लिए अपनी इमेजेस अपलोड करें।/assets एंडपॉइंट का उपयोग करें:
अपनी स्टाइल प्रशिक्षित करें
बुनियादी प्रशिक्षण उदाहरण
प्रशिक्षण शुरू करने के लिए अपने इमेज URL सबमिट करें:प्रशिक्षण प्रकार
type पैरामीटर आपके उपयोग केस के लिए अनुकूलित बुद्धिमान डिफ़ॉल्ट सेट करता है:
| प्रकार | सर्वोत्तम के लिए |
|---|---|
Style | कलात्मक स्टाइल, विज़ुअल एस्थेटिक्स |
Character | व्यक्तिगत समानता, सुसंगत पात्र |
Object | विशिष्ट वस्तुएँ, उत्पाद |
Default | सामान्य प्रशिक्षण |
पैरामीटर
आवश्यक पैरामीटर
आपकी कस्टम स्टाइल के लिए एक वर्णनात्मक नाम।उदाहरण:
"Ukiyo-E Style", "Product Photos"प्रशिक्षण के लिए इमेज URL की सरणी। बेहतर परिणामों के लिए अधिक इमेजेस शामिल करें।
वैकल्पिक पैरामीटर
प्रशिक्षण के लिए बेस मॉडल:इमेज मॉडल:
flux_dev- उच्च गुणवत्ता, बहुमुखीflux_schnell- BFL का रीयलटाइम मॉडलqwen- Alibaba का मॉडलz-image- Alibaba का कुशल इमेज मॉडलwan22- केवल इमेज जनरेशन
wan- Alibaba का वीडियो मॉडल
प्रशिक्षण श्रेणी:
Style, Object, Character, या Defaultप्रॉम्प्ट्स में इस स्टाइल को सक्रिय करने के लिए कस्टम शब्द। निर्दिष्ट नहीं होने पर, स्टाइल नाम का उपयोग करता है।
उन्नत पैरामीटर
उन्नत पैरामीटर
प्रशिक्षण की तीव्रता को नियंत्रित करता है। उच्च मान तेज़ी से प्रशिक्षित करते हैं लेकिन ओवरफिट कर सकते हैं।अनुशंसित रेंज: 0.0001 - 0.001
अधिकतम प्रशिक्षण पुनरावृत्तियाँ। रेंज: 1-2000
एक साथ प्रोसेस की गई इमेजेस। बड़े बैच = तेज़ प्रशिक्षण लेकिन अधिक मेमोरी।
उन्नत पैरामीटर ट्यून करना
type फ़ील्ड द्वारा सेट किए गए डिफ़ॉल्ट्स से शुरू करें—वे अधिकांश मामलों के लिए अच्छी तरह से काम करते हैं। इन्हें केवल तभी समायोजित करें जब आप विशिष्ट समस्याएँ देख रहे हों:
लर्निंग रेट
लर्निंग रेट
यह नियंत्रित करता है कि मॉडल आपकी प्रशिक्षण इमेजेस के अनुकूल कितनी आक्रामक तरीके से होता है।
संकेत कि आपको समायोजित करना चाहिए:
| मान | कब उपयोग करें |
|---|---|
| 0.0001 (कम) | ओवरफिटिंग समस्याएँ, जटिल स्टाइल्स, छोटे डेटासेट |
| 0.0003 (डिफ़ॉल्ट) | अधिकांश उपयोग केस |
| 0.0005-0.001 (अधिक) | तेज़ प्रशिक्षण |
- आउटपुट प्रशिक्षण इमेजेस के समान दिखते हैं → रेट कम करें
- प्रशिक्षण के बाद स्टाइल प्रभाव कमज़ोर है → रेट थोड़ी बढ़ाएँ
प्रशिक्षण चरण
प्रशिक्षण चरण
मॉडल आपकी इमेजेस पर कितनी देर तक प्रशिक्षित करता है।
संकेत कि आपको समायोजित करना चाहिए:
| डेटासेट आकार | अनुशंसित चरण |
|---|---|
| 5-10 इमेजेस | 300-500 चरण |
| 15-30 इमेजेस | 500-800 चरण |
| 50+ इमेजेस | 800-1500 चरण |
- आउटपुट बहुत कठोर हैं, प्रॉम्प्ट्स को अनदेखा कर रहे हैं → चरण कम करें
- स्टाइल प्रभाव कमज़ोर है → चरण बढ़ाएँ
- जनरेट की गई इमेजेस बिल्कुल प्रशिक्षण डेटा जैसी दिखती हैं → चरण कम करें (ओवरफिटिंग)
प्रतिक्रिया प्रारूप
प्रशिक्षण प्रगति की निगरानी करें
प्रशिक्षण आमतौर पर 5-15 मिनट लेता है। स्टेटस जाँचने के लिए Jobs API को पोल करें:जॉब स्टेटस मान
जॉब स्टेटस मान
प्रशिक्षण जॉब्स इन स्टेट्स से गुज़रते हैं:
- queued - कतार में प्रतीक्षा कर रहा है
- processing - सक्रिय प्रशिक्षण
- completed - प्रशिक्षण सफलतापूर्वक समाप्त
- failed - प्रशिक्षण में त्रुटि आई
- cancelled - जॉब मैन्युअल रूप से रद्द किया गया
अपनी प्रशिक्षित स्टाइल का उपयोग करें
एक बार प्रशिक्षण पूरा होने पर,styles पैरामीटर का उपयोग करके इमेज जनरेशन में अपनी स्टाइल लागू करें:
स्टाइल स्ट्रेंथ
strength पैरामीटर (0.0-1.0) नियंत्रित करता है कि आपकी स्टाइल कितनी मज़बूती से लागू होती है:
| स्ट्रेंथ | प्रभाव |
|---|---|
| 0.5-0.7 | सूक्ष्म प्रभाव, प्रॉम्प्ट लचीलापन बनाए रखता है |
| 0.8-0.9 | मज़बूत स्टाइल अनुप्रयोग, अनुशंसित शुरुआती बिंदु |
| 0.95-1.0 | अधिकतम स्टाइल पालन, प्रॉम्प्ट प्रतिक्रिया कम कर सकता है |
कई स्टाइल्स को जोड़ना
styles सरणी में उन्हें जोड़कर कई स्टाइल्स लागू करें:
सर्वोत्तम प्रथाएँ
इमेज चयन
इमेज चयन
- इष्टतम परिणामों के लिए आपके पास जितनी उच्च-गुणवत्ता वाली इमेजेस हों, उनका उपयोग करें
- सभी प्रशिक्षण इमेजेस में सुसंगत स्टाइल सुनिश्चित करें
- स्टाइल कोहेरेंस बनाए रखते हुए विषयों में विविधता शामिल करें
- वॉटरमार्क, टेक्स्ट ओवरले, या आर्टिफैक्ट्स से बचें
- कम से कम 1024x1024 रिज़ॉल्यूशन की इमेजेस का उपयोग करें
प्रशिक्षण कॉन्फ़िगरेशन
प्रशिक्षण कॉन्फ़िगरेशन
typeफ़ील्ड का उपयोग करके डिफ़ॉल्ट पैरामीटर के साथ शुरू करें- स्टाइल्स के लिए: 500-1000 चरण आमतौर पर पर्याप्त होते हैं
- कम लर्निंग रेट्स (0.0001-0.0003) ओवरफिटिंग से बचाती हैं
- यदि स्टाइल पर्याप्त मज़बूत नहीं है तो चरण बढ़ाएँ
- यदि आउटपुट बहुत कठोर है तो चरण कम करें
ट्रिगर शब्द
ट्रिगर शब्द
- यदि आप कई स्टाइल्स को संयोजित करने की योजना बना रहे हैं तो एक ही ट्रिगर शब्द का उपयोग करें
- यदि आप स्टाइल शामिल करते हैं तो ट्रिगर शब्द स्वचालित रूप से प्रॉम्प्ट में इंजेक्ट किए जाते हैं
- सामान्य शब्दों से बचें जो सामान्य प्रॉम्प्ट्स में आते हैं
- बहु-शब्द ट्रिगर के लिए अंडरस्कोर का उपयोग करें:
my_custom_style