प्रौद्योगिकी

Opus 4.6 से दो अंक पीछे, पाँच गुना सस्ता: Gemini 3.5 Flash का हिसाब बदल गया

Susan Hill

Google ने सोमवार को Gemini 3.5 Flash 1.50 डॉलर प्रति दस लाख इनपुट टोकन और 9 डॉलर प्रति दस लाख आउटपुट टोकन की दर पर लॉन्च किया। नया मॉडल हर सेकंड 280 से अधिक आउटपुट टोकन बनाए रखता है, अपने पूर्ववर्ती जैसी ही दस लाख टोकन की संदर्भ खिड़की रखता है, और Artificial Analysis Intelligence Index पर 55 अंकों के साथ बैठता है — Gemini 3 Flash से नौ अंक ऊपर। मंगलवार सुबह तक r/Anthropic का एक थ्रेड चार्ट को Claude Opus 4.6 के बगल में पहले ही रख चुका था और वह सवाल पूछ चुका था जिसके चारों ओर यह बाजार छह महीने से चक्कर लगा रहा है: किस बिंदु पर एक बेंचमार्क पर दो अंक की बढ़त पाँच गुना दाम के लायक रहना बंद कर देती है?

Intelligence Index तर्क, ज्ञान, कोडिंग, गणित और एजेंट कार्यों के सार्वजनिक मूल्यांकनों की एक टोकरी को 1 से 100 तक के एक ही स्कोर में जोड़ता है। अनुकूली तर्क मोड में Claude Opus 4.6 57 पर बैठा है। 19 मई को रिलीज़ हुआ Gemini 3.5 Flash 55 पर बैठा है। संस्करण-दर-संस्करण नौ अंकों की छलांग Flash ने एक ही पीढ़ी में अब तक का सबसे ऊँचा कदम है — इतना बड़ा कि नया मॉडल Anthropic के पिछले Sonnet को कच्ची बुद्धि में Sonnet की लागत के एक अंश पर बराबरी दे रहा है।

Reddit थ्रेड ने जिस «स्मार्टर» फ्रेम का इस्तेमाल किया, वह Flash के पक्ष में फासले को बढ़ा-चढ़ाकर पेश करता है। शुद्ध Intelligence Index पर Opus 4.6 अब भी दो अंक आगे है। जिस चार्ट ने थ्रेड को तोड़ दिया, वह अकेला Intelligence Index नहीं है। वह बुद्धि-दक्षता बनाम लागत वाला दृश्य है, जहाँ अक्ष एक अलग काम कर रहा है और जहाँ Flash 3.5 केवल Opus 4.6 को नहीं हराता। वह एक ऐसी श्रेणी में बैठा है जिसमें उसके आसपास कोई दूसरा नहीं है।

Opus 4.6 करीब 6.25 डॉलर प्रति दस लाख इनपुट टोकन और 25 प्रति दस लाख आउटपुट लेता है। Flash 1.50 और 9 लेता है। आउटपुट के पक्ष में दो-एक भारित चैट लोड के लिए असल अनुपात «पाँच गुना» की गोल आँकड़े वाली हेडलाइन से नहीं, बल्कि 4.5x के अधिक करीब बैठता है। गोलाई ईमानदार है। गति फ्लैगशिप के लिए तस्वीर और खराब करती है: Flash 3.5 प्रति सेकंड 280 से अधिक आउटपुट टोकन बनाए रखता है, जबकि Opus 4.6 अधिकतम-प्रयास तर्क मोड में उसी बेंचमार्क सेट पर लगभग एक-दसवाँ गति पर चलता है। ऐसे उत्पादों के लिए जहाँ कोई उपयोगकर्ता कर्सर को घूरता रहता है — कोडिंग असिस्टेंट, सपोर्ट एजेंट, कोई भी इंटरैक्टिव फ्लो — विलंबता एक ऐसी विशेषता है जिसे कीमत वापस नहीं खरीद सकती।

एक साल पहले सबसे महंगा मॉडल खरीदने का तर्क एक पंक्ति में आ जाता था। अगले स्तर तक गुणवत्ता की छलांग इतनी तेज़ थी कि कीमत का अंतर दिए गए मूल्य के मुकाबले एक गोलाई की गलती के बराबर था। थ्रेड ने जो चार्ट चिपकाया वह एक अलग चार्ट है। आखिरी दो बुद्धि अंकों की सीमांत लागत प्रोडक्शन लोड के लिए पूरा कीमत-निर्णय बन गई है, और गोलाई की गलती अब हर खर्च किए छह डॉलर में से 4.75 के अधिक करीब आ गिरती है।

Opus 4.6 को स्टैक में रखने के लिए एक साफ-सुथरा तर्क है। सैकड़ों पन्नों पर लंबी संदर्भ की तर्क-शक्ति, ऐसे एजेंट लूप जहाँ कदम-दर-कदम गलतियाँ जुड़ती जाती हैं, दस्तावेज़ विश्लेषण जहाँ एक एग्रीगेट अंक में दो अंक का फासला कहीं बड़ी कार्य-विशिष्ट बढ़त छिपा रहा होता है। Opus आज भी वही मॉडल है जिसकी ओर एक इंजीनियर तब बढ़ता है जब विफलता की शैली «जवाब गलत था» होती है, «जवाब देर से आया» नहीं। ऐसे दिखने वाले प्रोडक्शन लोड का हिस्सा सिकुड़ रहा है। वह शून्य नहीं है, और ठीक वही पट्टी है जहाँ 25 डॉलर प्रति दस लाख अपनी तनख़्वाह कमाते हैं।

बिल लायक टोकनों का बड़ा हिस्सा हिलाने वाले चैट टर्न — मसौदा बनाना, सारांश देना, वर्गीकृत करना, अनुवाद, कोड ऑटोकम्पलीशन, ग्राहक-सम्मुख तर्क — सब Flash की पहुँच में आते हैं। इंजीनियरिंग टीमें हर तिमाही जो सवाल पूछती हैं वह अब «कौन-सा मॉडल सबसे अच्छा है» नहीं रहा। वह «स्वीकार्य विलंबता पर प्रति डॉलर सबसे ज़्यादा कौन-सा मॉडल देता है» हो गया है। उस दूसरे सवाल को Flash अब इतनी बड़ी सीमा से जीतता है कि व्याख्या में कोई बारीकी नहीं चाहिए।

थ्रेड का दूसरा फ्रेम, कि हर जगह सहमति है कि Opus 4.6 4.7 से बेहतर है, थोड़ा कोमल बर्ताव चाहता है। यह उपाख्यानात्मक है। Anthropic के पिछले दो Opus संस्करणों को कोड मूल्यांकनों और टूल-उपयोग की कठोरता पर बँटी हुई समीक्षाएँ मिली हैं, कुछ टीमें 4.7 पर लंबे एजेंट लूप में पीछे हटने की रिपोर्ट देती हैं और कुछ समान लोड पर साफ़ जीत की। दोनों एक साथ सच हो सकते हैं जब छोटे संस्करणों के बीच व्यवहार को कई अक्षों पर ट्यून किया जा रहा हो। सार्वजनिक इंडेक्स में दोनों मॉडल आपस में एक अंक से भी कम के फासले पर खड़े हैं, इसलिए समुदाय का बँटना क्षमता की बहस से ज़्यादा स्वाद की बहस जैसा लगता है। बहस से बाहर यह है कि दोनों में से किसी भी Opus की कीमत हिलती नहीं।

Reddit की बातचीत में गहरा संकेत वह है जिस पर उपयोगकर्ता बहस नहीं कर रहे थे। थ्रेड में किसी ने Opus की कीमत का सिद्धांत-आधारित बचाव नहीं किया। जो बचाव सामने आए वे लोड-विशिष्ट थे। «Opus अब भी मेरे इस एजेंट लूप में जीतता है।» «Opus हमारे दस्तावेज़ समीक्षा पाइपलाइन में बना रहता है।» ये सच हैं, पर ये लोड के बचाव हैं, फ्लैगशिप के नहीं। एक फ्लैगशिप को फैलाव पर जीतना चाहिए, किसी एक लेन पर नहीं।

बुद्धि में दो अंक का फासला। पाँच गुना कीमत। उल्टी दिशा में छह गुना गति बढ़त। दस लाख टोकन की संदर्भ खिड़की 1.50 डॉलर प्रति दस लाख इनपुट पर। मल्टीमॉडल इनपुट, एजेंट कार्यों पर 1650 से ऊपर Elo, कैश किए गए इनपुट पर नब्बे प्रतिशत छूट। Anthropic का अगली तिमाही का जवाब अपनी कहानी ख़ुद कहेगा। मई 2026 में लिखने के लिए कठिन तर्क वह है जिसे एक सेल्सपर्सन एक ग्राहक मीटिंग में अपने साथ ले जाता है।

चर्चा

0 टिप्पणियाँ हैं।