Claude Opus 4.8 अपने ही कोड की चार गुना ज़्यादा गलतियाँ पकड़ता है

Anthropic ने अपने सबसे सक्षम मॉडल को Claude Opus 4.8 में अपग्रेड किया है, और मुख्य बदलाव कोई बड़ा दिमाग नहीं बल्कि एक ज़्यादा सतर्क दिमाग है। कंपनी का कहना है कि मॉडल अपने पिछले संस्करण की तुलना में लगभग चार गुना कम संभावना रखता है कि वह अपने लिखे कोड की खामियों को बिना टिप्पणी के निकल जाने दे, और किसी काम के जिन हिस्सों को लेकर वह अनिश्चित है उन्हें वह ज़्यादा खुलकर बताता है। जो कोई असली काम किसी AI को सौंपता है, चाहे कोड लिखना हो, कोई विश्लेषण चलाना हो या कंप्यूटर चलाना हो, वही भरोसेमंदी असल में मायने रखने वाली खूबी है।

आज के AI एजेंटों की कमज़ोरी मूर्खता नहीं, आत्मविश्वास है। वे ऐसे नतीजे देते हैं जो पूरे दिखते हैं और सहजता से पढ़े जाते हैं, पर चुपचाप गलतियाँ ढोते हैं, और अपने आप चलने वाला तंत्र अगला कदम पिछली गलती पर ही खड़ा कर देता है। किसी एजेंट को कई चरणों वाला काम दीजिए, और शुरुआत की एक भर गलत धारणा आगे की हर चीज़ में फैल सकती है, जिससे काम पूरा दिखकर आता है और बिना किसी के देखे टूटा हुआ निकलता है। जो मॉडल अपनी शंकाओं को ढकने के बजाय सामने रखता है, उसकी निगरानी आसान होती है, क्योंकि इंसान को पता रहता है कि कहाँ देखना है।

सबसे साफ़ सबूत कोड में है। Anthropic बताती है कि Opus 4.8 अपने बनाए कोड की कहीं कम खामियों को बिना चिन्हित किए निकलने देता है, वही चुपचाप बैठा बग जो जाँच में नहीं बल्कि प्रोडक्शन में उभरता है। शुरुआती परखने वालों में शामिल निवेश फर्म Bridgewater Associates ने कहा कि मॉडल ने अपनी ओर से किसी विश्लेषण के इनपुट और नतीजों, दोनों की दिक्कतें बताईं, जिन्हें दूसरे तंत्र अक्सर चूक जाते थे। ज्ञान-कार्य और वित्त में खतरनाक गलती वही होती है जिसे कोई समय रहते नहीं पकड़ पाता।

बेंचमार्क के आँकड़े इस ढाँचे को सहारा देते हैं, पर वही कहानी नहीं हैं। बताया गया है कि Opus 4.8 ने SWE-Bench Pro पर 69.2 प्रतिशत हासिल किए, जो असली सॉफ़्टवेयर इंजीनियरिंग कार्यों से बना परीक्षण है, और इसमें यह OpenAI के GPT-5.5 तथा Google के Gemini 3.1 Pro से आगे रहा। Anthropic के अपने मापों में यह हर मेहनत-स्तर पर एक कोडिंग परीक्षण में पिछले सभी Opus मॉडलों को मात देता है और कानूनी तर्क के एक परीक्षण में कंपनी का अब तक का सबसे ऊँचा दर्ज नतीजा बनाता है। बढ़तें असली हैं पर संकरी, और बेंचमार्क की जीतें यह बताने में कमज़ोर हैं कि दिनभर मामूली काम करते हुए मॉडल कैसा बर्ताव करेगा।

मॉडल के साथ नए औज़ार भी आते हैं। Claude Code के भीतर रिसर्च प्रीव्यू में मौजूद एक सुविधा, जिसे dynamic workflows कहा जाता है, Opus को बड़ा काम योजना बनाकर फिर एक ही सत्र में सैकड़ों समानांतर सब-एजेंट चलाने देती है, जो लाखों लाइनों के कोड तक फैली माइग्रेशन के लिए सोची गई है और कसौटी के रूप में परियोजना की मौजूदा टेस्ट सूट को लेती है। इसके अलावा Claude.ai और कंपनी के Cowork परिवेश में एक नया नियंत्रण उपयोगकर्ता को तय करने देता है कि मॉडल किसी जवाब पर कितनी मेहनत, और कितने टोकन, खर्च करे।

चेतावनियाँ दावों से सटी हुई हैं। भरोसेमंदी की बढ़तें बड़े हिस्से में Anthropic के अपने परीक्षणों पर टिकी हैं, और चार गुना कम जैसा आँकड़ा एक आंतरिक माप है, स्वतंत्र रूप से ऑडिट किया हुआ नहीं। ईमानदारी को बाहर से जाँचना भी कठिन है, क्योंकि कोई मॉडल अपनी अनिश्चितता घोषित करके भी गलत हो सकता है, या गलत जगह झंडा उठा सकता है। Dynamic workflows सिर्फ़ प्रीव्यू के रूप में आता है, तैयार सुविधा के रूप में नहीं, और रफ़्तार की कहानी जितनी सुनाई देती है उतनी उदार नहीं, क्योंकि तेज़ मोड मानक दर से दोगुना महँगा है और इसे सस्ता सिर्फ़ पुराने प्रीमियम दामों के मुक़ाबले कहा जाता है।

लागत देखने वालों के लिए, मानक पहुँच दस लाख इनपुट टोकन पर पाँच डॉलर और दस लाख आउटपुट पर पच्चीस डॉलर पर बनी रहती है, ठीक पिछले Opus की तरह। तेज़ मोड दस लाख पर दस और पचास डॉलर में करीब ढाई गुना रफ़्तार से चलता है, जिससे नया मेहनत-नियंत्रण उतना ही बजट का औज़ार है जितना गुणवत्ता का घुंडी। Claude Opus 4.8 अभी से Anthropic के डेवलपर API के ज़रिए claude-opus-4-8 नाम से उपलब्ध है, और कंपनी कहती है कि वह इसे उसी दिन हर जगह उतार रही है। यह गुरुवार को आया, Opus 4.7 के करीब छह हफ़्ते बाद, एक असामान्य रूप से छोटा अंतराल जो उस संस्करण के ठंडे स्वागत और OpenAI तथा Google की प्रतिस्पर्धी पेशकशों की लड़ी के बाद आया। असली कसौटी यह है कि खुद पर शक करना सीखा मॉडल रोज़मर्रा के काम में उस मॉडल से ज़्यादा उपयोगी साबित होता है या नहीं जो रैंकिंग पर चमकना सीखा है, और यह फ़ैसला उन्हीं एजेंटों से आएगा जिन्हें लोग सचमुच चलने देते हैं।

टैग: Anthropic, Claude Code, AI reasoning, Claude Opus 4.8, Generative AI, LLM