प्रौद्योगिकी

OpenAI के नए वॉइस मॉडल का सोचना अब उसी ऑडियो लूप के अंदर होता है, और जो ख़ामोशी AI की पहचान करवा देती थी, वह ग़ायब हो जाती है

Susan Hill

पकड़वाने वाली चीज़ वही ठहराव है। अब तक वॉइस AI ऐसे काम करता था — बोली को टेक्स्ट में बदलो, टेक्स्ट को किसी भाषा-मॉडल को भेजो, जवाब वापस लो, फिर उसे ऑडियो में संश्लेषित कर के बजा दो। हर चरण में समय जाता है। उपयोगकर्ता को ख़ामोशी सुनाई देती है, उसे एहसास होता है कि दूसरी तरफ़ कुछ प्रोसेस हो रहा है, उसे वह सीवन महसूस होती है। OpenAI का नया GPT-Realtime-2 इस पूरी पाइपलाइन को एक ही मॉडल में सिकोड़ कर रख देता है, जिसमें सोचना ऑडियो लूप के अंदर ही होता है — और सीवन ग़ायब हो जाती है।

OpenAI ने इस हफ़्ते अपने Realtime API में तीन नए ऑडियो मॉडल — GPT-Realtime-2, GPT-Realtime-Translate और GPT-Realtime-Whisper — उतारे हैं। मुख्य हीरो पहला है। कंपनी इसे “GPT-5-स्तरीय रीज़निंग” वाला पहला वॉइस मॉडल बताती है, जिसे इस तरह बनाया गया है कि एक ही मॉडल ऑडियो इन और ऑडियो आउट दोनों संभाले, और सोच ट्रांसक्रिप्शन और सिंथेसिस के बीच दबने के बजाय बातचीत में बुनी हुई हो। साथ खड़ी संख्याएँ ठोस हैं। पिछले संदर्भ मॉडल की तुलना में Big Bench Audio का स्कोर 81.4 प्रतिशत से उछलकर 96.6 प्रतिशत पर पहुँच गया। Audio MultiChallenge 34.7 प्रतिशत से 48.5 प्रतिशत पर चढ़ा। संदर्भ खिड़की 32,000 टोकन से बढ़कर 1,28,000 टोकन हो गई — एक कॉल के दौरान किसी ग्राहक की पूरी हिस्ट्री को साथ बिठाने के लिए पर्याप्त जगह।

संरचनात्मक बदलाव बेंचमार्क में कम दिखता है। पिछले तीन साल से, जिसने भी प्रोडक्शन के लिए वॉइस एजेंट खड़ा करना चाहा, उसे पूरा स्टैक हाथ से सिलना पड़ा — ट्रांसक्रिप्शन के लिए Whisper या Deepgram, रीज़निंग के लिए कोई LLM, आवाज़ के लिए ElevenLabs या Cartesia, और लेटेन्सी पर परदा डालने के लिए प्रॉम्प्ट इंजीनियरिंग। एक टुकड़े से दूसरे टुकड़े पर छलाँग लगाने में हर बार मिलिसेकंड और स्पष्टता जाती थी। उपयोगकर्ता को सुनाई देता था स्क्रिप्ट का घुसाया हुआ “ज़रा देखकर बताता हूँ”, फिर मॉडल के सोचने भर का सन्नाटा, और अंत में जवाब। GPT-Realtime-2 इन्हीं ढाँचों को मूल व्यवहार के रूप में लेकर आया है। प्रिएम्बल एजेंट को यह कहने की इजाज़त देते हैं कि “ज़रा देखकर बताता हूँ”, जब वह बैकग्राउंड में टूल बुला रहा होता है, ताकि उपयोगकर्ता ख़ामोशी में बैठा न रहे। समानांतर टूल कॉल मॉडल को एक साथ कई बैकएंड अनुरोध दाग देने और यह बताने देती हैं कि कौन-सा अभी चल रहा है। रिकवरी व्यवहार विफलताओं को पकड़ कर सामने रखता है, बजाय इसके कि बातचीत जम जाए।

डेवलपर के लिए जो नियंत्रण-तल खुलता है, सबसे रोचक हिस्सा वही है। “रीज़निंग एफ़र्ट” अब कॉन्फ़िगर किया जा सकता है — minimal, low, medium, high और xhigh — डिफ़ॉल्ट low रखा गया है ताकि सरल अनुरोधों में लेटेन्सी कम बनी रहे। “आप कितने बजे बंद होते हैं?” वाले एजेंट को GPT-5-स्तरीय रीज़निंग की ज़रूरत नहीं। रिफ़ंड विवाद में ग्राहक का साथ निभाने वाले एजेंट को है। एक ही मॉडल को टर्न-दर-टर्न यह बताया जा सकता है कि कितना गहरा सोचना है — और यह पिछले मॉडल की तुलना में असली बदलाव है, जहाँ रीज़निंग की गहराई स्थिर थी और डेवलपर को तैनाती के समय “तेज़ या समझदार” में से एक चुनना पड़ता था।

संदेह के लिए कमरा रखना ज़रूरी है। “GPT-5-स्तरीय रीज़निंग” एक मार्केटिंग वाक्य है, जाँचा जा सकने वाला दावा नहीं — असली संवाद पर चलाए गए स्वतंत्र बेंचमार्क के बिना यह तुलना घर के अंदर ही रहती है। वॉइस एजेंट की एक अलग किस्म की विफलता होती है, जिसे बेंचमार्क ठीक से नहीं पकड़ पाते — वह क्षण जब एजेंट शांत, स्वाभाविक आवाज़ में पूरी आत्मविश्वास से कुछ ग़लत कह जाता है। बेहतर रीज़निंग मदद तो करती है, पर इस समस्या को मिटाती नहीं। क़ीमत भी वज़न रखती है। GPT-Realtime-2 की लागत 32 डॉलर प्रति दस लाख ऑडियो इनपुट टोकन और 64 डॉलर प्रति दस लाख आउटपुट टोकन है। GPT-Realtime-Translate 0.034 डॉलर प्रति मिनट और GPT-Realtime-Whisper 0.017 डॉलर प्रति मिनट पर चलता है। बड़ी मात्रा वाले ग्राहक सेवा के लिए यह काफ़ी सस्ता है। इतना सस्ता नहीं कि किसी कंज़्यूमर बातचीत-आधारित प्रोडक्ट में बिना सोच-विचार के झोंक दिया जाए — हर सेशन की अवधि की योजना सोचकर बनानी होगी।

तैनाती का संदर्भ कहानी का बाक़ी हिस्सा बताता है। Zillow ने उसी दिन वॉइस के ज़रिए घर खोजने वाली सेवा चालू कर दी। Deutsche Telekom ने 14 यूरोपीय बाज़ारों में लाइव-अनुवाद वाली वॉइस सपोर्ट तैनात की। दोनों ही ठीक वही केस हैं, जिनके लिए OpenAI ने क़ीमत तय की है — लंबी, लेन-देन वाली, संदर्भ-गाढ़ी बातचीत, जहाँ उपयोगकर्ता को असल में रीज़न करते एजेंट से फ़ायदा होता है, सिर्फ़ रिकॉर्ड खोजने वाले से नहीं। Priceline ऐसा सिस्टम बना रहा है, जिसमें यात्री पूरी तरह आवाज़ से होटल बुकिंग संभालें और फ़्लाइट देरी पर नज़र रखें। OpenAI जिन ग्राहकों के नाम सबसे पहले उछालता है, उनका पैटर्न साफ़ है — ये वही जगहें हैं जहाँ अब तक के वॉइस सिस्टम सबसे ख़राब चलते थे — कॉल सेंटर, सपोर्ट लाइनें, ट्रांज़ैक्शनल यात्रा सेवाएँ। यानी वही जगहें जहाँ उपयोगकर्ता आज भी फ़ोन में “ऑपरेटर” चिल्लाता है।

मॉडल अभी से Realtime API में उपलब्ध हैं। ChatGPT के लिए वॉइस अपग्रेड अभी पाइपलाइन में हैं — “तैयार रहिए, हम पका रहे हैं,” OpenAI ने कहा। सैम ऑल्टमैन ने इस लॉन्च को व्यवहार-स्तर के बदलाव में रखा है — उपयोगकर्ता AI के साथ ज़्यादा से ज़्यादा तब आवाज़ का सहारा लेने लगे हैं, जब उन्हें बहुत सारा संदर्भ “उडेल” देना होता है। यदि यह पैटर्न क़ायम रहता है, तो वॉइस AI और टेक्स्ट AI के बीच की दूरी सिकुड़ने लगेगी — और जो सीवन फ़ोन पर AI की पोल खोलती थी, उसे सुनना कठिन होता जाएगा।

चर्चा

0 टिप्पणियाँ हैं।