मार्कोवियन थिंकिंग: एलएलएम रीजनिंग एफिशिएंसी में एक सफलता

Original: English

मिला, माइक्रोसॉफ्ट रिसर्च और मैकगिल यूनिवर्सिटी के शोधकर्ताओं ने एक ऐसी महत्वपूर्ण तकनीक विकसित की है जो बड़े भाषा मॉडल के विस्तारित तर्क कार्यों को संभालने के तरीके में क्रांतिकारी बदलाव ला सकती है।

मूल समस्या

वर्तमान तर्क मॉडल को एक बुनियादी बाधा का सामना करना पड़ता है: जैसे-जैसे वे लंबे समय तक सोचते हैं, उनकी कम्प्यूटेशनल लागत लगातार बढ़ते संदर्भ के कारण चतुष्कोणीय रूप से बढ़ती है, जिसे उन्हें संसाधित करना पड़ता है। arXiv. यह विस्तारित तर्क को अत्यधिक महंगा बनाता है और एआई समस्या-समाधान की परिष्कार को सीमित करता है।

मार्कोवियन समाधान

टीम का दृष्टिकोण, जिसे "मार्कोवियन थिंकिंग" कहा जाता है, मौलिक रूप से बदलता है कि कैसे लगातार बढ़ते संदर्भ के बजाय स्थिर आकार की स्थिति पर कंडीशनिंग द्वारा मॉडल तर्क करते हैं arXiv. उन्होंने इसे "डेलीथिंक" के माध्यम से कार्यान्वित किया, जो एक प्रशिक्षण वातावरण है जो तर्क को निश्चित आकार के टुकड़ों में विभाजित करता है।

विचार की एक सतत श्रृंखला को बनाए रखने के बजाय, मॉडल निश्चित आकार के टुकड़ों में विभाजित होता है (उदाहरण के लिए, 8K टोकन)। प्रत्येक सीमा पर, संदर्भ रीसेट हो जाता है और पिछले खंड से केवल एक संक्षिप्त "कैरीओवर" के साथ जारी रहता है arXiv. मॉडल तर्क की निरंतरता बनाए रखने के लिए आवश्यक जानकारी को इस पाठ्य स्थिति में संपीड़ित करना सीखता है।

उल्लेखनीय परिणाम

तकनीक नाटकीय दक्षता लाभ प्रदान करती है:

  • सोच की लंबाई की परवाह किए बिना निरंतर स्मृति उपयोग के साथ, द्विघात के बजाय रैखिक गणना स्केलिंग arXiv
  • दस लाख टोकन पर, डेलेथिंक कम्प्यूटेशनल संचालन में 17× की कमी हासिल करता है arXiv
  • 96K टोकन रीजनिंग के लिए प्रशिक्षण लागत अनुमानित 27 H100-महीने से घटकर केवल 7 महीने रह गई है arXiv

प्रशिक्षण सीमाओं से कहीं अधिक तर्क को सक्षम करते हुए प्रदर्शन पारंपरिक दृष्टिकोण से मेल खाता है या उससे अधिक है। शोधकर्ताओं ने 96K टोकन तक सोचने के लिए 1.5B मॉडल को प्रशिक्षित किया, जिससे चुनौतीपूर्ण AIME गणित समस्याओं पर 49% सटीकता प्राप्त हुई। arXiv

यह क्यों काम करता है

आश्चर्यजनक रूप से, टीम ने पाया कि शून्य-शॉट परीक्षण करने पर मौजूदा तर्क मॉडल पहले से ही प्राकृतिक मार्कोवियन व्यवहार प्रदर्शित करते हैं, जो प्रशिक्षण के लिए मजबूत आरंभीकरण प्रदान करते हैं। arXiv. इससे पता चलता है कि यह दृष्टिकोण वर्तमान मॉडल आर्किटेक्चर पर व्यापक रूप से लागू हो सकता है।

आशय

संदर्भ आकार से सोच की लंबाई को अलग करके, यह प्रतिमान अगली पीढ़ी के तर्क मॉडल के लिए द्वार खोलता है जो रैखिक गणना और निरंतर मेमोरी के साथ लाखों टोकन के लिए सोच सकता है arXiv. यह पहले से असंभव अनुप्रयोगों को सक्षम कर सकता है जिनके लिए विस्तारित तर्क, जटिल निर्णय वर्कफ़्लो और दीर्घकालिक रणनीतिक योजना की आवश्यकता होती है।

शोध दर्शाता है कि कुशल दीर्घकालिक-संदर्भ तर्क केवल वास्तुशिल्प सुधारों के बजाय चतुर पर्यावरणीय डिजाइन के माध्यम से प्राप्त किया जा सकता है।

Log in to add a comment.

Comments

No comments yet.