'सुपरह्युमन' AI ने प्रथमच POKER मधील व्यावसायिकांना हरवले

तंत्रज्ञान

उद्या आपली कुंडली

व्यावसायिक निर्विकार खेळाडूंनी मारहाण केली आहे कृत्रिम बुद्धिमत्ता प्रथमच कार्यक्रम.



Pluribus नावाच्या बॉटने सहा-खेळाडूंच्या नो-लिमिट टेक्सास होल्डम पोकरमध्ये आघाडीच्या व्यावसायिकांना पराभूत केले, जो जुगाराच्या पत्त्यांचा जगातील सर्वात लोकप्रिय प्रकार आहे.



प्लुरिबसने पोकर व्यावसायिक डॅरेन एलियास, ज्यांच्याकडे सर्वाधिक जागतिक पोकर टूर विजेतेपदांचा विक्रम आहे, आणि पोकर स्पर्धांच्या सहा जागतिक मालिका विजेत्या क्रिस 'जेसस' फर्ग्युसनचा पराभव केला.



शास्त्रज्ञांनी विकसित केलेल्या प्लुरिबसच्या पाच प्रतींविरुद्ध प्रत्येक प्रो स्वतंत्रपणे 5,000 हात पोकर खेळला. कार्नेगी मेलॉन विद्यापीठ च्या सहकार्याने यूएस मध्ये फेसबुक .

13 व्यावसायिकांचा समावेश असलेल्या दुसर्‍या प्रयोगात, ज्या सर्वांनी पोकर खेळून 10 लाख US डॉलर्सपेक्षा जास्त जिंकले आहेत, Pluribus ने एका वेळी एकूण 10,000 हातांसाठी पाच साधक खेळले आणि पुन्हा विजयी झाला.

प्रो. टुमास सँडहोम यांनी पीएच.डी. पूर्ण करणाऱ्या नोम ब्राउनसोबत प्लुरिबस विकसित केला. Facebook AI मधील संशोधन शास्त्रज्ञ म्हणून कार्नेगी मेलॉनच्या संगणक विज्ञान विभागात.



ऑनलाइन पोकर खेळत आहे

ऑनलाइन पोकर खेळत आहे (प्रतिमा: गेटी)

प्रोफेसर सँडहोम म्हणाले: 'प्लुरिबसने मल्टी-प्लेअर पोकरमध्ये अलौकिक कामगिरी केली, जी कृत्रिम बुद्धिमत्ता आणि गेम थिअरीमध्ये अनेक दशकांपासून सुरू असलेल्या मान्यताप्राप्त मैलाचा दगड आहे.



'आतापर्यंत, रणनीतिक तर्कातील अतिमानवी एआय टप्पे दोन-पक्षीय स्पर्धेपुरते मर्यादित आहेत.

लिंडसे हंटर पॉल हंटर

'अशा गुंतागुंतीच्या गेममध्ये इतर पाच खेळाडूंना पराभूत करण्याची क्षमता विविध प्रकारच्या वास्तविक-जगातील समस्यांचे निराकरण करण्यासाठी AI वापरण्याच्या नवीन संधी उघडते.'

गेल्या वर्षी Facebook AI मध्ये सामील झालेले मिस्टर ब्राउन म्हणाले: 'हेड-टू-हेड खेळण्याऐवजी सहा खेळाडूंचा गेम खेळण्यासाठी AI आपली खेळण्याची रणनीती कशी विकसित करते यात मूलभूत बदल आवश्यक आहेत.

'आम्ही त्याच्या कामगिरीने आनंदित आहोत आणि विश्वास ठेवतो की काही प्लुरिबस' खेळण्याची रणनीती कदाचित गेम खेळण्याचा मार्ग बदलू शकते.'

ते म्हणाले की प्लुरिबसच्या अल्गोरिदमने त्याच्या धोरणामध्ये काही आश्चर्यकारक वैशिष्ट्ये तयार केली आहेत. उदाहरणार्थ, बहुतेक मानवी खेळाडू 'डॉन्क सट्टेबाजी' टाळतात - म्हणजे, कॉलने एक फेरी संपवतात पण नंतर पुढची फेरी सट्टेबाजीने सुरू करतात. हे एक कमकुवत चाल म्हणून पाहिले जाते जे सहसा धोरणात्मक अर्थ देत नाही.

परंतु प्लुरिबसने पराभूत केलेल्या व्यावसायिकांपेक्षा कितीतरी जास्त वेळा 'डोंक' बेट लावले.

पोकर प्रो इलियास म्हणाले: 'त्याची प्रमुख ताकद मिश्रित रणनीती वापरण्याची क्षमता आहे.

(प्रतिमा: गेटी)

'माणसं तीच गोष्ट करण्याचा प्रयत्न करतात. मानवांसाठी ही अंमलबजावणीची बाब आहे - हे पूर्णपणे यादृच्छिक पद्धतीने करणे आणि ते सातत्याने करणे. बहुतेक लोक करू शकत नाहीत.'

प्लुरिबसने ठोस विजय नोंदवला आणि इलियास म्हणाला. 'बोट फक्त रस्त्याच्या मध्यभागी असलेल्या साधकांशी खेळत नव्हता. तो जगातील सर्वोत्तम खेळाडूंपैकी काही खेळत होता.'

मायकेल 'गॅग्स' गॅग्लियानो, ज्याने आपल्या कारकिर्दीत सुमारे दोन दशलक्ष यूएस डॉलर्स कमावले आहेत, त्यांनी प्लुरिबस विरुद्ध देखील स्पर्धा केली.

28 देवदूत संख्या अर्थ

तो म्हणाला: 'पोकर बॉट विरुद्ध खेळणे आणि त्याने निवडलेल्या काही रणनीती पाहणे हे आश्चर्यकारकपणे आकर्षक होते.

'अशी अनेक नाटके होती जी मानव अजिबात बनवत नाहीत, विशेषत: त्याच्या पैज आकाराशी संबंधित.

'पोकरच्या उत्क्रांतीत बॉट्स/एआय हा महत्त्वाचा भाग आहे आणि भविष्याच्या दिशेने या मोठ्या टप्प्यावर प्रथमच अनुभव घेणे आश्चर्यकारक होते.'

प्रो. सँडहोम यांनी 16 वर्षांहून अधिक काळ कॉम्प्युटर पोकरचा अभ्यास करणार्‍या संशोधन संघाचे नेतृत्व केले आहे.

त्याने आणि श्रीमान ब्राउनने यापूर्वी लिब्रेटस विकसित केला होता, ज्याने दोन वर्षांपूर्वी चार पोकर व्यावसायिकांना निर्णायकपणे हेड-अप नो-लिमिट टेक्सास होल्डमचे एकत्रित 120,000 हात खेळून पराभूत केले, ही गेमची दोन-खेळाडी आवृत्ती आहे.

प्रोफेसर सँडहोम यांनी स्पष्ट केले की बुद्धिबळ आणि गो यासारख्या खेळांनी एआय संशोधनासाठी दीर्घकाळ मैलाचे दगड म्हणून काम केले आहे.

त्या खेळांमध्ये, सर्व खेळाडूंना प्लेइंग बोर्डची स्थिती आणि सर्व तुकड्या माहित असतात.

व्हिडिओ लोड होत आहेव्हिडिओ अनुपलब्धखेळण्यासाठी क्लिक करा खेळण्यासाठी टॅप करा व्हिडिओ लवकरच ऑटो-प्ले होईल8रद्द कराआता खेळ
कृत्रिम बुद्धिमत्ता

पण पोकर हे एक मोठे आव्हान आहे कारण तो अपूर्ण माहितीचा खेळ आहे; कोणती पत्ते खेळात आहेत हे खेळाडू निश्चितपणे सांगू शकत नाहीत आणि विरोधक बडबड करू शकतात आणि करतील.

प्रोफेसर सँडहोम म्हणाले की पोकर हे एक कठीण AI आव्हान आणि अनेक पक्ष आणि गहाळ माहिती असलेल्या अनेक वास्तविक-जगातील समस्यांसाठी अधिक संबंधित आहे.

त्यांनी स्पष्ट केले की प्लुरिबस यशाची सैद्धांतिक हमी देते आणि असे धोरण विकसित करते जे तरीही विरोधकांना सातत्याने मात करण्यास सक्षम करते.

Pluribus प्रथम स्वतःच्या सहा प्रती खेळून 'ब्लूप्रिंट' धोरणाची गणना करते, जे बेटिंगच्या पहिल्या फेरीसाठी पुरेसे आहे.

तेव्हापासून, प्लुरिबस गेमच्या बारीकसारीक अ‍ॅब्स्ट्रॅक्शनमधील संभाव्य हालचालींचा अधिक तपशीलवार शोध घेते.

हे असे करत असताना ते अनेक हालचाली पुढे पाहते, परंतु गेमच्या शेवटपर्यंत सर्व मार्गाने पुढे पाहणे आवश्यक नाही, जे संगणकीयदृष्ट्या प्रतिबंधात्मक असेल.

प्रोफेसर सँडहोम यांनी स्पष्ट केले की प्लुरिबस देखील अप्रत्याशित बनण्याचा प्रयत्न करतो. उदाहरणार्थ, AI ने शक्य तितका सर्वोत्कृष्ट हात धरला तर सट्टेबाजीला अर्थ प्राप्त होईल, पण AI कडे सर्वोत्तम हात असेल तेव्हाच सट्टा लावला तर विरोधक पटकन पकडतील.

त्यामुळे प्लुरिबस ते पकडू शकणाऱ्या प्रत्येक संभाव्य हाताने कसे कार्य करेल याची गणना करते आणि नंतर त्या सर्व शक्यतांमध्ये संतुलित असलेल्या धोरणाची गणना करते.

प्रोफेसर संधोकम म्हणाले की लिब्रेटसने आपली रणनीती विकसित करण्यासाठी सुमारे 15 दशलक्ष कोर तास वापरले आणि लाइव्ह गेम प्ले दरम्यान, 1,400 CPU कोर वापरले.

पण Pluribus ने आठ दिवसात फक्त 12,400 कोर तास वापरून आपली ब्लूप्रिंट रणनीती मोजली आणि लाइव्ह प्ले दरम्यान फक्त 28 कोर वापरले.

डेव्हिड भाडेकरू पत्नी मरण पावला

या यशाचे तपशील जर्नल सायन्सने ऑनलाइन प्रकाशित केले.

सर्वाधिक वाचले
चुकवू नका

हे देखील पहा: