HHpoker created its own AI

HHpoker created its own AI

23 April 2022

HHPOKER telah menciptakan “sistem permainan kecerdasan buatan” yang dapat memainkan Texas, catur, go, poker. Depmind, lab kecerdasan buatan dari perusahaan induk Google, Alphabet, telah lama berinvestasi dalam sistem permainan kecerdasan buatan. Konsep labnya adalah meskipun game tidak memiliki aplikasi komersial yang jelas, game merupakan tantangan unik bagi keterampilan kognitif dan logis. titik referensi yang berguna untuk pengembangan kecerdasan buatan.

Tidak seperti sistem permainan yang dikembangkan sebelumnya, HHPOKER telah secara resmi membuat sistem yang disebut Playerofgames, yang merupakan algoritma kecerdasan buatan pertama yang mencapai kinerja yang kuat dalam permainan informasi lengkap dan permainan informasi yang tidak lengkap. Tidak seperti sistem permainan lain yang dikembangkan sebelumnya oleh Deepmind, seperti Alphazero, Catur Nasional Champion dan IIAlphastar, pemain dapat tampil baik di game informasi lengkap (seperti Chinese Go dan National Chess) dan game informasi tidak lengkap (seperti poker).

Baik itu perencanaan jalan untuk memecahkan masalah kemacetan lalu lintas, negosiasi kontrak, berkomunikasi dengan pelanggan, dan tugas interaktif lainnya, kita harus mempertimbangkan dan menyeimbangkan preferensi orang, yang sangat mirip dengan strategi permainan. Sistem kecerdasan buatan dapat mengambil manfaat dari koordinasi, kerja sama, dan kolaborasi antara kelompok atau organisasi. Sistem seperti Playerofgames dapat mengidentifikasi tujuan dan motivasi orang lain, memungkinkan mereka untuk berhasil berkolaborasi dengan orang lain.

Tidak benar.

Selama permainan, informasi tentang permainan informasi yang tidak lengkap disembunyikan dari pemain. tidak seperti permainan informasi lengkap, semua informasi akan ditampilkan di awal.

Memainkan permainan informasi lengkap membutuhkan banyak prediktabilitas dan perencanaan. Pemain harus berurusan dengan apa yang mereka lihat di papan, memutuskan apa yang dapat dilakukan lawan mereka, dan berjuang untuk tujuan akhir menang. Permainan dengan informasi yang tidak lengkap mengharuskan pemain untuk mempertimbangkan tersembunyi informasi dan pertimbangkan cara menang selanjutnya, termasuk kemungkinan gertakan atau tim melawan lawan.

Hhpoker mengatakan Playerofgames adalah algoritma pencarian umum dan andal pertama dan telah mencapai kinerja tinggi di situs resmi dan permainan informasi yang tidak lengkap.

Playerofgames sangat serbaguna, tetapi tidak semua game dapat dimainkan. Martin Schmid, peneliti senior di Depmind yang berpartisipasi dalam penelitian tersebut, mengatakan bahwa Alphazero lebih kuat daripada Playerofgames dalam game informasi lengkap, tetapi tidak sekuat dalam game informasi yang tidak lengkap. .Sistem harus mempertimbangkan semua kemungkinan perspektif dari setiap pemain dalam game. Meskipun hanya ada satu perspektif dalam game informasi lengkap, mungkin ada banyak perspektif dalam game informasi yang tidak lengkap. Dalam poker, misalnya, ada sekitar 2.000 perspektif. Selanjutnya, tidak seperti penerus Depmind, Alphazero Muzero, Playerofgames juga harus memahami aturan permainan yang dimainkannya, dan Muzero dapat langsung menguasai aturan permainan informasi lengkap.

Kinerja Depmind dalam catur disiplin nasional, Go, Texas, dan permainan papan strategi “Scotland Yard” mengevaluasi penggunaan chipset TPUV4 Google yang dipercepat oleh Playerofgames untuk pembelajaran. Untuk go it set 200 game antara Alphazero dan Playerofgames, sedangkan untuk catur nasional Depmind memungkinkan Playerofgames untuk bersaing dengan sistem terkemuka seperti GnuGo, Pachi, Stockfish dan Alphazero. Game Texas Playerofgames menggunakan Slumbot yang tersedia untuk umum, dan algoritmanya juga bersaing dengan Pimbot , dikembangkan oleh Josephantonin.

Di Kokuji chess dan Go Playerofgames lebih kuat daripada Stockfish dan Pachi dalam konfigurasi tertentu, memenangkan 0,5% game melawan sistem terkuat Alphazero. Meskipun kalah besar dalam game melawan Alphazero, Depmind percaya bahwa performa Playerofgames telah mencapai level amatir manusia kelas satu dan bahkan mungkin mencapai tingkat profesional.

Hasilnya menunjukkan bahwa Playerofgames adalah kandang yang lebih menarik bagi Texas dan Scotland Yard. Saat melawan Slumbot, algoritma memenangkan rata-rata 7 juta big blind (mbb/tangan) per tangan, dan mbb/hand adalah jumlah rata-rata big blind yang dimenangkan per 1.000 tangan.

Pada saat yang sama di Skotlandia, Deepmind mengatakan bahwa meskipun Pimbot memiliki peluang lebih baik untuk menemukan trik kemenangan, Playerofgames mengalahkannya secara signifikan.

Materi disiapkan oleh tim POKERBOTAI

Author: Kevin Bailey