Artificial General Intelligence (AGI)

20 ก.พ. 2562 | 04:30 น.
ดูเหมือนว่า StarCraft II อาจจะเป็นเกมต่อไปที่คนเราต้องยอมแพ้ให้แก่ AI ต่อจาก Poker (Libertus, 2017), และหมากล้อม (AlphaGo, 2016) เมื่อเดือนมกราคมที่ผ่านมา ทีม DeepMind จาก Google ได้เปิดตัว AI ชื่อ AlphaStar ซึ่งเป็น AI ตัวน้องของ AlphaGo ที่ชนะ Ke Jie นักเล่นหมากล้อมมือหนึ่งเมื่อ 2 ปีที่แล้ว

ขณะที่ AlphaGo นั้น dominate เกมหมากล้อมที่มีประวัติมากกว่า 3,000 ปี Alpha Star ตั้งเป้าหมายไว้ที่คอมพิวเตอร์ เกม StarCraft II และในการแข่งรอบแรกนี้ตอนนี้ AlphaStar สามารถเอาชนะนักเล่นเกมมืออาชีพระดับโลกในการแข่ง StarCraft II ตัวต่อตัว 10-1 ถึงแม้ว่าเงื่อนไขการแข่งขันอาจจะยังไม่ถือว่าเป็นการแข่งขันแบบเป็นทางการ

ขณะที่ใน Poker ตัว AI นั้นต้องเรียนรู้ที่จะโกหกและจับการโกหกของคู่ต่อสู้และในหมากล้อม AI ต้องพัฒนา Intuition ในการคาดคะเนความได้เปรียบเสียเปรียบของกระดานหมาก StarCraft II นั้นเสนอความท้าทายอีกแบบ ให้กับ AI เพราะ AI จะต้องควบคุมจำนวน Units ที่มากมายในเกมพร้อมกัน ทุกๆ 1 ใน 1,000 วินาที ตัว AlphaStar ต้องตัดสินใจเลือกว่าจะทำอะไรจากทั้งหมด 10  26 (คือ 10 คูณกัน 26 ตัว) การกระทำที่ทำได้ (possible actions) เมื่อเทียบกับหมากล้อมที่ในแต่ละตานั้นมีแค่ 19x19 ความเป็นไปได้เท่านั้น

นอกจากนี้ StarCraft II ยังเป็นเกมของ Incomplete Information ซึ่งต่างจากหมากล้อมที่ข้อมูลทุกอย่างนั้นอยู่บน กระดานที่ผู้เล่นทั้ง 2 ฝ่ายนั้นเห็นเหมือนกัน

TP7-3446-A

Breakthrough ทาง AI ในรอบ 3-4 ปีที่ผ่านมานั้นไม่ว่าจะเป็นเรื่องรถยนต์ไร้คนขับ หรือ AI ทางการแพทย์ที่สามารถวินิจฉัยโรคได้ส่วนใหญ่นั้นใช้เทคนิคที่เรียกว่า Supervised Learning (การเรียนรู้จากข้อมูลแบบมีผู้สอน) ซึ่งเปรียบได้กับการเรียนในห้องเรียน ที่มีคุณครูคอยบอกว่าถ้าเจอโจทย์แบบนี้เราควรแก้ปัญหาอย่างไร แล้วเราก็ฝึกทำแบบฝึกหัดไปจนเราสามารถทำตามสิ่งที่คุณครูสอนได้

ขณะที่ AlphaStar และ AlphaGo ของ DeepMind นั้นใช้เทคนิคที่เรียกว่า Reinforcement Learning ซึ่งเป็นเทคนิคเน้นการเรียนรู้จากประสบการณ์ซึ่งแตกต่างจาก Supervised Learning ตรงที่จะไม่มีตัวอย่างให้ AI ว่า ในแต่ละสถานการณ์นั้น การกระทำที่ถูกต้องคืออะไร แต่ AI นั้นจะต้องเรียนรู้จากการลองผิด ลองถูกเอาเอง นึกถึงถ้าเราจะฝึกสุนัขให้นั่ง ถ้าสุนัขนั่งตามคำสั่งก็จะได้ขนม แต่สุนัขนั้นก็คงทำหลายๆ อย่าง เช่น วิ่ง เห่า กระโดด ก่อนที่จะนั่งลงแล้วเราให้ขนมไป

ถ้าสุนัขนั้นจะพยายามเรียนรู้ว่าทำอย่างไรจึงจะได้กินขนมอีก มันก็จะต้องมองย้อนกลับไป แล้วคิดว่าการกระทำไหนส่งผลให้มันได้รับขนม ไม่เพียงแค่นั้น มันยังต้องเรียนที่จะรู้ลองการกระทำใหม่ๆ กับสิ่งที่เคยทำ ให้มันได้ขนมมาก่อนหน้านี้เช่น ถ้าเกิดมันนอนลงแล้วหมุนตัวจะทำให้มันได้ขนมเพิ่มขึ้นไหม ทั้งในกรณีของ AlphaStar และ AlphaGo นั้น AI ทั้งคู่เก็บความรู้จากประสบการณ์ด้วยการเล่นเกมระหว่าง AI ด้วยกันเอง

ถึงแม้ทั้ง AlphaStar นั้น สามารถที่จะชนะคนที่เก่งระดับโลกได้โดยเวลาเก็บประสบการณ์จากการเล่นกันเองไม่ถึง 1 สัปดาห์ แต่ถ้าเทียบเป็นจำนวนเกมที่ AlphaStar ต้องเล่นฝึกฝนจนกว่าจะเก่งเท่านั้นได้นั้น ก็เทียบได้กับการที่คนเราเล่นเกม StarCraft II ไม่หยุดเป็นเวลามากกว่า 100 ปี ซึ่งตรงนี้แหละที่ยังเป็นจุดอ่อน ของ AI ในปัจจุบัน ที่น่าจะต้องโดนแก้ไขให้ได้ก่อนที่เราจะไปถึงจุดที่มี AGI (Artifical General Intelligence) เพราะจริงๆ แล้วมนุษย์เรานั้นก็ยังเรียนรู้ได้มีประสิทธิภาพได้ดีกว่า AI หลายเท่านัก เมื่อเราต้องเรียนรู้เรื่องใหม่ๆ เราสามารถนำเอาประสบ การณ์ที่เราเคยมีในเรื่องอื่นๆ มาช่วยทำให้เราสามารถเรียนรู้ได้เร็วขึ้น

ขณะที่ถ้า AlphaStar จะไปเล่นเกมอื่นที่ไม่ใช่ StarCraft II ตัว AlphaStar นั้น ก็ต้องเริ่มเรียนรู้ใหม่จากศูนย์จริงๆ แล้วเรื่องประสิทธิภาพในการเรียนรู้นี้ ก็น่าจะเป็นเหตุผลหนึ่งที่ DeepMind ให้ AlphaStar ในตอนแรกนั้นเรียนที่จะเลียนแบบจากการดูวิธีการเล่นของผู้เล่นที่เก่งๆ ก่อน ก่อนที่จะให้ฝึกต่อโดยการเล่นกันเอง เป็นการผสมระหว่าง Supervised Learning กับ Reinforcement Learning การให้ AI เรียนรู้จากประสบการณ์แบบนี้มีประโยชน์มากกว่าแค่การสอนให้ AI เล่นเกมเก่งกว่าคน เพราะปัญหาหลายอย่างนั้น เราไม่มีข้อมูลที่เพียงพอที่จะใช้สอน AI โดยวิธีอย่าง Supervised Learning

นอกจากนี้การให้ AI เรียน รู้จากประสบการณ์ ยังเหมาะกับโจทย์ที่มีความซับซ้อนและความเปลี่ยนแปลงสูง (Dynamics) อย่างโจทย์ที่เกี่ยวกับพฤติกรรมของคน ปัจจุบันก็มีการนำ Reinforcement Learning นี้ไปใช้ในการช่วยจัดการสภาพการจราจร และในการบังคับ Robots แล้ว

สุดท้ายนี้ถ้าเรามาคิดกันสนุกๆ ว่า เกมต่อไปที่ AI น่าจะทดลองไปสู้ดูนั้นจะเป็นอะไรต่อจาก StarCarft II, Poker และหมากล้อม หมากรุก ส่วนตัวผู้เขียนเองก็อยากจะเห็น AI มาทดลองเล่นเกมที่ต้องใช้เทคนิคในการเจรจาต่อลองกับมนุษย์ดู เช่น เกมเศรษฐี (Monopoly) ที่ผู้เล่นจะต้องเจรจาซื้อขายโฉนดที่ิดินในเกมแข่งกับผู้เล่นคนอื่น น่าจะสนุกดีไม่น้อย ลองจินตนาการว่าถ้า AI ของเราสามารถเจรจากับ AI ของเพื่อนบ้านเราได้ว่า

“นี่อาทิตย์หน้าเจ้าบ้านเราจะไปเที่ยวไม่อยู่บ้าน เธอสนใจใช้พลังงานแสงอาทิตย์จากแผง Solar ของบ้านเราไหม แลกกับอะไร บางอย่างทีหลัง”
Reference : https://newscenter.lbl.gov/2018/10/28/machine-learning-to-help-optimize-traffic-and-reducepollution/

 

เศรษฐเสวนา จุฬาฯทัศนะ

โดย

ดร.พรรคธาดา ตรีรัตนพิทักษ์ ผู้ช่วยผู้อำนวยการกลุ่มงาน Data Analytics ธนาคารแห่งประเทศไทย

ดร.วรประภา นาควัชระ อาจารย์ประจำคณะเศรษฐศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

หน้า 7 หนังสือพิมพ์ฐานเศรษฐกิจ ฉบับ 3446 ระหว่างวันที่ 21 - 23 กุมภาพันธ์ 2562

ดาวน์โหลดอีบุ๊กแทรกข่าว