AI Singapore-Google ร่วมยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ รวมภาษาไทย

12 มี.ค. 2567 | 09:55 น.

AI Singapore (AISG) และ ทีมวิจัย Google ริเริ่ม Project SEALD (Southeast Asian Languages in One Network Data) ยกระดับชุดข้อมูลที่สามารถใช้ในการฝึก พัฒนา และประเมินโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ในภาษาต่างๆ ที่ใช้พูดในเอเชียตะวันออกเฉียงใต้

ในเบื้องต้น Project SEALD ของ AI Singapore (AISG) และ ทีมวิจัย Google  จะครอบคลุมภาษาไทย อินโดนีเซีย ทมิฬ ฟิลิปปินส์ และพม่า โดยการวิจัยภายใต้โครงการนี้จะช่วยสร้างคลังข้อมูลที่หลากหลายและมีคุณภาพสูงของภาษาที่ใช้พูดในเอเชียตะวันออกเฉียงใต้เพื่อสนับสนุนการฝึกโมเดลต่างๆ ที่อยู่ภายใต้ SEA-LION (Southeast Asian Languages in One Network) ซึ่งเป็นโครงการริเริ่มของ AISG ในการพัฒนากลุ่มโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกล่วงหน้าและปรับแต่งคำสั่งมาโดยเฉพาะเพื่อให้สามารถนำเสนอบริบททางวัฒนธรรมและความแตกต่างทางภาษาในเอเชียตะวันออกเฉียงใต้ได้ดียิ่งขึ้น รวมถึงโมเดลอื่นๆ ที่เป็นประโยชน์ต่อผู้ใช้ในเอเชียตะวันออกเฉียงใต้

AI Singapore-Google ร่วมยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ รวมภาษาไทย

ความร่วมมือระหว่าง AISG และ ทีมวิจัยของ Google ในเอเชียแปซิฟิก ภายใต้ Project SEALD ครอบคลุมในด้านต่างๆ ดังนี้

-การพัฒนาโมเดลสำหรับการแปลทั่วไปและการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่

-การสร้างแนวทางปฏิบัติแนะนำสำหรับชุดข้อมูลการปรับแต่งคำสั่ง

-การสร้างเครื่องมือสำหรับการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่ในวงกว้าง และ

-การเผยแพร่สูตรสำหรับการฝึกล่วงหน้าสำหรับภาษาต่างๆ ในเอเชียตะวันออกเฉียงใต้

AISG และ Google จะเผยแพร่ชุดข้อมูลและเอาต์พุตจาก Project SEALD ในรูปแบบโอเพนซอร์สเพื่อพัฒนาความก้าวหน้าของระบบนิเวศโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และส่งเสริมความเชี่ยวชาญระดับภูมิภาคที่แข็งแกร่ง

นอกจากนี้ Project SEALD ยังจะร่วมมือกับพาร์ทเนอร์ทั้งจากภาควิชาการ ภาคอุตสาหกรรม และภาครัฐ ในรูปแบบต่างๆ ซึ่งรวมถึงการทำงานร่วมกับภาคอุตสาหกรรมในการรวบรวม ดูแลจัดการ และตรวจสอบคุณภาพข้อมูล การร่วมมือกับสถาบันการศึกษาในประเทศต่างๆ ในเอเชียตะวันออกเฉียงใต้เพื่อใช้เทคนิคที่ล้ำสมัยในการประเมินและการเปรียบเทียบ และการร่วมมือกับผู้มีส่วนเกี่ยวข้องของภาครัฐในการส่งเสริมการพัฒนาต่อยอดเพื่อสาธารณประโยชน์

การพัฒนาความก้าวหน้าด้านโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้

เพื่อเป็นการต่อยอดความร่วมมือในโครงการนี้ AISG จึงได้ร่วมมือกับ Google Cloud ในการทำให้โมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION พร้อมใช้งานบน Model Garden บน Vertex AI ของ Google Cloud ซึ่งช่วยให้องค์กรต่างๆ สามารถเข้าถึงโมเดลของบุคคลที่หนึ่งและบุคคลที่สาม รวมถึงโมเดลแบบเปิด ที่มีคุณลักษณะตรงตามมาตรฐานด้านคุณภาพและความปลอดภัยขององค์กรที่เข้มงวดของ Google Cloud องค์กรต่างๆ สามารถใช้เครื่องมือที่ออกแบบมาเพื่อองค์กรผ่านทาง Vertex AI เพื่อปรับแต่งโมเดลเหล่านี้ได้อย่างง่ายดาย สามารถนำไปใช้งานตามที่ต้องการ และผสานรวมเข้ากับแอปพลิเคชันของตน นอกจากนี้ AISG จะยังคงเปิดให้ใช้งานโมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION บน Hugging Face ซึ่งได้ร่วมมือกับ Google Cloud เพื่อช่วยให้นักพัฒนาซอฟต์แวร์ฝึก ปรับแต่ง และให้บริการโมเดลแบบเปิดได้อย่างรวดเร็วและคุ้มค่า

ไม่เพียงเท่านี้ AISG ยังได้นำร่องความร่วมมือกับประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ตัวอย่างเช่น AISG ได้ร่วมมือกับพาร์ทเนอร์ในประเทศไทย ฟิลิปปินส์ และอินโดนีเซีย เพื่อสร้างทรัพยากรด้านไวยากรณ์และอรรถศาสตร์ของภาษาในระดับภูมิภาค นอกจากนี้ AISG ยังได้ลงนามในบันทึกข้อตกลงความร่วมมือ (Memorandum of Understanding - MOU) หรือหนังสือแสดงเจตจำนง (Letter of Intent - LOI) กับหน่วยงานต่างๆ ในอินโดนีเซีย มาเลเซีย และเวียดนาม ในการพัฒนาชุดข้อมูลและแอปพลิเคชันสำหรับโมเดลภาษาขนาดใหญ่ในระดับภูมิภาค

ทีมวิจัยของ Google ในเอเชียแปซิฟิกเองก็มีโครงการส่งเสริมความครอบคลุมของโมเดลภาษาขนาดใหญ่ที่คล้ายคลึงกันนี้ ซึ่งกำลังดำเนินการอยู่ในประเทศอินเดียภายใต้ความร่วมมือกับสถาบันวิทยาศาสตร์แห่งอินเดีย (Indian Institute of Science) ผ่านทาง Project Vaani ซึ่งเป็นโครงการริเริ่มที่รวบรวม ถอดเสียง และจัดหาข้อมูลเสียงแบบโอเพนซอร์สจากทั่วทั้ง 773 อำเภอของอินเดีย