OpenAI เปิดตัวฟีเจอร์เด็ด! สร้างภาพด้วย GPT-4o ใน ChatGPT

OpenAI เปิดตัว “Images in ChatGPT” ใช้ GPT-4o สร้างภาพในแชต รองรับทุกแพ็กเกจ ปรับปรุงความแม่นยำ จับคู่สี-รูปร่างได้ดีขึ้นกว่ารุ่นก่อน

OpenAI กำลังผสานความสามารถในการสร้างภาพเข้ากับ ChatGPT โดยเริ่มตั้งแต่วันนี้ภายใต้ฟีเจอร์ที่เรียกว่า “Images in ChatGPT” ซึ่งทำให้ผู้ใช้สามารถสร้างภาพโดยใช้ GPT-4o ได้โดยตรงภายใน ChatGPT

ในการเปิดตัวครั้งแรกนี้ ฟีเจอร์ดังกล่าวจะเน้นไปที่การสร้างภาพเท่านั้น และจะเปิดให้ใช้งานในทุกระดับการสมัครสมาชิก ได้แก่ ChatGPT Plus, Pro, Team และ Free

ทายา คริสเตียนสัน (Taya Christianson) โฆษกของ OpenAI กล่าวว่าขีดจำกัดการใช้งานของผู้ใช้ฟรีจะเหมือนกับ DALL-E อย่างไรก็ตาม เธอไม่ได้เปิดเผยตัวเลขที่แน่ชัด และเสริมว่าขีดจำกัดเหล่านี้อาจมีการเปลี่ยนแปลงตามความต้องการของผู้ใช้ ก่อนหน้านี้ ตามข้อมูลจาก ChatGPT FAQ ผู้ใช้แบบฟรีสามารถสร้างภาพได้ สามภาพต่อวันโดยใช้ DALL·E 3

สำหรับอนาคตของ DALL-E นั้น คริสเตียนสัน กล่าวว่า “แฟน ๆ ยังคงสามารถเข้าถึงได้ผ่าน GPT แบบกำหนดเอง”

กาเบรียล โกห์ (Gabriel Goh) หัวหน้าฝ่ายวิจัยของ OpenAI กล่าวว่า “โมเดลนี้เป็นก้าวกระโดดเหนือกว่ารุ่นก่อน ๆ” พร้อมเสริมว่าทีมได้นำพื้นฐานของ GPT-4o ซึ่งเป็น “Omnimodal” หรือโมเดลที่สามารถสร้างข้อมูลได้ทุกประเภท เช่น ข้อความ ภาพ เสียง และวิดีโอ มาใช้พัฒนาฟีเจอร์นี้

OpenAI เปิดตัวฟีเจอร์เด็ด! สร้างภาพด้วย GPT-4o ใน ChatGPT หนึ่งในจุดเด่นของ GPT-4o ที่ โกห์ กล่าวถึงคือ “Binding” หรือความสามารถในการรักษาความสัมพันธ์ที่ถูกต้องระหว่างคุณลักษณะและวัตถุ ตัวอย่างเช่น โมเดลที่มีปัญหาด้าน Binding อาจได้รับคำสั่งให้สร้างรูปดาวสีน้ำเงินและสามเหลี่ยมสีแดง แต่กลับสร้างรูปดาวสีแดงและไม่มีสามเหลี่ยม ซึ่งเป็นปัญหาทั่วไปใน AI สร้างภาพ

อย่างไรก็ตาม GPT-4o สามารถจับคู่ลักษณะและวัตถุได้อย่างแม่นยำถึง 15-20 ชิ้น โดยไม่มีความสับสน ซึ่งถือเป็นพัฒนาการสำคัญในด้านความถูกต้องและความน่าเชื่อถือของการสร้างภาพด้วย AI

ผู้ใช้จะสังเกตได้ถึง การพัฒนาในการเรนเดอร์ข้อความ ซึ่งช่วยให้ AI สร้างข้อความที่ต่อเนื่องและไม่มีข้อผิดพลาดบนภาพได้ง่ายขึ้น (ในเครื่องมือเดิม ข้อความมักผิดเพี้ยนได้ง่าย)

กาเบรียล โกห์ กล่าวต่อไปว่าการทำให้ AI แสดงข้อความได้อย่างถูกต้องเป็นความท้าทายสำคัญ หากชื่อเรื่องหรือองค์ประกอบข้อความมีคำผิด อาจทำให้ภาพทั้งหมดใช้งานไม่ได้

“นี่เป็นกระบวนการที่ต้องปรับปรุงซ้ำไปมาหลายเดือนกว่าจะได้ผลลัพธ์ที่ดี” โกห์กล่าว

แม้ว่ายังไม่สมบูรณ์แบบ แต่ตอนนี้คุณภาพของข้อความที่สร้างขึ้นอยู่ในระดับที่ใช้งานได้อย่างต่อเนื่อง โดยข้อผิดพลาดส่วนใหญ่จะเกิดกับข้อความที่มีขนาดเล็กมาก

“เราใช้เวลาหลายเดือนในการปรับแต่งรายละเอียดเล็ก ๆ น้อย ๆ จนออกมาดีขึ้น”

ระบบนี้ใช้ แนวทางแบบ Autoregressive ซึ่งสร้างภาพทีละส่วนจากซ้ายไปขวา และจากบนลงล่าง คล้ายกับการเขียนข้อความ แตกต่างจากเทคนิค Diffusion Model ที่เครื่องมือสร้างภาพส่วนใหญ่อย่าง DALL-E ใช้ ซึ่งจะสร้างภาพทั้งหมดพร้อมกัน

โกห์คาดว่า ความแตกต่างทางเทคนิคนี้อาจเป็นเหตุผลที่ทำให้ Images in ChatGPT มีความแม่นยำในการเรนเดอร์ข้อความและจับคู่คุณลักษณะต่าง ๆ ได้ดีขึ้น

ที่มา Theverge

OpenAI เปิดตัวฟีเจอร์เด็ด! สร้างภาพด้วย GPT-4o ใน ChatGPT

20 ล้านบัญชี OpenAI มีหนาว! เสี่ยงข้อมูลรั่ว แฮกเกอร์ ประกาศขายผ่านเว็บมืด

สงครามเศรษฐี“อีลอน มัสก์” ยื่น 97.4 พันล้านดอลลาร์สหรัฐ ซื้อกิจการ OpenAI

เบื้องหลังศึกแตกหัก อีลอน มัสก์ vs. แซม อัลท์แมน

OpenAI เปิดตัว "GPT-4.5" ฉลาดขึ้น 56% เอาชนะ GPT-4o ทุกการทดสอบ!

OpenAI เปิด GPT-4.5 ทะลุขีดจำกัดอารมณ์ความรู้สึกเหมือนมนุษย์