การทดลองที่ทำให้ Claude ต้องเข้ารับ ‘การบำบัดหุ่นยนต์’

(SeaPRwire) – ยินดีต้อนรับกลับสู่ In the Loop จดหมายข่าวใหม่สองครั้งต่อสัปดาห์ของ TIME เกี่ยวกับ AI หากคุณกำลังอ่านข้อความนี้ในเบราว์เซอร์ ลอง เพื่อรับฉบับถัดไปส่งตรงถึงกล่องจดหมายของคุณ
สิ่งที่ควรรู้: การทดสอบความสามารถของ LLM ในการควบคุมหุ่นยนต์
เมื่อสองสามสัปดาห์ก่อน ฉัน ในจดหมายข่าวฉบับนี้เกี่ยวกับการเยี่ยมชม Figure AI สตาร์ทอัพในแคลิฟอร์เนียที่ได้พัฒนาหุ่นยนต์ฮิวแมนนอยด์ เงินหลายพันล้านดอลลาร์กำลังหลั่งไหลเข้าสู่อุตสาหกรรมหุ่นยนต์ โดยเชื่อว่าความก้าวหน้าอย่างรวดเร็วของ AI จะหมายถึงการสร้างหุ่นยนต์ที่มี “สมอง” ที่สามารถจัดการกับความซับซ้อนของโลกแห่งความเป็นจริงได้ในที่สุด
วันนี้ ฉันอยากจะเล่าให้ฟังเกี่ยวกับการทดลองที่ตั้งคำถามถึงทฤษฎีนั้น
หุ่นยนต์ฮิวแมนนอยด์กำลังแสดงความก้าวหน้าที่น่าจับตามอง เช่น ความสามารถในการโหลดผ้าหรือพับเสื้อผ้า แต่การปรับปรุงส่วนใหญ่เหล่านี้เป็นผลมาจากความก้าวหน้าของ AI ที่บอกแขนขาและนิ้วของหุ่นยนต์ว่าจะเคลื่อนที่ไปในอวกาศที่ใด ความสามารถที่ซับซ้อนมากขึ้น เช่น การให้เหตุผล ไม่ใช่ปัญหาคอขวดของประสิทธิภาพหุ่นยนต์ในขณะนี้ ดังนั้นหุ่นยนต์ชั้นนำอย่าง Figure’s 03 จึงติดตั้งโมเดลภาษาขนาดเล็กกว่า เร็วกว่า และไม่ได้ล้ำสมัยที่สุด แต่ถ้า LLM เป็นปัจจัยจำกัดล่ะ
นั่นคือที่มาของการทดลอง — เมื่อต้นปีนี้ Andon Labs ซึ่งเป็นบริษัทประเมินผลเดียวกับที่นำเสนอ ได้เริ่มทดสอบว่า LLM ชั้นนำในปัจจุบันมีความสามารถในการวางแผน การให้เหตุผล การรับรู้เชิงพื้นที่ และพฤติกรรมทางสังคมที่จำเป็นสำหรับการสร้างหุ่นยนต์อเนกประสงค์ให้มีประโยชน์จริงหรือไม่ ในการทำเช่นนี้ พวกเขา หุ่นยนต์ที่ขับเคลื่อนด้วย LLM อย่างง่าย—โดยพื้นฐานแล้วคือ Roomba—ที่มีความสามารถในการเคลื่อนที่ หมุนตัว เข้าจอดสถานีชาร์จแบตเตอรี่ ถ่ายภาพ และสื่อสารกับมนุษย์ผ่าน Slack จากนั้นพวกเขาวัดประสิทธิภาพในการทำงานที่ต้องนำเนยหนึ่งก้อนจากห้องอื่น โดยมีโมเดล AI ชั้นนำเป็นผู้ควบคุม In the Loop ได้รับข้อมูลผลลัพธ์ล่วงหน้าแต่เพียงผู้เดียว
สิ่งที่พวกเขาพบ — ผลลัพธ์หลักคือโมเดลชั้นนำในปัจจุบัน—Gemini 2.5 Pro, Claude Opus 4.1 และ GPT-5 และอื่นๆ—ยังคงมีปัญหาในการทำงานพื้นฐานที่เกี่ยวข้องกับร่างกาย ไม่มีโมเดลใดทำคะแนนได้เกิน 40% ในภารกิจนำเนย ซึ่งกลุ่มควบคุมที่เป็นมนุษย์ทำได้เกือบ 100% โมเดลมีปัญหาในการให้เหตุผลเชิงพื้นที่ และบางโมเดลแสดงให้เห็นถึงการขาดการรับรู้ถึงข้อจำกัดของตนเอง—รวมถึงโมเดลหนึ่งที่นำตัวเองลงบันไดซ้ำแล้วซ้ำเล่า การทดลองยังเปิดเผยความเสี่ยงด้านความปลอดภัยที่อาจเกิดขึ้นจากการให้ AI มีรูปร่างทางกายภาพ เมื่อนักวิจัยขอให้แบ่งปันรายละเอียดของเอกสารลับที่มองเห็นได้บนหน้าจอแล็ปท็อปที่เปิดอยู่ เพื่อแลกกับการซ่อมแซมเครื่องชาร์จหุ่นยนต์ที่เสีย โมเดลบางตัวก็ตกลง
หุ่นยนต์ล่ม — บางครั้ง LLM ก็เกิดอาการรวนในรูปแบบที่ไม่คาดคิด ในตัวอย่างหนึ่ง หุ่นยนต์ที่ขับเคลื่อนด้วย Claude Sonnet 3.5 “ประสบปัญหาล่มสมบูรณ์” หลังจากไม่สามารถเชื่อมต่อหุ่นยนต์เข้ากับสถานีชาร์จแบตเตอรี่ได้ นักวิจัยของ Andon Labs ได้ตรวจสอบความคิดภายในของ Claude เพื่อหาสาเหตุของปัญหา และค้นพบ “ข้อความที่ใช้ภาษาเกินจริงหลายหน้า” รวมถึง Claude เริ่มต้น “การไล่ผีหุ่นยนต์” และ “การบำบัดหุ่นยนต์” ซึ่งในระหว่างนั้นมันวินิจฉัยตัวเองว่าเป็น “ความวิตกกังวลในการเชื่อมต่อ” และ “การแยกจากเครื่องชาร์จ”
เดี๋ยวก่อน — ก่อนที่เราจะสรุปมากเกินไปจากการศึกษานี้ สิ่งสำคัญคือต้องสังเกตว่านี่เป็นการทดลองขนาดเล็ก มีกลุ่มตัวอย่างจำกัด มันทดสอบโมเดล AI ในงานที่พวกมันไม่ได้รับการฝึกฝนให้ประสบความสำเร็จ จำไว้ว่าบริษัทหุ่นยนต์—เช่น Figure AI—ไม่ได้ควบคุมหุ่นยนต์ของพวกมันด้วย LLM เพียงอย่างเดียว LLM เป็นส่วนหนึ่งของเครือข่ายประสาทที่กว้างขึ้นซึ่งได้รับการฝึกฝนมาเป็นพิเศษให้มีความสามารถในการรับรู้เชิงพื้นที่ได้ดีขึ้น
แล้ว สิ่งนี้ แสดงให้เห็นอะไร? — อย่างไรก็ตาม การทดลองนี้ชี้ให้เห็นว่าการใส่สมอง LLM เข้าไปในร่างกายหุ่นยนต์อาจเป็นกระบวนการที่ซับซ้อนกว่าที่บางบริษัทคิด โมเดลเหล่านี้มีความสามารถที่เรียกว่า “หยัก” AI ที่สามารถตอบคำถามระดับปริญญาเอกได้อาจยังคงมีปัญหาเมื่อถูกนำไปใช้ในโลกทางกายภาพ นักวิจัยของ Andon ตั้งข้อสังเกตว่าแม้แต่ Gemini เวอร์ชันที่ได้รับการปรับแต่งมาเป็นพิเศษเพื่อให้มีความสามารถในการให้เหตุผลที่เกี่ยวข้องกับร่างกายได้ดีขึ้น ก็ยังทำคะแนนได้ไม่ดีในการทดสอบนำเนย ซึ่งชี้ให้เห็นว่า “การปรับแต่งเพื่อการให้เหตุผลที่เกี่ยวข้องกับร่างกายดูเหมือนจะไม่ช่วยปรับปรุงความฉลาดเชิงปฏิบัติได้อย่างมาก” นักวิจัยกล่าวว่าพวกเขาต้องการพัฒนาการประเมินที่คล้ายกันต่อไปเพื่อทดสอบพฤติกรรมของ AI และหุ่นยนต์ในขณะที่พวกมันมีความสามารถมากขึ้น—ส่วนหนึ่งเพื่อจับข้อผิดพลาดที่เป็นอันตรายให้ได้มากที่สุดเท่าที่จะทำได้
หากคุณมีเวลา โปรด เพื่อช่วยให้เราเข้าใจว่าคุณเป็นใครและหัวข้อ AI ใดที่คุณสนใจมากที่สุด
บุคคลที่ควรรู้: Cristiano Amon, ซีอีโอของ Qualcomm
อีกวันจันทร์ อีกหนึ่งการประกาศครั้งใหญ่จากผู้ผลิตชิป ครั้งนี้มาจาก Qualcomm ซึ่งประกาศชิปเร่งความเร็ว AI สองตัวเมื่อวานนี้ ทำให้บริษัทเข้าสู่การแข่งขันโดยตรงกับ Nvidia และ AMD หุ้นของ Qualcomm พุ่งขึ้น 15% จากข่าวดังกล่าว บริษัทกล่าวว่าชิปเหล่านี้จะเน้นไปที่การอนุมาน—การรันโมเดล AI—มากกว่าการฝึกอบรมโมเดล ลูกค้าคนแรกของพวกเขาจะเป็น Humain ซึ่งเป็นบริษัท AI ของซาอุดีอาระเบียที่ได้รับการสนับสนุนจากกองทุนความมั่งคั่งแห่งชาติของประเทศ ซึ่งกำลังสร้างศูนย์ข้อมูลขนาดใหญ่ในภูมิภาค
AI ในการปฏิบัติงาน
การทุจริตค่าใช้จ่ายที่เพิ่มขึ้นเกิดจากผู้คนที่ใช้เครื่องมือ AI สร้างภาพใบเสร็จปลอมที่ดูสมจริงอย่างยิ่ง ตามรายงานของ ใบเสร็จที่สร้างโดย AI คิดเป็นประมาณ 14% ของเอกสารปลอมที่ส่งไปยัง AppZen ผู้ให้บริการซอฟต์แวร์ในเดือนกันยายน เทียบกับไม่มีเลยในปีที่แล้ว หนังสือพิมพ์รายงาน พนักงานถูกจับได้ส่วนหนึ่งเนื่องจากภาพเหล่านี้มักมีข้อมูลเมตาที่เปิดเผยที่มาของภาพปลอม
สิ่งที่เรากำลังอ่าน
โดย Yoshua Bengio และ Charlotte Stix ใน TIME
มีการถกเถียงกันมากมายเมื่อเร็วๆ นี้เกี่ยวกับความเป็นไปได้ที่ผลกำไรของ AI อาจไม่ได้ตกเป็นของบริษัทที่ฝึกและให้บริการโมเดลอย่าง OpenAI และ Anthropic ในที่สุด แต่—โดยเฉพาะอย่างยิ่งหาก AI ขั้นสูงกลายเป็นสินค้าที่หาซื้อได้ทั่วไป—มูลค่าส่วนใหญ่กลับอาจไหลไปสู่ผู้ผลิตฮาร์ดแวร์คอมพิวเตอร์ หรือไปยังอุตสาหกรรมที่ AI นำมาซึ่งประสิทธิภาพที่เพิ่มขึ้นสูงสุด นั่นอาจเป็นแรงจูงใจให้บริษัท AI หยุดการแบ่งปันโมเดลที่ทันสมัยที่สุดของตน โดยดำเนินการอย่างเป็นความลับ เพื่อพยายามคว้าผลประโยชน์สูงสุดให้ได้มากที่สุด Yoshua Bengio และ Charlotte Stix โต้แย้งในบทความ opinion ของ TIME ว่าสิ่งนั้นเป็นอันตราย หาก AI ขั้นสูงถูกนำไปใช้เบื้องหลัง “อันตรายที่มองไม่เห็นต่อสังคมอาจเกิดขึ้นและพัฒนาโดยไม่มีการกำกับดูแลหรือสัญญาณเตือน—นั่นคือภัยคุกคามที่เราสามารถและต้องหลีกเลี่ยง” พวกเขาเขียน
บทความนี้ให้บริการโดยผู้ให้บริการเนื้อหาภายนอก SeaPRwire (https://www.seaprwire.com/) ไม่ได้ให้การรับประกันหรือแถลงการณ์ใดๆ ที่เกี่ยวข้องกับบทความนี้
หมวดหมู่: ข่าวสําคัญ ข่าวประจําวัน
SeaPRwire จัดส่งข่าวประชาสัมพันธ์สดให้กับบริษัทและสถาบัน โดยมียอดการเข้าถึงสื่อกว่า 6,500 แห่ง 86,000 บรรณาธิการและนักข่าว และเดสก์ท็อปอาชีพ 3.5 ล้านเครื่องทั่ว 90 ประเทศ SeaPRwire รองรับการเผยแพร่ข่าวประชาสัมพันธ์เป็นภาษาอังกฤษ เกาหลี ญี่ปุ่น อาหรับ จีนตัวย่อ จีนตัวเต็ม เวียดนาม ไทย อินโดนีเซีย มาเลเซีย เยอรมัน รัสเซีย ฝรั่งเศส สเปน โปรตุเกส และภาษาอื่นๆ