AI ฟังเสียงของผู้คน จากนั้นจะสร้างใบหน้าของพวกเขา

Send

คุณเคยสร้างภาพจิตของคนที่คุณไม่เคยเห็นโดยใช้เสียงของพวกเขาหรือไม่? ปัญญาประดิษฐ์ (AI) สามารถทำเช่นนั้นได้แล้วสร้างภาพดิจิทัลของใบหน้าของบุคคลโดยใช้เพียงคลิปเสียงสั้น ๆ สำหรับการอ้างอิง

Named Speech2Face เครือข่ายประสาทซึ่งเป็นคอมพิวเตอร์ที่ "คิด" ในลักษณะที่คล้ายกับสมองของมนุษย์ได้รับการฝึกฝนโดยนักวิทยาศาสตร์เกี่ยวกับวิดีโอเพื่อการศึกษานับล้านจากอินเทอร์เน็ตซึ่งแสดงให้เห็นว่ามีผู้พูดคุยกันกว่า 100,000 คน

จากชุดข้อมูลนี้ Speech2Face ได้เรียนรู้การเชื่อมโยงระหว่างเสียงพูดและคุณลักษณะทางกายภาพบางอย่างในใบหน้ามนุษย์นักวิจัยเขียนในการศึกษาใหม่ จากนั้น AI ก็ใช้คลิปเสียงเพื่อจำลองใบหน้าที่เหมือนจริงซึ่งเข้ากับเสียง

การค้นพบนี้เผยแพร่ทางออนไลน์วันที่ 23 พฤษภาคมในคำนำหน้านาม arXiv และยังไม่ได้รับการตรวจสอบ

โชคดีที่ AI ยังไม่ทราบแน่ชัดว่าบุคคลใดมีลักษณะเฉพาะตามเสียงของพวกเขาเพียงอย่างเดียว เครือข่ายประสาทรับรู้เครื่องหมายบางอย่างในคำพูดที่ชี้ไปที่เพศอายุและเชื้อชาติคุณสมบัติที่ใช้ร่วมกันโดยคนจำนวนมากผู้เขียนรายงานการศึกษา

"เช่นนี้โมเดลจะสร้างใบหน้าที่ดูธรรมดาเท่านั้น" นักวิทยาศาสตร์กล่าว "มันจะไม่สร้างภาพของบุคคลที่เฉพาะเจาะจง"

AI ได้แสดงให้เห็นแล้วว่ามันสามารถผลิตใบหน้ามนุษย์ที่แม่นยำอย่างไม่น่าเชื่อถึงแม้ว่าการตีความของแมวจะน่ากลัวเล็กน้อย

ใบหน้าที่สร้างโดย Speech2Face - ด้านหน้าทั้งหมดและด้วยการแสดงออกที่เป็นกลาง - ไม่ตรงกับผู้คนที่อยู่เบื้องหลังเสียง แต่ภาพมักจะจับช่วงอายุที่ถูกต้องเชื้อชาติและเพศของบุคคลตามการศึกษา

อย่างไรก็ตามการตีความของอัลกอริทึมนั้นยังห่างไกลจากความสมบูรณ์แบบ Speech2Face แสดงให้เห็นถึง "ประสิทธิภาพการทำงานแบบผสม" เมื่อต้องเผชิญกับการเปลี่ยนแปลงของภาษา ตัวอย่างเช่นเมื่อ AI ฟังคลิปเสียงของชายชาวเอเชียที่พูดภาษาจีนโปรแกรมจะสร้างภาพใบหน้าของชาวเอเชีย อย่างไรก็ตามเมื่อชายคนเดียวกันพูดภาษาอังกฤษด้วยคลิปเสียงที่แตกต่าง AI ก็สร้างใบหน้าของชายผิวขาวคนหนึ่งนักวิทยาศาสตร์รายงาน

อัลกอริทึมยังแสดงอคติทางเพศเชื่อมโยงเสียงแหลมต่ำกับใบหน้าชายและเสียงแหลมสูงกับใบหน้าผู้หญิง และเนื่องจากชุดข้อมูลการฝึกอบรมเป็นเพียงวิดีโอทางการศึกษาจาก YouTube เท่านั้นจึงไม่ได้แสดงถึงประชากรโลกที่เท่าเทียมกัน

ความกังวลอีกประการเกี่ยวกับชุดข้อมูลวิดีโอนี้เกิดขึ้นเมื่อคนที่ปรากฏในวิดีโอ YouTube รู้สึกประหลาดใจที่รู้ว่าภาพของเขาได้ถูกรวมเข้ากับการศึกษาแล้ว Nick Sullivan หัวหน้าการเข้ารหัสด้วย Cloudflare บริษัท รักษาความปลอดภัยอินเทอร์เน็ตในซานฟรานซิสโกเห็นใบหน้าของเขาโดยไม่คาดคิดว่าเป็นหนึ่งในตัวอย่างที่ใช้ในการฝึกอบรม Speech2Face (และอัลกอริธึมได้ทำซ้ำค่อนข้างประมาณ)

ซัลลิแวนไม่ยินยอมที่จะปรากฏในการศึกษา แต่วิดีโอ YouTube ในชุดข้อมูลนี้ได้รับการพิจารณาอย่างกว้างขวางเพื่อให้นักวิจัยใช้โดยไม่ได้รับการอนุญาตเพิ่มเติมตาม Slate

Send