เราจะรู้ได้อย่างไรว่าเสียงอ่านข่าว ที่เราฟังจากจากวิทยุคือเสียงจากคนจริงๆ หรือ คือเสียงอ่านจาก AI ?
ใครเคยฟังข่าวจากวิทยุก็คงรู้ว่า เสียงที่เราได้ยินนั้น มาจากคนจริงๆ เพราะในยุคที่เราเสพย์ข่าวสารและความบันเทิงผ่านสื่อไม่กี่อย่าง (ยุค 90’ ลงมา) เรารู้แน่ชัดว่าเสียงที่เราได้ยินนั้นมาจากคนจริงๆอย่างแน่นอน
แต่ทุกวันนี้ เราอาจไม่แน่ใจได้ว่า การมีอยู่ของ AI ได้แทรกซึมเราไปได้มากขนาดไหน เพราะว่าเทคโนโลยี ณ ปัจจุบัน ได้อนุญาตให้เราสามารถส่งข้อความไปหา AI และ ให้มันอ่านเป็นเสียงให้เราได้ (Text-to-speech)
ใน 10 กว่าปีที่ผ่านมา ถ้าเกิดว่าเราสามารถเอา model เสียงของ Morgan Freeman ที่ถูกเทรนมาอย่างดี ไปใช้ในงานบรรยายในสารคดีอะไรก็ได้ “โดยที่เราไม่ต้องจ้าง Morgan Freeman” หรือ วันนึง Morgan Freeman อาจจะไม่มีชีวิตอยู่แล้ว เราสามารถที่จะ Reuse เสียงของ Morgan Freeman ให้กับเราได้อย่างไม่จำกัด
เราไม่ได้จะบอกว่า จะมีคนตกงานอีกจำนวนมาก แต่เรากำลังจะช่วยให้คนที่อยู่ในสาขาอาชีพนักพากษ์ นักลงเสียงโฆษณา และ นักข่าว หันมาบันทึกเสียงให้กับ platform ที่สามารถนำเสียงอ่าน/เสียงพูด ของเรา ไปเทรนให้กับ AI voice model
หลังจากนั้น ตัว AI voice model จะทำหน้าที่ออกเสียงแทนตัวเรา เท่ากับว่าเรากำลังเพิ่ม Productivity ให้กับงานของเรากว่า 100 เท่า และ เราสามารถตัดงาน Voice Over ออกไปได้เลยเพราะเราเอา Text-to-speech มาทำหน้าที่แทน
แต่เราจะต้องพูดเพื่อสอน AI สักกี่ชั่วโมงดีละ ถึงจะทำให้มันจำเสียงเราได้ ?
Vall-E เอไอจากไมโครซอฟต์ (Microsoft) ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาที แถมยังคงอารมณ์ของเสียงให้เหมือนคนได้ด้วย (อ่านงานวิจัย https://valle-demo.github.io/)
เทคโนโลยี Text-to-speech ไม่ใช่เรื่องใหม่แต่อย่างใด แต่การที่ Vall-E สามารถที่จะเรียนรู้เสียงในช่วงเวลาสั้นๆและใส่อารมณ์ให้ดูเหมือนเป็นมนุษย์จริงๆ มีมิติทางการแสดงออกมากขึ้น ก็จะทำให้เสียงของ AI ได้ก้าวข้ามผ่านความแข็งกระด้างทื่อๆแบบที่ไม่เคยเกิดขึ้นมาก่อน
นี่คือสิ่งที่น่าทึ่งและน่ากลัวในเวลาเดียวกัน ลองนึกถึงสายโทรศัพท์ที่โทรมาหาเราจากเบอร์ที่เราไม่คุ้นเคย แต่เป็นเสียงของพ่อแม่หรือเพื่อนเรา ที่เกิดจากการสังเคราะห์จาก AI ตัวนี้ โทรมาขอความช่วยเหลือจากเรา โดยผ่านการแปลงมาจาก Text ของ Call Center อีกที มันจะเนียนและทำให้เราหลงเชื่อได้มากแค่ไหน ?
แต่ถ้ามองเห็นถึงข้อดีอื่นๆ เช่น เราสามารถที่จะสร้างเสียงของคนที่เรารักที่ได้จากเราไปแล้ว ให้เค้ากลับมามีชีวิต พูดบทสนทนากับเราได้ แถมยังโต้ตอบกับเราได้เหมือนจริง ทำให้เราสามารถหายจากอาการคิดถึงคนที่เรารักได้สักแปบนึงก็น่าจะดี 😊