More

    จะเกิดอะไรขึ้น ถ้าเสียงของ Morgan Freeman ถูกสังเคราะห์ด้วย AI นามว่า Vall-E

    ถ้าเกิดว่าเราสามารถเอา model เสียงของ Morgan Freeman ที่ถูกเทรนมาอย่างดี ไปใช้ในงานบรรยายในสารคดีอะไรก็ได้ “โดยที่เราไม่ต้องจ้าง Morgan Freeman” หรือ วันนึง Morgan Freeman อาจจะไม่มีชีวิตอยู่แล้ว เราสามารถที่จะ Reuse เสียงของ Morgan Freeman ให้กับเราได้

    เราจะรู้ได้อย่างไรว่าเสียงอ่านข่าว ที่เราฟังจากจากวิทยุคือเสียงจากคนจริงๆ หรือ คือเสียงอ่านจาก AI ?

    ใครเคยฟังข่าวจากวิทยุก็คงรู้ว่า เสียงที่เราได้ยินนั้น มาจากคนจริงๆ เพราะในยุคที่เราเสพย์ข่าวสารและความบันเทิงผ่านสื่อไม่กี่อย่าง (ยุค 90’ ลงมา) เรารู้แน่ชัดว่าเสียงที่เราได้ยินนั้นมาจากคนจริงๆอย่างแน่นอน 

    แต่ทุกวันนี้ เราอาจไม่แน่ใจได้ว่า การมีอยู่ของ AI ได้แทรกซึมเราไปได้มากขนาดไหน เพราะว่าเทคโนโลยี ณ ปัจจุบัน ได้อนุญาตให้เราสามารถส่งข้อความไปหา AI และ ให้มันอ่านเป็นเสียงให้เราได้ (Text-to-speech) 

    Morgan Freeman, Through the Wormhole.
    Morgan Freeman, Through the Wormhole.

    ใน 10 กว่าปีที่ผ่านมา ถ้าเกิดว่าเราสามารถเอา model เสียงของ Morgan Freeman ที่ถูกเทรนมาอย่างดี ไปใช้ในงานบรรยายในสารคดีอะไรก็ได้ “โดยที่เราไม่ต้องจ้าง Morgan Freeman” หรือ วันนึง Morgan Freeman อาจจะไม่มีชีวิตอยู่แล้ว เราสามารถที่จะ Reuse เสียงของ Morgan Freeman ให้กับเราได้อย่างไม่จำกัด

    เราไม่ได้จะบอกว่า จะมีคนตกงานอีกจำนวนมาก แต่เรากำลังจะช่วยให้คนที่อยู่ในสาขาอาชีพนักพากษ์ นักลงเสียงโฆษณา และ นักข่าว หันมาบันทึกเสียงให้กับ platform ที่สามารถนำเสียงอ่าน/เสียงพูด ของเรา ไปเทรนให้กับ AI voice model 

    หลังจากนั้น ตัว AI voice model จะทำหน้าที่ออกเสียงแทนตัวเรา เท่ากับว่าเรากำลังเพิ่ม Productivity ให้กับงานของเรากว่า 100 เท่า และ เราสามารถตัดงาน Voice Over ออกไปได้เลยเพราะเราเอา Text-to-speech มาทำหน้าที่แทน

    แต่เราจะต้องพูดเพื่อสอน AI สักกี่ชั่วโมงดีละ ถึงจะทำให้มันจำเสียงเราได้ ?

    Vall-E เอไอจากไมโครซอฟต์ (Microsoft) ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาที แถมยังคงอารมณ์ของเสียงให้เหมือนคนได้ด้วย (อ่านงานวิจัย https://valle-demo.github.io/)

    Vall-E, An AI Text-to-speech research by Microsoft.
    Vall-E, An AI Text-to-speech research by Microsoft.

    เทคโนโลยี Text-to-speech ไม่ใช่เรื่องใหม่แต่อย่างใด แต่การที่ Vall-E สามารถที่จะเรียนรู้เสียงในช่วงเวลาสั้นๆและใส่อารมณ์ให้ดูเหมือนเป็นมนุษย์จริงๆ มีมิติทางการแสดงออกมากขึ้น ก็จะทำให้เสียงของ AI ได้ก้าวข้ามผ่านความแข็งกระด้างทื่อๆแบบที่ไม่เคยเกิดขึ้นมาก่อน 

    นี่คือสิ่งที่น่าทึ่งและน่ากลัวในเวลาเดียวกัน ลองนึกถึงสายโทรศัพท์ที่โทรมาหาเราจากเบอร์ที่เราไม่คุ้นเคย แต่เป็นเสียงของพ่อแม่หรือเพื่อนเรา ที่เกิดจากการสังเคราะห์จาก AI ตัวนี้ โทรมาขอความช่วยเหลือจากเรา โดยผ่านการแปลงมาจาก Text ของ Call Center อีกที มันจะเนียนและทำให้เราหลงเชื่อได้มากแค่ไหน ?

    AI connection with humanity.
    AI connection with humanity.

    แต่ถ้ามองเห็นถึงข้อดีอื่นๆ เช่น เราสามารถที่จะสร้างเสียงของคนที่เรารักที่ได้จากเราไปแล้ว ให้เค้ากลับมามีชีวิต พูดบทสนทนากับเราได้ แถมยังโต้ตอบกับเราได้เหมือนจริง ทำให้เราสามารถหายจากอาการคิดถึงคนที่เรารักได้สักแปบนึงก็น่าจะดี 😊

    ธนานนท์ เงินถาวร
    ธนานนท์ เงินถาวร
    an introverted writer who is passionate from personal computer history to blockchain and chatbot technology.

    Follow Us

    16,062FansLike
    338FollowersFollow
    0FollowersFollow

    Latest stories

    You might also like...