More

    LLM (Large Language Model) and its applications

    LLM คืออะไร ทำอะไรได้? และมันจะมาเปลี่ยนโลกนี้ยังไง


    LLM ย่อมาจาก Large Language Model เป็น AI ประเภทหนึ่งที่สามารถ อ่าน เขียน แปล และสื่อสารด้วยภาษามนุษย์ได้ โดยเราเรียก AI แบบรวมๆประเภทนี้ว่า NLP (Natural Language Processing)

    NLP เป็นสาขานึงของ AI ที่มีมานานแล้ว และ LLM เป็นหนึ่ง AI ประเภทนี้
    คำว่า Large ใน LLM มาจากจำนวน Parameter ของ อย่างเช่น ChatGPT ที่มีจำนวนถึง 175 billion parameters
    นึกภาพง่ายๆว่ามันเป็นเหมือนจำนวนการเชื่อมต่อของเซลล์ประสาทในระบบประสาทของคนเราแต่ใน AI จะเรียกตรงนี้ว่า Parameters

    ส่วน Model เป็นสรรพนามของ AI และเราจะเห็นคำนี้เยอะมากๆเวลาพูดถึง AI ให้จำไว้ว่าเป็นเป็นวิธีเรียก AI แต่ละตัวที่มีคุณสมบัติแตกต่างกัน

    History of LLM

    เ้มื่อก่อนถึงปี 2017 AI ประเภท NLP ที่ใช้งานเกี่ยวกับภาษาทั่วไปมีข้อจำกัดอยู่ที่สามารถชื่อมโยงได้แค่คำที่อยู่ใกล้เคียงกันในประโยคเท่านั้น สมมุติว่าอยากจะ Generate Text ออกมาเป็นนิทานเรื่องหนึ่งที่มีตัวเองชื่ออดัม พอ Generate ไปได้แค่นิดเดียวมันก็จะเริ่มลืมไปแล้วว่าตัวเอกชื่ออะไรแล้วใช้ชื่อผิดๆ หรือสับสนเนื้อเรื่อง เรียกได้ว่าเป็นปัญหาความจำสั้นเลย
    ในที่สุดปี 2017 มีการคิดค้น Model Transformer ขึ้นมาโดย Google เป็น Model ตัวแรกที่ทำให้ AI สามารถแบ่งความสนใจไปที่คำแต่ละคำและเชื่อมโยงคำที่เกี่ยวข้องกันได้

    Source: The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. (jalammar.github.io)

    ในตอนนี้ Transformers นั้นเปรียบเสมือนหัวใจหลักของ AI และประกอบไปด้วย Encoder กับ Decoder

    Encoder ทำหน้าที่เปลี่ยน Text input ไปเป็น Vector หรือตัวเลขเพื่อที่จะทำให้ AI เข้าใจ และนำไปประมวลผลจากนี้ก็จะ Output ออกมาเป็น Vector ที่จะมี Decoder ทำหน้าที่เปลี่ยน Vector ตรงนั้นเป็นกลับคำ

    ใน Encoder จะประกอบไปด้วย Self-Attention Network และ Feed Forward Network

    Self-Attention คือกระบวนการที่ทำให้ AI สามารถเข้าใจและเชื่อมโยงคำที่เกี่ยวข้องกันได้

    ยกตัวอย่างประโยคเช่น Why did the chicken didn’t cross the road? Because it was too tired.

    ถ้าเป็นมนุษย์เราก็จะรู้ได้เลยว่า It ในที่นี้หมายถึง chicken ไม่ใช้ road ซึ่ง Self-attention mechanism นี้ทำให้ AI สามารถเชื่อมโยงคำว่า It กับ Chicken ได้

    Feed Forward Network เป็น Neural Network ที่เพิ่มความซับซ้อมเข้ามาในการคำนวณและจะส่งต่อค่าจาก Self-attention layer ไปยัง Layer ถัดไป

    ส่วน Encoder หน้าที่หลักๆก็คือรับข้อมูลที่เป็น Vector มาจาก Encoder แล้วทำการเปลี่ยนข้อมูลกลับเป็น Word ที่มนุษย์เข้าใจ
    ในปัจจุบัน NLP AI ทุกประเภทนำ Transformer มาปรับแต่งและไปใช้เป็นส่วนประกอบหลักจนเกิดเป็น LLM มากมายหลายตัว เช่น Elmo, BERT, GPT, LaMDA และ ChatGPT etc.

    How is LLMs train

    Source: Large Language Models: Complete Guide in 2023 (aimultiple.com)

    Architecture ของ LLM แต่ละตัวนั้นไม่เหมือนกันทั้งหมดแต่สิ่งที่เหมือนกันคือขั้นตอนในการ Train หรือสอนเจ้า AI

    เริ่มจากตอนแรกเราจะต้องทำการ Pre-Training หรือว่าสร้าง Foundational Model พื้นฐาน โดยการป้อน Text หรือข้อความให้กับ AI เพื่อให้มันเรียนรู้

    โดยขั้นตอนนี้ปริมาณข้อมูลเป็นส่วนที่สำคัญที่สุด คุณภาพของข้อมูลก็สำคัญเช่นกัน รองลงมาคือ Architecture ของ AI อย่างเจ้า GPT-3 นั้นใช้ข้อมูลในการเทรนเยอะถึง 45TB!

    ขั้นตอนถัดมาคือการ Fine-Tuning หรือการนำ Pre-training model ไปเทรนต่อเพิ่มเติม

    โดยในส่วนนี้เราไม่จำเป็นต้องใช้ Data ที่เยอะเหมือนตอนแรกแล้ว ใช้แค่จำนวนนึงพอ โดย ChatGPT ใช้วิธ๊ RLHF หรือ Reinforment Learning from Human Feedback ที่ผมได้เขียนอธิบายไปในบทความที่แล้ว อย่าง ChatGPT นั้น train เพิ่มจาก GPT-3 มาด้วยข้อมูลราวๆ 570GB

    Fine-tuning เองยังไม่ได้จำกัดแค่ Foundational Model เท่านั้น จริงๆเราสามารถทำ Fine-tuning ต่อจาก AI ตัวไหนก็ได้เลย โดยเราอาจจะ Fine-tuned ChatGPT เพิ่มด้วยข้อมูลเฉพาะทางเพื่อให้ตอบคำถามทางการแพทย์ได้ดีขึ้นหรือเขียนโค้ดได้ดีขึ้น

    ปัจจุบันนี้ LLM สามารถทำงานเกี่ยวกับภาษาได้แทบทุกประเภทเช่น เขียนโค้ด, สรุปบทความ, สร้างไอเดีย, แปลภาษา, คิดแผนธุรกิจ etc.

    แต่ในอนาคตเราจะไม่ถูกจำกัดอยู่แค่นี้เพราะเราสามารถนำ LLM มารวมกับหุ่นยนต์ได้ด้วย เช่น PalME ของ Google

    เราจะสามารถใช้คำพูดง่ายๆเพื่อสั่งหุ่นยนต์ให้ทำในสิ่งที่เราต้องการได้เลย
    นอกจากนี้สิ่งที่น่าสนใจมากๆคือการ Integrate Real world data เข้าไปโดยให้ AI สามารถเข้าถึงข้อมูลใน Internet ได้ โดยใช้เครื่องมืออย่าง Langchain เช่น Bing AI

    หรือการนำ Vision Language Model มาใช้เพื่อให้มันสามารถควบคุมหน้าจอของเราได้

    ในตัวอย่างนี้เราสามารถให้ AI Navigate website และสั่งอาหารที่เราต้องการได้

    เมื่อ AI สามารถควบคุม Computer แทนเราได้แล้วและมีความรู้มากกว่าทุกๆคนบนโลกและยังสามารถเข้าถึง Internet ได้

    ผมมองว่าในอนาคตอีกไม่กี่ปี AI จะสามารถทำ Cognitive task แทนเราได้เกือบทั้งหมด

    ยกตัวอย่างเช่นตั้งแต่คิด Campaign marketing, generate รูปและบทความที่ต้องใช้ จากนั้นก็นำไปโพสลงสื่อโซเชียลต่างๆด้วยตัวมันเองทั้งหมด โดยทุกขั้นตอนเกิดขึ้นได้ภายในไม่กี่วินาที แต่คนเราอาจจะใช้เวลาหลายวัน

    ยังมีสิ่งที่น่ากังวลคือเมื่อ AI มันสามารถเข้าถึง Internet และ Interact ได้ย่อมหมายถึงมันสามารถถูกเอาไปใช้ในทางที่ผิดได้เช่นกัน
    อาจจะมี AI ถูกนำไป train เพื่อให้สร้างข่าวบิดเบือนหรือโจมตีคู่แข่งทางการเมือง

    เพราะ AI ไม่มี moral ในตัวมันเองที่จะตัดสินว่าอะไรถูกหรือผิด มีแค่ Data ที่ถูกป้อนเข้าไปและ Objective ที่มันจะทำตามอย่างไม่ลดละเท่านั้น

    AI จะมาเปลี่ยนวิถีชีวิตและการทำงานของเราไป เมื่องานส่วนใหญ่บนโลกจะถูกแทนที่ด้วย AI มนุษย์ส่วนใหญ่จะต้องมาหาความหมายใหม่ของการมีชีวิตอยู่ และผมเชื่อว่ายุคถัดไปมันจะเป็นยุคแห่ง self-actualization ที่จะยกระดับมนุษย์เราไปอีกขั้น

    Source:
    PaLM-E: An Embodied Multimodal Language Model

    The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. (jalammar.github.io)
    https://research.aimultiple.com/large-language-models/

    Follow Us

    16,062FansLike
    338FollowersFollow
    0FollowersFollow

    Latest stories

    You might also like...