LLM ย่อมาจาก Large Language Model เป็น AI ประเภทหนึ่งที่สามารถ อ่าน เขียน แปล และสื่อสารด้วยภาษามนุษย์ได้ โดยเราเรียก AI แบบรวมๆประเภทนี้ว่า NLP (Natural Language Processing)
NLP เป็นสาขานึงของ AI ที่มีมานานแล้ว และ LLM เป็นหนึ่ง AI ประเภทนี้
คำว่า Large ใน LLM มาจากจำนวน Parameter ของ อย่างเช่น ChatGPT ที่มีจำนวนถึง 175 billion parameters
นึกภาพง่ายๆว่ามันเป็นเหมือนจำนวนการเชื่อมต่อของเซลล์ประสาทในระบบประสาทของคนเราแต่ใน AI จะเรียกตรงนี้ว่า Parameters
ส่วน Model เป็นสรรพนามของ AI และเราจะเห็นคำนี้เยอะมากๆเวลาพูดถึง AI ให้จำไว้ว่าเป็นเป็นวิธีเรียก AI แต่ละตัวที่มีคุณสมบัติแตกต่างกัน
History of LLM
เ้มื่อก่อนถึงปี 2017 AI ประเภท NLP ที่ใช้งานเกี่ยวกับภาษาทั่วไปมีข้อจำกัดอยู่ที่สามารถชื่อมโยงได้แค่คำที่อยู่ใกล้เคียงกันในประโยคเท่านั้น สมมุติว่าอยากจะ Generate Text ออกมาเป็นนิทานเรื่องหนึ่งที่มีตัวเองชื่ออดัม พอ Generate ไปได้แค่นิดเดียวมันก็จะเริ่มลืมไปแล้วว่าตัวเอกชื่ออะไรแล้วใช้ชื่อผิดๆ หรือสับสนเนื้อเรื่อง เรียกได้ว่าเป็นปัญหาความจำสั้นเลย
ในที่สุดปี 2017 มีการคิดค้น Model Transformer ขึ้นมาโดย Google เป็น Model ตัวแรกที่ทำให้ AI สามารถแบ่งความสนใจไปที่คำแต่ละคำและเชื่อมโยงคำที่เกี่ยวข้องกันได้
ในตอนนี้ Transformers นั้นเปรียบเสมือนหัวใจหลักของ AI และประกอบไปด้วย Encoder กับ Decoder
Encoder ทำหน้าที่เปลี่ยน Text input ไปเป็น Vector หรือตัวเลขเพื่อที่จะทำให้ AI เข้าใจ และนำไปประมวลผลจากนี้ก็จะ Output ออกมาเป็น Vector ที่จะมี Decoder ทำหน้าที่เปลี่ยน Vector ตรงนั้นเป็นกลับคำ
ใน Encoder จะประกอบไปด้วย Self-Attention Network และ Feed Forward Network
Self-Attention คือกระบวนการที่ทำให้ AI สามารถเข้าใจและเชื่อมโยงคำที่เกี่ยวข้องกันได้
ยกตัวอย่างประโยคเช่น Why did the chicken didn’t cross the road? Because it was too tired.
ถ้าเป็นมนุษย์เราก็จะรู้ได้เลยว่า It ในที่นี้หมายถึง chicken ไม่ใช้ road ซึ่ง Self-attention mechanism นี้ทำให้ AI สามารถเชื่อมโยงคำว่า It กับ Chicken ได้
Feed Forward Network เป็น Neural Network ที่เพิ่มความซับซ้อมเข้ามาในการคำนวณและจะส่งต่อค่าจาก Self-attention layer ไปยัง Layer ถัดไป
ส่วน Encoder หน้าที่หลักๆก็คือรับข้อมูลที่เป็น Vector มาจาก Encoder แล้วทำการเปลี่ยนข้อมูลกลับเป็น Word ที่มนุษย์เข้าใจ
ในปัจจุบัน NLP AI ทุกประเภทนำ Transformer มาปรับแต่งและไปใช้เป็นส่วนประกอบหลักจนเกิดเป็น LLM มากมายหลายตัว เช่น Elmo, BERT, GPT, LaMDA และ ChatGPT etc.
How is LLMs train
Architecture ของ LLM แต่ละตัวนั้นไม่เหมือนกันทั้งหมดแต่สิ่งที่เหมือนกันคือขั้นตอนในการ Train หรือสอนเจ้า AI
เริ่มจากตอนแรกเราจะต้องทำการ Pre-Training หรือว่าสร้าง Foundational Model พื้นฐาน โดยการป้อน Text หรือข้อความให้กับ AI เพื่อให้มันเรียนรู้
โดยขั้นตอนนี้ปริมาณข้อมูลเป็นส่วนที่สำคัญที่สุด คุณภาพของข้อมูลก็สำคัญเช่นกัน รองลงมาคือ Architecture ของ AI อย่างเจ้า GPT-3 นั้นใช้ข้อมูลในการเทรนเยอะถึง 45TB!
ขั้นตอนถัดมาคือการ Fine-Tuning หรือการนำ Pre-training model ไปเทรนต่อเพิ่มเติม
โดยในส่วนนี้เราไม่จำเป็นต้องใช้ Data ที่เยอะเหมือนตอนแรกแล้ว ใช้แค่จำนวนนึงพอ โดย ChatGPT ใช้วิธ๊ RLHF หรือ Reinforment Learning from Human Feedback ที่ผมได้เขียนอธิบายไปในบทความที่แล้ว อย่าง ChatGPT นั้น train เพิ่มจาก GPT-3 มาด้วยข้อมูลราวๆ 570GB
Fine-tuning เองยังไม่ได้จำกัดแค่ Foundational Model เท่านั้น จริงๆเราสามารถทำ Fine-tuning ต่อจาก AI ตัวไหนก็ได้เลย โดยเราอาจจะ Fine-tuned ChatGPT เพิ่มด้วยข้อมูลเฉพาะทางเพื่อให้ตอบคำถามทางการแพทย์ได้ดีขึ้นหรือเขียนโค้ดได้ดีขึ้น
ปัจจุบันนี้ LLM สามารถทำงานเกี่ยวกับภาษาได้แทบทุกประเภทเช่น เขียนโค้ด, สรุปบทความ, สร้างไอเดีย, แปลภาษา, คิดแผนธุรกิจ etc.
แต่ในอนาคตเราจะไม่ถูกจำกัดอยู่แค่นี้เพราะเราสามารถนำ LLM มารวมกับหุ่นยนต์ได้ด้วย เช่น PalME ของ Google
เราจะสามารถใช้คำพูดง่ายๆเพื่อสั่งหุ่นยนต์ให้ทำในสิ่งที่เราต้องการได้เลย
นอกจากนี้สิ่งที่น่าสนใจมากๆคือการ Integrate Real world data เข้าไปโดยให้ AI สามารถเข้าถึงข้อมูลใน Internet ได้ โดยใช้เครื่องมืออย่าง Langchain เช่น Bing AI
หรือการนำ Vision Language Model มาใช้เพื่อให้มันสามารถควบคุมหน้าจอของเราได้
เมื่อ AI สามารถควบคุม Computer แทนเราได้แล้วและมีความรู้มากกว่าทุกๆคนบนโลกและยังสามารถเข้าถึง Internet ได้
ผมมองว่าในอนาคตอีกไม่กี่ปี AI จะสามารถทำ Cognitive task แทนเราได้เกือบทั้งหมด
ยกตัวอย่างเช่นตั้งแต่คิด Campaign marketing, generate รูปและบทความที่ต้องใช้ จากนั้นก็นำไปโพสลงสื่อโซเชียลต่างๆด้วยตัวมันเองทั้งหมด โดยทุกขั้นตอนเกิดขึ้นได้ภายในไม่กี่วินาที แต่คนเราอาจจะใช้เวลาหลายวัน
ยังมีสิ่งที่น่ากังวลคือเมื่อ AI มันสามารถเข้าถึง Internet และ Interact ได้ย่อมหมายถึงมันสามารถถูกเอาไปใช้ในทางที่ผิดได้เช่นกัน
อาจจะมี AI ถูกนำไป train เพื่อให้สร้างข่าวบิดเบือนหรือโจมตีคู่แข่งทางการเมือง
เพราะ AI ไม่มี moral ในตัวมันเองที่จะตัดสินว่าอะไรถูกหรือผิด มีแค่ Data ที่ถูกป้อนเข้าไปและ Objective ที่มันจะทำตามอย่างไม่ลดละเท่านั้น
AI จะมาเปลี่ยนวิถีชีวิตและการทำงานของเราไป เมื่องานส่วนใหญ่บนโลกจะถูกแทนที่ด้วย AI มนุษย์ส่วนใหญ่จะต้องมาหาความหมายใหม่ของการมีชีวิตอยู่ และผมเชื่อว่ายุคถัดไปมันจะเป็นยุคแห่ง self-actualization ที่จะยกระดับมนุษย์เราไปอีกขั้น
Source:
PaLM-E: An Embodied Multimodal Language Model
The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. (jalammar.github.io)
https://research.aimultiple.com/large-language-models/