Probability (Part 3)
โพสนี้เราจะมาดูเรื่อง Probability Distribution ต่อจาก Part 2 .
Multinoulli Distribution.
คำถามที่ 1
มีขวดโหลทั้งหมด 6ขวด แต่ละขวดบรรจุลูกบอลไว้เหมือนกันหมด ทั้งสีและจำนวน แต่ละขวดมีลูกบอลในนั้นดังนี้ สีแดง 3 ลูก สีน้ำเงิน 8 ลูก และสีเขียว 9 ลูก. คำถามคือ ถ้าจับลูกบอลออกมาขวดละลูก (ก็จะได้รวมกันทั้งหมด 6 ลูก) โอกาสที่จะได้ สีแดง 1 ลูก มีน้ำเงิน 2 ลูก และสีเขียว 3 ลูก มีค่าเป็นเท่าไหร่ ?
คำถามที่ 2
คำถามนี้อาจถามได้อีกอย่างเช่น ถ้ามีขวดโหล 1 ขวด ดังภาพข้างบน แล้วจับลูกบอลออกมา 1 ลูก แล้วใส่กลับเข้าไปใหม่ ทำแบบนี้ 6 ครั้ง โอกาสที่จะได้ สีแดง 1 ครั้ง สีน้ำเงิน 2 ครั้ง และสีเขียว 3 ครั้ง มีค่าเป็นเท่าไหร่
คำถามสองข้อข้างบนนั้นเหมือนกัน ข้อสังเกตแรกคือเราไม่สนใจเรื่องลำดับ เช่น การจะได้สีน้ำเงิน 2 ลูก เราไม่สนใจว่าจะได้จากขวดที่เท่าไหร่ แต่ขอให้ได้ 2 ลูกก็พอ จะมาจากขวดไหนก็ได้
โอกาสความน่าจะเป็นที่จะได้ผลลัพท์เหมือนในวงกลมสีดำ เรียกว่า Multinoulli Distribution. การจะหาความน่าจะเป็น โดยใจความสำคัญคือ รูปแบบที่ต้องการ หารด้วย รูปแบบทั้งหมดที่สามารถเกิดขึ้นได้
เพื่อให้ง่ายต่อการอธิบายและเห็นภาพได้ง่ายขึ้น เราจะใช้คำถามที่ 1 ในการอธิบาย ดังนี้.
โอกาสการเกิดสีแดงจากขวดใดขวดหนึ่งคือ 3 ใน 20. จากหัวข้อ Indenpendence ดังนั้นโอกาสการเกิดของวงกลมสีดำจะได้ว่า
แต่นี่ก็คือแพทเทิร์นหนึ่งของ ซึ่งยังมีอีกหลายๆ แพทเทิร์นที่ซ้ำกันอยู่เช่น ดูแพทเทิร์นทั้งหมดที่นี่ ซึ่งแต่ละแพทเทิร์นก็จะมีค่าความน่าจะเป็นเท่ากันคือ . ดังนั้น 60 รูปแบบในลิสทั้งหมด แต่ละรูปแบบมีโอกาสเกิดที่ ดังนั้น เหตุการณ์ในวงกลม จะมีโอกาสเกิดขึ้นได้ทั้งหมดเท่ากับ และนี่ก็คือคำตอบสุดท้ายของเรา. ว่าแต่ 60 รูปแบบนี่มาจากไหน? จะรู้จำนวนนี้ได้ยังไงโดยไม่จำเป็นต้องลิสออกมาให้หมด ?
เรารู้แล้วว่าการเรียงขวดโหลสามารถเกิดขึ้นได้ทั้งหมด รูปแบบ. ถ้าถามว่าในทั้งหมด 720 รูปแบบนี้ มีเพียงหนึ่งขวดเท่านั้นที่จับได้สีแดง สมมุติว่าให้เป็นขวดที่ 1 จับได้สีแดง (ขวดที่ 2 - 6 ได้สีอื่นที่ไม่ใช่สีแดง). รูปแบบทั้งหมดก็จะมีได้ 720 วิธีเช่นกัน เช่นการทดลองครั้งที่หนึ่งคือการจับเรียงตามขวด (1,2,3,4,5,6) เราได้ขวดแรกสีแดง และในครั้งที่ 158 (2,3,5,1,6,4) สุ่มครั้งแรกจับลูกบอลในขวดที่สองก่อนก็ไม่ได้สีแดง สุ่มครั้งที่สองจับขวดที่สามก็ไม่ได้สีแดง จนครั้งที่สี่ไปจับจากขวดที่ 1 ก็ได้สีแดง เป็นต้น. ดังนั้นการหารูปแบบทีไม่ซ้ำกันในเคสนี้จะได้ว่า
คราวนี้ถามใหม่อีกรอบ ในทั้งหมด 720 รูปแบบนี้ มี 2 ขวดที่ได้สีน้ำเงิน สมุมิตให้เป็นขวดที่เท่าไหร่ก็ได้ เช่น ขวดที่ 3 กับขวดที่ 5 หลักการคิดก็จะคล้ายๆกับที่ิอธิบายไป รูปแบบทั้งหมดเขียนไว้ที่นี่ การทำนวณก็เหมือนเดิมคือ
ส่วนรูปแบบของ เป็นไปได้ทั้หมด รูปแบบ. การคำนวณให้ได้ 60 รูปแบบทำได้ง่ายๆคือ เอาจำนวนรูปแบบทั้งหมด หารด้วยรูปแบบของ ก็จะได้รูปแบบทั้งหมดที่ไมซ้ำกันเท่ากับ นั่นเอง. เอาไปรวมกับวิธีการหาคำตอบสุดท้ายก็จะได้
เอาให้หมดมาประกอบกัน Multinoulli Probability Density Functionก็จะได้
Gaussian Distribution.
หรือที่เรียกกันโดยทั่วไปว่า normal distribution.
ก่อนอื่นทบทวนเรื่องที่ผ่านมา
Normal distribution มีลักษณะของ PDF เป็นรูประฆังคว่ำ. รูปแบบของกราฟถูกควบคุมจากสองตัวแปร คือค่าเฉลี่ย และค่าเบี่ยงเบนมาตรฐาน(Standard Deviation) . สามารถเขียนอธิบายได้ดังนี้
อ่านได้ว่า ตัวแปร มีลักษณะตามแบบของ Normal Distribution และมีค่าเฉลี่ยที่ และมี variance ที่
Multinoulli Distribution.
คำถามที่ 1
มีขวดโหลทั้งหมด 6ขวด แต่ละขวดบรรจุลูกบอลไว้เหมือนกันหมด ทั้งสีและจำนวน แต่ละขวดมีลูกบอลในนั้นดังนี้ สีแดง 3 ลูก สีน้ำเงิน 8 ลูก และสีเขียว 9 ลูก. คำถามคือ ถ้าจับลูกบอลออกมาขวดละลูก (ก็จะได้รวมกันทั้งหมด 6 ลูก) โอกาสที่จะได้ สีแดง 1 ลูก มีน้ำเงิน 2 ลูก และสีเขียว 3 ลูก มีค่าเป็นเท่าไหร่ ?
คำถามที่ 2
คำถามนี้อาจถามได้อีกอย่างเช่น ถ้ามีขวดโหล 1 ขวด ดังภาพข้างบน แล้วจับลูกบอลออกมา 1 ลูก แล้วใส่กลับเข้าไปใหม่ ทำแบบนี้ 6 ครั้ง โอกาสที่จะได้ สีแดง 1 ครั้ง สีน้ำเงิน 2 ครั้ง และสีเขียว 3 ครั้ง มีค่าเป็นเท่าไหร่
คำถามสองข้อข้างบนนั้นเหมือนกัน ข้อสังเกตแรกคือเราไม่สนใจเรื่องลำดับ เช่น การจะได้สีน้ำเงิน 2 ลูก เราไม่สนใจว่าจะได้จากขวดที่เท่าไหร่ แต่ขอให้ได้ 2 ลูกก็พอ จะมาจากขวดไหนก็ได้
โอกาสความน่าจะเป็นที่จะได้ผลลัพท์เหมือนในวงกลมสีดำ เรียกว่า Multinoulli Distribution. การจะหาความน่าจะเป็น โดยใจความสำคัญคือ รูปแบบที่ต้องการ หารด้วย รูปแบบทั้งหมดที่สามารถเกิดขึ้นได้
เพื่อให้ง่ายต่อการอธิบายและเห็นภาพได้ง่ายขึ้น เราจะใช้คำถามที่ 1 ในการอธิบาย ดังนี้.
โอกาสการเกิดสีแดงจากขวดใดขวดหนึ่งคือ 3 ใน 20. จากหัวข้อ Indenpendence ดังนั้นโอกาสการเกิดของวงกลมสีดำจะได้ว่า
แต่นี่ก็คือแพทเทิร์นหนึ่งของ
เรารู้แล้วว่าการเรียงขวดโหลสามารถเกิดขึ้นได้ทั้งหมด
คราวนี้ถามใหม่อีกรอบ ในทั้งหมด 720 รูปแบบนี้ มี 2 ขวดที่ได้สีน้ำเงิน สมุมิตให้เป็นขวดที่เท่าไหร่ก็ได้ เช่น ขวดที่ 3 กับขวดที่ 5 หลักการคิดก็จะคล้ายๆกับที่ิอธิบายไป รูปแบบทั้งหมดเขียนไว้ที่นี่ การทำนวณก็เหมือนเดิมคือ
ส่วนรูปแบบของ
เอาให้หมดมาประกอบกัน Multinoulli Probability Density Functionก็จะได้
Gaussian Distribution.
หรือที่เรียกกันโดยทั่วไปว่า normal distribution.
ก่อนอื่นทบทวนเรื่องที่ผ่านมา
- เราพูดกันมาเยอะเรื่อง Probability density funciton. อะไรคือ Probability density? Probability density บอกถึงความถี่(ความเป็นไปได้ โอกาสที่จะเจอ)ของความน่าจะเป็นในช่วงๆหนึ่ง (อาจจะเป็น ช่วงเวลาหนึ่ง, ช่วงความยาว, ช่วงน้ำหนัก ฯลฯ ที่อยู่ในแกน x ) ความถี่(ทั้งหมดในกราฟ)นี้อธิบายโดย Probability density function หรือก็คือเส้นกราฟที่ถูกลากไว้. เพราะฉะนั้น ความน่าจะเป็นก็คือ พื้นที่ทั้งหมดภายใต้กราฟที่อยู่ในช่วงๆนั้นนั่นเอง
- Probability density กับ Probability คือสิ่งเดียวกันใช่ไหม ?
อย่างที่อธิบายไว้ในข้อแรก Probability density บอกถึงการกระจุกหรือกระจายตัวของความน่าจะเป็นในช่วงๆหนึ่ง แต่ตัว Probability density มันเอง ไม่ใช่ความน่าจะเป็น. Probability density function คือเส้นที่ลากอยู่บนกราฟ ส่วนความน่าจะเป็นสามารถหาได้จากพื้นที่ใต้กราฟ(ในช่วงที่เราสนใจ) - เราพูดกันแต่เรื่องของความน่าจะเป็นในช่วงหนึ่งๆ ถ้าต้องการหาความน่าจะเป็น ณ จุดๆหนึ่งในช่วงนั้นๆ จะทำได้ยังไง?
ยกตัวอย่างเช่น ถ้าเราต้องการส้มลูกหนึ่งที่มีน้ำหนัก 100 กรัม เราอาจพูดว่า ต้องการส้มลูกหนึ่งที่มีน้ำหนัก 100 กรัมแป๊ะ แต่ความเป็นจริง มันยากที่จะหาแบบนั้นได้ สิ่งที่เรากำลังมองหาคือส้มที่มีน้ำหนักราวๆ 99.5 ถึง 100.5 กรัม
ถ้าเราจัดการเกี่ยวกับข้อมูลแบบ continuous เราจะกล่าวถึงดีกรีความถูกต้องที่สามารถยอมรับได้ ซึ่งอาจไม่ใช้ค่าที่แม่นยำ 100% แต่เป็นค่าที่ใกล้เคียงที่อยู่ในช่วงนั้นๆ - แต่ถ้าเราต้องการหาความน่าจะเป็นจริงๆของส้มที่หนัก 100 กรัมแป๊ะๆ จะมีความน่าจะเป็นเท่าไหร่?
คำตอบคือ 0. คำถามของเราจริงๆคือ ส้มที่หนัก 100 กรัมโดยที่ไม่ขาดไม่เกินไปแม้แต่อะตอมเดียว(น้ำหนัก) ยิ่งไปกว่านั้นอาจวัดกันถึงระดับ อิเลกตรอนซ์ที่อาจมีการเปลี่ยนแปลงจากระเหยของน้ำในผลส้มในทุกๆเซี้ยววินาที ดังนั้นส้มที่หนัก 100 กรัมจริงๆในอุดมคติแล้วคงเป็นไปไม่ได้.
อ่านได้ว่า ตัวแปร
https://www.statlect.com/probability-distributions/multinoulli-distribution
https://www.youtube.com/watch?v=syVW7DgvUaY
https://en.wikipedia.org/wiki/Categorical_distribution
https://www.mathworks.com/help/stats/multinomial-distribution.html?searchHighlight=Multinomial%20Distribution&s_tid=doc_srchtitle
https://en.wikipedia.org/wiki/Normal_distribution