Probability (Part 3)
โพสนี้เราจะมาดูเรื่อง Probability Distribution ต่อจาก Part 2 .
Multinoulli Distribution.
คำถามที่ 1
มีขวดโหลทั้งหมด 6ขวด แต่ละขวดบรรจุลูกบอลไว้เหมือนกันหมด ทั้งสีและจำนวน แต่ละขวดมีลูกบอลในนั้นดังนี้ สีแดง 3 ลูก สีน้ำเงิน 8 ลูก และสีเขียว 9 ลูก. คำถามคือ ถ้าจับลูกบอลออกมาขวดละลูก (ก็จะได้รวมกันทั้งหมด 6 ลูก) โอกาสที่จะได้ สีแดง 1 ลูก มีน้ำเงิน 2 ลูก และสีเขียว 3 ลูก มีค่าเป็นเท่าไหร่ ?
คำถามที่ 2
คำถามนี้อาจถามได้อีกอย่างเช่น ถ้ามีขวดโหล 1 ขวด ดังภาพข้างบน แล้วจับลูกบอลออกมา 1 ลูก แล้วใส่กลับเข้าไปใหม่ ทำแบบนี้ 6 ครั้ง โอกาสที่จะได้ สีแดง 1 ครั้ง สีน้ำเงิน 2 ครั้ง และสีเขียว 3 ครั้ง มีค่าเป็นเท่าไหร่
คำถามสองข้อข้างบนนั้นเหมือนกัน ข้อสังเกตแรกคือเราไม่สนใจเรื่องลำดับ เช่น การจะได้สีน้ำเงิน 2 ลูก เราไม่สนใจว่าจะได้จากขวดที่เท่าไหร่ แต่ขอให้ได้ 2 ลูกก็พอ จะมาจากขวดไหนก็ได้
โอกาสความน่าจะเป็นที่จะได้ผลลัพท์เหมือนในวงกลมสีดำ เรียกว่า Multinoulli Distribution. การจะหาความน่าจะเป็น โดยใจความสำคัญคือ รูปแบบที่ต้องการ หารด้วย รูปแบบทั้งหมดที่สามารถเกิดขึ้นได้
เพื่อให้ง่ายต่อการอธิบายและเห็นภาพได้ง่ายขึ้น เราจะใช้คำถามที่ 1 ในการอธิบาย ดังนี้.
โอกาสการเกิดสีแดงจากขวดใดขวดหนึ่งคือ 3 ใน 20. จากหัวข้อ Indenpendence ดังนั้นโอกาสการเกิดของวงกลมสีดำจะได้ว่า
แต่นี่ก็คือแพทเทิร์นหนึ่งของP(r,g,g,g,b,b) ซึ่งยังมีอีกหลายๆ แพทเทิร์นที่ซ้ำกันอยู่เช่น P(g,r,g,g,b,b),P(g,g,r,g,b,b),... ดูแพทเทิร์นทั้งหมดที่นี่ ซึ่งแต่ละแพทเทิร์นก็จะมีค่าความน่าจะเป็นเท่ากันคือ 0.002187 . ดังนั้น 60 รูปแบบในลิสทั้งหมด แต่ละรูปแบบมีโอกาสเกิดที่ 0.002187 ดังนั้น เหตุการณ์ในวงกลม จะมีโอกาสเกิดขึ้นได้ทั้งหมดเท่ากับ 60 \times 0.002187 = 0.13122 และนี่ก็คือคำตอบสุดท้ายของเรา. ว่าแต่ 60 รูปแบบนี่มาจากไหน? จะรู้จำนวนนี้ได้ยังไงโดยไม่จำเป็นต้องลิสออกมาให้หมด ?
เรารู้แล้วว่าการเรียงขวดโหลสามารถเกิดขึ้นได้ทั้งหมด6! = 720 รูปแบบ. ถ้าถามว่าในทั้งหมด 720 รูปแบบนี้ มีเพียงหนึ่งขวดเท่านั้นที่จับได้สีแดง สมมุติว่าให้เป็นขวดที่ 1 จับได้สีแดง (ขวดที่ 2 - 6 ได้สีอื่นที่ไม่ใช่สีแดง). รูปแบบทั้งหมดก็จะมีได้ 720 วิธีเช่นกัน เช่นการทดลองครั้งที่หนึ่งคือการจับเรียงตามขวด (1,2,3,4,5,6) เราได้ขวดแรกสีแดง และในครั้งที่ 158 (2,3,5,1,6,4) สุ่มครั้งแรกจับลูกบอลในขวดที่สองก่อนก็ไม่ได้สีแดง สุ่มครั้งที่สองจับขวดที่สามก็ไม่ได้สีแดง จนครั้งที่สี่ไปจับจากขวดที่ 1 ก็ได้สีแดง เป็นต้น. ดังนั้นการหารูปแบบทีไม่ซ้ำกันในเคสนี้จะได้ว่า \frac{6!}{1!} = 720
คราวนี้ถามใหม่อีกรอบ ในทั้งหมด 720 รูปแบบนี้ มี 2 ขวดที่ได้สีน้ำเงิน สมุมิตให้เป็นขวดที่เท่าไหร่ก็ได้ เช่น ขวดที่ 3 กับขวดที่ 5 หลักการคิดก็จะคล้ายๆกับที่ิอธิบายไป รูปแบบทั้งหมดเขียนไว้ที่นี่ การทำนวณก็เหมือนเดิมคือ\frac{6!}{2!} = 360
ส่วนรูปแบบของP(g,r,g,g,b,b),P(g,g,r,g,b,b),... เป็นไปได้ทั้หมด 60 รูปแบบ. การคำนวณให้ได้ 60 รูปแบบทำได้ง่ายๆคือ เอาจำนวนรูปแบบทั้งหมด 720 หารด้วยรูปแบบของ r = 1!, g = 3! ,b = 2! ก็จะได้รูปแบบทั้งหมดที่ไมซ้ำกันเท่ากับ \frac{6!}{1!.3!.2!} = 60 นั่นเอง. เอาไปรวมกับวิธีการหาคำตอบสุดท้ายก็จะได้
เอาให้หมดมาประกอบกัน Multinoulli Probability Density Functionก็จะได้
Gaussian Distribution.
หรือที่เรียกกันโดยทั่วไปว่า normal distribution.
ก่อนอื่นทบทวนเรื่องที่ผ่านมา
Normal distribution มีลักษณะของ PDF เป็นรูประฆังคว่ำ. รูปแบบของกราฟถูกควบคุมจากสองตัวแปร คือค่าเฉลี่ย \mu และค่าเบี่ยงเบนมาตรฐาน(Standard Deviation) \sigma . สามารถเขียนอธิบายได้ดังนี้ X \sim N(\mu,\sigma^2)
อ่านได้ว่า ตัวแปรX มีลักษณะตามแบบของ Normal Distribution และมีค่าเฉลี่ยที่ \mu และมี variance ที่ \sigma^2
Multinoulli Distribution.
คำถามที่ 1
มีขวดโหลทั้งหมด 6ขวด แต่ละขวดบรรจุลูกบอลไว้เหมือนกันหมด ทั้งสีและจำนวน แต่ละขวดมีลูกบอลในนั้นดังนี้ สีแดง 3 ลูก สีน้ำเงิน 8 ลูก และสีเขียว 9 ลูก. คำถามคือ ถ้าจับลูกบอลออกมาขวดละลูก (ก็จะได้รวมกันทั้งหมด 6 ลูก) โอกาสที่จะได้ สีแดง 1 ลูก มีน้ำเงิน 2 ลูก และสีเขียว 3 ลูก มีค่าเป็นเท่าไหร่ ?
คำถามที่ 2
คำถามนี้อาจถามได้อีกอย่างเช่น ถ้ามีขวดโหล 1 ขวด ดังภาพข้างบน แล้วจับลูกบอลออกมา 1 ลูก แล้วใส่กลับเข้าไปใหม่ ทำแบบนี้ 6 ครั้ง โอกาสที่จะได้ สีแดง 1 ครั้ง สีน้ำเงิน 2 ครั้ง และสีเขียว 3 ครั้ง มีค่าเป็นเท่าไหร่
คำถามสองข้อข้างบนนั้นเหมือนกัน ข้อสังเกตแรกคือเราไม่สนใจเรื่องลำดับ เช่น การจะได้สีน้ำเงิน 2 ลูก เราไม่สนใจว่าจะได้จากขวดที่เท่าไหร่ แต่ขอให้ได้ 2 ลูกก็พอ จะมาจากขวดไหนก็ได้
โอกาสความน่าจะเป็นที่จะได้ผลลัพท์เหมือนในวงกลมสีดำ เรียกว่า Multinoulli Distribution. การจะหาความน่าจะเป็น โดยใจความสำคัญคือ รูปแบบที่ต้องการ หารด้วย รูปแบบทั้งหมดที่สามารถเกิดขึ้นได้
เพื่อให้ง่ายต่อการอธิบายและเห็นภาพได้ง่ายขึ้น เราจะใช้คำถามที่ 1 ในการอธิบาย ดังนี้.
โอกาสการเกิดสีแดงจากขวดใดขวดหนึ่งคือ 3 ใน 20. จากหัวข้อ Indenpendence ดังนั้นโอกาสการเกิดของวงกลมสีดำจะได้ว่า
P(r \cap g \cap g \cap g \cap b \cap b) = P(r) \times P(g) \times P(g) \times P(g) \times P(b) \times P(b)
\space = \bigg(\dfrac{3}{20}\bigg).\bigg(\dfrac{9}{20}\bigg)^3.\bigg(\dfrac{8}{20}\bigg)^2
P(r,g,g,g,b,b) = 0.002187
แต่นี่ก็คือแพทเทิร์นหนึ่งของ
เรารู้แล้วว่าการเรียงขวดโหลสามารถเกิดขึ้นได้ทั้งหมด
คราวนี้ถามใหม่อีกรอบ ในทั้งหมด 720 รูปแบบนี้ มี 2 ขวดที่ได้สีน้ำเงิน สมุมิตให้เป็นขวดที่เท่าไหร่ก็ได้ เช่น ขวดที่ 3 กับขวดที่ 5 หลักการคิดก็จะคล้ายๆกับที่ิอธิบายไป รูปแบบทั้งหมดเขียนไว้ที่นี่ การทำนวณก็เหมือนเดิมคือ
ส่วนรูปแบบของ
f(r=1,g=3,b=2) = \dfrac{6!}{1!\cdotp 3!\cdotp 2!}\bigg(\dfrac{3}{20}\bigg)^{1}\bigg(\dfrac{9}{20}\bigg)^{3}\bigg(\dfrac{8}{20}\bigg)^{2}
เอาให้หมดมาประกอบกัน Multinoulli Probability Density Functionก็จะได้
f(x|n,p) = \dfrac{n!}{x_1!\cdotp\cdotp\cdotp x_k!}p_1^{x_1}!\cdotp\cdotp\cdotp p_k^{x_k}!
Gaussian Distribution.
หรือที่เรียกกันโดยทั่วไปว่า normal distribution.
ก่อนอื่นทบทวนเรื่องที่ผ่านมา
- เราพูดกันมาเยอะเรื่อง Probability density funciton. อะไรคือ Probability density? Probability density บอกถึงความถี่(ความเป็นไปได้ โอกาสที่จะเจอ)ของความน่าจะเป็นในช่วงๆหนึ่ง (อาจจะเป็น ช่วงเวลาหนึ่ง, ช่วงความยาว, ช่วงน้ำหนัก ฯลฯ ที่อยู่ในแกน x ) ความถี่(ทั้งหมดในกราฟ)นี้อธิบายโดย Probability density function หรือก็คือเส้นกราฟที่ถูกลากไว้. เพราะฉะนั้น ความน่าจะเป็นก็คือ พื้นที่ทั้งหมดภายใต้กราฟที่อยู่ในช่วงๆนั้นนั่นเอง
- Probability density กับ Probability คือสิ่งเดียวกันใช่ไหม ?
อย่างที่อธิบายไว้ในข้อแรก Probability density บอกถึงการกระจุกหรือกระจายตัวของความน่าจะเป็นในช่วงๆหนึ่ง แต่ตัว Probability density มันเอง ไม่ใช่ความน่าจะเป็น. Probability density function คือเส้นที่ลากอยู่บนกราฟ ส่วนความน่าจะเป็นสามารถหาได้จากพื้นที่ใต้กราฟ(ในช่วงที่เราสนใจ) - เราพูดกันแต่เรื่องของความน่าจะเป็นในช่วงหนึ่งๆ ถ้าต้องการหาความน่าจะเป็น ณ จุดๆหนึ่งในช่วงนั้นๆ จะทำได้ยังไง?
ยกตัวอย่างเช่น ถ้าเราต้องการส้มลูกหนึ่งที่มีน้ำหนัก 100 กรัม เราอาจพูดว่า ต้องการส้มลูกหนึ่งที่มีน้ำหนัก 100 กรัมแป๊ะ แต่ความเป็นจริง มันยากที่จะหาแบบนั้นได้ สิ่งที่เรากำลังมองหาคือส้มที่มีน้ำหนักราวๆ 99.5 ถึง 100.5 กรัม
ถ้าเราจัดการเกี่ยวกับข้อมูลแบบ continuous เราจะกล่าวถึงดีกรีความถูกต้องที่สามารถยอมรับได้ ซึ่งอาจไม่ใช้ค่าที่แม่นยำ 100% แต่เป็นค่าที่ใกล้เคียงที่อยู่ในช่วงนั้นๆ - แต่ถ้าเราต้องการหาความน่าจะเป็นจริงๆของส้มที่หนัก 100 กรัมแป๊ะๆ จะมีความน่าจะเป็นเท่าไหร่?
คำตอบคือ 0. คำถามของเราจริงๆคือ ส้มที่หนัก 100 กรัมโดยที่ไม่ขาดไม่เกินไปแม้แต่อะตอมเดียว(น้ำหนัก) ยิ่งไปกว่านั้นอาจวัดกันถึงระดับ อิเลกตรอนซ์ที่อาจมีการเปลี่ยนแปลงจากระเหยของน้ำในผลส้มในทุกๆเซี้ยววินาที ดังนั้นส้มที่หนัก 100 กรัมจริงๆในอุดมคติแล้วคงเป็นไปไม่ได้.
อ่านได้ว่า ตัวแปร
f(x|\mu,\sigma) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
https://www.statlect.com/probability-distributions/multinoulli-distribution
https://www.youtube.com/watch?v=syVW7DgvUaY
https://en.wikipedia.org/wiki/Categorical_distribution
https://www.mathworks.com/help/stats/multinomial-distribution.html?searchHighlight=Multinomial%20Distribution&s_tid=doc_srchtitle
https://en.wikipedia.org/wiki/Normal_distribution
Comments
Post a Comment