Probability (Part 2)


Expectation, Variance, and Covariance.


Slot Machine คือเครื่องเล่นการพนันชนิดหนึ่ง กติกาคือกดปุ่มเล่น แล้วนั่งลุ้นดูที่หน้าจอว่าได้รูปภาพอะไรบ้าง ถ้าได้ครบตามรูปแบบที่ตู้บอก ก็จะได้รางวัลตามนั้น เช่นตู้แรกจากทางซ้ายมือ ถ้าได้เลข 7 สามตัว ก็จะได้ 60 เท่า ของเงินที่ลงไปในตานั้นๆ เช่นถ้าเล่นเกมส์ละ 10$ แล้วกดได้ 777 ก็จะได้ไปเลย 600$ หรือประมาณ 18,000 กว่าบาทกลมๆ น่าสนใจไหม? แต่ก่อนอื่น มีคำถามน่าคิดอยู่สองข้อคือ

  1. แต่ละตาที่ลงพนันไป โอกาสที่จะได้เงินหรือเสียเงินเป็นเท่าไหร่โดยเฉลี่ย ? (Expectation)
  2. โอกาสที่จะแจ็คพอตแล้วได้เงินหลายร้อยเท่านั้น มีความเป็นไปได้มากน้อยขนาดไหน ?  (Variance)
โพสนี้เราจะไปค้นหาความจริงเบื้องหลังของเรื่องพวกนี้กัน. แต่การที่จะเอากฏพวกนี้มาคำนวนหาค่าจริงๆ เราต้องอาศัยข้อมูลที่มากกว่าที่เห็นโชว์บนหน้าจอของแต่ละตู้ ซึ่งคนผลิตไม่ได้บอกเอาไว้ ซึ่งเขาก็ไม่อยากให้เรารู้อยู่แล้ว อย่างไรก็ตาม ในที่นี้เราจะใช้ค่าสมมุติค่าความน่าจะเป็นที่คิดว่าไม่น่าห่างจากความเป็นจริงไปมากนัก กฏที่เราตั้งขึ้นมานี้จะได้ว่า แต่ละเกมส์มีการลงเงินไว้ที่ 1$, ถ้าได้เพชร 3 อันพร้อมกัน ก็จะได้ $20. ถ้าได้เพชร 2 อัน แล้วได้เชอร์รี่ 1 อัน (ลำดับไม่สำคัญ) ก็จะได้ $15 ดังภาพ

 = $20 
(สลับตำแหน่งกันได้ทุกตัว) = $15 
 = $10 
 = $5 

ซึ่งแต่ละความน่าเป็นของแต่ละรูปสรุปได้ในตารางข้างล่าง
รูปภาพ
ความน่าจะเป็น0.10.20.20.5

พอกดเล่นแต่ละเกมปุ๊ปก็รูปภาพก็จะหมุนประมาณนี้


แต่ละช่องไม่มีความเกี่ยวเนื่องกัน หมายถึงถ้าช่องแรกได้เลมอน ช่องที่สองก็มีโอกาสเกิดเลมอนที่ 20% เหมือนกับช่องแรก เราเรียกความสัมพันธ์แบบนี้ว่า Conditional Indenpendent
ความน่าจะเป็นของการเกิดเหตุการณ์

ให้ d = diamond, เพชร x 3 คิดได้ดังนี้
\begin{aligned}P(d,d,d) &=P(d)\times P(d)\times P(d) \\ &=0.1\times 0.1\times 0.1 \\ \space &= 0.001\end{aligned}

ให้ c = cherry, เพชร 2 อัน เชอร์รี่ 1 อันแบบไม่สนใจตำแหน่ง สามารถเขียนได้ดังนี้
\begin{aligned}\space &=P(d,d,c)\times P(d,c,d)\times P(c,d,d) \\\space &=(0.1 \times 0.1 \times 0.2) + (0.1 \times 0.2 \times 0.1) + (0.2 \times 0.1 \times 0.1) \\\space &=0.002 + 0.002+ 0.002 \\\space &=0.006\end{aligned}

และความน่าจะเป็นที่ไม่ได้อะไรเลย
\begin{aligned} P(losing)&=1 - P(d,d,d) - P(d,d,c (any\space order)) - P(c,c,c) - P(l,l,l) \\ \space &= 1 - 0.001 - 0.006 - 0.008 - 0.008 \\ \space &= 0.977 \end{aligned}

สรุปออกมาเป็นตารางก็จะได้
Combination None Lemons Cherries Diamond/cherry Diamond
Probability0.9770.0080.0080.0060.001
ถึงตรงนี้บางท่านอาจเห็นแนวทางแล้ว่าเรากำลังจะคิดหาอะไรต่อ จากตารางทำให้เราเริ่มเห็นภาพชัดเจนขึ้นมานิดหนึ่งว่าโอกาสได้เสียจะออกมาในแนวไหน อย่างแรกเลยคือ โอกาสที่จะเสียเงินมีสูงมากๆ มีตั้ง 97.7% 🙊🙉🙈

คราวนี้เราจะลองมาคิดจากเงิน 1$ ในแต่ละเกมส์ทีเล่นไป

Combination None Lemons Cherries Diamond/cherry Diamond
Probability0.9770.0080.0080.0060.001
Gain-$1$4$9$14$19

และโอกาสที่จะได้เงิน หรือเสียเงิน ก็จะสามารถเขียนได้อีกว่า

Combination None Lemons Cherries Diamond/cherry Diamond
Probability0.9770.0080.0080.0060.001
Gain-$1$4$9$14$19
Gain.P(Gain)-0.9770.0320.0720.0840.019

ผลรวมของการเล่นแต่ละครั้งคือ
= -0.977 + 0.032 + 0.072 + 0.084 + 0.019 = -0.77

หรือจะพูดอีกอย่างคือ สมมุติคุณลงทุนไปร้อยเหรียญ กดไปร้อยครั้ง ซึ่งแต่ละครั้งอีกได้บ้างเสียบ้าง แต่สิ่งที่ความหวังไว้เลยคือ พอจบทั้งหมดร้อยเกมส์ คุณจะเหลือเงินอยู่ประมาณ $33 ขาดทุนไป $77
\therefore Expectation = \sum xP(\text{X} = x)

ถ้าเราแทนที่ของค่าเงินที่ลงไปกับการพนันในแต่ละตาด้วยฟังก์ชั่นใดๆ f(x) จะเขียนได้ว่า

\Bbb{E}_{x \sim p}[f(x)] = \sum_{x}P(x)f(x)


และถ้าเป็น continuous variables ก็คำนวณโดยใช้อินทริเกตแทน

\Bbb{E}_{x \sim p}[f(x)] = \int p(x)f(x)dx

Expectations เป็นสมการเชิงเส้น ซึ่งก็เขียนได้อีกว่า

\Bbb{E}_{x}[\alpha f(x) + \beta g(x)] = \alpha\Bbb{E}_{x}[f(x)] + \beta \Bbb{E}_{x}[g(x)]


Expectation บอกเราได้แค่ค่าเฉลี่ยของการได้เสียในแต่ละเกมส์ แต่ไม่ได้บอกความกระจายหรือการกระจุกตัวของโอกาสการได้เสียของเกมส์โดยรวม ค่าความระจายนี้เรียกว่า Variance. แต่ก่อนอื่น เราสามารถเขียน \Bbb{E}(x) = \mu Variance สามารถคิดได้ดังนี้


Var(\text{X}) = \Bbb{E}(\text{X} - \mu)^2


\Bbb{E}(\text{X} - \mu)^2 = \sum(x-\mu)^2P(\text{X} = x)


จากตัวอย่างเรื่อง slot machine สามารถคำนวนได้ดังนี้

Combination None Lemons Cherries Diamond/cherry Diamond
Probability0.9770.0080.0080.0060.001
Gain-$1$4$9$14$19
Gain.P(Gain) -0.9770.0320.0720.0840.019
Average -0.77
(Gain - mean)^2 (-1 + 0.77)^2(4 + 0.77)^2(9 + 0.77)^2(14 + 0.77)^2(19 + 0.77)^2

\begin{aligned}Var(\text{X}) &=\sum(x-\mu)^2P(\text{X} = x) \\\space &=0.0516833 + 0.1820232 + 0.7636232 + 1.3089174 + 0.3908529 \\\space &=2.6971\end{aligned}

นั่นก็คือ expectation สำหรับเกมส์นี้คือ -0.77 (มีโอกาสเสีย 77%) และมี variance 2.6971 (ซึ่งก็ไม่สูงมาก หมายความว่าโอกาสที่เกมส์จะสวิงไปจุดแจ็คพอตค่อนข้างมีน้อยมากๆ ไม่กระจายไปตกแจ็กพอต) ยิ่ง variance มีค่าน้อยเท่าใด โอกาสการเกิดขึ้นของเหตุการณ์ก็จะใกล้เคียงกับจุด expectation เท่านั้น. ส่วน Standard deviation ก็คือรูทของ Variance นั่นเอง

\sigma = \sqrt{Var(\text{X})}

ส่วน Covariance ก็คล้ายๆกับ Variance เพียงแต่ว่าเป็นความสัมพันธ์กันระหว่างฟังก์ชั่นความน่าจะเป็นของสองฟังก์ชั่นที่มีต่อระบบเดียวกัน อ่านเรื่องของ Variance และ Covariance เพ่ิ่มเติมได้ที่เครื่องมือจำเป็นสำหรับ PCA (สังเกตุในเรื่องของเครื่องหมาย)
Covariance สำหรับความน่าจะเป็นเขียนได้ว่า

Cov(f(x),g(y))=\Bbb{E}[(f(x) - \Bbb{E}[f(x)])(g(y) - \Bbb{E}[g(y)])]

Probability Distributions : การแจกแจงความน่าจะเป็น.
คือสมการในทางคณิตศาสตร์ที่เขียนออกมาเพื่อจะแสดงผลลัพท์โดยรวม ของความน่าจะเป็นทั้งหมดในการทดลอง(ทดสอบ สุ่ม)

ใน Machine learning มี Probability distribution หลายๆตัวที่เข้ามามีบทบาทเช่น

  • Bernoulli Distribution
  • Multinoulli Distribution
  • Gussian Distribution
  • Exponential and Laplace Distribution
  • The Dirac Distribution and Empricial Distribution
  • Mixtures of Distribution
Bernoulli Distribution
คือ Probability distribution ของการสุ่มแล้วได้ผลลัพท์เป็นอย่างใดอย่างหนึ่งจากสองอย่าง เช่น 0 กับ 1. โยนเหรียญแล้วได้หัวหรือก้อย. โยนลูกเต๋าหนึ่งลูกแล้วได้แต้มคู่หรือคี่ , สูงหรือต่ำ ฯลฯ


เราจะแทนความน่าจะเป็นที่จะสุ่มได้ 1 ให้เป็น p และความน่าจะเป็นของการได้ 0 ให้เป็น q ซึ่ง p + q ก็ต้องเท่ากับ 1 ด้วย(เพราะผลลัพท์มีได้แค่หนึ่งในสองอย่าง ดังนั้นความน่าจเป็นของผลรวมของผลลัพท์ทั้งหมดก็ต้องเท่ากับ 1) ดังนั้น

\begin{aligned}P(x=1) &=p \\P(x=0) &=q \\p + q &=1 \\p &=1 - q \\\end{aligned}

ถ้าผลลัพท์ของการสุ่มคือ k. ฟังก์ชั่น Probability mass function เขียนได้ว่า
f(k;p)=\begin{cases}p &\text{if} \space k=1, \\ 1-p &\text{if} \space k=0.\end{cases}

สิ่งที่เรากำลังจะหาคือ เราจะรวมสมาการที่แยก k=1 และ k=0 จากสองสมการให้เป็นสมการเดียวได้อย่างไร ? เพื่อครั้งต่อไป เราจะได้ไม่ต้องมาคอยเช็กว่า k จะเป็นเท่าไหร่ และจะต้องใช้สมการไหน.
พิจารณาเหรียญพิเศษเหรียญหนึ่ง ด้านหนึ่งสีเขียว อีกด้านสีน้ำเงิน ถ้าเราโยนเหรียญสามรอบ ความน่าจะเป็นเป็นดังนี้


กำหนดให้ X คือจำนวนที่ได้สีเขียว จากการโยนเหรียญทั้งสามครั้ง

x P(X=x) Power of q Power of p
0q.q.q=q^3 30
1p.q.q + q.p.q + q.q.p=3 \times (q^2.p) 21
2p.p.q + p.q.p + q.p.p=3 \times (q.p^2) 12
3p.p.p=p^3 03

จากตาราง ตัวเลขยกกำลังของ p กับ q มีความสัมพันธ์กัน ยิ่งจำนวนสีเขียวมากขึ้นเท่าไหร่ ค่าของ p ก็จะยิ่งมากขึ้นและค่าของ q ก็จะยิ่งลดลง ดูเหมือนเริ่มเป็นเพทเทิร์นอะไรบางอย่างขึ่้นมา
P(\text{X} = r) =\LARGE ? \times p^r \times q^{3-r}

ตัวเลขที่หายไปคืออะไร ?
ก่อนจะลงรายละเอียดไปมากกว่านี้ เรามาดูคำตอบกันก่อน นั่นก็คือ Combination ในทางคณิตศาสตร์ คือการบอกว่าถ้ามีจำนวนทั้งหมด n อย่างแล้วเลือกออกมา r อย่าง จะมีวิธีเลือกทั้งหมดแบบไม่สนใจลำดับ(เลือกก่อนเลือกหลังไม่สำคัญ) ดังนี้.\dbinom{n}{r}
\dbinom{n}{r} = \dfrac{n!}{r!(n-r)!}

C(n,r) = \raisebox{0.5em}{n}C_r = _nC_r = \dbinom{n}{r}

ลักษณะของ factorial (!)
\begin{aligned}-1!&=\text{Never exists}\\===&=========\\ 0!&=1 \\ 1!&=1 \times 0! \space (=1) \\ 2!&=2 \times 1! \space (=2)\\ 3!&=3 \times 2! \space (=6)\\...\\ n! &=n \times (n-1)!\end{aligned}

นั่นก็คือ ถ้าเรามีการโยนเหรียญ 3 ครั้ง(n=3 ตามแผนภาพ tree ข้างบน)
ถ้าเราเลือกมาเหรียญเดียว(r=1 วิธีที่จะออกสีเขียวเหรียญเดียว) จะมีโอกาสเท่ากับ \space = \dfrac{3!}{1!(3-1)!} = \dfrac{6}{1\times 2} = 3 วิธีดังนี้


ถ้าเราเลือกมาสองเหรียญ(r=2 วิธีที่จะออกสีเขียวสองเหรียญ) จะมีโอกาสเท่ากับ \space = \dfrac{3!}{2!(3-2)!} = \dfrac{6}{2\times 1} = 3 วิธีดังนี้


โดยสรุปแล้ว ในสมการของ Bernoulli ที่เขียนว่า
f(k;p)=\begin{cases}p &\text{if} \space k=1, \\ 1-p &\text{if} \space k=0.\end{cases}

จึงสามารถเขียนใหม่ได้ในรูปที่ว่า ในการทดลองเพียงครั้งเดียว(Bernoulli distribution ทำการทดลอง(สุ่ม)เพียงครั้งเดียว) ก็คือการทดสอบความน่าจะเป็นของ k ว่าจะได้ 1 หรือ 0. พูดอีกอย่างคือ จะได้หัวกี่เหรียญ(สีเขียว) ถ้าทำการเลือกครั้งเดียว(r = 1 หรือ r = 0 ก็ได้ ) จากเหรียญทั้งหมด 1 เหรียญ (n=1) เราก็จะได้ดังนี้
\begin{aligned}P(\text{X}=r) &=\dbinom{n}{r}\times p^r \times q^{n-r}\\\space &=\binom{1}{r}\times p^r \times q^{1-r}\\ \because \binom{1}{0}&=1\\\text{and} \space \space \binom{1}{1}&=1 \\ \therefore \binom{1}{0}&=\binom{1}{1}\\\therefore &=p^r \times q^{1-r}\\ \space &=p^r \times (1-p)^{1-r}\\ \end{aligned}

Bernoulli Distribution จึงสามารถเขียนในรูปสมการเดียวจบได้ว่า

f(k;p) = p^k(1-p)^{1-k} \space  สำหรับ \space k \in {\{0,1\}}

คราวนี้มาถึงรายละเอียดว่าทำไมอยู่ดีๆเราจึงแทนที่ ? ในสมการ P(\text{X} = r) =\LARGE ? \times p^r \times q^{3-r} ด้วย \binom{n}{r} . ก่อนอื่นเราต้องหาวิธีในการเลือกเหรียญจาก 3 เหรียญก่อน คราวนี้ลำดับสำคัญ เราก็จะได้


การเลือกเหรียญทั้งหมดจะเกิดขึ้นได้ ครั้งแรก 3 รูปแบบ ไม่ว่าจะเป็น เหรียญที่ 1 หรือ 2 หรือ 3 ก็ได้ไม่สำคัญ พอเลือก ครั้งแรกเสร็จ ครั้งที่สอง ก็จะเหลือเหรียญอยู่ในกระเป๋า 2 เหรียญ ดังนั้น ครั้งที่สอง ก็อาจเกิดขึ้นได้ 2 แบบ และครั้งสุดท้าย ก็จะเหลือเหรียญอยู่เพียงเหรียญเดียว ก็เท่ากับว่าหลังจากรอบที่สองแล้ว รอบสุดท้ายก็มีได้เพียงแค่รูปแบบเดียว คือการจับเหรียญสุดท้าย ดังนั้นความน่าจะเป็นทั้งหมดก็จะได้ 3 \times 2 \times 1 = 6   รูปแบบ.

เมื่อพิจารณาดูแพทเทิร์นแล้ว จะเห็นว่า การเลือกครั้งแรก โอกาสความน่าจะเป็นเท่ากับจำนวนเหรียญทั้งหมด และครั้งถัดไป ก็จะเท่ากับจำนวณเหรียญที่เหลือ ดังนั้น จำนวนการเลือกเหรียญ r ครั้ง ก็ต้องเท่ากับ รูแปบบของการเกิดโอกาสการเลือกทั้งหมด \space = n! หารด้วยรูปแบบของการเกิดเหรียญที่เป็นไปได้ทั้งหมดหลังจากการเลือกไปแล้ว r ครั้ง ก็จะได้ว่า .
\dfrac{n!}{(n-r)!}

เช่นการเลือก 1 ครั้งก็จะเท่ากับ \frac{3!}{(3-1)!} = \frac{3 \times 2 \times 1}{2 \times 1} = 3 ความน่าจะเป็น. แต่ที่น่าสนใจในที่นี้คือการเลือกครั้งที่สอง มันจะมีเหรียญที่ซ้ำกันอยู่ เช่นครั้งแรกได้เหรียญที่ 1 ครั้งที่สองได้เหรียญที่ 2 สรุปเหรียญที่ได้มาอยู่ในมือคือ (1,2) แต่การที่ได้เหรียญที่หนึ่งและสองมาอยู่ในมือ ก็มีอีกวิธีหนึ่งคือ ครั้งแรกได้เหรียญที่ 2 และครั้งต่อไปจับได้เหรียญที่ 1 เหตุการณ์นี้ก็ได้เหรียญมาอยู่ในมือสองเหรียญคือ (1,2) เหมือนกันโดยไม่สนใจว่าจะได้อันไหนก่อนอันไหนหลัง ว่าแต่รูปแบบของการได้สองเหรียญจะมีทั้งหมด \frac{n!}{(n-r)!} = \frac{3!}{(3-2)!} =\frac{3 \times 2 \times 1}{1} = 6 รูปแบบคือ [(1,2),(1,3),(2,1),(2,3),(3,1),(3,2)] แต่ถ้าเราไม่สนใจลำดับ ก็จะเหลือแค่ [(1,2),(1,3),\cancel{(2,1)},(2,3),\cancel{(3,1)},\cancel{(3,2)}] ดังภาพ


คำถามถัดมาคือ แล้วเราจะไปกรอกพวกที่เหมือนๆกันแต่สลับตำแหน่งออกจากลิสทั้งหมดได้ยังไง เช่นในตัวอย่าง จาก 6 ให้เหลือแค่ 3 ที่ไม่ซ้ำกัน? ลองนึกถึงความหมายของ r! ดูนะครับ r! ก็หมายความว่า รูปแบบทั้งหมดที่สามารถแสดงได้ถ้ามีจำนวนให้เลือกอยู่ r ตัว. ดังนั้น ถ้าเรามี n ตัวให้เลือก แล้วเราเลือก r ตัว ส่วนที่เหลือ มันก็จะเป็นจำนวนเท่าของ r! (เป็นกี่เท่าของ r!) ดังนั้นแล้ว ถ้าเราต้องการลิสที่ไม่เหมือนกัน ก็แค่เอา r! ไปหาร ก็จะได้
\dfrac{n!}{(n-r)!} \times \dfrac{1}{r!} = \dfrac{n!}{(n-r)!r!}

อธิบายได้ดังภาพ


สมมุติเรามีเหรียญทั้งหมด 4 เหรียญ ความน่าจะเป็นทั้งหมดคือ 4! = 24 ถ้าเลือก 3 รอบ ก็จะได้ \dfrac{4!}{(4-3)!} = 24.   เช่นกัน. แต่อย่าลืมว่า การที่เราเลือกมา 3 รอบนั่นก็เหมือนการเลือกเอามาแค่ 3 เหรียญ ซึ่งรูปแบบบทั้งหมดก็คือ 3! = 6 แล้วเราก็เอาจำนวนนี้ไปหารกับรูปแบบทั้งหมดของ 4 เลือก 3 (24 รูปแบบ) ก็จะได้ผลลัพท์สุดท้ายคือ \dfrac{24}{6}= 4. หรือก็คือ combination ของกลุ่มสีเขียว สีฟ้า สีแสด และสีขาว ดังนี้ [(1,2,3),(1,2,4),(1,3,4),(2,3,4)]

จากหัวข้อแรกๆ สูตรของ Expectation = \sum xP(\text{X} = x) . Expection ของ Bernoulli จึงเขียนได้ว่า
\begin{aligned}\sum xP(\text{X}=x) &=0q + 1p \\ \space &=p \\\Bbb{E}_x[x] &=p\end{aligned}
ส่วน Variance ก็เขียนได้ว่า

\begin{aligned}Var(\text{X}) &=\sum(x-\mu)^2P(\text{X}=x)\\\space &=[(0 - p)^2.q]+[(1-p)^2.p]\\\space &=[p^2q]+[q^2p]\\\space &=pq(p+q)\\\space &=pq \\\therefore &=p(1-p)\end{aligned}

สำหรับ Distribution ที่เหลือ จะยกยอดไปไว้ที่ Part 3 เพื่อไม่ให้โพสนี้ยาวเกินไปและง่ายต่อการค้นหา.

References:

Comments

Popular posts from this blog

Principal Components Analysis

Probability (Part 1)

ประวัติ Deep Learning