Probability (Part 2)

Expectation, Variance, and Covariance.

Slot Machine คือเครื่องเล่นการพนันชนิดหนึ่ง กติกาคือกดปุ่มเล่น แล้วนั่งลุ้นดูที่หน้าจอว่าได้รูปภาพอะไรบ้าง ถ้าได้ครบตามรูปแบบที่ตู้บอก ก็จะได้รางวัลตามนั้น เช่นตู้แรกจากทางซ้ายมือ ถ้าได้เลข 7 สามตัว ก็จะได้ 60 เท่า ของเงินที่ลงไปในตานั้นๆ เช่นถ้าเล่นเกมส์ละ 10$ แล้วกดได้ 777 ก็จะได้ไปเลย 600$ หรือประมาณ 18,000 กว่าบาทกลมๆ น่าสนใจไหม? แต่ก่อนอื่น มีคำถามน่าคิดอยู่สองข้อคือ

แต่ละตาที่ลงพนันไป โอกาสที่จะได้เงินหรือเสียเงินเป็นเท่าไหร่โดยเฉลี่ย ? (Expectation)
โอกาสที่จะแจ็คพอตแล้วได้เงินหลายร้อยเท่านั้น มีความเป็นไปได้มากน้อยขนาดไหน ? (Variance)

โพสนี้เราจะไปค้นหาความจริงเบื้องหลังของเรื่องพวกนี้กัน. แต่การที่จะเอากฏพวกนี้มาคำนวนหาค่าจริงๆ เราต้องอาศัยข้อมูลที่มากกว่าที่เห็นโชว์บนหน้าจอของแต่ละตู้ ซึ่งคนผลิตไม่ได้บอกเอาไว้ ซึ่งเขาก็ไม่อยากให้เรารู้อยู่แล้ว อย่างไรก็ตาม ในที่นี้เราจะใช้ค่าสมมุติค่าความน่าจะเป็นที่คิดว่าไม่น่าห่างจากความเป็นจริงไปมากนัก กฏที่เราตั้งขึ้นมานี้จะได้ว่า แต่ละเกมส์มีการลงเงินไว้ที่ 1$, ถ้าได้เพชร 3 อันพร้อมกัน ก็จะได้ $20. ถ้าได้เพชร 2 อัน แล้วได้เชอร์รี่ 1 อัน (ลำดับไม่สำคัญ) ก็จะได้ $15 ดังภาพ

= $20

(สลับตำแหน่งกันได้ทุกตัว) = $15

= $10

= $5

ซึ่งแต่ละความน่าเป็นของแต่ละรูปสรุปได้ในตารางข้างล่าง

รูปภาพ
ความน่าจะเป็น	0.1	0.2	0.2	0.5

พอกดเล่นแต่ละเกมปุ๊ปก็รูปภาพก็จะหมุนประมาณนี้

แต่ละช่องไม่มีความเกี่ยวเนื่องกัน หมายถึงถ้าช่องแรกได้เลมอน ช่องที่สองก็มีโอกาสเกิดเลมอนที่ 20% เหมือนกับช่องแรก เราเรียกความสัมพันธ์แบบนี้ว่า Conditional Indenpendent
ความน่าจะเป็นของการเกิดเหตุการณ์

ให้ d = diamond, เพชร x 3 คิดได้ดังนี้

\begin{aligned}P(d,d,d) &=P(d)\times P(d)\times P(d) \\ &=0.1\times 0.1\times 0.1 \\ \space &= 0.001\end{aligned}

ให้ c = cherry, เพชร 2 อัน เชอร์รี่ 1 อันแบบไม่สนใจตำแหน่ง สามารถเขียนได้ดังนี้

\begin{aligned}\space &=P(d,d,c)\times P(d,c,d)\times P(c,d,d) \\\space &=(0.1 \times 0.1 \times 0.2) + (0.1 \times 0.2 \times 0.1) + (0.2 \times 0.1 \times 0.1) \\\space &=0.002 + 0.002+ 0.002 \\\space &=0.006\end{aligned}

และความน่าจะเป็นที่ไม่ได้อะไรเลย

\begin{aligned} P(losing)&=1 - P(d,d,d) - P(d,d,c (any\space order)) - P(c,c,c) - P(l,l,l) \\ \space &= 1 - 0.001 - 0.006 - 0.008 - 0.008 \\ \space &= 0.977 \end{aligned}

สรุปออกมาเป็นตารางก็จะได้

Combination	None	Lemons	Cherries	Diamond/cherry	Diamond
Probability	0.977	0.008	0.008	0.006	0.001

ถึงตรงนี้บางท่านอาจเห็นแนวทางแล้ว่าเรากำลังจะคิดหาอะไรต่อ จากตารางทำให้เราเริ่มเห็นภาพชัดเจนขึ้นมานิดหนึ่งว่าโอกาสได้เสียจะออกมาในแนวไหน อย่างแรกเลยคือ โอกาสที่จะเสียเงินมีสูงมากๆ มีตั้ง 97.7% 🙊🙉🙈

คราวนี้เราจะลองมาคิดจากเงิน 1$ ในแต่ละเกมส์ทีเล่นไป

Combination	None	Lemons	Cherries	Diamond/cherry	Diamond
Probability	0.977	0.008	0.008	0.006	0.001
Gain	-$1	$4	$9	$14	$19

และโอกาสที่จะได้เงิน หรือเสียเงิน ก็จะสามารถเขียนได้อีกว่า

Combination	None	Lemons	Cherries	Diamond/cherry	Diamond
Probability	0.977	0.008	0.008	0.006	0.001
Gain	-$1	$4	$9	$14	$19
Gain.P(Gain)	-0.977	0.032	0.072	0.084	0.019

ผลรวมของการเล่นแต่ละครั้งคือ

= -0.977 + 0.032 + 0.072 + 0.084 + 0.019 = -0.77

หรือจะพูดอีกอย่างคือ สมมุติคุณลงทุนไปร้อยเหรียญ กดไปร้อยครั้ง ซึ่งแต่ละครั้งอีกได้บ้างเสียบ้าง แต่สิ่งที่ความหวังไว้เลยคือ พอจบทั้งหมดร้อยเกมส์ คุณจะเหลือเงินอยู่ประมาณ $33 ขาดทุนไป $77

\therefore Expectation = \sum xP(\text{X} = x)

ถ้าเราแทนที่ของค่าเงินที่ลงไปกับการพนันในแต่ละตาด้วยฟังก์ชั่นใดๆ f(x) จะเขียนได้ว่า

\Bbb{E}_{x \sim p}[f(x)] = \sum_{x}P(x)f(x)

และถ้าเป็น continuous variables ก็คำนวณโดยใช้อินทริเกตแทน

\Bbb{E}_{x \sim p}[f(x)] = \int p(x)f(x)dx

Expectations เป็นสมการเชิงเส้น ซึ่งก็เขียนได้อีกว่า

\Bbb{E}_{x}[\alpha f(x) + \beta g(x)] = \alpha\Bbb{E}_{x}[f(x)] + \beta \Bbb{E}_{x}[g(x)]

Expectation บอกเราได้แค่ค่าเฉลี่ยของการได้เสียในแต่ละเกมส์ แต่ไม่ได้บอกความกระจายหรือการกระจุกตัวของโอกาสการได้เสียของเกมส์โดยรวม ค่าความระจายนี้เรียกว่า Variance. แต่ก่อนอื่น เราสามารถเขียน \Bbb{E}(x) = \mu Variance สามารถคิดได้ดังนี้

Var(\text{X}) = \Bbb{E}(\text{X} - \mu)^2

\Bbb{E}(\text{X} - \mu)^2 = \sum(x-\mu)^2P(\text{X} = x)

จากตัวอย่างเรื่อง slot machine สามารถคำนวนได้ดังนี้

Combination	None	Lemons	Cherries	Diamond/cherry	Diamond
Probability	0.977	0.008	0.008	0.006	0.001
Gain	-$1	$4	$9	$14	$19
Gain.P(Gain)	-0.977	0.032	0.072	0.084	0.019
Average	-0.77
(Gain - mean)^2	(-1 + 0.77)^2	(4 + 0.77)^2	(9 + 0.77)^2	(14 + 0.77)^2	(19 + 0.77)^2

\begin{aligned}Var(\text{X}) &=\sum(x-\mu)^2P(\text{X} = x) \\\space &=0.0516833 + 0.1820232 + 0.7636232 + 1.3089174 + 0.3908529 \\\space &=2.6971\end{aligned}

นั่นก็คือ expectation สำหรับเกมส์นี้คือ -0.77 (มีโอกาสเสีย 77%) และมี variance 2.6971 (ซึ่งก็ไม่สูงมาก หมายความว่าโอกาสที่เกมส์จะสวิงไปจุดแจ็คพอตค่อนข้างมีน้อยมากๆ ไม่กระจายไปตกแจ็กพอต) ยิ่ง variance มีค่าน้อยเท่าใด โอกาสการเกิดขึ้นของเหตุการณ์ก็จะใกล้เคียงกับจุด expectation เท่านั้น. ส่วน Standard deviation ก็คือรูทของ Variance นั่นเอง

\sigma = \sqrt{Var(\text{X})}

ส่วน Covariance ก็คล้ายๆกับ Variance เพียงแต่ว่าเป็นความสัมพันธ์กันระหว่างฟังก์ชั่นความน่าจะเป็นของสองฟังก์ชั่นที่มีต่อระบบเดียวกัน อ่านเรื่องของ Variance และ Covariance เพ่ิ่มเติมได้ที่เครื่องมือจำเป็นสำหรับ PCA (สังเกตุในเรื่องของเครื่องหมาย)
Covariance สำหรับความน่าจะเป็นเขียนได้ว่า

Cov(f(x),g(y))=\Bbb{E}[(f(x) - \Bbb{E}[f(x)])(g(y) - \Bbb{E}[g(y)])]

Probability Distributions : การแจกแจงความน่าจะเป็น.
คือสมการในทางคณิตศาสตร์ที่เขียนออกมาเพื่อจะแสดงผลลัพท์โดยรวม ของความน่าจะเป็นทั้งหมดในการทดลอง(ทดสอบ สุ่ม)

ใน Machine learning มี Probability distribution หลายๆตัวที่เข้ามามีบทบาทเช่น

Bernoulli Distribution
Multinoulli Distribution
Gussian Distribution
Exponential and Laplace Distribution
The Dirac Distribution and Empricial Distribution
Mixtures of Distribution

Bernoulli Distribution

คือ Probability distribution ของการสุ่มแล้วได้ผลลัพท์เป็นอย่างใดอย่างหนึ่งจากสองอย่าง เช่น 0 กับ 1. โยนเหรียญแล้วได้หัวหรือก้อย. โยนลูกเต๋าหนึ่งลูกแล้วได้แต้มคู่หรือคี่ , สูงหรือต่ำ ฯลฯ

เราจะแทนความน่าจะเป็นที่จะสุ่มได้ 1 ให้เป็น p และความน่าจะเป็นของการได้ 0 ให้เป็น q ซึ่ง p + q ก็ต้องเท่ากับ 1 ด้วย(เพราะผลลัพท์มีได้แค่หนึ่งในสองอย่าง ดังนั้นความน่าจเป็นของผลรวมของผลลัพท์ทั้งหมดก็ต้องเท่ากับ 1) ดังนั้น

\begin{aligned}P(x=1) &=p \\P(x=0) &=q \\p + q &=1 \\p &=1 - q \\\end{aligned}

ถ้าผลลัพท์ของการสุ่มคือ k. ฟังก์ชั่น Probability mass function เขียนได้ว่า

f(k;p)=\begin{cases}p &\text{if} \space k=1, \\ 1-p &\text{if} \space k=0.\end{cases}

สิ่งที่เรากำลังจะหาคือ เราจะรวมสมาการที่แยก k=1 และ k=0 จากสองสมการให้เป็นสมการเดียวได้อย่างไร ? เพื่อครั้งต่อไป เราจะได้ไม่ต้องมาคอยเช็กว่า k จะเป็นเท่าไหร่ และจะต้องใช้สมการไหน.
พิจารณาเหรียญพิเศษเหรียญหนึ่ง ด้านหนึ่งสีเขียว อีกด้านสีน้ำเงิน ถ้าเราโยนเหรียญสามรอบ ความน่าจะเป็นเป็นดังนี้

กำหนดให้ X คือจำนวนที่ได้สีเขียว จากการโยนเหรียญทั้งสามครั้ง

x	P(X=x)	Power of q	Power of p
0	q.q.q=q^3	3	0
1	p.q.q + q.p.q + q.q.p=3 \times (q^2.p)	2	1
2	p.p.q + p.q.p + q.p.p=3 \times (q.p^2)	1	2
3	p.p.p=p^3	0	3

จากตาราง ตัวเลขยกกำลังของ p กับ q มีความสัมพันธ์กัน ยิ่งจำนวนสีเขียวมากขึ้นเท่าไหร่ ค่าของ p ก็จะยิ่งมากขึ้นและค่าของ q ก็จะยิ่งลดลง ดูเหมือนเริ่มเป็นเพทเทิร์นอะไรบางอย่างขึ่้นมา

P(\text{X} = r) =\LARGE ? \times p^r \times q^{3-r}

ตัวเลขที่หายไปคืออะไร ?
ก่อนจะลงรายละเอียดไปมากกว่านี้ เรามาดูคำตอบกันก่อน นั่นก็คือ Combination ในทางคณิตศาสตร์ คือการบอกว่าถ้ามีจำนวนทั้งหมด n อย่างแล้วเลือกออกมา r อย่าง จะมีวิธีเลือกทั้งหมดแบบไม่สนใจลำดับ(เลือกก่อนเลือกหลังไม่สำคัญ) ดังนี้.\dbinom{n}{r}

\dbinom{n}{r} = \dfrac{n!}{r!(n-r)!}

C(n,r) = \raisebox{0.5em}{n}C_r = _nC_r = \dbinom{n}{r}

ลักษณะของ factorial (!)

\begin{aligned}-1!&=\text{Never exists}\\===&=========\\ 0!&=1 \\ 1!&=1 \times 0! \space (=1) \\ 2!&=2 \times 1! \space (=2)\\ 3!&=3 \times 2! \space (=6)\\...\\ n! &=n \times (n-1)!\end{aligned}

นั่นก็คือ ถ้าเรามีการโยนเหรียญ 3 ครั้ง(n=3 ตามแผนภาพ tree ข้างบน)

ถ้าเราเลือกมาเหรียญเดียว(r=1 วิธีที่จะออกสีเขียวเหรียญเดียว) จะมีโอกาสเท่ากับ \space = \dfrac{3!}{1!(3-1)!} = \dfrac{6}{1\times 2} = 3 วิธีดังนี้

ถ้าเราเลือกมาสองเหรียญ(r=2 วิธีที่จะออกสีเขียวสองเหรียญ) จะมีโอกาสเท่ากับ \space = \dfrac{3!}{2!(3-2)!} = \dfrac{6}{2\times 1} = 3 วิธีดังนี้

โดยสรุปแล้ว ในสมการของ Bernoulli ที่เขียนว่า

f(k;p)=\begin{cases}p &\text{if} \space k=1, \\ 1-p &\text{if} \space k=0.\end{cases}

จึงสามารถเขียนใหม่ได้ในรูปที่ว่า ในการทดลองเพียงครั้งเดียว(Bernoulli distribution ทำการทดลอง(สุ่ม)เพียงครั้งเดียว) ก็คือการทดสอบความน่าจะเป็นของ k ว่าจะได้ 1 หรือ 0. พูดอีกอย่างคือ จะได้หัวกี่เหรียญ(สีเขียว) ถ้าทำการเลือกครั้งเดียว(r = 1 หรือ r = 0 ก็ได้ ) จากเหรียญทั้งหมด 1 เหรียญ (n=1) เราก็จะได้ดังนี้

\begin{aligned}P(\text{X}=r) &=\dbinom{n}{r}\times p^r \times q^{n-r}\\\space &=\binom{1}{r}\times p^r \times q^{1-r}\\ \because \binom{1}{0}&=1\\\text{and} \space \space \binom{1}{1}&=1 \\ \therefore \binom{1}{0}&=\binom{1}{1}\\\therefore &=p^r \times q^{1-r}\\ \space &=p^r \times (1-p)^{1-r}\\ \end{aligned}

Bernoulli Distribution จึงสามารถเขียนในรูปสมการเดียวจบได้ว่า

f(k;p) = p^k(1-p)^{1-k} \space สำหรับ \space k \in {\{0,1\}}

คราวนี้มาถึงรายละเอียดว่าทำไมอยู่ดีๆเราจึงแทนที่ ? ในสมการ P(\text{X} = r) =\LARGE ? \times p^r \times q^{3-r} ด้วย \binom{n}{r} . ก่อนอื่นเราต้องหาวิธีในการเลือกเหรียญจาก 3 เหรียญก่อน คราวนี้ลำดับสำคัญ เราก็จะได้

การเลือกเหรียญทั้งหมดจะเกิดขึ้นได้ ครั้งแรก 3 รูปแบบ ไม่ว่าจะเป็น เหรียญที่ 1 หรือ 2 หรือ 3 ก็ได้ไม่สำคัญ พอเลือก ครั้งแรกเสร็จ ครั้งที่สอง ก็จะเหลือเหรียญอยู่ในกระเป๋า 2 เหรียญ ดังนั้น ครั้งที่สอง ก็อาจเกิดขึ้นได้ 2 แบบ และครั้งสุดท้าย ก็จะเหลือเหรียญอยู่เพียงเหรียญเดียว ก็เท่ากับว่าหลังจากรอบที่สองแล้ว รอบสุดท้ายก็มีได้เพียงแค่รูปแบบเดียว คือการจับเหรียญสุดท้าย ดังนั้นความน่าจะเป็นทั้งหมดก็จะได้ 3 \times 2 \times 1 = 6 รูปแบบ.

เมื่อพิจารณาดูแพทเทิร์นแล้ว จะเห็นว่า การเลือกครั้งแรก โอกาสความน่าจะเป็นเท่ากับจำนวนเหรียญทั้งหมด และครั้งถัดไป ก็จะเท่ากับจำนวณเหรียญที่เหลือ ดังนั้น จำนวนการเลือกเหรียญ r ครั้ง ก็ต้องเท่ากับ รูแปบบของการเกิดโอกาสการเลือกทั้งหมด \space = n! หารด้วยรูปแบบของการเกิดเหรียญที่เป็นไปได้ทั้งหมดหลังจากการเลือกไปแล้ว r ครั้ง ก็จะได้ว่า .

\dfrac{n!}{(n-r)!}

เช่นการเลือก 1 ครั้งก็จะเท่ากับ \frac{3!}{(3-1)!} = \frac{3 \times 2 \times 1}{2 \times 1} = 3 ความน่าจะเป็น. แต่ที่น่าสนใจในที่นี้คือการเลือกครั้งที่สอง มันจะมีเหรียญที่ซ้ำกันอยู่ เช่นครั้งแรกได้เหรียญที่ 1 ครั้งที่สองได้เหรียญที่ 2 สรุปเหรียญที่ได้มาอยู่ในมือคือ (1,2) แต่การที่ได้เหรียญที่หนึ่งและสองมาอยู่ในมือ ก็มีอีกวิธีหนึ่งคือ ครั้งแรกได้เหรียญที่ 2 และครั้งต่อไปจับได้เหรียญที่ 1 เหตุการณ์นี้ก็ได้เหรียญมาอยู่ในมือสองเหรียญคือ (1,2) เหมือนกันโดยไม่สนใจว่าจะได้อันไหนก่อนอันไหนหลัง ว่าแต่รูปแบบของการได้สองเหรียญจะมีทั้งหมด \frac{n!}{(n-r)!} = \frac{3!}{(3-2)!} =\frac{3 \times 2 \times 1}{1} = 6 รูปแบบคือ [(1,2),(1,3),(2,1),(2,3),(3,1),(3,2)] แต่ถ้าเราไม่สนใจลำดับ ก็จะเหลือแค่ [(1,2),(1,3),\cancel{(2,1)},(2,3),\cancel{(3,1)},\cancel{(3,2)}] ดังภาพ

คำถามถัดมาคือ แล้วเราจะไปกรอกพวกที่เหมือนๆกันแต่สลับตำแหน่งออกจากลิสทั้งหมดได้ยังไง เช่นในตัวอย่าง จาก 6 ให้เหลือแค่ 3 ที่ไม่ซ้ำกัน? ลองนึกถึงความหมายของ r! ดูนะครับ r! ก็หมายความว่า รูปแบบทั้งหมดที่สามารถแสดงได้ถ้ามีจำนวนให้เลือกอยู่ r ตัว. ดังนั้น ถ้าเรามี n ตัวให้เลือก แล้วเราเลือก r ตัว ส่วนที่เหลือ มันก็จะเป็นจำนวนเท่าของ r! (เป็นกี่เท่าของ r!) ดังนั้นแล้ว ถ้าเราต้องการลิสที่ไม่เหมือนกัน ก็แค่เอา r! ไปหาร ก็จะได้

\dfrac{n!}{(n-r)!} \times \dfrac{1}{r!} = \dfrac{n!}{(n-r)!r!}

อธิบายได้ดังภาพ

สมมุติเรามีเหรียญทั้งหมด 4 เหรียญ ความน่าจะเป็นทั้งหมดคือ 4! = 24 ถ้าเลือก 3 รอบ ก็จะได้ \dfrac{4!}{(4-3)!} = 24. เช่นกัน. แต่อย่าลืมว่า การที่เราเลือกมา 3 รอบนั่นก็เหมือนการเลือกเอามาแค่ 3 เหรียญ ซึ่งรูปแบบบทั้งหมดก็คือ 3! = 6 แล้วเราก็เอาจำนวนนี้ไปหารกับรูปแบบทั้งหมดของ 4 เลือก 3 (24 รูปแบบ) ก็จะได้ผลลัพท์สุดท้ายคือ \dfrac{24}{6}= 4. หรือก็คือ combination ของกลุ่มสีเขียว สีฟ้า สีแสด และสีขาว ดังนี้ [(1,2,3),(1,2,4),(1,3,4),(2,3,4)]

จากหัวข้อแรกๆ สูตรของ Expectation = \sum xP(\text{X} = x) . Expection ของ Bernoulli จึงเขียนได้ว่า

\begin{aligned}\sum xP(\text{X}=x) &=0q + 1p \\ \space &=p \\\Bbb{E}_x[x] &=p\end{aligned}

ส่วน Variance ก็เขียนได้ว่า

\begin{aligned}Var(\text{X}) &=\sum(x-\mu)^2P(\text{X}=x)\\\space &=[(0 - p)^2.q]+[(1-p)^2.p]\\\space &=[p^2q]+[q^2p]\\\space &=pq(p+q)\\\space &=pq \\\therefore &=p(1-p)\end{aligned}

สำหรับ Distribution ที่เหลือ จะยกยอดไปไว้ที่ Part 3 เพื่อไม่ให้โพสนี้ยาวเกินไปและง่ายต่อการค้นหา.

References:

https://en.wikipedia.org/wiki/Binomial_distribution

https://en.wikipedia.org/wiki/Bernoulli_distribution

https://www.mathsisfun.com/combinatorics/combinations-permutations.html

https://en.wikipedia.org/wiki/Factorial

https://www.mathsisfun.com/data/binomial-distribution.html

http://www.deeplearningbook.org/contents/prob.html

in acknowledgement of slot machine icons:

Icons made by Freepik from www.flaticon.com is licensed by CC 3.0 BY

Search This Blog

Thought log

Probability (Part 2)

Comments

Post a Comment

Popular posts from this blog

Probability (Part 1)

ประวัติ Deep Learning

Principal Components Analysis