Expectation, Variance, and Covariance.
Slot Machine คือเครื่องเล่นการพนันชนิดหนึ่ง กติกาคือกดปุ่มเล่น แล้วนั่งลุ้นดูที่หน้าจอว่าได้รูปภาพอะไรบ้าง ถ้าได้ครบตามรูปแบบที่ตู้บอก ก็จะได้รางวัลตามนั้น เช่นตู้แรกจากทางซ้ายมือ ถ้าได้เลข 7 สามตัว ก็จะได้ 60 เท่า ของเงินที่ลงไปในตานั้นๆ เช่นถ้าเล่นเกมส์ละ 10$ แล้วกดได้ 777 ก็จะได้ไปเลย 600$ หรือประมาณ 18,000 กว่าบาทกลมๆ น่าสนใจไหม? แต่ก่อนอื่น มีคำถามน่าคิดอยู่สองข้อคือ
- แต่ละตาที่ลงพนันไป โอกาสที่จะได้เงินหรือเสียเงินเป็นเท่าไหร่โดยเฉลี่ย ? (Expectation)
- โอกาสที่จะแจ็คพอตแล้วได้เงินหลายร้อยเท่านั้น มีความเป็นไปได้มากน้อยขนาดไหน ? (Variance)
โพสนี้เราจะไปค้นหาความจริงเบื้องหลังของเรื่องพวกนี้กัน. แต่การที่จะเอากฏพวกนี้มาคำนวนหาค่าจริงๆ เราต้องอาศัยข้อมูลที่มากกว่าที่เห็นโชว์บนหน้าจอของแต่ละตู้ ซึ่งคนผลิตไม่ได้บอกเอาไว้ ซึ่งเขาก็ไม่อยากให้เรารู้อยู่แล้ว อย่างไรก็ตาม ในที่นี้เราจะใช้ค่าสมมุติค่าความน่าจะเป็นที่คิดว่าไม่น่าห่างจากความเป็นจริงไปมากนัก กฏที่เราตั้งขึ้นมานี้จะได้ว่า แต่ละเกมส์มีการลงเงินไว้ที่ 1$, ถ้าได้เพชร 3 อันพร้อมกัน ก็จะได้ $20. ถ้าได้เพชร 2 อัน แล้วได้เชอร์รี่ 1 อัน (ลำดับไม่สำคัญ) ก็จะได้ $15 ดังภาพ
ซึ่งแต่ละความน่าเป็นของแต่ละรูปสรุปได้ในตารางข้างล่าง
รูปภาพ |  |  |  |  |
ความน่าจะเป็น | 0.1 | 0.2 | 0.2 | 0.5 |
พอกดเล่นแต่ละเกมปุ๊ปก็รูปภาพก็จะหมุนประมาณนี้
แต่ละช่องไม่มีความเกี่ยวเนื่องกัน หมายถึงถ้าช่องแรกได้เลมอน ช่องที่สองก็มีโอกาสเกิดเลมอนที่ 20% เหมือนกับช่องแรก เราเรียกความสัมพันธ์แบบนี้ว่า
Conditional Indenpendent
ความน่าจะเป็นของการเกิดเหตุการณ์
ให้ d = diamond, เพชร x 3 คิดได้ดังนี้
P(d,d,d) =P(d)×P(d)×P(d)=0.1×0.1×0.1=0.001
ให้ c = cherry, เพชร 2 อัน เชอร์รี่ 1 อันแบบไม่สนใจตำแหน่ง สามารถเขียนได้ดังนี้
=P(d,d,c)×P(d,c,d)×P(c,d,d)=(0.1×0.1×0.2)+(0.1×0.2×0.1)+(0.2×0.1×0.1)=0.002+0.002+0.002=0.006
และความน่าจะเป็นที่ไม่ได้อะไรเลย
P(losing) =1−P(d,d,d)−P(d,d,c(any order))−P(c,c,c)−P(l,l,l)=1−0.001−0.006−0.008−0.008=0.977
สรุปออกมาเป็นตารางก็จะได้
Combination | None | Lemons | Cherries | Diamond/cherry | Diamond |
Probability | 0.977 | 0.008 | 0.008 | 0.006 | 0.001 |
ถึงตรงนี้บางท่านอาจเห็นแนวทางแล้ว่าเรากำลังจะคิดหาอะไรต่อ จากตารางทำให้เราเริ่มเห็นภาพชัดเจนขึ้นมานิดหนึ่งว่าโอกาสได้เสียจะออกมาในแนวไหน อย่างแรกเลยคือ โอกาสที่จะเสียเงินมีสูงมากๆ มีตั้ง 97.7% 🙊🙉🙈
คราวนี้เราจะลองมาคิดจากเงิน 1$ ในแต่ละเกมส์ทีเล่นไป
Combination | None | Lemons | Cherries | Diamond/cherry | Diamond |
Probability | 0.977 | 0.008 | 0.008 | 0.006 | 0.001 |
Gain | -$1 | $4 | $9 | $14 | $19 |
และโอกาสที่จะได้เงิน หรือเสียเงิน ก็จะสามารถเขียนได้อีกว่า
Combination | None | Lemons | Cherries | Diamond/cherry | Diamond |
Probability | 0.977 | 0.008 | 0.008 | 0.006 | 0.001 |
Gain | -$1 | $4 | $9 | $14 | $19 |
Gain.P(Gain) | -0.977 | 0.032 | 0.072 | 0.084 | 0.019 |
ผลรวมของการเล่นแต่ละครั้งคือ
=−0.977+0.032+0.072+0.084+0.019=−0.77
หรือจะพูดอีกอย่างคือ สมมุติคุณลงทุนไปร้อยเหรียญ กดไปร้อยครั้ง ซึ่งแต่ละครั้งอีกได้บ้างเสียบ้าง แต่สิ่งที่ความหวังไว้เลยคือ พอจบทั้งหมดร้อยเกมส์ คุณจะเหลือเงินอยู่ประมาณ $33 ขาดทุนไป $77
∴ Expectation
=∑xP(X=x)
ถ้าเราแทนที่ของค่าเงินที่ลงไปกับการพนันในแต่ละตาด้วยฟังก์ชั่นใดๆ
f(x) จะเขียนได้ว่า
Ex∼p[f(x)]=∑xP(x)f(x)
และถ้าเป็น continuous variables ก็คำนวณโดยใช้อินทริเกตแทน
Ex∼p[f(x)]=∫p(x)f(x)dx
Expectations เป็นสมการเชิงเส้น ซึ่งก็เขียนได้อีกว่า
Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
Expectation บอกเราได้แค่ค่าเฉลี่ยของการได้เสียในแต่ละเกมส์ แต่ไม่ได้บอกความกระจายหรือการกระจุกตัวของโอกาสการได้เสียของเกมส์โดยรวม ค่าความระจายนี้เรียกว่า Variance. แต่ก่อนอื่น เราสามารถเขียน
E(x)=μ Variance สามารถคิดได้ดังนี้
Var(X)=E(X−μ)2
E(X−μ)2=∑(x−μ)2P(X=x)
จากตัวอย่างเรื่อง slot machine สามารถคำนวนได้ดังนี้
Combination | None | Lemons | Cherries | Diamond/cherry | Diamond |
Probability | 0.977 | 0.008 | 0.008 | 0.006 | 0.001 |
Gain | -$1 | $4 | $9 | $14 | $19 |
Gain.P(Gain) | -0.977 | 0.032 | 0.072 | 0.084 | 0.019 |
Average | -0.77 |
(Gain−mean)2 | (−1+0.77)2 | (4+0.77)2 | (9+0.77)2 | (14+0.77)2 | (19+0.77)2 |
Var(X) =∑(x−μ)2P(X=x)=0.0516833+0.1820232+0.7636232+1.3089174+0.3908529=2.6971
นั่นก็คือ expectation สำหรับเกมส์นี้คือ -0.77 (มีโอกาสเสีย 77%) และมี variance 2.6971 (ซึ่งก็ไม่สูงมาก หมายความว่าโอกาสที่เกมส์จะสวิงไปจุดแจ็คพอตค่อนข้างมีน้อยมากๆ ไม่กระจายไปตกแจ็กพอต) ยิ่ง variance มีค่าน้อยเท่าใด โอกาสการเกิดขึ้นของเหตุการณ์ก็จะใกล้เคียงกับจุด expectation เท่านั้น. ส่วน Standard deviation ก็คือรูทของ Variance นั่นเอง
σ=Var(X)
ส่วน Covariance ก็คล้ายๆกับ Variance เพียงแต่ว่าเป็นความสัมพันธ์กันระหว่างฟังก์ชั่นความน่าจะเป็นของสองฟังก์ชั่นที่มีต่อระบบเดียวกัน อ่านเรื่องของ Variance และ Covariance เพ่ิ่มเติมได้ที่
เครื่องมือจำเป็นสำหรับ PCA (สังเกตุในเรื่องของเครื่องหมาย)
Covariance สำหรับความน่าจะเป็นเขียนได้ว่า
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
Probability Distributions : การแจกแจงความน่าจะเป็น.
คือสมการในทางคณิตศาสตร์ที่เขียนออกมาเพื่อจะแสดงผลลัพท์โดยรวม ของความน่าจะเป็นทั้งหมดในการทดลอง(ทดสอบ สุ่ม)
ใน Machine learning มี Probability distribution หลายๆตัวที่เข้ามามีบทบาทเช่น
- Bernoulli Distribution
- Multinoulli Distribution
- Gussian Distribution
- Exponential and Laplace Distribution
- The Dirac Distribution and Empricial Distribution
- Mixtures of Distribution
Bernoulli Distribution
คือ Probability distribution ของการสุ่มแล้วได้ผลลัพท์เป็นอย่างใดอย่างหนึ่งจากสองอย่าง เช่น 0 กับ 1. โยนเหรียญแล้วได้หัวหรือก้อย. โยนลูกเต๋าหนึ่งลูกแล้วได้แต้มคู่หรือคี่ , สูงหรือต่ำ ฯลฯ
เราจะแทนความน่าจะเป็นที่จะสุ่มได้ 1 ให้เป็น
p และความน่าจะเป็นของการได้ 0 ให้เป็น
q ซึ่ง
p+qก็ต้องเท่ากับ 1 ด้วย(เพราะผลลัพท์มีได้แค่หนึ่งในสองอย่าง ดังนั้นความน่าจเป็นของผลรวมของผลลัพท์ทั้งหมดก็ต้องเท่ากับ 1) ดังนั้น
P(x=1)P(x=0)p+qp=p=q=1=1−q
ถ้าผลลัพท์ของการสุ่มคือ
k. ฟังก์ชั่น Probability mass function เขียนได้ว่า
f(k;p)={p1−pif k=1,if k=0.
สิ่งที่เรากำลังจะหาคือ เราจะรวมสมาการที่แยก
k=1 และ
k=0 จากสองสมการให้เป็นสมการเดียวได้อย่างไร ? เพื่อครั้งต่อไป เราจะได้ไม่ต้องมาคอยเช็กว่า
k จะเป็นเท่าไหร่ และจะต้องใช้สมการไหน.
พิจารณาเหรียญพิเศษเหรียญหนึ่ง ด้านหนึ่งสีเขียว อีกด้านสีน้ำเงิน ถ้าเราโยนเหรียญสามรอบ ความน่าจะเป็นเป็นดังนี้
กำหนดให้
X คือจำนวนที่ได้สีเขียว จากการโยนเหรียญทั้งสามครั้ง
x | P(X=x) | Power of q | Power of p |
0 | q.q.q=q3 | 3 | 0 |
1 | p.q.q+q.p.q+q.q.p=3×(q2.p) | 2 | 1 |
2 | p.p.q+p.q.p+q.p.p=3×(q.p2) | 1 | 2 |
3 | p.p.p=p3 | 0 | 3 |
จากตาราง ตัวเลขยกกำลังของ p กับ q มีความสัมพันธ์กัน ยิ่งจำนวนสีเขียวมากขึ้นเท่าไหร่ ค่าของ p ก็จะยิ่งมากขึ้นและค่าของ q ก็จะยิ่งลดลง ดูเหมือนเริ่มเป็นเพทเทิร์นอะไรบางอย่างขึ่้นมา
P(X=r)=? ×pr×q3−r
ตัวเลขที่หายไปคืออะไร ?
ก่อนจะลงรายละเอียดไปมากกว่านี้ เรามาดูคำตอบกันก่อน นั่นก็คือ
Combination ในทางคณิตศาสตร์ คือการบอกว่าถ้ามีจำนวนทั้งหมด
n อย่างแล้วเลือกออกมา
r อย่าง จะมีวิธีเลือกทั้งหมดแบบไม่สนใจลำดับ(เลือกก่อนเลือกหลังไม่สำคัญ) ดังนี้.
(rn)
(rn)=r!(n−r)!n!
C(n,r)=nCr=nCr=(rn)
ลักษณะของ factorial (!)
−1!===0!1!2!3!...n!=Never exists==========1=1×0! (=1)=2×1! (=2)=3×2! (=6)=n×(n−1)!
นั่นก็คือ ถ้าเรามีการโยนเหรียญ 3 ครั้ง(
n=3 ตามแผนภาพ tree ข้างบน)
ถ้าเราเลือกมาเหรียญเดียว(
r=1 วิธีที่จะออกสีเขียวเหรียญเดียว) จะมีโอกาสเท่ากับ
=1!(3−1)!3!=1×26=3 วิธีดังนี้
ถ้าเราเลือกมาสองเหรียญ(
r=2 วิธีที่จะออกสีเขียวสองเหรียญ) จะมีโอกาสเท่ากับ
=2!(3−2)!3!=2×16=3 วิธีดังนี้
โดยสรุปแล้ว ในสมการของ Bernoulli ที่เขียนว่า
f(k;p)={p1−pif k=1,if k=0.
จึงสามารถเขียนใหม่ได้ในรูปที่ว่า ในการทดลองเพียงครั้งเดียว(Bernoulli distribution ทำการทดลอง(สุ่ม)เพียงครั้งเดียว) ก็คือการทดสอบความน่าจะเป็นของ
k ว่าจะได้ 1 หรือ 0. พูดอีกอย่างคือ จะได้หัวกี่เหรียญ(สีเขียว) ถ้าทำการเลือกครั้งเดียว(
r=1 หรือ
r=0 ก็ได้ ) จากเหรียญทั้งหมด 1 เหรียญ
(n=1) เราก็จะได้ดังนี้
P(X=r) ∵(01)and (11)∴(01)∴ =(rn)×pr×qn−r=(r1)×pr×q1−r=1=1=(11)=pr×q1−r=pr×(1−p)1−r
Bernoulli Distribution จึงสามารถเขียนในรูปสมการเดียวจบได้ว่า
f(k;p)=pk(1−p)1−k สำหรับ
k∈{0,1}
คราวนี้มาถึงรายละเอียดว่าทำไมอยู่ดีๆเราจึงแทนที่
? ในสมการ
P(X=r)=? ×pr×q3−r ด้วย
(rn). ก่อนอื่นเราต้องหาวิธีในการเลือกเหรียญจาก 3 เหรียญก่อน คราวนี้ลำดับสำคัญ เราก็จะได้
การเลือกเหรียญทั้งหมดจะเกิดขึ้นได้ ครั้งแรก 3 รูปแบบ ไม่ว่าจะเป็น เหรียญที่ 1 หรือ 2 หรือ 3 ก็ได้ไม่สำคัญ พอเลือก ครั้งแรกเสร็จ ครั้งที่สอง ก็จะเหลือเหรียญอยู่ในกระเป๋า 2 เหรียญ ดังนั้น ครั้งที่สอง ก็อาจเกิดขึ้นได้ 2 แบบ และครั้งสุดท้าย ก็จะเหลือเหรียญอยู่เพียงเหรียญเดียว ก็เท่ากับว่าหลังจากรอบที่สองแล้ว รอบสุดท้ายก็มีได้เพียงแค่รูปแบบเดียว คือการจับเหรียญสุดท้าย ดังนั้นความน่าจะเป็นทั้งหมดก็จะได้
3×2×1=6 รูปแบบ.
เมื่อพิจารณาดูแพทเทิร์นแล้ว จะเห็นว่า การเลือกครั้งแรก โอกาสความน่าจะเป็นเท่ากับจำนวนเหรียญทั้งหมด และครั้งถัดไป ก็จะเท่ากับจำนวณเหรียญที่เหลือ ดังนั้น จำนวนการเลือกเหรียญ
r ครั้ง ก็ต้องเท่ากับ รูแปบบของการเกิดโอกาสการเลือกทั้งหมด
=n! หารด้วยรูปแบบของการเกิดเหรียญที่เป็นไปได้ทั้งหมดหลังจากการเลือกไปแล้ว
r ครั้ง ก็จะได้ว่า .
(n−r)!n!
เช่นการเลือก 1 ครั้งก็จะเท่ากับ
(3−1)!3!=2×13×2×1=3 ความน่าจะเป็น. แต่ที่น่าสนใจในที่นี้คือการเลือกครั้งที่สอง มันจะมีเหรียญที่ซ้ำกันอยู่ เช่นครั้งแรกได้เหรียญที่ 1 ครั้งที่สองได้เหรียญที่ 2 สรุปเหรียญที่ได้มาอยู่ในมือคือ (1,2) แต่การที่ได้เหรียญที่หนึ่งและสองมาอยู่ในมือ ก็มีอีกวิธีหนึ่งคือ ครั้งแรกได้เหรียญที่ 2 และครั้งต่อไปจับได้เหรียญที่ 1 เหตุการณ์นี้ก็ได้เหรียญมาอยู่ในมือสองเหรียญคือ (1,2) เหมือนกันโดยไม่สนใจว่าจะได้อันไหนก่อนอันไหนหลัง ว่าแต่รูปแบบของการได้สองเหรียญจะมีทั้งหมด
(n−r)!n!=(3−2)!3!=13×2×1=6 รูปแบบคือ
[(1,2),(1,3),(2,1),(2,3),(3,1),(3,2)] แต่ถ้าเราไม่สนใจลำดับ ก็จะเหลือแค่
[(1,2),(1,3),(2,1),(2,3),(3,1),(3,2)] ดังภาพ
คำถามถัดมาคือ แล้วเราจะไปกรอกพวกที่เหมือนๆกันแต่สลับตำแหน่งออกจากลิสทั้งหมดได้ยังไง เช่นในตัวอย่าง จาก 6 ให้เหลือแค่ 3 ที่ไม่ซ้ำกัน? ลองนึกถึงความหมายของ
r! ดูนะครับ
r! ก็หมายความว่า รูปแบบทั้งหมดที่สามารถแสดงได้ถ้ามีจำนวนให้เลือกอยู่
r ตัว. ดังนั้น ถ้าเรามี
n ตัวให้เลือก แล้วเราเลือก
r ตัว ส่วนที่เหลือ มันก็จะเป็นจำนวนเท่าของ
r! (เป็นกี่เท่าของ
r!) ดังนั้นแล้ว ถ้าเราต้องการลิสที่ไม่เหมือนกัน ก็แค่เอา
r! ไปหาร ก็จะได้
(n−r)!n!×r!1=(n−r)!r!n!
อธิบายได้ดังภาพ
สมมุติเรามีเหรียญทั้งหมด 4 เหรียญ ความน่าจะเป็นทั้งหมดคือ
4!=24 ถ้าเลือก 3 รอบ ก็จะได้
(4−3)!4!=24. เช่นกัน. แต่อย่าลืมว่า การที่เราเลือกมา 3 รอบนั่นก็เหมือนการเลือกเอามาแค่ 3 เหรียญ ซึ่งรูปแบบบทั้งหมดก็คือ
3!=6 แล้วเราก็เอาจำนวนนี้ไปหารกับรูปแบบทั้งหมดของ 4 เลือก 3 (24 รูปแบบ) ก็จะได้ผลลัพท์สุดท้ายคือ
624=4. หรือก็คือ combination ของกลุ่มสีเขียว สีฟ้า สีแสด และสีขาว ดังนี้ [(1,2,3),(1,2,4),(1,3,4),(2,3,4)]
จากหัวข้อแรกๆ สูตรของ Expectation
=∑xP(X=x) . Expection ของ Bernoulli จึงเขียนได้ว่า
∑xP(X=x) Ex[x]=0q+1p=p=p
ส่วน Variance ก็เขียนได้ว่า
Var(X) ∴=∑(x−μ)2P(X=x)=[(0−p)2.q]+[(1−p)2.p]=[p2q]+[q2p]=pq(p+q)=pq=p(1−p)
สำหรับ Distribution ที่เหลือ จะยกยอดไปไว้ที่ Part 3 เพื่อไม่ให้โพสนี้ยาวเกินไปและง่ายต่อการค้นหา.
References: