Probability (Part 1)

Discrete random variable : ตัวแปรที่ได้มาโดยการนับเอา จากการสุ่ม มีลักษณะที่แยกออกจากกันได้
  • จำนวนครั้งในการออกหัว เวลาโยนเหรียญ
  • จำนวนลูกบอลสีฟ้าในขวดโหล (มีลูกบอลหลายสีในขวดโหล)
แต่ไม่ใช่ทุกค่าที่สามารถนับได้ ! บางทีก็ต้องวัดเอา

Continuous random variable : ตัวแปรที่ได้มาโดยการวัด (ค่า ขนาด) ที่สามารถแยกออกเป็นช่วงๆได้ มีเรื่องของความละเอียดไปเกี่ยวข้องกับข้อมูล
  • ส่วนสูงของนักเรียนในห้อง
  • เวลาที่ใช้ในการเดินทางจากที่หนึ่งไปอีกที่หนึ่ง
Probability mass function : (PMF) ใข้กับ discrete variable. โดยปกติแล้วจะใช้สัญลักษณ์   P และมักใส่ตัวแปรไว้ในฟังก์ชั่นนี้ นั่นก็คือความน่าจะเป็นที่จะเกิดขึ้นสำหรับตัวแปรนั้นๆ เช่น P(x); ซึ่ง P(x) ก็จะเป็นคนละตัวกับ P(y)
  • P(x) = 1 หมายความว่า โอกาสทีจะสุ่มได้ x คือ 100%
  • P(x) = 0 หมายความว่า โอกาสทีจะสุ่มได้ x คือไม่มีทางเกิดขึ้นเลย
  • P(x) สามารถเขียนได้อีกแบบว่า P(\text{x} = x)
  • x \sim P(\text{x}) ก็คือความหมายเดียวกัน เหมือนข้อข้างบน เพียงแค่เอาตัวแปรมาก่อน ไม่ได้หมายความว่าเป็นค่าประมาณ
Joint Probability: ความน่าจะเป็นสำหรับตัวแปรหลายตัว P( \text{x} = x, \text{y} = y) หรือสามารถเขียนได้อีกรูปดังนี้ P( x, y)

PMF ต้องมีคุณสมบัติดังนี้
  • โดเมนของ P ต้องประกอบไปด้วยค่าทุกตัวที่มีอยู่ใน \text{x}
  • \forall x \in \text{x}, 0 \leq P(x) \leq 1. 0 คือไม่มีทางเกิดขึ้น และไม่มีอะไรที่จะน้อยไปกว่านี้ได้อีกแล้ว ส่วน 1 คือการันตีเลยว่าเกิดขึ้นแน่นอน ไม่มีทางเป็นอื่น ไม่มีอะไรจะมากไปกว่า 1 อีกแล้ว
  • \sum_{x \in \text{x}}P(x) = 1. คุณสมบัตินี้เรียกว่า normalized ถ้าไม่มีคุณสบบัตินี้ เราอาจมีปัญหาเรื่องผลรวมของ P(x) ที่มากกว่า 1
ยกตัวอย่างความน่าจะเป็นของ x ในเซตที่มี k ตัวอย่าง. เราสามารถทำให้ x มีความน่าจะเป็นเท่าๆกับตัวเลือกอื่นๆอย่างแบบสม่ำเสมอ ( uniform distribution ) โดยการทำให้ Probability mass function ให้เป็น
P(\text{x} = x_{i}) = \dfrac{1}{k}
สำหรับทุกตัวของ i. และความน่าจะเป็นนี้ ถ้านับความน่าจะเป็นของทุกตัว ก็จะเข้ากับคุณสมบัติของ PMF ในข้อที่ว่า
\sum_{i}P(\text{x} = x_{i}) = \sum_{i}\frac{1}{k}=\frac{k}{k} = 1

และกล่าวได้ว่าการกระจายนี้เป็น normalized.

Probability Density Functions: (PDF) ใช้กับ continuous random variables. ใช้ p เป็นชื่อสูตรสมการ มีคุณสมบัติดังนี้
  • โดเมนของ p ต้องประกอบไปด้วยค่าทุกตัวที่มีอยู่ใน \text{x}
  • \forall x \in \text{x}, p(x) \geq 0 . ตรงนี้ไม่จำเป็นที่ p(x) \leq 1
  • \int p(x)dx = 1
p(x) ไม่ได้บอกค่าความน่าจะเป็นของ x โดยตรง แต่เป็ํนการบอกความน่าจะเป็นเพียงช่วงหนึ่งของ x. ซึ่งช่วงนั้นมีขนาดเพียง \delta x เท่านั้น เขียนออกมาได้เป็น p(x)dx ถ้าเราจะหา probability mass ในช่วงใดๆช่วงหนึ่ง หรือจะพูดว่าเราต้องการหาความน่าจะเป็นของ x ในเซต \mathbb{S} ก็สามารถทำได้โดยการอินทริเกรต p(x) จากเซตนั้นๆ. ถ้า x อยู่ในช่วง [a,b] ก็จะเขียนได้ว่า \int_{[a,b]}p(x)dx

ยกตัวอย่างของ pdf.


จากกราฟ อาจเล่าเป็นเรื่องราวได้ว่า เรามีนัดคุยกับลูกค้า บอกเขาว่าเราสามารถรอได้แค่ 20 นาที แต่เราไปไม่ทัน เลยไปรอเอาตั้งแต่นาทีที่ 5 ไปจนถึง 20 เมื่อครบ 20 นาทีแล้วเราก็ออกจากร้าน (พอออกจากร้านแล้ว ความน่าจะเป็น = 0). โจทย์คือ ความน่าจะเป็นที่เราจะได้คุยกับลูกค้าเป็นเท่าใด ?

อย่างแรกเลย พื้นที่ทั้งหมด ตั้งแต่ 0 ถึง 20 นาที ต้องมีค่าเท่ากับ 1 ตามสูตร \int p(x)dx = 1 แต่ p(x) ในที่นี้เป็นค่าคงที่ c ดังนั้น ความน่าจะเป็น สำหรับนาทีที่ 5 ถึง 20 ก็จะมีค่าเท่ากับ
\begin{aligned}\int_{0}^{20}p(x)dx &=1 \\ \int_{0}^{20}c dx &=1 \\ c(20 - 0)&=1 \\ c&=\frac{1}{20}\\ c &=0.05\end{aligned}

f(x) = c = 0.05

และนั่นก็คือถ้าเราจะหาความน่าจะเป็นตั้งแต่นาทีที่ 5 เป็นต้นไป ก็จะได้

P(X \gt 5) = (20 - 5) \times 0.05 = 0.75

เพื่อไม่เป็นการหลุด ว่าพื้นที่สีเขียวจะไม่ไปโผล่ที่ไหนอีกนอกจาก 0 กับ 20 เราจะเขียนได้ว่า u(x;a,b) = 0 สำหรับ x \notin [a,b]. แต่ในเคสของ x \in [a,b] ก็จะได้ว่า u(x;a,b) = \frac{1}{b-a} และยังอิทิเกรตทั้งหมดได้ 1 อีกด้วย. ทั้งหมดนี้สามารถเขียนใหม่ได้เป็น \text{x} \sim U(a,b) คือเขียนแบบเอาตัวแปรมาก่อน

Marginal Distributions: มีสองแบบ แบบที่เป็นตารางกับแบบที่เป็นกราฟ.
ถ้าข้อมูลเป็นแบบ discrete ก็จะถูกเก็บไว้เป็นตาราง เช่น ถ้าเราเก็บข้อมูลเวลาที่นักเรียนใช้ไปกับการอ่านหนังสือ เป็นนาที และคะแนนที่นักเรียนได้จากผลสอบ สามารถบันทึกได้ดังนี้

% Correct \ Time (minutes) 0 - 20 21 - 40 41 - 60 > 60 Total
80- 100 0%2%8%10%20%
60- 79 0%10%15%5%30%
40- 59 1%2%16%16%35%
20- 39 5%1%4%0%10%
0- 19 1%0%0%4%5%
Total 7%15%43%35%100%

ถ้าถามว่า มีนักเรียนกี่คน ที่ใช้เวลาอ่านหนังสือประมาณ 41 - 60 นาที แล้วได้คะแนนมากกว่า 80% ขึ้นไป ก็สามารบอกได้ว่ามีทั้งหมด 8% ตามตาราง การดูแบบนี้เรียกว่า Joint Distribution. ส่วนในคอลัมน์ Total (ทั้งขอบขวาสุด และขอบล่างสุด)เขียนไว้ที่ขอบๆ หรือเขียนไว้ที่ margin ของกระดาษ เลยเรียกว่า Marginal Distribution (อันนี้ไม่ใช่มุขนะ ). ยกตัวอย่างการอ่านเช่น 35% ของนักเรียนใช้เวลาอ่านหนังสือมากกว่าหนึ่งชั่วโมง. 10% ได้คะแนนระหว่าง 20-39 คะแนน เขียนเป็นสูตรได้ว่า
\forall x \in \text{x}, P(\text{x} = x) = \sum_{y}P(\text{x} = x, \text{y} = y)

\forall y \in \text{y}, P(\text{y} = y) = \sum_{x}P(\text{x} = x, \text{y} = y)

แต่ถ้าข้อมูลเป็นแบบ continuous ก็จะถูกพร๊อตเป็นกราฟ
สำหรับ continuous variable แล้วก็เปลียนจาก Sum ไปเป็นการอินทิเกรตดังนี้

p(x) = \int p(x,y)dy

Conditional Probability: ถ้าเราสนใจเหตุการณ์ Y ที่มีส่วนเกี่ยวข้องกับเหตุการณ์ X ที่เกิดขึ้น  นี่เรียกว่า conditional probability.

ยกตัวอย่างถ้าเรามีลูกเต๋ามาตรฐาน 2 ลูก (ยังไม่ใช่ Conditional Probability) แล้ถามว่า โอกาสของการโยนลูกเต๋าแล้วได้ผลออกมาเป็นเลข 1 ทั้งสองลูก มีค่าเป็นเท่าใด?
ก็สามารถอธิบายได้ว่า เหตุการณ์ทั้งหมดเกิดได้ 36 รูปแบบ แต่เหตุการณ์ที่จะออก 1 กับ 1 มี 1 ใน 36 นั่นก็คือ คำตอบของคำถามนี้คือ 1/36.

คราวนี้ถามใหม่ โอกาสจะเกิด 1 กับ 1 ม่ีค่าเท่าใด ถ้าให้เหตุการณ์เหล่านั้นเกิดจาก ผลของลูกเต๋าที่ทอยออกมาแล้วได้เลขเหมือนกัน ?
ลูกเต๋าที่ทอยออกมาแล้วได้เลขเหมือนกันก็คือ 1,1 - 2,2 - 3,3 -.... 6,6 ซึ่งก็มีทั้งหมด 6 แบบ โอกาสที่จะเกิด 1 กับ 1 ก็คือ 1/6

เราเขียนความน่าจะเป็นของ \text{y} = y ถ้ากำหนดให้ \text{x} = x  (เหตุการณ์ของ x ว่าคือเหตุการณ์อะไร) จะเขียนได้ว่า P(y = y | x = x). เขียนเป็นสูตรได้ดังนี้

p(\text{y}= y| \text{x} = x) = \dfrac{P(\text{y} = y , \text{x} = x)}{P(\text{x} = x)}

จากคอมมอนเซนต์ เหตุการณ์ y จะเกิดขึ้นไม่ได้เลย ถ้าไม่มีเหตุการณ์ x เกิดขึ้นก่อน. ก็จะไปตรงกับสูตรที่ว่า ถ้ามีมีเหตุการณ์ x เกิดขึ้น (มีค่าเท่ากับ 0) สมการก็ไม่มีความหมาย เหมือนกับการหารด้วย P(\text{x} = x) = 0 ก็หาค่าไม่ได้เช่นกัน

ตัวอย่างที่ 1 : ถ้ามีการจับไพ่สองใบจากสำรับ (มี 52 ใบ) จับครั้งแรกได้หัวใจมาหนึ่งใบ ณ ตอนนี้สถาณะของสถานการณ์เปลี่ยนไปจากเดิมแล้ว คือไพ่ในกองจะเหลือ 51 ใบ และมีหัวใจเหลืออยู่ในสำรับ 12 ใบ. ต่อมาเราต้องการที่จะจับให้ได้หัวใจอีกใบหนึ่งจากที่เหลือในกองไพ่ conditional probability สำหรับการจับครั้งทีสองสามารถเขียนได้ว่า

P(Draw \space second \space heart \space | \space First \space card \space a \space heart) = \frac{12}{51}

ตัวอย่างที่ 2 : มีนักเรียนคนหนึ่งสมัครเข้าเรียน เขามีโอกาสที่จะได้เข้า(สอบติด)อยู่ที่ 80% . ทางมหาวิทยาลัยสามรถจัดเตรียมหอพักให้ได้แค่ 60% ของนักเรียนทั้งหมดที่สามารถสอบเข้าได้ โอกาสที่นักเรียนคนนี้จะสามารถสอบติด และได้หอพัก เขียนได้ว่า

P(Dormitory \space Housing | Accepted) = \frac{P(Dormitory \space Housing \space and \space Accepted )}{P(Accepted)}

0.60 = \frac{P(Dormitory \space Housing \space and \space Accepted )}{0.80}

P(Dormitory \space Housing \space and \space Accepted) = (0.60) \times (0.80) = 0.48

Chain Rule ของ Conditional Probability. : ทุกๆ Joint probability ที่มีหลายตัวแปร สามารถเขียนในรูปของ Conditional ได้ ลองพิจารณา P(A,B,C) ดังต่อไปนี้

\begin{aligned}P(A|B)&=\frac{P(A,B)}{P(B)}\\ \text{Let}\space B&=B,C \\P(A|B, C)&=\frac{P(A,B,C)}{P(B,C)}\\P(A|B, C)P(B,C)&=P(A,B,C) \\\color{green}P(B|C)&=\color{green}\frac{P(B,C)}{P(C)}\\\color{green}P(B|C)P(C)&=\color{green}P(B,C)\\\therefore \space P(A,B,C)&=P(A|B, C)P(B|C)P(C)\end{aligned}

เขียนให้อยู่ในรูปทั่วไปได้ว่า

P(\text{A}_{n},...,\text{A}_{1}) = P (A_{n}|A_{n-1},...,A_{1}).P (A_{n-1},...,A_{1})

ถ้ากระจายออกไปจนครบ ก็จะได้

P \Bigg( \displaystyle\bigcap_{k=1}^{n} A_k \Bigg) = \prod_{k=1}^nP\Bigg( A_k \Bigg | \bigcap_{j=1}^{k-1}A_j \Bigg)

ถ้ามี 4 ตัวแปร การใช้ Chain Rule ก็จะได้ดังต่อไปนี้

P(A_4,A_3,A_2,A_1) = P(A_4|A_3,A_2,A_1).P(A_3|A_2,A_1).P(A_2|A_1).P(A_1)

Independence :
ถ้าสองเหตุการณ์ไม่มีผลต่อกันและกัน สองเหตุการณ์นั้นเรียกได้ว่า Independence. อย่างเช่น ทอยลูกเต๋า 1 ลูก ครั้งแรก ได้เลข 5 ซึ่งเลข 5 นี้มีโอกาสเกิดขึ้นเป็น 1/6. คราวนี้มาลองทอยอีกครั้ง แล้วถามว่า โอกาสที่จะได้เลข 5 อีกรอบ มีเท่าไหร่ ? คำตอบก็คือ 1/6 เหมือนเดิม. คือเหตุการณ์แรก (การทอยครั้งแรก) ไม่มีผลกระทบต่อความน่าจะเป็นของการทอยครั้งที่สอง (เหตุการณ์อื่น) ซึ่งก็ยังได้ค่าความน่าจะเป็นเหมือนเดิม ไม่มีการเปลี่ยนแปลงใดๆทั้งสิ้น. ไม่เหมือนกับการสุ่มไพ่จากสำรับสองครั้ง(โดยไม่เอาใบแรกที่สุ่มออกมา กลับเข้าไปใส่ไว้ในกองอีก) ซึ่งทำให้ความน่าจะเป็นครั้งแรก กับครั้งที่สอง มีค่าไม่เท่ากัน แบบนี้ไม่เรียกว่า Independence.

ถ้าเหตุการณ์ A ไม่มีผลกระทบต่อเหตุการณ์ B ดังนั้น

P(A|B) = P(A)

เราสามารถใช้สมการนี้ไปเช็กได้ว่า เหตุการณ์สองอย่างมัน independence กันหรือไม่ ถ้าเหตุการณ์สองเหตุการนั้นเป็นแบบ P(A|B) = P(A) ดังนั้น A กับ B ก็ไม่มีส่วนเกี่ยวข้องซึ่งกันและกันแน่นอน

วิธีการคำนวณหาค่าความน่าจะเป็นสำหรับเหตุการณ์สองอย่างที่ไม่เกี่ยวข้องกัน จะได้

P(A|B) = \dfrac{P(A \cap B)}{P(B)}

ถ้า A กับ B มีความสัมพันธ์กันแบบ independent ดังนั้น P(A|B) = P(A) ซึ่งก็คือ

P(A) = \dfrac{P(A \cap B)}{P(B)}

หรือ
P(A \cap B) = P(A) \times P(B)
ถ้า A และ B เป็น independence สามารถเขียนเป็นสัญลักษณ์ได้ A \perp B

Conditional Independence:
ถ้า R กับ B มีความสัมพันธ์กันแบบ independence และมี Condition Y เข้ามาเกี่ยวข้อง แต่การมาของ Y พอนำไปจับกับ R แล้วไม่ได้บอกข้อมูลอะไรเกี่ยวกับ B เลย. และในทางตรงข้าม พอเอา Y ไปจับกับ B ก็ไม่ได้บอกความน่าจะเป็นเกี่ยวกับ R เช่นกัน เราเรียกสถานการณ์แบบนี้ว่า Conditional Independence. พูดอีกแบบคือ P(R|Y) ไม่ได้มีส่วนให้ P(B|Y) มีการเปลี่ยนแปลงแต่อย่างใด ยกตัวอย่างดังภาพข้างล่าง



สองรูปนี้คือตัวอย่างของ Conditional independence . แต่ละช่องคือความน่าจะเป็นของสีนั้นๆ R = Red , B = Blue และ Y = Yellow. สีม่วงคือความน่าจะเป็นที่เป็นได้ทั้งสีแดง และน้ำเงิน (เหมือนมีสองชั้นทับกันอยู่). จากรูปทั้งสอง R กับ B เป็น conditional independence ที่เกี่ยวเนื่องกับ Y เขียนได้ว่า Pr(R \cap B | Y)  หมายความว่า (จากรูปทางขวา) ถ้าเราบอกว่า มีโอกาสการเกิดของสีม่วง (ฟ้ากับแดง พร้อมกัน) ภายใต้เหตุการณ์สีเหลือง มีค่าเท่ากับ 2 / 12. ก็แสดงว่าโอกาสของการเกิดสีฟ้าภายใต้เหตุการณ์สีเหลือง กับ(คูณ) เหตุการณ์ของสีแดงที่เกิดภายใต้สีเหลือง ก็ต้องมีค่าเท่ากับ 2 / 12 เช่นกัน

P(R \cap B | Y) = \dfrac{P(R\space\cap \space B \space \cap \space Y)}{P(Y)}

P(R \cap B | Y) = \LARGE{\frac{ \frac{2}{49} }{ \frac{12}{49}}} \large = \frac{2}{49} . \frac{49}{12} = \frac{2}{\cancel{49}} . \frac{\cancel{49}}{12} = \frac{1}{6}

แต่เรารู้ว่าถ้า Pr(R \cap B | Y) เป็น conditional independence ดังนัั้นการหา Pr(R | Y) กับ Pr(B | Y) ก็สามารถแยกกันได้
P(R \cap B | Y) = P(R | Y).P(B | Y)

\large = \frac{4}{12}.\frac{6}{12} = \frac{\cancel{4}^1}{\cancel{12}^2}.\frac{\cancel{6}^1}{\cancel{12}^3} = \frac{1}{6}

เขียนในรูปทั่วไปได้ดังนี้

\forall x\in \text{x}, y \in \text{y}, z \in \text{z}, p(\text{x} = x , \text{y} = y | \text{z} = z ) = p(\text{x} = x | \text{z} = z)p(\text{y} = y | \text{z} = z)


References:

Comments

Popular posts from this blog

Principal Components Analysis

ประวัติ Deep Learning