Probability (Part 1)
Discrete random variable : ตัวแปรที่ได้มาโดยการนับเอา จากการสุ่ม มีลักษณะที่แยกออกจากกันได้
จากกราฟ อาจเล่าเป็นเรื่องราวได้ว่า เรามีนัดคุยกับลูกค้า บอกเขาว่าเราสามารถรอได้แค่ 20 นาที แต่เราไปไม่ทัน เลยไปรอเอาตั้งแต่นาทีที่ 5 ไปจนถึง 20 เมื่อครบ 20 นาทีแล้วเราก็ออกจากร้าน (พอออกจากร้านแล้ว ความน่าจะเป็น = 0). โจทย์คือ ความน่าจะเป็นที่เราจะได้คุยกับลูกค้าเป็นเท่าใด ?
อย่างแรกเลย พื้นที่ทั้งหมด ตั้งแต่ 0 ถึง 20 นาที ต้องมีค่าเท่ากับ 1 ตามสูตร แต่ ในที่นี้เป็นค่าคงที่ ดังนั้น ความน่าจะเป็น สำหรับนาทีที่ 5 ถึง 20 ก็จะมีค่าเท่ากับ
และนั่นก็คือถ้าเราจะหาความน่าจะเป็นตั้งแต่นาทีที่ 5 เป็นต้นไป ก็จะได้
เขียนให้อยู่ในรูปทั่วไปได้ว่า
ถ้ากระจายออกไปจนครบ ก็จะได้
ถ้ามี 4 ตัวแปร การใช้ Chain Rule ก็จะได้ดังต่อไปนี้
- จำนวนครั้งในการออกหัว เวลาโยนเหรียญ
- จำนวนลูกบอลสีฟ้าในขวดโหล (มีลูกบอลหลายสีในขวดโหล)
แต่ไม่ใช่ทุกค่าที่สามารถนับได้ ! บางทีก็ต้องวัดเอา
Continuous random variable : ตัวแปรที่ได้มาโดยการวัด (ค่า ขนาด) ที่สามารถแยกออกเป็นช่วงๆได้ มีเรื่องของความละเอียดไปเกี่ยวข้องกับข้อมูล
- ส่วนสูงของนักเรียนในห้อง
- เวลาที่ใช้ในการเดินทางจากที่หนึ่งไปอีกที่หนึ่ง
Probability mass function : (PMF) ใข้กับ discrete variable. โดยปกติแล้วจะใช้สัญลักษณ์ และมักใส่ตัวแปรไว้ในฟังก์ชั่นนี้ นั่นก็คือความน่าจะเป็นที่จะเกิดขึ้นสำหรับตัวแปรนั้นๆ เช่น ; ซึ่ง ก็จะเป็นคนละตัวกับ
หมายความว่า โอกาสทีจะสุ่มได้ x คือ 100% หมายความว่า โอกาสทีจะสุ่มได้ x คือไม่มีทางเกิดขึ้นเลย สามารถเขียนได้อีกแบบว่า ก็คือความหมายเดียวกัน เหมือนข้อข้างบน เพียงแค่เอาตัวแปรมาก่อน ไม่ได้หมายความว่าเป็นค่าประมาณ
Joint Probability: ความน่าจะเป็นสำหรับตัวแปรหลายตัว หรือสามารถเขียนได้อีกรูปดังนี้
PMF ต้องมีคุณสมบัติดังนี้
. และความน่าจะเป็นนี้ ถ้านับความน่าจะเป็นของทุกตัว ก็จะเข้ากับคุณสมบัติของ PMF ในข้อที่ว่า
และกล่าวได้ว่าการกระจายนี้เป็น normalized.
ไม่ได้บอกค่าความน่าจะเป็นของ x โดยตรง แต่เป็ํนการบอกความน่าจะเป็นเพียงช่วงหนึ่งของ x. ซึ่งช่วงนั้นมีขนาดเพียง เท่านั้น เขียนออกมาได้เป็น
ถ้าเราจะหา probability mass ในช่วงใดๆช่วงหนึ่ง หรือจะพูดว่าเราต้องการหาความน่าจะเป็นของ ในเซต ก็สามารถทำได้โดยการอินทริเกรต จากเซตนั้นๆ. ถ้า อยู่ในช่วง ก็จะเขียนได้ว่า
ยกตัวอย่างของ pdf.
PMF ต้องมีคุณสมบัติดังนี้
- โดเมนของ
ต้องประกอบไปด้วยค่าทุกตัวที่มีอยู่ใน . 0 คือไม่มีทางเกิดขึ้น และไม่มีอะไรที่จะน้อยไปกว่านี้ได้อีกแล้ว ส่วน 1 คือการันตีเลยว่าเกิดขึ้นแน่นอน ไม่มีทางเป็นอื่น ไม่มีอะไรจะมากไปกว่า 1 อีกแล้ว . คุณสมบัตินี้เรียกว่า normalized ถ้าไม่มีคุณสบบัตินี้ เราอาจมีปัญหาเรื่องผลรวมของ ที่มากกว่า 1
สำหรับทุกตัวของ
และกล่าวได้ว่าการกระจายนี้เป็น normalized.
Probability Density Functions: (PDF) ใช้กับ continuous random variables. ใช้ เป็นชื่อสูตรสมการ มีคุณสมบัติดังนี้
- โดเมนของ
ต้องประกอบไปด้วยค่าทุกตัวที่มีอยู่ใน . ตรงนี้ไม่จำเป็นที่
ยกตัวอย่างของ pdf.
อย่างแรกเลย พื้นที่ทั้งหมด ตั้งแต่ 0 ถึง 20 นาที ต้องมีค่าเท่ากับ 1 ตามสูตร
และนั่นก็คือถ้าเราจะหาความน่าจะเป็นตั้งแต่นาทีที่ 5 เป็นต้นไป ก็จะได้
เพื่อไม่เป็นการหลุด ว่าพื้นที่สีเขียวจะไม่ไปโผล่ที่ไหนอีกนอกจาก 0 กับ 20 เราจะเขียนได้ว่า สำหรับ . แต่ในเคสของ ก็จะได้ว่า และยังอิทิเกรตทั้งหมดได้ 1 อีกด้วย. ทั้งหมดนี้สามารถเขียนใหม่ได้เป็น คือเขียนแบบเอาตัวแปรมาก่อน
Marginal Distributions: มีสองแบบ แบบที่เป็นตารางกับแบบที่เป็นกราฟ.
ถ้าข้อมูลเป็นแบบ discrete ก็จะถูกเก็บไว้เป็นตาราง เช่น ถ้าเราเก็บข้อมูลเวลาที่นักเรียนใช้ไปกับการอ่านหนังสือ เป็นนาที และคะแนนที่นักเรียนได้จากผลสอบ สามารถบันทึกได้ดังนี้
ถ้าถามว่า มีนักเรียนกี่คน ที่ใช้เวลาอ่านหนังสือประมาณ 41 - 60 นาที แล้วได้คะแนนมากกว่า 80% ขึ้นไป ก็สามารบอกได้ว่ามีทั้งหมด 8% ตามตาราง การดูแบบนี้เรียกว่า Joint Distribution. ส่วนในคอลัมน์ Total (ทั้งขอบขวาสุด และขอบล่างสุด)เขียนไว้ที่ขอบๆ หรือเขียนไว้ที่ margin ของกระดาษ เลยเรียกว่า Marginal Distribution (อันนี้ไม่ใช่มุขนะ ). ยกตัวอย่างการอ่านเช่น 35% ของนักเรียนใช้เวลาอ่านหนังสือมากกว่าหนึ่งชั่วโมง. 10% ได้คะแนนระหว่าง 20-39 คะแนน เขียนเป็นสูตรได้ว่า
แต่ถ้าข้อมูลเป็นแบบ continuous ก็จะถูกพร๊อตเป็นกราฟ
สำหรับ continuous variable แล้วก็เปลียนจาก Sum ไปเป็นการอินทิเกรตดังนี้
ถ้าข้อมูลเป็นแบบ discrete ก็จะถูกเก็บไว้เป็นตาราง เช่น ถ้าเราเก็บข้อมูลเวลาที่นักเรียนใช้ไปกับการอ่านหนังสือ เป็นนาที และคะแนนที่นักเรียนได้จากผลสอบ สามารถบันทึกได้ดังนี้
% Correct \ Time (minutes) | 0 - 20 | 21 - 40 | 41 - 60 | > 60 | Total |
---|---|---|---|---|---|
80- 100 | 0% | 2% | 8% | 10% | 20% |
60- 79 | 0% | 10% | 15% | 5% | 30% |
40- 59 | 1% | 2% | 16% | 16% | 35% |
20- 39 | 5% | 1% | 4% | 0% | 10% |
0- 19 | 1% | 0% | 0% | 4% | 5% |
Total | 7% | 15% | 43% | 35% | 100% |
ถ้าถามว่า มีนักเรียนกี่คน ที่ใช้เวลาอ่านหนังสือประมาณ 41 - 60 นาที แล้วได้คะแนนมากกว่า 80% ขึ้นไป ก็สามารบอกได้ว่ามีทั้งหมด 8% ตามตาราง การดูแบบนี้เรียกว่า Joint Distribution. ส่วนในคอลัมน์ Total (ทั้งขอบขวาสุด และขอบล่างสุด)เขียนไว้ที่ขอบๆ หรือเขียนไว้ที่ margin ของกระดาษ เลยเรียกว่า Marginal Distribution (อันนี้ไม่ใช่มุขนะ ). ยกตัวอย่างการอ่านเช่น 35% ของนักเรียนใช้เวลาอ่านหนังสือมากกว่าหนึ่งชั่วโมง. 10% ได้คะแนนระหว่าง 20-39 คะแนน เขียนเป็นสูตรได้ว่า
แต่ถ้าข้อมูลเป็นแบบ continuous ก็จะถูกพร๊อตเป็นกราฟ
สำหรับ continuous variable แล้วก็เปลียนจาก Sum ไปเป็นการอินทิเกรตดังนี้
Conditional Probability: ถ้าเราสนใจเหตุการณ์ Y ที่มีส่วนเกี่ยวข้องกับเหตุการณ์ X ที่เกิดขึ้น นี่เรียกว่า conditional probability.
ยกตัวอย่างถ้าเรามีลูกเต๋ามาตรฐาน 2 ลูก (ยังไม่ใช่ Conditional Probability) แล้ถามว่า โอกาสของการโยนลูกเต๋าแล้วได้ผลออกมาเป็นเลข 1 ทั้งสองลูก มีค่าเป็นเท่าใด?
ก็สามารถอธิบายได้ว่า เหตุการณ์ทั้งหมดเกิดได้ 36 รูปแบบ แต่เหตุการณ์ที่จะออก 1 กับ 1 มี 1 ใน 36 นั่นก็คือ คำตอบของคำถามนี้คือ 1/36.
คราวนี้ถามใหม่ โอกาสจะเกิด 1 กับ 1 ม่ีค่าเท่าใด ถ้าให้เหตุการณ์เหล่านั้นเกิดจาก ผลของลูกเต๋าที่ทอยออกมาแล้วได้เลขเหมือนกัน ?
ลูกเต๋าที่ทอยออกมาแล้วได้เลขเหมือนกันก็คือ 1,1 - 2,2 - 3,3 -.... 6,6 ซึ่งก็มีทั้งหมด 6 แบบ โอกาสที่จะเกิด 1 กับ 1 ก็คือ 1/6
เราเขียนความน่าจะเป็นของ ถ้ากำหนดให้ (เหตุการณ์ของ ว่าคือเหตุการณ์อะไร) จะเขียนได้ว่า . เขียนเป็นสูตรได้ดังนี้
จากคอมมอนเซนต์ เหตุการณ์ y จะเกิดขึ้นไม่ได้เลย ถ้าไม่มีเหตุการณ์ x เกิดขึ้นก่อน. ก็จะไปตรงกับสูตรที่ว่า ถ้ามีมีเหตุการณ์ x เกิดขึ้น (มีค่าเท่ากับ 0) สมการก็ไม่มีความหมาย เหมือนกับการหารด้วย ก็หาค่าไม่ได้เช่นกัน
ตัวอย่างที่ 1 : ถ้ามีการจับไพ่สองใบจากสำรับ (มี 52 ใบ) จับครั้งแรกได้หัวใจมาหนึ่งใบ ณ ตอนนี้สถาณะของสถานการณ์เปลี่ยนไปจากเดิมแล้ว คือไพ่ในกองจะเหลือ 51 ใบ และมีหัวใจเหลืออยู่ในสำรับ 12 ใบ. ต่อมาเราต้องการที่จะจับให้ได้หัวใจอีกใบหนึ่งจากที่เหลือในกองไพ่ conditional probability สำหรับการจับครั้งทีสองสามารถเขียนได้ว่า
ตัวอย่างที่ 2 : มีนักเรียนคนหนึ่งสมัครเข้าเรียน เขามีโอกาสที่จะได้เข้า(สอบติด)อยู่ที่ 80% . ทางมหาวิทยาลัยสามรถจัดเตรียมหอพักให้ได้แค่ 60% ของนักเรียนทั้งหมดที่สามารถสอบเข้าได้ โอกาสที่นักเรียนคนนี้จะสามารถสอบติด และได้หอพัก เขียนได้ว่า
ยกตัวอย่างถ้าเรามีลูกเต๋ามาตรฐาน 2 ลูก (ยังไม่ใช่ Conditional Probability) แล้ถามว่า โอกาสของการโยนลูกเต๋าแล้วได้ผลออกมาเป็นเลข 1 ทั้งสองลูก มีค่าเป็นเท่าใด?
ก็สามารถอธิบายได้ว่า เหตุการณ์ทั้งหมดเกิดได้ 36 รูปแบบ แต่เหตุการณ์ที่จะออก 1 กับ 1 มี 1 ใน 36 นั่นก็คือ คำตอบของคำถามนี้คือ 1/36.
คราวนี้ถามใหม่ โอกาสจะเกิด 1 กับ 1 ม่ีค่าเท่าใด ถ้าให้เหตุการณ์เหล่านั้นเกิดจาก ผลของลูกเต๋าที่ทอยออกมาแล้วได้เลขเหมือนกัน ?
ลูกเต๋าที่ทอยออกมาแล้วได้เลขเหมือนกันก็คือ 1,1 - 2,2 - 3,3 -.... 6,6 ซึ่งก็มีทั้งหมด 6 แบบ โอกาสที่จะเกิด 1 กับ 1 ก็คือ 1/6
เราเขียนความน่าจะเป็นของ
จากคอมมอนเซนต์ เหตุการณ์ y จะเกิดขึ้นไม่ได้เลย ถ้าไม่มีเหตุการณ์ x เกิดขึ้นก่อน. ก็จะไปตรงกับสูตรที่ว่า ถ้ามีมีเหตุการณ์ x เกิดขึ้น (มีค่าเท่ากับ 0) สมการก็ไม่มีความหมาย เหมือนกับการหารด้วย
ตัวอย่างที่ 1 : ถ้ามีการจับไพ่สองใบจากสำรับ (มี 52 ใบ) จับครั้งแรกได้หัวใจมาหนึ่งใบ ณ ตอนนี้สถาณะของสถานการณ์เปลี่ยนไปจากเดิมแล้ว คือไพ่ในกองจะเหลือ 51 ใบ และมีหัวใจเหลืออยู่ในสำรับ 12 ใบ. ต่อมาเราต้องการที่จะจับให้ได้หัวใจอีกใบหนึ่งจากที่เหลือในกองไพ่ conditional probability สำหรับการจับครั้งทีสองสามารถเขียนได้ว่า
ตัวอย่างที่ 2 : มีนักเรียนคนหนึ่งสมัครเข้าเรียน เขามีโอกาสที่จะได้เข้า(สอบติด)อยู่ที่ 80% . ทางมหาวิทยาลัยสามรถจัดเตรียมหอพักให้ได้แค่ 60% ของนักเรียนทั้งหมดที่สามารถสอบเข้าได้ โอกาสที่นักเรียนคนนี้จะสามารถสอบติด และได้หอพัก เขียนได้ว่า
Chain Rule ของ Conditional Probability. : ทุกๆ Joint probability ที่มีหลายตัวแปร สามารถเขียนในรูปของ Conditional ได้ ลองพิจารณา ดังต่อไปนี้
เขียนให้อยู่ในรูปทั่วไปได้ว่า
ถ้ากระจายออกไปจนครบ ก็จะได้
ถ้ามี 4 ตัวแปร การใช้ Chain Rule ก็จะได้ดังต่อไปนี้
Independence :
ถ้าสองเหตุการณ์ไม่มีผลต่อกันและกัน สองเหตุการณ์นั้นเรียกได้ว่า Independence. อย่างเช่น ทอยลูกเต๋า 1 ลูก ครั้งแรก ได้เลข 5 ซึ่งเลข 5 นี้มีโอกาสเกิดขึ้นเป็น 1/6. คราวนี้มาลองทอยอีกครั้ง แล้วถามว่า โอกาสที่จะได้เลข 5 อีกรอบ มีเท่าไหร่ ? คำตอบก็คือ 1/6 เหมือนเดิม. คือเหตุการณ์แรก (การทอยครั้งแรก) ไม่มีผลกระทบต่อความน่าจะเป็นของการทอยครั้งที่สอง (เหตุการณ์อื่น) ซึ่งก็ยังได้ค่าความน่าจะเป็นเหมือนเดิม ไม่มีการเปลี่ยนแปลงใดๆทั้งสิ้น. ไม่เหมือนกับการสุ่มไพ่จากสำรับสองครั้ง(โดยไม่เอาใบแรกที่สุ่มออกมา กลับเข้าไปใส่ไว้ในกองอีก) ซึ่งทำให้ความน่าจะเป็นครั้งแรก กับครั้งที่สอง มีค่าไม่เท่ากัน แบบนี้ไม่เรียกว่า Independence.
ถ้าเหตุการณ์ A ไม่มีผลกระทบต่อเหตุการณ์ B ดังนั้น
เราสามารถใช้สมการนี้ไปเช็กได้ว่า เหตุการณ์สองอย่างมัน independence กันหรือไม่ ถ้าเหตุการณ์สองเหตุการนั้นเป็นแบบ ดังนั้น A กับ B ก็ไม่มีส่วนเกี่ยวข้องซึ่งกันและกันแน่นอน
วิธีการคำนวณหาค่าความน่าจะเป็นสำหรับเหตุการณ์สองอย่างที่ไม่เกี่ยวข้องกัน จะได้
ถ้า A กับ B มีความสัมพันธ์กันแบบ independent ดังนั้น ซึ่งก็คือ
หรือ
Conditional Independence:
ถ้า R กับ B มีความสัมพันธ์กันแบบ independence และมี Condition Y เข้ามาเกี่ยวข้อง แต่การมาของ Y พอนำไปจับกับ R แล้วไม่ได้บอกข้อมูลอะไรเกี่ยวกับ B เลย. และในทางตรงข้าม พอเอา Y ไปจับกับ B ก็ไม่ได้บอกความน่าจะเป็นเกี่ยวกับ R เช่นกัน เราเรียกสถานการณ์แบบนี้ว่า Conditional Independence. พูดอีกแบบคือ ไม่ได้มีส่วนให้ มีการเปลี่ยนแปลงแต่อย่างใด ยกตัวอย่างดังภาพข้างล่าง
สองรูปนี้คือตัวอย่างของ Conditional independence . แต่ละช่องคือความน่าจะเป็นของสีนั้นๆ R = Red , B = Blue และ Y = Yellow. สีม่วงคือความน่าจะเป็นที่เป็นได้ทั้งสีแดง และน้ำเงิน (เหมือนมีสองชั้นทับกันอยู่). จากรูปทั้งสอง R กับ B เป็น conditional independence ที่เกี่ยวเนื่องกับ Y เขียนได้ว่า หมายความว่า (จากรูปทางขวา) ถ้าเราบอกว่า มีโอกาสการเกิดของสีม่วง (ฟ้ากับแดง พร้อมกัน) ภายใต้เหตุการณ์สีเหลือง มีค่าเท่ากับ 2 / 12. ก็แสดงว่าโอกาสของการเกิดสีฟ้าภายใต้เหตุการณ์สีเหลือง กับ(คูณ) เหตุการณ์ของสีแดงที่เกิดภายใต้สีเหลือง ก็ต้องมีค่าเท่ากับ 2 / 12 เช่นกัน
แต่เรารู้ว่าถ้า เป็น conditional independence ดังนัั้นการหา กับ ก็สามารถแยกกันได้
เขียนในรูปทั่วไปได้ดังนี้
References:ถ้าสองเหตุการณ์ไม่มีผลต่อกันและกัน สองเหตุการณ์นั้นเรียกได้ว่า Independence. อย่างเช่น ทอยลูกเต๋า 1 ลูก ครั้งแรก ได้เลข 5 ซึ่งเลข 5 นี้มีโอกาสเกิดขึ้นเป็น 1/6. คราวนี้มาลองทอยอีกครั้ง แล้วถามว่า โอกาสที่จะได้เลข 5 อีกรอบ มีเท่าไหร่ ? คำตอบก็คือ 1/6 เหมือนเดิม. คือเหตุการณ์แรก (การทอยครั้งแรก) ไม่มีผลกระทบต่อความน่าจะเป็นของการทอยครั้งที่สอง (เหตุการณ์อื่น) ซึ่งก็ยังได้ค่าความน่าจะเป็นเหมือนเดิม ไม่มีการเปลี่ยนแปลงใดๆทั้งสิ้น. ไม่เหมือนกับการสุ่มไพ่จากสำรับสองครั้ง(โดยไม่เอาใบแรกที่สุ่มออกมา กลับเข้าไปใส่ไว้ในกองอีก) ซึ่งทำให้ความน่าจะเป็นครั้งแรก กับครั้งที่สอง มีค่าไม่เท่ากัน แบบนี้ไม่เรียกว่า Independence.
ถ้าเหตุการณ์ A ไม่มีผลกระทบต่อเหตุการณ์ B ดังนั้น
เราสามารถใช้สมการนี้ไปเช็กได้ว่า เหตุการณ์สองอย่างมัน independence กันหรือไม่ ถ้าเหตุการณ์สองเหตุการนั้นเป็นแบบ
วิธีการคำนวณหาค่าความน่าจะเป็นสำหรับเหตุการณ์สองอย่างที่ไม่เกี่ยวข้องกัน จะได้
ถ้า A กับ B มีความสัมพันธ์กันแบบ independent ดังนั้น
หรือ
ถ้า A และ B เป็น independence สามารถเขียนเป็นสัญลักษณ์ได้
Conditional Independence:
ถ้า R กับ B มีความสัมพันธ์กันแบบ independence และมี Condition Y เข้ามาเกี่ยวข้อง แต่การมาของ Y พอนำไปจับกับ R แล้วไม่ได้บอกข้อมูลอะไรเกี่ยวกับ B เลย. และในทางตรงข้าม พอเอา Y ไปจับกับ B ก็ไม่ได้บอกความน่าจะเป็นเกี่ยวกับ R เช่นกัน เราเรียกสถานการณ์แบบนี้ว่า Conditional Independence. พูดอีกแบบคือ
สองรูปนี้คือตัวอย่างของ Conditional independence . แต่ละช่องคือความน่าจะเป็นของสีนั้นๆ R = Red , B = Blue และ Y = Yellow. สีม่วงคือความน่าจะเป็นที่เป็นได้ทั้งสีแดง และน้ำเงิน (เหมือนมีสองชั้นทับกันอยู่). จากรูปทั้งสอง R กับ B เป็น conditional independence ที่เกี่ยวเนื่องกับ Y เขียนได้ว่า
แต่เรารู้ว่าถ้า
เขียนในรูปทั่วไปได้ดังนี้
https://ocw.mit.edu/courses/sloan-school-of-management/15-063-communicating-with-data-summer-2003/lecture-notes/lecture6.pdf
http://www.henry.k12.ga.us/ugh/apstat/chapternotes/7supplement.html
https://www.youtube.com/watch?v=JGeTcRfKgBo
https://en.wikipedia.org/wiki/Conditional_independence
https://www.khanacademy.org/math/ap-statistics/analyzing-categorical-ap/distributions-two-way-tables/v/marginal-distribution-and-conditional-distribution
http://www.henry.k12.ga.us/ugh/apstat/chapternotes/7supplement.html
https://www.youtube.com/watch?v=JGeTcRfKgBo
https://en.wikipedia.org/wiki/Conditional_independence
https://www.khanacademy.org/math/ap-statistics/analyzing-categorical-ap/distributions-two-way-tables/v/marginal-distribution-and-conditional-distribution