Posts

Logistic Regression Model

Image
โรงงานผลิตไมโครชิพแห่งหนึ่ง เมื่อผลิตไมโครชิพเสร็จแล้ว ก็จะมีกระบวนการตรวจสอบมาตฐานไมโครชิพอยู่ด้วยกัน 6 แบบทดสอบ ก่อนที่จะถูกรับรองมาตรฐานและแพคเข้าบรรจุภัณฑ์ ในแต่ละด่านการทดสอบ ก็จะมีค่าใช้จ่ายในกระบวนการ. สำหรับด่านแรก คิดเป็นเงิน 5% ของค่าใช้จ่ายทั้งหมด ด่านที่สองอีก 5% ดังภาพข้างต้น. ชิพบางอันผ่านการทดสอบทั้งห้าด่านแรก แต่ไปตกด่านที่หก ก็ต้องถูกนำมาแยกชิ้นส่วนเพื่อเข้าสู่จุดเริ่มต้นการผลิตใหม่ จนกว่าจะผ่านการทดสอบทั้งหกด่าน ถึงจะสามารถนำออกสู่ตลาดได้  คราวนี้บริษัทต้องการลดต้นทุนการผลิต และต้องการประหยัดเวลาในการทดสอบ โดยอยากทำนายว่าชิพแต่ละอันจะผ่านทั้งหกด่านหรือไม่ ด้วยการพิจารณาข้อมูลที่วัดได้จาการทดสอบที่หนึ่ง กับสอง (เพราะมีค่าใช้จ่ายน้อย และไม่เสียเวลาในการทดสอบมาก) จากข้อมูลสองอย่างนี้ เขาอยากทำนายว่าควรจะส่งเข้าแบบทดสอบต่อไปหรือเปล่า หรือควรจะนำกลับไปผลิตใหม่ทันที และไม่ต้องเสียค่าใช้จ่ายอีก 90% ที่เหลือ. ตัวอย่างค่าที่วัดได้จากด่านที่หนึ่ง และด่านที่สอง กับผลลัพท์สุดท้ายเมื่อทดสอบไปหมดทั้งหกด่าน Test 1 Test 2 Final Result 0.051267 0.69956 Acc...

Probability (Part 3)

Image
โพสนี้เราจะมาดูเรื่อง Probability Distribution ต่อจาก Part 2  . Multinoulli Distribution. คำถามที่ 1 มีขวดโหลทั้งหมด 6ขวด แต่ละขวดบรรจุลูกบอลไว้เหมือนกันหมด ทั้งสีและจำนวน แต่ละขวดมีลูกบอลในนั้นดังนี้ สีแดง 3 ลูก สีน้ำเงิน 8 ลูก และสีเขียว 9 ลูก. คำถามคือ ถ้าจับลูกบอลออกมาขวดละลูก (ก็จะได้รวมกันทั้งหมด 6 ลูก) โอกาสที่จะได้ สีแดง 1 ลูก มีน้ำเงิน 2 ลูก และสีเขียว 3 ลูก มีค่าเป็นเท่าไหร่ ? คำถามที่ 2 คำถามนี้อาจถามได้อีกอย่างเช่น ถ้ามีขวดโหล 1 ขวด ดังภาพข้างบน แล้วจับลูกบอลออกมา 1 ลูก แล้วใส่กลับเข้าไปใหม่ ทำแบบนี้ 6 ครั้ง โอกาสที่จะได้ สีแดง 1 ครั้ง สีน้ำเงิน 2 ครั้ง และสีเขียว 3 ครั้ง มีค่าเป็นเท่าไหร่ คำถามสองข้อข้างบนนั้นเหมือนกัน ข้อสังเกตแรกคือเราไม่สนใจเรื่องลำดับ เช่น การจะได้สีน้ำเงิน 2 ลูก เราไม่สนใจว่าจะได้จากขวดที่เท่าไหร่ แต่ขอให้ได้ 2 ลูกก็พอ จะมาจากขวดไหนก็ได้ โอกาสความน่าจะเป็นที่จะได้ผลลัพท์เหมือนในวงกลมสีดำ เรียกว่า  Multinoulli Distribution. การจะหาความน่าจะเป็น โดยใจความสำคัญคือ รูปแบบที่ต้องการ หารด้วย รูปแบบทั้งหมดที่สามารถเกิดขึ้นได้ ...

Probability (Part 2)

Image
Expectation, Variance, and Covariance. Slot Machine คือเครื่องเล่นการพนันชนิดหนึ่ง กติกาคือกดปุ่มเล่น แล้วนั่งลุ้นดูที่หน้าจอว่าได้รูปภาพอะไรบ้าง ถ้าได้ครบตามรูปแบบที่ตู้บอก ก็จะได้รางวัลตามนั้น เช่นตู้แรกจากทางซ้ายมือ ถ้าได้เลข 7 สามตัว ก็จะได้ 60 เท่า ของเงินที่ลงไปในตานั้นๆ เช่นถ้าเล่นเกมส์ละ 10$ แล้วกดได้ 777 ก็จะได้ไปเลย 600$ หรือประมาณ 18,000 กว่าบาทกลมๆ น่าสนใจไหม? แต่ก่อนอื่น มีคำถามน่าคิดอยู่สองข้อคือ แต่ละตาที่ลงพนันไป โอกาสที่จะได้เงินหรือเสียเงินเป็นเท่าไหร่โดยเฉลี่ย ? (Expectation) โอกาสที่จะแจ็คพอตแล้วได้เงินหลายร้อยเท่านั้น มีความเป็นไปได้มากน้อยขนาดไหน ?  (Variance) โพสนี้เราจะไปค้นหาความจริงเบื้องหลังของเรื่องพวกนี้กัน. แต่การที่จะเอากฏพวกนี้มาคำนวนหาค่าจริงๆ เราต้องอาศัยข้อมูลที่มากกว่าที่เห็นโชว์บนหน้าจอของแต่ละตู้ ซึ่งคนผลิตไม่ได้บอกเอาไว้ ซึ่งเขาก็ไม่อยากให้เรารู้อยู่แล้ว อย่างไรก็ตาม ในที่นี้เราจะใช้ค่าสมมุติค่าความน่าจะเป็นที่คิดว่าไม่น่าห่างจากความเป็นจริงไปมากนัก กฏที่เราตั้งขึ้นมานี้จะได้ว่า แต่ละเกมส์มีการลงเงินไว้ที่ 1$, ถ้าได้เพชร 3 อั...

Probability (Part 1)

Image
Discrete random variable : ตัวแปรที่ได้มาโดยการนับเอา จากการสุ่ม มีลักษณะที่แยกออกจากกันได้ จำนวนครั้งในการออกหัว เวลาโยนเหรียญ จำนวนลูกบอลสีฟ้าในขวดโหล (มีลูกบอลหลายสีในขวดโหล) แต่ไม่ใช่ทุกค่าที่สามารถนับได้ ! บางทีก็ต้องวัดเอา Continuous random variable : ตัวแปรที่ได้มาโดยการวัด (ค่า ขนาด) ที่สามารถแยกออกเป็นช่วงๆได้ มีเรื่องของความละเอียดไปเกี่ยวข้องกับข้อมูล ส่วนสูงของนักเรียนในห้อง เวลาที่ใช้ในการเดินทางจากที่หนึ่งไปอีกที่หนึ่ง Probability mass function : (PMF) ใข้กับ discrete variable. โดยปกติแล้วจะใช้สัญลักษณ์   P และมักใส่ตัวแปรไว้ในฟังก์ชั่นนี้ นั่นก็คือความน่าจะเป็นที่จะเกิดขึ้นสำหรับตัวแปรนั้นๆ เช่น P(x) ; ซึ่ง P(x) ก็จะเป็นคนละตัวกับ P(y) P(x) = 1 หมายความว่า โอกาสทีจะสุ่มได้ x คือ 100% P(x) = 0 หมายความว่า โอกาสทีจะสุ่มได้ x คือไม่มีทางเกิดขึ้นเลย P(x) สามารถเขียนได้อีกแบบว่า P(\text{x} = x) x \sim P(\text{x}) ก็คือความหมายเดียวกัน เหมือนข้อข้างบน เพียงแค่เอาตัวแปรมาก่อน ไม่ได้หมายความว่าเป็นค่าประมาณ Joint Probability: ความน่าจะเ...

Principal Components Analysis

Image
สมมุติว่าเรามีข้อมูลอัตราแลกเปลี่ยนเงินตราในแต่ละวัน และแต่ละวันนั้นก็มีข้อมูลประกอบต่างๆเช่น อัตราดอกเบี้ย ปริมาณการนำเข้าส่งออก หนี้สาธารณะ ความมั่นคงทางการเมือง ฯลฯ ของแต่ละประเทศ และสมมุติว่าเราสามารถวัดค่าพวกนั้นออกมาเป็นตัวเลขได้ เราก็จะได้ตารางประมาณนี้ Date Country Buy Sell Differentials in Inflation Differentials in Interest Rates Current-Account Deficits Public Debt Terms of Trade Political Stability Economic Performance 230517 USA 35 34 45 54 12.2 96 24 2 9 230517 AUD 30 29 52 44 15.8 78.9 30 4 7 230517 X ? ? ? ? ? ? ? ? ? 250517 Y ? ? ? ? ? ? ? ? ? 250517 Z ? ? ? ? ? ? ? ? ? 250517 . . . . . . . . . . 250517 . . . . . . . . . . *ตารางที่ยกมานี้เป็นเพียงข้อมูลสมมุติที่ใส่ไว้เพื่อให้พอเห็นภาพ จากตาราง สมมุติว่าเราพยายามวิเคราะห์ความสัมพันธ์ของข้อมูล ก็จะเห็นความเกี่ยวโยงกันอยู่เช่น ความแข็งอ่อนของค่าเงินมีผลโดยตรงกับเศรษฐกิจ การเมือง การนำเข้าส่งออก แต่บางทีการนำเข้าส่งออกกับการเมืองก็สวนทางกัน ทำให้เรตในแต่ละวันก็ออกมาแตกต่างกั...