RSS

วันเสาร์ที่ 21 มกราคม พ.ศ. 2555

ทำไมต้องหาร n-1 ใน SD. กลุ่มตัวอย่าง

     เรื่องคราวนี้ก็ต่อกันมาจากของคราวที่แล้วนะครับ ที่เล่ากันค้างไว้ เกี่ยวกับค่าสถิติที่ไว้บ่งบอกว่าการกระจากตัวของข้อมูล ตามตำราที่รำเราเรียนกันมาแล้วเวลามีข้อมูล แล้วอยากรู้ว่ามันกระจายกันมากแค่ไหน เราก็จะมีวิธีกันหลายแบบ อย่างเช่นใช้ พิสัย, ส่วนเบี่ยงเบนเฉลี่ย, ส่วนเบี่ยงเบนควอไทน์, ส่วนเบี่ยงเบนมาตรฐาน หรือ จะคิดเป็นสัมประสิทธ์ ก็แล้วแต่ วันนี้เราขอมุ่งไปที่ SD(Standard Deviation) ส่วนเบี่ยงเบนมาตรฐาน
   ปัญหาที่อาจจะตามมากวนใจหลายๆ คนก็คือ ทำไม SD ของกลุ่มตัวอย่าง จึงต้องเอามาหารด้วย n-1 แทนที่จะเป็น n ตามคอมมอนเซ็น หรือตามแบบ กลุ่มประชากร
   บางคนคาใจมากก็อาจจะเก็บไปถามอาจารย์ คำตอบที่คุณอาจจะได้รับก็คือ

 
ก็เขาว่าหาร ด้วย n-1 แล้วมันจะแม่นยำกว่า” 
หรือ
“มันคือตัวประมาณที่ไม่เอนเอียง ของ σ2  ” แล้วทำไมมันถึงจะเอนเอียงละครับ /ll--
หรือ
อ๋อ คือ มันเป็น Degree of freedom(Df) เราต้องเอา Df ไปหารออก แล้วไอ้ Df ที่ว่ามันคืออะไร /O_O แล้วเกี่ยวกันไง
หรือ
“ไม่รู้... เห็นเขาทำก็ทำๆ ตามเขาไปเถอะ”   /yuush

ซึ่งดูแล้วไม่มีคำตอบไหน ตอบได้ตรงใจเราซักทีเลย /piss

/wik และแล้ววันนี้ก็ มาเสนอ อีกคำตอบหนึ่ง แบบส่วนตัวคิดว่าดี
หมายเห็ด: ที่จะให้ดูต่อไปนี้คือ สิ่งที่ผมคิดว่ามันถูก ไม่ได้แปลว่ามันถูก ผิด/ถูกอย่างไง มาคุยกันหน่อยก็ดีครับ /yo

เราต้องขอเริ่มจาก สิ่งต่างๆ ที่จะต้องใช้กันก่อน สำหรับคนที่อาจจะไม่มีพื้นฐาน
ให้ N เป็นจำนวนของประชากรทั้งหมด x เป็นค่าของข้อมูลแต่ละค่า ค่าเฉลี่ยคือ
กำลังสองค่าส่วนเบี่ยงเบนมาตรงหรือความแปรปรวนคือ
/faill ส่วนของกลุ่มตัวอย่างที่อยู่ n จำนวน คือ
และความแปรปรวนของกลุ่มนี้ คือ
/mah และ E(x) คือฟังชั่นของค่าคาดหวังของ x โดยการเอาค่าความน่าจะเป็นที่จะเกิด x คูณ กับค่าของ x หรือถ้าจะมองอีกแง่ก็คือ ค่าเฉลี่ยของ x นั้นเอง
การที่เราจะบอกว่า ค่า SD ที่หารด้วย n-1 นั้นเป็นการประมาณที่ไม่เอนเอียง ของ σ /whisper
นั้นคือ โดยเฉลี่ยแล้ว SD นั้น มีค่าเป็น σ หรือเขียนได้เป็น
 
ทีนี้เราลองมาประจายกันดู
 
เอาค่าเฉลี่ยของประชากรซึ่งเป็นค่าคงที่บวกเข้าลบออกแล้วจัดรูป
 
/relief เสร็จแล้วก็นั่งพักหายใจก่อนจะกระจายกำลังสองเข้าไป
 
แล้วก็ใช้สมบัติอันมีค่าของฟังก์ชั่นกระจายการบวกนี้เข้าไป /-3-
 
ทีนี้มาดูกันทีละพจน์ครับ เริ่มจาก กันก่อน /enjoy
 
ต่อไปก็เหลือแต่ กันนะครับขั้นแรกคือการกระจาย /music
ตรงนี้ก็ขอแยกมาองทีละส่วน
แล้วก็เอากลับมารวมกัน


เนื่องจาก   
(ไม่เชื่อลองกลับบ้านไปสุ่มเลขมาใส่ดูได้ /EB) ทำให้เราสนใจเฉพาะพจน์หน้า
 
และที่เราทำมาก็แสดงให้เห็นว่า
 
ต่อไปเราก็ได้เวลาเอามารวมกันในสายใหญ่

และแล้วก็มาถึงส่วนที่เราแอบไม่เข้าใจซะเอง ว่าเป็นไงต่อ /dizzy แต่ถ้าให้เดาต่อก็คือ งานที่ N เราไม่อยากสนใจ จึงเลือกกรณีที่ N มีค่ามากกกกก จนประถึงขนาดไม่ต้องใส่ใจได้คือ
 
นั้นก็คือจบการพิสูจน์ /grin
ทีนี้ถ้าหากเราใช้ n เป็นตัวหาร
ค่าที่ได้ก็ไกล้เคียงกับความแปรปรวนแต่มันจะเอนเอียงเล็กน้อย ตามจำนวนตัวอย่างที่สุ่มมา ดังนั้นทางที่ดีที่สุดที่จะประมาณแบบไม่เอนเอียงก็คือการใช้ n-1 เป็นตัวหาร

0 ความคิดเห็น:

แสดงความคิดเห็น

Related Posts Plugin for WordPress, Blogger...

บทความที่ได้รับความนิยม