Mind Analytica

ข้อมูลสุดโต่งและข้อมูลที่มีอิทธิพล

21 พฤศจิกายน 2566 - เวลาอ่าน 1 นาที
ข้อมูลสุดโต่งและข้อมูลที่มีอิทธิพล

เมื่อข้อมูลของคนไม่กี่คนส่งผลต่อคนหมู่มาก

การศึกษาวิจัยหลายครั้งมักจะพบว่าในกลุ่มตัวอย่างมีข้อมูลบางข้อมูลบางข้อมูลที่คะแนนสูงหรือต่ำอย่างไม่คาดคิดและนำไปสู่ผลการวิเคราะห์ข้อมูลที่คลาดเคลื่อนเป็นสิ่งที่ไม่พึงประสงค์ในการวิจัย ข้อมูลดังกล่าวซึ่งส่งผลต่อผลการวิเคราะห์ แบ่งได้เป็น 2 ประเภท คือ ข้อมูลสุดโต่ง (Outliers) และข้อมูลที่มีอิทธิพล  (Influential cases)

ข้อมูลสุดโต่ง (Outliers) คือข้อมูลที่มีค่าแตกต่างไปจากกลุ่มตัวอย่างหรือประชากรอย่างสิ้นเชิง

อย่างเช่น ในกลุ่มตัวอย่างนักเรียนมีเกรดอยู่ใน่ชวง 2.0 - 3.2 แต่มีนักเรียนอยู่หนึ่งคนที่มีเกรด 4.0 นอกจากนี้ยังข้อมูลสุดโต่งอาจขึ้นอยู่กับตัวแปรมากกว่า 1 ตัว อย่างเช่น คนไทยคนหนึ่งมีส่วนสูง 180 ซม. ซึ่งเป็นช่วงความสูงที่อาจพบได้ทั่วไปในคนไทย แต่หากคนไทยดังกล่าวมีอายุเพียง 11 ปี เด็กคนดังกล่าวจึงนับได้ว่าเป็นข้อมูลสุดโต่งได้เช่นกัน

ส่วนข้อมูลที่มีอิทธิพล (Influential cases) คือข้อมูลสุดโต่งที่ทำให้ผลการวิเคราะห์ข้อมูลหนึ่งเปลี่ยนแปลงไป

ยกตัวอย่างกรณีสมมติในการทดสอบผลการบำบัดทางจิตวิทยาประเภทหนึ่งเพื่อลดความวิตกกังวล โดยการเก็บข้อมูลกลุ่มตัวอย่างที่เข้ารับการบำบัดจำนวน 100 คน เปรียบเทียบกับกลุ่มตัวอย่างที่ไม่ได้เข้ารับการบำบัด ผลพบว่ากลุ่มตัวอย่างที่ผ่านการบำบัดมีคะแนนความวิตกกังวลต่ำกว่ากลุ่มที่ไม่ได้ผ่านการบำบัด นักวิจัยจึงสรุปผลว่าการบำบัดความวิตกกังวลด้วยวิธีการดังกล่าวมีประสิทธิภาพ แต่เมื่อกลับมาสังเกตข้อมูลการตอบแบบทดสอบถามความวิตกกังวล กลับพบว่ามีผู้เข้ารับการบำบัดจำนวนเพียง 4 - 5 คนที่มีคะแนนความวิตกกังวลลดต่ำลงกว่าปกติ ในขณธที่ผู้เข้ารับการบำบัดที่เหลือทั้งหมดยังมีคะแนนความวิตกกังวลที่สูง สังเกตได้ว่าผลจากกลุ่มตัวอย่างจำนวน 4 - 5 คนทำให้ค่าเฉลี่ยคะแนนความวิตกกังวลของกลุ่มตัวอย่างที่เข้ารับการบำบัดทั้งหมดต่ำลงกว่าที่ควรเป็น จะเห็นได้ว่าข้อมูลสุดโต่งดังกล่าวเป็นข้อมูลที่มีอิทธิพลด้วย

ถ้าหากข้อมูลสุดโต่งไม่ได้ทำให้ผลการวิเคราะห์ข้อมูลเปลี่ยนแปลงไปจะไม่ถูกนับเป็นข้อมูลที่มีอิทธิพล นอกจากนี้ข้อมูลสุดโต่งหนึ่งอาจมีอิทธิพลกับการวิเคราะห์หนึ่ง แต่อาจไม่มีผลต่อการวิเคราะห์หนึ่งก็ได้ เช่น กรณีนักเรียนที่ได้ผลการเรียน 4.0 ในตัวอย่างที่ผ่านมาเป็นข้อมูลที่มีอิทธิพลในการหาค่าเฉลี่ยของผลการเรียน แต่ถ้านำผลการเรียนไปทำนายผลคะแนนการสอบเข้ามหาวิทยาลัย โดยการเปรียบเทียบระหว่างสองกรณีคือนำนักเรียนที่มีผลการเรียน 4.0 เข้า หรือ ไม่เข้า ไปในการวิเคราะห์ผล แล้วผลลัพธ์การทำนายคะแนนสอบเข้ามหาวิทยาลัยด้วย GPA ไม่แตกต่างกัน ข้อมูลสุดโต่งในกรณีนี้จึงไม่นับเป็นข้อมูลที่มีอิทธิพล

หากนักวิจัยพบข้อมูลสุดโต่งและข้อมูลที่มีอิทธิพลจึงควรเริ่มต้นด้วยการพิจารณาถึงสาเหตุที่ทำให้เกิดข้อมูลสุดโต่งดังกล่าวอาจเกิดจาก

1. ความเป็นไปได้ว่าการจัดการข้อมูลอาจเกิดความผิดพลาด เช่น การกรอกข้อมูลผิด การลืมกลับคะแนน การแก้ไขข้อมูลโดยบังเอิญ หรือการไม่ได้กำหนดตัวเลขสำหรับข้อมูลสูญหาย เป็นต้น 

2. ข้อมูลการตอบจากกลุ่มตัวอย่างไม่มีคุณภาพ เช่น ผู้ตอบใช้เวลาอย่างรวดเร็วในการตอบคำถาม สามารทำให้เชื่อได้ว่าผู้ตอบไม่ได้อ่านข้อคำถาม เป็นต้น 

หากเกิดจากกรณีนี้ 

การจัดการกับข้อมูลสุดโต่งและข้อมูลที่มีอิทธิพล ผู้วิจัยควรตัดข้อมูลของกลุ่มตัวอย่างคนดังกล่าวออกจากการวิเคราะห์ข้อมูล เพื่อให้ผลการวิเคราะห์สะท้อนความเป็นจริงมากที่สุด

แต่หากข้อมูลสุดโต่งเป็นธรรมชาติของกลุ่มตัวอย่างอยู่แล้ว เช่น นักเรียนที่มีผลการเรียน 4.0 ในขณะที่นักเรียนคนอื่นในห้องมีผลการเรียน 2.0 - 3.2 กรณีนี้จึงยังนับได้ว่าเป็นกลุ่มตัวอย่างตามธรรมชาติจริง คะแนนของนักเรียนคนดังกล่าวจะยังไม่ถูกนำออกจากการวิเคราะห์ หรืออาจนำไปสู่การวิเคราะห์แยกระหว่างการวิเคราะห์ในกลุ่มนักเรียนที่มีผลการเรียน 4.0 และอีกกลุ่มที่มีคะแนนต่ำกว่า จากนั้นจึงทำการอภิปรายผลตามสิ่งที่เกิดขึ้นจริง

นอกจากนี้ความรู้ทางสถิติขั้นสูงได้เสนอการวิเคราะห์ผสม (Finite Mixture Model) ซึ่งทำการวิเคราะห์ว่าอาจมีกลุ่มย่อยในกลุ่มตัวอย่างหรือไม่ เช่น ในกรณีการวิเคราะห์ผลการบำบัดทางจิตวิทยาพบว่ามีผู้เข้ารับการบำบัด 4 - 5 คนได้ผลดี แต่ผู้เข้ารับการบำบัดคนที่เหลือไม่ได้ผลดี การวิเคราะห์ผสมสามารถบอกได้ว่า มีการแบ่งผลการบำบัดออกเป็นกลุ่มย่อย 2 กลุ่ม คือ กลุ่มที่ได้ผลดี และกลุ่มที่ไม่ได้ผล นักวิเคราะห์ยังสามารถนำผลไปสำรวจเพิ่มเติมได้อีกว่า กลุ่มผู้เข้ารับการบำบัดที่ได้ผลดีมีลักษณะร่วมอย่างอื่นเป็นอย่างไร และกลุ่มที่ไม่ได้ผลมีลักษณะอย่างไร จึงนำไปสู่ความเข้าใจประสิทธิภาพของการบำบัดมากขึ้น

ผู้เขียน

MindAnalytica Team

MindAnalytica Team

เรื่องที่คุณอาจสนใจ