บทคัดย่อ
การศึกษาวิจัยเรื่องนี้ มีวัตถุประสงค์เพื่อ 1) วิเคราะห์ปัจจัยที่ส่งผลต่อการพ้นสภาพของนักศึกษาทั้งในภาพรวมและแยกตามกลุ่มของเกรดเฉลี่ยสะสม ด้วยการคัดเลือกคุณลักษณะแบบ Correlation-based Feature Selection (CFS) และ Information Gain (IG) 2) สร้างและเปรียบเทียบประสิทธิภาพของตัวแบบในการวิเคราะห์ปัจจัยที่ส่งผลต่อการพ้นสภาพของนักศึกษา ทั้งในภาพรวมและแยกตามกลุ่มของเกรดเฉลี่ยสะสมด้วยวิธีต้นไม้ตัดสินใจ โดยใช้คุณลักษณะที่ศึกษาทั้งหมด และคุณลักษณะที่ได้จากการคัดเลือกด้วยวิธี CFS และ IG ข้อมูลที่ใช้ในการศึกษา คือ นักศึกษาระดับปริญญาตรี ภาคปกติ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏสกลนคร ที่เริ่มเข้าศึกษาตั้งแต่ปีการศึกษา 2554-2559 และมีผลการเรียนปกติ จากฐานข้อมูลนักศึกษาของสำนักส่งเสริมวิชาการและงานทะเบียน มหาวิทยาลัยราชภัฏสกลนคร ในภาพรวมใช้ข้อมูลทั้งหมด จำนวน 2,204 ระเบียน และแยกตามกลุ่มของเกรดเฉลี่ยสะสม 3 กลุ่ม ได้แก่ กลุ่ม Medium ใช้ข้อมูลจำนวน 325 ระเบียน กลุ่ม Good ใช้ข้อมูลจำนวน 897 ระเบียน และกลุ่ม Best ใช้ข้อมูลจำนวน 982 ระเบียน คุณลักษณะที่ใช้ในการศึกษา มีจำนวนทั้งสิ้น 14 ตัวแปร ประกอบด้วย คุณลักษณะที่เป็นตัวแปรอิสระ จำนวน 13 ตัวแปร และคุณลักษณะที่ใช้ในการแบ่งคลาส จำนวน 1 ตัวแปร คณะผู้วิจัยดำเนินการสร้างตัวแบบโดยใช้เทคนิคการทำเหมืองข้อมูลแบบการจำแนกประเภทข้อมูลด้วยวิธีต้นไม้ตัดสินใจ อัลกอริทึม J48 และได้แบ่งข้อมูลสำหรับสร้างและทดสอบตัวแบบด้วยเทคนิควิธี 10-Fold Cross-Validation โดยใช้โปรแกรม Weka เป็นเครื่องมือดำเนินการสร้างตัวแบบ ผลการวิเคราะห์สรุปได้ดังนี้ ปัจจัยที่ส่งผลต่อการพ้นสภาพของนักศึกษาในภาพรวม ด้วยวิธี CFS มี 3 ปัจจัย คือ ปีการศึกษาที่เข้าศึกษาของนักศึกษา (YEAR_IN) สถานภาพของบิดาและมารดา (STA_pa) และเกรดเฉลี่ยสะสม (GPA) ด้วยวิธี IG มี 5 ปัจจัย คือ เกรดเฉลี่ยสะสม (GPA) ปีการศึกษาที่เข้าศึกษาของนักศึกษา (YEAR_IN) สาขาวิชาที่เรียน (PROGRAM) อาชีพของมารดา (OCCU_mom) และเกรดเฉลี่ยสะสมจากโรงเรียนเดิม (GPA_sc) เมื่อแยกตามกลุ่มของเกรดเฉลี่ยสะสมของนักศึกษา ปัจจัยที่ส่งผลต่อการพ้นสภาพของนักศึกษา กลุ่ม Medium ด้วยวิธี CFS มี 2 ปัจจัย คือสาขาวิชาที่เรียน (PROGRAM) และปีการศึกษาที่เข้าศึกษาของนักศึกษา (YEAR_IN) ด้วยวิธี IG มี 7 ปัจจัย คือ สาขาวิชาที่เรียน (PROGRAM) ปีการศึกษาที่เข้าศึกษาของนักศึกษา (YEAR_IN) อาชีพของบิดา (OCCU_fa) สถานะของบิดาและมารดา (STA_pa) อาชีพของมารดา (OCCU_mom) ภูมิลำเนา (PROVINCE) และรายได้ของบิดา (INC_fa) กลุ่ม Good ด้วยวิธี CFS มี 2 ปัจจัย คือ ปีการศึกษาที่เข้าศึกษาของนักศึกษา (YEAR_IN) และอาชีพของมารดา (OCCU_mom) ด้วยวิธี IG มี 4 ปัจจัย คือ ปีการศึกษาที่เข้าศึกษาของนักศึกษา (YEAR_IN) สาขาวิชาที่เรียน (PROGRAM) อาชีพของบิดา (OCCU_fa) และอาชีพของมารดา (OCCU_mom) และกลุ่ม Best ด้วยวิธี CFS มี 6 ปัจจัย คือ สาขาวิชาที่เรียน (PROGRAM) เกรดเฉลี่ยสะสมจากโรงเรียนเดิม (GPA_sc) สถานะของมารดา (STA_mom) สถานะของบิดาและมารดา (STA_pa) อาชีพของมารดา (OCCU_mom) และรายได้ของมารดา (INC_mom) ด้วยวิธี IG มี 3 ปัจจัย คือ สาขาวิชาที่เรียน (PROGRAM) อาชีพของมารดา (OCCU_mom) และรายได้ของมารดา (INC_mom) ตัวแบบและผลการเปรียบเทียบประสิทธิภาพของตัวแบบในภาพรวม สรุปได้ว่าตัวแบบต้นไม้ตัดสินใจที่ได้จากการปรับค่า mNO เท่ากับ 6 ของกลุ่มที่ผ่านกระบวนการคัดเลือกคุณลักษณะด้วยวิธี CFS เป็นตัวแบบที่เหมาะสมที่สุด ให้ค่าความถูกต้อง (Accuracy) 92.0599% กลุ่ม Medium สรุปได้ว่าตัวแบบต้นไม้ตัดสินใจของกลุ่มที่ผ่านกระบวนการคัดเลือกคุณลักษณะด้วยวิธี CFS ที่ได้จากการปรับค่า mNO เท่ากับ 4 และ 5 เป็นตัวแบบที่เหมาะสมที่สุด ซึ่งต่างให้ค่าความถูกต้องสูงสุด คือ 79.6923% กลุ่ม Good สรุปได้ว่าตัวแบบต้นไม้ตัดสินใจของกลุ่มที่ผ่านกระบวนการคัดเลือกคุณลักษณะด้วยวิธี CFS ที่ได้จากการปรับค่า mNO เท่ากับ 2 เป็นตัวแบบที่เหมาะสมที่สุด ซึ่งให้ค่าความถูกต้องสูงสุด 93.757% และกลุ่ม Best สรุปได้ว่าตัวแบบต้นไม้ตัดสินใจของกลุ่มที่ผ่านกระบวนการคัดเลือกคุณลักษณะด้วยวิธี IG ที่ได้จากการปรับค่า mNO เท่ากับ 3 เป็นตัวแบบที่เหมาะสมที่สุด ซึ่งให้ค่าความถูกต้องสูงสุด 96.0285%
Abstract
The purposesof this research were to: 1) analyze factors affecting student dismissal in overall and classified by grade point average (GPA) using the performance of feature selection methods, such as Correlation-based Feature Selection (CFS) and Information Gain (IG); 2) create and compare the performance model which analyzed factors affecting student dismissal overall and classified by GPA using Decision Tree, which was implemented for all features and for the features selected by CFS and IG. This paper used data from undergraduate students enrolled from 2011 to 2016 and received a normal grade in regular programs in the Faculty of Science and Technology at Sakon Nakhon Rajabhat University (SNRU). The data were collected from the Office of Academic Promotion and Registration database at SNRU with the 2,204 records in overall, and classified by GPA, dividing into three groups: 325 records from a medium group, 897 records from a good group, and 982 records from the best group. In this research, there were 14 variables consisting of 13 independent variables and one class variable. Decision Tree and the J48 algorithm were used for classifying data mining techniques to create the model. Data were divided into a training set and a testing set based on 10- fold cross-validation by using Weka Program. The results found that overall factors affecting the dismissal of students via CFS method consisted of three factors, including year of entry, parental status, and GPA. For IG method, there were five factors, including GPA, year of entry, study program, mother’s occupation, and GPA from previous schools. When dividing the students according to GPA, factors affecting student dismissal were divided into three groups: medium, good and best groups. For CFS method, in a medium group, there were two factors, including study program and year of entry. For IG method, there were seven factors, including study program, year of entry, father occupation, parental status, mother’s occupation, province, and father’s income. For CFS method, in the good group, there were two factors, including year of entry and mother’s occupation. For IG method, there were four factors, including year of entry, study program, father occupation, and mother’s occupation. For CFS method, in the best group there were six factors, including study program, GPA from previous schoosl, mother’s status, parental status, mother’s occupation, and mother’s income. For IG method, there were three factors, including study program, mother’s occupation, and mother’s income. For creating and comparing the performance of model in overall, a decision tree model was drawn from adjusting the mNO value equal to six groups who were selected with CFS feature selection with the appropriate performance with 92.0599 percent accuracy. The medium group reported that a decision tree model with CFS feature selection drawn from adjusting the mNO value equal to four and five was the appropriate performance with 79.6923 percent accuracy. In addition, decision tree model with CFS feature selection drawn from adjusting the mNO value equal to two was the appropriate performance with 93.757 percent accuracy, whereas the decision tree model with IG feature selection drawn from adjusting the mNO value equal to three was the best performance for the best group with 96.0285 percent accuracy.
คำสำคัญ
เหมืองข้อมูล, ต้นไม้ตัดสินใจ, เทคนิค Correlation-based Feature Selection (CFS), เทคนิค Information Gain (IG), ปัจจัยที่ส่งผลต่อการพ้นสภาพนักศึกษาKeyword
Data Mining, Decistion Tree, Correlation-based Feature Selection (CFS), Information Gain (IG), Factors Affecting Student Dismissalกำลังออนไลน์: 12
วันนี้: 655
เมื่อวานนี้: 1,300
จำนวนครั้งการเข้าชม: 971,690
อาคารบัณฑิตวิทยาลัย ชั้น 3 เลขที 680 หมู่ที่ 11 ตำบลธาตุเชิงชุม อำเภอเมือง จังหวัดสกลนคร 47000 โทรศัพท์/ โทรสาร 0-4297-0033
บรรณาธิการ: รองศาสตราจารย์ ดร.สำราญ กำจัดภัย
ติดต่อ/สอบถาม: นางสาวศิวาภรณ์ เก่งสุวรรณ์
โทร: 0-4297-0033