ส่วนประกอบหลักและค่าเอกลักษณ์เป็นแนวคิดที่แยกจากกันโดยสิ้นเชิง
ทั้งสองสิ่งนี้เกี่ยวพันกันอย่างลึกซึ้งผ่านการจัดศูนย์กลางข้อมูล เมื่อเมทริกซ์ข้อมูลถูกลบค่าเฉลี่ยออก ค่าเอกลักษณ์ของเมทริกซ์นั้นจะแปรผันตรงกับรากที่สองของค่าความแปรปรวนตามส่วนประกอบหลัก
แม้ว่านักวิทยาศาสตร์ข้อมูลจะพบเจอกับทั้งสองคำนี้บ่อยครั้งในการลดมิติข้อมูล แต่ส่วนประกอบหลัก (Principal Components Analysis: PCA) อธิบายทิศทางของความแปรปรวนสูงสุดในชุดข้อมูล ในขณะที่ค่าเอกลักษณ์ (Singular Values: SVD) วัดขนาดของการปรับขนาดตามแกนเรขาคณิตเหล่านั้นในระหว่างการแยกส่วนเมทริกซ์ การเข้าใจความเชื่อมโยงทางคณิตศาสตร์ระหว่างทั้งสองคำนี้เป็นสิ่งสำคัญสำหรับการเรียนรู้ขั้นตอนวิธีต่างๆ เช่น PCA และ SVD
เวกเตอร์ตั้งฉากที่ชี้ไปในทิศทางที่มีความแปรปรวนสูงสุด ช่วยลดความซับซ้อนและบีบอัดข้อมูลที่มีมิติสูง
ค่าในแนวทแยงของเมทริกซ์ค่าเอกฐาน แสดงถึงปัจจัยการปรับขนาดสัมบูรณ์ของการแปลงเชิงเส้น
| ฟีเจอร์ | ส่วนประกอบหลัก | ค่าเอกลักษณ์ |
|---|---|---|
| ที่มาทางคณิตศาสตร์ | เวกเตอร์ลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วม | ปัจจัยการแยกเมทริกซ์ (SVD) |
| การตีความทางเรขาคณิต | ทิศทางของความแปรปรวนสูงสุด | การปรับขนาดความยาวของแกนหลัก |
| ข้อกำหนดด้านข้อมูล | ต้องใช้ข้อมูลที่ปรับค่าเฉลี่ยแล้วจึงจะมีความหมายทางสถิติ | ใช้ได้กับเมทริกซ์สี่เหลี่ยมผืนผ้าหรือเมทริกซ์สี่เหลี่ยมจัตุรัสใดๆ ก็ได้ |
| ความสัมพันธ์กับค่าไอเกน | เท่ากับค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วม | เท่ากับรากที่สองของค่าลักษณะเฉพาะของผลคูณเมทริกซ์ |
| การใช้งานหลัก | การลดมิติและการสกัดคุณลักษณะ | การผกผันเมทริกซ์ การคำนวณผกผันเทียม และการประมาณค่าอันดับต่ำ |
| การพึ่งพาขนาด | เปลี่ยนแปลงอย่างมีนัยสำคัญโดยการเลื่อนหรือปรับขนาดข้อมูล | คุณสมบัติโดยธรรมชาติของเมทริกซ์เฉพาะที่กำลังถูกแยกส่วน |
| การตีความทางกายภาพ | แกนของทรงรีกลุ่มข้อมูล | ปัจจัยการยืดของทรงกลมหน่วยที่แปลงแล้ว |
ส่วนประกอบหลักแสดงถึงทิศทางเฉพาะที่ข้อมูลมีการเปลี่ยนแปลงมากที่สุด โดยทำหน้าที่เป็นแกนใหม่สำหรับระบบพิกัดที่ได้รับการปรับให้เหมาะสม ในทางตรงกันข้าม ค่าเอกลักษณ์เป็นปริมาณสเกลาร์ที่แสดงให้เห็นว่าเมทริกซ์ยืดหรือบีบอัดพื้นที่ตามแกนเหล่านั้นมากน้อยเพียงใด โดยค่าเอกลักษณ์จะบอกทิศทางของกลุ่มข้อมูล ในขณะที่ค่าเอกลักษณ์จะวัดขนาดของการแปลงนั้นเอง
โดยทั่วไปแล้ว การหาองค์ประกอบหลักนั้น คุณต้องคำนวณเวกเตอร์ลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมของชุดข้อมูล ค่าเอกลักษณ์เกิดขึ้นจากการแยกส่วนค่าเอกลักษณ์ (Singular Value Decomposition) ซึ่งเมทริกซ์ใดๆ จะแยกออกเป็นเมทริกซ์องค์ประกอบที่แตกต่างกันสามเมทริกซ์ เมื่อคุณปรับค่าเฉลี่ยของข้อมูลโดยการลบค่าเฉลี่ยออก ค่ากำลังสองของค่าเอกลักษณ์หารด้วยขนาดตัวอย่างลบหนึ่ง จะเท่ากับความแปรปรวนขององค์ประกอบหลักนั้นพอดี
ส่วนประกอบหลักจะเปลี่ยนแปลงอย่างมากหากคุณลืมปรับค่าเฉลี่ยหรือทำให้ข้อมูลเป็นมาตรฐาน เนื่องจากความแปรปรวนทางสถิติขึ้นอยู่กับจุดกำเนิดและมาตราส่วนของตัวแปรเป็นอย่างมาก อย่างไรก็ตาม ค่าเอกลักษณ์เป็นคุณสมบัติทางพีชคณิตพื้นฐานของเมทริกซ์ดิบที่ให้มา พวกมันไม่สนใจสมมติฐานทางสถิติ เว้นแต่ผู้ใช้จะสร้างเมทริกซ์ที่คล้ายกับเมทริกซ์ความแปรปรวนร่วมแบบมีค่าเฉลี่ยก่อนโดยเจตนา
นักวิเคราะห์ข้อมูลอาศัยส่วนประกอบหลัก (Principal Components Analysis: PCA) ในการแสดงภาพชุดข้อมูลที่ซับซ้อนและมีมิติสูงบนแผนภาพสองมิติที่เรียบง่าย ในทางกลับกัน วิศวกรด้านคอมพิวเตอร์วิชั่นใช้ค่าเอกลักษณ์ (Singular Values: SVD) สำหรับการบีบอัดภาพและระบบแนะนำผ่านการประมาณเมทริกซ์ที่มีอันดับต่ำ ที่จริงแล้ว SVD เป็นเครื่องมือเชิงตัวเลขที่นิยมใช้ใน PCA เพราะการคำนวณค่าเอกลักษณ์ช่วยหลีกเลี่ยงการสูญเสียความแม่นยำที่เกิดขึ้นเมื่อสร้างเมทริกซ์ความแปรปรวนร่วม
ส่วนประกอบหลักและค่าเอกลักษณ์เป็นแนวคิดที่แยกจากกันโดยสิ้นเชิง
ทั้งสองสิ่งนี้เกี่ยวพันกันอย่างลึกซึ้งผ่านการจัดศูนย์กลางข้อมูล เมื่อเมทริกซ์ข้อมูลถูกลบค่าเฉลี่ยออก ค่าเอกลักษณ์ของเมทริกซ์นั้นจะแปรผันตรงกับรากที่สองของค่าความแปรปรวนตามส่วนประกอบหลัก
คุณต้องคำนวณเมทริกซ์ความแปรปรวนร่วมเสมอเพื่อหาองค์ประกอบหลัก
ซอฟต์แวร์สมัยใหม่แทบจะไม่คำนวณเมทริกซ์ความแปรปรวนร่วมแล้ว เนื่องจากจะทำให้เกิดข้อผิดพลาดจากการปัดเศษตัวเลข แทนที่จะใช้วิธีนั้น อัลกอริทึมจะใช้การแยกค่าเอกลักษณ์ (SVD) กับเมทริกซ์ข้อมูลโดยตรง ซึ่งช่วยแยกส่วนประกอบหลักได้อย่างปลอดภัยและมีประสิทธิภาพมากกว่า
ค่าเอกลักษณ์อาจเป็นค่าลบได้หากข้อมูลแสดงความสัมพันธ์เชิงลบ
ค่าเอกลักษณ์ (Singular values) ตามนิยามแล้วคือรากที่สองที่เป็นบวกของค่าลักษณะเฉพาะ (eigenvalues) จากเมทริกซ์สมมาตร ค่าเหล่านี้จะเป็นจำนวนจริงที่ไม่เป็นลบเสมอ โดยแสดงถึงความยาวหรือปัจจัยการยืด ไม่ว่าจะมีสหสัมพันธ์ในข้อมูลดั้งเดิมหรือไม่ก็ตาม
การเพิ่มค่าคงที่ให้กับจุดข้อมูลทั้งหมดจะเปลี่ยนแปลงค่าเอกลักษณ์และส่วนประกอบหลักไปพร้อมกัน
การเลื่อนข้อมูลด้วยค่าคงที่ทำให้ค่าเอกลักษณ์เปลี่ยนแปลงไป เนื่องจากค่าในเมทริกซ์ดิบเปลี่ยนไป อย่างไรก็ตาม เนื่องจากส่วนประกอบหลักอาศัยเมทริกซ์ความแปรปรวนร่วม ซึ่งโดยธรรมชาติแล้วจะลบค่าเฉลี่ยออก การเลื่อนข้อมูลจึงไม่ทำให้ส่วนประกอบหลักเปลี่ยนแปลงไปโดยสิ้นเชิง
องค์ประกอบหลักตัวแรกมักจะรวบรวมข้อมูลที่มีค่าทั้งหมดไว้เสมอ
องค์ประกอบแรกจะจับเฉพาะค่าความแปรปรวนสูงสุดตามแกนเดียวเท่านั้น หากข้อมูลของคุณมีการกระจายแบบทรงกลมหรือมีรูปแบบที่ไม่เป็นเชิงเส้นที่สำคัญ องค์ประกอบเชิงเส้นเพียงอย่างเดียวอาจพลาดโครงสร้างที่สำคัญที่สุดไปทั้งหมด
เลือกใช้ส่วนประกอบหลัก (Principal Components) เมื่อเป้าหมายหลักของคุณคือการตีความ การแสดงผล หรือการลดคุณลักษณะของชุดข้อมูลทางสถิติโดยอิงจากความแปรปรวน เลือกใช้ค่าเอกลักษณ์ (Singular Values) เมื่อคุณต้องการแก้ระบบสมการเชิงเส้น บีบอัดเมทริกซ์ หรือทำการคำนวณเชิงตัวเลขที่เสถียรโดยไม่ต้องกังวลเกี่ยวกับการประมวลผลทางสถิติเบื้องต้น
ในขณะที่การแก้ไขข้อผิดพลาดเชิงมุมใช้ขั้นตอนวิธีทางคณิตศาสตร์และแบบจำลองซอฟต์แวร์เพื่อแก้ไขความเบี่ยงเบนของการหมุนภายในข้อมูลเซ็นเซอร์หรือแกนเครื่องจักรในเชิงตัวเลข การจัดแนวที่แม่นยำจะปรับส่วนประกอบทางกลโดยใช้เลเซอร์และข้อมูลอ้างอิงเชิงพื้นที่เพื่อสร้างความสอดคล้องทางเรขาคณิตที่สมบูรณ์แบบก่อนเริ่มการทำงาน ซึ่งสร้างเส้นแบ่งที่ชัดเจนระหว่างการชดเชยที่ขับเคลื่อนด้วยข้อมูลและการปรับปรุงโครงสร้าง
ในขณะที่การจดจำรูปแบบเกี่ยวข้องกับการสังเกตความสม่ำเสมอและแนวโน้มที่มองเห็นได้ภายในข้อมูลทางคณิตศาสตร์ การค้นพบโครงสร้างจะเจาะลึกลงไปเพื่อเปิดเผยกฎพื้นฐานและกรอบพีชคณิตที่ซ่อนอยู่ซึ่งควบคุมการสังเกตเหล่านั้น การเชี่ยวชาญทั้งสองด้านช่วยให้นักคณิตศาสตร์ไม่เพียงแต่สามารถทำนายขั้นตอนต่อไปในลำดับได้เท่านั้น แต่ยังเข้าใจกฎพื้นฐานที่ขับเคลื่อนระบบทั้งหมดอีกด้วย
การคำนวณเชิงสัญลักษณ์มุ่งเน้นไปที่การจัดการสมการพีชคณิตและสูตรทางคณิตศาสตร์อย่างแม่นยำ ในขณะที่การแสดงภาพข้อมูลจะแปลงชุดข้อมูลที่ซับซ้อนให้เป็นภาพกราฟิกที่เข้าใจง่าย โดยที่แบบแรกให้ความสำคัญกับความแม่นยำทางพีชคณิตและวิธีการแก้ปัญหาเชิงวิเคราะห์ ในขณะที่แบบหลังเน้นการจดจำรูปแบบและความเข้าใจเชิงโครงสร้างในชุดข้อมูลขนาดใหญ่ที่ได้จากการทดลอง
การคิดเชิงนามธรรมทางคณิตศาสตร์จะขจัดความเป็นจริงเฉพาะเจาะจงออกไปเพื่อเปิดเผยโครงสร้างพีชคณิตและตรรกะที่เป็นสากล ในขณะที่ความเข้าใจเชิงภาพอาศัยสัญชาตญาณทางเรขาคณิต การให้เหตุผลเชิงพื้นที่ และภาพในจิตใจ เพื่อทำให้แนวคิดที่ซับซ้อนเหล่านี้จับต้องได้และเข้าใจง่ายในทันที ซึ่งก่อให้เกิดแนวทางคู่ขนานที่มีประสิทธิภาพในการแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อน
การเปรียบเทียบพีชคณิตเชิงเส้นนี้จะตรวจสอบว่าการปรับขนาดเมทริกซ์เปลี่ยนแปลงขนาดและสัดส่วนโครงสร้างขององค์ประกอบทางเรขาคณิตอย่างไร โดยเปรียบเทียบกับการกำหนดทิศทางของเวกเตอร์ ซึ่งกำหนดการวางแนวเชิงพื้นที่และวิถีการเคลื่อนที่ของเส้นภายในปริภูมิพิกัด เพื่อแสดงให้เห็นว่าแนวคิดทั้งสองนี้มีปฏิสัมพันธ์กันอย่างไรในระหว่างการแปลงเวกเตอร์ที่ซับซ้อน