การจัดข้อมูลให้มีค่าเฉลี่ยเป็นศูนย์เชื่อมโยงความสัมพันธ์กับการฉายภาพเวกเตอร์ได้อย่างไร?
เมื่อคุณนำชุดข้อมูลมาปรับค่าเฉลี่ยให้เป็นศูนย์ คณิตศาสตร์ของสองแนวคิดนี้จะบรรจบกันอย่างสวยงาม โดยเฉพาะอย่างยิ่ง ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันจะเท่ากับค่าโคไซน์ของมุมระหว่างเวกเตอร์ข้อมูลสองตัวที่ปรับค่าเฉลี่ยแล้ว การทับซ้อนนี้เชื่อมช่องว่างระหว่างสถิติแบบคลาสสิกและพีชคณิตเชิงเส้นเชิงพื้นที่ แสดงให้เห็นว่าสหสัมพันธ์นั้นโดยพื้นฐานแล้วคือการตรวจสอบมุมทางเรขาคณิตแบบพิเศษ
เหตุใดฐานข้อมูลเวกเตอร์จึงนิยมใช้ระยะทางเชิงพื้นที่มากกว่าการคำนวณค่าสหสัมพันธ์แบบมาตรฐาน?
ฐานข้อมูลเวกเตอร์ประมวลผลไฟล์ขนาดใหญ่ เช่น การฝังข้อความ รูปภาพ หรือโปรไฟล์เสียง ซึ่งจะถูกแปลงเป็นอาร์เรย์พิกัดยาว การใช้เมทริกซ์ความสัมพันธ์แบบดั้งเดิมกับจุดหลายล้านจุดที่มีมิติสูงนั้นใช้ทรัพยากรการคำนวณมากและมองข้ามทิศทางเชิงพื้นที่ การดำเนินการเวกเตอร์ เช่น ผลคูณจุดและการฉายภาพ ทำงานได้อย่างรวดเร็วบนฮาร์ดแวร์สมัยใหม่ ทำให้เหมาะสำหรับการจับคู่ความคล้ายคลึงแบบเรียลไทม์
คุณสามารถใช้การฉายภาพเวกเตอร์เพื่อกำจัดคุณลักษณะที่ซ้ำซ้อนในชุดข้อมูลได้หรือไม่?
แน่นอน กลยุทธ์นี้เป็นพิมพ์เขียวหลักสำหรับการวิเคราะห์ส่วนประกอบหลัก หรือ PCA โดยการฉายกลุ่มเวกเตอร์ข้อมูลขนาดใหญ่ลงบนชุดเวกเตอร์ฐานตั้งฉากใหม่ คุณจะสามารถเห็นได้ว่าทิศทางใดจับความแปรปรวนได้มากที่สุด จากนั้นคุณสามารถตัดมิติที่แสดงความยาวการฉายภาพน้อยที่สุดออกไป ซึ่งจะช่วยลดขนาดข้อมูลของคุณในขณะที่ยังคงรักษาข้อมูลหลักไว้ได้
จะเกิดอะไรขึ้นกับการฉายภาพเวกเตอร์ หากฉันเพิ่มขนาดของเวกเตอร์เป้าหมายเป็นสองเท่าโดยทันที?
ถ้าคุณฉายเวกเตอร์ A ลงบนเวกเตอร์ B ผลลัพธ์ของการฉายเวกเตอร์จะยังคงเหมือนเดิมทุกประการ เพราะทิศทางของ B ไม่ได้เปลี่ยนแปลง อย่างไรก็ตาม หากคุณกำลังคำนวณส่วนประกอบสเกลาร์ ซึ่งใช้สูตรในการหาความยาวสัมพัทธ์กับ B ค่าที่ได้จะปรับเปลี่ยนไปตามนั้น การติดตามว่าคุณต้องการเวกเตอร์ทิศทางหรือความยาวสเกลาร์ดิบนั้นมีความสำคัญอย่างยิ่งเมื่อเขียนโค้ดอัลกอริทึม
ตัวชี้วัดใดที่รับมือกับแดชบอร์ดธุรกิจจริงที่มีข้อมูลรบกวนได้ดีกว่ากัน?
การวิเคราะห์ความสัมพันธ์มักได้ผลดีที่สุดสำหรับแดชบอร์ดธุรกิจพื้นฐาน เพราะมันกรองสิ่งรบกวนจากตัวเลขดิบออกไป โดยมุ่งเน้นเฉพาะทิศทางของแนวโน้มเท่านั้น หากตัวเลขยอดขายของคุณมีค่ามหาศาลและอัตราการแปลงเป็นเปอร์เซ็นต์เล็กน้อย การวิเคราะห์ความสัมพันธ์จะปรับค่าให้เป็นมาตรฐานโดยอัตโนมัติเพื่อให้คุณเห็นว่าทั้งสองอย่างเคลื่อนไหวไปในทิศทางเดียวกันหรือไม่ ในขณะที่การฉายภาพเวกเตอร์จะต้องปรับขนาดข้อมูลให้เป็นมาตรฐานด้วยตนเองก่อนเพื่อป้องกันไม่ให้ตัวเลขยอดขายทำให้การคำนวณผิดพลาด
นักวิเคราะห์ควรเลือกใช้ค่าสัมประสิทธิ์สหสัมพันธ์สเปียร์แมนแทนค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันเมื่อใด?
คุณควรเปลี่ยนไปใช้การหาค่าสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์แมนเมื่อข้อมูลของคุณเคลื่อนไหวไปในทิศทางเดียวกันอย่างสม่ำเสมอ แต่ไม่ได้เป็นเส้นตรงที่สมบูรณ์แบบ การหาค่าสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์แมนจะแปลงตัวเลขดิบให้เป็นลำดับก่อนที่จะทำการคำนวณ การเปลี่ยนแปลงนี้ทำให้สามารถวัดความสัมพันธ์แบบเพิ่มขึ้นทีละน้อยได้อย่างแม่นยำ เช่น เส้นโค้งการเติบโตแบบเลขชี้กำลัง ซึ่งสูตรเพียร์สันแบบมาตรฐานจะรายงานความสัมพันธ์ที่บกพร่องและอ่อนแอ
แนวคิดเรื่องความเป็นตั้งฉาก (orthogonality) สามารถนำมาประยุกต์ใช้กับตัวชี้วัดทั้งสองนี้ได้อย่างไร?
ความตั้งฉากหมายความว่า สองสิ่งนั้นเป็นอิสระต่อกันอย่างสมบูรณ์ ในเรขาคณิตเวกเตอร์ ถ้าเวกเตอร์สองตัวตั้งฉากกัน พวกมันจะทำมุม 90 องศา ซึ่งหมายความว่าการฉายเวกเตอร์ตัวหนึ่งลงบนอีกตัวหนึ่งจะได้ผลลัพธ์เป็นศูนย์ ในทางสถิติ เมื่อข้อมูลสองชุดไม่มีความสัมพันธ์กันโดยสิ้นเชิง ค่าสัมประสิทธิ์สหสัมพันธ์ของพวกมันจะเป็นศูนย์ ซึ่งหมายความว่าพวกมันไม่มีความแปรปรวนที่ทับซ้อนกันหรือความเชื่อมโยงเชิงเส้นใดๆ
ความคล้ายคลึงกันของเวกเตอร์ที่สูง หมายความว่าตัวแปรสองตัวจะมีความสัมพันธ์กันอย่างมากเมื่อเวลาผ่านไปหรือไม่?
ไม่จำเป็นเสมอไป เพราะตัวชี้วัดความคล้ายคลึงมักพิจารณาตำแหน่งคงที่ในพื้นที่ฝังตัวมากกว่าการเคลื่อนไหวที่ประสานกันตามช่วงเวลา เวกเตอร์สองตัวอาจอยู่ใกล้กันในแผนที่เชิงพื้นที่ของแบบจำลองเพราะมีหมวดหมู่เชิงแนวคิดร่วมกัน แต่ค่าการทำงานในแต่ละวันอาจเคลื่อนไหวอย่างอิสระโดยสิ้นเชิง คุณต้องเลือกเครื่องมือให้ตรงกับคำถามเฉพาะที่คุณต้องการคำตอบ