วิธีอธิบายความแตกต่างที่ง่ายที่สุดคืออะไร?
นึกถึงวิทยุ การกรองก็เหมือนกับปุ่มหมุนที่คุณหมุนเพื่อกำจัดเสียงรบกวนเพื่อให้คุณได้ยินเพลงอย่างชัดเจน ส่วนการขยายเสียงก็เหมือนกับปุ่มปรับระดับเสียงที่คุณหมุนเพิ่มเพราะเพลงเบาเกินไปจนฟังไม่ชัด อย่างหนึ่งทำให้เสียงชัดเจนขึ้น อีกอย่างหนึ่งทำให้เสียงดังขึ้น
เหตุใดตัวกรอง Kalman จึงได้รับความนิยมในการลดสัญญาณรบกวน?
มันได้รับความนิยมเพราะมันไม่ได้พิจารณาแค่ข้อมูลปัจจุบันเท่านั้น แต่ยังพิจารณาว่าข้อมูลนั้น *ควร* อยู่ที่ใดโดยอิงจากข้อมูลในอดีต เช่น ถ้าเซ็นเซอร์ของรถยนต์ไร้คนขับบอกว่ามันอยู่กลางทะเลสาบในเสี้ยววินาทีหนึ่ง ตัวกรอง Kalman จะรู้ว่านั่นเป็นสัญญาณรบกวนที่ไม่สามารถเกิดขึ้นได้จริงและจะละเลยมันไป
ฉันสามารถใช้ทั้งสองวิธีพร้อมกันได้หรือไม่?
ใช่ และระบบระดับมืออาชีพส่วนใหญ่ก็ทำเช่นนั้น โดยทั่วไปแล้ว คุณจะกรองข้อมูลดิบก่อนเพื่อกำจัดข้อมูลที่ไม่จำเป็น (เช่น ราคาติดลบหรือค่าศูนย์) จากนั้นจึงใช้วิธีการขยายเพื่อค้นหารูปแบบที่ซ่อนอยู่ภายในชุดข้อมูลที่สะอาดแล้วนั้น มันเป็นกระบวนการสองขั้นตอน คือ การทำความสะอาดแล้วจึงขยายภาพ
การขยายสัญญาณทำให้เกิดการโอเวอร์ฟิตติ้งหรือไม่?
นี่คือสาเหตุหลัก เมื่อคุณสั่งให้เครื่องจักรค้นหารูปแบบ 'ใดๆ' และขยายสัญญาณนั้น เครื่องจักรก็จะสามารถค้นหารูปแบบได้แม้กระทั่งในการโยนเหรียญแบบสุ่ม นี่คือเหตุผลที่นักวิทยาศาสตร์ข้อมูลใช้ 'การตรวจสอบแบบไขว้' (cross-validation) คือการทดสอบสัญญาณที่ขยายแล้วกับข้อมูลที่เครื่องจักรยังไม่เคยเห็นมาก่อน เพื่อดูว่ามันเป็นของจริงหรือไม่
เสียงรบกวนประเภทไหนที่กรองออกได้ยากที่สุด?
สัญญาณรบกวนที่ไม่ใช่สัญญาณรบกวนสีขาว หรือ 'สัญญาณรบกวนที่มีโครงสร้าง' นั้นซับซ้อนที่สุด นี่คือสัญญาณรบกวนที่ดูเหมือนจะเป็นรูปแบบที่แท้จริง แต่ไม่ใช่ ตัวอย่างเช่น แคมเปญการตลาดที่บังเอิญดำเนินการตรงกับวันหยุด อาจทำให้เกิดข้อมูลที่พุ่งสูงขึ้น ซึ่งดูเหมือนจะเป็นแนวโน้มลูกค้าใหม่ แต่จริงๆ แล้วเป็นเพียงสัญญาณรบกวนที่ผูกติดกับวันที่เฉพาะเจาะจงเท่านั้น
ฉันจะรู้ได้อย่างไรว่าฉันกรองข้อมูลมากเกินไปหรือไม่?
ตรวจสอบความไวของแบบจำลองของคุณ หากธุรกิจของคุณพลาดโอกาสเล็กๆ น้อยๆ ที่คู่แข่งคว้าไปได้ หรือหากกราฟของคุณดูเหมือนเส้นตรงที่สมบูรณ์แบบในขณะที่โลกแห่งความเป็นจริงนั้นวุ่นวาย คุณอาจกรอง "รายละเอียด" ของข้อมูลออกไปพร้อมกับสัญญาณรบกวนแล้ว
อุตสาหกรรมใดบ้างที่พึ่งพาการขยายเสียงมากที่สุด?
ความปลอดภัยทางไซเบอร์และการเงินเป็นสองสาขาใหญ่ ในด้านความปลอดภัยทางไซเบอร์ การพยายามเข้าสู่ระบบที่น่าสงสัยเพียงครั้งเดียวท่ามกลางการเข้าสู่ระบบปกติหลายล้านครั้งนั้นถือเป็นสัญญาณเล็กน้อย คุณต้องขยาย "ตัวบ่งชี้ที่อ่อนแอ" เหล่านั้นเพื่อจับแฮ็กเกอร์ก่อนที่พวกเขาจะเข้ามาได้ การกรองแบบมาตรฐานจะมองว่าการเข้าสู่ระบบครั้งนั้นเป็นเพียงความผิดปกติที่ไม่เป็นอันตราย
ข้อมูลที่มากขึ้นหมายถึงสัญญาณรบกวนที่น้อยลงหรือไม่?
ตรงกันข้ามกับสามัญสำนึก ข้อมูลที่มากขึ้นมักหมายถึงสัญญาณรบกวนที่มากขึ้น ในขณะที่ขนาดตัวอย่างที่ใหญ่ขึ้นช่วยในการหาค่าเฉลี่ย แต่ก็ยังเพิ่มโอกาสในการเกิดข้อผิดพลาด แหล่งข้อมูลที่หลากหลาย และสัญญาณที่ขัดแย้งกัน คุณจะไม่ได้รับสัญญาณที่ชัดเจนขึ้นเพียงแค่เพิ่มข้อมูล แต่คุณจะได้รับสัญญาณที่ชัดเจนขึ้นโดยการใช้วิธีการที่ดีกว่าในการจัดเรียงข้อมูลที่มีอยู่