למידת מכונהצמצום-ממדיותמדעי הנתוניםבינה מלאכותיתלמידה ללא פיקוח
למידה יריעה לעומת צמצום מימדיות ליניארית
למידה יריעתית וצמצום מימדיות ליניארית שתיהן עוסקות בנתונים בעלי מימדים גבוהים, אך הן נבדלות באופן מהותי באופן שבו הן משמרות מבנה. שיטות ליניאריות מניחות שהנתונים נמצאים על היפר-מישור שטוח, בעוד שלמידת יריעתית חושפת קשרים עקומים ולא ליניאריים. הבחירה ביניהן תלויה בשאלה האם הגיאומטריה הפנימית של הנתונים שלך היא שטוחה או עקומה.
הדגשים
למידת יריעות מניחה גיאומטריה עקומה; שיטות ליניאריות מניחות היפר-מישורים שטוחים.
שיטות ליניאריות שומרות על מבנה גלובלי, בעוד ששיטות מגוון נותנות עדיפות לשכונות מקומיות.
PCA וחבריו מגיעים למיליוני נקודות; t-SNE ו-UMAP מתקשים לעבור את עשרות אלפי הנקודות.
ניתן ליישם תחזיות ליניאריות על נתונים חדשים באופן מיידי, אך לרוב לא ניתן להחיל הטמעות מגוון.
מה זה למידה רבי-תחומית?
קבוצה של טכניקות לא לינאריות שחושפות מבנים מעוקלים בעלי מימדים נמוכים המוסתרים בתוך נתונים בעלי מימדים גבוהים.
למידה יריעתית מבוססת על השערת היריעתית, המניחה שנתונים בעלי מימדים גבוהים נמצאים למעשה על משטח מעוקל בעל מימדים נמוכים יותר.
אלגוריתמים פופולריים כוללים Isomap, הטמעה ליניארית מקומית (LLE), t-SNE, UMAP ומפות עצמיות Laplacian.
הוא מצטיין בשימור שכונות מקומיות, כלומר נקודות סמוכות במרחב גבוה-ממדי נשארות קרובות בייצוג המצומצם.
רוב שיטות המוניטין מתקשות בהשלכה מחוץ לדגימה, מה שמקשה על מיפוי נקודות נתונים חדשות ללא אימון מחדש.
t-SNE ו-UMAP נמצאים בשימוש נרחב להמחשה של מערכי נתונים מורכבים כמו ריצוף RNA של תא בודד והטמעת תמונות.
מה זה צמצום מימדיות ליניארית?
טכניקות המקרינות נתונים בעלי מימדים גבוהים על תת-מרחבים בעלי מימדים נמוכים יותר באמצעות טרנספורמציות ליניאריות.
ניתוח רכיבים עיקריים (PCA), השיטה הליניארית המפורסמת ביותר, מתוארכת לשנת 1901 ופותחה על ידי קרל פירסון.
שיטות ליניאריות מניחות ששונות הנתונים נלכדת בצורה הטובה ביותר לאורך צירים אורתוגונליים במרחב התכונות המקורי.
הם משמרים את המבנה הגלובלי, כלומר הצורה הכללית והמרחקים בין נקודות מרוחקות נשמרים.
טכניקות ליניאריות יעילות מבחינה חישובית וניתנות להרחבה טובה למיליוני דגימות.
מעבר ל-PCA, המשפחה כוללת ניתוח ליניארי דיסקרימיננטי (LDA), ניתוח גורמים ו-SVD קטוע.
טבלת השוואה
תכונה
למידה רבי-תחומית
צמצום מימדיות ליניארית
הנחת ליבה
הנתונים נמצאים על סעפת מעוקלת בעלת מימדים נמוכים
הנתונים נמצאים על תת-מרחב ליניארי שטוח
מבנה נשמר
בעיקר שכונות מקומיות
בעיקר שונות גלובלית
עלות חישובית
בדרך כלל גבוה יותר, לעתים קרובות O(n²) או גרוע יותר
נמוך, בדרך כלל O(n·d²) או מהיר יותר
פרשנות
תחתון, צירים לעיתים רחוקות בעלי משמעות ישירה
גבוה יותר, רכיבים קשורים לעתים קרובות למאפיינים מקוריים
מדרגיות
מוגבל, מתקשה מעבר לעשרות אלפי נקודות
מעולה, מטפל במיליוני דגימות
היטל מחוץ לדגימה
קשה, דורש שיטות קירוב
פשוט באמצעות כפל מטריצות
מקרי שימוש מומלצים
ויזואליזציה, דפוסים לא ליניאריים, תמונה ונתונים ביולוגיים
דחיסת תכונות, עיבוד מקדים, הפחתת רעש
אלגוריתמים לדוגמה
t-SNE, UMAP, Isomap, LLE
PCA, LDA, ניתוח גורמים, SVD מקוצר
השוואה מפורטת
הנחות גיאומטריות לגבי נתונים
הפער הפילוסופי הגדול ביותר בין גישות אלו טמון באמונתן לגבי צורת הנתונים שלך. רדוקציה לינארית של מימדיות מתייחסת לנתונים בעלי מימד גבוה כאילו הם חיים על היפר-מישור שטוח, שבו קווים ישרים והיטלים אורתוגונליים לוכדים את השונות החשובה ביותר. למידה יריעתית נוקטת בגישה הפוכה, וטוענת שנתונים מהעולם האמיתי מתקפלים ומתעקלים לעתים קרובות דרך מרחב בעל מימד גבוה כמו פיסת נייר מקומטת. אם מפרקים את הנייר הזה, מקבלים משטח דו-ממדי, ואלגוריתמים של יריעתית מנסים לעשות בדיוק את זה מבחינה מתמטית.
שימור מבנה מקומי לעומת מבנה גלובלי
שיטות לינאריות כמו PCA הן אלופות של מבנה גלובלי. הן מבטיחות שנקודות רחוקות זו מזו במרחב המקורי יישארו רחוקות זו מזו לאחר ההטלה, וזה נהדר להבנת השונות הכוללת אך יכול לטשטש אשכולות בעלי גרגירים עדינים. למידה יריעתית הופכת את העדיפות הזו, ומתמקדת באופן אינטנסיבי בשמירה על נקודות סמוכות קרובות זו לזו. זו הסיבה ש-t-SNE ו-UMAP מייצרות את אותן ויזואליזציות בולטות שבהן אשכולות בולטים בבירור, גם כאשר הסידור הגלובלי של אותם אשכולות הוא שרירותי במידה מסוימת.
פרקטיות חישובית
כאשר מערכי נתונים גדלים, שיטות ליניאריות מתקדמות באופן דרמטי. ניתן לחשב PCA ביעילות באמצעות פירוק עצמי או פירוק ערך סינגולרי, וספריות כמו scikit-learn מטפלות במיליוני שורות בקלות. אלגוריתמים של יריעה, לעומת זאת, דורשים לעתים קרובות בניית גרפים של שכונות (שכונות) בעלי קנה מידה גרוע, ול-t-SNE בפרט יש מורכבות ריבועית במספר הדגימות. UMAP השתפרה מעט בנושא זה, אך שתיהן עדיין מפגרות הרחק אחרי שיטות ליניאריות עבור צינורות בקנה מידה של ייצור.
פרשנות ופריסה
שיטות לינאריות מציעות יתרון ברור כאשר צריך להסביר מה המשמעות של המימדים המופחתים. רכיבי PCA הם שילובים משוקללים של תכונות מקוריות, כך שניתן לבדוק עומסים ולהבין אילו משתנים מניעים כל ציר. הטמעות יריעות ידועות לשמצה באטימותן, עם צירים שלעתים רחוקות תואמים למשהו שניתן לפרש על ידי בני אדם. בנוסף, שיטות לינאריות מאפשרות לך להקרין נקודות נתונים חדשות באופן מיידי באמצעות מטריצת הטרנספורמציה הנלמדת, בעוד ששיטות יריעות דורשות לעתים קרובות אימון מחדש או קירובים מורכבים כדי לטפל בדגימות חדשות.
כאשר כל גישה זורחת
צמצום מימדיות ליניארית נותר הבחירה המוגדרת כברירת מחדל עבור צינורות עיבוד מקדים, דחיסת תכונות ומצבים בהם מהירות ופרשנות חשובים. למידה רבי-ממדית מרוויחה את מקומה כאשר לנתונים יש בבירור מבנה לא ליניארי, תמונות מחשבה, ספקטרוגרמות דיבור או פרופילי ביטוי גנים, וכאשר המטרה היא חקירה ולא פריסה. בפועל, מדעני נתונים רבים מפעילים PCA תחילה כבסיס, ואז פונים לשיטות רבי-ממדיות רק כאשר תחזיות ליניאריות אינן מצליחות לחשוף דפוסים משמעותיים.
יתרונות וחסרונות
למידה רבי-תחומית
יתרונות
+לוכד דפוסים לא ליניאריים
+מצוין להדמיה
+חושף אשכולות נסתרים
+שומר על הגיאומטריה המקומית
המשך
−יקר מבחינה חישובית
−קשה לפרש
−מיפוי מחוץ לדגימה לקוי
−רגיש להיפרפרמטרים
צמצום מימדיות ליניארית
יתרונות
+מהיר וניתן להרחבה
+קל לפירוש
+תוצאות דטרמיניסטיות
+פריסה פשוטה
המשך
−חסר מבנה לא ליניארי
−מוגבל להטבות שטוחות
−יכול לטשטש אשכולות צפופים
−מניח שונות אורתוגונלית
תפיסות מוטעות נפוצות
מיתוס
למידה מגוון תמיד עולה על PCA מכיוון שהיא מתוחכמת יותר.
מציאות
תחכום אינו שווה ערך לביצועים טובים יותר. למידה מרובעת (PCA) משתווה או גוברת לעיתים קרובות על שיטות מגוון (manifold learning) במשימות כמו עיבוד מקדים של סיווג או הפחתת רעשים. למידה מרובעת זוהרת בתרחישים ספציפיים כמו ויזואליזציה, אך עבור משימות רבות של למידת מכונה מעשיות, PCA היא הבחירה החזקה יותר.
מיתוס
t-SNE ו-UMAP משמרים את המבנה הגלובלי של נתונים.
מציאות
שתי השיטות מעוותות במפורש מרחקים גלובליים כדי להדגיש שכונות מקומיות. המרחק בין אשכולות בעלילת t-SNE כמעט ואינו נושא מידע משמעותי, ויש לפרש רק את המיקום היחסי של נקודות סמוכות.
מיתוס
PCA מניח שהנתונים מתפלגים נורמלית.
מציאות
PCA אינו דורש נורמליות. הוא רק מניח ששונות היא כמות משמעותית שיש לשמר וששילובים ליניאריים של מאפיינים לוכדים את המבנה החשוב. הוא עובד על מגוון רחב של התפלגויות, אם כי נתונים בעלי זנב כבד עלולים לעוות את התוצאות.
מיתוס
לאחר הפעלת t-SNE, תוכל להשתמש בהטמעה כקלט למודל המשך.
מציאות
שימוש בהטמעות t-SNE או UMAP כתכונות ללמידה מפוקחת אינו מומלץ בדרך כלל מכיוון שהן מעוותות מרחקים ומאבדות מידע גלובלי. PCA או שיטות ליניאריות אחרות הן בדרך כלל אפשרויות בטוחות יותר עבור צינורות הנדסת תכונות.
מיתוס
למידה יריעתית יכולה להפחית כל מערך נתונים לדו-ממדי ללא אובדן מידע.
מציאות
כל צמצום ממדי כרוך באובדן מידע מסוים. שיטות יריעה משמרות קשרים מקומיים אך מקריבות את הנאמנות הגלובלית, וצמצום אגרסיבי ל-2D יכול להסתיר וריאציות חשובות שחשובות למשימות במורד הזרם.
שאלות נפוצות
מה ההבדל העיקרי בין למידה מניפתית ל-PCA?
PCA מניחה שהנתונים נמצאים על תת-מרחב ליניארי שטוח ומוצאת צירים אורתוגונליים בעלי שונות מקסימלית. למידה יריעתית מניחה שהנתונים נמצאים על משטח מעוקל ומנסה 'לפרוס' אותם תוך שמירה על שכנות מקומיות. ההבדל העיקרי הוא הנחות לינאריות לעומת הנחות לא לינאריות לגבי הגיאומטריה הבסיסית.
מתי עליי להשתמש בלמידת מניפולטיבית במקום PCA?
פנו ללמידה מגוונת כאשר לנתונים שלכם יש מבנה לא ליניארי ברור ש-PCA אינו מצליח ללכוד, כגון תמונות, מאפייני דיבור או נתונים ביולוגיים. זוהי גם בחירה טובה יותר כאשר המטרה שלכם היא ויזואליזציה ואתם רוצים שאשכולות יופיעו באופן ברור. עבור צינורות עיבוד מקדים או ייצור, PCA בדרך כלל מהיר ומעשי יותר.
האם t-SNE היא שיטת למידה מגוונת?
כן, t-SNE נחשבת לטכניקת למידה מגוונת משום שהיא משמרת את מבנה השכונה המקומית וחושפת דפוסים לא ליניאריים. עם זאת, היא מיועדת בעיקר להדמיה ולא להפחתת מימדיות למטרות כלליות, והיא אינה מספקת דרך להקרין נקודות נתונים חדשות.
האם למידה מגוון רחבה יכולה להתמודד עם מערכי נתונים גדולים?
שיטות סטנדרטיות של יריעות כמו t-SNE מתקדמות בצורה גרועה, עם מורכבות של סביב O(n²), מה שהופך אותן ללא מעשיות מעבר ל-50,000 נקודות בקירוב. UMAP שיפרה את יכולת ההרחבה באופן משמעותי, וריאנטים מקורבים כמו FIt-SNE ו-openTSNE דוחפים את הגבולות עוד יותר, אך שיטות לינאריות כמו PCA עדיין מטפלות בקלות במערכי נתונים גדולים בהרבה.
מדוע PCA עדיין כל כך פופולרי אם למידה מגוון היא חזקה יותר?
PCA נשאר פופולרי משום שהוא מהיר, ניתן לפירוש, דטרמיניסטי וקל לפריסה. ההנחה הלינארית שלו לרוב טובה מספיק עבור בעיות רבות בעולם האמיתי, והוא משתלב בצורה נקייה בצינורות למידת מכונה. למידה מגוון רחבה חזקה יותר בתרחישים ספציפיים אך מציגה מורכבות שלא תמיד מוצדקת.
האם שיטות למידה מגוונות שומרות על מרחקים בין נקודות?
לא בדיוק. רוב שיטות המוניטין שומרות על מרחקים מקומיים, כלומר נקודות סמוכות נשארות קרובות, אך מרחקים גלובליים לרוב מעוותים או חסרי משמעות. t-SNE בפרט ידוע במתיחה או דחיסת המרחב בין צבירים, כך שיש לסמוך רק על המיקום היחסי של שכנים קרובים.
מהי השערת המוניטין?
השערת המרבה קובעת שנתונים בעלי מימד גבוה נמצאים בדרך כלל על או ליד משטח מעוגל בעל מימד נמוך בהרבה המוטמע במרחב המקורי. לדוגמה, משטח תלת-ממדי עשוי להיות מתואר על ידי מספר פרמטרים בלבד כמו זווית, תאורה והבעה, למרות שייצוג הפיקסלים כולל אלפי מימדים.
האם ניתן להשתמש ב-PCA ובלמידה מניפתית יחד?
בהחלט. תהליך עבודה נפוץ הוא תחילה להחיל PCA כדי להפחית את המימדיות לרמה ניתנת לניהול, נניח 50 רכיבים, ולאחר מכן להפעיל t-SNE או UMAP על הייצוג המצומצם הזה. זה מאיץ את אלגוריתם ה-manifold ויכול לפעמים להפחית רעש שמפריע לזיהוי שכנות.
האם UMAP עדיף על t-SNE?
UMAP בדרך כלל מהיר יותר מ-t-SNE, מתרחב טוב יותר למערכי נתונים גדולים, ושומר על מבנה גלובלי יותר. הוא גם תומך בהקרנת נקודות נתונים חדשות על גבי ההטמעה, דבר ש-t-SNE אינו תומך בו. עם זאת, שניהם מייצרים ויזואליזציות דומות במקרים רבים, והבחירה תלויה לעתים קרובות בדרישות מהירות והעדפה אישית.
האם אי פעם נעשה שימוש בשיטות לינאריות לצורך ויזואליזציה?
כן, PCA משמש לעתים קרובות להדמיות דו-ממדיות או תלת-ממדיות מהירות, במיוחד כבסיס לפני ניסיון בשיטות לא לינאריות. תחזיות ליניאריות פחות בולטות מבחינה ויזואלית מאשר t-SNE או UMAP אך מציעות את היתרון של פירוש ושחזור, דבר שחשוב בדיווח מדעי ועסקי.
פסק הדין
פנו להפחתת מימדיות ליניארית כשאתם זקוקים למהירות, יכולת פירוש והשלכה אמינה מחוץ לדגימה, במיוחד בצינורות למידת מכונה בייצור. בחרו בלמידה רבי-ממדית כאשר המטרה שלכם היא ויזואליזציה חקרנית או כשאתם חושדים בקשרים חזקים לא ליניאריים ש-PCA פשוט לא יכול ללכוד. זרימת העבודה החכמה ביותר כרוכה לעתים קרובות בניסיון PCA תחילה ומעבר לשיטות רבי-ממדיות רק כאשר התצוגה הלינארית לוקה בחסר.