רכיבים עיקריים וערכים סינגולריים הם מושגים עצמאיים לחלוטין.
הם שלובים זה בזה באופן עמוק דרך מרכז נתונים. כאשר מפחיתים את הממוצע של מטריצת נתונים, ערכי הסינגולריות שלה פרופורציונליים ביחס ישר לשורשים הריבועיים של השונות לאורך הרכיבים העיקריים.
בעוד שמדעני נתונים נתקלים לעתים קרובות בשני המונחים בהפחתת מימדיות, רכיבים עיקריים מתארים את כיווני השונות המקסימלית במערך נתונים, בעוד שערכים סינגולריים מודדים את גודל קנה המידה לאורך צירים גיאומטריים אלה במהלך פירוק מטריצות. הבנת הגשר המתמטי שלהם חיונית לשליטה באלגוריתמים כמו PCA ו-SVD.
הווקטורים האורתוגונליים המצביעים לכיווני השונות המקסימלית, המסייעים לפשט ולדחוס נתונים בעלי מימדים גבוהים.
הערכים האלכסוניים של מטריצת ערך סינגולרי, המייצגים את גורמי קנה המידה המוחלטים של טרנספורמציה ליניארית.
| תכונה | רכיבים עיקריים | ערכים סינגולריים |
|---|---|---|
| מקור מתמטי | וקטורים עצמיים של מטריצת השונות המשותפת | גורמי פירוק מטריצה (SVD) |
| פרשנות גיאומטרית | כיווני השונות המקסימלית | שינוי קנה מידה של אורכי צירים ראשיים |
| דרישת נתונים | דורש נתונים ממוקדי ממוצע לקבלת משמעות סטטיסטית | חל על כל מטריצה מלבנית או ריבועית שרירותית |
| קשר לערכים עצמיים | שווה לערכים העצמיים של מטריצת השונות המשותפת | שווה לשורשים הריבועיים של הערכים העצמיים של מכפלת המטריצה |
| יישום ראשי | צמצום ממדיות וחילוץ תכונות | היפוך מטריצות, חישוב פסאודו-הפוך וקירוב בדרגה נמוכה |
| תלות בקנה מידה | השתנה באופן משמעותי על ידי הזזה או קנה מידה של נתונים | תכונה אינהרנטית של המטריצה הספציפית המפורקת |
| פרשנות פיזית | צירים של אליפסואיד של ענן נתונים | גורמי מתיחה של כדור יחידה שעבר טרנספורמציה |
רכיבים עיקריים מייצגים את הכיוונים הספציפיים שבהם הנתונים משתנים הכי הרבה, ומשמשים כצירים חדשים עבור מערכת קואורדינטות אופטימלית. לעומת זאת, ערכים סינגולריים הם כמויות סקלריות החושפות עד כמה מטריצה מותחת או דוחסת את המרחב לאורך צירים אלה. בעוד שאחד נותן לך את הכיוון של ענן הנתונים, השני מודד את גודל הטרנספורמציה עצמה.
כדי למצוא רכיבים עיקריים באופן מסורתי, עליך לחשב את הווקטורים העצמיים של מטריצת השונות המשותפת של מערך נתונים. ערכים סינגולריים נובעים מפירוק ערכים סינגולריים, שבו כל מטריצה מתפצלת לשלוש מטריצות רכיבים נפרדות. כאשר אתה מרכז את הנתונים שלך על ידי חיסור הממוצע, הריבוע של ערך סינגולרי חלקי גודל המדגם פחות אחד שווה באופן מושלם לשונות של אותו רכיב עיקרי.
רכיבים עיקריים משתנים באופן דרמטי אם שוכחים למרכז את הנתונים או לתקנן אותם, מכיוון ששונות סטטיסטית מסתמכת במידה רבה על נקודת המוצא ועל קני המידה של המשתנים. ערכים סינגולריים, לעומת זאת, הם תכונה אלגברית בסיסית של המטריצה הגולמית המסופקת. הם לא מתחשבים בהנחות סטטיסטיות אלא אם כן המשתמש בונה בכוונה תחילה מטריצה דמוית שונות משותפת ממורכזת.
אנליסטים של נתונים מסתמכים על רכיבים עיקריים כדי להמחיש מערכי נתונים מורכבים ובעלי מימדים גבוהים על גבי גרפים דו-ממדיים פשוטים. מצד שני, מהנדסי ראייה ממוחשבת משתמשים בערכים סינגולריים לדחיסת תמונה ומערכות המלצה באמצעות קירובים של מטריצות בדרגה נמוכה. SVD הוא למעשה המנוע המספרי המועדף מאחורי PCA מכיוון שחישוב ערכים סינגולריים מונע את אובדן הדיוק המתרחש בעת בניית מטריצת שונות משותפת.
רכיבים עיקריים וערכים סינגולריים הם מושגים עצמאיים לחלוטין.
הם שלובים זה בזה באופן עמוק דרך מרכז נתונים. כאשר מפחיתים את הממוצע של מטריצת נתונים, ערכי הסינגולריות שלה פרופורציונליים ביחס ישר לשורשים הריבועיים של השונות לאורך הרכיבים העיקריים.
עליך תמיד לחשב את מטריצת השונות המשותפת כדי למצוא את הרכיבים העיקריים.
תוכנה מודרנית כמעט ולא מחשבת את מטריצת השונות המשותפת משום שהיא מציגה שגיאות עיגול מספריות. במקום זאת, אלגוריתמים מריצים SVD על מטריצת הנתונים ישירות, ומחלצים את הרכיבים העיקריים בצורה בטוחה ויעילה הרבה יותר.
ערכים סינגולריים יכולים להיות שליליים אם הנתונים מראים מתאם שלילי.
ערכים סינגולריים הם בהגדרה שורשים ריבועיים חיוביים של ערכים עצמיים ממטריצה סימטרית. הם תמיד מספרים ממשיים לא שליליים, המייצגים אורכים או גורמי מתיחה, ללא קשר לקורלציות בנתונים המקוריים.
הוספת ערך קבוע לכל נקודות הנתונים משנה את הערכים הסינגולריים ואת הרכיבים העיקריים באופן שווה.
הזזת נתונים בקבוע משנה את הערכים הסינגולריים מכיוון שרשומות המטריצה הגולמית משתנות. עם זאת, מכיוון שהרכיבים העיקריים מסתמכים על מטריצת השונות המשותפת, אשר באופן טבעי מחסירה את הממוצע, הזזת הנתונים משאירה את הרכיבים העיקריים ללא שינוי לחלוטין.
הרכיב העיקרי הראשון תמיד לוכד את כל המידע החשוב.
הרכיב הראשון לוכד רק את השונות המקסימלית לאורך ציר יחיד. אם הנתונים שלך מפוזרים בצורה כדורית או מכילים דפוסים לא ליניאריים קריטיים, רכיב ליניארי יחיד עלול להחמיץ לחלוטין את המבנים החשובים ביותר.
בחרו רכיבים עיקריים כאשר המטרה העיקרית שלכם היא לפרש, להמחיש או לצמצם את התכונות של מערך נתונים סטטיסטי המבוסס על שונות. בחרו בערכים סינגולריים כאשר אתם צריכים לפתור מערכות לינאריות, לדחוס מטריצות או לבצע חישובים מספריים יציבים מבלי לדאוג לעיבוד סטטיסטי מקדים.
בעוד שאלגברה מתמקדת בכללי פעולות מופשטים ובמניפולציה של סמלים כדי לפתור נעלמים, גיאומטריה חוקרת את התכונות הפיזיקליות של המרחב, כולל הגודל, הצורה והמיקום היחסי של צורות. יחד, הן יוצרות את היסוד של המתמטיקה, ומתרגמות קשרים לוגיים למבנים חזותיים.
בעוד שכל הביטויים הרציונליים נופלים תחת המטריה הרחבה של ביטויים אלגבריים, הם מייצגים תת-סוג ספציפי ומוגבל מאוד. ביטוי אלגברי הוא קטגוריה רחבה הכוללת שורשים ואקספוננטים מגוונים, בעוד שביטוי רציונלי מוגדר בקפדנות כמנה של שני פולינומים, בדומה לשבר המורכב ממשתנים.
גבולות ורציפות הם הבסיס של החשבון החשבון, ומגדירים כיצד פונקציות מתנהגות כשהן מתקרבות לנקודות ספציפיות. בעוד שגבול מתאר את הערך שאליו פונקציה מתקרבת ממקום קרוב, רציפות דורשת שהפונקציה אכן קיימת בנקודה זו ותתאים לגבול החזוי, מה שמבטיח גרף חלק ורציף.
בעוד שגיאומטריה כדורית מתארת מתמטית את פני השטח האמיתיים והמעוקלים של כדור שבו קווים תמיד מצטלבים, קירוב מישורי מפשט חישובים מקומיים על ידי התייחסות לאזור קטן כשטוח לחלוטין. הבחירה ביניהם דורשת איזון בין דיוק גיאוגרפי מוחלט על פני מרחקים עצומים לבין המהירות והפשטות העצומות של חישובי רשת שטוחה.
בעוד שזיהוי תבניות כרוך בזיהוי סדירות ומגמות גלויות בתוך נתונים מתמטיים, גילוי מבנים מעמיק יותר כדי לחשוף את הכללים הבסיסיים הנסתרים ואת המסגרות האלגבריות השולטות בתצפיות אלו. שליטה בשניהם מאפשרת למתמטיקאים לא רק לחזות את השלב הבא ברצף, אלא גם להבין את החוקים הבסיסיים המניעים את המערכת כולה.