שיטות של מבקר-שחקן משלבות גרדיאנטים של מדיניות עם פונקציית ערך נלמדת כדי להפחית את השונות ולהאיץ את הלמידה, בעוד ששיטות של גרדיאנט מדיניות טהור מסתמכות אך ורק על המדיניות ועל תשואות מונטה קרלו. הבחירה ביניהן תלויה בשאלה האם אתם זקוקים ליציבות ויעילות מדגם או לפשטות ואומדנים בלתי מוטים.
הדגשים
שיטות של מבקר-שחקן מקצצות את שונות הגרדיאנט באמצעות שימוש בבסיס ערך נלמד, בעוד שגרדיאנטים של מדיניות טהורים מסתמכים על תשואות מונטה קרלו רועשות.
שיטות טהורות של גרדיאנט מדיניות הן בלתי מוטות אך צמאות לדגימה, בעוד ששיטות של שחקנים-מבקר מחליפות נגיעה של הטיה לטובת יעילות דגימה טובה בהרבה.
אלגוריתמים של מבקר-שחקן כמו PPO ו-SAC מניעים את רוב הצלחות ה-RL המודרניות, מ-Atari ועד RLHF עבור מודלים של שפה גדולה.
שיטות גרדיאנט מדיניות טהורות נותרות פופולריות למחקר ולמשימות בקרה פשוטות משום שקל יותר ליישם אותן ולהסיק מהן.
מה זה שיטות שחקן-מבקר?
אלגוריתמי למידה חיזוקיים היברידיים המשלבים רשת מדיניות (שחקן) עם רשת הערכת ערך (מבקר) לאימון יציב יותר.
שיטות של מבקר-שחקן גובשו בתחילת שנות ה-2000, תוך התבססות על עבודה קודמת של חוקרים כמו סאטון וברטו על איטרציות מדיניות.
הגורם המבקר מעדכן את המדיניות באמצעות כיוון הגרדיאנט שהוצע על ידי המבקר, בעוד שהמבקר מעריך את פונקציית הערך כדי להעריך פעולות.
באמצעות בסיס נלמד, גישות של שחקן-מבקר מפחיתות באופן דרמטי את השונות של אומדני גרדיאנט המדיניות בהשוואה לתשואות מונטה קרלו.
שיטות אלו הניעו פריצות דרך במשחקים, רובוטיקה וכיוונון עדין של מודלים של שפה גדולה באמצעות RLHF.
מה זה שיטות מדיניות טהורות?
אלגוריתמי למידה לחיזוק אשר מייעלים ישירות מדיניות פרמטרית באמצעות עלייה גרדיאנטית על התשואה הצפויה, ללא מודל ערך נפרד.
אלגוריתם REINFORCE הבסיסי הוצג על ידי רונלד וויליאמס בשנת 1992, וביסס את משפט גרדיאנט המדיניות.
שיטות גרדיאנט מדיניות טהורות מעריכות גרדיאנטים באמצעות פריסות מונטה קרלו או תשואות של פרקים מלאים במקום הערכות ערך מבוטלות.
הם תואמים באופן טבעי למדיניות סטוכסטית, מה שהופך אותם למתאימים היטב לסביבות עם מרחבי פעולה רציפים או בעלי מימדים גבוהים.
מכיוון שהן מסתמכות על מסלולים שנדגמו, שיטות אלו אינן מוטות אך נוטות להציג שונות גבוהה באומדני הגרדיאנט שלהן.
יישומים בולטים כוללים את REINFORCE המקורי, Vanilla Policy Gradient (VPG) ו-Trust Region Policy Optimization (TRPO).
טבלת השוואה
תכונה
שיטות שחקן-מבקר
שיטות מדיניות טהורות
מנגנון הליבה
משלב רשת מדיניות (שחקן) עם רשת ערכים (מבקר)
אופטימיזציה ישירה של המדיניות באמצעות דגימות של תשואות
שונות של הערכות גרדיאנט
שונות נמוכה יותר עקב קו בסיס נלמד
שונות גבוהה יותר מתשואות מונטה קרלו
הֲטָיָה
הטיה קלה שהוכנסה על ידי קירוב המבקר
הערכות גרדיאנט בלתי מוטות
יעילות הדגימה
בדרך כלל גבוה יותר, משתמש מחדש בנתונים באמצעות bootstrapping
נמוך יותר, דורש פרקים מלאים או הרבה דגימות
מורכבות היישום
מורכב יותר, דורש אימון של שתי רשתות
פשוט יותר, רק רשת אחת לניהול
יציבות האימון
יציב יותר הודות לשונות נמוכה יותר ואזורי אמון
פחות יציב, רגיש לקצב למידה ולסולם תגמול
טיפול בחקירה
יכול לשלב בונוסים של אנטרופיה או ביקורת סטוכסטית
סטוכסטי באופן טבעי, קל לעודד חקירה
מקרי שימוש אופייניים
RL בקנה מידה גדול, רובוטיקה, RLHF עבור מודלי שפה
משימות בקרה פשוטות, קווי בסיס למחקר, בעיות אפיזודיות
השוואה מפורטת
הערכת גרדיאנט ושונות
ההבדל המעשי הגדול ביותר בין שתי המשפחות הללו נובע באופן שבו הן מעריכות את כיוון השיפור. שיטות גרדיאנט מדיניות טהורות מסתמכות על תשואות מונטה קרלו שנאספו מפרקים מלאים, מה שנותן איתות אובייקטיבי אך כזה שמשתנה באופן פראי בהתאם למזל של כל פריסה בודדת. שיטות מבקר-שחקן מחליפות את התשואה הרועשת הזו בפונקציית ערך נלמדת, ובכך מחסירות למעשה קו בסיס שלוכד את התוצאה הצפויה. התוצאה היא גרדיאנט שונות נמוך בהרבה המאפשר לאימון להתקדם בצורה חלקה יותר, במיוחד בסביבות שבהן התגמולים דלילים או מתעכבים.
פשרה בין הטיה לשונות
סחר בשונות עבור הטיה הוא הפשרה המרכזית בתכנון של שחקנים-מבקר. פונקציית המבקר היא בעצמה קירוב, כך שההערכות שלה יכולות להיות שגויות, והשגיאה הזו זורמת לתוך עדכון המדיניות. שיטות גרדיאנט מדיניות טהורות נמנעות מכך לחלוטין משום שהן לעולם לא מקרבות את פונקציית הערך, אך הן משלמות עבור טוהר זה עם עדכונים רועשים יותר. בפועל, אלגוריתמים מודרניים של שחקנים-מבקר כמו PPO ו-SAC מנהלים את הפשרה הזו כל כך טוב שההטיה הקטנה היא לעתים רחוקות בעיה, ולכן הם שולטים במדדים.
יעילות דגימה ושימוש חוזר בנתונים
יעילות הדגימה חשובה מאוד כאשר אינטראקציה עם הסביבה יקרה, כמו ברובוטיקה או במערכות דיאלוג מהעולם האמיתי. שיטות של מבקר-שחקן זוהרות כאן משום שהמבקר מתחיל מתחזיותיו שלו, מה שמאפשר לאלגוריתם ללמוד מכל מעבר מספר פעמים. שיטות טהורות של גרדיאנט מדיניות בדרך כלל זקוקות לנתונים חדשים בהתאם למדיניות עבור כל עדכון, מה שאומר יותר אינטראקציות סביבתיות עבור אותה כמות של שיפור מדיניות. זוהי אחת הסיבות לכך שאלגוריתמים בסגנון REINFORCE נפוצים יותר במסגרות מחקר שבהן סימולציה זולה.
יישום וכוונון
אם אתם רוצים משהו מהיר לאב טיפוס, שיטות טהורות של גרדיאנט מדיניות הן מושכות. אתם צריכים רק רשת מדיניות, פונקציית הפסד הבנויה מהסתברויות לוגריתמיות משוקללות בתשואה, ודרך לאסוף מסלולים. שיטות של מבקר-שחקן מוסיפות את הנטל של אימון רשת שנייה, איזון קצב הלמידה שלה מול זה של השחקן, ווידוא שהמבקר מתכנס מספיק מהר כדי להיות שימושי. המורכבות הנוספת הזו משתלמת בביצועים, אבל היא מעלה את הרף עבור משתמשים חדשים.
מדיניות חיפוש וסטוכסטיות
שתי הגישות מטפלות במדיניות סטוכסטית באופן טבעי, אך הן מעודדות חקירה בצורה שונה. שיטות גרדיאנט מדיניות טהורות מקבלות חקירה בחינם מהאנטרופיה של המדיניות עצמה, מה שעובד היטב בבעיות עם התפלגויות פעולה ברורות. שיטות מבקר-שחקן מוסיפות לעתים קרובות בונוס אנטרופיה מפורש למטרה, כפי שעושה מבקר-שחקן רך באופן מפורסם, כדי למנוע מהמדיניות לקרוס מוקדם מדי. זה הופך את גרסאות מבקר-שחקן לחזקות יותר במשימות שבהן הסוכן עלול להיתקע בהתנהגויות לא אופטימליות.
יתרונות וחסרונות
שיטות שחקן-מבקר
יתרונות
+עדכוני שונות נמוכה יותר
+יעילות דגימה טובה יותר
+אימון יציב יותר
+ניתן להרחבה למשימות מורכבות
המשך
−מורכב יותר ליישום
−כוונון היפר-פרמטרים נוסף
−הטיה קלה מצד המבקר
−שתי רשתות לאימון
שיטות מדיניות טהורות
יתרונות
+יישום פשוט
+הערכות גרדיאנט בלתי מוטות
+מדיניות סטוכסטית טבעית
+מעולה למחקר
המשך
−עדכוני שונות גבוהה
−יעילות דגימה ירודה
−צריך פרקים מלאים
−רגיש לקצב למידה
תפיסות מוטעות נפוצות
מיתוס
שיטות של מבקר-שחקן הן משפחת אלגוריתמים שונה לחלוטין מגרדיאנטים של מדיניות.
מציאות
שיטות מבקר-שחקן הן למעשה תת-קבוצה של שיטות גרדיאנט מדיניות. הן מחשבות את אותו גרדיאנט מדיניות, אך משתמשות בפונקציית ערך נלמדת כדי להפחית את השונות במקום להסתמך על תשואות גולמיות.
מיתוס
שיטות גרדיאנט מדיניות טהורות תמיד מתכנסות מהר יותר משום שהן בלתי מוטות.
מציאות
חוסר משוא פנים אינו שווה ערך להתכנסות מהירה. השונות הגבוהה של אומדני מונטה קרלו מאטה לעתים קרובות את האימון באופן דרמטי, במיוחד במשימות ארוכות טווח שבהן התגמולים מתעכבים.
מיתוס
שיטות של שחקן-מבקר אינן יכולות לעבוד עם מרחבי פעולה רציפים.
מציאות
אלגוריתמים רבים של מבקר-שחקן, כולל SAC ו-DDPG, מתוכננים במיוחד לבקרה רציפה ומתפקדים היטב בסימולציה מבוססת רובוטיקה ופיזיקה.
מיתוס
תמיד צריך מבקר כדי לבצע למידה חיזוקית טובה.
מציאות
שיטות טהורות של גרדיאנט מדיניות כמו REINFORCE ו-TRPO פתרו בעיות רבות ללא מבקר. המבקר הוא כלי להפחתת שונות, לא דרישה מחמירה.
מיתוס
PPO היא שיטת גרדיאנט מדיניות טהורה.
מציאות
PPO הוא טכנית אלגוריתם של מבקר-שחקן. הוא משתמש במטרת חלופית מצומצמת בצד המדיניות, אך הוא מסתמך על רשת ערך כדי לחשב יתרונות ולהנחות עדכונים.
שאלות נפוצות
מה ההבדל העיקרי בין שיטת שחקן-מבקר לבין שיטת גרדיאנט מדיניות?
ההבדל העיקרי הוא האם פונקציית ערך משמשת במהלך האימון. שיטות מבקר-שחקן מאמנות רשת מבקר נפרדת להעריך ערכים ולהפחית שונות, בעוד ששיטות גרדיאנט מדיניות טהורות מעריכות גרדיאנטים ישירות מתשואות שנדגמו ללא מודל ערך נלמד.
מדוע לשיטות של שחקן-מבקר יש שונות נמוכה יותר?
הם מחסירים קו בסיס נלמד, בדרך כלל פונקציית הערך, מהתשואה לפני חישוב הגרדיאנט. קו בסיס זה לוכד את התוצאה הצפויה, כך שלאות היתרון הנותר יש הרבה פחות רעש אקראי מאשר תשואות מונטה קרלו גולמיות.
האם PPO היא שיטת שחקן-מבקר או שיטת גרדיאנט מדיניות?
PPO הוא אלגוריתם של מבקר-שחקן. הוא משתמש באובייקטיב מצומצם כדי לעדכן את המדיניות, אך הוא תלוי ברשת ערך כדי לחשב יתרונות, וזהו הסימן ההיכר של משפחת מבקר-שחקן.
מתי עליי להשתמש בשיטות של גרדיאנט מדיניות טהור במקום בשיטות של שחקן-מבקר?
שיטות טהורות של גרדיאנט מדיניות מתאימות למשימות אפיזודיות קצרות, קווי בסיס מחקריים או מצבים בהם רוצים אלגוריתם פשוט ובלתי מוטה. הן עובדות היטב גם כאשר סימולציית סביבה זולה ואינכם זקוקים ליעילות דגימה מקסימלית.
האם שיטות של שחקן-מבקר עובדות עבור מרחבי פעולה רציפים?
כן, רבים עושים זאת. אלגוריתמים כמו SAC, DDPG ו-TD3 הם שיטות מבקר-שחקן שתוכננו במיוחד לבקרה רציפה ונמצאות בשימוש נרחב בסביבות רובוטיקה ופיזיקה מדומה.
האם שיטות טהורות של גרדיאנט מדיניות עדיין בשימוש כיום?
בהחלט. REINFORCE ו-Vanilla Policy Gradient נותרו פופולריים במחקר ובחינוך, ו-TRPO עדיין משמש ביישומים רגישים לבטיחות שבהם אילוץ אזור האמון שלו הוא בעל ערך.
מהו משפט גרדיאנט המדיניות?
משפט גרדיאנט המדיניות, שהוכח על ידי סאטון ועמיתיו, נותן ביטוי סגור לגרדיאנט התשואה הצפויה ביחס לפרמטרי המדיניות. הן שיטות גרדיאנט מדיניות טהור והן שיטות של מבקר-שחקן בנויות על גבי משפט זה.
כיצד REINFORCE קשור לשיטות של מבקר-שחקן?
REINFORCE הוא אלגוריתם קנוני טהור של גרדיאנט מדיניות. ניתן לראות את שיטות מבקר-שחקן כאבולוציה של REINFORCE המחליפה את תשואת מונטה קרלו באומדן מבוסס מבקר מלומד, מה שמפחית את השונות במחיר של הטיה מסוימת.
האם ניתן להשתמש בשיטות של מבקר-שחקן עבור RLHF במודלים של שפה גדולה?
כן, שיטות של מבקר-שחקן כמו PPO הן סוסי העבודה של צינורות RLHF ליישור מודלים גדולים של שפה. הן מטפלות באופקים ארוכי טווח ובאותות גמול מורכבים הכרוכים באימון מודלים של שפה באמצעות משוב אנושי.
איזו שיטה טובה יותר עבור סביבות תגמול דלילות?
שיטות של מבקר-שחקן בדרך כלל מתפקדות טוב יותר במסגרות של תגמול דליל, משום שהמבקר יכול להפיץ מידע בעל ערך אחורה לאורך זמן, ובכך לתת למדיניות אותות למידה שימושיים גם כאשר תגמולים נדירים.
פסק הדין
בחרו בשיטות גרדיאנט מדיניות טהורות כאשר אתם רוצים אלגוריתם פשוט ולא מוטה לבעיות באופק קצר או כבסיס מחקר נקי. השתמשו בשיטות של מבקר-שחקן בכל פעם שאתם דואגים ליעילות דגימה, יציבות אימון או קנה מידה לסביבות מורכבות כמו רובוטיקה וכוונון עדין של מודלי שפה גדולים.