học tăng cườngPPOđộ dốc chính sáchhọc máytrí tuệ nhân tạo
Cắt xén chính sách trong PPO so với cập nhật chính sách không giới hạn
Trong PPO, việc cắt xén chính sách giới hạn mức độ sai lệch của chính sách mới so với chính sách cũ trong mỗi lần cập nhật, giúp duy trì sự ổn định của quá trình huấn luyện. Việc cập nhật chính sách không giới hạn cho phép chính sách mới thay đổi tự do, điều này có thể tăng tốc độ học nhưng thường dẫn đến sự không ổn định hoặc sụp đổ trong môi trường phức tạp.
Điểm nổi bật
Việc cắt xén PPO giới hạn tỷ lệ xác suất ở mức 0,8–1,2, ngăn chặn các bản cập nhật gây hại.
Việc cập nhật không giới hạn có thể thay đổi chính sách một cách tùy ý chỉ trong một bước.
Kỹ thuật cắt xén cho phép thực hiện nhiều chu kỳ huấn luyện trên cùng một lô dữ liệu, giúp tăng hiệu quả.
Các phương pháp không giới hạn đòi hỏi phải điều chỉnh tốc độ học cẩn thận để tránh hiện tượng sụp đổ.
Cắt giảm chi phí bảo hiểm trong PPO là gì?
Một kỹ thuật trong Tối ưu hóa Chính sách Gần đúng (Proximal Policy Optimization) giới hạn mức độ thay đổi của chính sách trong mỗi bước cập nhật.
Khái niệm này được giới thiệu bởi John Schulman và các đồng nghiệp tại OpenAI trong bài báo PPO năm 2017 của họ.
Sử dụng tỷ lệ cắt xén, thường được đặt trong khoảng từ 0,1 đến 0,2, để giới hạn tỷ lệ xác suất giữa các chính sách mới và cũ.
Thay thế hình phạt sai lệch KL được sử dụng trong TRPO bằng mục tiêu thay thế đơn giản hơn đã được cắt bớt.
Giúp ngăn ngừa những thay đổi chính sách quá lớn gây ảnh hưởng tiêu cực, có thể làm gián đoạn quá trình đào tạo.
Nó đã trở thành một trong những thuật toán học tăng cường được sử dụng rộng rãi nhất trong cả nghiên cứu và công nghiệp.
Cập nhật chính sách không giới hạn là gì?
Một phương pháp cho phép các tham số chính sách thay đổi bất kỳ mức độ nào trong một chu kỳ huấn luyện duy nhất mà không có ràng buộc rõ ràng.
Được sử dụng trong các phương pháp gradient chính sách ban đầu như REINFORCE thông thường và các thuật toán actor-critic cơ bản.
Không có giới hạn cắt xén hay ràng buộc KL nào được áp dụng để hạn chế độ lớn của sự thay đổi tham số.
Có thể tạo ra quá trình học tập ban đầu nhanh chóng nếu hướng dốc chính xác.
Thường dẫn đến sự biến động lớn và sự sụp đổ chính sách trong môi trường ngẫu nhiên hoặc đa chiều.
Đôi khi được kết hợp với thuật toán vùng tin cậy hoặc giảm tốc độ học để giảm thiểu phần nào sự bất ổn.
Bảng So Sánh
Tính năng
Cắt giảm chi phí bảo hiểm trong PPO
Cập nhật chính sách không giới hạn
Cập nhật ràng buộc
Được cắt tỉa theo tỷ lệ 0,1–0,2
Không có ràng buộc rõ ràng
Luyện tập sự ổn định
Nhìn chung ổn định qua các lần lặp.
Dễ bị dao động và sụp đổ
Hiệu quả mẫu
Cao, tái sử dụng các quỹ đạo đã thu thập.
Biến đổi, thường yêu cầu dữ liệu mới.
Độ phức tạp triển khai
Mục tiêu đơn lẻ, kích thước trung bình
Thuật toán leo dốc đơn giản, tiêu chuẩn
Độ nhạy của siêu tham số
Phạm vi cắt thấp hơn dễ điều chỉnh hơn.
Tốc độ học tập càng cao thì càng quan trọng.
Nguy cơ sụp đổ chính sách
Thấp do hạn chế về khoảng cách
Cao nếu không có biện pháp bảo vệ bên ngoài
Các trường hợp sử dụng phổ biến
Robot học, trí tuệ nhân tạo trong game, RLHF, điều khiển liên tục
Các bài toán đồ chơi đơn giản, phân tích lý thuyết
Nguồn gốc
OpenAI, bài báo PPO năm 2017
Các nghiên cứu ban đầu về chính sách chênh lệch độ dốc, thập niên 1990–2000
So sánh chi tiết
Cơ chế cốt lõi
Trong PPO, cơ chế cắt xén chính sách hoạt động bằng cách tính toán tỷ lệ giữa xác suất hành động mới và cũ, sau đó cắt xén tỷ lệ đó để giữ trong một phạm vi hẹp (thường từ 0,8 đến 1,2). Khi tỷ lệ cố gắng vượt ra ngoài phạm vi này, tín hiệu độ dốc sẽ bị đặt về 0, về cơ bản báo hiệu cho trình tối ưu hóa "đừng tiếp tục đẩy theo hướng này". Các cập nhật không giới hạn bỏ qua hoàn toàn cơ chế bảo vệ này, cho phép trình tối ưu hóa di chuyển các tham số chính sách đến bất cứ nơi nào độ dốc chỉ vào, bất kể sự thay đổi lớn đến mức nào.
Tính ổn định và độ tin cậy
Phương pháp cắt xén nổi tiếng về độ tin cậy vì nó ngăn chặn hiện tượng quên lãng nghiêm trọng thường xảy ra ở các phương pháp không giới hạn. Khi tìm thấy một chính sách tốt, việc cắt xén sẽ ngăn nó bị phá hủy bởi một bản cập nhật quá tự tin. Các bản cập nhật không giới hạn đôi khi có thể tìm ra những đột phá nhanh hơn, nhưng chúng cũng có xu hướng làm mất đi hàng tuần tiến bộ chỉ trong một bước sai lầm duy nhất, đó là lý do tại sao hầu hết các hệ thống sản xuất đều tránh sử dụng chúng.
Hiệu quả mẫu
Phương pháp cắt xén của PPO cho phép tối ưu hóa nhiều chu kỳ trên cùng một tập dữ liệu kinh nghiệm đã thu thập, cải thiện đáng kể hiệu quả sử dụng mẫu. Vì chính sách không thể thay đổi quá nhiều, dữ liệu vẫn giữ được tính phù hợp qua nhiều bước gradient. Các cập nhật không giới hạn thường yêu cầu lấy mẫu mới trong mỗi lần lặp vì chính sách có thể đã thay đổi quá nhiều đến mức các quỹ đạo cũ không còn phản ánh hành vi hiện tại, gây lãng phí tài nguyên tính toán và môi trường.
Hành vi siêu tham số
Việc cắt xén giúp PPO trở nên cực kỳ dễ sử dụng với các siêu tham số. Phạm vi cắt xén 0,2 hoạt động tốt trên rất nhiều nhiệm vụ mà không cần tinh chỉnh nhiều. Các bản cập nhật không giới hạn phụ thuộc vào tốc độ học: quá nhỏ thì quá trình học diễn ra chậm, quá lớn thì chính sách phân kỳ. Sự nhạy cảm này khiến các phương pháp không giới hạn trở nên khó sử dụng đối với những người thực hành không có thời gian cho các lần quét rộng rãi.
Áp dụng thực tiễn
Khi xem xét bất kỳ mã nguồn RL hiện đại nào, bạn sẽ thấy PPO chiếm ưu thế, từ các công trình của chính OpenAI đến các phòng thí nghiệm robot và các quy trình tinh chỉnh mô hình ngôn ngữ như RLHF. Các cập nhật chính sách không giới hạn chủ yếu vẫn nằm trong sách giáo khoa và các cuộc thảo luận lý thuyết, thỉnh thoảng xuất hiện trong các bài báo nghiên cứu cần một cơ sở để so sánh. Khoảng cách trong việc áp dụng phản ánh hàng thập kỷ tích lũy bằng chứng về phương pháp nào thực sự hiệu quả trong thực tế.
Ưu & Nhược điểm
Cắt giảm chi phí bảo hiểm trong PPO
Ưu điểm
+Đào tạo có độ ổn định cao
+Mẫu hiệu quả
+Các siêu tham số dễ tha thứ
+Được áp dụng rộng rãi trong ngành.
Đã lưu
−Tiến độ từng bước chậm hơn
−Phạm vi cắt vẫn cần được điều chỉnh.
−Có thể quá bảo thủ
−Mã phức tạp hơn một chút
Cập nhật chính sách không giới hạn
Ưu điểm
+Dễ thực hiện
+Học tập ban đầu nhanh chóng
+Không có ràng buộc nhân tạo
+Hữu ích cho công việc lý thuyết
Đã lưu
−Dễ dẫn đến sự sụp đổ chính sách.
−Cập nhật có độ biến thiên cao
−Tái sử dụng mẫu kém
−Nhạy cảm với tốc độ học tập
Những hiểu lầm phổ biến
Huyền thoại
Việc cắt xén hoàn toàn ngăn cản chính sách thay đổi đáng kể.
Thực tế
Giới hạn chỉ áp dụng cho phép thay đổi chính sách trong một bước cập nhật duy nhất. Qua nhiều lần lặp, chính sách vẫn có thể thay đổi đáng kể miễn là mỗi bước riêng lẻ nằm trong phạm vi giới hạn. Giới hạn này chỉ áp dụng cho từng bước, chứ không phải vĩnh viễn.
Huyền thoại
Các bản cập nhật không giới hạn luôn hội tụ nhanh hơn các phương pháp cắt xén.
Thực tế
Các bản cập nhật không giới hạn thoạt nhìn có vẻ nhanh hơn, nhưng chúng thường bị lệch hướng hoặc sụp đổ, buộc phải khởi động lại và xóa bỏ mọi lợi ích ban đầu. Trên thực tế, các phương pháp cắt bớt như PPO thường đạt được hiệu suất cuối cùng tốt hơn trong thời gian thực ngắn hơn vì chúng không lãng phí công sức để phục hồi từ các bản cập nhật lỗi.
Huyền thoại
Việc cắt bớt mã PPO khiến nó tương đương với mã TRPO.
Thực tế
Cả hai phương pháp đều hạn chế việc cập nhật chính sách, nhưng TRPO sử dụng ràng buộc phân kỳ KL cứng với tìm kiếm đường thẳng, trong khi PPO sử dụng giới hạn mềm trên tỷ lệ xác suất. PPO đơn giản hơn, hỗ trợ nhiều epoch trên mỗi batch và có khả năng mở rộng tốt hơn đối với các mô hình lớn, đó là lý do tại sao nó phần lớn đã thay thế TRPO trong thực tế.
Huyền thoại
Phạm vi clip rộng hơn luôn đồng nghĩa với việc học tập tích cực hơn.
Thực tế
Việc tăng phạm vi cắt cho phép cập nhật lớn hơn, nhưng nó cũng làm giảm hiệu ứng bảo vệ của việc cắt xén. Vượt quá một điểm nhất định, thuật toán hoạt động giống như một bản cập nhật không giới hạn và mất đi lợi ích về tính ổn định. Phạm vi mặc định 0.2 là điểm tối ưu, chứ không phải là điểm khởi đầu để tinh chỉnh tăng lên.
Huyền thoại
Việc cập nhật chính sách không giới hạn đã lỗi thời và vô dụng.
Thực tế
Các bản cập nhật không giới hạn vẫn có giá trị như những cơ sở nghiên cứu và hoạt động khá tốt trong các môi trường đơn giản như thế giới lưới nhỏ hoặc các nhiệm vụ điều khiển chiều thấp. Chúng cũng đóng vai trò là công cụ sư phạm để hiểu lý do tại sao các phương pháp vùng tin cậy được phát triển ngay từ đầu.
Các câu hỏi thường gặp
Tỷ lệ cắt trong PPO thực sự có tác dụng gì?
Tỷ lệ cắt (clip ratio) giới hạn tỷ lệ xác suất giữa chính sách mới và chính sách cũ ở một giá trị như 0,2, nghĩa là chính sách mới không thể gán xác suất cao hơn hoặc thấp hơn quá 20% cho bất kỳ hành động nào so với chính sách cũ. Khi tỷ lệ này cố gắng vượt quá phạm vi này, độ dốc sẽ được đặt về 0, ngăn chặn sự di chuyển tiếp theo theo hướng đó ở bước đó.
Tại sao việc cập nhật chính sách không giới hạn lại gây ra lỗi trong quá trình huấn luyện?
Nếu không có các ràng buộc, một bước thay đổi độ dốc lớn duy nhất có thể đẩy chính sách vào vùng hoạt động kém hiệu quả, và các quỹ đạo xấu do đó sẽ làm ảnh hưởng xấu đến các ước tính độ dốc trong tương lai. Vòng phản hồi này thường dẫn đến sự sụp đổ của chính sách, trong đó hiệu suất của tác nhân giảm không thể phục hồi và không bao giờ hồi phục nếu không được thiết lập lại thủ công.
Liệu PPO luôn tốt hơn các phương pháp gradient chính sách thông thường?
Trong hầu hết các trường hợp thực tế, câu trả lời là có. Cơ chế cắt xén của PPO cung cấp sự ổn định mà các phương pháp thông thường thiếu, đặc biệt là trong điều khiển liên tục và không gian quan sát đa chiều. Các thuật toán gradient chính sách thông thường vẫn có thể vượt trội trong các môi trường rời rạc rất đơn giản, nơi tín hiệu gradient sạch và nguy cơ sụp đổ thấp.
Bạn có thể kết hợp kỹ thuật cắt bóng với các kỹ thuật khác như phạt đền KL không?
Đúng vậy, và nhiều cách triển khai thực hiện chính xác điều này. Các hình phạt KL thích ứng có thể được thêm vào cùng với việc cắt xén để điều chỉnh thêm các bản cập nhật, mặc dù bài báo PPO gốc cho thấy rằng chỉ cần cắt xén thôi thường là đủ. Một số người thực hành báo cáo rằng việc kết hợp cả hai mang lại những cải tiến nhỏ đối với các nhiệm vụ đặc biệt khó khăn.
Điều gì sẽ xảy ra nếu bạn đặt phạm vi cắt PPO về 0?
Phạm vi cắt bằng 0 sẽ làm đóng băng hoàn toàn chính sách, vì bất kỳ thay đổi nào cũng sẽ bị cắt bỏ và tạo ra độ dốc bằng 0. Trên thực tế, phạm vi cắt phải dương để cho phép bất kỳ quá trình học tập nào diễn ra, đó là lý do tại sao các giá trị như 0,1 hoặc 0,2 là tiêu chuẩn thay vì tiến gần đến 0.
Liệu phương pháp cập nhật không giới hạn có bao giờ vượt trội hơn PPO trong các bài kiểm tra hiệu năng không?
Hiếm khi xảy ra, nhưng điều đó có thể xảy ra với các tác vụ đơn giản, nơi chính sách tối ưu dễ dàng đạt được và độ dốc ổn định. Trong các bộ dữ liệu chuẩn như MuJoCo hoặc Atari, PPO luôn đạt kết quả tương đương hoặc vượt trội so với các thuật toán cơ bản không giới hạn, đó là lý do tại sao nó trở thành lựa chọn mặc định cho các dự án mới.
Phương pháp PPO xử lý không gian hành động liên tục khác với các phương pháp không giới hạn như thế nào?
Cả hai phương pháp đều hoạt động với các hành động liên tục thông qua các chính sách Gaussian, nhưng việc cắt xén của PPO ngăn các tham số trung bình và phương sai nhảy vọt mạnh giữa các lần cập nhật. Các phương pháp không giới hạn trong không gian liên tục đặc biệt dễ bị mất ổn định vì những thay đổi nhỏ về tham số có thể tạo ra những thay đổi lớn trong phân bố hành động.
Cắt xén có giống với cắt xén theo độ dốc không?
Không, đây là những cơ chế khác nhau. Cắt bớt độ dốc (gradient clipping) giới hạn độ lớn của độ dốc trước khi cập nhật tham số, trong khi cắt bớt của PPO (Positive Power Point) giới hạn tỷ lệ xác suất sau khi quá trình cập nhật được tính toán. Cả hai đều có thể được sử dụng cùng nhau, và chúng giải quyết các nguồn gây mất ổn định trong quá trình huấn luyện, tuy có liên quan nhưng khác biệt.
Tại sao OpenAI lại phát triển PPO thay vì cải tiến TRPO?
TRPO hoạt động tốt nhưng tốn nhiều tài nguyên tính toán do các quy trình tối ưu hóa bậc hai và tìm kiếm đường thẳng. PPO được thiết kế để đạt được các đảm bảo ổn định tương tự với các phương pháp bậc nhất dễ thực hiện hơn, mở rộng tốt hơn cho các mạng lớn và chạy nhanh hơn trên phần cứng hiện đại.
Liệu việc cập nhật không giới hạn có thể ổn định với tốc độ học nhỏ không?
Tốc độ học nhỏ làm giảm biên độ của mỗi lần cập nhật, điều này mô phỏng một số lợi ích của việc cắt xén, nhưng nó không đảm bảo ràng buộc về khoảng cách giúp PPO trở nên mạnh mẽ. Bạn có thể xấp xỉ sự ổn định theo cách này, nhưng thông thường bạn sẽ cần nhiều mẫu hơn và điều chỉnh cẩn thận để đạt được độ tin cậy tương đương với PPO.
Phán quyết
Hãy chọn phương pháp cắt xén chính sách trong PPO bất cứ khi nào bạn cần huấn luyện đáng tin cậy, có thể tái tạo trên nhiều môi trường khác nhau, đặc biệt là trong môi trường sản xuất hoặc nghiên cứu, nơi tính ổn định quan trọng hơn tốc độ thô. Việc cập nhật chính sách không giới hạn chỉ có ý nghĩa đối với các bài toán đơn giản, có chiều dữ liệu thấp hoặc các nghiên cứu lý thuyết mà bạn muốn quan sát cụ thể các chế độ lỗi mà phương pháp cắt xén được thiết kế để ngăn chặn.