học tăng cườngđộ dốc chính sáchdiễn viên-nhà phê bìnhhọc máytrí tuệ nhân tạo
Phương pháp Actor-Critic so với phương pháp Policy Gradient thuần túy
Các phương pháp actor-critic kết hợp độ dốc chính sách với hàm giá trị được học để giảm phương sai và tăng tốc quá trình học, trong khi các phương pháp độ dốc chính sách thuần túy chỉ dựa vào chính sách và lợi nhuận Monte Carlo. Việc lựa chọn giữa hai phương pháp này phụ thuộc vào việc bạn cần sự ổn định và hiệu quả lấy mẫu hay sự đơn giản và ước lượng không thiên lệch.
Điểm nổi bật
Các phương pháp actor-critic giảm thiểu sự biến thiên của gradient bằng cách sử dụng một giá trị cơ sở đã học được, trong khi các phương pháp gradient chính sách thuần túy dựa vào lợi nhuận Monte Carlo nhiễu loạn.
Các phương pháp gradient chính sách thuần túy không thiên vị nhưng cần nhiều mẫu, trong khi các phương pháp actor-critic đánh đổi một chút thiên vị để có hiệu quả lấy mẫu tốt hơn nhiều.
Các thuật toán diễn viên-phê bình như PPO và SAC là nền tảng cho hầu hết các thành công hiện đại của học tăng cường, từ Atari đến RLHF đối với các mô hình ngôn ngữ lớn.
Các phương pháp gradient chính sách thuần túy vẫn phổ biến trong nghiên cứu và các nhiệm vụ điều khiển đơn giản vì chúng dễ thực hiện và dễ hiểu hơn.
Phương pháp diễn viên-nhà phê bình là gì?
Các thuật toán học tăng cường lai kết hợp mạng lưới chính sách (tác nhân) với mạng lưới ước lượng giá trị (người phê bình) để huấn luyện ổn định hơn.
Các phương pháp diễn viên-nhà phê bình được chính thức hóa vào đầu những năm 2000, dựa trên các công trình nghiên cứu trước đó của các nhà nghiên cứu như Sutton và Barto về sự lặp lại chính sách.
Tác nhân cập nhật chính sách bằng cách sử dụng hướng độ dốc do nhà phê bình đề xuất, trong khi nhà phê bình ước tính hàm giá trị để đánh giá các hành động.
Các biến thể phổ biến bao gồm A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), SAC (Soft Actor-Critic) và PPO (Proximal Policy Optimization).
Bằng cách sử dụng đường cơ sở đã học, các phương pháp diễn viên-phê bình làm giảm đáng kể phương sai của các ước tính độ dốc chính sách so với lợi nhuận Monte Carlo.
Những phương pháp này đã tạo ra những đột phá trong việc chơi game, robot và tinh chỉnh mô hình ngôn ngữ quy mô lớn thông qua RLHF.
Phương pháp Gradient Chính sách thuần túy là gì?
Các thuật toán học tăng cường tối ưu hóa trực tiếp một chính sách tham số hóa bằng cách sử dụng phương pháp leo dốc gradient dựa trên lợi nhuận kỳ vọng, mà không cần mô hình giá trị riêng biệt.
Thuật toán REINFORCE mang tính nền tảng được Ronald Williams giới thiệu vào năm 1992, thiết lập nên định lý về độ dốc chính sách.
Các phương pháp gradient chính sách thuần túy ước tính gradient bằng cách sử dụng các lần triển khai Monte Carlo hoặc lợi nhuận toàn bộ tập dữ liệu thay vì ước tính giá trị bằng phương pháp bootstrap.
Chúng có tính tương thích tự nhiên với các chính sách ngẫu nhiên, khiến chúng rất phù hợp với môi trường có không gian hành động liên tục hoặc đa chiều.
Vì dựa trên các quỹ đạo được lấy mẫu, các phương pháp này không thiên vị nhưng có xu hướng thể hiện độ biến thiên cao trong ước tính độ dốc của chúng.
Các triển khai đáng chú ý bao gồm REINFORCE gốc, Vanilla Policy Gradient (VPG) và Trust Region Policy Optimization (TRPO).
Bảng So Sánh
Tính năng
Phương pháp diễn viên-nhà phê bình
Phương pháp Gradient Chính sách thuần túy
Cơ chế cốt lõi
Kết hợp mạng lưới chính sách (người thực hiện) với mạng lưới giá trị (người phê bình).
Tối ưu hóa chính sách trực tiếp bằng cách sử dụng lợi nhuận được lấy mẫu.
Phương sai của ước lượng độ dốc
Độ lệch chuẩn thấp hơn do đường cơ sở đã học được.
Độ biến động cao hơn từ lợi nhuận Monte Carlo
Thiên kiến
Sai lệch nhỏ do sự xấp xỉ của nhà phê bình gây ra.
Ước tính độ dốc không thiên vị
Hiệu quả mẫu
Nhìn chung, tỷ lệ cao hơn, tái sử dụng dữ liệu thông qua phương pháp bootstrapping.
Giá thấp hơn, yêu cầu xem toàn bộ tập phim hoặc nhiều đoạn trích.
Độ phức tạp triển khai
Phức tạp hơn, đòi hỏi phải huấn luyện hai mạng.
Đơn giản hơn, chỉ cần quản lý một mạng duy nhất.
Tính ổn định của quá trình huấn luyện
Ổn định hơn nhờ độ biến động thấp hơn và các vùng tin cậy.
Kém ổn định hơn, nhạy cảm với tốc độ học tập và thang điểm phần thưởng.
Xử lý thăm dò
Có thể kết hợp các phần thưởng entropy hoặc các nhà phê bình ngẫu nhiên
Mang tính ngẫu nhiên tự nhiên, dễ dàng khuyến khích sự khám phá.
Các trường hợp sử dụng điển hình
Học tăng cường quy mô lớn, robot, RLHF cho các mô hình ngôn ngữ
Các nhiệm vụ kiểm soát đơn giản, cơ sở nghiên cứu, các vấn đề mang tính chu kỳ
So sánh chi tiết
Ước lượng độ dốc và phương sai
Sự khác biệt thực tiễn lớn nhất giữa hai nhóm phương pháp này nằm ở cách chúng ước tính hướng cải thiện. Các phương pháp gradient chính sách thuần túy dựa vào lợi nhuận Monte Carlo thu thập được từ các tập đầy đủ, cung cấp tín hiệu không thiên vị nhưng lại dao động mạnh tùy thuộc vào may rủi của từng lần triển khai. Các phương pháp actor-critic thay thế lợi nhuận nhiễu đó bằng một hàm giá trị được học, về cơ bản là trừ đi một đường cơ sở nắm bắt được kết quả mong đợi. Kết quả là một gradient có phương sai thấp hơn nhiều, cho phép quá trình huấn luyện diễn ra suôn sẻ hơn, đặc biệt trong môi trường mà phần thưởng thưa thớt hoặc bị trì hoãn.
Sự đánh đổi giữa độ lệch và phương sai
Việc đánh đổi phương sai lấy độ lệch là sự thỏa hiệp cốt lõi trong thiết kế thuật toán actor-critic. Bản thân bộ phê bình chỉ là một phép xấp xỉ, do đó các ước tính của nó có thể sai, và lỗi đó sẽ ảnh hưởng đến việc cập nhật chính sách. Các phương pháp gradient chính sách thuần túy tránh được điều này hoàn toàn vì chúng không bao giờ xấp xỉ hàm giá trị, nhưng chúng phải trả giá cho sự thuần túy đó bằng các bản cập nhật nhiễu hơn. Trên thực tế, các thuật toán actor-critic hiện đại như PPO và SAC quản lý sự đánh đổi này rất tốt đến nỗi độ lệch nhỏ hiếm khi là vấn đề, đó là lý do tại sao chúng thống trị các bài kiểm tra hiệu năng.
Hiệu quả lấy mẫu và khả năng tái sử dụng dữ liệu
Hiệu quả lấy mẫu vô cùng quan trọng khi việc tương tác với môi trường tốn kém, chẳng hạn như trong robot học hoặc các hệ thống đối thoại thực tế. Phương pháp actor-critic tỏa sáng ở đây vì bộ phận phê bình tự khởi tạo từ các dự đoán của chính nó, cho phép thuật toán học hỏi từ mỗi quá trình chuyển đổi nhiều lần. Các phương pháp gradient chính sách thuần túy thường cần dữ liệu chính sách mới cho mỗi lần cập nhật, điều này có nghĩa là cần nhiều tương tác với môi trường hơn để đạt được cùng một mức cải thiện chính sách. Đây là một lý do tại sao các thuật toán kiểu REINFORCE phổ biến hơn trong các nghiên cứu nơi việc mô phỏng có chi phí thấp.
Triển khai và tinh chỉnh
Nếu bạn muốn nhanh chóng tạo nguyên mẫu, các phương pháp gradient chính sách thuần túy rất hấp dẫn. Bạn chỉ cần một mạng lưới chính sách, một hàm mất mát được xây dựng từ logarit xác suất được trọng số hóa theo lợi nhuận, và một cách để thu thập các quỹ đạo. Các phương pháp actor-critic thêm gánh nặng huấn luyện một mạng lưới thứ hai, cân bằng tốc độ học của nó với tốc độ học của actor, và đảm bảo rằng critic hội tụ đủ nhanh để hữu ích. Sự phức tạp bổ sung đó mang lại hiệu suất tốt hơn, nhưng nó cũng nâng cao rào cản cho người mới bắt đầu.
Chính sách thăm dò và ngẫu nhiên
Cả hai phương pháp đều xử lý các chính sách ngẫu nhiên một cách tự nhiên, nhưng chúng khuyến khích sự khám phá theo những cách khác nhau. Các phương pháp gradient chính sách thuần túy có được sự khám phá miễn phí từ entropy của chính chính sách, điều này hoạt động tốt trong các bài toán có phân bố hành động rõ ràng. Các phương pháp actor-critic thường thêm một phần thưởng entropy rõ ràng vào mục tiêu, như Soft Actor-Critic nổi tiếng đã làm, để ngăn chính sách sụp đổ quá sớm. Điều này làm cho các biến thể actor-critic mạnh mẽ hơn trong các nhiệm vụ mà tác nhân có thể bị mắc kẹt trong các hành vi không tối ưu.
Ưu & Nhược điểm
Phương pháp diễn viên-nhà phê bình
Ưu điểm
+Cập nhật độ lệch thấp hơn
+Hiệu quả lấy mẫu tốt hơn
+Đào tạo ổn định hơn
+Có khả năng xử lý các nhiệm vụ phức tạp
Đã lưu
−Việc triển khai phức tạp hơn.
−Điều chỉnh siêu tham số bổ sung
−Có chút thiên vị từ phía nhà phê bình
−Hai mạng lưới để huấn luyện
Phương pháp Gradient Chính sách thuần túy
Ưu điểm
+Cách triển khai đơn giản
+Ước tính độ dốc không thiên vị
+Chính sách ngẫu nhiên tự nhiên
+Rất hữu ích cho nghiên cứu.
Đã lưu
−Cập nhật có độ biến thiên cao
−Hiệu quả lấy mẫu kém
−Cần có đầy đủ các tập phim.
−Nhạy cảm với tốc độ học tập
Những hiểu lầm phổ biến
Huyền thoại
Các phương pháp diễn viên-phê bình là một nhóm thuật toán hoàn toàn khác so với phương pháp gradient chính sách.
Thực tế
Các phương pháp actor-critic thực chất là một tập hợp con của các phương pháp gradient chính sách. Chúng tính toán cùng một gradient chính sách, nhưng sử dụng một hàm giá trị được học để giảm phương sai thay vì dựa vào lợi nhuận thô.
Huyền thoại
Các phương pháp gradient chính sách thuần túy luôn hội tụ nhanh hơn vì chúng không thiên vị.
Thực tế
Tính khách quan không đồng nghĩa với tốc độ hội tụ nhanh. Độ biến thiên cao của các ước tính Monte Carlo thường làm chậm quá trình huấn luyện một cách đáng kể, đặc biệt là trong các nhiệm vụ dài hạn, nơi phần thưởng bị trì hoãn.
Huyền thoại
Các phương pháp diễn viên-nhà phê bình không thể hoạt động với không gian hành động liên tục.
Thực tế
Nhiều thuật toán actor-critic, bao gồm SAC và DDPG, được thiết kế đặc biệt cho điều khiển liên tục và hoạt động cực kỳ hiệu quả trong robot và mô phỏng dựa trên vật lý.
Huyền thoại
Để thực hiện học tăng cường hiệu quả, bạn luôn cần một người phê bình.
Thực tế
Các phương pháp dựa trên độ dốc chính sách thuần túy như REINFORCE và TRPO đã giải quyết được rất nhiều vấn đề mà không cần đến bộ lọc phê bình. Bộ lọc phê bình là một công cụ để giảm phương sai, chứ không phải là một yêu cầu bắt buộc.
Huyền thoại
PPO là một phương pháp dựa trên độ dốc chính sách thuần túy.
Thực tế
Về mặt kỹ thuật, PPO là một thuật toán diễn viên-phê bình. Nó sử dụng mục tiêu thay thế được cắt xén ở phía chính sách, nhưng dựa vào mạng lưới giá trị để tính toán lợi thế và hướng dẫn cập nhật.
Các câu hỏi thường gặp
Điểm khác biệt chính giữa phương pháp diễn viên-phê bình và phương pháp gradient chính sách là gì?
Sự khác biệt chính nằm ở việc có sử dụng hàm giá trị trong quá trình huấn luyện hay không. Phương pháp actor-critic huấn luyện một mạng critic riêng biệt để ước tính giá trị và giảm phương sai, trong khi phương pháp policy gradient thuần túy ước tính gradient trực tiếp từ lợi nhuận được lấy mẫu mà không cần mô hình giá trị đã học.
Tại sao phương pháp diễn viên-nhà phê bình lại có độ biến thiên thấp hơn?
Họ trừ đi một đường cơ sở đã học được, thường là hàm giá trị, khỏi lợi nhuận trước khi tính toán độ dốc. Đường cơ sở này nắm bắt được kết quả mong đợi, do đó tín hiệu lợi thế còn lại có ít nhiễu ngẫu nhiên hơn so với lợi nhuận Monte Carlo thô.
PPO là phương pháp phân tích diễn viên-nhà phê bình hay phương pháp phân tích chính sách theo cấp độ?
PPO là một thuật toán diễn viên-phê bình. Nó sử dụng mục tiêu được cắt xén để cập nhật chính sách, nhưng nó phụ thuộc vào mạng lưới giá trị để tính toán lợi thế, đây là đặc điểm nổi bật của họ thuật toán diễn viên-phê bình.
Khi nào thì nên sử dụng các phương pháp gradient chính sách thuần túy thay vì mô hình actor-critic?
Các phương pháp gradient chính sách thuần túy rất phù hợp cho các nhiệm vụ ngắn hạn, các nghiên cứu cơ sở hoặc các tình huống cần một thuật toán đơn giản, không thiên vị. Chúng cũng hoạt động tốt khi việc mô phỏng môi trường có chi phí thấp và bạn không cần hiệu quả lấy mẫu tối đa.
Phương pháp diễn viên-nhà phê bình có hiệu quả với không gian hành động liên tục không?
Vâng, nhiều thuật toán làm được điều đó. Các thuật toán như SAC, DDPG và TD3 là các phương pháp actor-critic được thiết kế đặc biệt cho điều khiển liên tục và được sử dụng rộng rãi trong robot học và môi trường vật lý mô phỏng.
Liệu các phương pháp phân tích độ dốc chính sách thuần túy vẫn còn được sử dụng ngày nay?
Chắc chắn rồi. REINFORCE và Vanilla Policy Gradient vẫn phổ biến trong nghiên cứu và giáo dục, và TRPO vẫn được sử dụng trong các ứng dụng nhạy cảm về an toàn, nơi mà ràng buộc vùng tin cậy của nó rất có giá trị.
Định lý độ dốc chính sách là gì?
Định lý độ dốc chính sách, được chứng minh bởi Sutton và các đồng nghiệp, cung cấp một biểu thức dạng đóng cho độ dốc của lợi nhuận kỳ vọng đối với các tham số chính sách. Cả phương pháp độ dốc chính sách thuần túy và phương pháp diễn viên-phê bình đều được xây dựng dựa trên định lý này.
REINFORCE có mối liên hệ như thế nào với các phương pháp diễn viên-nhà phê bình?
REINFORCE là thuật toán gradient chính sách thuần túy kinh điển. Các phương pháp actor-critic có thể được xem như một sự phát triển của REINFORCE, thay thế lợi nhuận Monte Carlo bằng ước tính bootstrap từ một critic đã học được, giúp giảm phương sai nhưng đổi lại là một số sai lệch.
Liệu phương pháp actor-critic có thể được sử dụng cho RLHF trong các mô hình ngôn ngữ lớn không?
Đúng vậy, các phương pháp actor-critic như PPO là những công cụ chủ lực trong các quy trình RLHF để điều chỉnh các mô hình ngôn ngữ lớn. Chúng xử lý được các khoảng thời gian dài và tín hiệu phần thưởng phức tạp liên quan đến việc huấn luyện các mô hình ngôn ngữ với phản hồi từ con người.
Phương pháp nào tốt hơn cho môi trường có phần thưởng thưa thớt?
Các phương pháp actor-critic thường hoạt động tốt hơn trong môi trường phần thưởng thưa thớt vì bộ phận phê bình có thể truyền thông tin giá trị ngược trở lại theo thời gian, cung cấp cho chính sách các tín hiệu học tập hữu ích ngay cả khi phần thưởng hiếm hoi.
Phán quyết
Hãy chọn phương pháp gradient chính sách thuần túy khi bạn muốn một thuật toán đơn giản, không thiên vị cho các bài toán ngắn hạn hoặc làm cơ sở nghiên cứu sạch. Hãy sử dụng phương pháp actor-critic khi bạn quan tâm đến hiệu quả lấy mẫu, tính ổn định của quá trình huấn luyện hoặc khả năng mở rộng cho các môi trường phức tạp như robot học và tinh chỉnh mô hình ngôn ngữ quy mô lớn.