Một loại thuật toán mới đã thành thạo các trò chơi video Atari nhanh hơn 10 lần so với AI hiện đại, với cách tiếp cận đột phá để giải quyết vấn đề.
Thiết kế AI (Artificial Intelligence) có thể đàm phán các vấn đề lập kế hoạch, đặc biệt là những vấn đề mà phần thưởng không rõ ràng ngay lập tức, là một trong những thách thức nghiên cứu quan trọng nhất trong việc thúc đẩy lĩnh vực này.
Một nghiên cứu nổi tiếng năm 2015 cho thấy Google DeepMind AI đã học chơi các trò chơi video Atari như Video Pinball ở cấp độ con người, nhưng nổi tiếng là không học được con đường dẫn đến chìa khóa đầu tiên trong trò chơi video Montezuma’s Revenge của thập niên 1980 do sự phức tạp của trò chơi.
Trong phương pháp mới được phát triển tại Đại học RMIT ở Melbourne, Úc, các máy tính được thiết lập để chơi tự động Montezuma’s Revenge đã học được từ những sai lầm và xác định các mục tiêu phụ nhanh hơn 10 lần so với Google DeepMind để kết thúc trò chơi.

Phó giáo sư Fabio Zambetta từ Đại học RMIT tiết lộ cách tiếp cận mới vào thứ Sáu này tại Hội nghị AAAI lần thứ 33 về Trí tuệ nhân tạo ở Hoa Kỳ.
Phương pháp, được phát triển với sự cộng tác của Giáo sư John Thangarajah và Michael Dann của Đại học RMIT, kết hợp học tập củng cố “củ cà rốt” với phương pháp thúc đẩy nội tại, thưởng cho AI vì tò mò và khám phá môi trường của nó.
“AI (Artificial Intelligence) thực sự thông minh cần có khả năng học cách hoàn thành các nhiệm vụ một cách tự chủ trong môi trường mơ hồ”, Zambetta nói.
“Chúng tôi đã chỉ ra rằng các loại thuật toán phù hợp có thể cải thiện kết quả bằng cách sử dụng một cách tiếp cận thông minh hơn thay vì hoàn toàn thô bạo buộc một vấn đề từ đầu đến cuối trên các máy tính rất mạnh.
“Kết quả của chúng tôi cho thấy chúng ta tiến gần hơn đến AI tự trị và có thể là một dòng điều tra quan trọng nếu chúng ta muốn tiếp tục đạt được tiến bộ đáng kể trong lĩnh vực này.”
Phương pháp của Zambetta thưởng cho hệ thống để tự động khám phá các mục tiêu phụ hữu ích như ‘leo lên cái thang đó’ hoặc ‘nhảy qua cái hố đó’, có thể không rõ ràng đối với máy tính, trong bối cảnh hoàn thành nhiệm vụ lớn hơn.
Các hệ thống tiên tiến khác đã yêu cầu đầu vào của con người để xác định các mục tiêu phụ này hoặc nếu không thì quyết định làm gì tiếp theo một cách ngẫu nhiên.
“Các thuật toán của chúng tôi không chỉ tự động xác định các nhiệm vụ có liên quan nhanh hơn khoảng 10 lần so với Google DeepMind khi chơi Montezuma’s Revenge, mà chúng còn thể hiện hành vi tương đối giống con người khi làm như vậy”, Zambetta nói.

“Ví dụ, trước khi bạn có thể đến màn hình thứ hai của trò chơi, bạn cần xác định các nhiệm vụ phụ như leo thang, nhảy qua kẻ thù và cuối cùng là nhặt một chiếc chìa khóa, theo thứ tự đó.
“Điều này cuối cùng sẽ xảy ra ngẫu nhiên sau một khoảng thời gian khổng lồ nhưng xảy ra rất tự nhiên trong thử nghiệm của chúng tôi cho thấy một số ý định.
“Điều này làm cho chúng tôi trở thành đại lý định hướng mục tiêu phụ hoàn toàn tự động đầu tiên thực sự cạnh tranh với các đại lý tiên tiến trên các trò chơi này.”
Zambetta cho biết hệ thống này sẽ hoạt động bên ngoài các trò chơi video trong một loạt các nhiệm vụ, khi được cung cấp với các đầu vào trực quan thô.
“Tạo một thuật toán có thể hoàn thành các trò chơi video nghe có vẻ tầm thường, nhưng thực tế chúng tôi đã thiết kế một thuật toán có thể đối phó với sự mơ hồ trong khi lựa chọn một số hành động có thể tùy ý là một tiến bộ quan trọng.
“Điều đó có nghĩa là, theo thời gian, công nghệ này sẽ có giá trị để đạt được các mục tiêu trong thế giới thực, dù là trong xe tự lái hay là trợ lý robot hữu ích với khả năng nhận dạng ngôn ngữ tự nhiên”, ông nói.
Xuất phát từ con người một cách tự động để tăng tốc học tập trong các miền phần thưởng thưa thớt (đính kèm) sẽ được trình bày tại Hội nghị AAAI lần thứ 33 về Trí tuệ nhân tạo ở Honolulu, Hawaii vào ngày 1 tháng 2 năm 2019.
Nguồn tin tức:
Tài liệu được cung cấp bởi Đại học RMIT . Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.