Tin tức Khoa học Skynet

Phương pháp Deep learning mới có thể biến đổi hình dạng

Ngày:
Th10 20, 2019
Tóm tắt:

Được gọi là LOGAN, mạng lưới thần kinh sâu, tức là một cỗ máy biết sắp xếp và có thể học cách biến đổi hình dạng của hai vật thể khác nhau. Ví dụ như biến một cái ghế thành một cái bàn theo cách tự nhiên mà không thấy bất kỳ biến đổi ghép nối nào giữa các hình dạng.

Chia sẻ:
BÀI VIẾT ĐẦY ĐỦ

Biến một chiếc ghế thành một cái bàn hoặc ngược lại. Nghe có vẻ giống như một trò ảo thuật nhưng trong trường hợp này không có phép thuật nào cả mà chỉ có rất nhiều hình học phức tạp cùng Deep learning (máy học).

Được gọi là LOGAN, mạng lưới thần kinh sâu, tức là một cỗ máy biết sắp xếp và có thể học cách biến đổi hình dạng của hai vật thể khác nhau. Ví dụ như biến một cái ghế thành một cái bàn theo cách tự nhiên mà không thấy bất kỳ biến đổi ghép nối nào giữa các hình dạng. Tất cả những gì máy đã thấy là một loạt các bàn và một loạt các ghế và từ đó nó có thể tự động dịch các hình dạng giữa hai miền không ghép đôi. LOGAN cũng có thể tự động thực hiện cả chuyển nội dung và kiểu giữa hai loại hình dạng khác nhau mà không có bất kỳ thay đổi nào đối với kiến ​​trúc mạng của nó.

Nhóm các nhà nghiên cứu đằng sau LOGAN đến từ Đại học Simon Fraser, Đại học Thâm Quyến và Đại học Tel Aviv đang chuẩn bị trình bày công việc của họ tại ACM SIGGRAPH Châu Á được tổ chức từ ngày 17 đến 20 tháng 11 tại Brisbane, Úc. SIGGRAPH Châu Á năm thứ 12 đã thu hút những người sáng tạo và kỹ thuật được kính trọng nhất từ ​​khắp nơi trên thế giới về đồ họa máy tính, hoạt hình, tương tác, chơi game và các công nghệ mới nổi.

Biến đổi hình dạng là một trong những vấn đề cơ bản nhất và thường gặp phải trong đồ họa máy tính và mô hình hình học. Điều mới và đang nổi lên là gắn kết vấn đề quan trọng này với việc học sâu – một cỗ máy có thể học cách biến đổi hình dạng, đặc biệt là trong bối cảnh không được giám sát hoặc không ghép đôi.

Trong công trình này, các nhà nghiên cứu đã chuyển sang một kỹ thuật nổi tiếng trong học máy là Mạng đối thủ sáng tạo (GAN) để biến đổi hình dạng mục đích chung không ghép đôi. Mạng của họ được đào tạo trên hai bộ hình dạng, ví dụ như bàn và ghế hoặc các chữ cái khác nhau. Không có sự ghép nối giữa các hình dạng trong hai miền để hướng dẫn dịch hình dạng cũng như bất kỳ sự tương ứng điểm nào giữa các hình dạng. Sau khi được đào tạo, phương pháp của các nhà nghiên cứu sẽ lấy hình dạng điểm đặt từ một miền, một cái bàn hoặc một cái ghế và biến đổi sang một miền khác.

LOGAN đã vượt qua một thách thức quan trọng trong kỹ thuật biến đổi hình dạng khi đưa ra hai bộ hình dạng – ghế và bàn. Thật khó khăn cho mạng để tìm hiểu những đặc điểm hình dạng cụ thể nào cần được giữ nguyên hoặc thay đổi để dẫn đến sự biến đổi thực tế của vật thể – từ ghế sang bàn và ngược lại. Phương pháp của nhóm tìm hiểu sự khác biệt duy nhất về các tính năng và có thể tự động xác định các tính năng nào cần được giữ hoặc loại bỏ để đạt được biến đổi hình dạng mong muốn và có thể làm như vậy mà không cần giám sát.

Các kỹ thuật khác trong tầm nhìn máy tính để dịch hình ảnh sang hình ảnh chưa ghép đôi đã được phát triển và đã thành công trong việc dịch các tính năng theo từng style nhưng hầu hết chưa đạt được dịch thuật hình dạng.

Vào năm 2017, CycleGAN và DualGAN là hai tác phẩm có ảnh hưởng lớn từ tầm nhìn máy tính đã được phát triển để dịch theo phong cách hình ảnh sang hình ảnh chưa từng có. Lần đầu tiên, LOGAN đã đặc biệt tạo ra các bản dịch hình dạng thực tế, cả về phong cách và nội dung. Ngoài ra, các nhà nghiên cứu chứng minh rằng LOGAN có thể học chuyển nội dung “giữ kiểu”. Ví dụ, mạng có thể tự động chuyển đổi một chữ ‘R’ thành ‘P’ có cùng kiểu phông chữ hoặc liên quan đến dịch kiểu, phương thức của họ có thể dịch một chữ in đậm ‘A’ thành chữ in nghiêng ‘A’.

Để đưa ra phương pháp của họ, các nhà nghiên cứu đx đào tạo một mạng lưới thần kinh mã hóa hai loại hình dạng đầu vào thành một không gian tiềm ẩn chung. Trong tìm hiểu sâu, không gian tiềm ẩn được biểu thị bằng lớp nút cổ chai nơi mạng nắm bắt các tính năng của dữ liệu đầu vào.

LOGAN không chỉ được đào tạo để biến mã ghế thành mã bảng mà còn được đào tạo để biến mã bảng thành mã bảng tương tự. Cái sau cho phép “bảo quản tính năng” và giúp duy trì một số tính năng nhất định trong các bản dịch hình dạng ghế để bàn.

Trong các nghiên cứu cắt bỏ, các nhà nghiên cứu chứng minh khả năng vượt trội của LOGAN trong việc biến đổi hình dạng không ghép đôi trên nhiều ví dụ khác nhau về đường cơ sở và phương pháp tiếp cận hiện đại. Nghiên cứu của họ cho thấy rằng LOGAN có thể tìm hiểu những đặc điểm hình dạng cần giữ trong quá trình biến đổi và kết quả giống hệt với đối tượng mong muốn.

Trong công việc trong tương lai, nhóm nhằm mục đích tinh chỉnh LOGAN để hoạt động trên tất cả các cặp miền để làm cho nó thực sự có mục đích chung. Phiên bản hiện tại của LOGAN cũng chưa đủ thông minh để hiểu ý nghĩa của các hình dạng và các nhà nghiên cứu đang làm việc để làm cho mạng “thông minh hơn” để kết hợp thông tin này.

 

Nguồn truyện:

Tài liệu được cung cấp bởi Hiệp hội cho máy tính . Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.


Tạp chí tham khảo :

  1. Kangxue Yin, Zhiqin Chen, Hui Huang, Daniel Cohen-Or, Hao Zhang. LOGAN: Biến đổi hình dạng không ghép đôi trong không gian quá đầy đủ tiềm ẩn . Giao dịch ACM trên đồ họa (Proc. Of SIGGRAPH Châu Á) , 38 (6), 198: 1-198: 13, 2019 [ link ]

Bài viết liên quan

Bài viết mới