Tin tức Khoa học Skynet

Công cụ Janggu làm cho việc học sâu một cách dễ dàng hơn

Ngày:
Th7 16, 2020
Tóm tắt:

Các nhà nghiên cứu đã phát triển một công cụ mới giúp dễ dàng tối đa hóa sức mạnh của việc học sâu để nghiên cứu bộ gen.

Chia sẻ:
BÀI VIẾT ĐẦY ĐỦ

Các nhà nghiên cứu từ MDC đã phát triển một công cụ mới giúp dễ dàng tối đa hóa sức mạnh của việc học sâu để nghiên cứu bộ gen. Họ mô tả cách tiếp cận mới, Janggu, trong tạp chí Nature Communications .

Hãy tưởng tượng rằng trước khi bạn có thể làm bữa tối, trước tiên bạn phải xây dựng lại nhà bếp, được thiết kế đặc biệt cho mỗi công thức. Bạn sẽ dành nhiều thời gian hơn cho việc chuẩn bị, hơn là thực sự nấu ăn. Đối với các nhà sinh học tính toán, đó là một quá trình tốn thời gian tương tự để phân tích dữ liệu gen. Trước khi họ thậm chí có thể bắt đầu phân tích, họ dành rất nhiều thời gian định dạng có giá trị và chuẩn bị các bộ dữ liệu khổng lồ để đưa vào các mô hình học tập sâu.

Để hợp lý hóa quá trình này, các nhà nghiên cứu từ Trung tâm y học phân tử Max Delbrueck thuộc Hiệp hội Helmholtz (MDC) đã phát triển một công cụ lập trình phổ biến để chuyển đổi nhiều loại dữ liệu gen thành định dạng cần thiết để phân tích bằng các mô hình học sâu. “Trước đây, bạn đã lãng phí rất nhiều thời gian cho khía cạnh kỹ thuật, thay vì tập trung vào câu hỏi sinh học mà bạn đang cố gắng trả lời”, Tiến sĩ Wolfgang Kopp, nhà khoa học thuộc nhóm nghiên cứu Khoa học dữ liệu sinh học và Omics tại MDC Berlin, Viện Sinh học hệ thống y tế (BIMSB) và là tác giả đầu tiên của bài báo nói. “Với Janggu, chúng tôi đang hướng tới việc giảm bớt một phần gánh nặng kỹ thuật đó và khiến cho nhiều người có thể tiếp cận được với mọi người nhất có thể.”

Tên duy nhất, giải pháp phổ quát

Janggu được đặt theo tên của một chiếc trống truyền thống của Hàn Quốc có hình dạng như một chiếc đồng hồ cát quay về phía nó. Hai phần lớn của đồng hồ cát đại diện cho các lĩnh vực mà Janggu tập trung: xử lý trước dữ liệu gen, hình dung kết quả và đánh giá mô hình. Đầu nối hẹp ở giữa đại diện cho một trình giữ chỗ cho bất kỳ loại nhà nghiên cứu mô hình học sâu nào muốn sử dụng.

Janggu là một chiếc trống đồng hồ cát của Hàn Quốc. Công cụ Deep Learning mới được đặt theo tên của nhạc cụ này.
© Ethan Doyle Trắng , CC BY-SA 4.0
Janggu là một chiếc trống đồng hồ cát của Hàn Quốc. Công cụ Deep Learning mới được đặt theo tên của nhạc cụ này.
© Ethan Doyle Trắng , CC BY-SA 4.0

Các mô hình học tập sâu liên quan đến các thuật toán sắp xếp thông qua số lượng lớn dữ liệu và tìm các tính năng hoặc mẫu có liên quan. Mặc dù học sâu là một công cụ rất mạnh mẽ, nhưng việc sử dụng nó trong genomics đã bị hạn chế. Hầu hết các mô hình được công bố có xu hướng chỉ hoạt động với các loại dữ liệu cố định, chỉ có thể trả lời một câu hỏi cụ thể. Trao đổi hoặc thêm dữ liệu mới thường yêu cầu bắt đầu lại từ đầu và nỗ lực lập trình rộng rãi.

Janggu chuyển đổi các loại dữ liệu genomics khác nhau thành một định dạng phổ quát có thể được cắm vào bất kỳ mô hình học máy hoặc học sâu nào sử dụng python, một ngôn ngữ lập trình được sử dụng rộng rãi.

“Điều làm cho cách tiếp cận của chúng tôi trở nên đặc biệt là bạn có thể dễ dàng sử dụng bất kỳ bộ dữ liệu gen nào cho vấn đề học sâu của mình, mọi thứ đều ở bất kỳ định dạng nào”, Tiến sĩ Altuna Akalin, người đứng đầu nhóm nghiên cứu Khoa học dữ liệu sinh học và Omics.

Tách là chìa khóa

Nhóm nghiên cứu của Akalin có một nhiệm vụ kép: phát triển các công cụ học máy mới và sử dụng chúng để điều tra các câu hỏi trong sinh học và y học. Trong những nỗ lực nghiên cứu của riêng họ, họ liên tục thất vọng bởi việc dành bao nhiêu thời gian để định dạng dữ liệu. Họ nhận ra một phần của vấn đề là mỗi mô hình học sâu bao gồm xử lý trước dữ liệu của chính nó. Bằng cách tách trích xuất dữ liệu và định dạng khỏi phân tích, nó cung cấp một cách dễ dàng hơn nhiều để trao đổi, kết hợp hoặc sử dụng lại các phần dữ liệu. Nó giống như có tất cả các dụng cụ nhà bếp và nguyên liệu trong tầm tay của bạn để sẵn sàng thử một công thức mới.

“Khó khăn là tìm được sự cân bằng phù hợp giữa tính linh hoạt và khả năng sử dụng”, Kopp nói. “Nếu nó quá linh hoạt, mọi người sẽ bị nhấn chìm trong các lựa chọn khác nhau và sẽ rất khó để bắt đầu.”

Kopp đã chuẩn bị một số hướng dẫn để giúp những người khác bắt đầu sử dụng Janggu, cùng với các bộ dữ liệu mẫu và nghiên cứu trường hợp. Bài viết của Nature Communications cho thấy tính linh hoạt của Janggu trong việc xử lý khối lượng dữ liệu rất lớn, kết hợp các luồng dữ liệu và trả lời các loại câu hỏi khác nhau, chẳng hạn như dự đoán các vị trí liên kết từ trình tự DNA và / hoặc khả năng truy cập chromatin, cũng như cho các nhiệm vụ phân loại và hồi quy.

Ứng dụng vô tận

Trong khi hầu hết lợi ích của Janggu là ở mặt trước, các nhà nghiên cứu muốn cung cấp một giải pháp hoàn chỉnh cho việc học sâu. Janggu cũng bao gồm trực quan hóa kết quả sau khi phân tích học sâu, và đánh giá những gì mô hình đã học. Đáng chú ý, nhóm đã kết hợp “mã hóa trình tự bậc cao” vào gói, cho phép nắm bắt các mối tương quan giữa các nucleotide lân cận. Điều này đã giúp tăng độ chính xác của một số phân tích. Bằng cách làm cho việc học sâu trở nên dễ dàng hơn và thân thiện hơn với người dùng, Janggu giúp mở ra cánh cửa để trả lời tất cả các loại câu hỏi sinh học.

Một trong những ứng dụng thú vị nhất là dự đoán ảnh hưởng của đột biến lên sự điều hòa gen. Điều này thật thú vị bởi vì bây giờ chúng ta có thể bắt đầu hiểu các bộ gen riêng lẻ, ví dụ, chúng ta có thể xác định các biến thể di truyền gây ra thay đổi quy định hoặc chúng ta có thể giải thích các đột biến quy định xảy ra trong các khối u.


Nguồn truyện:

Tài liệu được cung cấp bởi Trung tâm y học phân tử Max Delbrück trong Hiệp hội Helmholtz . Bản gốc được viết bởi Laura Petersen. Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.


Tạp chí tham khảo :

  1. Wolfgang Kopp, Remo Monti, Annalaura Tamburrini, Uwe Ohler, Altuna Akalin. Học sâu cho bộ gen bằng cách sử dụng Janggu . Truyền thông tự nhiên , 2020; 11 (1) DOI: 10.1038 / s41467-020-17155-y

Bài viết liên quan

Bài viết mới