Một nhà nghiên cứu đã đi đầu trong việc phát triển một công cụ phần mềm có thể cung cấp câu trả lời kết luận cho một số câu hỏi hấp dẫn nhất thế giới.
Công cụ kết hợp học máy có giám sát với xử lý tín hiệu số (ML-DSP), lần đầu tiên có thể trả lời dứt khoát các câu hỏi như có bao nhiêu loài khác nhau tồn tại trên Trái đất và trong các đại dương. Làm thế nào là các loài hiện có, mới được phát hiện và tuyệt chủng có liên quan với nhau? Nguồn gốc vi khuẩn của DNA ty thể là gì? DNA của ký sinh trùng và vật chủ của nó có chữ ký bộ gen tương tự không?
Công cụ này cũng có khả năng tác động tích cực đến ngành y học cá nhân hóa bằng cách xác định chủng vi rút cụ thể và do đó cho phép các loại thuốc chính xác được phát triển và quy định để điều trị.
ML-DSP là một công cụ phần mềm không liên kết, hoạt động bằng cách chuyển đổi chuỗi DNA thành tín hiệu số (số) và sử dụng các phương pháp xử lý tín hiệu số để xử lý và phân biệt các tín hiệu này với nhau.
“Với phương pháp này ngay cả khi chúng ta chỉ có những đoạn DNA nhỏ, chúng ta vẫn có thể phân loại các chuỗi DNA, bất kể nguồn gốc của chúng, hoặc chúng là tự nhiên, tổng hợp hay do máy tính tạo ra”, Lila Kari, giáo sư Khoa Toán học của Waterloo, nói. . “Một ứng dụng tiềm năng quan trọng khác của công cụ này là trong lĩnh vực chăm sóc sức khỏe, vì trong thời đại y học cá nhân hóa này, chúng ta có thể phân loại virus và tùy chỉnh việc điều trị cho một bệnh nhân cụ thể tùy thuộc vào chủng virus cụ thể ảnh hưởng đến họ.”
Trong nghiên cứu, các nhà nghiên cứu đã thực hiện một so sánh định lượng với các công cụ phần mềm phân loại hiện đại khác trên hai bộ dữ liệu điểm chuẩn nhỏ và một bộ dữ liệu bộ gen của ty thể động vật có xương sống lớn 4.322. “Kết quả của chúng tôi cho thấy ML-DSP vượt trội hoàn toàn so với phần mềm dựa trên căn chỉnh về thời gian xử lý, trong khi có độ chính xác phân loại tương đương trong trường hợp bộ dữ liệu nhỏ và vượt trội trong trường hợp bộ dữ liệu lớn”, Kari nói. “So với các phần mềm không liên kết khác, ML-DSP có độ chính xác phân loại tốt hơn đáng kể và nhìn chung nhanh hơn.”
Các tác giả cũng đã tiến hành các thí nghiệm sơ bộ cho thấy tiềm năng của ML-DSP sẽ được sử dụng cho các bộ dữ liệu khác, bằng cách phân loại 4.271 bộ gen virus sốt xuất huyết hoàn chỉnh thành các phân nhóm với độ chính xác 100% và 4.710 bộ gen vi khuẩn thành các phân chia với độ chính xác 95,5%.
Một bài viết chi tiết về công cụ phần mềm mới, có tên ML-DSP: Machine Learning với Digital Signal Treatment để phân loại bộ gen cực nhanh, chính xác và có thể mở rộng ở tất cả các cấp phân loại, được tác giả bởi Kari cùng với ứng cử viên tiến sĩ của Đại học Western Gurjit Randhawa và Dr , Phó giáo sư tại Khoa Sinh học.
Nguồn tin tức:
Tài liệu được cung cấp bởi Đại học Waterloo . Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.
Tạp chí tham khảo :