Tin tức Khoa học Skynet

Các nhà nghiên cứu cho biết công nghệ mới là bước đệm cho bộ phận giả giọng nói thần kinh

Ngày:
Th4 26, 2019
Tóm tắt:

Giao diện máy não tiên tiến được tạo ra bởi các nhà thần kinh học có thể tạo ra lời nói tổng hợp nghe tự nhiên bằng cách sử dụng hoạt động của não để điều khiển một giọng hát ảo – mô phỏng máy tính chi tiết về mặt giải phẫu bao gồm môi, hàm, lưỡi và thanh quản. Nghiên cứu được thực hiện ở những người tham gia nghiên cứu với lời nói nguyên vẹn, nhưng một ngày nào đó công nghệ có thể khôi phục giọng nói của những người đã mất khả năng nói do bị tê liệt hoặc tổn thương thần kinh.

Chia sẻ:
BÀI VIẾT ĐẦY ĐỦ

Giao diện máy não tiên tiến do các nhà thần kinh học UC San Francisco tạo ra có thể tạo ra lời nói tổng hợp nghe tự nhiên bằng cách sử dụng hoạt động của não để điều khiển một giọng hát ảo – mô phỏng máy tính chi tiết về mặt giải phẫu bao gồm môi, hàm, lưỡi, và thanh quản. Nghiên cứu được thực hiện ở những người tham gia nghiên cứu với lời nói nguyên vẹn, nhưng một ngày nào đó công nghệ có thể khôi phục giọng nói của những người mất khả năng nói do bị tê liệt và các dạng tổn thương thần kinh khác.

Tiến sĩ Gopala Anumanchipalli, giữ một ví dụ về các điện cực nội sọ thuộc loại được sử dụng để ghi lại hoạt động của não trong nghiên cứu hiện tại.
Tín dụng: UCSF
Tiến sĩ Gopala Anumanchipalli, giữ một ví dụ về các điện cực nội sọ thuộc loại được sử dụng để ghi lại hoạt động của não trong nghiên cứu hiện tại.
Tín dụng: UCSF

Đột quỵ, chấn thương sọ não và các bệnh thoái hóa thần kinh như bệnh Parkinson, đa xơ cứng và xơ cứng teo cơ bên (ALS, hoặc bệnh Lou Gehrig) thường dẫn đến mất khả năng nói. Một số người bị khiếm khuyết giọng nói nghiêm trọng học cách đánh vần từng chữ suy nghĩ của họ bằng cách sử dụng các thiết bị trợ giúp theo dõi các cử động cơ mắt hoặc cơ mặt rất nhỏ. Tuy nhiên, việc tạo ra văn bản hoặc lời nói tổng hợp với các thiết bị như vậy rất tốn công, dễ bị lỗi và chậm một cách đau đớn, thường cho phép tối đa 10 từ mỗi phút, so với 100-150 từ mỗi phút của lời nói tự nhiên.

Hệ thống mới đang được phát triển trong phòng thí nghiệm của Edward Chang, MD – được mô tả vào ngày 24 tháng 4 năm 2019 trong Tự nhiên – chứng minh rằng có thể tạo ra một phiên bản tổng hợp của giọng nói của một người có thể được điều khiển bởi hoạt động của các trung tâm nói của não của họ . Trong tương lai, cách tiếp cận này không chỉ có thể khôi phục giao tiếp trôi chảy cho những người bị khuyết tật nghiêm trọng về giọng nói, mà còn có thể tái tạo một số âm nhạc của giọng nói truyền tải cảm xúc và tính cách của người nói.

“Lần đầu tiên, nghiên cứu này chứng minh rằng chúng ta có thể tạo ra toàn bộ câu nói dựa trên hoạt động não của một cá nhân”, Chang, giáo sư phẫu thuật thần kinh và là thành viên của Viện khoa học thần kinh UCSF cho biết. “Đây là một bằng chứng tuyệt vời về nguyên tắc rằng với công nghệ đã nằm trong tầm tay, chúng ta sẽ có thể chế tạo một thiết bị có khả năng lâm sàng ở những bệnh nhân bị mất giọng nói.”

Giọng hát ảo cải thiện tổng hợp giọng nói tự nhiên

Nghiên cứu được dẫn dắt bởi Gopala Anumanchipalli, Tiến sĩ, một nhà khoa học về ngôn ngữ và Josh Chartier, một sinh viên tốt nghiệp chuyên ngành sinh học trong phòng thí nghiệm Chang. Nó dựa trên một nghiên cứu gần đây, trong đó lần đầu tiên cặp đôi mô tả cách các trung tâm lời nói của bộ não con người biên đạo các chuyển động của môi, hàm, lưỡi và các thành phần đường hô hấp khác để tạo ra lời nói trôi chảy.

Từ công việc đó, Anumanchipalli và Chartier nhận ra rằng những nỗ lực trước đây để giải mã trực tiếp lời nói từ hoạt động của não có thể đã gặp phải thành công hạn chế vì những vùng não này không thể hiện trực tiếp các tính chất âm thanh của âm thanh lời nói, mà là các hướng dẫn cần thiết để phối hợp các chuyển động của miệng và cổ họng trong khi nói.

“Mối quan hệ giữa các chuyển động của giọng hát và âm thanh lời nói được tạo ra là một vấn đề phức tạp”, Anumanchipalli nói. “Chúng tôi lập luận rằng nếu các trung tâm lời nói trong não là mã hóa chuyển động chứ không phải âm thanh, chúng ta nên cố gắng làm điều tương tự để giải mã các tín hiệu đó.”

Trong nghiên cứu mới của họ, Anumancipali và Chartier đã yêu cầu năm tình nguyện viên đang được điều trị tại Trung tâm Động kinh UCSF – những bệnh nhân có lời nói nguyên vẹn được cấy điện cực trong não để lập bản đồ nguồn gốc của cơn động kinh để chuẩn bị cho phẫu thuật thần kinh – đọc hàng trăm câu lớn tiếng trong khi các nhà nghiên cứu ghi lại hoạt động từ một vùng não được biết là có liên quan đến sản xuất ngôn ngữ.

Dựa trên các bản ghi âm giọng nói của người tham gia, các nhà nghiên cứu đã sử dụng các nguyên tắc ngôn ngữ để đảo ngược các chuyển động của giọng hát cần thiết để tạo ra những âm thanh đó: ấn môi vào đây, siết chặt dây thanh âm ở đó, chuyển đầu lưỡi sang nóc miệng, sau đó thư giãn nó, và như vậy.

Bản đồ chi tiết này của âm thanh đến giải phẫu cho phép các nhà khoa học tạo ra một giọng hát ảo thực tế cho mỗi người tham gia có thể được điều khiển bởi hoạt động não của họ. Điều này bao gồm hai thuật toán học máy “mạng thần kinh”: bộ giải mã biến đổi các mô hình hoạt động của não được tạo ra trong khi nói thành chuyển động của giọng hát ảo và bộ tổng hợp chuyển đổi các chuyển động của giọng nói này thành một xấp xỉ tổng hợp của giọng nói của người tham gia.

Các nhà nghiên cứu nhận thấy, lời nói tổng hợp được tạo ra bởi các thuật toán này tốt hơn đáng kể so với lời nói tổng hợp được giải mã trực tiếp từ hoạt động não của người tham gia mà không bao gồm các mô phỏng về các giọng hát của người nói. Các thuật toán tạo ra các câu có thể hiểu được đối với hàng trăm người nghe trong các bài kiểm tra phiên mã đám đông được thực hiện trên nền tảng Amazon Mechanical Turk.

Như trường hợp của lời nói tự nhiên, các phiên âm đã thành công hơn khi họ được đưa ra danh sách các từ ngắn hơn để lựa chọn, như trường hợp với những người chăm sóc được đưa ra các loại cụm từ hoặc yêu cầu bệnh nhân có thể thốt ra. Các phiên âm đã xác định chính xác 69 phần trăm các từ được tổng hợp từ danh sách 25 từ thay thế và phiên âm 43 phần trăm câu với độ chính xác hoàn hảo. Với 50 từ khó hơn để lựa chọn, độ chính xác tổng thể của người phiên mã giảm xuống còn 47%, mặc dù họ vẫn có thể hiểu được 21% câu tổng hợp một cách hoàn hảo.

“Chúng tôi vẫn có cách để đi đến ngôn ngữ nói bắt chước hoàn hảo”, ông Chartier thừa nhận. “Chúng tôi khá giỏi trong việc tổng hợp các âm thanh nói chậm hơn như ‘sh’ và ‘z’ cũng như duy trì nhịp điệu và ngữ điệu của lời nói và giới tính và bản sắc của người nói, nhưng một số âm thanh đột ngột hơn như ‘b’ và ‘p’ hơi mờ. Tuy nhiên, mức độ chính xác mà chúng tôi tạo ra ở đây sẽ là một sự cải thiện đáng kinh ngạc trong giao tiếp thời gian thực so với những gì hiện có. “

Trí tuệ nhân tạo, Ngôn ngữ học và Khoa học thần kinh thúc đẩy

Các nhà nghiên cứu hiện đang thử nghiệm các mảng điện cực mật độ cao hơn và các thuật toán học máy tiên tiến hơn mà họ hy vọng sẽ cải thiện bài phát biểu tổng hợp hơn nữa. Thử nghiệm lớn tiếp theo cho công nghệ là xác định xem ai đó không biết nói có thể học cách sử dụng hệ thống mà không thể tự luyện nó và làm cho nó khái quát hóa mọi điều họ muốn nói.

Kết quả sơ bộ từ một trong những người tham gia nghiên cứu của nhóm cho thấy rằng hệ thống dựa trên giải phẫu của các nhà nghiên cứu có thể giải mã và tổng hợp các câu mới từ hoạt động não của người tham gia gần như các câu mà thuật toán được đào tạo. Ngay cả khi các nhà nghiên cứu cung cấp thuật toán với dữ liệu hoạt động của não được ghi lại trong khi một người tham gia chỉ nói những câu không có âm thanh, hệ thống vẫn có thể tạo ra các phiên bản tổng hợp dễ hiểu của các câu được nói trong giọng nói của người nói.

Các nhà nghiên cứu cũng phát hiện ra rằng mã thần kinh cho chuyển động giọng nói chồng chéo một phần giữa những người tham gia và mô phỏng đường hô hấp của một đối tượng nghiên cứu có thể được điều chỉnh để đáp ứng với các hướng dẫn thần kinh được ghi từ não của người tham gia khác. Cùng với nhau, những phát hiện này cho thấy những người bị mất giọng nói do suy nhược thần kinh có thể học cách kiểm soát một bộ phận giả giọng nói được mô phỏng theo giọng nói của một người có giọng nói nguyên vẹn.

“Những người không thể cử động tay và chân đã học cách kiểm soát tay chân robot bằng bộ não của họ”, ông Chartier nói. “Chúng tôi hy vọng rằng một ngày nào đó, những người bị khiếm khuyết về ngôn ngữ sẽ có thể học nói lại bằng cách sử dụng giọng hát nhân tạo do não điều khiển này.”

Anumanchipalli nói thêm, “Tôi tự hào rằng chúng tôi đã có thể tập hợp chuyên môn từ khoa học thần kinh, ngôn ngữ học và học máy như một phần của cột mốc quan trọng này trong việc giúp đỡ các bệnh nhân bị khuyết tật thần kinh.”


Nguồn tin tức:

Tài liệu được cung cấp bởi Đại học California – San Francisco . Bản gốc được viết bởi Nicholas Weiler. Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.


Tạp chí tham khảo :

  1. Gopala K. Anumanchipalli, Josh Chartier, Edward F. Chang. Tổng hợp lời nói từ giải mã thần kinh của câu nói . Thiên nhiên , 2019; 568 (7753): 493 DOI: 10.1038 / s41586-019-1119-1

Bài viết liên quan

Bài viết mới