Các chuyên gia học thuật về Xử lý ngôn ngữ tự nhiên từ Đại học Lancaster, những người quan tâm đến sự lừa dối đã so sánh ngôn ngữ được sử dụng trong các trò lừa bịp cá tháng tư và tin tức giả mạo. Họ đã phát hiện ra rằng có những điểm tương […]
Các chuyên gia học thuật về Xử lý ngôn ngữ tự nhiên từ Đại học Lancaster, những người quan tâm đến sự lừa dối đã so sánh ngôn ngữ được sử dụng trong các trò lừa bịp cá tháng tư và tin tức giả mạo.
Họ đã phát hiện ra rằng có những điểm tương đồng trong cấu trúc văn bản của những trò lừa cá tháng tư hài hước – những bài báo giả mạo được xuất bản bởi các phương tiện truyền thông vào ngày 1 tháng 4 – và những câu chuyện tin tức giả mạo độc hại.
Các nhà nghiên cứu đã biên soạn một bộ dữ liệu mới, hoặc kho văn bản, gồm hơn 500 bài viết Cá tháng Tư có nguồn gốc từ hơn 370 trang web và được viết trong hơn 14 năm.
“Trò lừa ngày Cá tháng Tư rất hữu ích vì chúng cung cấp cho chúng ta một cơ thể có thể kiểm chứng được các văn bản lừa đảo cho chúng ta cơ hội tìm hiểu về các kỹ thuật ngôn ngữ được sử dụng khi một tác giả viết một thứ giả tưởng được ngụy trang như một tài khoản thực tế”, Edward Dearden từ Đại học Lancaster nói và tác giả chính của nghiên cứu. “Bằng cách nhìn vào ngôn ngữ được sử dụng trong Cá tháng Tư và so sánh chúng với các câu chuyện tin tức giả, chúng ta có thể có được một bức tranh tốt hơn về các loại ngôn ngữ được sử dụng bởi các tác giả của thông tin sai lệch.”
Một so sánh các văn bản chơi khăm Cá tháng Tư với các bài báo tin tức chính hãng được viết trong cùng thời kỳ – nhưng không được công bố vào ngày 1 tháng 4 – cho thấy sự khác biệt về phong cách.
Các nhà nghiên cứu tập trung vào các tính năng cụ thể trong các văn bản, chẳng hạn như số lượng chi tiết được sử dụng, sự mơ hồ, hình thức của phong cách viết và độ phức tạp của ngôn ngữ.
Sau đó, họ so sánh các câu chuyện Cá tháng Tư với bộ dữ liệu ‘tin giả’, trước đây được biên soạn bởi một nhóm các nhà nghiên cứu khác nhau.
Mặc dù không phải tất cả các tính năng được tìm thấy trong trò lừa cá tháng Tư đều hữu ích trong việc phát hiện tin tức giả, nhưng có một số đặc điểm tương tự được tìm thấy trên cả hai.
Họ tìm thấy trò lừa cá tháng Tư và các bài báo giả mạo có xu hướng chứa ngôn ngữ ít phức tạp hơn, khó đọc hơn và câu dài hơn tin tức chính hãng.
Các chi tiết quan trọng cho các câu chuyện tin tức, chẳng hạn như tên, địa điểm, ngày và thời gian, được tìm thấy sẽ được sử dụng ít thường xuyên hơn trong các trò lừa bịp tháng Tư và tin tức giả mạo. Tuy nhiên, các danh từ riêng, chẳng hạn như tên của các chính trị gia nổi tiếng ‘Trump’ hoặc ‘Hillary’, có nhiều tin tức giả mạo hơn trong các bài báo tin tức chính hãng hoặc Cá tháng Tư, có số lượng ít hơn đáng kể.
Đại từ nhân xưng ngôi thứ nhất, chẳng hạn như ‘chúng tôi’, cũng là một tính năng nổi bật cho cả Cá tháng Tư và tin tức giả mạo. Điều này đi ngược lại với suy nghĩ truyền thống trong phát hiện lừa dối, điều này cho thấy những kẻ nói dối sử dụng ít đại từ nhân xưng.
Các nhà nghiên cứu phát hiện ra rằng những câu chuyện lừa ngày tháng tư, khi so sánh với tin tức chính hãng:
Các nhà nghiên cứu cũng tạo ra một ‘bộ phân loại’ máy học để xác định xem các bài báo có phải là trò lừa bịp tháng Tư, tin tức giả hoặc tin tức thật hay không. Trình phân loại đạt được độ chính xác 75 phần trăm trong việc xác định các bài viết Cá tháng Tư và 72 phần trăm để xác định các câu chuyện tin tức giả. Khi trình phân loại được đào tạo vào trò lừa ngày Cá tháng Tư và đặt ra nhiệm vụ xác định tin tức giả, nó đã ghi lại độ chính xác hơn 65%.
Tiến sĩ Alistair Baron, đồng tác giả của bài báo, cho biết: “Xem xét các chi tiết và sự phức tạp trong một văn bản là rất quan trọng khi cố gắng xác định xem một bài viết có phải là một trò lừa bịp hay không. bài viết chia sẻ một số tính năng tương tự, chủ yếu liên quan đến sự phức tạp về cấu trúc.
“Phát hiện của chúng tôi cho thấy rằng có một số đặc điểm chung giữa các dạng khác nhau và khám phá những điểm tương đồng này có thể cung cấp những hiểu biết quan trọng cho nghiên cứu trong tương lai về những câu chuyện tin tức lừa đảo.”
Nghiên cứu đã được phác thảo trong bài báo ‘Fool’s Errand: Nhìn vào những trò lừa bịp tháng tư là sự bất đồng thông qua lăng kính lừa dối và hài hước’, sẽ được trình bày tại Hội nghị quốc tế về ngôn ngữ tính toán và xử lý văn bản thông minh lần thứ 20 Rochelle vào tháng Tư.
Các tác giả của bài báo là Edward Dearden và Alistair Baron của Đại học Lancaster. Các nghiên cứu tiến sĩ của Edward Dearden đã được hỗ trợ bởi Hội đồng nghiên cứu khoa học vật lý và kỹ thuật.
Nguồn tin tức:
Tài liệu được cung cấp bởi Đại học Lancaster . Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.