Skip to main content

Dữ liệu bình luận nhà hàng

· 2 min read

Tổng quan: Phân tích cảm xúc dựa trên khía cạnh đã được nghiên cứu trong cả cộng đồng nghiên cứu và công nghiệp trong những năm gần đây. Đối với các ngôn ngữ ít tài nguyên, các tập dữ liệu chuẩn đóng vai trò quan trọng trong việc phát triển các phương pháp. Trong bài báo này, chúng tôi giới thiệu hai tập dữ liệu chuẩn với kích thước lớn nhất ở mức câu cho hai nhiệm vụ: Phát hiện Danh mục Khía cạnh và Phân loại Cảm xúc Khía cạnh trong tiếng Việt. Tập dữ liệu của chúng tôi được chú thích với độ đồng thuận cao giữa các người chú thích cho các lĩnh vực nhà hàng và khách sạn. Việc phát hành tập dữ liệu của chúng tôi sẽ thúc đẩy cộng đồng xử lý ngôn ngữ ít tài nguyên. Ngoài ra, chúng tôi triển khai và so sánh hiệu quả của các phương pháp học có giám sát với cách tiếp cận đơn nhiệm vụ và đa nhiệm vụ dựa trên các kiến trúc học sâu. Kết quả thực nghiệm trên tập dữ liệu của chúng tôi cho thấy cách tiếp cận đa nhiệm vụ dựa trên kiến trúc BERT vượt trội hơn so với các kiến trúc mạng nơ-ron và cách tiếp cận đơn nhiệm vụ. Tập dữ liệu và mã nguồn của chúng tôi được công bố trên trang web được chú thích ở phần chú thích chân trang này.

Bài báo: Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo. Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level

Đường dẫn bộ dữ liệu tại đây.

Chú thích: Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu nhà hàng. Có tổng cộng 12 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học. Gồm 12 nhãn loại khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu.

image info