Introduction
Bộ dữ liệu phục vụ cho bài toán image generation với phong cách tranh Việt Nam.
Một vài mẫu dữ liệu
Brief statistic:
Tranh Sơn Mài: ~500 hình ảnh
Tranh Đông Hồ: ~ 400 hình ảnh
Bộ dữ liệu hướng dẫn mới cho quá trình tinh chỉnh các mô hình Ngôn ngữ lớn trên các lĩnh vực tổng quát và y tế. Được xây dựng bằng cách thu thập và dịch từ các nguồn công khai khác.
instruct_merged.jsonl
: instruction dataset. It contains 52k samples from Alpaca + 170k samples from GPT4All. Then translated to Vietnamese.
translated_health_200k.jsonl
: Medical instruction dataset. It was collected from ChatDoctor
Một vài mẫu dữ liệu
Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Vinh-Tiep Nguyen, Thuy-Ngan Nguyen Luu
Efficient Finetuning Large Language Models For Vietnamese Chatbot
MAPR-2023
2023
instruct_merged.jsonl
:
wget https://storage.googleapis.com/doanthuan/data/instruct_merged.jsonl
translated_health_200k.jsonl
:
wget https://storage.googleapis.com/doanthuan/data/translated_health_200k.jsonl
Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu nhà hàng. Có tổng cộng 12 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học.
12 nhãn loại khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu
Một vài mẫu dữ liệu
Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo
Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level
ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20, 4, Article 62 (July 2021), 22 pages . Link
2021
Bộ dữ liệu phân loại phương tiện giao thông Việt Nam, gồm 4 lớp: Bus, Car, Truck, Van.
Train: 7,706 (Bus: 449, Car: 5,166, Truck: 1,281,Van: 810)
Test: 2,294 (Bus: 553, Car: 1,018, Truck: 314, Van: 406)
Một vài mẫu dữ liệu
Trịnh Thị Thanh Trúc, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang
Phân loại phương tiện giao thông trong không ảnh
JSTIC Journal of Science and Technology on Information and Communications. Link
2021
Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu khách sạn. Có tổng cộng 34 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học.
34 nhãn khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu
Một vài mẫu dữ liệu
Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo
Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level
ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20, 4, Article 62 (July 2021), 22 pages . Link
2021