Skip to main content

· 2 min read

Introduction:

CAMO-FS là tập dữ liệu phục vụ các bài toán nghiên cứu trên đối tượng ngụy trang, gồm có phân loại, phát hiện đối tượng, và phân đoạn thực thể. Tập dữ liệu kế thừa và phát triển từ tập dữ liệu CAMO++ (2022) và được tạo lập cấu trúc phục vụ hướng tiếp cận học với ít dữ liệu huấn luyện.

image info Một số hình ảnh và nhãn phân đoạn trong tập dữ liệu CAMO-FS.

Brief Statistic:

Tập dữ liệu được xây dựng gồm có các ảnh chứa thực thể ngụy trang và gán nhãn cho các bài toán theo chuẩn COCO JSON.

CAMO-FS chứa hơn 2,850 ảnh với hơn 3,342 thực thể ngụy trang, được phân bố vào 10 lớp tổng quát và 47 lớp ngữ nghĩa chi tiết.

How to download:

Tập dữ liệu có thể được truy cập và download tại đây.

Publication details:

@article{nguyen2023few,
title={Few-shot Camouflaged Animal Detection and Segmentation},
author={Nguyen, Thanh-Danh and Vu, Anh-Khoa Nguyen and Nguyen, Nhat-Duy and Nguyen, Vinh-Tiep and Ngo, Thanh Duc and Do, Thanh-Toan and Tran, Minh-Triet and Nguyen, Tam V},
journal={arXiv preprint arXiv:2304.07444},
year={2023}
}

Code to process data:

Mã nguồn để tiền xử lý và trực quan hóa dữ liệu có thể truy cập tại đây

Mã nguồn để thực thi toàn bộ mô hình được cập nhật tại đây.

· One min read

Introduction

Bộ dữ liệu hướng dẫn mới cho quá trình tinh chỉnh các mô hình Ngôn ngữ lớn trên các lĩnh vực tổng quát và y tế. Được xây dựng bằng cách thu thập và dịch từ các nguồn công khai khác.

Brief statistic:

instruct_merged.jsonl: instruction dataset. It contains 52k samples from Alpaca + 170k samples from GPT4All. Then translated to Vietnamese.

translated_health_200k.jsonl: Medical instruction dataset. It was collected from ChatDoctor

image info image info Một vài mẫu dữ liệu

How to download

Link Drive

Link Github

Paper

Author:

Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Vinh-Tiep Nguyen, Thuy-Ngan Nguyen Luu

Name of paper:

Efficient Finetuning Large Language Models For Vietnamese Chatbot

Name of journal or conference

MAPR-2023

Year:

2023

Optional: code to load data

instruct_merged.jsonl:

wget https://storage.googleapis.com/doanthuan/data/instruct_merged.jsonl 

translated_health_200k.jsonl:

wget https://storage.googleapis.com/doanthuan/data/translated_health_200k.jsonl 

· One min read

Introduction

Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu nhà hàng. Có tổng cộng 12 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học.

Brief statistic:

12 nhãn loại khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu

image info Một vài mẫu dữ liệu

How to download

Link Drive

Paper

Author:

Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo

Name of paper:

Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level

Name of journal or conference

ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20, 4, Article 62 (July 2021), 22 pages . Link

Year:

2021

Optional: code to load data

· One min read

Introduction

Bộ dữ liệu phân loại phương tiện giao thông Việt Nam, gồm 4 lớp: Bus, Car, Truck, Van.

Brief statistic:

Train: 7,706 (Bus: 449, Car: 5,166, Truck: 1,281,Van: 810)

Test: 2,294 (Bus: 553, Car: 1,018, Truck: 314, Van: 406)

image info Một vài mẫu dữ liệu

How to download

Link Drive

Paper

Author:

Trịnh Thị Thanh Trúc, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang

Name of paper:

Phân loại phương tiện giao thông trong không ảnh

Name of journal or conference

JSTIC Journal of Science and Technology on Information and Communications. Link

Year:

2021

Optional: code to load data

· One min read

Introduction

Bộ dữ liệu ảnh trên một trang thương mại điện tử phục vụ cho bài toán truy vấn hoặc phân loại hình ảnh.

Brief statistic:

58 loại sản phẩm x ? ảnh/loại

image info Một vài mẫu dữ liệu

How to download

Link Drive

Optional: code to load data

· One min read

Introduction

Tập dữ liệu ảnh và video Youtube các địa điểm du lịch của Việt Nam phục vụ cho bài toán truy vấn địa điểm.

Brief statistic:

79 địa điểm + video nhiễu (quảng cáo)

image info Một vài mẫu dữ liệu

How to download

Link Drive

Optional: code to load data

· One min read

Introduction

Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu khách sạn. Có tổng cộng 34 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học.

Brief statistic:

34 nhãn khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu

image info Một vài mẫu dữ liệu

How to download

Link Drive

Paper

Author:

Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo

Name of paper:

Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level

Name of journal or conference

ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20, 4, Article 62 (July 2021), 22 pages . Link

Year:

2021

Optional: code to load data

· One min read

Introduction

Bộ dữ liệu phục vụ cho bài toán image generation với phong cách hoạt hình Anime Nhật Bản. Chủ thể chính là ảnh gương mặt.

Brief statistic:

10.000 hình

image info Một vài mẫu dữ liệu

How to download

Link Drive

Optional: code to load data