Skip to main content

· 2 min read

Tổng quan: Phát hiện và phân đoạn đối tượng ngụy trang là một chủ đề nghiên cứu mới và đầy thách thức trong thị giác máy tính. Hiện đang có một vấn đề nghiêm trọng là thiếu dữ liệu về các đối tượng ngụy trang như các loài động vật ngụy trang trong các cảnh tự nhiên. Trong bài báo này, chúng tôi giải quyết vấn đề học ít mẫu cho việc phát hiện và phân đoạn đối tượng ngụy trang. Để đạt được điều này, trước tiên chúng tôi thu thập một bộ dữ liệu mới, CAMO-FS, để làm dữ liệu chuẩn đánh giá. Sau đó, chúng tôi đề xuất một phương pháp mới để phát hiện và phân đoạn hiệu quả các đối tượng ngụy trang trong ảnh. Cụ thể, chúng tôi giới thiệu hàm mất mát ba thành phần ở cấp độ thực thể và bộ nhớ lưu trữ thực thể. Các thí nghiệm mở rộng đã chứng minh rằng phương pháp đề xuất của chúng tôi đạt được hiệu suất tốt nhất trên bộ dữ liệu mới thu thập.

Bài báo: Nguyen, Thanh-Danh ; Nguyen Vu, Anh-Khoa ; Nguyen, Nhat-Duy ; Nguyen, Vinh-Tiep ; Ngo, Thanh Duc ; Do, Thanh-Toan ; Tran, Minh-Triet ; Nguyen, Tam V. The Art of Camouflage: Few-shot Learning for Animal Detection and Segmentation

Đường dẫn bộ dữ liệu tại đây.

Mã nguồn để tiền xử lý và trực quan hóa dữ liệu có thể truy cập tại đây.

Mã nguồn để thực thi toàn bộ mô hình được cập nhật tại đây.

Chú thích: CAMO-FS là tập dữ liệu phục vụ các bài toán nghiên cứu trên đối tượng ngụy trang, gồm có phân loại, phát hiện đối tượng, và phân đoạn thực thể. Tập dữ liệu kế thừa và phát triển từ tập dữ liệu CAMO++ (2022) và được tạo lập cấu trúc phục vụ hướng tiếp cận học với ít dữ liệu huấn luyện. Tập dữ liệu được xây dựng gồm có các ảnh chứa thực thể ngụy trang và gán nhãn cho các bài toán theo chuẩn COCO JSON. CAMO-FS chứa 2,852 ảnh với hơn 3,342 thực thể ngụy trang, được phân bố vào 10 lớp tổng quát và 47 lớp ngữ nghĩa chi tiết.

image info

· One min read

Chú thích: Bộ dữ liệu phục vụ cho bài toán image generation với phong cách tranh Việt Nam. Bao gồm Tranh Sơn Mài: ~500 hình ảnh; Tranh Đông Hồ: ~ 400 hình ảnh

Đường dẫn bộ dữ liệu tại đây

image info

· 3 min read

Tổng quan: Các mô hình ngôn ngữ lớn (LLMs) như GPT-4, PaLM và LLaMa đã cho thấy hiệu suất đáng kể trong nhiều tác vụ ngôn ngữ tự nhiên. Những tiến bộ gần đây trong việc điều chỉnh theo chỉ dẫn đã mang lại cho LLMs khả năng theo dõi hướng dẫn của người dùng và tạo ra các phản hồi giống con người. Tuy nhiên, chi phí cao liên quan đến việc đào tạo và triển khai LLMs đặt ra thách thức cho nghiên cứu học thuật. Hơn nữa, việc có sẵn các mô hình LLM đã được tiền huấn luyện và các bộ dữ liệu điều chỉnh theo chỉ dẫn cho tiếng Việt còn hạn chế. Để giải quyết những vấn đề này, chúng tôi sử dụng các bộ dữ liệu theo dõi chỉ dẫn quy mô lớn từ các dự án mã nguồn mở, cụ thể là Alpaca, GPT4All và ChatDoctor, bao gồm cả lĩnh vực chung và lĩnh vực y tế cụ thể. Theo chúng tôi được biết, đây là bộ dữ liệu chỉ dẫn đầu tiên cho tiếng Việt. Tiếp theo, chúng tôi sử dụng phương pháp điều chỉnh tham số hiệu quả thông qua Low-Rank Adaptation (LoRA) trên hai mô hình LLMs mở: Bloomz (Đa ngôn ngữ) và GPTJ-6B (Tiếng Việt), tạo ra bốn mô hình: Bloomz-Chat, Bloomz-Doctor, GPTJ-Chat, GPTJ-Doctor. Cuối cùng, chúng tôi đánh giá hiệu quả của phương pháp của mình trên cơ sở từng mẫu, xem xét mức độ hữu ích, liên quan, chính xác và chi tiết trong các phản hồi của chúng. Quá trình đánh giá này bao gồm việc sử dụng GPT-4 như một cơ chế chấm điểm tự động. Mặc dù sử dụng cấu hình chi phí thấp, phương pháp của chúng tôi cho thấy cải thiện khoảng 20-30% so với các mô hình gốc trong các tác vụ đánh giá của chúng tôi.

Bài báo: Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Vinh-Tiep Nguyen, Thuy-Ngan Nguyen Luu. Efficient Finetuning Large Language Models For Vietnamese Chatbot

Đường dẫn bộ dữ liệu tại đây

Đường dẫn mã nguồn tại đây.

Chú thích: Bộ dữ liệu hướng dẫn mới cho quá trình tinh chỉnh các mô hình Ngôn ngữ lớn trên các lĩnh vực tổng quát và y tế. Được xây dựng bằng cách thu thập và dịch từ các nguồn công khai khác. Gồm instruct_merged.jsonl: instruction dataset. It contains 52k samples from Alpaca + 170k samples from GPT4All. Then translated to Vietnamese; translated_health_200k.jsonl: Medical instruction dataset. It was collected from ChatDoctor

image info

image info

· 2 min read

Tổng quan: Phân tích cảm xúc dựa trên khía cạnh đã được nghiên cứu trong cả cộng đồng nghiên cứu và công nghiệp trong những năm gần đây. Đối với các ngôn ngữ ít tài nguyên, các tập dữ liệu chuẩn đóng vai trò quan trọng trong việc phát triển các phương pháp. Trong bài báo này, chúng tôi giới thiệu hai tập dữ liệu chuẩn với kích thước lớn nhất ở mức câu cho hai nhiệm vụ: Phát hiện Danh mục Khía cạnh và Phân loại Cảm xúc Khía cạnh trong tiếng Việt. Tập dữ liệu của chúng tôi được chú thích với độ đồng thuận cao giữa các người chú thích cho các lĩnh vực nhà hàng và khách sạn. Việc phát hành tập dữ liệu của chúng tôi sẽ thúc đẩy cộng đồng xử lý ngôn ngữ ít tài nguyên. Ngoài ra, chúng tôi triển khai và so sánh hiệu quả của các phương pháp học có giám sát với cách tiếp cận đơn nhiệm vụ và đa nhiệm vụ dựa trên các kiến trúc học sâu. Kết quả thực nghiệm trên tập dữ liệu của chúng tôi cho thấy cách tiếp cận đa nhiệm vụ dựa trên kiến trúc BERT vượt trội hơn so với các kiến trúc mạng nơ-ron và cách tiếp cận đơn nhiệm vụ. Tập dữ liệu và mã nguồn của chúng tôi được công bố trên trang web được chú thích ở phần chú thích chân trang này.

Bài báo: Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo. Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level

Đường dẫn bộ dữ liệu tại đây.

Chú thích: Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu nhà hàng. Có tổng cộng 12 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học. Gồm 12 nhãn loại khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu.

image info

· 2 min read

Tổng quan: Với thực trạng giao thông đô thị Việt Nam đang gặp rất nhiều vấn đề bức thiết như: mật độ tham gia giao thông dày đặc, cơ sở hạ tầng chưa đáp ứng được lưu lượng phương tiện, thì việc đưa ra các phương án bao quát mang tính ổn định lâu dài luôn nhận được rất nhiều sự quan tâm từ cộng đồng. Trong những năm gần đây, các thiết bị bay không người lái (UAV) ngày càng phổ biến và có nhiều ứng dụng trong phát triển thành phố thông minh. Với tiền đề đó, nhóm nghiên cứu đã xây dựng và công bố bộ dữ liệu UIT-CVID21 gồm 10K ảnh, cho 4 lớp đối tượng bus, car, truck, van. UIT-CVID21 ghi lại hình ảnh các phương tiện giao thông bằng camera gắn trên UAV (Drone). Hình ảnh toàn cảnh ghi nhận thực trạng của giao thông Việt Nam, cung cấp thêm các thông tin hữu ích, có tiềm năng lớn hỗ trợ cho các hệ thống phân tích và giám sát giao thông từ trên không. Các phân tích và đánh giá ban đầu đã được trình bày trong bài báo, đây sẽ là cơ sở cho các nghiên cứu tiếp theo của chúng tôi.

Bài báo: Trịnh Thị Thanh Trúc, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang, Phân loại phương tiện giao thông trong không ảnh

Đường dẫn bộ dữ liệu tại đây

Chú thích: Bộ dữ liệu phân loại phương tiện giao thông Việt Nam, gồm 4 lớp: Bus, Car, Truck, Van. Bao các tập Huấn luyện: 7,706 (Bus: 449, Car: 5,166, Truck: 1,281,Van: 810); Tập kiểm thử: 2,294 (Bus: 553, Car: 1,018, Truck: 314, Van: 406)

image info

· One min read

Chú thích: Bộ dữ liệu ảnh trên một trang thương mại điện tử phục vụ cho bài toán truy vấn hoặc phân loại hình ảnh. Gồm 58 loại sản phẩm.

Đường dẫn bộ dữ liệu tại đây

image info

· 2 min read

Tổng quan: Phân tích cảm xúc dựa trên khía cạnh đã được nghiên cứu trong cả cộng đồng nghiên cứu và công nghiệp trong những năm gần đây. Đối với các ngôn ngữ ít tài nguyên, các tập dữ liệu chuẩn đóng vai trò quan trọng trong việc phát triển các phương pháp. Trong bài báo này, chúng tôi giới thiệu hai tập dữ liệu chuẩn với kích thước lớn nhất ở mức câu cho hai nhiệm vụ: Phát hiện Danh mục Khía cạnh và Phân loại Cảm xúc Khía cạnh trong tiếng Việt. Tập dữ liệu của chúng tôi được chú thích với độ đồng thuận cao giữa các người chú thích cho các lĩnh vực nhà hàng và khách sạn. Việc phát hành tập dữ liệu của chúng tôi sẽ thúc đẩy cộng đồng xử lý ngôn ngữ ít tài nguyên. Ngoài ra, chúng tôi triển khai và so sánh hiệu quả của các phương pháp học có giám sát với cách tiếp cận đơn nhiệm vụ và đa nhiệm vụ dựa trên các kiến trúc học sâu. Kết quả thực nghiệm trên tập dữ liệu của chúng tôi cho thấy cách tiếp cận đa nhiệm vụ dựa trên kiến trúc BERT vượt trội hơn so với các kiến trúc mạng nơ-ron và cách tiếp cận đơn nhiệm vụ. Tập dữ liệu và mã nguồn của chúng tôi được công bố trên trang web được chú thích ở phần chú thích chân trang này.

Bài báo: Dang Van Thin, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo. Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level

Đường dẫn bộ dữ liệu tại đây.

Chú thích: Bộ dữ liệu bình luận được gán nhãn cho bài toán Phân tích cảm xúc theo khía cạnh trên bình luận của người dùng trên miền dữ liệu khách sạn. Có tổng cộng 34 loại khía cạnh và 3 trạng thái cảm xúc khác nhau. Tổng kích thước dữ liệu là gần 10K được chia thành 3 tập dữ liệu. Dữ liệu phục vụ cho nghiên cứu và thực hiện đồ án nghiên cứu khoa học. Gồm 34 nhãn khía cạnh x 3 nhãn cảm xúc. Kích thước gần 10K dữ liệu.

image info

· 2 min read

Tổng quan: Hoạt hình hóa chân dung nhằm mục đích chuyển đổi một hình ảnh chân dung sang phiên bản hoạt hình của nó, đảm bảo hai điều kiện, cụ thể là giảm chi tiết kết cấu và tổng hợp các đặc điểm khuôn mặt hoạt hình (ví dụ: mắt to hoặc mũi vẽ bằng đường kẻ). Để giải quyết vấn đề này, chúng tôi đề xuất một phương pháp huấn luyện hai giai đoạn dựa trên GAN, rất mạnh mẽ cho các bài toán phong cách hóa. Giai đoạn tổng quát với hàm mất mát tổng quát mới được sử dụng để giảm chi tiết kết cấu. Trong khi đó, giai đoạn nhận diện được áp dụng để tổng hợp các đặc điểm khuôn mặt hoạt hình. Để đánh giá toàn diện phương pháp đề xuất và các phương pháp hiện đại khác cho hoạt hình hóa chân dung, chúng tôi đóng góp một bộ dữ liệu quy mô lớn mới đầy thách thức có tên là CartoonFace10K. Ngoài ra, chúng tôi nhận thấy rằng chỉ số phổ biến FID tập trung vào phong cách mục tiêu nhưng bỏ qua việc bảo toàn nội dung hình ảnh đầu vào. Do đó, chúng tôi giới thiệu một chỉ số mới FISI, kết hợp FID và SSIM để tập trung cả vào các đặc điểm mục tiêu và giữ lại nội dung đầu vào. Kết quả định lượng và định tính cho thấy phương pháp đề xuất của chúng tôi vượt trội hơn các phương pháp hiện đại khác.

Bài báo: Sy-Tuyen Ho, Manh-Khanh Ngo Huu, Thanh-Danh Nguyen, Nguyen Phan, Vinh-Tiep Nguyen, Thanh Duc Ngo, Duy-Dinh Le, Tam V. Nguyen Abstraction-perception preserving cartoon face synthesis

Đường dẫn bộ dữ liệu tại đây.

Chú thích: Bộ dữ liệu phục vụ cho bài toán image generation với phong cách hoạt hình Anime Nhật Bản. Chủ thể chính là ảnh gương mặt. Bao gồm 10.000 hình ảnh.

image info