Skip to main content

Tinh chỉnh mô hình Ngôn ngữ lớn tiếng Việt (Instruction Tuning LLMs for Vietnamese Dataset)

· 3 min read

Tổng quan: Các mô hình ngôn ngữ lớn (LLMs) như GPT-4, PaLM và LLaMa đã cho thấy hiệu suất đáng kể trong nhiều tác vụ ngôn ngữ tự nhiên. Những tiến bộ gần đây trong việc điều chỉnh theo chỉ dẫn đã mang lại cho LLMs khả năng theo dõi hướng dẫn của người dùng và tạo ra các phản hồi giống con người. Tuy nhiên, chi phí cao liên quan đến việc đào tạo và triển khai LLMs đặt ra thách thức cho nghiên cứu học thuật. Hơn nữa, việc có sẵn các mô hình LLM đã được tiền huấn luyện và các bộ dữ liệu điều chỉnh theo chỉ dẫn cho tiếng Việt còn hạn chế. Để giải quyết những vấn đề này, chúng tôi sử dụng các bộ dữ liệu theo dõi chỉ dẫn quy mô lớn từ các dự án mã nguồn mở, cụ thể là Alpaca, GPT4All và ChatDoctor, bao gồm cả lĩnh vực chung và lĩnh vực y tế cụ thể. Theo chúng tôi được biết, đây là bộ dữ liệu chỉ dẫn đầu tiên cho tiếng Việt. Tiếp theo, chúng tôi sử dụng phương pháp điều chỉnh tham số hiệu quả thông qua Low-Rank Adaptation (LoRA) trên hai mô hình LLMs mở: Bloomz (Đa ngôn ngữ) và GPTJ-6B (Tiếng Việt), tạo ra bốn mô hình: Bloomz-Chat, Bloomz-Doctor, GPTJ-Chat, GPTJ-Doctor. Cuối cùng, chúng tôi đánh giá hiệu quả của phương pháp của mình trên cơ sở từng mẫu, xem xét mức độ hữu ích, liên quan, chính xác và chi tiết trong các phản hồi của chúng. Quá trình đánh giá này bao gồm việc sử dụng GPT-4 như một cơ chế chấm điểm tự động. Mặc dù sử dụng cấu hình chi phí thấp, phương pháp của chúng tôi cho thấy cải thiện khoảng 20-30% so với các mô hình gốc trong các tác vụ đánh giá của chúng tôi.

Bài báo: Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Vinh-Tiep Nguyen, Thuy-Ngan Nguyen Luu. Efficient Finetuning Large Language Models For Vietnamese Chatbot

Đường dẫn bộ dữ liệu tại đây

Đường dẫn mã nguồn tại đây.

Chú thích: Bộ dữ liệu hướng dẫn mới cho quá trình tinh chỉnh các mô hình Ngôn ngữ lớn trên các lĩnh vực tổng quát và y tế. Được xây dựng bằng cách thu thập và dịch từ các nguồn công khai khác. Gồm instruct_merged.jsonl: instruction dataset. It contains 52k samples from Alpaca + 170k samples from GPT4All. Then translated to Vietnamese; translated_health_200k.jsonl: Medical instruction dataset. It was collected from ChatDoctor

image info

image info