Mô hình tổng quát
Mô hình máy học giám sát tổng quát
Để minh họa cho mô hình máy học giám sát tổng quát, chúng tôi sử dụng hình minh họa sau đây. Mục tiêu của một hệ thống máy học giám sát là tìm ra quy luật để dự đoán chính xác giá trị từ dữ kiện đầu vào . Hay nói cách khác là ta sẽ tìm một hàm số (ánh xạ) sao cho giá trị gần nhất với giá trị thực tế .
Dữ liệu đầu vào
Trong mô hình máy học tổng quát, dữ liệu đầu vào bao gồm các thông tin để giúp dự đoán kết quả đầu ra. Về mặt hình thức, dữ liệu đầu vào có thể là một giá trị đơn , vector , ma trận hay một tensor .
Ví dụ, trong bài toán dự đoán giá nhà tại một khu vực của quận Thủ Đức, để dự đoán giá trị thực tế của căn nhà ta cần phải xác định các thông tin đầu vào. Bằng kinh nghiệm, ta thấy rằng giá nhà phụ thuộc vào một số yếu tố cơ bản. Giả sử rằng chúng ta chỉ xét 3 yếu tố cơ bản là số phòng ngủ, diện tích và số tầng. Khi đó ta biểu diễn dữ liệu đầu vào là một vector, trong đó:
- : số phòng
- : diện tích
- : số tầng
Đối với các bài toán về xử lý hình ảnh, ảnh số bản chất là dữ liệu ma trận đối với ảnh mức xám và là tensor đối với ảnh màu. Nếu như ta không quan tâm đến thứ tự về không gian 2 chiều của ảnh thì ta có thể Phân rã (flatten) ảnh ra thành một vector kích thước , trong đó và lần lượt là kích thước chiều rộng và chiều dài của ảnh. Trong Bài Hồi quy Softmax sẽ biểu diễn ảnh đầu vào như một vector. Ngược lại, nếu ta xem xét khai thác mối quan hệ về không gian hai chiều của ảnh thì khi đó dữ liệu đầu vào sẽ là một ma trận đối với ảnh hai mức xám hoặc một tensor với là số kênh của ảnh màu đầu vào. Nếu ảnh số sử dụng hệ màu RGB thì .
Hàm số biểu diễn mô hình
Mục tiêu của việc xây dựng mô hình dự đoán là tìm hàm ánh xạ từ dữ liệu đầu vào sang giá trị dự đoán sao cho gần với giá thực tế nhất có thể. Nếu như hàm cố định và được xây dựng dựa trên kinh nghiệm của người thiết kế trong quá trình quan sát dữ liệu để tìm mối quan hệ giữa và thì ta sẽ không cần sử dụng những mẫu dữ liệu huấn luyện. Việc xác định các hàm này phải sử dụng tri thức của chuyên gia trong lĩnh vực và thường không có tính tổng quát cao. Do đó, cần thiết phải có một mô hình có tham số dựa trên dữ liệu huấn luyện thực tế. Mô hình có sử dụng các tham số và được xác định dựa trên dữ liệu này được gọi là mô hình máy học có giám sát.
Hàm số biểu diễn mô hình có tham số
Nếu như hàm được xác định bằng dữ liệu huấn luyện thì ta cần có các tham số phụ thuộc vào dữ liệu. Đặt tham số của mô hình là , khi đó ta ký hiệu mô hình máy học là:
Việc xây dựng cấu trúc chung cho mô hình có tham số này vẫn phụ thuộc vào kinh nghiệm của chuyên gia. Tuy nhiên, tính tổng quát của mô hình sẽ cao hơn do các tham số của mô hình được xác định bởi dữ liệu thực tế thay vì được gắn mặc định sẵn. Ví dụ, bằng kinh nghiệm ta biết rằng mối liên hệ giữa và là một dạng thức bậc 2. Khi đó ta có công thức của mô hình như sau: . Trong trường hợp này, tham số . Nhiệm vụ của ta là tìm tham số sao cho giá trị dự đoán gần với giá trị thực tế nhất.
Hàm độ lỗi
Để đánh giá sự sai khác giữa và ta sẽ xây dựng Hàm độ lỗi (Loss Function) . Trong đó, là biến số cần tìm với cặp dữ liệu huấn luyện để hàm độ lỗi là nhỏ nhất. Do đó, ta cần chọn hàm độ lỗi có một số tính chất sau:
với mọi tham số . Do hàm độ lỗi thể hiện sự sai khác giữa giá trị dự đoán và giá trị thực tế, nên về mặt ý nghĩa độ lỗi phải là một hàm không âm.
nếu . Đây là trường hợp hoàn hảo khi dự đoán chính xác giá trị thực tế. nếu . Nếu càng khác xa thì giá trị hàm mất mát càng lớn.
có thể tính được đạo hàm. Việc tìm tham số để hàm độ lỗi nhỏ nhất thường dựa trên một số công cụ giải tích liên quan đến đạo hàm. Do đó việc chọn hàm độ lỗi có thể tính được đạo hàm sẽ giúp cho việc tìm giá trị nhỏ nhất của dễ dàng hơn.
Việc huấn luyện mô hình lúc này sẽ tương đương với việc tìm tham số của hàm sao cho hàm chi phí là nhỏ nhất. Về mặt hình thức, quá trình huấn luyện mô hình sẽ được biểu diễn như sau:
Trong đó, là tham số tối ưu của mô hình để . Việc tìm sẽ dựa trên các mẫu dữ liệu huấn luyện của hàm độ lỗi với biến số là .
Việc tìm giá trị nhỏ nhất của hàm số sẽ dựa trên các giải thuật có liên quan đến vector đạo hàm (gradient vector) của tham số. Một trong những giải thuật cơ bản và nền tảng là Gradient Descent được trình bày trong bài tiếp theo Thuật toán Gradien Descent.