Thuật toán Gradient Descent

Để tìm giá trị nhỏ nhất của hàm độ lỗi thông thường ta sẽ sử dụng các vector đạo hàm. Tại các vị trí cực tiểu (hoặc cực đại) nói chung, vector đạo hàm của hàm số bằng vector $\overrightarrow{0}$ . Do đó, ý tưởng của giải thuật gradient descent là thực hiện lặp lại việc làm giảm các giá trị của vector gradient cho đến khi vector đạo hàm của tham số $\theta$ theo hàm độ lỗi $\mathcal{L}$ xấp xỉ bằng $\overrightarrow{0}$ .

Ý tưởng thuật toán trên khá đơn giản và được biểu diễn bằng mã giả như sau:

# Định nghĩa hàm Loss
def Loss(theta):
    return theta**2 - 4*theta + 10 # (theta-2)^2 + 6
# Định nghĩa đạo hàm của hàm Loss
def DerLoss(theta):
    return 2*theta - 4
# Khởi tạo tham số
theta = -10
alpha = 0.01
eps = 0.0001
while True:
    theta = theta - alpha*DerLoss(theta)
    if abs(DerLoss(theta)) < eps:
        break
print("Theta toi uu: ", theta)
print("Gia tri Loss nho nhat: ", Loss(theta))

Kết quả in ra màn hình là:

Theta toi uu: 1.9999507969843757
Gia tri Loss nho nhat: 6.000000002420936

Như vậy ta có thể nhận thấy, giá trị tham số tối ưu là $\theta^*=1.99...$ xấp xỉ với giá trị tính toán bằng phương pháp toán là $2$ . Thật vậy, theo ví dụ ở trên hàm mất mát $\mathcal{L}(\theta) = \theta^2 - 4\theta + 10 = (\theta-2)^2 + 6$ . Tức là đạt được giá trị nhỏ nhất là $6$ khi $\theta=2$ . Ta nhận thấy rằng giá trị nhỏ nhất này cũng xấp xỉ với giá trị nhỏ nhất sau khi chạy thuật toán Gradient Descent.

Trong những bài tiếp theo, chúng tôi sẽ giới thiệu cách vận dụng mô hình máy học tổng quát để xây dựng các mô hình máy học cơ bản. Việc xây dựng một mô hình máy học sẽ bao gồm các việc cơ bản sau:

Chọn lựa hàm mô hình $f_\theta(x)$
Chọn lựa hàm độ lỗi $\mathcal{L}(\theta; x, y)$
Tìm tham số tối ưu cho mô hình $\theta^* = \operatorname*{argmin}_\theta \mathcal{L}(\theta; x, y)$