Overfitting Là Gì – Bài 15: Overfitting

Bài viết Overfitting Là Gì – Bài 15: Overfitting thuộc chủ đề về Wiki How thời gian này đang được rất nhiều bạn quan tâm đúng không nào !! Hôm nay, Hãy cùng NaciHolidays.vn tìm hiểu Overfitting Là Gì – Bài 15: Overfitting trong bài viết hôm nay nha !

Các bạn đang xem bài : “Overfitting Là Gì – Bài 15: Overfitting”

2. Validation 3. Regularization 3.3. (l_2) regularization

Overfitting không cần là một thuật toán trong Machine Learning. Nó là một hiện tượng không nhu yếu thường gặp, người thành lập quy mô Machine Learning cần nắm đc những kỹ thuật để né hiện tượng này.

Bài Viết: Overfitting là gì

1. Diễn ra

Chính là một câu chuyện của chính tôi khi lần đầu biết đến Machine Learning.

Năm thứ ba ĐH, một thầy giáo có diễn ra với lớp tôi về Neural Networks. Lần trước tiên nghe cảm nhận khái niệm này, công ty chúng tôi hỏi thầy mục đích của nó là gì. Thầy nói, về căn bản, từ dữ liệu cho trước, các bạn cần tìm một hàm số để biến những những điểm đầu vào thành những điểm đầu ra tương ứng, không cần đúng phương pháp, chỉ cần xấp xỉ thôi.

Lúc đó, vốn là một học viên chuyên toán, làm việc nhiều với đa thức ngày cấp ba, tôi đã quá tự tin vấn đáp ngay rằng Đa thức Nội suy Lagrange khả năng làm đc điều ấy, miễn là những điểm đầu vào khác nhau đôi một! Thầy bảo rằng “các gì ta biết chỉ là bé dại xíu nếu như với các gì ta không biết”. And này là các gì tôi muốn lúc đầu trong bài viết này.

Nhắc lại một chút về Đa thức nội suy Lagrange: Với (N) cặp điểm dữ liệu ((x_1, y_1), (x_2, y_2), dots, (x_N, y_N)) với những (x_i) kháu nhau đôi một, luôn tìm đc một đa thức (P(.)) bậc không vượt quá (N-1) sao cho (P(x_i) = y_i, ~forall i = 1, 2, dots, N). Chẳng phải điều đó giống với việc ta đi kiếm một quy mô phù hợp (fit) với dữ liệu trong bài toán Supervised Learning hay sao? Thậm chí điều đó còn cực tốt hơn vì trong Supervised Learning ta chỉ cần xấp xỉ thôi.

Sự thật là nếu một quy mô quá fit với dữ liệu thì nó sẽ bị gây ra phản công dụng! Hiện tượng quá fit này trong Machine Learning đc gọi là overfitting, là điều mà khi thành lập quy mô, các bạn luôn cần né. Để có cái nhìn trước tiên về overfitting, các bạn cùng xem Hình bên dưới đây. Có 50 điểm dữ liệu đc tạo bằng một đa thức bậc ba cộng thêm nhiễu. Tập dữ liệu này đc chia làm hai, 30 điểm dữ liệu màu đỏ cho training data, 20 điểm dữ liệu màu vàng cho test data. Đồ thị của đa thức bậc ba này đc cho bởi đường màu xanh lục. Bài toán của các bạn là giả sử ta chưa chắc chắn quy mô thuở đầu mà chỉ biết những điểm dữ liệu, hãy tìm một quy mô “cực tốt” để miêu tả dữ liệu đã cho.

Mọi Người Cũng Xem   Draft Beer Là Gì - Draft Beer Vs Draught Beer

Với các gì các bạn đã biết từ bài Linear Regression, với loại dữ liệu này, các bạn khả năng cần dùng Polynomial Regression. Bài toán này trọn vẹn khả năng đc giải quyết bằng Linear Regression với dữ liệu mở rộng cho một cặp điểm ((x, y)) là ((mathbfx, y)) với (mathbfx = ^T) cho đa thức bậc (d). Điều quan trọng là các bạn cần tìm bậc (d) của đa thức cần tìm.

chi tiết là một đa thức bậc không vượt quá 29 khả năng fit đc trọn vẹn với 30 điểm trong training data. Các bạn cùng xét vài giá cả (d = 2, 4, 8, 16). Với (d = 2), quy mô không thực sự cực tốt vì quy mô dự đoán quá khác nếu như với quy mô thực. Trong điều kiện này, ta nói quy mô bị underfitting. Với (d = 8), với những điểm dữ liệu trong khoảng của training data, quy mô dự đoán and quy mô thực là khá giống nhau. Tuy vậy, về phía phải, đa thức bậc 8 cho kết quả trọn vẹn ngược với Xu thế của dữ liệu. Điều gần giống xảy ra trong điều kiện (d = 16). Đa thức bậc 16 này quá fit dữ liệu trong khoảng đang xét, and quá fit, tức không đc mượt trong khoảng dữ liệu training. Việc quá fit trong điều kiện bậc 16 không cực tốt vì quy mô đang nỗ lực miêu tả nhiễu hơn là dữ liệu. Hai điều kiện đa thức bậc cao này đc gọi là Overfitting.

Nếu bạn nào biết về Đa thức nội suy Lagrange thì khả năng hiểu đc hiện tượng sai số to với những điểm tọa lạc ngoài khoảng của những điểm đã cho. Đó này là lý do cách đó có từ “nội suy”, với những điều kiện “ngoại suy”, kết quả thường không đúng phương pháp.

Với (d = 4), ta đc quy mô dự đoán khá giống với quy mô thực. Hệ số bậc cao nhất tìm đc rất gần với 0 (xem kết quả trong source code), vì thế đa thưc bậc 4 này khá gần với đa thức bậc 3 thuở đầu. Đây này là một quy mô cực tốt.

Overfitting là hiện tượng quy mô tìm đc quá khớp với dữ liệu training. Việc quá khớp này khả năng kéo theo việc dự đoán nhầm nhiễu, and chất lượng quy mô đã không còn gì cực tốt trên dữ liệu test nữa. Dữ liệu test đc giả sử là không đc biết trước, and không đc cần dùng để thành lập những quy mô Machine Learning.

Xem Ngay: Pansexual Là Gì – ngôn từ Lgbtq+ Tổng Hợp

Về căn bản, overfitting xảy ra khi quy mô quá nan giải để mô phỏng training data. Điều đó đặc thù xảy ra khi lượng dữ liệu training quá bé dại trong khi độ nan giải của quy mô cao quá. Trong ví dụ trên đây, độ nan giải của quy mô khả năng đc coi là bậc của đa thức cần tìm. Trong Multi-layer Perceptron, độ nan giải của quy mô khả năng đc coi là số lượng hidden layers and số lượng units trong những hidden layers.

Mọi Người Cũng Xem   Deputy Manager Là Gì - Chức Danh Trong Công Ty Bằng Tiếng Anh

Vậy, có các kỹ thuật nào cứu né Overfitting?

Trước hết, các bạn cần một vài đại lượng để nhận xét chất lượng của quy mô trên training data and test data. Bên dưới đó chính là hai đại lượng dễ chơi, với giả sử (mathbfy) là đầu ra thực sự (khả năng là vector), and (mathbfhaty) là đầu ra dự đoán bởi quy mô:

Train error: Thường là hàm mất mát cần dùng lên training data. Hàm mất mát này cần phải có một thừa số (frac1N_ exttrain ) để tính giá cả trung bình, tức mất mát trung bình trên mỗi điểm dữ liệu. Với Regression, đại lượng này thường đc định nghĩa:với (p) thường bằng 1 hoặc 2.

Với Classification, trung bình cộng của cross entropy khả năng đc cần dùng.

Test error: Giống như như trên nhưng cần dùng quy mô tìm đc vào test data. Chăm chú rằng, khi thành lập quy mô, ta không đc cần dùng thông tin trong tập dữ liệu test. Dữ liệu test chỉ đc dùng để nhận xét quy mô. Với Regression, đại lượng này thường đc định nghĩa:

với (p) cũng tương tự (p) trong cách thức tính train error phía bên trên.

Việc lấy trung bình là quan trọng vì lượng dữ liệu trong hai tập hợp training and test khả năng chênh lệch rất đông.

Một quy mô đc coi là cực tốt (fit) nếu cả train error and test error đều thấp. Nếu train error thấp nhưng test error cao, ta nói quy mô bị overfitting. Nếu train error cao and test error cao, ta nói quy mô bị underfitting. Nếu train error cao nhưng test error thấp, tôi chưa chắc chắn tên của quy mô này, vì cực kì phát tài thì hiện tượng này mới xảy ra, hoặc có chỉ khi tập dữ liệu test quá bé dại.

Các bạn cùng đi vào cách trước tiên

2. Validation

2.1. Validation

Các bạn vẫn quen với việc chia tập dữ liệu ra thành hai tập bé dại: training data and test data. And một điều tôi vẫn muốn nhắc lại là khi thành lập quy mô, ta không đc cần dùng test data. Vậy làm cách thức nào để biết đc chất lượng của quy mô với unseen data (tức dữ liệu chưa nhìn cảm nhận khi nào)?

Cách thức dễ chơi đặc biệt là trích từ tập training data ra một tập con bé dại and tiến hành việc nhận xét quy mô trên tập con bé dại này. Tập con bé dại đc trích ra từ training set này đc gọi là validation set. Ngày này, training set là phần còn lại của training set thuở đầu. Train error đc tính trên training set mới này, and chứa một khái niệm nữa đc định nghĩa gần giống như trên validation error, tức error đc tính trên tập validation.

Việc này cũng tương tự khi bạn ôn thi. Giả sử bạn chưa chắc chắn đề thi như vậy nào nhưng có 10 bộ đề thi từ những năm trước. Để xem trình độ của tôi trước khi thi thế nào, chứa một cách thức là bỏ riêng một bộ nêu ra, không ôn tập gì. Việc ôn tập để được tiến hành dựa trên 9 bộ còn lại. Sau khi ôn tập xong, bạn bỏ bộ đề đã để riêng ra làm thử and check kết quả, như vậy mới “khách quan”, mới cũng tương tự thi thật. 10 bộ đề ở những năm trước là “tất cả” training set bạn có. Để né việc học lệch, học tủ theo chỉ 10 bộ, bạn tách 9 bộ ra làm training set thật, bộ còn lại là validation test. Khi làm như vậy thì mới nhận xét đc việc bạn học đã cực tốt thật hay chưa, hay chỉ là học tủ. Cho nên, Overfitting còn tồn tại thể so sánh với việc Học tủ của con người.

Mọi Người Cũng Xem   Deionized Water Là Gì - Hệ Thống Khử Ion (Deionized Water)

Với khái niệm mới này, ta tìm quy mô sao cho cả train eror and validation error đều bé dại, qua đó khả năng dự đoán đc rằng test error cũng bé dại. Cách thức thường đc cần dùng là cần dùng nhiều quy mô khác nhau. Quy mô nào cho validation error bé dại nhất sẽ là quy mô cực tốt.

Thỉnh thoảng, ta lúc đầu từ quy mô dễ chơi, sau đó tăng dần độ nan giải của quy mô. Tới bao giờ validation error có chiều hướng tăng đều thì chọn quy mô ngay trước đó. Chăm chú rằng quy mô càng nan giải, train error có Xu thế càng bé dại đi.

Xem Ngay: Intersect Là Gì – Khẳng định Union, Minus, Union All, Intersect

Hính bên dưới đây miêu tả ví dụ phía bên trên với bậc của đa thức tăng từ 1 đến 8. Tập validation kể cả 10 điểm đc lấy ra từ tập training thuở đầu.

Thể Loại: Share Kiến Thức Cộng Đồng

Các câu hỏi về Overfitting Là Gì – Bài 15: Overfitting


Nếu có bắt kỳ câu hỏi thắc mắt nào vê Overfitting Là Gì – Bài 15: Overfitting hãy cho chúng mình biết nha, mõi thắt mắt hay góp ý của các bạn sẽ giúp mình nâng cao hơn hơn trong các bài sau nha <3 Bài viết Overfitting Là Gì - Bài 15: Overfitting ! được mình và team xem xét cũng như tổng hợp từ nhiều nguồn. Nếu thấy bài viết Overfitting Là Gì - Bài 15: Overfitting Cực hay ! Hay thì hãy ủng hộ team Like hoặc share. Nếu thấy bài viết Overfitting Là Gì - Bài 15: Overfitting rât hay ! chưa hay, hoặc cần bổ sung. Bạn góp ý giúp mình nha!!

Các Hình Ảnh Về Overfitting Là Gì – Bài 15: Overfitting

Overfitting Là Gì - Bài 15: Overfitting

Các từ khóa tìm kiếm cho bài viết #Overfitting #Là #Gì #Bài #Overfitting

Tham khảo thêm tin tức về Overfitting Là Gì – Bài 15: Overfitting tại WikiPedia

Bạn hãy tìm nội dung về Overfitting Là Gì – Bài 15: Overfitting từ web Wikipedia tiếng Việt.◄

Tham Gia Cộng Đồng Tại

💝 Nguồn Tin tại: https://NaciHolidays.vn/

💝 Xem Thêm Chủ Đề Liên Quan tại : https://naciholidays.vn/hoi-dap/

Related Posts

About The Author

Add Comment