Làm thế nào để tránh Overfitting Regression Model trong Minitab
Đưa ra một mô hình là một vấn đề cần phải cẩn thận khi thực hiện phân tích hồi quy. Một mô hình kết hợp dẫn đến các hệ số hồi quy gây nhầm lẫn các giá trị p và số liệu thống kê R-squared.
Nói một cách đơn giản, mô hình quá phức tạp đối với dữ liệu phân tích. Thay vì phản ánh toàn bộ dân số, một mô hình hồi quy ngược lại hoàn toàn các tính năng ngẫu nhiên của mẫu cụ thể mà bạn thu thập được. Mô hình không chắc sẽ phù hợp với một mẫu ngẫu nhiên khác được lấy từ cùng một quần thể, điều này có thể có những quirks riêng của nó.
Khái niệm cơ bản của thống kê ngẫu nhiên :
Để có thêm thông tin chi tiết về các vấn đề với overfitting, chúng ta hãy xem lại một khái niệm cơ bản về thống kê giả mạo. Dữ liệu mẫu được sử dụng để cung cấp ước lượng không chênh lệch về các tham số và mối quan hệ dân số, cũng như trong việc kiểm tra các giả thuyết về dân số.
Trong thống kê giả mạo, kích thước mẫu của bạn ảnh hưởng đến số lượng thông tin bạn có thể thu thập được về dân số. Nếu bạn muốn tìm hiểu thêm, bạn cần kích cỡ mẫu lớn hơn. Cố gắng giành được quá nhiều thông tin từ một mẫu nhỏ sẽ không làm việc tốt.
Ví dụ, với một mẫu có kích thước là 20, bạn có thể có được một ước tính tốt. Nhưng ước tính hai có nghĩa là với tổng số mẫu là 20 là một đề xuất rủi ro hơn. Nếu bạn muốn ước lượng ba hoặc nhiều hơn số dân số có nghĩa là với cùng một mẫu, bất kỳ kết luận bạn rút ra sẽ được khá sketchy.
Mẫu kích thước liên quan đến một mô hình Overfit :
Tương tự, overfitting một mô hình hồi quy ước lượng thông số từ mẫu. Trong hồi quy, một mẫu duy nhất được sử dụng để ước tính các hệ số cho tất cả các thuật ngữ trong mô hình. Điều đó bao gồm mọi dự đoán, tương tác và thuật ngữ đa thức. Do đó, số lượng các điều khoản mà bạn có thể chứa an toàn phụ thuộc vào kích thước mẫu của bạn.
Các mẫu lớn hơn cho phép các mô hình phức tạp hơn, vì vậy nếu câu hỏi hoặc quy trình bạn đang điều tra rất phức tạp, bạn sẽ cần một mẫu kích thước đủ lớn để hỗ trợ sự phức tạp đó. Với kích thước mẫu không phù hợp, mô hình của bạn sẽ không đáng tin cậy.
Vì vậy, mẫu của bạn cần đủ quan sát cho mỗi kỳ. Trong hồi quy tuyến tính, 10-15 quan sát mỗi thuật ngữ là một nguyên tắc nhỏ. Một mô hình với hai dự báo và tương tác, do đó, sẽ đòi hỏi từ 30 đến 45 quan sát – có lẽ nhiều hơn nếu bạn có đa kích thước cao hoặc kích thước một hiệu ứng nhỏ.
Tránh các mô hình Overfitting Regression Model:
Bạn có thể phát hiện trang phục thông qua xác nhận chéo. Xác định mô hình của bạn phù hợp với những quan sát mới như thế nào. Phân vùng dữ liệu của bạn là một cách để đánh giá mô hình phù hợp với những quan sát để ước lượng mô hình.
Đối với các mô hình tuyến tính, Minitab tính toán được dự đoán là R-squared, một phương pháp kiểm tra chéo không yêu cầu một mẫu riêng biệt. Để tính toán R được dự đoán, Minitab có hệ thống loại bỏ mỗi quan sát từ tập dữ liệu, ước lượng phương trình hồi quy, và xác định mô hình này dự đoán tốt.
Một mô hình thực hiện kém quan sát đã được gỡ bỏ có thể phù hợp với các điểm dữ liệu cụ thể trong mẫu, và không thể được tổng quát cho toàn bộ dân số.