חלוקת סט נתונים

RRotem · 29/8/20

שלום לכולם,

אשמח אם תשתפו אותי איך אתם קובעים את גודל ה-Training set מול ה-Testing set וכמובן שגם תסבירו למה דווקא זו הדרך בה אתם משתמשים.
לחלופין, אם אתם מכירים מדריך טוב לאיך לעשות את זה בצורה אופטימלית, אודה לשיתוף.

תודה רבה ושבוע נהדר

*****בבקשה אל תכתבו משהו בסגנון "יחס 20 80"

ירושל · 30/8/20

בד"כ 80-20, או 70-30, כשמתוך ה-test-set כ-10% משמשים ל-validation set (בשביל cross validation לצורך קביעת היפר-פרמטרים של האימון).

כשהדטה סט הוא ממש גדול, אפשר להשתמש אפילו ב-90-10 (כי אם יש לדוגמא מליון דוגמאות, אין צורך ב-100K בשביל לדעת שהמודל מספיק טוב וחבל לא להשתמש בכמה שיותר נתונים מפיזור יותר טוב ושונות יותר גבוהה)

אנדרו נג, בקורס להלן: https://www.coursera.org/lecture/deep-neural-network/train-dev-test-sets-cxG1s
ממליץ ככלל אצבע על החלוקה הבאה - 60% לאימון, 20% לולידציה, 20% לבדיקה.
אא"כ יש ממש הרבה נתונים - ואז אפשר גם להשתמש ביחס של 95-2.5-2.5 (אימון, ולידציה, בדיקה בהתאמה)
כשיש קצת נתונים, נוטים ל- 63.2-36.8
מחקר בנושא: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.1337&rep=rep1&type=pdf

RRotem · 30/8/20

מעולה! תודה רבה!
חשדתי שיש איזו משוואת אופטימיזציה ולא סתם כללים נוקשים ללא הסבר.
המון המון תודה!

חלוקת סט נתונים

משתמש פעיל

משתמש מקצוען

משתמש פעיל

תגיות נפוצות