חלוקת סט נתונים

RRotem

משתמש פעיל
שלום לכולם,

אשמח אם תשתפו אותי איך אתם קובעים את גודל ה-Training set מול ה-Testing set וכמובן שגם תסבירו למה דווקא זו הדרך בה אתם משתמשים.
לחלופין, אם אתם מכירים מדריך טוב לאיך לעשות את זה בצורה אופטימלית, אודה לשיתוף.

תודה רבה ושבוע נהדר :)

*****בבקשה אל תכתבו משהו בסגנון "יחס 20 80"
 

ירושל

משתמש מקצוען
בד"כ 80-20, או 70-30, כשמתוך ה-test-set כ-10% משמשים ל-validation set (בשביל cross validation לצורך קביעת היפר-פרמטרים של האימון). :)
כשהדטה סט הוא ממש גדול, אפשר להשתמש אפילו ב-90-10 (כי אם יש לדוגמא מליון דוגמאות, אין צורך ב-100K בשביל לדעת שהמודל מספיק טוב וחבל לא להשתמש בכמה שיותר נתונים מפיזור יותר טוב ושונות יותר גבוהה)

אנדרו נג, בקורס להלן: https://www.coursera.org/lecture/deep-neural-network/train-dev-test-sets-cxG1s
ממליץ ככלל אצבע על החלוקה הבאה - 60% לאימון, 20% לולידציה, 20% לבדיקה.
אא"כ יש ממש הרבה נתונים - ואז אפשר גם להשתמש ביחס של 95-2.5-2.5 (אימון, ולידציה, בדיקה בהתאמה)
כשיש קצת נתונים, נוטים ל- 63.2-36.8
מחקר בנושא: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.1337&rep=rep1&type=pdf
 

RRotem

משתמש פעיל
מעולה! תודה רבה!
חשדתי שיש איזו משוואת אופטימיזציה ולא סתם כללים נוקשים ללא הסבר.
המון המון תודה! :)
 

אולי מעניין אותך גם...

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק קמט

א הַלְלוּיָהּ שִׁירוּ לַיהוָה שִׁיר חָדָשׁ תְּהִלָּתוֹ בִּקְהַל חֲסִידִים:ב יִשְׂמַח יִשְׂרָאֵל בְּעֹשָׂיו בְּנֵי צִיּוֹן יָגִילוּ בְמַלְכָּם:ג יְהַלְלוּ שְׁמוֹ בְמָחוֹל בְּתֹף וְכִנּוֹר יְזַמְּרוּ לוֹ:ד כִּי רוֹצֶה יְהוָה בְּעַמּוֹ יְפָאֵר עֲנָוִים בִּישׁוּעָה:ה יַעְלְזוּ חֲסִידִים בְּכָבוֹד יְרַנְּנוּ עַל מִשְׁכְּבוֹתָם:ו רוֹמְמוֹת אֵל בִּגְרוֹנָם וְחֶרֶב פִּיפִיּוֹת בְּיָדָם:ז לַעֲשׂוֹת נְקָמָה בַּגּוֹיִם תּוֹכֵחֹת בַּלְאֻמִּים:ח לֶאְסֹר מַלְכֵיהֶם בְּזִקִּים וְנִכְבְּדֵיהֶם בְּכַבְלֵי בַרְזֶל:ט לַעֲשׂוֹת בָּהֶם מִשְׁפָּט כָּתוּב הָדָר הוּא לְכָל חֲסִידָיו הַלְלוּיָהּ:
נקרא  12  פעמים

לוח מודעות

למעלה