מודל סדרה עיתית במצבים של אוטוקורלציה גבוהה בין תצפיות סמוכות

RRotem

משתמש פעיל
אני מנסה לעבוד בML עם מודל סדרה עיתית במסד נתונים ללא עונתיות או טרנד. התוצאות כביכול טובות אבל אני רואה שהמחליק האקפוננציאלי מאוד גבוה (0.9999). חישבתי ידנית ועדיין מגיעה לאותה תוצאה. בדקתי אוטוקורלציה וזה אכן נובע מקורלציה מאוד גבוהה בין תצפיות סמוכות.
עיצה למה אני יכולה לעשות במצב כזה? דוגמה למודל שיתן תחזית אמינה בלי לתת משקל נורא גבוה לתצפיות האחרונות?
ניסיתי בנתיים:
(רגיל ועם Dumped trend) TBATS, ANN
וגם ETS רגיל שנתתי לו את האופציה לבחור מודל בצורה אוטומטית. בנתיים, שום דבר מהם לא נותן משהו אמין.

רעיונות?
תודה לעונים :)
 

ירושל

משתמש מקצוען
קצת מוזר לקרוא את המונחים בעברית :)

הנתונים סטציונריים? (Stationary)? אם לא, כדאי (מאד) לנרמל את הדטה-סט.
אולי LSTM / RNN?

באופן כללי, הפורום של Data science stack exchange יעיל מאד לכזה סוג של שאלות/
 

RRotem

משתמש פעיל
תודה על התשובה!
אכן לא סטציונריים. הפכתי את כל הערכים לשיעור שינוי (relative percent change).
קראתי על המודלים שהצעת והLSTM נראה די טוב. אנסה אותו מחר.
על הדרך גם מצאתי ספר עם הסברים מעולים

אגב, הצלחתי בנתיים לשפר את התוצאות. עשיתי מבחן גרנג׳ר וראיתי שאני יכולה לשלב סדרה עיתית עם GBM, לפי טווח התחזית ובהתאם ליחס בין המחיר לכמה משתנים. נראה שהולך לצאת משהו מעניין
 

ירושל

משתמש מקצוען
לעיקר השאלה, נראה שזו בעיה של למידת יתר :)
הכוונה ל-overfitting?
כי לענ"ד זה לא. במקרה כזה היתה מתקבלת תוצאה טובה מאד באימון וכשלון בולידציה, מה ש @RRotem מתארת זה כשלון כבר בשלב האימון. (המודל לומד תמיד משהו דומה מאד לתצפית האחרונה, שזה הגיוני אבל רוצים להתגבר על זה).

אם יש קורלציב גבוהה בין כמה משתנים, ייתכן שכדאי לתת למודל רק סבסט שלהם כי אז מרחב הפתרון יותר קטן ותוספת המשתנים לא כ"כ תורמת.
אפשר להשתמש באלגוריתמים שמוצאים variable importance כמו למשל Garson.
 

RRotem

משתמש פעיל
כתבתי בעברית כי פעם כתבתי כאן באנגלית ומישהו העיר לי על זה. בכנות, חיפשתי בגוגל איך קוראים למונחים בעברית. אני דוקטורנטית באוניברסיטה זרה, ככה שכל העבודה היא ממש לא בעברית ;)

אין overfitting. נבדק כבר בשלב הראשון.
השתמשתי ב-Random forest ו-GBM בשביל הדירוג (בעצם לקחתי מודל boosting ואחד של bagging). כמובן שבדקתי גם partial dependency בשניהם.
 

ירושל

משתמש מקצוען
נשמע מעניין. אני לא כ"כ מתעסקת עם time series, כן עם LSTM בשביל וידאו.
אם זה יתפתח למאמר או משהו בסגנון, אשמח לקישור.
(מותר לשאול איפה את לומדת ואיך הגעת לזה?)
 

RRotem

משתמש פעיל
אכן מעניין. מקווה שיתפרסם. היום שלחתי מאמר על מודל חיזוי אחר שעשיתי (פחות מעניין אבל הייתי חייבת להתחיל ממשהו). בכיף אשלח כש\באם יתפרסם.

(מותר לשאול איפה את לומדת ואיך הגעת לזה?)
אכפת לך אם אענה על זה בפרטי?
 

ירושל

משתמש מקצוען
אשמח,
continuouslearner ב-yandex.com.
(תודיעי לי מתי ראית ואמחק - תודה!)
 

אולי מעניין אותך גם...

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק קכד

א שִׁיר הַמַּעֲלוֹת לְדָוִד לוּלֵי יְהוָה שֶׁהָיָה לָנוּ יֹאמַר נָא יִשְׂרָאֵל:ב לוּלֵי יְהוָה שֶׁהָיָה לָנוּ בְּקוּם עָלֵינוּ אָדָם:ג אֲזַי חַיִּים בְּלָעוּנוּ בַּחֲרוֹת אַפָּם בָּנוּ:ד אֲזַי הַמַּיִם שְׁטָפוּנוּ נַחְלָה עָבַר עַל נַפְשֵׁנוּ:ה אֲזַי עָבַר עַל נַפְשֵׁנוּ הַמַּיִם הַזֵּידוֹנִים:ו בָּרוּךְ יְהוָה שֶׁלֹּא נְתָנָנוּ טֶרֶף לְשִׁנֵּיהֶם:ז נַפְשֵׁנוּ כְּצִפּוֹר נִמְלְטָה מִפַּח יוֹקְשִׁים הַפַּח נִשְׁבָּר וַאֲנַחְנוּ נִמְלָטְנוּ:ח עֶזְרֵנוּ בְּשֵׁם יְהוָה עֹשֵׂה שָׁמַיִם וָאָרֶץ:
נקרא  10  פעמים

לוח מודעות

למעלה