web scraping בצד השרת

Rivka-Prog

משתמש פעיל
שלום, אשמח מאוד לעזרה...
אני צריכה לעשות web scraping בצד שרת.
אפרט:
אני צריכה לבנות אתר שעושה web scraping, ממלא נתונים באתר אחר, שולח את המידע, מקבל תשובות ומציג אותם באתר שלי.
אבל לא יכולה שה scraping יתבצע בצד הלקוח. מה שהמשתמש אמור לראות זה דף HTML יפה ונקי, ללחוץ על כפתור, ולקבל פלט. בלי לראות שום הרצה ברקע... לא דפדפן שנפתח ולא שורה הפקודה.
תודה רבה
 

למדן וידען

משתמש סופר מקצוען
עיצוב גרפי
הנדסת תוכנה
D I G I T A L
תבדקו דבר ראשון איך האתר ההוא פועל.
אם האימות שלו פשוט וקל או אם אין אימות אז אין צורך בסקרפינג, תשתמשו איתו כ Api קלאסי.
 

s976

משתמש סופר מקצוען
הנדסת תוכנה
D I G I T A L
נראה לי שכדאי לעשות סקרפינג על הפורום הנוכחי, ולחפש כל ההודעות על ״סקרפינג״ אפשר לדלות הרבה מידע :)
זה נראה שאיזה מחזור שלם של איזה סמינר קיבל אותו הפרוייקט :)

לעצם השאלה. הדרך שהייתי ממליץ עליה (כי היא, בהגדרה, ישימה בכל אתר) - להריץ דפדפן בצד שרת, דפדפן כזה שניתן לשלוט עליו בצורה פרוגרמטית
כך שלמשל בשביל לגלול הדף (הרי תוכן חדש יכול להופיע בעקבות גלילה) רושמים משהו בסגנון page.scroll(200)
ובשביל להקליק על כפתור מסוים רושמים משהו כמו page.click("#super-button")
אני הייתי ממליץ על puppeteer (בעצם יש גם פרויקט חדש יותר של אותו צוות פיתוח, סוג של גירסא חדשה, אבל שכחתי איך זה נקרא)
הדבר בפירוש מצריך למידה.

אבל יש אתרים מסוימים שניתן לשלוף את המידע בהם בצורה ממש פשוטה ופרימיטיבית (אולי זו הייתה כוונתו של @למדן וידען ). אם תצייני את האתר שממנו את צריכה להביא מידע (וכמובן תצייני גם איזה מידע את צריכה) מן הסתם יעזרו לך כאן יותר.
 

גזעי

משתמש מקצוען
הנדסת תוכנה
D I G I T A L
נראה לי שכדאי לעשות סקרפינג על הפורום הנוכחי, ולחפש כל ההודעות על ״סקרפינג״ אפשר לדלות הרבה מידע :)
זה נראה שאיזה מחזור שלם של איזה סמינר קיבל אותו הפרוייקט :)

לעצם השאלה. הדרך שהייתי ממליץ עליה (כי היא, בהגדרה, ישימה בכל אתר) - להריץ דפדפן בצד שרת, דפדפן כזה שניתן לשלוט עליו בצורה פרוגרמטית
כך שלמשל בשביל לגלול הדף (הרי תוכן חדש יכול להופיע בעקבות גלילה) רושמים משהו בסגנון page.scroll(200)
ובשביל להקליק על כפתור מסוים רושמים משהו כמו page.click("#super-button")
אני הייתי ממליץ על puppeteer (בעצם יש גם פרויקט חדש יותר של אותו צוות פיתוח, סוג של גירסא חדשה, אבל שכחתי איך זה נקרא)
הדבר בפירוש מצריך למידה.

אבל יש אתרים מסוימים שניתן לשלוף את המידע בהם בצורה ממש פשוטה ופרימיטיבית (אולי זו הייתה כוונתו של @למדן וידען ). אם תצייני את האתר שממנו את צריכה להביא מידע (וכמובן תצייני גם איזה מידע את צריכה) מן הסתם יעזרו לך כאן יותר.
לא יודע אם זה שלהם, אבל אתה אולי מתכוון לזה?
 

Rivka-Prog

משתמש פעיל
אוקי תודה לכולם. puppeteer יכול לרוץ בצד השרת?
אם יש כאן מישהו מנוסה בקהל אשמח לעזרה גם בתשלום.
 

אולי מעניין אותך גם...

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק קיט ב'

ט בַּמֶּה יְזַכֶּה נַּעַר אֶת אָרְחוֹ לִשְׁמֹר כִּדְבָרֶךָ:י בְּכָל לִבִּי דְרַשְׁתִּיךָ אַל תַּשְׁגֵּנִי מִמִּצְוֹתֶיךָ:יא בְּלִבִּי צָפַנְתִּי אִמְרָתֶךָ לְמַעַן לֹא אֶחֱטָא לָךְ:יב בָּרוּךְ אַתָּה יְהוָה לַמְּדֵנִי חֻקֶּיךָ:יג בִּשְׂפָתַי סִפַּרְתִּי כֹּל מִשְׁפְּטֵי פִיךָ:יד בְּדֶרֶךְ עֵדְוֹתֶיךָ שַׂשְׂתִּי כְּעַל כָּל הוֹן:טו בְּפִקֻּדֶיךָ אָשִׂיחָה וְאַבִּיטָה אֹרְחֹתֶיךָ:טז בְּחֻקֹּתֶיךָ אֶשְׁתַּעֲשָׁע לֹא אֶשְׁכַּח דְּבָרֶךָ:
נקרא  12  פעמים

לוח מודעות

למעלה