שליפת נתונים מדפי HTML

The student

משתמש רשום
אני סטודנטית של משרד החינוך.
אני עושה פרויקט גמר שמשתמש באלגוריתם לחיפוש ושליפת נתונים מאתרים.
יש מישהו שיכול להציע לי מאמרים. אלגוריתמים שמתעסקים בנושא ומסבירים את הנושא בצורה ברורה?
זה ממש יעזור לי!
תודה רבה!
 

רי מקס

משתמש צעיר
עיצוב גרפי
יש 2 אפשרויות איך המידע עובר מהשרת (server) לדפדפן (client)

השיטה הישנה וכך רוב אתרים קטנים ובינונים עובדים
עיבוד של המידע מתבצע בצד שרת והפלט שהשרת מוציא הוא קוד HTML מוכן ישר לדפדפן
במקרה כזה את צריכה ספריה שיודעת לפענח קוד HTML ולסנן את המידע
בשפת תכנות NODEJS מאד קל לעשות את הפעולה באמצעות הספריה node-html-parser

השיטה החדשה ורוב אתרים גדולים כמו יד2 ואחרים משתמשים
הפלט של השרת מועבר ב2 שלבים
שלב ראשון רק המבנה והעיצוב של האתר
בשלב שני שרת שולח רק את התוכן הרלוונטי בפורמט JSON
קוד JS יודע לשלב את המידע לתוך העיצוב שנשלח בשלב א

במצב כזה הרבה יותר קל לאסוף את המידע
צריכים רק לראות בכלי "network" של הדפדפן איזה בקשת URL שולחת את התוכן ואיזה פרמטרים צריכים לשלוח כדי לקבל את המידע הנכון
יש גם תוכנה בשם post-man שאפשר להריץ בצורה ידנית קריאות לשרת שמדמה שליחת קריאות של דפדפן
 

The student

משתמש רשום
אני רוצה לגשת לשורת החיפוש באתר דרך הקוד
ולשלוח שם מילים לחיפוש ולקלוט את התשובה
הבעיה היא שבאתר שאני רוצה לעשות את זה הבקשה נשלחת כPOST ולא כGET
איך אפשר לשלוח את הבקשה שלי?
צילום מסך 2021-03-30 000949.jpg
 

s976

משתמש סופר מקצוען
הנדסת תוכנה
D I G I T A L
אני רוצה לגשת לשורת החיפוש באתר דרך הקוד
ולשלוח שם מילים לחיפוש ולקלוט את התשובה
הבעיה היא שבאתר שאני רוצה לעשות את זה הבקשה נשלחת כPOST ולא כGET
איך אפשר לשלוח את הבקשה שלי?
זה תלוי שפה. באיזו שפה את משתמשת?
בכל מקרה, בדרך כלל כל פונקציה שיודעת לשלוח get יודעת גם לשלוח post
 

למדן וידען

משתמש סופר מקצוען
עיצוב גרפי
הנדסת תוכנה
D I G I T A L
אני רוצה לגשת לשורת החיפוש באתר דרך הקוד
ולשלוח שם מילים לחיפוש ולקלוט את התשובה
הבעיה היא שבאתר שאני רוצה לעשות את זה הבקשה נשלחת כPOST ולא כGET
איך אפשר לשלוח את הבקשה שלי?צפה בקובץ המצורף 860312
בשביל בדיקות? תשתשמשי עם פוסטמן.
יש גם תוכנה בשם post-man שאפשר להריץ בצורה ידנית קריאות לשרת שמדמה שליחת קריאות של דפדפן
 

The student

משתמש רשום
יש מישהו שיכול להסביר לי מה ההבדל בין IHtmlDocument לבין HtmlDocument? או שאין הבדל?
 

C

משתמש מקצוען
לאיזו שפה הכוונה?
בד"כ מה שמתחיל בI הוא interface, והשני כנראה class.
 

The student

משתמש רשום
השפה היא בשפת C# השאלה היא אם יש הבדל בסיסי כל שהוא מאחורי שני העצמים האלו ( IHtmlDocument, HtmlDocument)
כי הפעולות שעושים עליהם הם שונות....
 

The student

משתמש רשום
בפרוייקט שלי אני נגשת לתווית שופינג ורוצה להוציא משם נתונים.
אני מצליחה לשלוף אבל באופן מוזר זה שולף לי דף HTML עם תגיות וCLASS-ים שונים
יש משהוא שנתקל בבעיה ויכול להסביר לי למה זה קורה?
 

אולי מעניין אותך גם...

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק קכב

א שִׁיר הַמַּעֲלוֹת לְדָוִד שָׂמַחְתִּי בְּאֹמְרִים לִי בֵּית יְהוָה נֵלֵךְ:ב עֹמְדוֹת הָיוּ רַגְלֵינוּ בִּשְׁעָרַיִךְ יְרוּשָׁלִָם:ג יְרוּשָׁלִַם הַבְּנוּיָה כְּעִיר שֶׁחֻבְּרָה לָּהּ יַחְדָּו:ד שֶׁשָּׁם עָלוּ שְׁבָטִים שִׁבְטֵי יָהּ עֵדוּת לְיִשְׂרָאֵל לְהֹדוֹת לְשֵׁם יְהוָה:ה כִּי שָׁמָּה יָשְׁבוּ כִסְאוֹת לְמִשְׁפָּט כִּסְאוֹת לְבֵית דָּוִיד:ו שַׁאֲלוּ שְׁלוֹם יְרוּשָׁלִָם יִשְׁלָיוּ אֹהֲבָיִךְ:ז יְהִי שָׁלוֹם בְּחֵילֵךְ שַׁלְוָה בְּאַרְמְנוֹתָיִךְ:ח לְמַעַן אַחַי וְרֵעָי אֲדַבְּרָה נָּא שָׁלוֹם בָּךְ:ט לְמַעַן בֵּית יְהוָה אֱלֹהֵינוּ אֲבַקְשָׁה טוֹב לָךְ:
נקרא  2  פעמים

לוח מודעות

למעלה