כבר כמה שנים שאני מחפש תוכנה שתעשה לי את העבודה, ואני בטוח שיש עוד מליונים כאלו ברחבי העולם שמצפים לתוכנה כזו שתעשה את העבודה הזו.
יש לי במחשב עשרות אלפי מסמכים סרוקים, ויש לי תוכנת חיפוש במסמכים עם זיהוי תווים אופטי, ויש לי תוכנת המרה של PDF לפורמט OCR כדי לזהות תווים.
ברוב המסמכים יש לי כבר זיהוי תווים, והחיפוש עובד מוצלח בהם.
הצורך שלי הוא שכל המסמכים יהיו עם זיהוי תווים, ולצורך כך אני צריך לפתוח כל מסמך בפני עצמו כדי לבדוק האם הוא דורש עיבוד מסמך או שכבר יש לו זיהוי תווים.
אין לי את הזמן לעבור כך על כל מסמך מתוך עשרות אלפי המסמכים.
יש לי צורך בתוכנה שתבדוק את כל המסמכים במחשב ותצביע לי על המסמכים שעדיין לא עברו עיבוד.
שאלתי את GPT והוא ענה לי שבינתיים לא קיימת כזו תוכנה, ובמקום תוכנה הוא הציע לי להשתמש עם סקריפט.
אבל אין לי מושגים בשימוש עם סקריפטים.
מישהו יכול לעזור?
להלן הסקריפט:
import fitz # PyMuPDF
def check_ocr(file_path):
doc = fitz.open(file_path)
for page_num in range(doc.page_count):
page = doc[page_num]
if page.get_text("text"):
return True # OCR detected
return False # No OCR detected
# Replace 'your_folder_path' with the folder containing your documents
folder_path = 'your_folder_path'
for filename in os.listdir(folder_path):
if filename.endswith('.pdf'):
file_path = os.path.join(folder_path, filename)
if check_ocr(file_path):
print(f"OCR detected in {filename}")
else:
print(f"No OCR detected in {filename}")