למי שלא עוקב אחרי התחום של המרת שמע לטקסט
לפני כשנה וחצי חברת OpenAI שחררה לעולם תוכנה להמרת שמע לטקסט (STT) בקוד פתוח כשכל אחד יכול לקחת את התוכנה ולאמן על קבצים משלו ולהתאים לשפות שונות.
כנראה לא היה להם במודל המקורי מספיק חומר בעברית והאיכות בעברית לא יצאה טובה כ"כ
לפני כמה חודשים קמו קבוצה של מפתחים ישראלים והקימו אתר בשם ivrit.ai בו אספו קבצי שמע מפודקאסטים שהבעלים שלהם הסכימו לתרום את הקבצים לפרוייקט וגייסו מאות מתנדבים שתמללו קטעים קצרים ואחרי 9 חודשים הגיעו ל100 שעות של תמלול ואימנו את המודל וטעונים שהשתפר בכ20%
יש עוד עבודה לשפר את המודל בעברית אבל כשמנסים לתמלל שיעור תורני ובפרט במבטא אשכנזי התוצאה גרועה.
אבל יש תקווה ולכאורה עם כמה מאות שעות של תמלול אפשר לבנות מודל שיתמלל שיעורים תורניים ברמה טובה.
כאן נכנסו לתמונה כמה מפתחים חרדיים ומנסים לבדוק האם יש דרך להשיג קבצים מתומללים בדיוק גבוה
בפרוייקט של ivrit.ai לקחו הרבה קטעים קצרים ותמללו עם המודל הקיים והמתנדבים עברו ותיקנו כל קטע בנפרד
לדעתי זה לא יכול לעבוד במודל תורני
א. כי חסר את ההקשר של המשפט וזה מקשה על התמלול
ב. זה מייגע לתמלל משפטים לא קשורים ואין לנו מתנדבים בכמות שהם מצליחים לגייס
הרעיון שלי הוא לעשות ממשק שמציג את התמלול של המודל הנוכחי שבו אפשר לשמוע את הקובץ עם הדגשה של המילה המושמעת תוך כדי וככה מתמלל אנושי יוכל לקחת את המתלול הראשוני מהמכונה ולתקן בקלות (אפשר לעשות גם קיצורי דרך להחלפת מילים שהמודל משבש באופן קבוע וכו')
הנה תמונה ממשק בסיסי שמצאתי שממחיש את הרעיון, המילים בצהוב זה המילים שמושמעות באותו רגע, להפעלת/השהיית השמע לוחצים על רווח (אפשר להגדיר גם מקש אחר)
אפשר לעשות ממשק יותר משוכלל שמציג חלוקה לדוברים (יש מודלים שעושים חלוקה לדוברים)
ועם קיצור דרך להחלפת הרבה מילים וסימון מילים שלא מופיעות במילון ועוד.
אבל כל זה דורש פיתוח ואם המודל יהיה בקוד פתוח אין בעצם מי שיממן את הפיתוח
ואם נמצא מתנדבים שיפתחו את הממשק בזמן הפנוי זה לא יראה כ"כ טוב (אם כי זה לא מופרך למצוא מתנדבים)
ראיתי שיש כמה מחברי הפורום שמתעסקים עם תמלול והייתי שמח לשמוע הערות האם בכלל תוכנה כזאת יכולה להועיל למישהו
או שטוב לכם עם השיטות עבודה שיש היום התוכנה כזאת די מיותרת
@מכון באר שלמה ?
לפני כשנה וחצי חברת OpenAI שחררה לעולם תוכנה להמרת שמע לטקסט (STT) בקוד פתוח כשכל אחד יכול לקחת את התוכנה ולאמן על קבצים משלו ולהתאים לשפות שונות.
כנראה לא היה להם במודל המקורי מספיק חומר בעברית והאיכות בעברית לא יצאה טובה כ"כ
לפני כמה חודשים קמו קבוצה של מפתחים ישראלים והקימו אתר בשם ivrit.ai בו אספו קבצי שמע מפודקאסטים שהבעלים שלהם הסכימו לתרום את הקבצים לפרוייקט וגייסו מאות מתנדבים שתמללו קטעים קצרים ואחרי 9 חודשים הגיעו ל100 שעות של תמלול ואימנו את המודל וטעונים שהשתפר בכ20%
יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה | גיקטיים
פיתוחי AI שונים צצים כמו פטריות אחרי הגשם, אבל רובם מבוססים על אנגלית, ולא בכדי. יש לא מעט מידע פתוח וזמין באנגלית לכל דורש, ויש כמובן שוק הרבה יותר גדול
www.geektime.co.il
יש עוד עבודה לשפר את המודל בעברית אבל כשמנסים לתמלל שיעור תורני ובפרט במבטא אשכנזי התוצאה גרועה.
אבל יש תקווה ולכאורה עם כמה מאות שעות של תמלול אפשר לבנות מודל שיתמלל שיעורים תורניים ברמה טובה.
כאן נכנסו לתמונה כמה מפתחים חרדיים ומנסים לבדוק האם יש דרך להשיג קבצים מתומללים בדיוק גבוה
בפרוייקט של ivrit.ai לקחו הרבה קטעים קצרים ותמללו עם המודל הקיים והמתנדבים עברו ותיקנו כל קטע בנפרד
לדעתי זה לא יכול לעבוד במודל תורני
א. כי חסר את ההקשר של המשפט וזה מקשה על התמלול
ב. זה מייגע לתמלל משפטים לא קשורים ואין לנו מתנדבים בכמות שהם מצליחים לגייס
הרעיון שלי הוא לעשות ממשק שמציג את התמלול של המודל הנוכחי שבו אפשר לשמוע את הקובץ עם הדגשה של המילה המושמעת תוך כדי וככה מתמלל אנושי יוכל לקחת את המתלול הראשוני מהמכונה ולתקן בקלות (אפשר לעשות גם קיצורי דרך להחלפת מילים שהמודל משבש באופן קבוע וכו')
הנה תמונה ממשק בסיסי שמצאתי שממחיש את הרעיון, המילים בצהוב זה המילים שמושמעות באותו רגע, להפעלת/השהיית השמע לוחצים על רווח (אפשר להגדיר גם מקש אחר)
אפשר לעשות ממשק יותר משוכלל שמציג חלוקה לדוברים (יש מודלים שעושים חלוקה לדוברים)
ועם קיצור דרך להחלפת הרבה מילים וסימון מילים שלא מופיעות במילון ועוד.
אבל כל זה דורש פיתוח ואם המודל יהיה בקוד פתוח אין בעצם מי שיממן את הפיתוח
ואם נמצא מתנדבים שיפתחו את הממשק בזמן הפנוי זה לא יראה כ"כ טוב (אם כי זה לא מופרך למצוא מתנדבים)
ראיתי שיש כמה מחברי הפורום שמתעסקים עם תמלול והייתי שמח לשמוע הערות האם בכלל תוכנה כזאת יכולה להועיל למישהו
או שטוב לכם עם השיטות עבודה שיש היום התוכנה כזאת די מיותרת
@מכון באר שלמה ?