script for adding books from he.wikisource to orayta
GoogleCodeExporter opened this issue · 2 comments
GoogleCodeExporter commented
הנושא: סקריפט להוספה של ספרים מויקיטקסט
לאורייתא
עד עכשיו כתבתי סקריפט שעובד על דף מויקיטסט
מוציא ממנו את הטקסט הרלוונטי ועושה בו כמה
שינויים
(בינתיים כתבתי אותו בשביל ירושלמי ברכות אבל
בהמשך נוכל לשנות אותו לכל תוכן)
הבעיה המרכזית שלי עכשיו היא להוריד את ספר
שלם בבת אחת
ככל הנראה יש לויקיפדיה תוכנה שמונעת
מתוכנות אחרות להוריד דפים בכמות גדולה
כך לדוגמא wget -r
מחזיר קובץ טקסט שמופיעה בו שגיאה במקום את
הדפים שניסת להוריד.
שאלות נוספות:
כרגע הסקריפט משאיר את שם הפרק בכל התחלה של
משנה, האם זה יפריע?
כמו כן השורות בטקסט עצמו שבורות על ידי
'אנטר' כל כמה מילים האם חיוני להוריד אותם?
Original issue reported on code.google.com by iza...@gmail.com
on 5 Feb 2011 at 6:03
GoogleCodeExporter commented
אין לי מושג למה הנושא מיוצג כdefect
ואין לי מושג איך לשנות זאת
בכל מקרה מצאתי דרך להוריד ספר שלם מויקטקסט,
בעזרת פלאג-אין של פיירפוקס
בנוסף לשאלות שלעיל נותרה לי רק שאלה אחת:
אתה רוצה שאהפוך את התגיות שלפני גמרא ומשנה
לתגיות שלך כגון:
<span style="color:blue;">
או שפשוט אמחק אותן?
Original comment by iza...@gmail.com
on 5 Feb 2011 at 11:59
GoogleCodeExporter commented
Original comment by moshe.wa...@gmail.com
on 18 Feb 2011 at 9:46
- Changed state: Done
- Added labels: Priority-Low, Type-Enhancement
- Removed labels: Priority-Medium, Type-Defect