attardi/wikiextractor

Extraction of french wikipedia has lacks and syntaxic faults

Matthieu-Tinycoaching opened this issue · 1 comments

Hi community,

Thanks a lot this is a great and fast tool!

however, Wwen trying to extract french wikipedia:
wikiextractor --output "./json" --bytes "100G" --json --no-templates --processes 48 "frwiki-latest-pages-articles-20211201.xml.bz2"

If I take a particular element:

{'id': '3',
 'revid': '2386066',
 'url': 'https://fr.wikipedia.org/wiki?curid=3',
 'title': 'Antoine Meillet',
 'text': 'Paul Jules Antoine Meillet, né le à Moulins (Allier) et mort le à Châteaumeillant (Cher), est le principal linguiste français des premières décennies du . Il est aussi philologue.\nD\'origine bourbonnaise, fils d\'un notaire de Châteaumeillant (Cher), Antoine Meillet fait ses études secondaires au lycée de Moulins.\nÉtudiant à la faculté des lettres de Paris à partir de 1885 où il suit notamment les cours de Louis Havet, il assiste également à ceux de Michel Bréal au Collège de France et de Ferdinand de Saussure à l\'École pratique des hautes études.\nEn 1889, il est major de l\'agrégation de grammaire.\nIl assure à la suite de Saussure le cours de grammaire comparée, qu\'il complète à partir de 1894 par une conférence sur les langues persanes.\nEn 1897, il soutient sa thèse pour le doctorat ès lettres "(Recherches sur l\'emploi du génitif-accusatif en vieux-slave)". En 1905, il occupe la chaire de grammaire comparée au Collège de France, où il consacre ses cours à l\'histoire et à la structure des langues indo-européennes. Il succéda au linguiste Auguste Carrière à la tête de la chaire d\'arménien à l\'École des langues orientales.\nSecrétaire de la Société de linguistique de Paris, il est élu à l\'Académie des inscriptions et belles-lettres en 1924. Il préside également l\'Institut d\'Études Slaves de 1921 à sa mort.\nIl a formé toute une génération de linguistes français, parmi lesquels Émile Benveniste, Marcel Cohen, Georges Dumézil, André Martinet, Aurélien Sauvageot, Lucien Tesnière, Joseph Vendryes, ainsi que le japonisant Charles Haguenauer. Antoine Meillet devait diriger la thèse de Jean Paulhan sur la sémantique du proverbe et c\'est lui qui découvrit Gustave Guillaume.\nIl a influencé aussi un certain nombre de linguistes étrangers. Il a également été le premier à identifier le phénomène de la grammaticalisation.\nSelon le linguiste allemand Walter Porzig, Meillet est un « grand précurseur ». Il montre, par exemple, que, dans les dialectes indo-européens, les groupes indo-européens sont le résultat historique d\'une variation diatopique.\nL’acte de naissance de la sociolinguistique est signé par Antoine Meillet fondateur de la sociolinguistique qui s’est opposé au Cours de linguistique générale de Ferdinand de Saussure dès son apparition en 1916 en le critiquant sur plusieurs plans.\nÀ la Sorbonne, Meillet supervise le travail de Milman Parry. Meillet offre à son étudiant l\'opinion, nouvelle à cette époque, que la structure formulaïque de "l\'Iliade" serait une conséquence directe de sa transmission orale. Ainsi, il le dirige vers l\'étude de l\'oralité dans son cadre natif et lui suggère d\'observer les mécanismes d\'une tradition orale vivante à côté du texte classique ("l\'Iliade") qui est censé résulter d\'une telle tradition. En conséquence, Meillet présente Parry à Matija Murko, savant originaire de Slovénie qui avait longuement écrit sur la tradition héroïque épique dans les Balkans, surtout en Bosnie-Herzégovine. Par leurs recherches, dont les résultats sont à présent hébergés par l\'université de Harvard, Parry et son élève, Albert Lord, ont profondément renouvelé les études homériques.'}

If you look at the corresponding url https://fr.wikipedia.org/wiki?curid=3 you can see that there are multiple problems:

  1. Before each apostrophe ' there is a \ which shouldn't exist
  2. The first sentence lacks dates of birth and death, and also xxe siècle
  3. The text lacks of "Etudes arméniennes" and "Principaux ouvrages" sections

Thanks in advance for helping solving these issues!

I'm interested to see that one fixed as well, especially the templates. Is it broken for all languages? Looks like this also-unanswered issue #275 is facing the same problem.

Thanks!