K7 / WARNING: no page type for uuid:XXXX
mduda100871 opened this issue · 3 comments
Zdravím,
při kompletním (re)generováni search
indexu z processing
indexu dochází poměrně často k chybě:
která způsobuje přerušení indexace v případě, že nenastavím proces tak, aby přeskakoval nekonsistence.
Což také není úplně optimální volba u těchto masivních akcí nad celým indexem, protože v té záplavě logů mi pak případně uniknou další chyby, které mohou být spíše ojedinělé, nicméně by bylo dobře je odhalit.
Což ztěžuje fakt, že proces nastavený na přeskakování končí jako korektně provedený - tedy zelený, takže nic neindikuje potenciální problém.
Co přesně výše uvedená chyba znamená, a jak ji případně eliminovat? Je to chyba ve vstupních datech/FOXML?
MD
V MODS těch stran chybí typ strany
https://kramerius.lib.cas.cz/search/api/v5.0/item/uuid:82a3b5bc-824d-4536-8566-428008e44856/streams/BIBLIO_MODS
<mods:part>
Mělo by to být jako třeba u
https://kramerius.lib.cas.cz/search/api/v5.0/item/uuid:34ebc079-5251-47df-9dd5-f1ebaebfe758/streams/BIBLIO_MODS
<mods:part type="frontCover">
Ale padat by to na tom nemělo. @pavel-stastny @rzeh4n
Tak jsem to pro jistotu ještě ověřil a je pravda, že ty výše uvedené warningy ten proces opravdu nezastaví, pokud tam jsou výhradně jen ty.
Vzhledem k tomu, že jsem právě prováděl masivní reindexaci podle modelu, tak jsem dal přeskakovat, protože když jsem na celou dávku nedal přeskakovat, tak mi to padalo a nebyl jsem schopen pokračovat dál. Ale je pravda, že tam vždy figuroval i nějaký další problém, ale tím jak to bylo všechno pohromadě, tak jsem správně nerozklíčoval, co to zastavení vlastně způsobí.
Je to takové trochu zavádějící ty výstupy procesů. Když se to spustí na malý počet dat, je to asi rozklíčovatelné, ale u velkých dávek je to dost těžkopádné na vyhodnocení, a vlastně vůbec i hledání dalších chyb v té změti warningů je dost výzva.
Bavil jsem se o tom s @pavel-stastny než jsem sepsal tuto issue, tak počkám, zda-li k tomu nebude mít nějaké poznámky a případně to zavřu.
MD
@mduda100871 @honza-rychtar @rzeh4n Možná bychom u některých chyb v indexeru mohli zavést číselník a pak odkazovat na github aby to bylo hned zřejmé. Něco na tento způsob:
https://github.com/ceskaexpedice/kramerius/wiki/Page-Type-%E2%80%90-indexer-error-1.
Ale to bych bral až jako návrh na rozšíření.