enrich_fulltext_v1.1

Verze: 1.1 Datum: 2026-06-03 Skript: enrich_fulltext_v1.1.py

Změny proti v1.0

NUL bajty (0x00) v textu — PG TEXT je odmítá. v1.1 odstraní všechny \x00 a ostatní controly (kromě \n \r \t) ve společné funkci _clean_for_pg, navíc bezpečnostní strip i v _flush před UPSERT.
DOCX fallback — pokud python-docx hodí výjimku (typicky "no tr above topmost tr in w:tbl" u VTMF formulářů s rozbitými tabulkami), v1.1 sáhne přímo do word/document.xml v ZIPu a regexem vytáhne text z <w:t> elementů. Přijde o strukturu tabulek, ale text zachrání.
extractor_version zvýšena na 1.1 → všechny řádky z v1.0 se přeparsují (původní jsou pravděpodobně stejně chyběly kvůli pádu).

Beze změny proti v1.0:

python U:\PythonProject\Janssen\Soubory\enrich_fulltext_v1.1.py