1.2 KiB
1.2 KiB
enrich_fulltext_v1.1
Verze: 1.1
Datum: 2026-06-03
Skript: enrich_fulltext_v1.1.py
Změny proti v1.0
- NUL bajty (0x00) v textu — PG TEXT je odmítá. v1.1 odstraní všechny
\x00a ostatní controly (kromě\n \r \t) ve společné funkci_clean_for_pg, navíc bezpečnostní strip i v_flushpřed UPSERT. - DOCX fallback — pokud python-docx hodí výjimku (typicky
"no tr above topmost tr in w:tbl"u VTMF formulářů s rozbitými tabulkami), v1.1 sáhne přímo doword/document.xmlv ZIPu a regexem vytáhne text z<w:t>elementů. Přijde o strukturu tabulek, ale text zachrání. extractor_versionzvýšena na1.1→ všechny řádky z v1.0 se přeparsují (původní jsou pravděpodobně stejně chyběly kvůli pádu).
Vše ostatní
Beze změny proti v1.0:
- Tabulka
documentsv PGMongoSoubory(192.168.1.76:5432) - Text search config
soubory(simple + unaccent) - Limity: PDF 500 MB, XLSX 200 MB, ostatní 300 MB; text max 5 MB
- Inkrementálně podle
sha256+extractor_version
Spuštění
python U:\PythonProject\Janssen\Soubory\enrich_fulltext_v1.1.py