Add Outlook/Soubory/Clario/Feasibility scripts and reports; ignore Incoming, Outlook downloads & profile
This commit is contained in:
@@ -0,0 +1,22 @@
|
||||
# enrich_fulltext_v1.1
|
||||
|
||||
**Verze:** 1.1
|
||||
**Datum:** 2026-06-03
|
||||
**Skript:** `enrich_fulltext_v1.1.py`
|
||||
|
||||
## Změny proti v1.0
|
||||
- **NUL bajty (0x00) v textu** — PG TEXT je odmítá. v1.1 odstraní všechny `\x00` a ostatní controly (kromě `\n \r \t`) ve společné funkci `_clean_for_pg`, navíc bezpečnostní strip i v `_flush` před UPSERT.
|
||||
- **DOCX fallback** — pokud python-docx hodí výjimku (typicky `"no tr above topmost tr in w:tbl"` u VTMF formulářů s rozbitými tabulkami), v1.1 sáhne přímo do `word/document.xml` v ZIPu a regexem vytáhne text z `<w:t>` elementů. Přijde o strukturu tabulek, ale text zachrání.
|
||||
- `extractor_version` zvýšena na `1.1` → všechny řádky z v1.0 se přeparsují (původní jsou pravděpodobně stejně chyběly kvůli pádu).
|
||||
|
||||
## Vše ostatní
|
||||
Beze změny proti [v1.0](Trash/enrich_fulltext_v1.0.md):
|
||||
- Tabulka `documents` v PG `MongoSoubory` (192.168.1.76:5432)
|
||||
- Text search config `soubory` (simple + unaccent)
|
||||
- Limity: PDF 500 MB, XLSX 200 MB, ostatní 300 MB; text max 5 MB
|
||||
- Inkrementálně podle `sha256` + `extractor_version`
|
||||
|
||||
## Spuštění
|
||||
```
|
||||
python U:\PythonProject\Janssen\Soubory\enrich_fulltext_v1.1.py
|
||||
```
|
||||
Reference in New Issue
Block a user