Files
Vladimir Buzalka a7f33afb66 notebookvb
2026-06-10 08:53:01 +02:00

24 lines
1.0 KiB
Markdown

# EmailAgent — TODO
## Plánované
- [ ] **OCR nad skeny** — faktury bez textové vrstvy (skenovaná PDF) dnes
`pdf_faktur_check()` vrací `bez_textu` a soubor se uloží jen s varováním
`[PDF BEZ TEXTU]`, bez ověření obsahu. Doplnit OCR (např. Tesseract /
`ocrmypdf`, nebo render stránky přes `fitz` → OCR), aby se i u skenů ověřilo
slovo `faktur*` a případně vytěžil text pro klasifikaci.
## Hotovo
- [x] Cílová složka přepnuta na ostrou `#040 Faktury přijaté`.
- [x] Po zpracování: kategorie `ClaudeProcessed` + přesun do
`Inbox/ProcessedByAgent/Invoices` (vyžaduje Mail.ReadWrite).
## Možná rozšíření (až se výsledky odladí)
- [ ] Plánované spouštění přes Windows Task Scheduler.
- [ ] Přísnější režim: ukládat jen když text PDF potvrdí `faktur` (tvrdá brána)
— možné až po doplnění OCR, jinak hrozí ztráta skenovaných faktur.
- [ ] Zvážit dedup i proti podsložce `NamedInvoicesbyOpenAI` v cílové složce
(dnes se hashuje jen top-level `*.pdf`).