24 lines
1.0 KiB
Markdown
24 lines
1.0 KiB
Markdown
# EmailAgent — TODO
|
|
|
|
## Plánované
|
|
|
|
- [ ] **OCR nad skeny** — faktury bez textové vrstvy (skenovaná PDF) dnes
|
|
`pdf_faktur_check()` vrací `bez_textu` a soubor se uloží jen s varováním
|
|
`[PDF BEZ TEXTU]`, bez ověření obsahu. Doplnit OCR (např. Tesseract /
|
|
`ocrmypdf`, nebo render stránky přes `fitz` → OCR), aby se i u skenů ověřilo
|
|
slovo `faktur*` a případně vytěžil text pro klasifikaci.
|
|
|
|
## Hotovo
|
|
|
|
- [x] Cílová složka přepnuta na ostrou `#040 Faktury přijaté`.
|
|
- [x] Po zpracování: kategorie `ClaudeProcessed` + přesun do
|
|
`Inbox/ProcessedByAgent/Invoices` (vyžaduje Mail.ReadWrite).
|
|
|
|
## Možná rozšíření (až se výsledky odladí)
|
|
|
|
- [ ] Plánované spouštění přes Windows Task Scheduler.
|
|
- [ ] Přísnější režim: ukládat jen když text PDF potvrdí `faktur` (tvrdá brána)
|
|
— možné až po doplnění OCR, jinak hrozí ztráta skenovaných faktur.
|
|
- [ ] Zvážit dedup i proti podsložce `NamedInvoicesbyOpenAI` v cílové složce
|
|
(dnes se hashuje jen top-level `*.pdf`).
|