notebookvb
This commit is contained in:
@@ -0,0 +1,23 @@
|
||||
# EmailAgent — TODO
|
||||
|
||||
## Plánované
|
||||
|
||||
- [ ] **OCR nad skeny** — faktury bez textové vrstvy (skenovaná PDF) dnes
|
||||
`pdf_faktur_check()` vrací `bez_textu` a soubor se uloží jen s varováním
|
||||
`[PDF BEZ TEXTU]`, bez ověření obsahu. Doplnit OCR (např. Tesseract /
|
||||
`ocrmypdf`, nebo render stránky přes `fitz` → OCR), aby se i u skenů ověřilo
|
||||
slovo `faktur*` a případně vytěžil text pro klasifikaci.
|
||||
|
||||
## Hotovo
|
||||
|
||||
- [x] Cílová složka přepnuta na ostrou `#040 Faktury přijaté`.
|
||||
- [x] Po zpracování: kategorie `ClaudeProcessed` + přesun do
|
||||
`Inbox/ProcessedByAgent/Invoices` (vyžaduje Mail.ReadWrite).
|
||||
|
||||
## Možná rozšíření (až se výsledky odladí)
|
||||
|
||||
- [ ] Plánované spouštění přes Windows Task Scheduler.
|
||||
- [ ] Přísnější režim: ukládat jen když text PDF potvrdí `faktur` (tvrdá brána)
|
||||
— možné až po doplnění OCR, jinak hrozí ztráta skenovaných faktur.
|
||||
- [ ] Zvážit dedup i proti podsložce `NamedInvoicesbyOpenAI` v cílové složce
|
||||
(dnes se hashuje jen top-level `*.pdf`).
|
||||
Reference in New Issue
Block a user