Files
ordinaceprojekt/EmailAgent/TODO.md
T
Vladimir Buzalka a7f33afb66 notebookvb
2026-06-10 08:53:01 +02:00

1.0 KiB

EmailAgent — TODO

Plánované

  • OCR nad skeny — faktury bez textové vrstvy (skenovaná PDF) dnes pdf_faktur_check() vrací bez_textu a soubor se uloží jen s varováním [PDF BEZ TEXTU], bez ověření obsahu. Doplnit OCR (např. Tesseract / ocrmypdf, nebo render stránky přes fitz → OCR), aby se i u skenů ověřilo slovo faktur* a případně vytěžil text pro klasifikaci.

Hotovo

  • Cílová složka přepnuta na ostrou #040 Faktury přijaté.
  • Po zpracování: kategorie ClaudeProcessed + přesun do Inbox/ProcessedByAgent/Invoices (vyžaduje Mail.ReadWrite).

Možná rozšíření (až se výsledky odladí)

  • Plánované spouštění přes Windows Task Scheduler.
  • Přísnější režim: ukládat jen když text PDF potvrdí faktur (tvrdá brána) — možné až po doplnění OCR, jinak hrozí ztráta skenovaných faktur.
  • Zvážit dedup i proti podsložce NamedInvoicesbyOpenAI v cílové složce (dnes se hashuje jen top-level *.pdf).