# FotkyBuzalkovi — pracovní deník > Živý dokument. Zapisujeme sem co jsme zjistili, co jsme rozhodli a co je na řadě. > Technická reference → `CONTEXT.md`, návrh architektury → `NAVRH.md`. --- ## Session 2026-06-04 ### Stav DB na začátku | Tabulka | Řádky | |---------|-------| | `zaloha_obrazku` | 1 717 182 | | `zdrojove_soubory` | 3 573 846 | | `photos` | 1 717 175 | | `photo_errors` | 3 185 319 | Všechny fotky mají `processing_status = 'pending'` — pipeline doběhla, další zpracování nezačalo. ### Co jsme zjistili **Problém 1 — V záloze je spousta odpadu, ne jen rodinné fotky.** Pipeline sebrala vše co má příponu `.jpg/.jpeg` — včetně: - PhotoPrism cache thumbnailů (`appdata/photoprism/cache/`) — 229 521 ks, <10 kB - Plex / Immich cache - MP3 a LP obaly - DVD obaly, eBook obálky - ABC vystřihovánky (skenované na 1200 DPI → soubory 60–100 MB) - Reprodukce obrazů z torrentů (Raffael, Rembrandt... v muzejní kvalitě) - Stažené obrázky z webu (Dropbox/!!!Days/Stefajir/...) - Windows AppData (Kindle covers, .NET watermark...) **Problém 2 — Rok pořízení je hodně porušený.** - Rok 2024 má 985 754 fotek (>57 % všech) — zřejmě chybný fallback na mtime místo EXIF - Rok 1863, 2031–4501 — garbage v EXIF - Rok 2026 má 93 492 — suspektní **Sloupec `wanted`:** Přidán `photos.wanted BOOLEAN NOT NULL DEFAULT FALSE` — všech 1 717 175 fotek má FALSE. Účel: budeme označovat fotky které chceme zachovat / zpracovat. ### Nástroje - `00 PictureCollector/preview_sample.py` — zobrazí náhled fotek podle ID Použití: `python preview_sample.py 101 202 303 ...` Claude vybere ID přes MCP dotazy, předá příkaz ke spuštění. - `00 PictureCollector/migrate_add_wanted.py` — přidal sloupec `wanted` (idempotentní) ### Rozhodnutí #### Pravidla vyloučení cest — část 1 (2026-06-04) Tyto cesty **nechceme** — `wanted` zůstane FALSE, nezpracovávat: | Vzor cesty (obsahuje) | Důvod | Počet | |---|---|---| | `Torrents/Downloads/OOPS!!! International` | porno screenshoty | ~7 105 | | `Torrents/Downloads/Tampons Pads Period` | porno | ~9 600 | | `#ColdData/Porno/` | porno screenlists | — | | `Porno1/` | porno | ~2 730 | | `#ColdData/000 TORENT OBRAZKY/National Geographic Wallpapers` | stažené wallpapery | ~7 188 | | `#ColdData/000 TORENT OBRAZKY/[OnlyFans]` | OnlyFans | ~1 377 | | `#ColdData/000 TORENT OBRAZKY/Great Painters` | reprodukce obrazů | — | | `UltraCC/` a obsahuje `/jpg` | Hot Wheels katalog a jiné torrent obrázky | ~3 484 | | `Magentic/Runtime/UserPhotos/css` | webové ikonky | ~1 034 | | `.Icecream Ebook Reader/` | obrázky z epub knih | — | | `photoprism/sidecar/` | XMP sidecar soubory | — | > Otevřené: appdata/photoprism/cache, Immich thumbs, MP3/LP obaly, eBooks — vyřeší se v další části pravidel. ### Schéma — nové sloupce v `photos` | Sloupec | Typ | Popis | |---|---|---| | `wanted` | `BOOLEAN NOT NULL DEFAULT FALSE` | chceme tuto fotku zachovat/zpracovat | | `category` | `VARCHAR(100)` | kategorie: Fotopast, Rodina, Skeny, … | ### Označené kategorie | Kamera / kritérium | wanted | category | Počet | |---|---|---|---| | BolyMedia SG520 | TRUE | Fotopast | 42 688 | ### Na řadě - [ ] Prozkoumat co přesně je v záloze — jaký podíl jsou skutečné rodinné fotky - [ ] Rozhodnout jak filtrovat odpad (path blacklist? size? absence kamery?) - [ ] Vyřešit problém s roky — proč 57 % fotek padá do 2024 - [ ] Označit první várku fotek jako `wanted = TRUE` --- ## Backlog otevřených otázek 1. Co s "sirotky" bez EXIF — `mtime` / odmítnout / označit? 2. Při shodě `sha256_pixels` — přeskočit / sloučit metadata / uložit oba? 3. Storage layout — nechat in-place / `archiv/YYYY/MM/` / content-addressable? 4. Jak poznat "rodinná fotka" od odpadu bez ruční kontroly?