3.8 KiB
FotkyBuzalkovi — pracovní deník
Živý dokument. Zapisujeme sem co jsme zjistili, co jsme rozhodli a co je na řadě. Technická reference →
CONTEXT.md, návrh architektury →NAVRH.md.
Session 2026-06-04
Stav DB na začátku
| Tabulka | Řádky |
|---|---|
zaloha_obrazku |
1 717 182 |
zdrojove_soubory |
3 573 846 |
photos |
1 717 175 |
photo_errors |
3 185 319 |
Všechny fotky mají processing_status = 'pending' — pipeline doběhla, další zpracování nezačalo.
Co jsme zjistili
Problém 1 — V záloze je spousta odpadu, ne jen rodinné fotky.
Pipeline sebrala vše co má příponu .jpg/.jpeg — včetně:
- PhotoPrism cache thumbnailů (
appdata/photoprism/cache/) — 229 521 ks, <10 kB - Plex / Immich cache
- MP3 a LP obaly
- DVD obaly, eBook obálky
- ABC vystřihovánky (skenované na 1200 DPI → soubory 60–100 MB)
- Reprodukce obrazů z torrentů (Raffael, Rembrandt... v muzejní kvalitě)
- Stažené obrázky z webu (Dropbox/!!!Days/Stefajir/...)
- Windows AppData (Kindle covers, .NET watermark...)
Problém 2 — Rok pořízení je hodně porušený.
- Rok 2024 má 985 754 fotek (>57 % všech) — zřejmě chybný fallback na mtime místo EXIF
- Rok 1863, 2031–4501 — garbage v EXIF
- Rok 2026 má 93 492 — suspektní
Sloupec wanted:
Přidán photos.wanted BOOLEAN NOT NULL DEFAULT FALSE — všech 1 717 175 fotek má FALSE.
Účel: budeme označovat fotky které chceme zachovat / zpracovat.
Nástroje
-
00 PictureCollector/preview_sample.py— zobrazí náhled fotek podle ID
Použití:python preview_sample.py 101 202 303 ...
Claude vybere ID přes MCP dotazy, předá příkaz ke spuštění. -
00 PictureCollector/migrate_add_wanted.py— přidal sloupecwanted(idempotentní)
Rozhodnutí
Pravidla vyloučení cest — část 1 (2026-06-04)
Tyto cesty nechceme — wanted zůstane FALSE, nezpracovávat:
| Vzor cesty (obsahuje) | Důvod | Počet |
|---|---|---|
Torrents/Downloads/OOPS!!! International |
porno screenshoty | ~7 105 |
Torrents/Downloads/Tampons Pads Period |
porno | ~9 600 |
#ColdData/Porno/ |
porno screenlists | — |
Porno1/ |
porno | ~2 730 |
#ColdData/000 TORENT OBRAZKY/National Geographic Wallpapers |
stažené wallpapery | ~7 188 |
#ColdData/000 TORENT OBRAZKY/[OnlyFans] |
OnlyFans | ~1 377 |
#ColdData/000 TORENT OBRAZKY/Great Painters |
reprodukce obrazů | — |
UltraCC/ a obsahuje /jpg |
Hot Wheels katalog a jiné torrent obrázky | ~3 484 |
Magentic/Runtime/UserPhotos/css |
webové ikonky | ~1 034 |
.Icecream Ebook Reader/ |
obrázky z epub knih | — |
photoprism/sidecar/ |
XMP sidecar soubory | — |
Otevřené: appdata/photoprism/cache, Immich thumbs, MP3/LP obaly, eBooks — vyřeší se v další části pravidel.
Schéma — nové sloupce v photos
| Sloupec | Typ | Popis |
|---|---|---|
wanted |
BOOLEAN NOT NULL DEFAULT FALSE |
chceme tuto fotku zachovat/zpracovat |
category |
VARCHAR(100) |
kategorie: Fotopast, Rodina, Skeny, … |
Označené kategorie
| Kamera / kritérium | wanted | category | Počet |
|---|---|---|---|
| BolyMedia SG520 | TRUE | Fotopast | 42 688 |
Na řadě
- Prozkoumat co přesně je v záloze — jaký podíl jsou skutečné rodinné fotky
- Rozhodnout jak filtrovat odpad (path blacklist? size? absence kamery?)
- Vyřešit problém s roky — proč 57 % fotek padá do 2024
- Označit první várku fotek jako
wanted = TRUE
Backlog otevřených otázek
- Co s "sirotky" bez EXIF —
mtime/ odmítnout / označit? - Při shodě
sha256_pixels— přeskočit / sloučit metadata / uložit oba? - Storage layout — nechat in-place /
archiv/YYYY/MM// content-addressable? - Jak poznat "rodinná fotka" od odpadu bez ruční kontroly?