Files
fotkyBuzalkovi/POSTUP.md
T
administrator 0f73a6b537 notebookVb
2026-06-04 22:56:27 +02:00

3.8 KiB
Raw Blame History

FotkyBuzalkovi — pracovní deník

Živý dokument. Zapisujeme sem co jsme zjistili, co jsme rozhodli a co je na řadě. Technická reference → CONTEXT.md, návrh architektury → NAVRH.md.


Session 2026-06-04

Stav DB na začátku

Tabulka Řádky
zaloha_obrazku 1 717 182
zdrojove_soubory 3 573 846
photos 1 717 175
photo_errors 3 185 319

Všechny fotky mají processing_status = 'pending' — pipeline doběhla, další zpracování nezačalo.

Co jsme zjistili

Problém 1 — V záloze je spousta odpadu, ne jen rodinné fotky.
Pipeline sebrala vše co má příponu .jpg/.jpeg — včetně:

  • PhotoPrism cache thumbnailů (appdata/photoprism/cache/) — 229 521 ks, <10 kB
  • Plex / Immich cache
  • MP3 a LP obaly
  • DVD obaly, eBook obálky
  • ABC vystřihovánky (skenované na 1200 DPI → soubory 60100 MB)
  • Reprodukce obrazů z torrentů (Raffael, Rembrandt... v muzejní kvalitě)
  • Stažené obrázky z webu (Dropbox/!!!Days/Stefajir/...)
  • Windows AppData (Kindle covers, .NET watermark...)

Problém 2 — Rok pořízení je hodně porušený.

  • Rok 2024 má 985 754 fotek (>57 % všech) — zřejmě chybný fallback na mtime místo EXIF
  • Rok 1863, 20314501 — garbage v EXIF
  • Rok 2026 má 93 492 — suspektní

Sloupec wanted:
Přidán photos.wanted BOOLEAN NOT NULL DEFAULT FALSE — všech 1 717 175 fotek má FALSE.
Účel: budeme označovat fotky které chceme zachovat / zpracovat.

Nástroje

  • 00 PictureCollector/preview_sample.py — zobrazí náhled fotek podle ID
    Použití: python preview_sample.py 101 202 303 ...
    Claude vybere ID přes MCP dotazy, předá příkaz ke spuštění.

  • 00 PictureCollector/migrate_add_wanted.py — přidal sloupec wanted (idempotentní)

Rozhodnutí

Pravidla vyloučení cest — část 1 (2026-06-04)

Tyto cesty nechcemewanted zůstane FALSE, nezpracovávat:

Vzor cesty (obsahuje) Důvod Počet
Torrents/Downloads/OOPS!!! International porno screenshoty ~7 105
Torrents/Downloads/Tampons Pads Period porno ~9 600
#ColdData/Porno/ porno screenlists
Porno1/ porno ~2 730
#ColdData/000 TORENT OBRAZKY/National Geographic Wallpapers stažené wallpapery ~7 188
#ColdData/000 TORENT OBRAZKY/[OnlyFans] OnlyFans ~1 377
#ColdData/000 TORENT OBRAZKY/Great Painters reprodukce obrazů
UltraCC/ a obsahuje /jpg Hot Wheels katalog a jiné torrent obrázky ~3 484
Magentic/Runtime/UserPhotos/css webové ikonky ~1 034
.Icecream Ebook Reader/ obrázky z epub knih
photoprism/sidecar/ XMP sidecar soubory

Otevřené: appdata/photoprism/cache, Immich thumbs, MP3/LP obaly, eBooks — vyřeší se v další části pravidel.

Schéma — nové sloupce v photos

Sloupec Typ Popis
wanted BOOLEAN NOT NULL DEFAULT FALSE chceme tuto fotku zachovat/zpracovat
category VARCHAR(100) kategorie: Fotopast, Rodina, Skeny, …

Označené kategorie

Kamera / kritérium wanted category Počet
BolyMedia SG520 TRUE Fotopast 42 688

Na řadě

  • Prozkoumat co přesně je v záloze — jaký podíl jsou skutečné rodinné fotky
  • Rozhodnout jak filtrovat odpad (path blacklist? size? absence kamery?)
  • Vyřešit problém s roky — proč 57 % fotek padá do 2024
  • Označit první várku fotek jako wanted = TRUE

Backlog otevřených otázek

  1. Co s "sirotky" bez EXIF — mtime / odmítnout / označit?
  2. Při shodě sha256_pixels — přeskočit / sloučit metadata / uložit oba?
  3. Storage layout — nechat in-place / archiv/YYYY/MM/ / content-addressable?
  4. Jak poznat "rodinná fotka" od odpadu bez ruční kontroly?