Files
fotkyBuzalkovi/POSTUP.md
T
administrator 0f73a6b537 notebookVb
2026-06-04 22:56:27 +02:00

101 lines
3.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# FotkyBuzalkovi — pracovní deník
> Živý dokument. Zapisujeme sem co jsme zjistili, co jsme rozhodli a co je na řadě.
> Technická reference → `CONTEXT.md`, návrh architektury → `NAVRH.md`.
---
## Session 2026-06-04
### Stav DB na začátku
| Tabulka | Řádky |
|---------|-------|
| `zaloha_obrazku` | 1 717 182 |
| `zdrojove_soubory` | 3 573 846 |
| `photos` | 1 717 175 |
| `photo_errors` | 3 185 319 |
Všechny fotky mají `processing_status = 'pending'` — pipeline doběhla, další zpracování nezačalo.
### Co jsme zjistili
**Problém 1 — V záloze je spousta odpadu, ne jen rodinné fotky.**
Pipeline sebrala vše co má příponu `.jpg/.jpeg` — včetně:
- PhotoPrism cache thumbnailů (`appdata/photoprism/cache/`) — 229 521 ks, <10 kB
- Plex / Immich cache
- MP3 a LP obaly
- DVD obaly, eBook obálky
- ABC vystřihovánky (skenované na 1200 DPI → soubory 60100 MB)
- Reprodukce obrazů z torrentů (Raffael, Rembrandt... v muzejní kvalitě)
- Stažené obrázky z webu (Dropbox/!!!Days/Stefajir/...)
- Windows AppData (Kindle covers, .NET watermark...)
**Problém 2 — Rok pořízení je hodně porušený.**
- Rok 2024 má 985 754 fotek (>57 % všech) — zřejmě chybný fallback na mtime místo EXIF
- Rok 1863, 20314501 — garbage v EXIF
- Rok 2026 má 93 492 — suspektní
**Sloupec `wanted`:**
Přidán `photos.wanted BOOLEAN NOT NULL DEFAULT FALSE` — všech 1 717 175 fotek má FALSE.
Účel: budeme označovat fotky které chceme zachovat / zpracovat.
### Nástroje
- `00 PictureCollector/preview_sample.py` — zobrazí náhled fotek podle ID
Použití: `python preview_sample.py 101 202 303 ...`
Claude vybere ID přes MCP dotazy, předá příkaz ke spuštění.
- `00 PictureCollector/migrate_add_wanted.py` — přidal sloupec `wanted` (idempotentní)
### Rozhodnutí
#### Pravidla vyloučení cest — část 1 (2026-06-04)
Tyto cesty **nechceme**`wanted` zůstane FALSE, nezpracovávat:
| Vzor cesty (obsahuje) | Důvod | Počet |
|---|---|---|
| `Torrents/Downloads/OOPS!!! International` | porno screenshoty | ~7 105 |
| `Torrents/Downloads/Tampons Pads Period` | porno | ~9 600 |
| `#ColdData/Porno/` | porno screenlists | — |
| `Porno1/` | porno | ~2 730 |
| `#ColdData/000 TORENT OBRAZKY/National Geographic Wallpapers` | stažené wallpapery | ~7 188 |
| `#ColdData/000 TORENT OBRAZKY/[OnlyFans]` | OnlyFans | ~1 377 |
| `#ColdData/000 TORENT OBRAZKY/Great Painters` | reprodukce obrazů | — |
| `UltraCC/` a obsahuje `/jpg` | Hot Wheels katalog a jiné torrent obrázky | ~3 484 |
| `Magentic/Runtime/UserPhotos/css` | webové ikonky | ~1 034 |
| `.Icecream Ebook Reader/` | obrázky z epub knih | — |
| `photoprism/sidecar/` | XMP sidecar soubory | — |
> Otevřené: appdata/photoprism/cache, Immich thumbs, MP3/LP obaly, eBooks — vyřeší se v další části pravidel.
### Schéma — nové sloupce v `photos`
| Sloupec | Typ | Popis |
|---|---|---|
| `wanted` | `BOOLEAN NOT NULL DEFAULT FALSE` | chceme tuto fotku zachovat/zpracovat |
| `category` | `VARCHAR(100)` | kategorie: Fotopast, Rodina, Skeny, … |
### Označené kategorie
| Kamera / kritérium | wanted | category | Počet |
|---|---|---|---|
| BolyMedia SG520 | TRUE | Fotopast | 42 688 |
### Na řadě
- [ ] Prozkoumat co přesně je v záloze — jaký podíl jsou skutečné rodinné fotky
- [ ] Rozhodnout jak filtrovat odpad (path blacklist? size? absence kamery?)
- [ ] Vyřešit problém s roky — proč 57 % fotek padá do 2024
- [ ] Označit první várku fotek jako `wanted = TRUE`
---
## Backlog otevřených otázek
1. Co s "sirotky" bez EXIF — `mtime` / odmítnout / označit?
2. Při shodě `sha256_pixels` — přeskočit / sloučit metadata / uložit oba?
3. Storage layout — nechat in-place / `archiv/YYYY/MM/` / content-addressable?
4. Jak poznat "rodinná fotka" od odpadu bez ruční kontroly?