notebookVb
This commit is contained in:
@@ -0,0 +1,100 @@
|
||||
# FotkyBuzalkovi — pracovní deník
|
||||
|
||||
> Živý dokument. Zapisujeme sem co jsme zjistili, co jsme rozhodli a co je na řadě.
|
||||
> Technická reference → `CONTEXT.md`, návrh architektury → `NAVRH.md`.
|
||||
|
||||
---
|
||||
|
||||
## Session 2026-06-04
|
||||
|
||||
### Stav DB na začátku
|
||||
|
||||
| Tabulka | Řádky |
|
||||
|---------|-------|
|
||||
| `zaloha_obrazku` | 1 717 182 |
|
||||
| `zdrojove_soubory` | 3 573 846 |
|
||||
| `photos` | 1 717 175 |
|
||||
| `photo_errors` | 3 185 319 |
|
||||
|
||||
Všechny fotky mají `processing_status = 'pending'` — pipeline doběhla, další zpracování nezačalo.
|
||||
|
||||
### Co jsme zjistili
|
||||
|
||||
**Problém 1 — V záloze je spousta odpadu, ne jen rodinné fotky.**
|
||||
Pipeline sebrala vše co má příponu `.jpg/.jpeg` — včetně:
|
||||
- PhotoPrism cache thumbnailů (`appdata/photoprism/cache/`) — 229 521 ks, <10 kB
|
||||
- Plex / Immich cache
|
||||
- MP3 a LP obaly
|
||||
- DVD obaly, eBook obálky
|
||||
- ABC vystřihovánky (skenované na 1200 DPI → soubory 60–100 MB)
|
||||
- Reprodukce obrazů z torrentů (Raffael, Rembrandt... v muzejní kvalitě)
|
||||
- Stažené obrázky z webu (Dropbox/!!!Days/Stefajir/...)
|
||||
- Windows AppData (Kindle covers, .NET watermark...)
|
||||
|
||||
**Problém 2 — Rok pořízení je hodně porušený.**
|
||||
- Rok 2024 má 985 754 fotek (>57 % všech) — zřejmě chybný fallback na mtime místo EXIF
|
||||
- Rok 1863, 2031–4501 — garbage v EXIF
|
||||
- Rok 2026 má 93 492 — suspektní
|
||||
|
||||
**Sloupec `wanted`:**
|
||||
Přidán `photos.wanted BOOLEAN NOT NULL DEFAULT FALSE` — všech 1 717 175 fotek má FALSE.
|
||||
Účel: budeme označovat fotky které chceme zachovat / zpracovat.
|
||||
|
||||
### Nástroje
|
||||
|
||||
- `00 PictureCollector/preview_sample.py` — zobrazí náhled fotek podle ID
|
||||
Použití: `python preview_sample.py 101 202 303 ...`
|
||||
Claude vybere ID přes MCP dotazy, předá příkaz ke spuštění.
|
||||
|
||||
- `00 PictureCollector/migrate_add_wanted.py` — přidal sloupec `wanted` (idempotentní)
|
||||
|
||||
### Rozhodnutí
|
||||
|
||||
#### Pravidla vyloučení cest — část 1 (2026-06-04)
|
||||
|
||||
Tyto cesty **nechceme** — `wanted` zůstane FALSE, nezpracovávat:
|
||||
|
||||
| Vzor cesty (obsahuje) | Důvod | Počet |
|
||||
|---|---|---|
|
||||
| `Torrents/Downloads/OOPS!!! International` | porno screenshoty | ~7 105 |
|
||||
| `Torrents/Downloads/Tampons Pads Period` | porno | ~9 600 |
|
||||
| `#ColdData/Porno/` | porno screenlists | — |
|
||||
| `Porno1/` | porno | ~2 730 |
|
||||
| `#ColdData/000 TORENT OBRAZKY/National Geographic Wallpapers` | stažené wallpapery | ~7 188 |
|
||||
| `#ColdData/000 TORENT OBRAZKY/[OnlyFans]` | OnlyFans | ~1 377 |
|
||||
| `#ColdData/000 TORENT OBRAZKY/Great Painters` | reprodukce obrazů | — |
|
||||
| `UltraCC/` a obsahuje `/jpg` | Hot Wheels katalog a jiné torrent obrázky | ~3 484 |
|
||||
| `Magentic/Runtime/UserPhotos/css` | webové ikonky | ~1 034 |
|
||||
| `.Icecream Ebook Reader/` | obrázky z epub knih | — |
|
||||
| `photoprism/sidecar/` | XMP sidecar soubory | — |
|
||||
|
||||
> Otevřené: appdata/photoprism/cache, Immich thumbs, MP3/LP obaly, eBooks — vyřeší se v další části pravidel.
|
||||
|
||||
### Schéma — nové sloupce v `photos`
|
||||
|
||||
| Sloupec | Typ | Popis |
|
||||
|---|---|---|
|
||||
| `wanted` | `BOOLEAN NOT NULL DEFAULT FALSE` | chceme tuto fotku zachovat/zpracovat |
|
||||
| `category` | `VARCHAR(100)` | kategorie: Fotopast, Rodina, Skeny, … |
|
||||
|
||||
### Označené kategorie
|
||||
|
||||
| Kamera / kritérium | wanted | category | Počet |
|
||||
|---|---|---|---|
|
||||
| BolyMedia SG520 | TRUE | Fotopast | 42 688 |
|
||||
|
||||
### Na řadě
|
||||
|
||||
- [ ] Prozkoumat co přesně je v záloze — jaký podíl jsou skutečné rodinné fotky
|
||||
- [ ] Rozhodnout jak filtrovat odpad (path blacklist? size? absence kamery?)
|
||||
- [ ] Vyřešit problém s roky — proč 57 % fotek padá do 2024
|
||||
- [ ] Označit první várku fotek jako `wanted = TRUE`
|
||||
|
||||
---
|
||||
|
||||
## Backlog otevřených otázek
|
||||
|
||||
1. Co s "sirotky" bez EXIF — `mtime` / odmítnout / označit?
|
||||
2. Při shodě `sha256_pixels` — přeskočit / sloučit metadata / uložit oba?
|
||||
3. Storage layout — nechat in-place / `archiv/YYYY/MM/` / content-addressable?
|
||||
4. Jak poznat "rodinná fotka" od odpadu bez ruční kontroly?
|
||||
Reference in New Issue
Block a user