notebookVb

This commit is contained in:
administrator
2026-06-04 22:56:27 +02:00
parent f75a0f8906
commit 0f73a6b537
6 changed files with 583 additions and 0 deletions
+100
View File
@@ -0,0 +1,100 @@
# FotkyBuzalkovi — pracovní deník
> Živý dokument. Zapisujeme sem co jsme zjistili, co jsme rozhodli a co je na řadě.
> Technická reference → `CONTEXT.md`, návrh architektury → `NAVRH.md`.
---
## Session 2026-06-04
### Stav DB na začátku
| Tabulka | Řádky |
|---------|-------|
| `zaloha_obrazku` | 1 717 182 |
| `zdrojove_soubory` | 3 573 846 |
| `photos` | 1 717 175 |
| `photo_errors` | 3 185 319 |
Všechny fotky mají `processing_status = 'pending'` — pipeline doběhla, další zpracování nezačalo.
### Co jsme zjistili
**Problém 1 — V záloze je spousta odpadu, ne jen rodinné fotky.**
Pipeline sebrala vše co má příponu `.jpg/.jpeg` — včetně:
- PhotoPrism cache thumbnailů (`appdata/photoprism/cache/`) — 229 521 ks, <10 kB
- Plex / Immich cache
- MP3 a LP obaly
- DVD obaly, eBook obálky
- ABC vystřihovánky (skenované na 1200 DPI → soubory 60100 MB)
- Reprodukce obrazů z torrentů (Raffael, Rembrandt... v muzejní kvalitě)
- Stažené obrázky z webu (Dropbox/!!!Days/Stefajir/...)
- Windows AppData (Kindle covers, .NET watermark...)
**Problém 2 — Rok pořízení je hodně porušený.**
- Rok 2024 má 985 754 fotek (>57 % všech) — zřejmě chybný fallback na mtime místo EXIF
- Rok 1863, 20314501 — garbage v EXIF
- Rok 2026 má 93 492 — suspektní
**Sloupec `wanted`:**
Přidán `photos.wanted BOOLEAN NOT NULL DEFAULT FALSE` — všech 1 717 175 fotek má FALSE.
Účel: budeme označovat fotky které chceme zachovat / zpracovat.
### Nástroje
- `00 PictureCollector/preview_sample.py` — zobrazí náhled fotek podle ID
Použití: `python preview_sample.py 101 202 303 ...`
Claude vybere ID přes MCP dotazy, předá příkaz ke spuštění.
- `00 PictureCollector/migrate_add_wanted.py` — přidal sloupec `wanted` (idempotentní)
### Rozhodnutí
#### Pravidla vyloučení cest — část 1 (2026-06-04)
Tyto cesty **nechceme**`wanted` zůstane FALSE, nezpracovávat:
| Vzor cesty (obsahuje) | Důvod | Počet |
|---|---|---|
| `Torrents/Downloads/OOPS!!! International` | porno screenshoty | ~7 105 |
| `Torrents/Downloads/Tampons Pads Period` | porno | ~9 600 |
| `#ColdData/Porno/` | porno screenlists | — |
| `Porno1/` | porno | ~2 730 |
| `#ColdData/000 TORENT OBRAZKY/National Geographic Wallpapers` | stažené wallpapery | ~7 188 |
| `#ColdData/000 TORENT OBRAZKY/[OnlyFans]` | OnlyFans | ~1 377 |
| `#ColdData/000 TORENT OBRAZKY/Great Painters` | reprodukce obrazů | — |
| `UltraCC/` a obsahuje `/jpg` | Hot Wheels katalog a jiné torrent obrázky | ~3 484 |
| `Magentic/Runtime/UserPhotos/css` | webové ikonky | ~1 034 |
| `.Icecream Ebook Reader/` | obrázky z epub knih | — |
| `photoprism/sidecar/` | XMP sidecar soubory | — |
> Otevřené: appdata/photoprism/cache, Immich thumbs, MP3/LP obaly, eBooks — vyřeší se v další části pravidel.
### Schéma — nové sloupce v `photos`
| Sloupec | Typ | Popis |
|---|---|---|
| `wanted` | `BOOLEAN NOT NULL DEFAULT FALSE` | chceme tuto fotku zachovat/zpracovat |
| `category` | `VARCHAR(100)` | kategorie: Fotopast, Rodina, Skeny, … |
### Označené kategorie
| Kamera / kritérium | wanted | category | Počet |
|---|---|---|---|
| BolyMedia SG520 | TRUE | Fotopast | 42 688 |
### Na řadě
- [ ] Prozkoumat co přesně je v záloze — jaký podíl jsou skutečné rodinné fotky
- [ ] Rozhodnout jak filtrovat odpad (path blacklist? size? absence kamery?)
- [ ] Vyřešit problém s roky — proč 57 % fotek padá do 2024
- [ ] Označit první várku fotek jako `wanted = TRUE`
---
## Backlog otevřených otázek
1. Co s "sirotky" bez EXIF — `mtime` / odmítnout / označit?
2. Při shodě `sha256_pixels` — přeskočit / sloučit metadata / uložit oba?
3. Storage layout — nechat in-place / `archiv/YYYY/MM/` / content-addressable?
4. Jak poznat "rodinná fotka" od odpadu bez ruční kontroly?