notebookvb

This commit is contained in:
Vladimir Buzalka
2026-05-08 22:38:36 +02:00
parent c4c0d1d435
commit c083e8e79a
14 changed files with 140 additions and 98 deletions
+50 -31
View File
@@ -1,22 +1,13 @@
# SudokuKiller — technické poznámky
## Přehled skriptů
### Stahování PDF (původní pipeline)
## Hlavní skripty
| Skript | Popis |
|--------|-------|
| `stahni_killer_sudoku.py` | Stáhne puzzle + solution PDF z dailykillersudoku.com |
| `stahni_greater_than.py` | Stáhne Greater-Than variantu, přejmenuje existující |
| `import_do_mysql.py` | Importuje PDF soubory do MySQL tabulky `sudoku_killer` (binární bloby) |
| `30_BatchCrop.py` | Ořeže PDF (odstraní hlavičky/patičky), uloží zpět do DB |
| `stahni_killer_structured.py` | Stáhne strukturovaná data (cage definice + řešení) z dailykillersudoku.com do MySQL tabulky `puzzles`. Průběžně ukládá zálohu do `killer_structured_data.json` |
| `vykresli_killer_sudoku.py` | Vygeneruje PDF z dat v MySQL — Killer Sudoku zadání + řešení, vektorové, vzhledem identické s originálem z webu |
### Strukturovaná data (nový pipeline)
| Skript | Popis |
|--------|-------|
| `stahni_killer_structured.py` | Stáhne strukturovaná data (cage definice + řešení) z webu do sdílené tabulky `puzzles` |
| `preskumaj_killer_data*.py` | Průzkumné skripty pro reverzní inženýrství datového formátu |
Ostatní (stará pipeline s PDF bloby, průzkumné skripty, testovací PDF) je v podadresáři `Testy/`.
## Zdroj dat
@@ -56,33 +47,61 @@ DKS.puzzle = new DKS.Puzzle({
Škála 110 (z webu), uložena v `difficulty`.
## MySQL — původní tabulka `sudoku_killer`
Obsahuje binární PDF v `file_puzzle` / `file_solution` / `file_puzzle_cropped`.
- 19 106 KillerSudoku (puzzle 131414, 20092026)
- 11 405 GreaterThan (puzzle 173031416, 20102026)
## MySQL — sdílená tabulka `puzzles`
Strukturovaná data (cage definice + řešení):
Strukturovaná data:
- `game_type` = `'killer_sudoku'` / `'killer_sudoku_gt'`
- `difficulty` = `'1'``'10'`
- `puzzle` = klece ve formátu `sum,r0c1r0c2|sum,r3c4r3c5|...`
- `solution` = flat string 81 číslic
- `puzzle` = klece ve formátu `sum,r0c1r0c2|sum,r3c4r3c5|...` (`VARCHAR(1000)`)
- `solution` = flat string 81 číslic (`VARCHAR(1000)`)
- `extra` = `{"grid_size": 9, "puzzle_number": 376, "original_difficulty": 4}`
- `source` = `'dailykillersudoku.com'`
## Layout a tisk
**Pozor:** `puzzle` a `solution` byly původně `VARCHAR(200)` — nedostačovalo, cage stringy mají až ~500 znaků. Sloupce rozšířeny na `VARCHAR(1000)`.
V podadresáři `Testy/` jsou experimentální skripty pro:
- Ořezávání PDF (ray-cast detekce mřížky)
- Škálování a umístění 2 puzzle na A4
- Layout konfigurace (`layouts.json`)
## Stav stažených dat
- ~28 700 puzzlů (131 416)
- Killer Sudoku: ~17 200, Greater-Than: ~11 500
- Zdrojová data v `killer_structured_data.json` (záloha pro případ MySQL chyby)
## PDF rendering — pořadí vrstev
Klíčové pro vzhled identický s originálem z webu (`vykresli_killer_sudoku.py`):
1. **Bílé pozadí**
2. **Čísla řešení** (jen pro řešovou variantu, šedě)
3. **Tečkované ohraničení klecí** — odsazené dovnitř buněk o `cell * 0.10`, slévání segmentů v rámci stejné klece (jeden `c.line()` přes víc buněk → pattern teček neresetuje)
4. **Tenká plná mřížka** — všechny řádky/sloupce, šedě (překryje přesahy tečkovaných v křížení)
5. **Tlusté čáry 3×3** + obvod, černě
6. **Popisky součtů** — bíle podsvícené, ArialBold
### Vnější vs vnitřní rohy klecí
Při slévání tečkovaných segmentů endpoints buďto **zkrátit** o inset (vnější roh) nebo **prodloužit** o inset (vnitřní roh — kde klec zahýbá L-tvarem).
Detekce: pro horizontální segment top borderu od sloupce `s` do `co` (exclusive):
- Levý konec vnitřní roh = `cage_map[r][s-1] == cid` → prodloužit
- Pravý konec vnitřní roh = `cage_map[r][co] == cid` → prodloužit
Bez tohoto fixu se na vnitřních rozích L-tvarů objevují viditelné mezery.
## Závislosti
- `requests`, `beautifulsoup4` — HTTP + HTML parsing
- `fitz` (PyMuPDF) — PDF manipulace, ray-cast cropping
- `pypdf` — PDF čtení/zápis
- `playwright` — průzkumné skripty (není potřeba pro produkční stahování)
- `requests` — HTTP fetch (bez Playwright, data jsou inline v HTML)
- `reportlab` — PDF generation (vektorová grafika)
- `tqdm` — progress bar
- `mysql_db` (lokální Knihovny) — DB připojení
## Použití
```bash
# Stažení dat (s pokračováním z JSON pokud existuje)
python stahni_killer_structured.py --run
# Pouze import už stažených JSON dat do MySQL
python stahni_killer_structured.py --import
# Vygenerování PDF pro puzzle 31414
python vykresli_killer_sudoku.py
```