notebookvb

This commit is contained in:
Vladimir Buzalka
2026-05-20 05:28:41 +02:00
parent 19b9c6a6b4
commit c6360a8c99
3 changed files with 2751 additions and 14 deletions
+7 -1
View File
@@ -39,4 +39,10 @@ pip install requests beautifulsoup4 python-dotenv
## Poznámky
- WordPress = často všechny linky na webu
- Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)
- Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc)
## Seed URLs
Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo:
- `/appel-rocnik-2023/` a `/appel-rocnik-2024/` (apelace)
Přidej další podle potřeby do `seed_urls` v `SplcrScraper.__init__`