# splcr.cz Web Scraper ## Cíl Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení: - PDF - Word (DOCX, DOC) - Excel (XLSX, XLS) - PowerPoint (PPTX, PPT) ## Setup ### Přihlašovací údaje - Uloženy v `.env` (vždy mimo git) - Username: 6219 - Password: AlenaVojtěchovská ### Potřebné knihovny ```bash pip install requests beautifulsoup4 python-dotenv ``` ### Struktura - `main.py` — hlavní skript pro scraping - `.env` — přihlašovací údaje (GITIGNORE) - `output/` — výstupní soubory (CSV, JSON) ## Strategie 1. **Logování**: Přihlášení pomocí session (pokud vyžadováno) 2. **Crawling**: Procházet stránky od homepage (BFS/DFS) 3. **Extrakce**: Hledat všechny `` s příslušnými příponami 4. **Deduplikace**: Unikátní linky 5. **Export**: CSV/JSON se všemi dokumenty ## Output - `documents.csv` — seznam všech dokumentů (url, title, size?, type) - `documents.json` — stejné v JSON formátu - `log.txt` — průběh crawlingu ## Poznámky - WordPress = často všechny linky na webu - Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc) ## Seed URLs Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo: - `/appel-rocnik-2023/` a `/appel-rocnik-2024/` (apelace) Přidej další podle potřeby do `seed_urls` v `SplcrScraper.__init__`