# splcr.cz Web Scraper ## Cíl Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení: - PDF - Word (DOCX, DOC) - Excel (XLSX, XLS) - PowerPoint (PPTX, PPT) ## Setup ### Přihlašovací údaje - Uloženy v `.env` (vždy mimo git) - Username: 6219 - Password: AlenaVojtěchovská ### Potřebné knihovny ```bash pip install requests beautifulsoup4 python-dotenv ``` ### Struktura - `main.py` — hlavní skript pro scraping - `.env` — přihlašovací údaje (GITIGNORE) - `output/` — výstupní soubory (CSV, JSON) ## Strategie 1. **Logování**: Přihlášení pomocí session (pokud vyžadováno) 2. **Crawling**: Procházet stránky od homepage (BFS/DFS) 3. **Extrakce**: Hledat všechny `` s příslušnými příponami 4. **Deduplikace**: Unikátní linky 5. **Export**: CSV/JSON se všemi dokumenty ## Output - `documents.csv` — seznam všech dokumentů (url, title, size?, type) - `documents.json` — stejné v JSON formátu - `log.txt` — průběh crawlingu ## Poznámky - WordPress = často všechny linky na webu - Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)