1.4 KiB
1.4 KiB
splcr.cz Web Scraper
Cíl
Procrawlovat celý web https://splcr.cz/ (starší WordPress) a najít všechny dokumenty k stažení:
- Word (DOCX, DOC)
- Excel (XLSX, XLS)
- PowerPoint (PPTX, PPT)
Setup
Přihlašovací údaje
- Uloženy v
.env(vždy mimo git) - Username: 6219
- Password: AlenaVojtěchovská
Potřebné knihovny
pip install requests beautifulsoup4 python-dotenv
Struktura
main.py— hlavní skript pro scraping.env— přihlašovací údaje (GITIGNORE)output/— výstupní soubory (CSV, JSON)
Strategie
- Logování: Přihlášení pomocí session (pokud vyžadováno)
- Crawling: Procházet stránky od homepage (BFS/DFS)
- Extrakce: Hledat všechny
<a href="...">s příslušnými příponami - Deduplikace: Unikátní linky
- Export: CSV/JSON se všemi dokumenty
Output
documents.csv— seznam všech dokumentů (url, title, size?, type)documents.json— stejné v JSON formátulog.txt— průběh crawlingu
Poznámky
- WordPress = často všechny linky na webu
- Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc)
Seed URLs
Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo:
/appel-rocnik-2023/a/appel-rocnik-2024/(apelace)
Přidej další podle potřeby do seed_urls v SplcrScraper.__init__