1.1 KiB
1.1 KiB
splcr.cz Web Scraper
Cíl
Procrawlovat celý web https://splcr.cz/ (starší WordPress) a najít všechny dokumenty k stažení:
- Word (DOCX, DOC)
- Excel (XLSX, XLS)
- PowerPoint (PPTX, PPT)
Setup
Přihlašovací údaje
- Uloženy v
.env(vždy mimo git) - Username: 6219
- Password: AlenaVojtěchovská
Potřebné knihovny
pip install requests beautifulsoup4 python-dotenv
Struktura
main.py— hlavní skript pro scraping.env— přihlašovací údaje (GITIGNORE)output/— výstupní soubory (CSV, JSON)
Strategie
- Logování: Přihlášení pomocí session (pokud vyžadováno)
- Crawling: Procházet stránky od homepage (BFS/DFS)
- Extrakce: Hledat všechny
<a href="...">s příslušnými příponami - Deduplikace: Unikátní linky
- Export: CSV/JSON se všemi dokumenty
Output
documents.csv— seznam všech dokumentů (url, title, size?, type)documents.json— stejné v JSON formátulog.txt— průběh crawlingu
Poznámky
- WordPress = často všechny linky na webu
- Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)