notebookvb

This commit is contained in:
Vladimir Buzalka
2026-05-19 20:17:20 +02:00
parent bdb3ce9599
commit 19b9c6a6b4
3 changed files with 249 additions and 0 deletions
+42
View File
@@ -0,0 +1,42 @@
# splcr.cz Web Scraper
## Cíl
Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení:
- PDF
- Word (DOCX, DOC)
- Excel (XLSX, XLS)
- PowerPoint (PPTX, PPT)
## Setup
### Přihlašovací údaje
- Uloženy v `.env` (vždy mimo git)
- Username: 6219
- Password: AlenaVojtěchovská
### Potřebné knihovny
```bash
pip install requests beautifulsoup4 python-dotenv
```
### Struktura
- `main.py` — hlavní skript pro scraping
- `.env` — přihlašovací údaje (GITIGNORE)
- `output/` — výstupní soubory (CSV, JSON)
## Strategie
1. **Logování**: Přihlášení pomocí session (pokud vyžadováno)
2. **Crawling**: Procházet stránky od homepage (BFS/DFS)
3. **Extrakce**: Hledat všechny `<a href="...">` s příslušnými příponami
4. **Deduplikace**: Unikátní linky
5. **Export**: CSV/JSON se všemi dokumenty
## Output
- `documents.csv` — seznam všech dokumentů (url, title, size?, type)
- `documents.json` — stejné v JSON formátu
- `log.txt` — průběh crawlingu
## Poznámky
- WordPress = často všechny linky na webu
- Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)