Files
Vladimir Buzalka c6360a8c99 notebookvb
2026-05-20 05:28:41 +02:00

49 lines
1.4 KiB
Markdown

# splcr.cz Web Scraper
## Cíl
Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení:
- PDF
- Word (DOCX, DOC)
- Excel (XLSX, XLS)
- PowerPoint (PPTX, PPT)
## Setup
### Přihlašovací údaje
- Uloženy v `.env` (vždy mimo git)
- Username: 6219
- Password: AlenaVojtěchovská
### Potřebné knihovny
```bash
pip install requests beautifulsoup4 python-dotenv
```
### Struktura
- `main.py` — hlavní skript pro scraping
- `.env` — přihlašovací údaje (GITIGNORE)
- `output/` — výstupní soubory (CSV, JSON)
## Strategie
1. **Logování**: Přihlášení pomocí session (pokud vyžadováno)
2. **Crawling**: Procházet stránky od homepage (BFS/DFS)
3. **Extrakce**: Hledat všechny `<a href="...">` s příslušnými příponami
4. **Deduplikace**: Unikátní linky
5. **Export**: CSV/JSON se všemi dokumenty
## Output
- `documents.csv` — seznam všech dokumentů (url, title, size?, type)
- `documents.json` — stejné v JSON formátu
- `log.txt` — průběh crawlingu
## Poznámky
- WordPress = často všechny linky na webu
- Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc)
## Seed URLs
Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo:
- `/appel-rocnik-2023/` a `/appel-rocnik-2024/` (apelace)
Přidej další podle potřeby do `seed_urls` v `SplcrScraper.__init__`