ordinaceprojekt/Webpagescraping/splcr.cz/NOTES.md

# splcr.cz Web Scraper

## Cíl
Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení:
- PDF
- Word (DOCX, DOC)
- Excel (XLSX, XLS)
- PowerPoint (PPTX, PPT)

## Setup

### Přihlašovací údaje
- Uloženy v `.env` (vždy mimo git)
- Username: 6219
- Password: AlenaVojtěchovská

### Potřebné knihovny
```bash
pip install requests beautifulsoup4 python-dotenv
```

### Struktura
- `main.py` — hlavní skript pro scraping
- `.env` — přihlašovací údaje (GITIGNORE)
- `output/` — výstupní soubory (CSV, JSON)

## Strategie

1. **Logování**: Přihlášení pomocí session (pokud vyžadováno)
2. **Crawling**: Procházet stránky od homepage (BFS/DFS)
3. **Extrakce**: Hledat všechny `<a href="...">` s příslušnými příponami
4. **Deduplikace**: Unikátní linky
5. **Export**: CSV/JSON se všemi dokumenty

## Output
- `documents.csv` — seznam všech dokumentů (url, title, size?, type)
- `documents.json` — stejné v JSON formátu
- `log.txt` — průběh crawlingu

## Poznámky
- WordPress = často všechny linky na webu
- Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc)

## Seed URLs
Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo:
- `/appel-rocnik-2023/` a `/appel-rocnik-2024/` (apelace)

Přidej další podle potřeby do `seed_urls` v `SplcrScraper.__init__`