43 lines
1.1 KiB
Markdown
43 lines
1.1 KiB
Markdown
# splcr.cz Web Scraper
|
|
|
|
## Cíl
|
|
Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení:
|
|
- PDF
|
|
- Word (DOCX, DOC)
|
|
- Excel (XLSX, XLS)
|
|
- PowerPoint (PPTX, PPT)
|
|
|
|
## Setup
|
|
|
|
### Přihlašovací údaje
|
|
- Uloženy v `.env` (vždy mimo git)
|
|
- Username: 6219
|
|
- Password: AlenaVojtěchovská
|
|
|
|
### Potřebné knihovny
|
|
```bash
|
|
pip install requests beautifulsoup4 python-dotenv
|
|
```
|
|
|
|
### Struktura
|
|
- `main.py` — hlavní skript pro scraping
|
|
- `.env` — přihlašovací údaje (GITIGNORE)
|
|
- `output/` — výstupní soubory (CSV, JSON)
|
|
|
|
## Strategie
|
|
|
|
1. **Logování**: Přihlášení pomocí session (pokud vyžadováno)
|
|
2. **Crawling**: Procházet stránky od homepage (BFS/DFS)
|
|
3. **Extrakce**: Hledat všechny `<a href="...">` s příslušnými příponami
|
|
4. **Deduplikace**: Unikátní linky
|
|
5. **Export**: CSV/JSON se všemi dokumenty
|
|
|
|
## Output
|
|
- `documents.csv` — seznam všech dokumentů (url, title, size?, type)
|
|
- `documents.json` — stejné v JSON formátu
|
|
- `log.txt` — průběh crawlingu
|
|
|
|
## Poznámky
|
|
- WordPress = často všechny linky na webu
|
|
- Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)
|