notebookvb
This commit is contained in:
@@ -0,0 +1,42 @@
|
||||
# splcr.cz Web Scraper
|
||||
|
||||
## Cíl
|
||||
Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení:
|
||||
- PDF
|
||||
- Word (DOCX, DOC)
|
||||
- Excel (XLSX, XLS)
|
||||
- PowerPoint (PPTX, PPT)
|
||||
|
||||
## Setup
|
||||
|
||||
### Přihlašovací údaje
|
||||
- Uloženy v `.env` (vždy mimo git)
|
||||
- Username: 6219
|
||||
- Password: AlenaVojtěchovská
|
||||
|
||||
### Potřebné knihovny
|
||||
```bash
|
||||
pip install requests beautifulsoup4 python-dotenv
|
||||
```
|
||||
|
||||
### Struktura
|
||||
- `main.py` — hlavní skript pro scraping
|
||||
- `.env` — přihlašovací údaje (GITIGNORE)
|
||||
- `output/` — výstupní soubory (CSV, JSON)
|
||||
|
||||
## Strategie
|
||||
|
||||
1. **Logování**: Přihlášení pomocí session (pokud vyžadováno)
|
||||
2. **Crawling**: Procházet stránky od homepage (BFS/DFS)
|
||||
3. **Extrakce**: Hledat všechny `<a href="...">` s příslušnými příponami
|
||||
4. **Deduplikace**: Unikátní linky
|
||||
5. **Export**: CSV/JSON se všemi dokumenty
|
||||
|
||||
## Output
|
||||
- `documents.csv` — seznam všech dokumentů (url, title, size?, type)
|
||||
- `documents.json` — stejné v JSON formátu
|
||||
- `log.txt` — průběh crawlingu
|
||||
|
||||
## Poznámky
|
||||
- WordPress = často všechny linky na webu
|
||||
- Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)
|
||||
Reference in New Issue
Block a user