notebookvb

2026-05-19 20:17:20 +02:00
parent bdb3ce9599
commit 19b9c6a6b4
3 changed files with 249 additions and 0 deletions
@@ -0,0 +1,42 @@
+# splcr.cz Web Scraper
+
+## Cíl
+Procrawlovat celý web `https://splcr.cz/` (starší WordPress) a najít všechny dokumenty k stažení:
+- PDF
+- Word (DOCX, DOC)
+- Excel (XLSX, XLS)
+- PowerPoint (PPTX, PPT)
+
+## Setup
+
+### Přihlašovací údaje
+- Uloženy v `.env` (vždy mimo git)
+- Username: 6219
+- Password: AlenaVojtěchovská
+
+### Potřebné knihovny
+```bash
+pip install requests beautifulsoup4 python-dotenv
+```
+
+### Struktura
+- `main.py` — hlavní skript pro scraping
+- `.env` — přihlašovací údaje (GITIGNORE)
+- `output/` — výstupní soubory (CSV, JSON)
+
+## Strategie
+
+1. **Logování**: Přihlášení pomocí session (pokud vyžadováno)
+2. **Crawling**: Procházet stránky od homepage (BFS/DFS)
+3. **Extrakce**: Hledat všechny `<a href="...">` s příslušnými příponami
+4. **Deduplikace**: Unikátní linky
+5. **Export**: CSV/JSON se všemi dokumenty
+
+## Output
+- `documents.csv` — seznam všech dokumentů (url, title, size?, type)
+- `documents.json` — stejné v JSON formátu
+- `log.txt` — průběh crawlingu
+
+## Poznámky
+- WordPress = často všechny linky na webu
+- Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)