administrator/ordinaceprojekt

Files

T

Vladimir Buzalka 19b9c6a6b4 notebookvb

2026-05-19 20:17:20 +02:00

1.1 KiB

Raw Blame History

splcr.cz Web Scraper

Cíl

Procrawlovat celý web https://splcr.cz/ (starší WordPress) a najít všechny dokumenty k stažení:

PDF
Word (DOCX, DOC)
Excel (XLSX, XLS)
PowerPoint (PPTX, PPT)

Setup

Přihlašovací údaje

Uloženy v .env (vždy mimo git)
Username: 6219
Password: AlenaVojtěchovská

Potřebné knihovny

pip install requests beautifulsoup4 python-dotenv

Struktura

main.py — hlavní skript pro scraping
.env — přihlašovací údaje (GITIGNORE)
output/ — výstupní soubory (CSV, JSON)

Strategie

Logování: Přihlášení pomocí session (pokud vyžadováno)
Crawling: Procházet stránky od homepage (BFS/DFS)
Extrakce: Hledat všechny <a href="..."> s příslušnými příponami
Deduplikace: Unikátní linky
Export: CSV/JSON se všemi dokumenty

Output

documents.csv — seznam všech dokumentů (url, title, size?, type)
documents.json — stejné v JSON formátu
log.txt — průběh crawlingu

Poznámky

WordPress = často všechny linky na webu
Zpočátku bez limit na počet stránek (pak omezit, pokud je jich moc)