administrator/ordinaceprojekt

Files

T

Vladimir Buzalka c6360a8c99 notebookvb

2026-05-20 05:28:41 +02:00

1.4 KiB

Raw Permalink Blame History

splcr.cz Web Scraper

Cíl

Procrawlovat celý web https://splcr.cz/ (starší WordPress) a najít všechny dokumenty k stažení:

PDF
Word (DOCX, DOC)
Excel (XLSX, XLS)
PowerPoint (PPTX, PPT)

Setup

Přihlašovací údaje

Uloženy v .env (vždy mimo git)
Username: 6219
Password: AlenaVojtěchovská

Potřebné knihovny

pip install requests beautifulsoup4 python-dotenv

Struktura

main.py — hlavní skript pro scraping
.env — přihlašovací údaje (GITIGNORE)
output/ — výstupní soubory (CSV, JSON)

Strategie

Logování: Přihlášení pomocí session (pokud vyžadováno)
Crawling: Procházet stránky od homepage (BFS/DFS)
Extrakce: Hledat všechny <a href="..."> s příslušnými příponami
Deduplikace: Unikátní linky
Export: CSV/JSON se všemi dokumenty

Output

documents.csv — seznam všech dokumentů (url, title, size?, type)
documents.json — stejné v JSON formátu
log.txt — průběh crawlingu

Poznámky

WordPress = často všechny linky na webu
Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc)

Seed URLs

Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo:

/appel-rocnik-2023/ a /appel-rocnik-2024/ (apelace)

Přidej další podle potřeby do seed_urls v SplcrScraper.__init__