Files
Vladimir Buzalka c6360a8c99 notebookvb
2026-05-20 05:28:41 +02:00

1.4 KiB

splcr.cz Web Scraper

Cíl

Procrawlovat celý web https://splcr.cz/ (starší WordPress) a najít všechny dokumenty k stažení:

  • PDF
  • Word (DOCX, DOC)
  • Excel (XLSX, XLS)
  • PowerPoint (PPTX, PPT)

Setup

Přihlašovací údaje

  • Uloženy v .env (vždy mimo git)
  • Username: 6219
  • Password: AlenaVojtěchovská

Potřebné knihovny

pip install requests beautifulsoup4 python-dotenv

Struktura

  • main.py — hlavní skript pro scraping
  • .env — přihlašovací údaje (GITIGNORE)
  • output/ — výstupní soubory (CSV, JSON)

Strategie

  1. Logování: Přihlášení pomocí session (pokud vyžadováno)
  2. Crawling: Procházet stránky od homepage (BFS/DFS)
  3. Extrakce: Hledat všechny <a href="..."> s příslušnými příponami
  4. Deduplikace: Unikátní linky
  5. Export: CSV/JSON se všemi dokumenty

Output

  • documents.csv — seznam všech dokumentů (url, title, size?, type)
  • documents.json — stejné v JSON formátu
  • log.txt — průběh crawlingu

Poznámky

  • WordPress = často všechny linky na webu
  • Zpočítku bez limit na počet stránek (pak omezit, pokud je jich moc)

Seed URLs

Některé stránky nejsou linkovány z homepage (orphaned). Jsou zabudovány přímo:

  • /appel-rocnik-2023/ a /appel-rocnik-2024/ (apelace)

Přidej další podle potřeby do seed_urls v SplcrScraper.__init__