Files

T

administrator 5545f05eee Add CentralLogging stack, Covance/EDC sources, email import + IWRS scripts

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-08 16:06:21 +02:00

enrich_files_v1.0

Verze: 1.0 Datum: 2026-06-03 Skript: enrich_files_v1.0.py

Účel

Doplnit do existujících záznamů v MongoDB soubory.* pole content.* parsovaná z obsahu souborů.

Spouští se až po scan_files_v1.0.py.

ext	knihovna	pole v `content`
pdf	pypdf	pages, encrypted, author, title, subject, creator, producer, created, modified, text_head
docx	python-docx	author, title, subject, last_modified_by, paragraphs, words, created, modified, text_head
xlsx, xlsm	openpyxl	total_sheets, sheets[{name,rows,cols}], author, title, subject, last_modified_by, created, modified
pptx	python-pptx	slides, author, title, subject, last_modified_by, created, modified, text_head (z prvních 3 snímků)
eml	stdlib email	subject, from, to, cc, date, has_attachments, attachments[], body_head
msg	extract_msg	totéž co eml

SDRYpolečná pole vždy: ok (bool), parsed_at, parser_version, sha256_at_parse. Při chybě error (název výjimky + zpráva).

Zpracují se jen dokumenty kde:

Při dalším spuštění přidá jen nové/změněné. Při zvýšení verze parseru přeparsuje vše.

text_head max 2000 znaků.

python U:\PythonProject\Janssen\Soubory\enrich_files_v1.0.py

Po doběhnutí ověřit content.ok rate, případně doladit (chybové vzory) a teprve pak stavět MCP_SOUBORY server.