1.3 KiB
1.3 KiB
Czech Dataset Cross-linking Report (Quick Version)
Date: 2025-11-19 13:45:03
Status: ✅ COMPLETE (exact matches only)
Summary
- Exact matches: 11 institutions
- ADR only: 8,134 institutions
- ARON only: 549 institutions
- Total unified: 8,694 institutions
Exact Matches
- Archiv města Plzně
- Archiv města Ústí nad Labem
- Moravský zemský archiv v Brně
- Městská knihovna Znojmo
- Národní muzeum
- Národní muzeum - Knihovna Národního muzea
- Poštovní muzeum
- Státní oblastní archiv v Plzni
- Státní okresní archiv Prachatice
- Vlastivědné muzeum a galerie v České Lípě
- Vědecká knihovna v Olomouci
Provenance Fixes ✅
All 8,694 institutions now have corrected metadata:
- data_source: Changed from
CONVERSATION_NLPtoAPI_SCRAPING - source_url: Added proper API endpoints
- extraction_method: Clarified for ADR vs ARON vs merged
Files Created
data/instances/czech_unified.yaml- Unified dataset (8,694 institutions)CZECH_CROSSLINK_REPORT.md- This report
Next Steps
- Cross-link datasets (exact matches)
- Fix provenance metadata
- Geocode addresses (Priority 1 - next)
- Fuzzy matching (optional - can add later)
- Wikidata enrichment (Priority 2)