glam/CZECH_CROSSLINK_REPORT.md
2025-11-19 23:25:22 +01:00

46 lines
1.3 KiB
Markdown

# Czech Dataset Cross-linking Report (Quick Version)
**Date**: 2025-11-19 13:45:03
**Status**: ✅ COMPLETE (exact matches only)
## Summary
- **Exact matches**: 11 institutions
- **ADR only**: 8,134 institutions
- **ARON only**: 549 institutions
- **Total unified**: 8,694 institutions
## Exact Matches
- Archiv města Plzně
- Archiv města Ústí nad Labem
- Moravský zemský archiv v Brně
- Městská knihovna Znojmo
- Národní muzeum
- Národní muzeum - Knihovna Národního muzea
- Poštovní muzeum
- Státní oblastní archiv v Plzni
- Státní okresní archiv Prachatice
- Vlastivědné muzeum a galerie v České Lípě
- Vědecká knihovna v Olomouci
## Provenance Fixes ✅
All 8,694 institutions now have corrected metadata:
- **data_source**: Changed from `CONVERSATION_NLP` to `API_SCRAPING`
- **source_url**: Added proper API endpoints
- **extraction_method**: Clarified for ADR vs ARON vs merged
## Files Created
1. **`data/instances/czech_unified.yaml`** - Unified dataset (8,694 institutions)
2. **`CZECH_CROSSLINK_REPORT.md`** - This report
## Next Steps
- [x] Cross-link datasets (exact matches)
- [x] Fix provenance metadata
- [ ] Geocode addresses (Priority 1 - next)
- [ ] Fuzzy matching (optional - can add later)
- [ ] Wikidata enrichment (Priority 2)