Name: data-quality
Author: afrojuju1

name	data-quality
description	Audit and fix data quality issues across all counties. Validates against UnifiedPropertyRecord model. Use when asked to: audit data quality, fix correctness/completeness issues, or run validation.

References

Reference	Purpose
`county_parser/models/unified_property_model.py`	Source of truth for field specs
references/field-issues.md	Known issues lookup table
references/fix-patterns.md	Code fix patterns

Workflow

python -m county_parser.cli.validate --county all --size 500

Rank by correctness/completeness, identify top 5 worst performers.

Note: PDF counties show 5-10% completeness (normal - only ~15 of 130 fields available). Check field-level coverage instead.

Lookup issue type in field-issues.md.

Apply fix from fix-patterns.md. Common issues:

Issue	Fix Location
`zip_float`, `state_case`	`csv_parser_base.py` or county parser
`pdf_label_pollution`	County parser `_parse_property()` - add skip_prefixes
`pdf_entity_pollution`	County parser - filter `^\d{2,3}\s*-` pattern
`missing_value_mapping`	County parser `map_to_unified()`

inv core.rqp <county> -r --tax-year 2024
docker logs parcelum-worker-1 --tail 30

ruff check <file>
python -m county_parser.cli.validate --county <name> --size 500

Type	Identify By	Fix Location
explicit	`<county>.py` exists	`county_parser/parsers/<county>_county_parser.py`
pdf	In `PDF_ONLY_COUNTIES`	`county_parser/parsers/pdf_parser_base.py`
csv	Has `.csv` source files	`county_parser/parsers/csv_parser_base.py`

ls county_parser/parsers/*<county>*.py
grep "<county>" county_parser/parsers/pdf_parser_registry.py