2018年12月,生态环境部、发改委、工信部、交通运输部等11部门联合印发《柴油货车污染治理攻坚战行动计划》,提出要加快建设完善“天地车人”一体化的机动车排放监控系统和开展排放大数据分析应用工作,其中“天地车人”中的“车”即重型车OBD远程排放监控平台。
目前,各地方政府纷纷加快重型车OBD远程排放监控平台建设的步伐,并积极开展三级架构下的数据互联互通。但地方平台管理部门对接入车辆数据质量的把控缺乏有效抓手,很难支撑后期减排大数据分析应用工作的开展,具体表现为:(1)缺少完善的数据质量评价体系结构,对采集数据的一致性问题、完整性问题、重复性问题等,尚没有完整的评价体系结构;(2)没有形成系统化的数据质量评估指标,且针对数据质量评估指标没有形成具体的量化标准,很难支撑后期数据质量治理工作。
基于此,北理新源建立了一套标准化、专业化的“端到端”数据质量画像体系,系统化、精准化识别车辆远程数据传输存在的问题,可辅助地方生态环境部门进行终端硬件设备和平台软件系统的优化工作,不断提高车辆远程数据接入质量,为后期基于远程监测数据开展深层次的分析应用,为柴油货车污染防治攻坚战管理决策奠定坚实基础。
图1 北理新源重型车OBD远程排放监控数据质量画像体系
北理新源重型车OBD远程排放监控数据质量画像体系将从数据质量分析标准制定、评价指标和评价模型构建、数据质量分析报告制定三部分开展。首先,从数据的完整性、有效性、时效性、一致性四个维度建立数据远程传输质量评价标准;其次,依据评价标准,建立评价指标体系和约束规则,并提炼形成数据远程传输数据质量通用评估模型,量化评估终端采集、传输的数据质量情况;最后,设计数据质量分析报告体系,基于通用评估模型成果,定期化、定制化输出专业化数据质量评估报告,实现研究成果的业务化应用。
(一)数据质量评估标准:为评估工作绘好蓝图
完整性:完整性是描述数据信息缺失程度的重要标准。根据国家及地方通讯协议对终端上传数据项的要求,建立空值率计算公式,判定终端上传数据项是否完整。
有效性:有效性是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据类型、格式、取值范围等。有效性规则从类型有效、格式有效和取值有效三个方面建立。
时效性:时效性评估将结合数据时间戳信息,检验数据的采集周期、转发周期,终端评估数据上传的时效是否符合标准规范要求。
一致性:数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。如百公里尿素使用量、百公里油耗等是否符合正常用车习惯,为识别数据作弊车辆奠定基础。
(二)数据质量评估模型:全面勾勒数据现状
数据质量评估模型以车辆静态数据和终端上报数据为对象,通过建立数据质量画像标签体系和数据质量检测评分体系,对影响数据质量的各环节的核心指标进行计算,并出具综合评分和评价等级结果,作为数据质量是否通过评价的依据。通过指标赋权,以数值形式展示各指标对评价结果的重要性,提高评价结果的科学性、合理性。
(三)数据质量报告:多维度输出评估结果
在评估的基础上,将根据地方环保部门业务管理需求,输出不同维度的分析报告,包括:平台技术鉴定报告、数据质量评分报告、车型技术分析报告、终端技术分析报告等。报告将以图文并茂的形式,形象展示数据分析结果,
图 2 北理新源重型车OBD数据质量技术鉴定模块
通过北理新源重型车OBD数据质量评估体系,将有效解决地方政府重型车远程传输数据质量分析中检查手段单一、及时性与准确性程度不够、管理难度大等问题,有效提升整体数据质量,为后期数据分析和决策支撑奠定坚实基础。同时,该评估体系具有良好的扩展性,可广泛应用于车辆监管部门、车辆运营单位、终端制造企业等各类主体,提升行业大数据分析平台数据质量,促进数据挖掘、人工智能等新技术在车联网领域的研究和应用。