公司新闻您的位置:首页 > 新闻资讯 > 公司新闻 >
技术分享 | 针对车载终端数据项异常值的检测方法
时间:2020-11-04 09:17来源:北京理工新源 作者:BITNEI

背景介绍

随着远程排放监控车载终端的发展和普及,重型货车的关键信息流数据不断数字化、持久化,为后续的监管和分析工作奠定了较好的基础。但为当前终端监管的发展水平处于初级阶段所限,信息流数据的质量层次不齐,限制了后续的监管分析工作。所以加强信息流数据质量监控势在必行。
 
现行的数据质量要求总体上分为两种:1.缺失率;2.无效率。由于本文探讨的是针对数据异常值检测的方法,所以上述两种方法本文不再赘述。实际在车辆上传的报文数据中,缺失和无效的问题能够较好的进行识别,真正亟待解决的问题是如何判定数据是否异常。异常值通常会造成测量误差或异常系统条件的结果,因此不具有描述底层系统的特征。实际上,最佳做法是在分析之前,就应该进行异常值去除处理。
 
这里的异常主要有两层意思:一、数据在现实中是否符合逻辑,这方面的异常可以依赖业务逻辑进行判断,符合规则的属于正常,反之则是异常;二、数据分布中的噪声点,这种异常独立于业务逻辑,无法通过简单的规则进行判断,本文将着重介绍针对此种异常进行检测的方法——四分位数法。

四分位数法介绍

四分位数法又叫Tukey’s test,是统计学中成熟、使用较为广泛的异常值检测方法。其计算的过程大概为:
 
1)把数据从小到大排列。
2)计算中位数。
3)计算下四分位数,这里设置为Q1,表示总数据最小的25%的数据在这个点以下;计算上四分位数,设置为Q3,表示最大的25%数据都在这个点以上。
4)找出数据的“内围”。第一步是把四分位差乘以参数k,k一般取值1.5。加上Q3 ,用Q1 减去这个和,得到内围。
5)找出数据外围。和内围方法类似,不过这里要将四分位差乘的参数要大于内围的取值一般为3。
6)最终超过内围或者外围的值为异常值。
 
传统的异常值检测方法例如:
式中:
T——一个车辆登入与车辆登出时间段内的总秒数,s;
win——窗口时间,s;
i——一个车辆登入与车辆登出时间段T被窗口时间win划分的段数;
AVG_i——第i段数据的算术平均值;
STD_i——第i段数据的标准差;
P——标准差参数;
X_(i,k)——第i段数据的第k个值;
R——距离参数。
 
这种假设数据符合正态分布的正确性难以得到保证,而四分位数法较于其他异常值检测的方法计算简单,但能够有效筛选数据中的离群点,适合大规模数据的计算;同时灵活的参数设置可以针对不同情况、不同字段进行调节使得四分位数法能够有效的适应多变的车辆报文数据。

四分位数法不会是异常值检测的终极解决方案,但是随着远程排放监控车载终端的迭代更新,与之匹配对应的算法也将持续发展,不断适应新的业务需求,为重型货车的监管夯实基础。

 

 

撰稿:周   鹏

审核:龙超华