数据质量分析

transbigdata.data_summary(data, col=['Vehicleid', 'Time'], show_sample_duration=False)

输入数据,打印数据概况

输入

dataDataFrame

轨迹点数据

colList

列名,按[个体ID,时间]的顺序

show_sample_durationbool

是否输出个体采样间隔信息

roundnumnumber

小数点取位数

使用方法

import transbigdata as tbd
import pandas as pd
#读取数据
data = pd.read_csv('TaxiData-Sample.csv',header = None)
data.columns = ['Vehicleid','Time','Lng','Lat','OpenStatus','Speed']
data['Time'] = pd.to_datetime(data['Time'])
#轨迹增密前的采样间隔
tbd.data_summary(data,col = ['Vehicleid','Time','Lng','Lat'],show_sample_duration=True)
数据量
-----------------
数据总量 : 544999 
个体总量 : 180 
个体数据量均值 : 3027.77 
个体数据量上四分位 : 4056.25 
个体数据量中位数 : 2600.5 
个体数据量下四分位 : 1595.75 

数据时间段
-----------------
开始时间 : 2021-11-12 00:00:00
结束时间 : 2021-11-12 23:59:59

个体采样间隔
-----------------
均值 : 28.0 
上四分位 : 30.0 
中位数 : 20.0 
下四分位 : 15.0 
transbigdata.sample_duration(data,col = ['Vehicleid','Time']):

统计数据采样间隔

输入

dataDataFrame

数据

colList

列名,按[个体ID,时间]的顺序

输出

sample_durationDataFrame

一列的数据表,列名为duration,内容是数据的采样间隔,单位秒