GeoMan模型数据预处理

geoman模型基于编解码网络及分层注意力机制设计而成，可以对多源时间序列进行预测。在编码端，引入局部及全局注意力，并将传感器之间的距离作为全局注意力的一部分；在解码端，引入时间注意力，用于挖掘时间上的依赖关系。该模型相关代码可以在github上找到，但是缺少数据处理的部分，本文介绍其数据处理部分，数据集下载地址为http://urban-computing.com/index-40.htm。相关代码如下：

# load data of beijing
    data_path = './data'
    air_quality_data = pd.read_csv('{}/airquality.csv'.format(data_path), nrows=278023)

    # remove data from 1022 that with lot of null data
    air_quality_data = air_quality_data[air_quality_data['station_id'] != 1022]
    columns = ['PM25_Concentration', 'PM10_Concentration',
               'NO2_Concentration', 'CO_Concentration',
               'O3_Concentration', 'SO2_Concentration']
    # pivot the data
    pivot_air_data = air_quality_data.pivot(index='time', columns='station_id', values=columns)
    # linear interpolate to fill the loss value
    pivot_air_data1 = pivot_air_data.interpolate(method='linear').dropna()

    air_quality_data = pivot_air_data1.stack(level=1).reset_index().sort_values(by=['station_id', 'time'])
    # feature normalization
    temp_data = air_quality_data.values
    temp_data1 = temp_data[:, 2:].astype('float32')
    scaler = MinMaxScaler(feature_range=(0, 1))
    scaled = scaler.fit_transform(temp_data1)
    temp_data[:, 2:] = scaled
    air_quality_data = pd.DataFrame(temp_data, columns=['time', 'station_id'] + columns)

    # select the 1001 point as the local input
    local_input = air_quality_data[air_quality_data.station_id == 1001].drop(['station_id', 'time'], axis=1).values
    # transform time series to supervised
    time_length = local_input.shape[0]
    local_data = []
    label = []
    for i in range(hps.n_steps_encoder, time_length - hps.n_steps_decoder):
        local_data.append(scaled[i - hps.n_steps_encoder:i, :])
        label.append(scaled[i:i + hps.n_steps_decoder, 0])  # take pm2.5 as the target series
    local_data = np.array(local_data)
    label = np.array(label)
    length = local_data.shape[0]
    global_attn_index = np.arange(0, length, 1)
    global_inp_index = np.arange(0, length, 1)
    split_ratio = int(length / 10)

    # split the data into train/valid/test with the ratio of 8:1:1
    training_data = [local_data[:8 * split_ratio],
                     global_attn_index[:8 * split_ratio],
                     global_inp_index[:8 * split_ratio],
                     label.reshape(label.shape[0], label.shape[1], 1)[:8 * split_ratio],
                     label[:8 * split_ratio]]
    valid_data = [local_data[8 * split_ratio:9 * split_ratio],
                  global_attn_index[8 * split_ratio:9 * split_ratio],
                  global_inp_index[8 * split_ratio:9 * split_ratio],
                  label.reshape(label.shape[0], label.shape[1], 1)[8 * split_ratio:9 * split_ratio],
                  label[8 * split_ratio:9 * split_ratio]]
    test_data = [local_data[9 * split_ratio:],
                 global_attn_index[9 * split_ratio:],
                 global_inp_index[9 * split_ratio:],
                 label.reshape(label.shape[0], label.shape[1], 1)[9 * split_ratio:],
                 label[9 * split_ratio:]]
    # construct global_input data
    pivot_df = air_quality_data.pivot(index='time', columns='station_id', values=columns)
    global_inputs = pivot_df['PM25_Concentration'].values.astype('float32')
    points = np.arange(1001, 1037, 1).tolist()
    points.remove(1022)
    global_attn_states = []
    for station_id in points:
        id_df = air_quality_data[air_quality_data.station_id == station_id].drop(['station_id', 'time'], axis=1)
        factor_agg = []
        for factor in columns:
            id_fac_df = id_df[factor]
            lags, cols = list(), list()
            for i in range(hps.n_steps_encoder - 1, -1, -1):
                lags.append(id_fac_df.shift(i))
                cols.append('{}(t-{})'.format(factor, i))
            agg = pd.concat(lags, axis=1).dropna()
            agg.columns = cols
            factor_agg.append(agg)
        global_attn_states.append(pd.concat(factor_agg, axis=1).values)
    global_attn_states = np.concatenate(global_attn_states, axis=1)
    time_len = global_attn_states.shape[0]
    global_attn_states = global_attn_states.reshape(time_len, len(points), 6, hps.n_steps_encoder)

    # measure sensor geospatial similarity
    sensors = pd.read_csv('{}/station.csv'.format(data_path), nrows=36).drop(index=21)
    # lat and lng of sensors
    lat = sensors['latitude'].values
    lng = sensors['longitude'].values
    end_lats, start_lngs = np.meshgrid(lat, lng)
    start_lats = end_lats.T
    end_lngs = start_lngs.T
    distance = get_distance_hav(start_lngs, start_lats, end_lngs, end_lats)
    sensor_sim = 1 / (distance + 1)
    # normalization
    min_sim = np.min(sensor_sim)
    max_sim = np.max(sensor_sim)
    sensor_sim_nor = (sensor_sim - min_sim) / (max_sim - min_sim)
    sensor_sim_nor = sensor_sim_nor[0, :]

模型结果如下：

rmse=23.8

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

GeoMan模型数据预处理

推荐阅读更多精彩内容