Task1 数据集探索

IMDB数据集下载和探索

根据TensorFlow官方教程实现：

# -*- coding: utf-8 -*-

import tensorflow as tf
from tensorflow import keras

import numpy as np

# 查看tensorflow版本
print(tf.__version__)

# 下载imdb数据集
imdb = keras.datasets.imdb
# 参数num_words=10000保留训练数据中出现频率最高的10,000个单词
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

# 探索数据
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
print(train_data[0])
# 每篇文本长度不同
print(len(train_data[0]), len(train_data[1]))

# 将arry从整数转为单词

word_index = imdb.get_word_index()

reverse_word_index = {value:key for key, value in word_index.items()}
content = []
for text in train_data:
    text_words = []
    content.append(' '.join([reverse_word_index[num] for num in text]))
    

# 将数据转化成张量

train_data = keras.preprocessing.sequence.pad_sequences(train_data, 
                                                       padding='post',
                                                       maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data, 
                                                       padding='post',
                                                       maxlen=256)
print(train_data[0])

# 建立模型
vocab_size = 10000

model = keras.Sequential()
# Embedding层将正整数转换为具有固定大小的向量
model.add(keras.layers.Embedding(vocab_size, 16))
# GlobalAveragePooling1D对序列维数进行平均，输出为一个1*1*D的张量。
model.add(keras.layers.GlobalAveragePooling1D())
# 16个隐藏单元的全连接(密集)层
model.add(keras.layers.Dense(16, activation=tf.nn.relu))
model.add(keras.layers.Dense(1, activation=tf.nn.sigmoid))

model.summary()
# 二分类问题，选择binary_crossentropy作为损失函数
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['acc'])

# 构建数据集 取前10000条数据作为验证集
x_val = train_data[:10000]
partial_x_train = train_data[10000:]

y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]

history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=40,
                    batch_size=512,
                    validation_data=(x_val, y_val),
                    verbose=1)

# 评价模型
result = model.evaluate(test_data, test_labels)
print(result)

THUCNews数据集下载和探索

根据githut进行复现

# -*- coding: utf-8 -*-
"""
Created on Sun May 12 16:07:05 2019

@author: pc
"""

import tensorflow as tf
from tensorflow import keras

import numpy as np
import pandas as pd
from collections import Counter

TRAIN_PATH = 'E:/task1/cnews.train.txt'
VAL_PATH = 'E:/task1/cnews.val.txt'
TEST_PATH = 'E:/task1/cnews.test.txt'
VOCAB_SIZE = 5000
MAX_LEN = 600
BATCH_SIZE = 64

def read_file(file_name):
    '''
        读文件
    '''
    file_path = {'train': TRAIN_PATH, 'val': VAL_PATH, 'test': TEST_PATH}
    contents = []
    labels = []
    with open(file_path[file_name], 'r', encoding='utf-8') as f:
        for line in f:
            try:
                labels.append(line.strip().split('\t')[0])
                contents.append(line.strip().split('\t')[1])
            except:
                pass
    data = pd.DataFrame()
    data['text'] = contents
    data['label'] = labels
    return data


def build_vocab(data):
    '''
        构建词汇表，
        使用字符级的表示
    '''
    all_content = []
    for _, text in data.iterrows():
        all_content.extend(text['text'])
    counter = Counter(all_content)
    count_pairs = counter.most_common(VOCAB_SIZE - 1)
    words = [i[0] for i in count_pairs]
    words = ['<PAD>'] + list(words)
    
    return words
        

def read_vocab(words):
    words_id = dict(zip(words, range(len(words))))
    return words_id


def read_category(data):
    '''
       将分类目录固定，转换为{类别: id}表示 
    '''
    category = list(data['label'].drop_duplicates())
    return dict(zip(category, range(len(category))))
    
def to_words(content, words):
    return ' '.join(words[i] for i in content)

def preocess_file(data, words_id, category_id):
    """
        将文件转换为id表示
    """
    content = data['text']
    labels = data['label']
    content_id = []
    label_id = []
    for text, label in zip(content, labels):
        content_id.append([words_id[i] for i in text if i in words_id])
        label_id.append(category_id[label])
    
    # 使用keras提供的pad_sequences来将文本pad为固定长度
    x_pad = keras.preprocessing.sequence.pad_sequences(content_id, MAX_LEN)
    y_pad = keras.utils.to_categorical(label_id, num_classes=len(category_id))
    return x_pad, y_pad
    

def batch_iter(x, y):
    '''
        为神经网络的训练准备经过shuffle的批次的数据
    '''
    num_batch = int((len(x) - 1) / BATCH_SIZE) + 1
    indices = np.random.permutation(np.arange(len(x)))
    
    x_shuffle = x[indices]
    y_shuffle = y[indices]
    for i in range(num_batch):
        start_id = i * BATCH_SIZE
        end_id = min((i + 1) * BATCH_SIZE, len(x))
        yield x_shuffle[start_id:end_id], y_shuffle[start_id:end_id]   
    

train = read_file('train')
# 查看label类别
print(train['label'].drop_duplicates())
words = build_vocab(train)
words_id = read_vocab(words)
category_id = read_category(train)
x_pad, y_pad = preocess_file(train, words_id, category_id)
batch_iter(x_pad, y_pad)
test = read_file('test')
val = read_file('val')

对于函数batch_iter(x, y)的使用还存在疑惑，还有待学习

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

Task1 数据集探索

IMDB数据集下载和探索

THUCNews数据集下载和探索

推荐阅读更多精彩内容