Basic definition✍
Fine Tune
在已经给好的预训练模型(Pre-trained model)
上,对参数的值进行微调(Fine Tune)
,可以省去从头开始训练模型消耗的资源和时间,提高计算效率和准确率
RNN
循环神经网络
用另一种表示方法表示如下:
\(O_t = g(V·S_t + b_2)\\ S_t = f(U·X_t + W·S_{t-1} + b_1)\) 也就是说,当前时刻的输出,不仅取决于当前时刻的输入,还取决于上一个时刻的输出
$$
\frac{\part C}{\part w}=\frac{\part z}{\part w}\frac{\part C}{\part z}
=>
\frac{\part C}{\part z}=\frac{\part \alpha}{\part z}\frac{\part C}{\part \alpha},\ \alpha=\sigma(z) \
$$
Transformer
Embedding:
Positional Encoding:
对于RNN
来说,所有的item
都共享一套参数
$PE(pos,2i) = sin(pos/10000^{2i/d_{modest}}),\ PE(pos,2i + 1) = cos(pos/10000^{2i/d_{modest}})$
Multi-Head Attention:
$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$
Input -- process --> Output
Process: Encoders + Decoders
python3 train.py config/train_shakespeare_char.py --batch_size=32 --compile=False
python3 train.py config/train_shakespeare_char.py --device=cpu --compile=False --eval_iters=20 --log_interval=1 --block_size=64 --batch_size=12 --n_layer=4 --n_head=4 --n_embd=128 --max_iters=2000 --lr_decay_iters=2000 --dropout=0.0