Mixin

Transformer blocks

Encoder

bs = 4
sl = 128
d = 64
x = torch.randn(bs, sl, d)
m = TransformerEncoderBlock(d)
out = m(x)
assert (out.size() == (bs, sl, d))
out.shape

torch.Size([4, 128, 64])

x = torch.randn(bs, sl, d)
m = TransformerEncoder(d)
out = m(x)
assert (out.size() == (bs, sl, d))
out.shape

torch.Size([4, 128, 64])

Decoder

x = torch.randn(bs, sl, d)
context = torch.randn(bs, sl, d)
m = TransformerDecoder(d)
out = m(x, context)
assert (out.size() == (bs, sl, d))
out.shape

torch.Size([4, 128, 64])

Language model

* vocab_sz: int
* d_model: int - inner dimension of the model
* n_layers: int (default: 6)
* n_heads: int (default: 8)
* d_ff: int - inner dimension of the pointwise FeedForward net, if None defaults to 4*d_model
* attn_dropout: float - attention dropout
* ff_dropout: float - feed-forward dropout
* emb_dropout: float - embedding dropout
* causal: bool (default: True) - if True does causal masking automatically
* max_seq_len: int (default: 512)
* tie_weights: bool - if True target embedding weights are used for computation output projection
* prenorm: bool - wether to use PreNorm or PostNorm
* attn_bias: bool - wether to allow biases in attention projection layers
* pad_idx: int - padding token id, required for autogeneration of padding mask
* pos_enc: str from {'absolute', 'fixed', 'axial'} - type of positional encoding to use
* axial_shape: tuple - [optional] should be factors of max_seq_len
* axial_emb_dims: tuple - [optional] axial embedding components, should sum to d_model

* x - input ids, shape [bs, sl]
* mask - optional boolean mask, shape [bs, sl]

* logits - target token logits, shape [bs, sl, vocab_sz]

bs = 4
sl = 128
d = 64
vocab_sz = 256
x = torch.randint(vocab_sz, (bs, sl))
model = TransformerLM(vocab_sz, d, n_layers=2, causal=False)
out = model(x)
assert (out.size() == (bs, sl, vocab_sz))
out.shape

torch.Size([4, 128, 256])

Encoder-Decoder model

* enc_vocab_sz: int - source vocab size
* dec_vocab_sz: int - target vocab size
* d_model: int - inner dimension of the model
* n_enc_layers: int (default: 6)
* n_dec_layers: int (default: 6)
* heads: int (default: 8)
* d_ff: int - inner dimension of the pointwise FeedForward net, if None defaults to 4*d_model
* attn_dropout: float - attention dropout
* ff_dropout: float - feed-forward dropout
* emb_dropout: float - embedding dropout
* max_seq_len: int (default: 512)
* prenorm: bool - whether to use PreNorm or PostNorm
* attn_bias: bool - whether to allow biases in attention projection layers
* pad_idx: int - padding token id, if pad_idx is provided, and no mask/context_mask are
        passed to forward method will be used to generate padding masks
* tie_weights: bool - if True target embedding weights are used for computation output projection
* shared_emb: bool - if True encoder and decoder will use shared embedding layer
* pos_enc: str from {'absolute', 'fixed', 'axial'} - type of positional encoding to use
* axial_shape: tuple - [optional] should be factors of max_seq_len
* axial_emb_dims: tuple - [optional] axial embedding components, should sum to d_model

* src - source input ids, shape [bs, src_sl]
* tgt - target input ids, shape [bs, tgt_sl]
* src_mask - optional boolean source mask, shape [bs, src_sl]
* tgt_mask - optional boolean target mask, shape [bs, tgt_sl]

* logits - target token logits, shape [bs, tgt_sl, tgt_vocab_sz]

bs = 4
src_sl = 70
tgt_sl = 80
d = 64
src_vocab_sz = 256
tgt_vocab_sz = 256
src = torch.randint(src_vocab_sz, (bs, src_sl))
tgt = torch.randint(tgt_vocab_sz, (bs, tgt_sl))
model = Transformer(src_vocab_sz, tgt_vocab_sz, d, n_enc_layers=2, n_dec_layers=2)
out = model(src, tgt)
assert (out.size() == (bs, tgt_sl, tgt_vocab_sz))
out.shape

torch.Size([4, 80, 256])

Low Memory Transformer

In memory-effiecient Transformer attention is computed on chunks of queries. Setting n_chunks = sl/c, for input sequence length sl and some constant c ensures memory complexity of O(sl) but the more chunks used - the slower computation is. So on practice it's advised to set n_chunks based on available memory budget.

* vocab_sz: int
* d_model: int - inner dimension of the model
* n_layers: int (default: 6)
* n_heads: int (default: 8)
* d_ff: int - inner dimension of the pointwise FeedForward net, if None defaults to 4*d_model
* attn_chunks: int - number of queries chunks for memory-efficient attention
* attn_dropout: float - attention dropout
* ff_dropout: float - feed-forward dropout
* emb_dropout: float - embedding dropout
* causal: bool (default: True) - if True does causal masking automatically
* max_seq_len: int (default: 512)
* tie_weights: bool - if True target embedding weights are used for computation output projection
* prenorm: bool - wether to use PreNorm or PostNorm
* attn_bias: bool - wether to allow biases in attention projection layers
* pad_idx: int - padding token id, required for autogeneration of padding mask
* pos_enc: str from {'absolute', 'fixed', 'axial'} - type of positional encoding to use
* axial_shape: tuple - [optional] should be factors of max_seq_len
* axial_emb_dims: tuple - [optional] axial embedding components, should sum to d_model

* x - input ids, shape [bs, sl]
* mask - optional boolean mask, shape [bs, sl]

* logits - target token logits, shape [bs, sl, vocab_sz]

bs = 4
sl = 128
d = 64
vocab_sz = 256
x = torch.randint(vocab_sz, (bs, sl))
model = ChunkedTransformerLM(vocab_sz, d, n_layers=2, causal=False)
out = model(x)
assert (out.size() == (bs, sl, vocab_sz))
out.shape

torch.Size([4, 128, 256])

Standard Transformer

Mixin

`class` `LMMixin`[source]

`class` `EncDecMixin`[source]

Transformer blocks

Encoder

`class` `TransformerEncoderBlock`[source]

`class` `TransformerEncoder`[source]

Decoder

`class` `TransformerDecoderBlock`[source]

`class` `TransformerDecoderBlockV2`[source]

`class` `TransformerDecoder`[source]

Language model

`class` `TransformerLM`[source]

`transformer_lm_splits`[source]

Encoder-Decoder model

`class` `Transformer`[source]

`transformer_splits`[source]

Low Memory Transformer

`class` `LowMemEncoderBlock`[source]

`class` `LowMemEncoder`[source]

`class` `ChunkedTransformerLM`[source]

`None`[source]

Standard Transformer

Mixin

class LMMixin[source]

class EncDecMixin[source]

Transformer blocks

Encoder

class TransformerEncoderBlock[source]

class TransformerEncoder[source]

Decoder

class TransformerDecoderBlock[source]

class TransformerDecoderBlockV2[source]

class TransformerDecoder[source]

Language model

class TransformerLM[source]

transformer_lm_splits[source]

Encoder-Decoder model

class Transformer[source]

transformer_splits[source]

Low Memory Transformer

class LowMemEncoderBlock[source]

class LowMemEncoder[source]

class ChunkedTransformerLM[source]

None[source]

`class` `LMMixin`[source]

`class` `EncDecMixin`[source]

`class` `TransformerEncoderBlock`[source]

`class` `TransformerEncoder`[source]

`class` `TransformerDecoderBlock`[source]

`class` `TransformerDecoderBlockV2`[source]

`class` `TransformerDecoder`[source]

`class` `TransformerLM`[source]

`transformer_lm_splits`[source]

`class` `Transformer`[source]

`transformer_splits`[source]

`class` `LowMemEncoderBlock`[source]

`class` `LowMemEncoder`[source]

`class` `ChunkedTransformerLM`[source]

`None`[source]