divisor.flux1.text_embedder

View Source

 1# SPDX-License-Identifier:Apache-2.0
 2# original BFL Flux code from https://github.com/black-forest-labs/flux
 3
 4from torch import Tensor, nn
 5from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5Tokenizer
 6
 7
 8class HFEmbedder(nn.Module):
 9    def __init__(self, version: str, max_length: int, **hf_kwargs):
10        super().__init__()
11        self.is_clip = version.startswith("openai")
12        self.max_length = max_length
13        self.output_key = "pooler_output" if self.is_clip else "last_hidden_state"
14
15        if self.is_clip:
16            self.tokenizer: CLIPTokenizer = CLIPTokenizer.from_pretrained(version, max_length=max_length)
17            self.hf_module: CLIPTextModel = CLIPTextModel.from_pretrained(version, **hf_kwargs)
18        else:
19            self.tokenizer: T5Tokenizer = T5Tokenizer.from_pretrained(version, max_length=max_length)
20            self.hf_module: T5EncoderModel = T5EncoderModel.from_pretrained(version, **hf_kwargs)
21
22        self.hf_module = self.hf_module.eval().requires_grad_(False)
23
24    def forward(self, text) -> Tensor:
25        batch_encoding = self.tokenizer(
26            text,
27            truncation=True,
28            max_length=self.max_length,
29            return_length=False,
30            return_overflowing_tokens=False,
31            padding="max_length",
32            return_tensors="pt",
33        )
34
35        outputs = self.hf_module(
36            input_ids=batch_encoding["input_ids"].to(self.hf_module.device),
37            attention_mask=None,
38            output_hidden_states=False,
39        )
40        return outputs[self.output_key]

class HFEmbedder(torch.nn.modules.module.Module): View Source

 9class HFEmbedder(nn.Module):
10    def __init__(self, version: str, max_length: int, **hf_kwargs):
11        super().__init__()
12        self.is_clip = version.startswith("openai")
13        self.max_length = max_length
14        self.output_key = "pooler_output" if self.is_clip else "last_hidden_state"
15
16        if self.is_clip:
17            self.tokenizer: CLIPTokenizer = CLIPTokenizer.from_pretrained(version, max_length=max_length)
18            self.hf_module: CLIPTextModel = CLIPTextModel.from_pretrained(version, **hf_kwargs)
19        else:
20            self.tokenizer: T5Tokenizer = T5Tokenizer.from_pretrained(version, max_length=max_length)
21            self.hf_module: T5EncoderModel = T5EncoderModel.from_pretrained(version, **hf_kwargs)
22
23        self.hf_module = self.hf_module.eval().requires_grad_(False)
24
25    def forward(self, text) -> Tensor:
26        batch_encoding = self.tokenizer(
27            text,
28            truncation=True,
29            max_length=self.max_length,
30            return_length=False,
31            return_overflowing_tokens=False,
32            padding="max_length",
33            return_tensors="pt",
34        )
35
36        outputs = self.hf_module(
37            input_ids=batch_encoding["input_ids"].to(self.hf_module.device),
38            attention_mask=None,
39            output_hidden_states=False,
40        )
41        return outputs[self.output_key]

Base class for all neural network modules.

Your models should also subclass this class.

Modules can also contain other Modules, allowing them to be nested in a tree structure. You can assign the submodules as regular attributes::

import torch.nn as nn
import torch.nn.functional as F


class Model(nn.Module):
    def __init__(self) -> None:
        super().__init__()
        self.conv1 = nn.Conv2d(1, 20, 5)
        self.conv2 = nn.Conv2d(20, 20, 5)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        return F.relu(self.conv2(x))

Submodules assigned in this way will be registered, and will also have their parameters converted when you call to(), etc.

As per the example above, an __init__() call to the parent class must be made before assignment on the child.

:ivar training: Boolean represents whether this module is in training or evaluation mode. :vartype training: bool

HFEmbedder(version: str, max_length: int, **hf_kwargs) View Source

10    def __init__(self, version: str, max_length: int, **hf_kwargs):
11        super().__init__()
12        self.is_clip = version.startswith("openai")
13        self.max_length = max_length
14        self.output_key = "pooler_output" if self.is_clip else "last_hidden_state"
15
16        if self.is_clip:
17            self.tokenizer: CLIPTokenizer = CLIPTokenizer.from_pretrained(version, max_length=max_length)
18            self.hf_module: CLIPTextModel = CLIPTextModel.from_pretrained(version, **hf_kwargs)
19        else:
20            self.tokenizer: T5Tokenizer = T5Tokenizer.from_pretrained(version, max_length=max_length)
21            self.hf_module: T5EncoderModel = T5EncoderModel.from_pretrained(version, **hf_kwargs)
22
23        self.hf_module = self.hf_module.eval().requires_grad_(False)

Initialize internal Module state, shared by both nn.Module and ScriptModule.

is_clip

max_length

output_key

hf_module

def forward(self, text) -> torch.Tensor: View Source

25    def forward(self, text) -> Tensor:
26        batch_encoding = self.tokenizer(
27            text,
28            truncation=True,
29            max_length=self.max_length,
30            return_length=False,
31            return_overflowing_tokens=False,
32            padding="max_length",
33            return_tensors="pt",
34        )
35
36        outputs = self.hf_module(
37            input_ids=batch_encoding["input_ids"].to(self.hf_module.device),
38            attention_mask=None,
39            output_hidden_states=False,
40        )
41        return outputs[self.output_key]

Define the computation performed at every call.

Should be overridden by all subclasses.

Although the recipe for forward pass needs to be defined within this function, one should call the Module instance afterwards instead of this since the former takes care of running the registered hooks while the latter silently ignores them.