maxtext.input_pipeline.grain_tokenizer module

maxtext.input_pipeline.grain_tokenizer module#

Tokenize Op used by Grain

class maxtext.input_pipeline.grain_tokenizer.TokenizerTransformBase(feature_names, sequence_length, tokenizer)[source]#

Bases: object

Base class for tokenizer transforms with common functionality.

Parameters:

class maxtext.input_pipeline.grain_tokenizer.TokenizeAndTrim(*args, **kwargs)[source]#

Tokenize and trim features to sequence length.

Parameters:

map(element)[source]#

Maps to each element.

class maxtext.input_pipeline.grain_tokenizer.TokenizeAndChunk(*args, **kwargs)[source]#

Bases: TokenizerTransformBase, FlatMapTransform

Tokenize and chunk features into multiple examples of sequence length.

Parameters:

flat_map(element)[source]#

Tokenize and chunk text into multiple examples of sequence length.