Spaces:

qinfeng722
/

llm-studio

Sleeping

App Files Files Community

llm-studio / llm_studio /python_configs /text_causal_language_modeling_config.py

qinfeng722

Upload 322 files

5caedb4 verified 2 months ago

raw

history blame contribute delete

25.6 kB

	import logging
	import multiprocessing
	import os
	from dataclasses import dataclass, field
	from typing import Any, Dict, List, Tuple

	import torch

	import llm_studio.src.datasets.text_causal_language_modeling_ds
	from llm_studio.app_utils.config import default_cfg
	from llm_studio.python_configs.base import DefaultConfig, DefaultConfigProblemBase
	from llm_studio.src import possible_values
	from llm_studio.src.augmentations.nlp_aug import BaseNLPAug
	from llm_studio.src.loggers import ExternalLoggers
	from llm_studio.src.losses import text_causal_language_modeling_losses
	from llm_studio.src.metrics import text_causal_language_modeling_metrics
	from llm_studio.src.models import text_causal_language_modeling_model
	from llm_studio.src.nesting import Dependency
	from llm_studio.src.optimizers import Optimizers
	from llm_studio.src.plots import text_causal_language_modeling_plots
	from llm_studio.src.schedulers import Schedulers
	from llm_studio.src.utils.data_utils import sanity_check
	from llm_studio.src.utils.modeling_utils import generate_experiment_name

	logger = logging.getLogger(__name__)


	@dataclass
	class ConfigNLPCausalLMDataset(DefaultConfig):
	dataset_class: Any = (
	llm_studio.src.datasets.text_causal_language_modeling_ds.CustomDataset
	)

	personalize: bool = False
	chatbot_name: str = "h2oGPT"
	chatbot_author: str = "H2O.ai"

	train_dataframe: str = "/path/to/train.csv"
	validation_strategy: str = "automatic"
	validation_dataframe: str = ""
	validation_size: float = 0.01

	data_sample: float = 1.0
	data_sample_choice: Tuple[str, ...] = ("Train", "Validation")

	system_column: str = "system"
	prompt_column: Tuple[str, ...] = ("instruction", "input")
	prompt_column_separator: str = "\\n\\n"
	answer_column: str = "output"
	parent_id_column: str = "parent_id"
	id_column: str = "id"

	text_system_start: str = "<\|system\|>"
	text_prompt_start: str = "<\|prompt\|>"
	text_answer_separator: str = "<\|answer\|>"

	add_eos_token_to_system: bool = True
	add_eos_token_to_prompt: bool = True
	add_eos_token_to_answer: bool = True
	limit_chained_samples: bool = False
	mask_prompt_labels: bool = True
	only_last_answer: bool = False

	_allowed_file_extensions: Tuple[str, ...] = ("csv", "pq", "parquet")

	def __post_init__(self):
	self.prompt_column = (
	tuple(
	self.prompt_column,
	)
	if isinstance(self.prompt_column, str)
	else tuple(self.prompt_column)
	)
	super().__post_init__()

	self._possible_values["train_dataframe"] = possible_values.Files(
	prefer_with=lambda path: "train" in path
	)
	self._possible_values["validation_strategy"] = possible_values.String(
	values=(
	("custom", "Custom holdout validation"),
	("automatic", "Automatic holdout validation"),
	),
	allow_custom=False,
	)
	self._possible_values["validation_dataframe"] = possible_values.Files(
	add_none=True, prefer_with=lambda path: "val" in path
	)
	self._possible_values["validation_size"] = (0.01, 0.95, 0.01)
	self._possible_values["data_sample"] = (0.01, 1, 0.01)
	self._possible_values["data_sample_choice"] = ["Train", "Validation"]
	self._possible_values["system_column"] = possible_values.Columns(
	prefer_with=lambda column: column in ("system",), add_none=True
	)
	self._possible_values["prompt_column"] = possible_values.Columns(
	prefer_with=lambda column: column
	in ("instruction", "prompt", "question", "input", "user")
	)
	self._possible_values["answer_column"] = possible_values.Columns(
	prefer_with=lambda column: column
	in ("answer", "output", "response", "assistant", "chosen")
	)
	self._possible_values["parent_id_column"] = possible_values.Columns(
	prefer_with=lambda column: column in ("parent", "parent_id"), add_none=True
	)

	self._possible_values["id_column"] = possible_values.Columns(
	prefer_with=lambda column: column in ("id", "ID", "index"), add_none=True
	)

	self._nesting.add(
	["chatbot_name", "chatbot_author"],
	[Dependency(key="personalize", value=True, is_set=True)],
	)

	self._nesting.add(
	["validation_dataframe"],
	[Dependency(key="validation_strategy", value="custom", is_set=True)],
	)

	self._nesting.add(
	["validation_size"],
	[Dependency(key="validation_strategy", value="automatic", is_set=True)],
	)

	self._nesting.add(
	["data_sample_choice"],
	[Dependency(key="data_sample", value=1, is_set=False)],
	)

	self._nesting.add(
	["limit_chained_samples"],
	[Dependency(key="parent_id_column", value="None", is_set=False)],
	)

	self._nesting.add(
	["id_column"],
	[Dependency(key="parent_id_column", value="None", is_set=False)],
	)

	self._nesting.add(
	["text_system_start", "add_eos_token_to_system"],
	[Dependency(key="system_column", value="None", is_set=False)],
	)

	self._nesting.add(
	["only_last_answer"],
	[
	Dependency(key="parent_id_column", value="None", is_set=False),
	Dependency(key="mask_prompt_labels", value=True, is_set=True),
	],
	)

	self._visibility["dataset_class"] = -1


	@dataclass
	class ConfigNLPCausalLMTraining(DefaultConfig):
	loss_class: Any = text_causal_language_modeling_losses.Losses
	loss_function: str = "TokenAveragedCrossEntropy"
	optimizer: str = "AdamW"

	learning_rate: float = 0.0001
	differential_learning_rate_layers: Tuple[str, ...] = ()
	differential_learning_rate: float = 0.00001
	freeze_layers: Tuple[str, ...] = ()

	attention_implementation: str = "auto"
	batch_size: int = 2
	drop_last_batch: bool = True
	epochs: int = 1
	schedule: str = "Cosine"
	min_learning_rate_ratio: float = 0.0
	warmup_epochs: float = 0.0

	weight_decay: float = 0.0
	gradient_clip: float = 0.0
	grad_accumulation: int = 1

	lora: bool = True
	use_dora: bool = False
	lora_r: int = 4
	lora_alpha: int = 16
	lora_dropout: float = 0.05
	use_rslora: bool = False
	lora_target_modules: str = ""
	lora_unfreeze_layers: Tuple[str, ...] = ()

	save_checkpoint: str = "last"
	evaluation_epochs: float = 1.0
	evaluate_before_training: bool = False
	train_validation_data: bool = False

	def __post_init__(self):
	super().__post_init__()
	self._possible_values["loss_function"] = self.loss_class.names()
	self._possible_values["optimizer"] = Optimizers.names()

	self._possible_values["learning_rate"] = possible_values.Number(
	step=1e-9, min=1e-9
	)
	self._possible_values["differential_learning_rate_layers"] = (
	possible_values.String(
	values=("backbone", "embed", "head"),
	allow_custom=True,
	placeholder="Select optional layers...",
	)
	)
	self._possible_values["differential_learning_rate"] = self._possible_values[
	"learning_rate"
	]
	self._possible_values["freeze_layers"] = possible_values.String(
	values=("embed", "layer", "head"),
	allow_custom=True,
	placeholder="Select optional layers to freeze...",
	)
	self._possible_values["attention_implementation"] = possible_values.String(
	values=(
	("auto", "Auto"),
	("eager", "Eager"),
	("flash_attention_2", "Flash Attention 2"),
	("sdpa", "SDPA"),
	),
	allow_custom=False,
	)

	self._possible_values["batch_size"] = (1, 256, 1)
	self._possible_values["epochs"] = (0, 10, 1)
	self._possible_values["schedule"] = Schedulers.names()
	self._possible_values["min_learning_rate_ratio"] = (0.0, 0.1, 0.0001)
	self._possible_values["warmup_epochs"] = (0.0, 5.0, 0.05)

	self._possible_values["weight_decay"] = possible_values.Number(step=1e-5, min=0)
	self._possible_values["gradient_clip"] = (0.0, 10.0, 0.1)
	self._possible_values["grad_accumulation"] = (1, 8, 1)

	self._possible_values["lora_r"] = (1, 256, 1)
	self._possible_values["lora_alpha"] = (1, 256, 1)
	self._possible_values["lora_dropout"] = (0.0, 0.5, 0.01)
	self._possible_values["lora_unfreeze_layers"] = possible_values.String(
	values=("embed", "head"),
	allow_custom=True,
	placeholder="Select optional layers to unfreeze...",
	)

	self._possible_values["save_checkpoint"] = possible_values.String(
	values=(
	("last", "Last"),
	("best", "Best"),
	("each_evaluation_epoch", "Each evaluation epoch"),
	("disable", "Disable"),
	),
	allow_custom=False,
	)

	self._possible_values["evaluation_epochs"] = (0.01, 1, 0.01)

	self._grid_search_values["loss_function"] = self._possible_values[
	"loss_function"
	]
	self._grid_search_values["learning_rate"] = (
	0.000001,
	0.000005,
	0.00001,
	0.00005,
	0.0001,
	0.0003,
	0.0005,
	)
	self._grid_search_values["differential_learning_rate"] = (
	0.000001,
	0.000005,
	0.00001,
	0.00005,
	0.0001,
	0.0003,
	0.0005,
	)
	self._grid_search_values["weight_decay"] = (0.0, 0.01, 0.1, 0.2)
	self._grid_search_values["warmup_epochs"] = (0.0, 0.25)
	self._grid_search_values["gradient_clip"] = (0.0, 0.5, 1, 2, 4, 8)
	self._grid_search_values["grad_accumulation"] = (1, 2, 4, 8, 16, 32)
	self._grid_search_values["batch_size"] = (1, 2, 4, 8, 16, 32, 64)
	self._grid_search_values["epochs"] = (1, 2, 4)
	self._grid_search_values["lora_r"] = (2, 4, 8, 16, 32, 64, 128)
	self._grid_search_values["lora_alpha"] = (4, 8, 16, 32, 64, 128, 256)

	self._grid_search_iscustom["loss_function"] = False
	self._grid_search_iscustom["learning_rate"] = True
	self._grid_search_iscustom["differential_learning_rate"] = True
	self._grid_search_iscustom["weight_decay"] = True
	self._grid_search_iscustom["warmup_epochs"] = True
	self._grid_search_iscustom["gradient_clip"] = True
	self._grid_search_iscustom["grad_accumulation"] = True

	self._visibility["loss_class"] = -1
	self._visibility["drop_last_batch"] = -1
	self._visibility["differential_learning_rate_layers"] = 1
	self._visibility["differential_learning_rate"] = 1

	self._nesting.add(
	["differential_learning_rate"],
	[
	Dependency(
	key="differential_learning_rate_layers", value=None, is_set=False
	)
	],
	)
	self._nesting.add(
	["freeze_layers"],
	[Dependency(key="lora", value=False, is_set=True)],
	)
	self._nesting.add(
	[
	"use_dora",
	"lora_r",
	"lora_alpha",
	"lora_dropout",
	"use_rslora",
	"lora_target_modules",
	"lora_unfreeze_layers",
	],
	[Dependency(key="lora", value=False, is_set=False)],
	)
	self._nesting.add(
	["min_learning_rate_ratio"],
	[Dependency(key="schedule", value="Constant", is_set=False)],
	)


	@dataclass
	class ConfigNLPCausalLMTokenizer(DefaultConfig):
	max_length: int = 512
	add_prompt_answer_tokens: bool = False
	padding_quantile: float = 1.0
	tokenizer_kwargs: str = '{"use_fast": true, "add_prefix_space": false}'
	_tokenizer_mask_token_id: int = 0
	_tokenizer_eos_token: str = "<EOS>"
	_vocab_length: int = 0
	_stop_words_ids: List[int] = field(default_factory=list)

	def __post_init__(self):
	super().__post_init__()
	self._possible_values["max_length"] = (32, 1024 * 16, 32)
	self._possible_values["padding_quantile"] = (0, 1, 0.01)

	self._grid_search_values["max_length"] = (256, 512, 1024)

	self._grid_search_iscustom["max_length"] = True

	self._padding_side = "left"


	@dataclass
	class ConfigNLPCausalLMArchitecture(DefaultConfig):
	model_class: Any = text_causal_language_modeling_model.Model
	pretrained: bool = True

	backbone_dtype: str = "int4"
	gradient_checkpointing: bool = True
	intermediate_dropout: float = 0
	pretrained_weights: str = ""

	def __post_init__(self):
	super().__post_init__()

	self._possible_values["backbone_dtype"] = possible_values.String(
	values=("float32", "bfloat16", "float16", "int8", "int4"),
	allow_custom=False,
	)
	self._possible_values["intermediate_dropout"] = (0, 0.5, 0.05)

	self._grid_search_values["intermediate_dropout"] = (0.0, 0.05, 0.1, 0.15)

	self._grid_search_iscustom["intermediate_dropout"] = True

	self._visibility["model_class"] = -1
	self._visibility["pretrained"] = -1


	@dataclass
	class ConfigNLPAugmentation(DefaultConfig):
	nlp_augmentations_class: Any = BaseNLPAug
	token_mask_probability: float = 0.0
	skip_parent_probability: float = 0.0
	random_parent_probability: float = 0.0
	neftune_noise_alpha: float = 0.0

	def __post_init__(self):
	super().__post_init__()
	self._possible_values["token_mask_probability"] = (0.0, 0.9, 0.05)
	self._possible_values["skip_parent_probability"] = (0.0, 1.0, 0.05)
	self._possible_values["random_parent_probability"] = (0.0, 1.0, 0.05)
	self._possible_values["neftune_noise_alpha"] = (0.0, 15, 0.05)

	self._grid_search_values["token_mask_probability"] = (0.0, 0.1, 0.2, 0.3)
	self._grid_search_values["skip_parent_probability"] = (0.0, 0.1, 0.2, 0.3)
	self._grid_search_values["random_parent_probability"] = (0.0, 0.1, 0.2, 0.3)
	self._grid_search_values["neftune_noise_alpha"] = (0.0, 5, 10, 15)

	self._grid_search_iscustom["token_mask_probability"] = True
	self._grid_search_iscustom["skip_parent_probability"] = True
	self._grid_search_iscustom["random_parent_probability"] = True
	self._grid_search_iscustom["neftune_noise_alpha"] = True

	self._visibility["nlp_augmentations_class"] = -1


	@dataclass
	class ConfigNLPCausalLMPrediction(DefaultConfig):
	metric_class: Any = text_causal_language_modeling_metrics.Metrics
	metric: str = "GPT"
	metric_gpt_model: str = "gpt-3.5-turbo-0301"
	metric_gpt_template: str = "general"

	min_length_inference: int = 2
	max_length_inference: int = 256
	max_time: float = 0
	batch_size_inference: int = 0

	do_sample: bool = False
	num_beams: int = 1
	temperature: float = 0.0
	repetition_penalty: float = 1.0
	stop_tokens: str = ""
	top_k: int = 0
	top_p: float = 1.0

	num_history: int = 4

	def __post_init__(self):
	super().__post_init__()
	self._possible_values["metric"] = self.metric_class.names()

	self._possible_values["metric_gpt_model"] = possible_values.String(
	values=(
	"gpt-3.5-turbo-0301",
	"gpt-3.5-turbo-0613",
	"gpt-4-0314",
	"gpt-4-0613",
	"gpt-4-1106-preview",
	),
	allow_custom=True,
	)
	self._possible_values["metric_gpt_template"] = possible_values.String(
	values=tuple(f.split(".")[0] for f in os.listdir("prompts"))
	)

	self._possible_values["batch_size_inference"] = (0, 512, 1)
	self._possible_values["min_length_inference"] = (0, 1024, 1)
	self._possible_values["max_length_inference"] = (1, 4096, 1)
	self._possible_values["max_time"] = (0.0, 600.0, 1.0)

	self._possible_values["num_beams"] = (1, 4, 1)
	self._possible_values["temperature"] = (0, 10, 0.05)
	self._possible_values["repetition_penalty"] = (1, 10, 0.025)
	self._possible_values["top_k"] = (0, 100, 1)
	self._possible_values["top_p"] = (0.5, 1, 0.05)
	self._possible_values["num_history"] = (1, 50, 1)

	self._visibility["metric_class"] = -1
	# possible values for num_history are only used in chatbot tab
	self._visibility["num_history"] = -1

	self._nesting.add(
	["metric_gpt_model", "metric_gpt_template"],
	[Dependency(key="metric", value="GPT", is_set=True)],
	)


	@dataclass
	class ConfigNLPCausalLMEnvironment(DefaultConfig):
	gpus: Tuple[str, ...] = tuple(str(x) for x in range(torch.cuda.device_count()))

	mixed_precision: bool = True
	mixed_precision_dtype: str = "bfloat16"

	compile_model: bool = False
	use_deepspeed: bool = False
	deepspeed_method: str = "ZeRO2"
	deepspeed_allgather_bucket_size: int = int(1e6)
	deepspeed_reduce_bucket_size: int = int(1e6)
	deepspeed_stage3_prefetch_bucket_size: int = int(1e6)
	deepspeed_stage3_param_persistence_threshold: int = int(1e6)
	# deepspeed_offload_optimizer: bool = False
	# deepspeed_stage3_max_live_parameters: int = 1e9
	# deepspeed_stage3_max_reuse_distance: int = 1e9

	find_unused_parameters: bool = False
	trust_remote_code: bool = True
	huggingface_branch: str = "main"
	number_of_workers: int = 4
	seed: int = -1

	_seed: int = 0 # internal seed set in train.py (equals seed if seed is not -1)
	_distributed: bool = False
	_distributed_inference: bool = True
	_local_rank: int = 0
	_world_size: int = 1
	_curr_step: int = 0
	_step_log_denominator: int = 1
	_curr_val_step: int = 0
	_rank: int = 0 # global rank
	_device: str = "cuda"
	_cpu_comm: Any = None
	_model_card_template: str = "text_causal_language_modeling_model_card_template.md"
	_summary_card_template: str = (
	"text_causal_language_modeling_experiment_summary_card_template.md"
	)

	def __post_init__(self):
	super().__post_init__()
	self._possible_values["gpus"] = possible_values.String(
	values=tuple(
	[(str(x), f"GPU #{x+1}") for x in range(torch.cuda.device_count())]
	),
	allow_custom=False,
	)

	self._possible_values["mixed_precision_dtype"] = possible_values.String(
	values=("bfloat16", "float16"),
	allow_custom=False,
	)

	self._possible_values["number_of_workers"] = (1, multiprocessing.cpu_count(), 1)
	self._possible_values["seed"] = possible_values.Number(step=1, min=-1)
	self._possible_values["deepspeed_method"] = ["ZeRO2", "ZeRO3"]
	self._possible_values["deepspeed_allgather_bucket_size"] = (
	possible_values.Number(step=1, min=1e6)
	)
	self._possible_values["deepspeed_reduce_bucket_size"] = possible_values.Number(
	step=1, min=1e6
	)
	self._possible_values["deepspeed_stage3_prefetch_bucket_size"] = (
	possible_values.Number(step=1, min=1e6)
	)
	self._possible_values["deepspeed_stage3_param_persistence_threshold"] = (
	possible_values.Number(step=1, min=1e6)
	)
	self._possible_values["deepspeed_stage3_max_live_parameters"] = (
	possible_values.Number(step=1, min=1e6)
	)
	self._possible_values["deepspeed_stage3_max_reuse_distance"] = (
	possible_values.Number(step=1, min=1e6)
	)

	self._nesting.add(
	[
	"mixed_precision_dtype",
	],
	[Dependency(key="mixed_precision", value=True, is_set=True)],
	)
	self._nesting.add(
	[
	"deepspeed_method",
	"deepspeed_reduce_bucket_size",
	],
	[Dependency(key="use_deepspeed", value=True, is_set=True)],
	)
	self._nesting.add(
	[
	"deepspeed_allgather_bucket_size",
	],
	[
	Dependency(key="use_deepspeed", value=True, is_set=True),
	Dependency(key="deepspeed_method", value="ZeRO2", is_set=True),
	],
	)
	self._nesting.add(
	[
	"deepspeed_stage3_prefetch_bucket_size",
	"deepspeed_stage3_param_persistence_threshold",
	# "deepspeed_offload_optimizer",
	],
	[
	Dependency(key="use_deepspeed", value=True, is_set=True),
	Dependency(key="deepspeed_method", value="ZeRO3", is_set=True),
	],
	)
	# self._nesting.add(
	# [
	# "deepspeed_stage3_max_live_parameters",
	# "deepspeed_stage3_max_reuse_distance",
	# ],
	# [Dependency(key="deepspeed_offload_optimizer", value=False, is_set=False)], # noqa: E501
	# )


	@dataclass
	class ConfigNLPCausalLMLogging(DefaultConfig):
	log_step_size: str = "absolute"
	log_all_ranks: bool = False
	logger: str = "None"
	neptune_project: str = ""
	wandb_project: str = ""
	wandb_entity: str = ""
	_neptune_debug: bool = False

	plots_class: Any = text_causal_language_modeling_plots.Plots

	# the actual logger, will be set dynamically at runtime
	_logger: Any = None

	def __post_init__(self):
	super().__post_init__()
	self._possible_values["log_step_size"] = possible_values.String(
	values=(
	("absolute", "Absolute"),
	("relative", "Relative"),
	),
	allow_custom=False,
	)
	self._possible_values["logger"] = ExternalLoggers.names()

	self._nesting.add(
	["neptune_project"],
	[Dependency(key="logger", value="Neptune", is_set=True)],
	)
	self._nesting.add(
	["wandb_project", "wandb_entity"],
	[Dependency(key="logger", value="W&B", is_set=True)],
	)

	self._visibility["plots_class"] = -1


	@dataclass
	class ConfigProblemBase(DefaultConfigProblemBase):
	output_directory: str = f"output/{os.path.basename(__file__).split('.')[0]}"
	experiment_name: str = field(default_factory=generate_experiment_name)
	llm_backbone: str = (
	"h2oai/h2o-danube3-500m-base"
	if "h2oai/h2o-danube3-500m-base" in default_cfg.default_causal_language_models
	else default_cfg.default_causal_language_models[0]
	)

	dataset: ConfigNLPCausalLMDataset = field(default_factory=ConfigNLPCausalLMDataset)
	tokenizer: ConfigNLPCausalLMTokenizer = field(
	default_factory=ConfigNLPCausalLMTokenizer
	)
	architecture: ConfigNLPCausalLMArchitecture = field(
	default_factory=ConfigNLPCausalLMArchitecture
	)
	training: ConfigNLPCausalLMTraining = field(
	default_factory=ConfigNLPCausalLMTraining
	)
	augmentation: ConfigNLPAugmentation = field(default_factory=ConfigNLPAugmentation)
	prediction: ConfigNLPCausalLMPrediction = field(
	default_factory=ConfigNLPCausalLMPrediction
	)
	environment: ConfigNLPCausalLMEnvironment = field(
	default_factory=ConfigNLPCausalLMEnvironment
	)
	logging: ConfigNLPCausalLMLogging = field(default_factory=ConfigNLPCausalLMLogging)

	def __post_init__(self):
	super().__post_init__()

	self._visibility["output_directory"] = -1

	self._possible_values["llm_backbone"] = possible_values.String(
	values=default_cfg.default_causal_language_models,
	allow_custom=True,
	)

	def check(self) -> Dict[str, List]:
	# Define returned dictionary of errors/warnings
	errors: Dict[str, List] = {"title": [], "message": [], "type": []}
	logger.debug("Checking for common errors in the configuration.")
	try:
	sanity_check(self)
	except AssertionError as exception:
	logger.error(f"Experiment start. Sanity check failed: {exception}")
	logger.error(f"Error while validating data: {exception}", exc_info=True)
	# Remove end-of-line from exception
	exception_str = str(exception).replace("\n", " ")
	errors["title"] += ["Dataset Validation Error"]
	errors["message"] += [exception_str]
	errors["type"].append("error")

	if self.prediction.temperature > 0 and not self.prediction.do_sample:
	errors["title"] += ["Do sample needs to be enabled for temperature > 0"]
	errors["message"] += [
	"Please enable do sample if you want to use temperature > 0."
	]
	errors["type"].append("warning")
	if self.prediction.temperature == 0 and self.prediction.do_sample:
	errors["title"] += ["Temperature needs to be > 0 for do sample"]
	errors["message"] += [
	"Please increase temperature if you want to use do sample."
	]
	errors["type"].append("warning")
	return errors