Spaces:

kairunwen
/

LSM

Runtime error

App Files Files Community

LSM / src /lseg.py

kairunwen

Update Code

57746f1 about 1 month ago

raw

history blame contribute delete

6.49 kB

	import torch
	import torch.nn as nn
	from submodules.lang_seg.modules.models.lseg_net import LSegNet, clip

	class LSegFeatureExtractor(LSegNet):
	def __init__(self, half_res=True):
	super().__init__(
	labels='',
	backbone='clip_vitl16_384',
	features=256,
	crop_size=224,
	arch_option=0,
	block_depth=0,
	activation='lrelu'
	)

	self.half_res = half_res

	@torch.no_grad()
	def extract_features(self, x):
	layer_1, layer_2, layer_3, layer_4 = forward_layers(self.pretrained, x)
	# layer:(b, 1024, h//16, w//16)
	# image_features = torch.cat([layer_1, layer_2, layer_3, layer_4], dim=1)
	# # image_features:(b, 4096, h//16, w//16)

	# dense feature
	# DPT head
	pretrained = self.pretrained
	layer_1 = pretrained.act_postprocess1[3 : len(pretrained.act_postprocess1)](layer_1)
	layer_2 = pretrained.act_postprocess2[3 : len(pretrained.act_postprocess2)](layer_2)
	layer_3 = pretrained.act_postprocess3[3 : len(pretrained.act_postprocess3)](layer_3)
	layer_4 = pretrained.act_postprocess4[3 : len(pretrained.act_postprocess4)](layer_4)

	# refinenet
	layer_1_rn = self.scratch.layer1_rn(layer_1)
	layer_2_rn = self.scratch.layer2_rn(layer_2)
	layer_3_rn = self.scratch.layer3_rn(layer_3)
	layer_4_rn = self.scratch.layer4_rn(layer_4)

	path_4 = self.scratch.refinenet4(layer_4_rn)
	path_3 = self.scratch.refinenet3(path_4, layer_3_rn)
	path_2 = self.scratch.refinenet2(path_3, layer_2_rn)
	path_1 = self.scratch.refinenet1(path_2, layer_1_rn)

	# (b, 512, h//2, w//2)
	image_features = self.scratch.head1(path_1)
	if self.half_res:
	return image_features

	# (b, 512, h, w)
	image_features = self.scratch.output_conv(image_features)

	return image_features

	@torch.no_grad()
	def decode_feature(self, image_features, labelset=''):
	# # image_features:(b, 4096, h//16, w//16)
	# # split image_features into 4 parts
	# layer_1, layer_2, layer_3, layer_4 = torch.split(image_features, 1024, dim=1)

	# # DPT head
	# pretrained = self.pretrained
	# layer_1 = pretrained.act_postprocess1[3 : len(pretrained.act_postprocess1)](layer_1)
	# layer_2 = pretrained.act_postprocess2[3 : len(pretrained.act_postprocess2)](layer_2)
	# layer_3 = pretrained.act_postprocess3[3 : len(pretrained.act_postprocess3)](layer_3)
	# layer_4 = pretrained.act_postprocess4[3 : len(pretrained.act_postprocess4)](layer_4)

	# # refinenet
	# layer_1_rn = self.scratch.layer1_rn(layer_1)
	# layer_2_rn = self.scratch.layer2_rn(layer_2)
	# layer_3_rn = self.scratch.layer3_rn(layer_3)
	# layer_4_rn = self.scratch.layer4_rn(layer_4)

	# path_4 = self.scratch.refinenet4(layer_4_rn)
	# path_3 = self.scratch.refinenet3(path_4, layer_3_rn)
	# path_2 = self.scratch.refinenet2(path_3, layer_2_rn)
	# path_1 = self.scratch.refinenet1(path_2, layer_1_rn)

	# image_features = self.scratch.head1(path_1)
	imshape = image_features.shape

	# encode text
	if labelset == '':
	text = self.text
	else:
	text = clip.tokenize(labelset)

	self.logit_scale = self.logit_scale.to(image_features.device)
	text = text.to(image_features.device)
	text_features = self.clip_pretrained.encode_text(text)
	image_features = image_features.permute(0,2,3,1).reshape(-1, self.out_c)

	# normalized features
	image_features = image_features / image_features.norm(dim=-1, keepdim=True)
	text_features = text_features / text_features.norm(dim=-1, keepdim=True)

	logits_per_image = self.logit_scale * image_features.half() @ text_features.t()
	out = logits_per_image.float().view(imshape[0], imshape[2], imshape[3], -1).permute(0,3,1,2)

	if self.arch_option in [1, 2]:
	for _ in range(self.block_depth - 1):
	out = self.scratch.head_block(out)
	out = self.scratch.head_block(out, False)

	if self.half_res:
	out = self.scratch.output_conv(out)

	return out

	@classmethod
	def from_pretrained(cls, pretrained_model_name_or_path, args, *kwargs):
	print(f"Loading checkpoint from: {pretrained_model_name_or_path}")
	ckpt = torch.load(pretrained_model_name_or_path, map_location='cpu')
	print(f"Checkpoint loaded. Keys in checkpoint: {ckpt.keys()}")

	print("Processing state dict...")
	new_state_dict = {k[len("net."):]: v for k, v in ckpt['state_dict'].items() if k.startswith("net.")}
	print(f"Processed state dict. Number of keys: {len(new_state_dict)}")

	print("Initializing model...")
	model = cls(args, *kwargs)

	print("Loading state dict into model...")
	model.load_state_dict(new_state_dict, strict=True)
	print("State dict loaded successfully.")

	print("Cleaning up...")
	del ckpt
	del new_state_dict

	print("Model loading complete.")
	return model

	def forward_layers(pretrained, x):
	b, c, h, w = x.shape

	# encoder
	glob = pretrained.model.forward_flex(x)

	layer_1 = pretrained.activations["1"]
	layer_2 = pretrained.activations["2"]
	layer_3 = pretrained.activations["3"]
	layer_4 = pretrained.activations["4"]

	layer_1 = pretrained.act_postprocess1[0:2](layer_1)
	layer_2 = pretrained.act_postprocess2[0:2](layer_2)
	layer_3 = pretrained.act_postprocess3[0:2](layer_3)
	layer_4 = pretrained.act_postprocess4[0:2](layer_4)

	unflatten = nn.Sequential(
	nn.Unflatten(
	2,
	torch.Size(
	[
	h // pretrained.model.patch_size[1],
	w // pretrained.model.patch_size[0],
	]
	),
	)
	)

	if layer_1.ndim == 3:
	layer_1 = unflatten(layer_1)
	if layer_2.ndim == 3:
	layer_2 = unflatten(layer_2)
	if layer_3.ndim == 3:
	layer_3 = unflatten(layer_3)
	if layer_4.ndim == 3:
	layer_4 = unflatten(layer_4)

	return layer_1, layer_2, layer_3, layer_4