Upload 6 files

Browse files

Files changed (6) hide show

bigvgan_generator.pth +3 -0
bpe.model +3 -0
config.yaml +112 -0
dvae.pth +3 -0
gpt.pth +3 -0
unigram_12000.vocab +0 -0

bigvgan_generator.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ec77084929fad053355669c8b5986e32542f13afeff78ad93389a8f06ce62b0
+size 525166944

bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf30028855ff4a89f6663325c88b44a69f74f97990dd410a4b35414c4db31779
+size 476049

config.yaml ADDED Viewed

	@@ -0,0 +1,112 @@

+dataset:
+    bpe_model: bpe.model
+    sample_rate: 24000
+    squeeze: false
+    mel:
+        sample_rate: 24000
+        n_fft: 1024
+        hop_length: 256
+        win_length: 1024
+        n_mels: 100
+        mel_fmin: 0
+        normalize: false
+gpt:
+    model_dim: 1024
+    max_mel_tokens: 605
+    max_text_tokens: 402
+    heads: 16
+    use_mel_codes_as_input: true
+    mel_length_compression: 1024
+    layers: 20
+    number_text_tokens: 12000
+    number_mel_codes: 8194
+    start_mel_token: 8192
+    stop_mel_token: 8193
+    start_text_token: 0
+    stop_text_token: 1
+    train_solo_embeddings: false
+    condition_type: "conformer_perceiver"
+    condition_module:
+        output_size: 512
+        linear_units: 2048
+        attention_heads: 8
+        num_blocks: 6
+        input_layer: "conv2d2"
+        perceiver_mult: 2
+vqvae:
+    channels: 100
+    num_tokens: 8192
+    hidden_dim: 512
+    num_resnet_blocks: 3
+    codebook_dim: 512
+    num_layers: 2
+    positional_dims: 1
+    kernel_size: 3
+    smooth_l1_loss: true
+    use_transposed_convs: false
+bigvgan:
+    adam_b1: 0.8
+    adam_b2: 0.99
+    lr_decay: 0.999998
+    seed: 1234
+    resblock: "1"
+    upsample_rates: [4,4,4,4,2,2]
+    upsample_kernel_sizes: [8,8,4,4,4,4]
+    upsample_initial_channel: 1536
+    resblock_kernel_sizes: [3,7,11]
+    resblock_dilation_sizes: [[1,3,5], [1,3,5], [1,3,5]]
+    feat_upsample: false
+    speaker_embedding_dim: 512
+    cond_d_vector_in_each_upsampling_layer: true
+    gpt_dim: 1024
+    activation: "snakebeta"
+    snake_logscale: true
+    use_cqtd_instead_of_mrd: true
+    cqtd_filters: 128
+    cqtd_max_filters: 1024
+    cqtd_filters_scale: 1
+    cqtd_dilations: [1, 2, 4]
+    cqtd_hop_lengths: [512, 256, 256]
+    cqtd_n_octaves: [9, 9, 9]
+    cqtd_bins_per_octaves: [24, 36, 48]
+    resolutions: [[1024, 120, 600], [2048, 240, 1200], [512, 50, 240]]
+    mpd_reshapes: [2, 3, 5, 7, 11]
+    use_spectral_norm: false
+    discriminator_channel_mult: 1
+    use_multiscale_melloss: true
+    lambda_melloss: 15
+    clip_grad_norm: 1000
+    segment_size: 16384
+    num_mels: 100
+    num_freq: 1025
+    n_fft: 1024
+    hop_size: 256
+    win_size: 1024
+    sampling_rate: 24000
+    fmin: 0
+    fmax: null
+    fmax_for_loss: null
+    mel_type: "pytorch"
+    num_workers: 2
+    dist_config:
+        dist_backend: "nccl"
+        dist_url: "tcp://localhost:54321"
+        world_size: 1
+dvae_checkpoint: dvae.pth
+gpt_checkpoint: gpt.pth
+bigvgan_checkpoint: bigvgan_generator.pth

dvae.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c112404dfe25d8d88084b507b0637037a419b4a5a0d9160516d9398a8f2b52c8
+size 243316270

gpt.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7797ed691d9c0295fd30af153d9ff04501e353a4c67c3f898e4b0840a5ef10dd
+size 696529044

unigram_12000.vocab ADDED Viewed

The diff for this file is too large to render. See raw diff