Add volume normalization

bshall · bshall · commit 5629cfaa0b8e · 2020-05-19T10:58:23.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -120,4 +120,7 @@ submission/
 submission.zip
 
 # Hydra outputs
-outputs/
+outputs/
+
+# Tensorboard
+tensorboard/
diff --git a/convert.py b/convert.py
@@ -7,6 +7,7 @@
 import numpy as np
 import librosa
 from tqdm import tqdm
+import pyloudnorm
 
 from preprocess import preemphasis
 from model import Encoder, Vocoder
@@ -46,11 +47,14 @@ def convert(cfg):
     encoder.eval()
     vocoder.eval()
 
+    meter = pyloudnorm.Meter(cfg.preprocessing.sr)
+
     for wav_path, speaker_id, out_filename in tqdm(synthesis_list):
         wav_path = in_dir / wav_path
         wav, _ = librosa.load(
             wav_path.with_suffix(".wav"),
             sr=cfg.preprocessing.sr)
+        ref_loudness = meter.integrated_loudness(wav)
         wav = wav / np.abs(wav).max() * 0.999
 
         mel = librosa.feature.melspectrogram(
@@ -72,6 +76,8 @@ def convert(cfg):
             _, _, indices = encoder.encode(mel)
             output = vocoder.generate(indices, speaker)
 
+        output_loudness = meter.integrated_loudness(output)
+        output = pyloudnorm.normalize.loudness(output, output_loudness, ref_loudness)
         path = out_dir / out_filename
         librosa.output.write_wav(path.with_suffix(".wav"), output.astype(np.float32), sr=cfg.preprocessing.sr)
 
diff --git a/requirements.txt b/requirements.txt
@@ -2,4 +2,5 @@ numpy>=1.17
 scipy>=1.4
 librosa>=0.7
 tqdm>=4.45.0
-hydra-core>=0.11
+hydra-core>=0.11
+pyloudnorm>=0.1.0