EURASIP Journal on Audio, Speech, and Music Processing

Table 3 SDR values of all baseline models under seen noises. Proposed model represented by bold and italic letters

From: Sub-convolutional U-Net with transformer attention network for end-to-end single-channel speech enhancement

Metric	SDR
Noise	Babble				Street				Restaurant
SNR (dB)	− 5	0	5	Avg.	− 5	0	5	Avg.	− 5	0	5	Avg.
Noisy mixture	2.12	4.01	5.89	4.01	1.82	3.65	5.62	3.70	2.16	4.18	6.13	4.16
Bi-LSTM [31]	4.32	6.65	7.92	6.30	4.12	6.01	7.39	5.84	4.56	6.88	8.23	6.56
Bi-CRN [34]	4.79	6.94	8.37	6.70	4.51	6.43	7.88	6.27	4.87	7.26	8.6	6.91
SEGAN [40]	5.03	7.22	8.72	6.99	4.92	6.89	8.42	6.74	5.12	7.63	8.91	7.22
GRN [30]	5.25	7.59	9.22	7.35	5.23	7.26	8.87	7.12	5.97	7.97	9.44	7.79
DCN [38]	5.85	7.99	9.64	7.83	5.56	7.84	9.18	7.53	6.22	8.23	9.83	8.09
DCCRN [35]	6.13	8.34	9.96	8.14	5.89	8.26	9.53	7.89	6.79	8.59	10.25	8.54
TSTNN [41]	6.57	8.74	10.42	8.58	6.11	8.59	9.85	8.18	7.16	8.92	10.69	8.92
MASENet [46]	6.94	9.12	10.84	8.97	6.61	8.83	10.21	8.55	7.54	9.36	10.95	9.28
SADNUNet [47]	7.32	9.51	11.11	9.31	6.97	9.15	10.60	8.91	7.89	9.74	11.31	9.65
MCGN [42]	7.61	9.87	11.53	9.67	7.36	9.54	10.94	9.28	8.02	10.09	11.75	9.95
DBT-Net [51]	7.92	10.03	11.82	9.92	7.64	9.86	11.10	9.53	8.22	10.24	11.97	10.14
*TANSCUNet*	8.62	10.69	12.57	10.63	8.37	10.48	11.58	10.14	8.81	10.86	12.71	10.79

Back to article page