EURASIP Journal on Audio, Speech, and Music Processing

Table 5 PESQ values of all baseline models under seen noises. Proposed model represented by bold and italic letters

From: Sub-convolutional U-Net with transformer attention network for end-to-end single-channel speech enhancement

Metric	PESQ
Noise	Babble				Street				Restaurant
SNR (dB)	− 5	0	5	Avg.	− 5	0	5	Avg.	− 5	0	5	Avg.
Noisy mixture	1.23	1.52	1.83	1.53	1.51	1.83	2.02	1.79	1.66	1.88	2.01	1.85
Bi-LSTM [31]	1.85	1.97	2.44	2.09	1.84	2.02	2.49	2.12	1.98	2.11	2.66	2.25
Bi-CRN [34]	1.92	2.13	2.53	2.19	1.93	2.21	2.57	2.23	2.03	2.21	2.77	2.34
SEGAN [40]	1.99	2.21	2.66	2.29	2.05	2.29	2.68	2.34	2.15	2.38	2.83	2.45
GRN [30]	2.08	2.29	2.71	2.36	2.12	2.45	2.75	2.44	2.23	2.49	2.96	2.56
DCN [38]	2.17	2.38	2.85	2.47	2.22	2.49	2.87	2.52	2.31	2.63	3.04	2.66
DCCRN [35]	2.24	2.51	2.94	2.56	2.37	2.65	2.95	2.66	2.47	2.74	3.11	2.77
TSTNN [41]	2.36	2.62	3.07	2.68	2.48	2.73	3.09	2.76	2.55	2.99	3.25	2.93
MASENet [46]	2.45	2.76	3.13	2.78	2.59	2.83	3.16	2.87	2.68	3.08	3.37	3.04
SADNUNet [47]	2.58	2.83	3.24	2.88	2.66	2.94	3.27	2.96	2.72	3.16	3.46	3.11
MCGN [42]	2.64	2.90	3.32	2.95	2.79	3.11	3.35	3.08	2.81	3.27	3.53	3.20
DBT-Net [51]	2.69	2.97	3.38	3.01	2.84	3.16	3.40	3.13	2.87	3.34	3.59	3.23
*TANSCUNet*	2.95	3.12	3.52	3.20	2.97	3.31	3.56	3.44	2.98	3.49	3.84	3.44

Back to article page