Sử dụng mô hình Ichigo-whisper để nhận dạng giọng nói. Mô hình này có hiệu suất tốt cho cả tiếng Anh và tiếng Việt!