Một kỹ sư Gen Z của Zalo AI thuyết trình về AI xử lý tiếng nói tại Hội nghị khoa học quốc tế Interspeech 2024
Trong số hàng ngàn bài thuyết trình tại Hội nghị khoa học thế giới Interspeech lần thứ 25, năm 2024 (diễn ra ở Hy Lạp từ ngày 1 đến ngày 5-9-2024) có một bài thuyết trình từ một kỹ sư AI Việt Nam trẻ của Zalo.
Công trình nghiên cứu giúp tăng độ chính xác của các mô hình nhận dạng tiếng nói trong thời gian thực (Streaming Automatic Speech Recognition) do kỹ sư của Zalo AI thực hiện đã được chấp nhận công bố tại Interspeech 2024, hội thảo quốc tế lâu năm, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức.
Công trình nghiên cứu của Zalo AI với đề tài: “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking” (tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động) do kỹ sư Lê Duy Khánh thuộc thế hệ Gen Z (sinh năm 2000) đến từ Zalo AI thực hiện dưới sự hướng dẫn của TS. Châu Thành Đức – Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên Trường ĐH Khoa học tự nhiên, ĐH Quốc gia TP.HCM. Nghiên cứu này có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.
Kỹ sư Lê Duy Khánh, tác giả của đề tài nghiên cứu được thuyết trình tại Hội nghị Interspeech 2024. (Ảnh do Zalo cung cấp).
Với chủ đề “Speech and beyond” (tạm dịch: Tiếng nói và hơn thế nữa), hội nghị Interspeech 2024 tập trung vào các phương thức tiếp cận đa dạng nhằm giải quyết các vấn đề liên quan đến khoa học, công nghệ về tiếng nói và ngôn ngữ của con người, từ lý thuyết đến ứng dụng thực tiễn.
Chàng kỹ sư trẻ Lê Duy Khánh đã dành tổng cộng 9 tháng để nghiên cứu, viết bài báo khoa học và ứng dụng vào thực tiễn. Để hoàn thành đề tài, bạn đã phải đối mặt với nhiều thách thức, vì huấn luyện mô hình nhận dạng tiếng nói đòi hỏi cấu hình phần cứng mạnh, đồng thời tiếng nói là dạng dữ liệu khó xử lý vì có thể gặp các trường hợp không rõ chữ, nói nhanh và thường trong môi trường thực tế nhiều tiếng ồn. Thông thường tỷ lệ thành công của các thí nghiệm chỉ khoảng 10% – nghĩa là trong 10 thí nghiệm, chỉ có 1 thí nghiệm đạt được mục tiêu đề ra.
Những lần đầu đáng nhớ tại Hy Lạp
Cảm giác choáng ngợp nhưng thích thú là những từ Duy Khánh dùng để miêu tả về trải nghiệm của mình tại Hy Lạp trong 5 ngày dư Hội nghị Interspeech 2024. Choáng ngợp vì được chứng kiến hàng nghìn bài phát biểu cũng như diện kiến những tên tuổi lớn trong làng AI thế giới. Thích thú vì đây là cơ hội được học hỏi và trải nghiệm.
Duy Khánh chia sẻ: “Trước chuyến đi, tôi cũng khá là hồi hộp và lo lắng. Đây không chỉ là lần đầu tiên tôi có cơ hội được thuyết trình tại một hội nghị khoa học hàng đầu thế giới trong lĩnh vực công nghệ nói chung và xử lý giọng nói nói riêng, đây còn là lần đầu tiên tôi ra nước ngoài.”
Một mình nơi đất khách, vừa phải lo cho sinh hoạt cá nhân 5 ngày tại Hy Lạp, vừa phải chuẩn bị tinh thần và kiến thức vững vàng trước buổi thuyết trình, Duy Khánh thở phào nhẹ nhõm khi mọi thứ đều diễn ra hết sức suôn sẻ.
Nói về bài thuyết trình của mình tại Hội nghị Interspeech, Duy Khánh kể: “Hội nghị diễn ra 5 ngày với khoảng 2.000 bài thuyết trình hội thảo của các kỹ sư, nhà nghiên cứu công nghệ và AI từ khắp nơi trên thế giới. Có 2 hình thức thuyết trình chính: thuyết trình miệng (oral presentation) và thuyết trình poster (poster presentation).Với việc thuyết trình miệng như tôi, mỗi người thuyết trình sẽ có khoảng 20 phút, bao gồm cả thời gian thuyết trình lẫn đặt câu hỏi, để giới thiệu công trình nghiên cứu của mình tới người dự. Với những người chọn thuyết trình poster, họ sẽ có khoảng 2 tiếng đồng hồ đứng cạnh poster của mình và giới thiệu nội dung trên poster tới người tham gia hội nghị.Cá nhân tôi thích xem những bài thuyết trình poster khi bạn có dịp trò chuyện trực tiếp với người thuyết trình, quan sát và nghiền ngẫm bài thuyết trình lâu hơn để học thêm kiến thức mới.”
“Bài thuyết trình của tôi diễn ra suôn sẻ. Tôi nhớ có khoảng 100 người ngồi dưới khán phòng. Cuối bài có 2 người đặt câu hỏi, một người hỏi về thuật toán, một người hỏi về tốc độ xử lý. Tôi coi những câu hỏi của mọi người là cách mọi người quan tâm tới nội dung thuyết trình của mình, cũng như có thêm phản hồi để hoàn thiện sản phẩm tốt hơn.”
Khát vọng của chàng kỹ sư AI trẻ: Công nghệ AI do người Việt nghiên cứu để phục vụ cho chính người Việt
Việc tham dự Hội nghị Interspeech 2024 mang đến cho Duy Khánh nhiều trải nghiệm ý nghĩa. Một trong những điều Duy Khánh tâm đắc nhất sau chuyến đi là niềm tin được củng cố về tầm quan trọng của nghiên cứu AI.
“Tôi có dịp được nhìn thấy những sản phẩm của những công ty lớn như Microsoft hay Meta tại hội nghị Interspeech cũng như được nghe nhiều nghiên cứu mới về AI từ các trường đại học, viện nghiên cứu công nghệ hàng đầu thế giới như Đại học Carnegie Mellon, Đại học John Hopkins (Mỹ)…. Để các kỹ sư trẻ như chúng tôi nói riêng và ngành công nghệ AI Việt Nam nói chung phát triển, việc đầu tư vào nghiên cứu là điều cần thiết. Làm AI luôn cần có những nghiên cứu, còn nếu hoàn toàn dùng công nghệ có sẵn của những công ty khác thì khó có thể tiến xa.”
Từ những ý tưởng và các kiến thức mới học được từ Hội nghị Interspeech 2024, Duy Khánh mong muốn có thể tiếp tục phát triển các hoạt động nghiên cứu tại Zalo AI.
Kể từ khi bắt đầu hành trình nghiên cứu AI vào năm 2017, Zalo luôn tin tưởng vào thế hệ những tài năng trẻ như Duy Khánh. Hiện tại, có đến 31% nhân sự Zalo thuộc thế hệ Gen Z. Đội ngũ nhân sự trẻ đầy nhiệt huyết và không ngại thử thách này là lực lượng nòng cốt, đảm nhận các vai trò quan trọng làm nên sự thành công của các công nghệ và tính năng AI, với trên 10 triệu người dùng trong hệ sinh thái sản phẩm của Zalo.
Nâng cấp các mô hình nhận dạng tiếng nói giúp tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và chuyển tin nhắn thoại thành văn bản trên Zalo.
Chia sẻ về kế hoạch tương lai tại Zalo AI, Duy Khánh cho biết:
“Công việc của tôi và các đồng nghiệp thường được gói gọn trong câu nói vui: ‘GPU càng nhiều, trách nhiệm càng lớn’. Tại Zalo, chúng tôi hiểu rằng tài nguyên mà mình có là vô giá, và điều quan trọng là phải trân trọng và tận dụng tối đa khả năng của chúng. Mỗi ý tưởng, dù nhỏ nhất, đều mang trong mình giá trị và cơ hội xứng đáng được hiện thực hóa. Tham dự kỳ Interspeech lần này không chỉ là cột mốc cá nhân, mà còn là động lực để tôi phấn đấu đưa công nghệ AI đến gần hơn với mọi người dùng Việt Nam.“
Việc các đề tài nghiên cứu của kỹ sư Việt Nam được quốc tế công nhận là một tín hiệu tích cực, phản ánh sự phát triển đáng ghi nhận, thu hẹp khoảng cách của cộng đồng AI Việt Nam và thế giới. TS. Châu Thành Đức, Trưởng bộ phận Nghiên cứu và Phát triển tại Zalo AI và đồng tác giả của công trình nghiên cứu lần này, chia sẻ: “Việc tổng hợp các nghiên cứu có giá trị thực tiễn cao của Zalo AI thành bài báo khoa học và giới thiệu tại các hội nghị quốc tế uy tín là rất có ý nghĩa. Những bài báo khoa học không chỉ chứng minh năng lực của kỹ sư Việt Nam, mà còn thể hiện mong muốn chia sẻ kinh nghiệm và đóng góp vào sự phát triển của cộng đồng AI toàn cầu.”
Đây không phải là lần đầu tiên các kỹ sư Zalo AI có bài báo khoa học được công nhận cấp quốc tế. Vào năm 2021, hai đề tài nghiên cứu khác của nhóm kỹ sư Zalo AI liên quan đến công nghệ xử lý tiếng nói cũng đã được công nhận tại Hội nghị Châu Á – Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI 2021). Đáng chú ý, các tác giả của hai đề tài này đều là những nhà nghiên cứu trẻ, với độ tuổi chưa đến 30.
Hiện nay, hầu hết các thuật toán nhận dạng tiếng nói thời gian thực (streaming ASR) gặp khó khăn với việc thiếu ngữ cảnh (context), dẫn đến chất lượng nhận dạng không được tối ưu. Mặc dù việc bổ sung ngữ cảnh có thể cải thiện độ chính xác, nhưng thường đi kèm với việc tăng độ trễ (latency) trong quá trình chuyển giọng nói thành văn bản. Nghiên cứu của Zalo AI hướng đến việc cung cấp nhiều ngữ cảnh hơn cho mô hình nhận dạng tiếng nói, tương tự như việc “nhìn trước” tương lai, từ đó nâng cao đáng kể độ chính xác mà không làm gia tăng độ trễ, khác biệt so với các nghiên cứu trước đây.
Nghiên cứu này đã được Zalo tích hợp vào ứng dụng nhắn tin của mình từ cuối năm 2023, mang lại sự cải thiện đáng kể về độ chính xác cho tính năng “soạn tin nhắn bằng giọng nói” (voice dictation) đang trong giai đoạn thử nghiệm. Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói, thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Sau khi áp dụng các cải tiến từ nghiên cứu, độ chính xác của tính năng này đã đạt tới 95% trong môi trường thực tế. Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm, nhưng có hàng triệu người dùng hằng tháng với hàng triệu tin nhắn được AI xử lý mỗi ngày.
Ngoài việc cải thiện tính năng hiện có, đề tài nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp nhiều sản phẩm và dịch vụ khác, bao gồm chatbot giọng nói, trợ lý giọng nói, hoặc tính năng tự động tạo bản ghi (transcript) cho các cuộc gọi video…
T.T.Z.
Có tham khảo từ nguồn do Nhóm Truyền thông Zing cung cấp.