Trò chuyện với người viết code của trợ lý giọng nói Made in Viet Nam – Kiki
Đội ngũ phát triển Kiki tin rằng, với việc không ngừng đào tạo, nâng cấp sản phẩm, trợ lý giọng nói này sẽ ngày càng tăng tính ổn định, cải thiện mô hình, kết nối sự giao tiếp giữa con người và máy móc trở nên đơn giản hơn.
Trợ lý giọng nói tiếng Việt Kiki được “thai nghén” bởi đội ngũ kỹ sư Zalo AI, một thành viên chuyên sâu về trí tuệ nhân tạo của Zalo Group. Sau hơn 2 năm ra mắt, tính tới giữa tháng 3-2023, sản phẩm công nghệ này đã đạt mốc 300.000 lượt cài đặt trên xe ôtô. Như vậy, chưa đầy 90 ngày kể từ cuối tháng 12-2022, Kiki có thêm 100.000 lượt cài đặt của người dùng xe hơi.
Anh Nguyễn Hoàng Khánh Duy, người viết những dòng code đầu tiên cho Kiki, đã có một cuộc chia sẻ về quá trình đưa sản phẩm trở thành bạn đường của những người lái ôtô.
Những gã “nghiện” công nghệ sau cỗ máy AI
- Để trợ lý giọng nói Kiki đạt được mức độ “thông minh” như hôm nay, đội ngũ phát triển đã trải qua hành trình như thế nào ?
Được gắn bó với Kiki trong thời gian dài, tôi đã trải qua nhiều thời kỳ khác nhau của sản phẩm, từ bản nguyên mẫu đầu tiên đến lúc đưa Kiki thành sản phẩm thực tế.
Thú thực, lúc đầu, tôi chưa hình dung tới sự phổ biến của sản phẩm trong mảng xe hơi. Những ngày đầu, sự phát triển của Kiki dựa vào niềm tin về phương thức giao tiếp bằng giọng nói. Đơn giản, chúng tôi tin một giao thức tự nhiên sẽ đem lại những giá trị cho người dùng trong hiện tại và tương lai.
Đến khi Kiki trở thành trợ lý giọng nói trên xe hơi, niềm tin ngày đó được kiểm chứng. Tôi luôn cảm thấy thú vị mỗi khi gặp bạn bè hoặc tài xế xe hơi nào đó có cài đặt ứng dụng trên xe. Với Kiki, người dùng dễ dàng thao tác bằng giọng nói, không cần phải nhìn vào màn hình hay rời tay khỏi vô lăng lái.
- Thời điểm nào khiến anh thấy áp lực ?
Khó khăn thường rơi vào các mốc thời gian khi đưa ra chức năng mới. Chúng tôi phải gấp rút hoàn thiện chức năng, chấp nhận làm ngoài giờ liên tục để kịp thời hạn. Đó là khoảng thời gian áp lực. Tôi vẫn nhớ mọi người ngồi trực hệ thống để kiểm soát lỗi, thức đến sau 12 giờ đêm để chờ triển khai hệ thống, rồi ngồi sửa lỗi tới 1-2 giờ sáng.
- Anh có thấy may mắn khi đội ngũ phát triển Kiki là những người rất đam mê với công việc như vậy ?
Đúng vậy, chúng tôi là những gã “nghiện” công nghệ. Thời gian đầu, nhóm nghiên cứu chỉ có vài người, đảm nhiệm một số phần quan trọng trong sản phẩm. Các thành viên lúc đó đa số là 9x. Sau này, nhóm phát triển nhiều chức năng và hỗ trợ thêm các nền tảng. Chúng tôi chia thành nhiều nhóm nhỏ khác nhau, mỗi nhóm nhỏ lại phụ trách nhiệm vụ riêng. Hiện, đội ngũ phát triển sản phẩm AI (trí tuệ nhân tạo) đã có nhiều thành viên Gen Z, họ sinh năm 1999, 2000, hoặc thậm chí ít tuổi hơn. Tất nhiên, vài anh chị lão làng 8x cũng có góp mặt, họ rất trẻ trung, năng động không hề thua kém đàn em.
- Nói sâu hơn về sản phẩm, trợ lý giọng nói Kiki bắt đầu với dịch vụ nghe nhạc online Zing MP3, rồi trở thành ứng dụng thông minh trên xe ôtô. Như vậy, quá trình chuyển vốn từ vựng gồm tên bài hát sang địa danh (tên đường, tỉnh/thành) sẽ ra sao ?
Đây là một câu chuyện dài. Khi bắt đầu phát triển ứng dụng cho xe hơi, chúng tôi cố gắng đưa ra phiên bản nhanh nhất để đáp ứng thị trường và chạy thử. Tuy nhiên, sau thời gian quan sát và nhận phản hồi từ người dùng, chúng tôi nhận thấy cách sử dụng của người dùng trên nền tảng tự động rất khác với Zing MP3.
Ví dụ, chức năng rất quan trọng với người dùng Kiki trên xe hơi là dẫn đường, song, vốn từ vựng của trợ lý Kiki lúc đó chưa được tối ưu hóa cho phần này. Do đó, chúng tôi buộc phải nhanh chóng chuẩn bị dữ liệu, vốn từ vựng mới để hỗ trợ tốt hơn cho các câu lệnh dẫn đường của người dùng. Sau thời gian thu thập dữ liệu, huấn luyện mô hình, phiên bản mới ra mắt. Lúc này, chỉ số thể hiện chất lượng nhận diện giọng nói đã cải thiện 40% so với ban đầu.
Dẫu vậy, chúng tôi không thể chủ quan. Nhận diện giọng nói trên xe hơi không chỉ dừng lại ở bài toán về dẫn đường, địa điểm mà còn nhiều vấn đề khác, bộ phận phụ trách giọng nói vẫn luôn cố gắng cải thiện sản phẩm một cách tốt nhất.
Cho dễ hiểu, để Kiki nhận dạng giọng nói tốt với nhiều ngữ điệu vùng miền khác nhau, chúng tôi gán nhãn số lượng dữ liệu rất lớn lên Kiki.
Ngoài ra, sử dụng Kiki trên xe hơi không thể tránh khỏi yếu tố tiếng ồn do động cơ, do gió hay tiếng phát ra từ các thiết bị giao thông trên đường, điều này ảnh hưởng tới chất lượng nhận diện giọng nói của trợ lý Kiki trong xe. Đội ngũ chuyên xử lý giọng nói phải cố gắng giả lập điều kiện ồn bằng cách tăng cường dữ liệu giọng nói trong điều kiện tiếng ồn, sao cho sát với thực tế cuộc sống nhất.
Để huấn luyện mô hình AI đủ thông minh cho nhận diện giọng nói, phản hồi thông tin đúng cho người dùng, thì dữ liệu rất quan trọng. Ngoài ra, Kiki đang cố gắng tận dụng những dữ liệu vô cùng lớn nhưng không được gán nhãn, bằng các kỹ thuật mới trên thế giới như self-supervised (học tự giám sát) để cải thiện mô hình tốt hơn nữa.
Sự chuẩn bị, con người và yếu tố may mắn
- Qua quá trình cải thiện như trên, trong thang điểm từ 1-10, anh tự đánh giá tính ổn định của Kiki đạt bao nhiêu ?
Ổn định là điều rất quan trọng. Đặc biệt, đối với các sản phẩm kết nối Internet và cần trả kết quả nhanh chóng, chính xác như Kiki thì càng cần thiết.
Với Kiki trên Zing MP3, chúng tôi đã thấy vấn đề ổn định từ sớm để cải thiện. Hiện, Kiki trên Zing MP3 đã hoạt động ổn định hơn 60% so với ban đầu.
Đối với Kiki trên xe hơi, nếu người sử dụng ở các điều kiện mạng kém ổn định hơn (mạng 3G, 4G; sử dụng trên đường di chuyển của xe hơi ở các nơi có sóng kém), bài toán sẽ khó hơn.
Do vậy, nếu tự chấm, tôi sẽ cho độ ổn định của Kiki Zing MP3 đạt 8,5 điểm, còn Kiki xe hơi là 6 điểm. Đây là sự tự nhìn nhận một cách thận trọng của đội ngũ phát triển sản phẩm, chúng tôi vẫn đang đưa ra những điều chỉnh phù hợp, giúp người dùng trải nghiệm trợ lý giọng nói tiếng Việt Kiki trên xe hơi được mượt và ổn định nhất.
- Kiki là một sản phẩm AI “Made in Viet Nam”, yếu tố nào tạo nên thành công cho trợ lý giọng nói này ?
Tuy đã đạt được một số cột mốc nhất định, nhưng chúng tôi vẫn xác định còn rất nhiều việc cần làm để tạo trải nghiệm tốt hơn cho người dùng.
Chúng tôi sẽ cải thiện tốt hơn nữa những thách thức đặt ra như: hiểu được ý định người dùng trong môi trường tiếng ồn lớn; mạng không ổn định; giọng lệnh đặc trưng vùng miền; địa điểm địa lý chưa phổ cập… Trong khi một số sản phẩm AI khác chọn làm các tính năng hoành tráng, thì chúng tôi chỉ muốn chọn tập trung, làm mịn những bài toán nhỏ, gỡ dần những điểm gợn nhỏ. Đôi khi, xử lý được bài toán nhỏ lại tạo ra trải nghiệm mượt, hay hình thành sự khác biệt giữa Kiki với sản phẩm khác.
Có thể nói, những gì Kiki đạt được còn khá khiêm tốn. Nhưng, có 3 yếu tố giúp sản phẩm có được những kết quả như hiện tại.
– Sự chuẩn bị: Nhờ sự chuẩn bị các nền tảng công nghệ khá sớm nên Kiki đã có sẵn hầu hết công nghệ cần có khi cơ hội đến. Nếu không có sự chuẩn bị từ rất sớm thì Kiki có thể không được như hôm nay. Đây là minh chứng cho tầm nhìn Zalo về xu thế phát triển sản phẩm.
– Con người: Những con người nhiệt huyết, tài năng của đội ngũ phát triển sản phẩm là yếu tố quan trọng. Họ quyết định những gì Kiki đạt được ngày hôm nay. Nếu không có những cố gắng, những cuộc họp căng thẳng, thời gian làm ngoài giờ liên tục của các thành viên, tôi nghĩ khó có một sản phẩm Kiki đủ tốt đến tay người dùng.
– May mắn: Ai đó nói rằng không có gì là may mắn trong cuộc đời, nhưng tôi cho rằng đây là yếu tố không thể thiếu. Không có một thành công nào mà thiếu yếu tố may mắn. Thành công được khuôn đúc từ rất nhiều nỗ lực và một chút may mắn. Trợ lý giọng nói tiếng Việt Kiki có được một chút may mắn đó.
Trong tương lai, đội ngũ phát triển sản phẩm sẽ tiếp tục hướng tới mục tiêu đưa trợ lý Kiki có mặt ở khắp mọi nơi, trở thành sản phẩm công nghệ định hình thói quen của người Việt, giúp việc kết nối sự giao tiếp giữa con người và máy móc trở nên đơn giản hơn. Một cuộc sống thông minh hơn, đó là điều có thể nhìn thấy trong tương lai không xa.
T.T.Z.
Nguồn do Nhóm Truyền thông Zing cung cấp.