Năm 2023 là một năm quan trọng đối với AI sáng tạo khi nó đi từ phòng thí nghiệm nghiên cứu đến đời thực với hàng triệu người sử dụng thông qua các công cụ phổ biến như ChatGPT và Microsoft Copilot. Năm nay, AI dự kiến sẽ trở nên dễ tiếp cận hơn, đa sắc thái hơn và được tích hợp vào các công nghệ giúp cải thiện công việc hàng ngày và giúp giải quyết một số vấn đề thách thức nhất trên thế giới. Dưới đây là ba xu hướng AI quan trọng cần chú ý vào năm 2024. Theo dõi để cập nhật và cải tiến doanh nghiệp của bạn cùng Pacisoft.
Tiềm năng của các mô hình ngôn ngữ nhỏ (Small language models – SMLs)
Ắt hẳn doanh nghiệp của bạn đã không còn xa lạ với khái niệm và sức mạnh của các mô hình ngôn ngữ lớn (LLMs) nếu bạn đã sử dụng Copilot để trả lời các câu hỏi phức tạp. Tuy nhiên điều gây khó khăn ở đây là các mô hình quá lớn đến mức có thể đòi hỏi tài nguyên máy tính đáng kể để chạy. Điều này tạo tiền đề cho sự phát triển của các mô hình ngôn ngữ nhỏ (SLMs) trở thành một vấn đề lớn và trở thành xu hướng AI được quan tâm trong thời gian tới.
SLMs vẫn khá lớn với một số tỷ tham số — khác biệt so với hàng trăm tỷ tham số trong các LLMs — nhưng chúng nhỏ đủ để chạy trên điện thoại mà không cần kết nối mạng. Tham số là các biến, hoặc các yếu tố có thể điều chỉnh, xác định hành vi của một mô hình.
“Các mô hình ngôn ngữ nhỏ có thể làm cho trí tuệ nhân tạo trở nên dễ tiếp cận hơn do kích thước và giá cả phải chăng của chúng. Đồng thời, chúng ta đang khám phá ra các cách mới để làm cho chúng mạnh mẽ như các mô hình ngôn ngữ lớn.” Sebastien Bubeck, người dẫn dắt nhóm Foundations của Machine Learning tại Microsoft Research cho biết.
Khác với các LLMs được huấn luyện trên lượng lớn dữ liệu internet, các mô hình nhỏ hơn sử dụng dữ liệu đào tạo được tinh chỉnh, chất lượng cao, với các nhà nghiên cứu tìm ra ngưỡng mới cho kích thước và hiệu suất. Trong năm nay, bạn có thể mong đợi thấy các mô hình cải thiện được thiết kế để thúc đẩy nghiên cứu và sáng tạo hơn, đáp ứng xu hướng hiện tại.
AI đa phương tiện dần trở thành xu thế
Hầu hết các LLM chỉ có thể xử lý một loại dữ liệu — văn bản — nhưng các mô hình đa phương tiện có thể hiểu thông tin từ các loại dữ liệu khác nhau như văn bản, hình ảnh, âm thanh và video. Khả năng này đang làm cho các công nghệ từ các công cụ tìm kiếm đến các ứng dụng sáng tạo trở nên phong phú và chính xác hơn và mượt mà hơn.
Bạn có thể tìm hiểu từ Copilot điều gì đang xảy ra trong một hình ảnh được tải lên, nhờ vào một mô hình đa phương tiện có thể xử lý hình ảnh, ngôn ngữ tự nhiên và dữ liệu tìm kiếm Bing. Copilot có thể tạo ra, ví dụ, thông tin liên quan như ý nghĩa lịch sử của một tượng đài trong bức ảnh của bạn.
AI đa phương tiện cũng đang cung cấp năng lượng cho Microsoft Designer, một ứng dụng thiết kế đồ họa có thể tạo ra hình ảnh dựa trên mô tả về điều bạn muốn. Và nó cho phép giọng nói thần kinh tùy chỉnh, hoặc các giọng nói tự nhiên hữu ích trong các trình đọc văn bản và công cụ cho những người mắc khuyết âm thanh.
“Đa phương tiện có sức mạnh tạo ra những trải nghiệm giống như con người hơn có thể tận dụng tốt hơn loạt giác quan chúng ta sử dụng như con người, chẳng hạn như thị giác, nói và nghe” Jennifer Marsman, kỹ sư chính của Văn phòng Công nghệ trưởng Kevin Scott của Microsoft nói.