Google IO đã mang đến nhiều tính năng mới nhằm mở rộng khả năng của Google Gemini. Một trong những cập nhật đáng chú ý nhất là sự ra mắt của Gemini Advanced, với Google Gemini Pro 1.5 trước đây chỉ dành cho các nhà phát triển, giờ đây đã có sẵn trên nền tảng tiên tiến của Google. Với Google Gemini Pro 1.5, người dùng có thể tận dụng một cửa sổ ngữ cảnh lên đến 1 triệu token, cho phép xử lý một lượng lớn thông tin từ các tài liệu như Google Docs, PDFs, và tệp Word. Điều này có nghĩa là bạn có thể thêm một lượng lớn dữ liệu từ các nguồn khác nhau và đặt câu hỏi cụ thể dựa trên ngữ cảnh rộng lớn đó. Chẳng hạn, một cửa sổ ngữ cảnh triệu token cho phép xem xét một giờ video, 11 giờ âm thanh, 30.000 dòng mã hoặc một tài liệu 700.000 từ. Đây là một bước tiến lớn trong việc xử lý thông tin đa dạng và phức tạp, minh chứng cho khả năng vượt trội của Google Gemini trong việc tích hợp và quản lý dữ liệu khổng lồ.
Một thông báo quan trọng khác tại Google IO là sự xuất hiện của mô hình đa phương tiện có độ trễ thấp gọi là Gemini Flash. Mô hình này cung cấp khả năng lý luận tiên tiến và các cửa sổ ngữ cảnh khổng lồ lên đến 1 triệu token, giúp nó hoạt động hiệu quả hơn so với các mô hình Gemini khác. Bạn có thể thử nghiệm Gemini Flash ngay bây giờ trong Google AI Studio và Vertex AI. Đối với các nhà phát triển, Google cung cấp cửa sổ ngữ cảnh mở rộng hai triệu token, tăng khả năng lưu trữ và xử lý dữ liệu lớn hơn. Đặc biệt, mức giá của Gemini Flash rất phải chăng: 35 cent cho nội dung dưới 128.000 token và 70 cent cho lên đến 1 triệu token đầu ra, cũng như 53 cent cho mỗi triệu token đầu ra cho các gợi ý lên đến 128.000 token và 1,05 đô la cho các gợi ý dài hơn. Điều này rẻ hơn nhiều so với GPTo của OpenAI, hiện được định giá ở mức 5 đô la mỗi triệu token đầu vào và 15 đô la mỗi triệu token đầu ra, làm cho Gemini Flash trở thành mô hình đa phương tiện mạnh mẽ với giá cả phải chăng nhất trên thị trường.
Bên cạnh đó, Google cũng công bố tính khả dụng của các tính năng thị giác mới cho Gemma, mô hình nguồn mở dựa trên Google Gemini. Gemma hiện có sẵn trên Vertex AI và các nền tảng khác, với các phiên bản như RecurrentGemma và CodeGemma. Bắt đầu từ hôm nay, bạn có thể sử dụng PaliGemma, một mô hình đa phương tiện với các khả năng thị giác. Hiện tại, Gemma có hai kích thước nhỏ, 2 tỷ và 7 tỷ tham số, nhưng sẽ sớm có phiên bản 27 tỷ tham số. Sự gia tăng số lượng tham số này giúp Gemma xử lý thông tin và thực hiện các tác vụ phức tạp hơn với độ chính xác cao hơn. Google Gemini cũng đang bắt đầu triển khai trên Google Search với thông tin thời gian thực và các khả năng tùy chỉnh. Người dùng có thể thử nghiệm AI Overviews, giúp Google tạo ra trang kết quả tìm kiếm tùy chỉnh được hỗ trợ bởi AI, cung cấp thông tin về ăn uống, công thức nấu ăn, phim, khách sạn và mua sắm. Sự kết hợp giữa khả năng tìm kiếm và AI sẽ nâng cao trải nghiệm người dùng và cung cấp thông tin chính xác, kịp thời.
Một sản phẩm đáng chú ý khác là Project Astra, một tác nhân AI toàn cầu liên tục xử lý và phản hồi mọi thứ mà nó thấy trong thời gian thực qua video. Google đã trình diễn Project Astra năm ngoái, và OpenAI cũng đã giới thiệu một mô hình tương tự gần đây. Tuy nhiên, sản phẩm này sẽ chỉ được ra mắt trên các ứng dụng Gemini vào cuối năm nay. Project Astra hứa hẹn mang lại khả năng giám sát và phân tích dữ liệu video thời gian thực, giúp nâng cao hiệu quả quản lý và đưa ra quyết định nhanh chóng. Một cập nhật khác là Imagen 3, phiên bản mới của mô hình tạo hình ảnh AI của Google. Imagen 3 hứa hẹn sẽ thực tế hơn, đáp ứng tốt hơn với các gợi ý và có khả năng hiển thị văn bản tốt hơn. Google cũng giới thiệu VO, một phiên bản của Google có thể tạo ra video dài ấn tượng. Bạn có thể đăng ký thử nghiệm các công cụ này trên Google Labs, nơi cung cấp các dự án thử nghiệm của Google. Imagen 3 và VO sẽ mở ra nhiều cơ hội sáng tạo mới cho các nhà phát triển và người dùng, tạo nên những sản phẩm chất lượng cao và đa dạng.
Mặc dù có nhiều thông báo nhỏ khác, hiện tại, hầu hết các tính năng mới vẫn chưa thể sử dụng ngay lập tức. Tuy nhiên, bạn có thể yên tâm rằng Google Gemini sẽ sớm được triển khai rộng rãi trên tất cả các sản phẩm của Google. Cách tiếp cận của Google là tạo ra các tác nhân tự động giúp người dùng hoàn thành công việc nhanh hơn và hiệu quả hơn. Với những cập nhật và cải tiến này, Google Gemini hứa hẹn sẽ mang lại nhiều trải nghiệm mới mẻ và tiện ích cho người dùng, đồng thời củng cố vị thế của Google trong lĩnh vực trí tuệ nhân tạo và công nghệ đa phương tiện. Những bước tiến này không chỉ đáp ứng nhu cầu ngày càng cao của người dùng mà còn định hình lại cách chúng ta tương tác và sử dụng công nghệ trong cuộc sống hàng ngày.
Tác giả Hồ Đức Duy. © Sao chép luôn giữ tác quyền