Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức công bố hai mô hình suy luận AI mới đầy đột phá là o3 và o4-mini. Đây được xem là một bước nhảy vọt đáng kể trong năng lực trí tuệ nhân tạo của công ty, đặc biệt thể hiện rõ nét qua khả năng suy luận bằng hình ảnh hoàn toàn mới mẻ, mang đến một tầm cao mới cho ChatGPT.
Những Mô Hình AI Mới Có Khả Năng “Suy Nghĩ” Với Hình Ảnh
OpenAI khẳng định rằng các mô hình mới này có thể diễn giải bất kỳ hình ảnh nào mà người dùng tải lên, dù đó là một bản phác thảo trên bảng trắng, biểu đồ trong sách giáo khoa hay một tài liệu PDF đồ họa phức tạp. Theo thông báo chính thức về việc ra mắt o3 và o4-mini của OpenAI, họ nhấn mạnh:
“Chúng không chỉ đơn thuần nhìn thấy một hình ảnh – chúng suy nghĩ cùng với nó. Điều này mở ra một loại hình giải quyết vấn đề mới, kết hợp lý luận thị giác và văn bản, được phản ánh qua hiệu suất vượt trội trên các điểm chuẩn đa phương thức.”
Khả năng phân tích hình ảnh được tích hợp sâu vào chuỗi suy luận (chain of thought) mà các mô hình thực hiện. Các mô hình AI này có thể phóng to, xoay hoặc cắt hình ảnh để cải thiện quá trình xử lý. Đáng chú ý, chúng vẫn hoạt động hiệu quả ngay cả với những hình ảnh chất lượng thấp.
Ví dụ, khi giải quyết một vấn đề khoa học có liên quan đến biểu đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python, và sau đó tạo ra một biểu đồ để giải thích những phát hiện của mình.
Mô hình o4-mini của ChatGPT đang mô tả chi tiết một hình ảnh đơn giản gồm ngôi nhà, mặt trời và cây cối, thể hiện khả năng suy luận thị giác.
Trong quá trình suy luận, o3 và o4-mini có thể linh hoạt sử dụng tất cả các công cụ sẵn có của ChatGPT, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “tác nhân” (agentic capability) này cho phép chúng tự động chọn công cụ ChatGPT lý tưởng cho từng nhiệm vụ cụ thể. Nhờ đó, người dùng và nhà phát triển có thể thực hiện các quy trình làm việc đa bước và giải quyết những nhiệm vụ phức tạp.
Mô hình o4-mini-high là một biến thể của o4-mini, dành nhiều thời gian và công sức tính toán hơn cho mỗi yêu cầu để mang lại kết quả chất lượng cao hơn. Một số kịch bản ứng dụng hàng ngày có thể kể đến như:
- Tạo và đánh giá các nghiên cứu trong sinh học, kỹ thuật và các lĩnh vực STEM khác, đưa ra lý luận chi tiết từng bước và giải thích trực quan.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn, chẳng hạn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, để tạo ra những hiểu biết sâu sắc về kinh doanh.
Các mô hình này đã được đào tạo thông qua học tăng cường (reinforcement learning), một khái niệm then chốt trong AI. Giờ đây, chúng có thể xử lý tốt hơn các vấn đề phức tạp (“fuzzier problems”) vì chúng có khả năng suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng với tài khoản ChatGPT Plus, Pro và Team, trong khi o3-pro dự kiến sẽ ra mắt trong những tuần tới. Bạn có thể tìm thấy chúng trong menu lựa chọn mô hình. Người dùng miễn phí cũng có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn Think trong giao diện trước khi gửi yêu cầu của họ.
Vì Sao Khả Năng Đa Phương Thức Của ChatGPT Lại Đáng Kinh Ngạc?
Bằng cách cho phép AI “suy nghĩ với hình ảnh”, các mô hình mới của OpenAI có thể giải quyết các vấn đề trong thế giới thực đòi hỏi việc diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích biểu đồ khoa học hoặc trích xuất thông tin chuyên sâu từ các biểu đồ phức tạp. Kết quả là, ChatGPT đã trở nên nhận biết ngữ cảnh tốt hơn đáng kể.
Các mô hình này giờ đây tự chủ hơn và có thể hoạt động hiệu quả hơn khi tự động điều chỉnh một mô hình cụ thể cho một nhiệm vụ. Khi các tác nhân AI tự động này có thể xử lý các nhiệm vụ phức tạp, đa bước, khả năng suy luận và trí tuệ thị giác của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.
Với những cải tiến vượt bậc này, thuthuatmobile.net tin rằng ChatGPT sẽ tiếp tục định hình lại cách chúng ta tương tác với công nghệ. Hãy chia sẻ ý kiến của bạn về những khả năng mới này và cách bạn hình dung chúng sẽ thay đổi công việc hàng ngày của mình!