Các mô hình AI hiện đại đang phát triển mạnh mẽ đến mức dường như chúng có thể tạo ra hầu hết mọi thứ chỉ bằng cách sử dụng các câu lệnh (prompt) phù hợp. Tuy nhiên, liệu công nghệ AI tạo ảnh đã đủ “phép thuật” để tái hiện lại vẻ đẹp và tinh thần của những bức ảnh mang tính biểu tượng nhất thế kỷ 20? Thuthuatmobile.net đã thực hiện một thử nghiệm chuyên sâu để đánh giá khả năng thực sự của trí tuệ nhân tạo trong lĩnh vực nhiếp ảnh kinh điển.
Tại Sao Lại Thử Nghiệm Này?
Mục đích chính của thử nghiệm này là kiểm chứng xem liệu tuyên bố về sức mạnh “không giới hạn” của AI có đúng hay không. Trong khi những thí nghiệm tương tự có thể khiến nhiều người làm sáng tạo lo lắng, các nhiếp ảnh gia chuyên nghiệp thường cảm thấy khá an toàn trước sự thống trị của AI trong tương lai, và lý do rất đơn giản: họ là người ghi lại hiện thực.
Những bức ảnh được sử dụng trong bài viết này không chỉ là những kiệt tác của nghệ thuật nhiếp ảnh mà còn là những “viên nang thời gian” ghi lại chính xác thời điểm chúng được chụp. Một mô hình AI có thể tạo ra thứ gì đó với cảm giác tương tự, nhưng việc kỳ vọng một hình ảnh do AI tạo ra có thể mang bất kỳ ý nghĩa văn hóa quan trọng nào thực sự là điều vô lý.
Công cụ được lựa chọn cho thử nghiệm này là Fotor AI, một trình tạo ảnh từ văn bản (text-to-image generator) tương đối đơn giản nhưng thường mang lại kết quả khá ổn định. Mặc dù Fotor AI không thể so sánh với các công cụ mạnh mẽ như Midjourney, và dù nó rất tốt cho nhiều phong cách nghệ thuật khác nhau, nhưng kỹ năng “nhiếp ảnh” của nó đôi khi còn rất sơ sài. Điều này đặc biệt đúng khi cố gắng yêu cầu mô hình tái tạo một hình ảnh theo đúng thời kỳ của bức ảnh gốc.
AI Xử Lý Chủ Thể Con Người Như Thế Nào?
Để bắt đầu, chúng ta sẽ thử nghiệm với huyền thoại Dorothea Lange và bức ảnh “Migrant Mother” – một trong những bức ảnh mang tính biểu tượng nhất mọi thời đại. Ban đầu, chúng tôi nghĩ rằng Fotor AI sẽ quen thuộc với nó.
Hình ảnh chụp một người mẹ bế hai con trong thời kỳ Đại suy thoái, một kiệt tác của Dorothea Lange
Tuy nhiên, mô hình AI này không quá giỏi với các tên riêng, nên chúng tôi buộc phải mô tả chi tiết bức ảnh cho đến khi nó “hiểu” được ý tưởng. Kết quả khá ổn:
Hình ảnh AI tạo ra cảnh người mẹ bế hai con trong thời kỳ Đại suy thoái, với ánh sáng studio hiện đại
Khi xem xét kỹ hơn, vấn đề lớn nhất là ánh sáng. Trong bức ảnh gốc, chủ thể được chiếu sáng bằng ánh sáng tự nhiên, trong khi AI lại mang đến cho “người mẹ” của chúng ta một ánh sáng studio hiện đại. Bức ảnh cũng trông quá “mượt mà” theo đánh giá của chúng tôi, mặc dù điều này có thể khắc phục được bằng cách thêm một chút nhiễu hạt (noise) và hiệu ứng phim.
Về bố cục, đây là một thất bại nhỏ. Dorothea Lange đã cẩn thận sắp xếp bố cục để kể một câu chuyện về những người bị ảnh hưởng bởi cuộc Đại suy thoái, với từng chi tiết từ cách cắt cúp đến ánh sáng đều góp phần truyền tải thông điệp. Ngược lại, AI vẫn đang gặp khó khăn với các yếu tố hàm ý (subtext), vì vậy không có chi tiết nào trong số đó được chuyển tải vào kết quả cuối cùng.
Fotor cũng cung cấp tùy chọn sử dụng ảnh-sang-ảnh (image-to-image), và điều này mang lại kết quả gần hơn (ít nhất là về bố cục):
Hình ảnh do AI tạo ra dựa trên ảnh gốc Migrant Mother, thể hiện bố cục tương tự
Mặc dù những hình ảnh này khó phân biệt, chúng tôi không hài lòng với kết quả vì Fotor dường như đã áp dụng một bộ lọc làm đẹp chất lượng thấp lên chủ thể. Vậy còn một cảnh phức tạp hơn thì sao?
Bức ảnh lịch sử cựu Tổng thống Richard Nixon dùng bữa với các quan chức Trung Quốc, ghi lại khoảnh khắc ngoại giao quan trọng
Đối với thử thách này, chúng ta sẽ quay nhanh đến đầu những năm 70 và thử tái tạo bức ảnh “Nixon ở Trung Quốc” của Oliver F. Atkins. Dưới đây là kết quả của Fotor. Điều đầu tiên bạn sẽ nhận thấy là Fotor rõ ràng không biết Richard Nixon là ai (mô hình có lẽ sẽ “phát nổ” nếu chúng tôi sử dụng prompt “Watergate”).
Hình ảnh AI tạo ra cảnh một người đàn ông dùng đũa tại bàn ăn, bao quanh bởi các quan chức Trung Quốc, mang hơi hướng ảnh gốc Nixon
Ý chính của bức ảnh đã được thể hiện (bao gồm cả sự bối rối khi gắp thức ăn bằng đũa), nhưng bố cục và bối cảnh quá khác biệt. Có lẽ chúng tôi sẽ không thể nhận ra bức ảnh do AI tạo ra này dựa trên ảnh gốc nếu chưa từng xem nó.
Chế độ ảnh-sang-ảnh cho ra bố cục tương tự nhưng chất lượng tổng thể bị giảm đáng kể. Khuôn mặt bị biến dạng, đây là một trong nhiều dấu hiệu của hình ảnh do AI tạo ra kém chất lượng.
Hình ảnh do AI tạo ra dựa trên ảnh Nixon ở Trung Quốc, với bố cục tương tự nhưng chất lượng hình ảnh và khuôn mặt bị giảm sút
Khả Năng AI Tái Tạo Cảnh Vật và Vật Thể Vô Tri
Hãy bắt đầu với kiệt tác “Thảm Họa Hindenburg” của Sam Shere. Bức ảnh “đời người chỉ có một lần” này cực kỳ phức tạp, vì vậy đây sẽ là một thử thách lớn cho AI.
Bức ảnh kinh điển ghi lại khoảnh khắc khinh khí cầu Hindenburg bốc cháy và rơi xuống đất
Fotor ít nhiều đã hiểu được yêu cầu của chúng tôi.
Hình ảnh AI tạo ra cảnh khinh khí cầu Hindenburg bốc cháy, thể hiện sự kiện thảm khốc
Chúng tôi dùng từ “ít nhiều” bởi vì chiếc khinh khí cầu vẫn còn nguyên vẹn mặc dù đã bốc cháy dữ dội. Nó cũng quá gần mặt đất và việc tái tạo bố cục của bức ảnh gốc là điều không thể.
Khi sử dụng ảnh gốc làm đầu vào, gần như không thể phân biệt hai hình ảnh này:
Phiên bản AI tái tạo thảm họa Hindenburg dựa trên ảnh gốc, khó phân biệt với bản gốc
Vậy còn một cảnh không dễ nhận biết ngay lập tức thì sao? Bức ảnh “Cactus Hot Air Balloon” của Leon Gimpel hoàn toàn phù hợp.
Bức ảnh lịch sử chụp hai khinh khí cầu tại Paris, ví dụ hiếm hoi về nhiếp ảnh màu đầu những năm 1900
Đây cũng là một trong những ví dụ hiếm hoi về việc sử dụng nhiếp ảnh màu vào đầu những năm 1900, vì vậy sẽ rất thú vị để xem liệu AI có thể tái tạo vẻ ngoài độc đáo đó hay không. Kết quả không có gì ngạc nhiên: nó không thể.
Hình ảnh do AI tạo ra cảnh hai khinh khí cầu trong một không gian kín ở Paris, dựa trên ảnh gốc Cactus Hot Air Balloon
Bối cảnh (Grand Palais, Paris) là chính xác, nhưng bố cục và các chủ thể hầu như không giống với bản gốc. Màu sắc cũng không đúng với thời kỳ. Sử dụng ảnh gốc làm prompt đã mang lại kết quả tốt hơn nhiều:
Hình ảnh AI tái tạo cảnh hai khinh khí cầu trong một không gian kín ở Paris, nhưng theo phong cách vẽ tranh thay vì ảnh chụp
Tuy nhiên, có một vấn đề nhỏ. Có vẻ như Fotor chỉ đơn giản là tái tạo lại hình ảnh gốc theo phong cách tranh màu nước/pastel, mặc dù chúng tôi đã sử dụng các prompt phủ định để ngăn mô hình làm điều đó. Do đó, bạn không nên kỳ vọng nhiều vào việc cải thiện ở đây.
AI Có Thể Tái Tạo Phong Cảnh và Cảnh Đô Thị?
Với cách sử dụng bộ lọc đen trắng màu cam và vàng để chơi với độ tương phản, cùng với cách tiếp cận điêu luyện trong phòng tối, phong cách của Ansel Adams dễ dàng nhận biết và rất khó tái tạo.
Bức ảnh phong cảnh đen trắng nổi tiếng của Ansel Adams, chụp mặt trăng mọc trên thị trấn sa mạc Hernandez, New Mexico
Vì vậy, tất nhiên, chúng tôi quyết định cho Fotor một thử thách lớn. Mặc dù cảnh không giống nhau chút nào, nhưng độ tương phản lại gợi ý về phong cách của Ansel Adams.
Hình ảnh AI tạo ra cảnh đêm với mặt trăng chiếu sáng thị trấn sa mạc, lấy cảm hứng từ phong cách nhiếp ảnh Ansel Adams
Chế độ ảnh-sang-ảnh tốt hơn nhiều về tổng thể nhưng hình ảnh đã mất tất cả các chi tiết nhỏ hơn:
Hình ảnh AI tạo ra phong cảnh đêm tối với mặt trăng chiếu sáng thị trấn sa mạc, dựa trên ảnh gốc của Ansel Adams nhưng thiếu chi tiết
Chúng tôi rất yêu thích nhiếp ảnh đường phố, nhưng thật không may, hầu hết các bức ảnh đường phố mang tính biểu tượng vẫn chưa thuộc phạm vi công cộng. Do đó, bức ảnh kinh điển “Kissing the War Goodbye” của Victor Jorgensen sẽ là lựa chọn phù hợp.
Bức ảnh lịch sử nổi tiếng ghi lại cảnh một thủy thủ hôn một y tá ở Quảng trường Thời đại trong ngày chiến thắng
Đúng như những gì có thể mong đợi từ Fotor vào thời điểm này, kết quả cuối cùng khá ổn. Tuy nhiên, có hai vấn đề.
Hình ảnh AI tạo ra cảnh thủy thủ hôn y tá ở Quảng trường Thời đại, trông có vẻ dàn dựng và giống một bức ảnh khác hơn
Thứ nhất, nó giống một bức ảnh khác của cảnh này do Alfred Eisenstadt chụp hơn, và thứ hai, bây giờ nó trông hoàn toàn dàn dựng (bức ảnh gốc thì không).
Về mặt kỹ thuật, ánh sáng giống với ánh sáng studio hiện đại và bức ảnh có độ tương phản quá cao so với sở thích của chúng tôi. Hãy sử dụng ảnh gốc làm prompt:
Hình ảnh AI tái tạo cảnh thủy thủ hôn y tá ở Quảng trường Thời đại, với chủ thể chính đẹp nhưng chi tiết nền bị méo mó
Kết quả này khá lẫn lộn. Mặc dù chúng tôi thích giao diện của các chủ thể chính, nhưng khuôn mặt của những người ở hậu cảnh trông như bước ra từ một bộ phim kinh dị – một điều không bao giờ tốt.
Nhìn chung, chúng tôi ấn tượng với một số tác phẩm của Fotor, nhưng kết quả quá không nhất quán theo đánh giá của chúng tôi. Midjourney và DALL-E vẫn vượt trội khi nói đến việc tạo hình ảnh dựa trên prompt, đặc biệt nếu bạn muốn tạo ra những bức ảnh trông chân thực. Qua thử nghiệm này, Thuthuatmobile.net nhận định rằng dù AI tạo ảnh đã tiến bộ vượt bậc, nhưng nó vẫn chưa thể thay thế hoàn toàn vai trò của nhiếp ảnh gia con người trong việc ghi lại hiện thực, truyền tải cảm xúc và ý nghĩa văn hóa sâu sắc.