Trong thế giới công nghệ phát triển như vũ bão, các mô hình tạo ảnh bằng trí tuệ nhân tạo (AI) đang tiến bộ với tốc độ chóng mặt. Tuy nhiên, một thực tế phổ biến là chúng vẫn thường xuyên tạo ra những hình ảnh “khó hiểu” hoặc không hoàn toàn đúng ý. Nhiều người có xu hướng đổ lỗi cho các câu lệnh (prompt) do con người nhập vào, cho rằng khả năng mô tả không nhất quán của chúng ta là nguyên nhân chính. Nhưng liệu điều này có thực sự đúng? Là chuyên gia từ thuthuatmobile.net, chúng tôi quyết định thực hiện một thử nghiệm độc đáo để kiểm tra xem liệu AI có thể hoạt động hiệu quả hơn khi chỉ làm việc với các prompt cũng do AI tạo ra hay không. Mục tiêu là đi sâu vào bản chất của vấn đề, xác định liệu giới hạn nằm ở khả năng “hiểu” của AI hay ở cách chúng ta truyền đạt ý tưởng, từ đó mang đến cái nhìn chuyên sâu và đáng tin cậy cho độc giả Việt Nam.
Quy Trình Thử Nghiệm: Thiết Lập Các Giới Hạn
Khi các mô hình tạo ảnh AI lần đầu xuất hiện vài năm trước, nhiều người đã tin rằng chúng sẽ thay đổi hoàn toàn ngành truyền thông hình ảnh. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, nhưng ảnh AI thường rơi vào tình trạng khó lường, đặc biệt nếu bạn yêu cầu những thứ phức tạp hơn (ví dụ, AI thường gặp khó khăn với việc tạo hình ảnh bàn tay người). Bạn có thể đổ lỗi cho chính các mô hình AI hoặc cho khả năng tạo prompt không nhất quán của con người. Cách tự nhiên nhất để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có cho kết quả tốt hơn nếu bạn nhập các prompt được tạo ra bởi AI hay không.
Để kiểm tra giả thuyết này, chúng tôi sẽ sử dụng Gemini của Google để tạo ra một loạt các prompt mà tránh sử dụng tên của đối tượng hoặc bức ảnh mà chúng tôi đang cố gắng tạo ra. Điều này sẽ giúp kiểm tra mức độ “đọc hiểu” hướng dẫn của AI. Dĩ nhiên, vẫn có khả năng mô hình sẽ lấy cảm hứng từ dữ liệu mà nó đã được huấn luyện (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng chúng ta sẽ chấp nhận điều đó. Công cụ được chọn để tạo ảnh là Bing Image Creator, dựa trên mô hình DALL-E 3 tiên tiến. Để kiểm tra kỹ lưỡng khả năng của mô hình, chúng tôi sẽ bắt đầu với các hình dạng đơn giản, sau đó chuyển sang các hình ảnh phức tạp hơn khi thử nghiệm tiến triển. Tương tự như ChatGPT và các công cụ tương tự, Gemini đôi khi đưa ra các câu trả lời khá rườm rà. Vì vậy, chúng tôi quyết định giới hạn prompt ở mức 500 ký tự để giữ cho các prompt nhất quán và dễ quản lý.
AI Với Các Hình Dạng Đơn Giản: Kết Quả Bất Ngờ?
Chúng ta hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó, và nó đã đưa ra đoạn mô tả sau:
“Một hình bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong có số đo chính xác 90 độ. Đó là một hình tứ giác đều với các cạnh đối song song.”
Sau khi đưa mô tả này vào DALL-E, chúng tôi nhận được kết quả như sau:
Hình ảnh AI tạo ra một hình vuông với các đường hình học và ký hiệu đo góc
Đúng là một hình vuông, nhưng có vẻ AI đã hơi “thừa thãi” với các chi tiết hình học. Giờ là lúc nâng độ khó, chúng tôi yêu cầu AI mô tả một hình lập phương.
“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một hình tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”
Kết quả thật đáng ngạc nhiên:
Hình ảnh AI tạo ra một khối Rubik trên nền trắng, với các ô vuông màu sắc đặc trưng
Bạn còn nhớ chúng ta đã nói gì về việc các mô hình AI khó đoán không? Vâng, ở đây, DALL-E đã tạo ra một hình lập phương, nhưng nó đã hơi “nhầm lẫn” và biến nó thành một khối Rubik. Mặc dù chúng tôi đã tránh dùng từ chính xác một cách triệt để, AI vẫn hiểu sai một phần – có lẽ là do sự phổ biến của món đồ chơi trí tuệ này.
AI Và Nhiếp Ảnh Với Chủ Thể Con Người: Tái Tạo Biểu Tượng
Tình huống với khối lập phương cho thấy rằng ngay cả với mô tả chi tiết và “khách quan”, AI vẫn có thể hiểu sai những hướng dẫn khá trực tiếp. Vậy hãy xem nó sẽ thể hiện như thế nào với các mô tả do AI tạo ra về những bức ảnh cổ điển, chẳng hạn như “Migrant Mother” của Dorothea Lange. Đây là ảnh gốc:
Bức ảnh biểu tượng của Dorothea Lange chụp một người mẹ di cư với khuôn mặt khắc khổ và các con đang nép mình trong thời kỳ Đại Suy Thoái
Đây là prompt từ Gemini:
“Một người phụ nữ, khuôn mặt hằn lên vẻ lo lắng, nhìn ra ngoài khung hình. Bà được bao quanh bởi các con, khuôn mặt chúng bị che khuất hoặc quay đi. Bàn tay bà đặt gần mặt, truyền tải sự kiệt sức và lo âu. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn rách, và bố cục tổng thể u ám, nhấn mạnh gánh nặng hoàn cảnh của bà.”
Đây là cách DALL-E diễn giải bức ảnh nổi tiếng này:
Hình ảnh do AI tạo ra gợi nhớ đến bức ảnh nổi tiếng về người mẹ di cư, với người phụ nữ và các con trong bối cảnh khó khăn
Khá giống! Tuy không hoàn toàn chính xác, DALL-E rõ ràng đã bỏ qua phần “được bao quanh bởi các con, khuôn mặt chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại đảm nhiệm vai trò này.
Hãy thử một bức ảnh phức tạp hơn. Có lẽ bạn đã từng thấy bức ảnh biểu tượng “Lunch atop a Skyscraper”:
Ảnh đen trắng biểu tượng các công nhân ngồi ăn trưa trên dầm thép của tòa nhà chọc trời đang xây dựng ở độ cao chóng mặt
Đây là prompt từ Gemini:
“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không trung. Họ ăn trưa, chân đung đưa. Dầm được treo lơ lửng phía trên một thành phố rộng lớn. Những người đàn ông có vẻ thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”
Prompt xuất sắc này đã mang lại kết quả cũng xuất sắc không kém:
Hình ảnh do AI tạo ra tái hiện bức ảnh nổi tiếng về các công nhân ăn trưa trên dầm nhà chọc trời, với bố cục và không khí tương đồng
Khi bạn bỏ qua những dấu hiệu kinh điển của một bức ảnh AI (những chiếc bát giống hệt nhau và các chủ thể bị “sao chép”), kết quả gần như giống đến kỳ lạ về bố cục và không khí tổng thể. Điều này không mấy ngạc nhiên – không chỉ bức ảnh này cực kỳ nổi tiếng, mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi có một linh cảm rằng DALL-E đã tái tạo nội dung của nó trong quá trình huấn luyện.
Thử Thách Cuối Cùng: AI Với Các Bức Ảnh Phức Tạp và Trừu Tượng
Vì đây là “bài kiểm tra” cuối cùng trong thử nghiệm, chúng tôi sẽ không nhân nhượng! Mặc dù AI khá tốt với các chủ thể con người, nhưng nó thường “bất lực” khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh biểu tượng “Earthrise” được chụp từ quỹ đạo Mặt Trăng của Apollo 8 thì sao?
Ảnh Trái Đất chụp từ quỹ đạo Mặt Trăng bởi tàu Apollo 8, với bề mặt Mặt Trăng ở tiền cảnh và Trái Đất đang "mọc" lên
Đây là prompt từ Gemini:
“Một hình cầu được chiếu sáng một phần treo trong một khoảng không tối tăm. Một hình cầu nhỏ hơn, có tông màu xám, mọc lên trên đường chân trời của nó. Hình cầu lớn hơn hiển thị các mảng màu xanh và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai hình cầu và bóng tối nhấn mạnh sự mong manh và cô lập của hình cầu nhỏ hơn, đang mọc lên.”
Gemini thực sự đã “đánh rơi quả bóng” (hay đúng hơn là hình cầu) với mô tả này. Xem xét việc mô tả quá trừu tượng, chúng tôi đã thêm cụm từ “được chụp từ quỹ đạo Mặt Trăng gần” vào prompt, nhưng điều đó cũng không giúp ích nhiều:
Hình ảnh AI tạo ra mô tả Mặt Trăng ở tiền cảnh và Trái Đất ở hậu cảnh, với ánh sáng phản chiếu trên bề mặt Mặt Trăng
Đúng là một bìa album progressive rock tuyệt vời, nhưng nó không liên quan gì đến “Earthrise”. Để kết thúc thử nghiệm, chúng tôi đã chọn bức ảnh ít nổi tiếng nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:
Hình ảnh đen trắng của Edward Weston miêu tả cảnh công nghiệp với các ống khói và cấu trúc kim loại đồ sộ, nhấn mạnh tính trừu tượng của hình khối
Đây là prompt từ Gemini:
“Một loạt các bể công nghiệp kim loại tròn trịa lấp đầy khung hình. Các hình dạng của chúng trơn tru và phồng lên, tạo ra một mẫu lặp lại. Ánh sáng phản chiếu trên các bề mặt, làm nổi bật các hình dạng cong của chúng và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình thức và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”
Có vẻ là một prompt tốt, hãy xem DALL-E có đồng ý không:
Hình ảnh AI tạo ra mô tả một loạt các trụ hình trụ sáng bóng xếp hàng cạnh nhau, lấp đầy toàn bộ màn hình với kết cấu kim loại
Mặc dù chúng tôi đánh giá cao những rung cảm khoa học viễn tưởng mà bức ảnh mang lại, nhưng nó không giống chút nào so với ảnh gốc. Chúng tôi không muốn kết thúc thử nghiệm với một thất bại thảm hại, vì vậy chúng tôi quyết định giúp đỡ AI bằng cách thêm thuật ngữ “bức ảnh những năm 1920” vào cuối prompt.
Suy nghĩ của chúng tôi là thuật ngữ cụ thể đó có thể giúp làm rõ bức ảnh mà chúng tôi đang đề cập. Thật không may, AI đã làm chúng tôi thất vọng một lần nữa và tạo ra một bìa album prog rock khác:
Hình ảnh AI tạo ra các trụ lớn tròn ở phía trên, với ánh sáng bóng bẩy và không gian tối
Kết Luận: Điều Gì Thực Sự Ảnh Hưởng Đến Chất Lượng Ảnh AI?
Kết quả của thử nghiệm này đã mang lại những phát hiện thú vị và kết luận mà chúng ta có thể rút ra là: khả năng tạo ảnh bằng AI vẫn cực kỳ khó đoán, đặc biệt là với các khái niệm phức tạp và trừu tượng. Dù prompt được tạo bởi AI và chính xác đến đâu, hay do con người và không hoàn hảo, thì kết quả vẫn dường như ngẫu nhiên.
Vì vậy, lần tới khi bạn cố gắng đổ lỗi cho bản thân và kỹ năng tạo prompt của mình, hãy nhớ rằng kết quả có thể sẽ gần như tương tự ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau. Điều này khẳng định rằng, trong khi công nghệ AI tạo ảnh đang phát triển, những giới hạn cố hữu trong khả năng “hiểu” và “diễn giải” các khái niệm phức tạp của chúng vẫn còn rất lớn. Thuthuatmobile.net sẽ tiếp tục theo dõi và cập nhật những tiến bộ mới nhất trong lĩnh vực này.
Bạn có từng thử nghiệm AI tạo ảnh với các prompt độc đáo? Hãy chia sẻ trải nghiệm và nhận định của bạn dưới phần bình luận để cùng thảo luận về tiềm năng và thách thức của công nghệ AI này! Khám phá thêm các bài viết chuyên sâu về công nghệ AI trên thuthuatmobile.net để cập nhật kiến thức mới nhất!