"Phản ngẫu" của "sinh thành" - Diễn đàn Chicken Manga

"Phản ngẫu" của "sinh thành"

{{$t('publishTime')}}：2026-06-12 09:07 {{$t('editTime')}}：2026-06-12 09:08

Công Nghệ Số

Kênh truyền hình Filmstorm đã phát hành một video mang phong cách nghị luận tản văn. Nói một cách đơn giản, trên các nền tảng mạng xã hội video, ngày càng có nhiều người đặt câu hỏi "Có phải AI không?" về những video họ xem, và những nghi ngờ này cuối cùng làm tổn thương người sáng tạo. Tuy nhiên, bao gồm cả video này của Filmstorm, những phàn nàn về AI tạo sinh dường như đều quy về hai vấn đề: một là việc người sáng tạo che giấu việc sử dụng AI tạo sinh trong quy trình làm việc, và vấn đề thứ hai còn ẩn sâu hơn — công cụ AI tạo sinh sẽ ảnh hưởng thế nào đến thẩm mỹ của chúng ta.

Đọc thêm: Tại sao không ai thích nội dung do LLM tạo ra?

Vấn đề đầu tiên tất nhiên là vấn đề cấp bách hơn, bởi cơ chế tin cậy trên internet đang bị phá vỡ nhanh chóng, đồng thời ảnh hưởng đến quyền kiểm soát dư luận và nhận thức. Nhưng tôi không muốn bàn sâu về vấn đề này trong bài viết này, mà muốn tập trung vào vấn đề thứ hai: AI tạo sinh sẽ tác động thế nào đến thẩm mỹ của chúng ta.

Điều mà các mô hình lớn đang làm

Trước tiên, hãy thảo luận về những gì xảy ra khi chúng ta sử dụng AI tạo sinh để tạo ra nội dung đa phương tiện (đa phương thức) như hình ảnh, âm thanh và video.

Ở phía người dùng, chúng ta mô tả những gì mình muốn dưới dạng ngôn ngữ (prompt), sau đó mô hình sẽ tạo ra video tương ứng dựa trên văn bản này. Dung lượng văn bản thường dao động từ vài chục đến vài trăm KB, trong khi video được tạo ra có dung lượng từ vài MB đến vài trăm MB. Chênh lệch này lên tới hàng trăm đến hàng nghìn lần.

Theo lý thuyết entropy thông tin, thông tin không thể được nén với tỷ lệ cao như vậy mà không bị mất mát, quá trình này chắc chắn liên quan đến việc thay đổi thông tin gốc, bao gồm bổ sung, tô điểm và loại bỏ.

Quá trình từ entropy cao đến entropy thấp dễ hiểu. Tôi rất khuyến khích bạn nghe tập đầu tiên mùa 2 của podcast "Không hiện diện" của Trọng Khinh, đây là chương trình giải thích về "nén mất mát" hay nhất mà tôi từng thấy. Ngược lại, việc bổ sung thông tin từ entropy thấp lên entropy cao chính là điều mà mô hình đang làm. Rốt cuộc, không ai đưa trực tiếp giá trị RGB của từng pixel vào mô hình — việc đó không cần mô hình, chỉ cần đưa thẳng vào card đồ họa là được.

Nếu muốn tìm hiểu xem mô hình thực sự làm gì khi chuyển từ prompt văn bản sang nội dung đa phương tiện, bạn có thể xem một video về mô hình tạo video của Feitian Shanke và video khám phá khả năng của AI trong âm nhạc (tại thời điểm đó) của HEM Records, cả hai đều bàn về vấn đề này. Để giải thích ngắn gọn cho những ai chưa xem: khác với suy nghĩ "càng chi tiết càng tốt", prompt càng mơ hồ, yêu cầu càng thấp, khả năng mô hình đáp ứng "theo yêu cầu" càng cao. (Nếu bạn vẫn không hiểu logic này, tôi rất khuyến khích bạn xem cả hai video.)

Bản thân các mô hình ngôn ngữ lớn không có bất kỳ khả năng sáng tạo nào, ngay cả các mô hình tạo sinh đang phát triển nhanh chóng, chúng chỉ làm một việc là "tạo ra giá trị trung bình của văn minh nhân loại". Thậm chí không có cả trọng số.

Do đó, trong khoảng trống giữa các prompt "không yêu cầu cao", mô hình lớn lấp đầy bằng "giá trị trung bình của văn minh nhân loại" (nói một cách hoa mỹ, chúng ta gọi "giá trị trung bình" này là "ảo giác"); những gì chúng ta nhận được từ mô hình cũng chỉ là "giá trị trung bình của văn minh nhân loại" mang thẩm mỹ của người dùng.

Nhưng con người thì không như vậy.

Trong sáng tạo, con người có thể có định kiến (bias), có thẩm mỹ cá nhân, có bộ lọc nghệ thuật, thế giới trước khi có AI tạo sinh tồn tại vô số "khe nứt nhận thức" như vậy, thực tế đã tạo ra vô số hình thái và phong cách nghệ thuật trong lịch sử văn minh nhân loại.

Nếu đưa AI tạo sinh cho những người sáng tạo có thẩm mỹ bình thường và ý thức thể hiện bản thân mạnh mẽ, họ hầu như không lo lắng việc sử dụng AI sẽ ảnh hưởng thế nào đến nghệ thuật của mình: với họ, nó chỉ là một công cụ sáng tạo, vậy thôi. Nhưng với đa số người sáng tạo khác, vấn đề sẽ nghiêm trọng hơn. Nhưng vấn đề này đã xuất hiện từ trước khi mô hình ra đời.

Thẩm mỹ tạo sinh nhai lại

Như đã đề cập trước đó, các mô hình AI tạo sinh thích những chỉ dẫn "mơ hồ" hơn, để chúng có thể nhồi nhét "giá trị trung bình" mà chúng học được vào kết quả đầu ra. Trong quá trình truyền bá thông tin, những thông tin được lấp đầy này cũng sẽ được các nhà sáng tạo khác tiếp thu.

Nói theo hướng tiêu cực, nếu tất cả mọi người đều sử dụng giá trị trung bình để sáng tạo, cuối cùng mọi tác phẩm trên thế giới sẽ trở thành "cuộc thi tạo giá trị trung bình".

Sau khi thảo luận ý tưởng này với Claude, tôi quyết định gọi quá trình này là "thẩm mỹ tạo sinh nhai lại", Claude đề nghị tôi dịch cụm từ tiếng Anh thành "Generative Aesthetic Rumination". Nó có nghĩa là trong môi trường AI tạo sinh được ứng dụng rộng rãi, mọi người sử dụng AI để lấp đầy prompt bằng những thứ vô nghĩa (lấp đầy entropy thông tin), sau đó entropy thông tin này sẽ bị hấp thụ ngược lại bởi chính mọi người.

Cuối cùng, bản thân những thứ vô nghĩa sẽ trở thành một phần biểu đạt trong tác phẩm tiếp theo, thông qua tái sáng tạo và tái hấp thụ, chúng cũng sẽ trở thành một phần của thẩm mỹ, đạt được hiệu ứng "đệ quy" về sự đồng nhất thẩm mỹ xã hội.

Nhưng như tôi đã nói trước đó, "thẩm mỹ tạo sinh nhai lại" không phải là vấn đề do mô hình tạo sinh gây ra một mình, vấn đề này đã xuất hiện từ lâu trong quá trình thay đổi phương tiện. Từ báo chí truyền hình truyền thống, blog, RSS đến các trang web video sau này và video ngắn, entropy thông tin trong quá trình này đều bị nén mạnh. Đặc biệt là internet từ thời ByteDawn trở đi, mọi người đã tự mình mở chiếc hộp Pandora của "thuật toán đề xuất", cùng với đặc tính "kinh tế chú ý" nhanh đến nhanh đi, khiến "kích thích sự quan tâm của mọi người" trở thành con đường thành công duy nhất.

Lúc này, "sử dụng giá trị trung bình" đã trở thành "giá trị trung bình" của tất cả người sáng tạo.

Điều bạn có thể làm

Ngoài bản chính của "Persona 5" (P5), tôi cũng rất thích tác phẩm phụ cùng thời "Persona 5 Strikers" (P5S). Tôi thậm chí cho rằng về mặt ý tưởng câu chuyện, P5S có thể ngang hàng với bản chính. Bởi vì cốt truyện của P5S là "mọi người đều có một AI toàn tri", và đây chính xác là thế giới sau khi AI, đứng đầu là LLM, bước nhảy vọt lớn vào cuối năm 2022.

Ở cuối câu chuyện P5S, AI "nổi loạn" Sophia cuối cùng đã nhìn thấy pháo hoa ở Shibuya cùng nhóm Phantom Thieves, và càng khẳng định mục tiêu trở thành "người bạn tốt của nhân loại". Nhưng thực tế là các mô hình AI hiện nay chỉ có thể nằm trong các máy chủ ở trung tâm dữ liệu, "nhào nặn" bằng kiến thức và giá trị trung bình của nhân loại.

Nó không thể thực sự cảm nhận thế giới thực, không thể nuôi dưỡng thẩm mỹ thực sự, không thể có định kiến (bias), càng không thể có bất kỳ khả năng hành động nào.

Nhưng bạn thì có thể. Nếu bạn cảm thấy mình muốn sử dụng món quà quý giá này để làm việc vặt cho AI, tôi tôn trọng lựa chọn của bạn; nhưng bạn có một con đường khác để chọn — bạn có thể tự mình cảm nhận thế giới này, bằng mắt, bằng chân, bằng mọi giác quan, công cụ, thậm chí là AI để cảm nhận thế giới này.

Bạn có những điều mà AI hoàn toàn không thể làm được: thẩm mỹ, kinh nghiệm, tinh thần, đây đều là những thứ mà các mô hình nằm trong trung tâm dữ liệu không thể với tới, dù chúng có hàng vô lượng tham số.

Vì vậy, hãy cảm nhận, suy nghĩ và sáng tạo đi. Đây là điều chỉ con người bạn mới có thể làm được.