Hình ảnh được tạo ra từ văn bản nhờ vào trí tuệ nhân tạo

Read Time:4 Minute, 10 Second

Trí tuệ nhân tạo hiện nay ngày càng phát triển, nó đã đang và sẽ tham gia hầu hết lĩnh vực của con người. Robot được trang bị AI chơi cờ không khác gì con người. Thậm chí con người hiện nay còn khó có thể thắng được robot ở bộ môn cờ vây. Một sinh viên “ảo” được tạo ra để theo học tại ngôi trường danh giá bậc nhất Trung Quốc-Đại học Thanh Hoa. Cho đến một lĩnh vực phổ biến hơn như văn bản, soạn thảo cũng có sự đóng góp của trí tuệ nhân tạo. Dựa vào những hình ảnh AI hoàn toàn có thể dễ dàng tạo ra văn bản.

Mục Lục

AI vẽ hình ảnh từ văn bản

AI2 có thể tạo ra những bức ảnh bằng văn bản mô tả. Kết quả có phần hơi “đáng sợ” nhưng là bước tiến mới của Trí tuệ nhân tạo. Các nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen của Mỹ tạo ra AI mới dựa trên mô hình thị giác máy tính. Nhiệm vụ của nó là chú thích những gì nó “nhìn thấy” trong ảnh. Nhưng đảo ngược thuật toán thành: Tạo ra ảnh từ mô tả.

AI giúp vẽ hình ảnh — AI2 có thể tạo ra những bức ảnh bằng văn bản mô tả

Theo MIT Technology Review, đây là lĩnh vực nghiên cứu hấp dẫn. Nó cho thấy tiềm năng của các thuật toán thị giác máy tính trong tương lai. Ngay cả những đứa trẻ cũng có thể dễ dàng mô tả một bức ảnh thành văn bản. Nhưng làm điều ngược lại thì không phải vấn đề đơn giản.

Mô hình chú thích hình ảnh Lxmert

Các nhà nghiên cứu của viện Allen đã tạo ra một mô hình chú thích ảnh tên Lxmert. Sau đó họ bắt đầu nâng cấp mô hình này lên thành X-Lxmert. Mặc dù AI mô tả không chính xác và “mạch lạc” những gì thể hiện trên tấm ảnh, nội dung ảnh không hoàn “vô nghĩa”.

Sau đó, các nhà nghiên cứu tiếp tục dùng mô tả của mình để yêu cầu AI tạo thành một bức ảnh. Gần như không có bức ảnh nào được hoàn thiện, nhưng kết quả cũng rất ấn tượng. Với một số từ khóa, như “nhiếp ảnh gia”, “studio chụp ảnh” hay “máy ảnh”, AI này không đưa ra được một sản phẩm nào có thể “chấp nhận được”.

Những bức ảnh này chưa hoàn thiện. Nhưng AI2 đã có một bước tiến đáng kinh ngạc trong lĩnh vực Trí tuệ nhân tạo. Thuật toán cho thấy trong tương lai, những khoảng trống mà ngành công nghiệp AI để lại sẽ được “lấp đầy”.

Hình ảnh do Lxmert tạo ra cho ra từ gợi ý: chim cánh cụt làm từ quả bơ

Xa hơn nữa, hướng đi này có thể mở ra tiềm năng năng nhận dạng hình ảnh tốt hơn. Hoặc đưa ra những mô tả trực quan. Nói cách khác, khi máy móc càng hiểu con người, con người càng đưa ra những mô tả chính xác. Từ đó hình ảnh nhận về càng chân thực. Cộng với khả năng tự học để hoàn thiện, tiềm năng của AI là rất lớn khi được sử dụng trong ngành điện ảnh, hội hoạ.

Chú thích văn bản bằng Dall-E

Cái tên Dall-E là sự kết hợp giữa danh họa nổi tiếng với phong cách siêu thực Salvador Dalí và nhân vật robot hoạt hình Wall-E trong bộ phim cùng tên của Pixar. Nói một cách đơn giản, Dall-E sẽ dùng chú thích văn bản làm dữ liệu đầu vào. Rồi từ đó tạo ra hình ảnh là sản phẩm đầu ra.

Các bài thử nghiệm được OpenAI công bố cho thấy Dall-E có khả năng thay đổi và sắp xếp lại các đối tượng trong hình ảnh cũng như tạo ra những thứ không tồn tại. Chẳng hạn một khối lập phương với kết cấu của một con nhím hoặc một đám mây. Tùy vào thông tin gợi ý dạng văn bản, hình ảnh do Dall-E tạo ra có thể xuất hiện như ảnh chụp từ thế giới thực hoặc ảnh vẽ, ảnh hoạt hình.

Dall-E được xây dựng dựa trên công nghệ mạng nơ-ron nhân tạo. Nó mô phỏng hệ thống truyền và xử lý tín hiệu bên trong bộ não con người. Công nghệ này đã được sử dụng để tạo ra hình ảnh và video trước đây. Nhưng cách thức nhận dữ liệu đầu vào của Dall-E lại khác biệt. Nhất là khi người dùng có thể miêu tả chi tiết những gì mình muốn vẽ cho hệ thống. Ngoài ra, nhờ khả năng xử lý ngôn ngữ tự nhiên, dữ liệu dạng văn bản nhập vào không nhất thiết phải logic và hợp lý.