Cú hit đột phá của OpenAI chỉ là một cảm giác chỉ sau một đêm − nhưng nó được xây dựng dựa trên nhiều thập kỷ nghiên cứu.

Tác giả Will Douglas Heaven

Ngày 8 tháng2, 2023

STEPHANIE ARNETT/MITTR

Chúng ta đã đạt đến đỉnh cao ChatGPT. Được phát hành vào tháng 12 dưới dạng ứng dụng web của công ty OpenAI có trụ sở tại San Francisco, chatbot này đã bùng nổ thành xu hướng chủ đạo gần như chỉ sau một đêm. Theo một số ước tính, đây là dịch vụ internet phát triển nhanh nhất từ trước đến nay, đạt 100 triệu người dùng vào tháng Giêng, chỉ hai tháng sau khi ra mắt. Thông qua thỏa thuận trị giá 10 tỷ USD của OpenAI với Microsoft, công nghệ này hiện đang được tích hợp vào phần mềm Office và công cụ tìm kiếm Bing. Bị đốt vào hành động bởi đối thủ một thời mới được đánh thức trong cuộc chiến tìm kiếm, Google đang theo dõi nhanh việc triển khai chatbot của riêng mình, LaMDA. Ngay cả WhatsApp gia đình tôi cũng chứa đầy trò chuyện ChatGPT.

Nhưng cú đột phá của OpenAI đã không xuất hiện từ hư không. Chatbot là sự lặp lại bóng bẩy nhất cho đến nay trong một dòng mô hình ngôn ngữ lớn có từ nhiều năm trước. Đây là thông tin đã dẫn đến nó.

Những năm 1980–’90: Mạng nơ-ron hồi qui

ChatGPT là một phiên bản của GPT-3, một mô hình ngôn ngữ lớn cũng được phát triển bởi OpenAI. Mô hình ngôn ngữ là một loại mạng nơ-ron đã được đào tạo trên rất nhiều và rất nhiều văn bản. (Mạng nơ-ron là phần mềm lấy cảm hứng từ cách các tế bào thần kinh trong não động vật báo hiệu lẫn nhau.) Bởi vì văn bản được tạo thành từ các chuỗi chữ cái và từ có độ dài khác nhau, các mô hình ngôn ngữ yêu cầu một loại mạng nơ-ron có thể hiểu được loại dữ liệu đó. Mạng nơ-ron hồi qui, được phát minh vào những năm 1980, có thể xử lý các chuỗi từ, nhưng chúng chậm trong huấn luyện và có thể quên các từ trước đó trong chuỗi trình tự.

Năm 1997, các nhà khoa học máy tính Sepp Hochreiter và Jürgen Schmidhuber đã khắc phục điều này bằng cách phát minh ra mạng LTSM (Bộ nhớ ngắn hạn trải dài), mạng nơ-ron hồi qui với các thành phần đặc biệt cho phép dữ liệu trong quá khứ trong một chuỗi đầu vào được lưu giữ lâu hơn. LTSM có thể xử lý các chuỗi văn bản dài vài trăm từ, nhưng kỹ năng ngôn ngữ của họ bị hạn chế.

2017: Bộ biến đổi transformer

Bước đột phá đằng sau thế hệ mô hình ngôn ngữ lớn ngày nay đến khi một nhóm các nhà nghiên cứu của Google phát minh ra bộ biến đổi transformer, một loại mạng nơ-ron có thể theo dõi vị trí mỗi từ hoặc cụm từ xuất hiện theo một trình tự. Ý nghĩa của các từ thường phụ thuộc vào ý nghĩa của các từ khác xuất hiện trước hoặc sau. Bằng cách theo dõi thông tin ngữ cảnh này, người biến hình có thể xử lý các chuỗi văn bản dài hơn và nắm bắt ý nghĩa của các từ chính xác hơn. Ví dụ, “xúc xích” có nghĩa là những thứ rất khác nhau trong các câu “Xúc xích nên được cho nhiều nước” và “Xúc xích nên được ăn với mù tạt.”

2018–2019: GPT và GPT-2

Hai mô hình ngôn ngữ lớn đầu tiên của OpenAI chỉ cách nhau vài tháng. Công ty muốn phát triển AI có đa kỹ năng, cho nhiều mục tiêu và tin rằng các mô hình ngôn ngữ lớn (large language models) là một bước quan trọng hướng tới mục tiêu đó. GPT (viết tắt của Generative Pre-trained Transformer) đã cắm một lá cờ, đánh bại các tiêu chuẩn hiện đại để xử lý ngôn ngữ tự nhiên vào thời điểm đó.

GPT kết hợp bộ biến đổi với đào tạo không giám sát, một cách để đào tạo các mô hình đào tạo trên dữ liệu (trong trường hợp này là rất nhiều và rất nhiều văn bản) chưa được chú thích trước đó. Điều này cho phép phần mềm tự tìm ra các mẫu trong dữ liệu mà không cần phải cho biết nó đang xem gì. Nhiều thành công trước đây trong học máy đã dựa vào việc học có giám sát và dữ liệu chú thích, nhưng việc gắn nhãn dữ liệu bằng tay là công việc chậm và do đó hạn chế kích thước của các tập dữ liệu có sẵn để đào tạo.

Nhưng chính GPT-2 đã tạo ra tiếng vang lớn hơn. OpenAI tuyên bố rất lo ngại mọi người sẽ sử dụng GPT-2 “để tạo ra ngôn ngữ lừa đảo, thiên vị hoặc lạm dụng” đến mức họ sẽ không phát hành mô hình đầy đủ. Thời gian thay đổi như thế nào.

Năm 2020: GPT-3

GPT-2 rất ấn tượng, nhưng phần tiếp theo của OpenAI, GPT-3, made jaws drop. Khả năng tạo ra văn bản giống như con người của nó là một bước nhảy vọt về phía trước. GPT-3 có thể trả lời câu hỏi, tóm tắt tài liệu, tạo câu chuyện theo các phong cách khác nhau, dịch giữa tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha và tiếng Nhật, v.v. Sự bắt chước của nó thật kỳ lạ.

Một trong những điều đáng chú ý nhất là lợi ích của GPT-3 đến từ việc thay thế các kỹ thuật hiện có hơn là phát minh ra các kỹ thuật mới. GPT-3 có 175 tỷ tham số (các giá trị trong một mạng được điều chỉnh trong quá trình huấn luyện), so với 1,5 tỷ của GPT-2. Nó cũng được đào tạo trên nhiều dữ liệu hơn. 

Nhưng huấn luyện trên văn bản lấy từ internet mang lại những vấn đề mới. GPT-3 đã thấm nhuần phần lớn thông tin sai lệch và định kiến mà nó tìm thấy trực tuyến và sao chép nó theo yêu cầu. Như OpenAI đã thừa nhận: “Các mô hình được đào tạo trên Internet có những thành kiến về quy mô internet.”

Tháng 12 năm 2020: Văn bản độc hại và các vấn đề khác

Trong khi OpenAI đang vật lộn với những thành kiến của GPT-3, phần còn lại của thế giới công nghệ đang phải đối mặt với một sự tính toán cao cấp về việc không kiềm chế được xu hướng độc hại trong AI. Không có gì bí mật khi các mô hình ngôn ngữ lớn có thể phun ra văn bản sai - thậm chí đáng ghét - nhưng các nhà nghiên cứu đã phát hiện ra rằng việc khắc phục sự cố không nằm trong danh sách việc cần làm của hầu hết các công ty Big Tech. Khi Timnit Gebru, đồng giám đốc nhóm đạo đức AI của Google, đồng tác giả một bài báo nêu bật những tác hại tiềm ẩn liên quan đến các mô hình ngôn ngữ lớn (bao gồm cả chi phí điện toán cao), nó đã không được các nhà quản lý cấp cao trong công ty hoan nghênh. Vào tháng 12 năm 2020, Gebru bị đẩy ra khỏi công việc của mình.

Tháng 1 năm 2022: InstructGPT

OpenAI đã cố gắng giảm lượng thông tin sai lệch và văn bản xúc phạm mà GPT-3 tạo ra bằng cách sử dụng học tăng cường để đào tạo một phiên bản của mô hình theo sở thích của người thử nghiệm. Kết quả, InstructGPT, làm theo hướng dẫn của những người sử dụng nó tốt hơn − được gọi là “căn chỉnh” trong thuật ngữ AI − và tạo ra ít ngôn ngữ xúc phạm hơn, ít thông tin sai lệch hơn và ít sai lầm hơn về tổng thể. Nói tóm lại, InstructGPT ít hơn một tên khốn − trừ khi nó được yêu cầu là một.

Từ tháng 5 đến 7 năm 2022: OPT, BLOOM

Một lời chỉ trích phổ biến đối với các mô hình ngôn ngữ lớn là chi phí đào tạo chúng gây khó khăn cho tất cả trừ các phòng thí nghiệm giàu nhất để xây dựng một mô hình. Điều này làm dấy lên lo ngại rằng AI mạnh mẽ như vậy đang được xây dựng bởi các nhóm công ty nhỏ đằng sau những cánh cửa đóng kín, không có sự giám sát thích hợp và không có sự đóng góp của một cộng đồng nghiên cứu rộng lớn hơn. Đáp lại, một số dự án hợp tác đã phát triển các mô hình ngôn ngữ lớn và phát hành chúng miễn phí cho bất kỳ nhà nghiên cứu nào muốn nghiên cứu − và cải thiện − công nghệ. Meta đã xây dựng và bỏ đi OPT, một bản tái thiết của GPT-3. Và Hugging Face đã lãnh đạo một tập đoàn gồm khoảng 1,000 nhà nghiên cứu tình nguyện xây dựng và phát hành BLOOM.  

Tháng 12 năm 2022: ChatGPT

Ngay cả OpenAI cũng bị thổi bay bởi cách ChatGPT đã được ghi nhận. Trong bản demo đầu tiên của công ty, mà nó đã cho tôi một ngày trước khi ChatGPT được ra mắt trực tuyến, nó đã được giới thiệu như một bản cập nhật gia tăng cho InstructGPT. Giống như mô hình đó, ChatGPT đã được đào tạo bằng cách sử dụng học tăng cường về phản hồi từ những người thử nghiệm con người, những người đã ghi điểm hiệu suất của nó như một người đối thoại trôi chảy, chính xác và không nhạy cảm. Trên thực tế, OpenAI đã đào tạo GPT-3 để làm chủ trò chơi trò chuyện và mời mọi người đến chơi. Hàng triệu người trong chúng ta đã chơi kể từ đó.

Biên dịch từ: ChatGPT is everywhere. Here’s where it came from