Image default
Máy Tính

DeepSeek R1 Gây Chấn Động Thế Giới AI: Hé Lộ Những Tiến Bộ Đột Phá và Cuộc Chiến Với OpenAI

Chỉ trong tuần này, mô hình DeepSeek R1 đã khuấy đảo thị trường chứng khoán Mỹ và vượt mặt OpenAI ngay trên sân nhà của họ. Sự ra mắt của nó đã xóa sổ 1 nghìn tỷ USD giá trị vốn hóa trên toàn thị trường chứng khoán, trong đó riêng Nvidia đã mất tới 600 tỷ USD. Mặc dù một số công ty đã hồi phục, nhưng rõ ràng DeepSeek đã tạo ra một tác động lớn đến các ông lớn trong ngành điện toán và trí tuệ nhân tạo.

Với những tuyên bố gần như khó tin về chi phí đào tạo mô hình chỉ bằng một phần nhỏ so với OpenAI, đồng thời bán quyền truy cập API với mức giá cạnh tranh đáng kể, DeepSeek đã làm điều đó như thế nào? Chuyện gì đã xảy ra? Có rất nhiều điều cần phân tích, đặc biệt là xung quanh các tuyên bố của DeepSeek, những phản ứng gay gắt và việc các tuyên bố rằng R1 là “mã nguồn mở” chưa phản ánh đúng toàn bộ sự thật. Bài viết này của caphecongnghe.com sẽ đi sâu vào những khía cạnh này, cung cấp một cái nhìn toàn diện về tác động của DeepSeek R1 đến lĩnh vực công nghệ AI.

DeepSeek R1 không giống DeepSeek V3

Mặc dù chúng rất tương đồng

Trước hết, DeepSeek đã phát hành hai mô hình: V3 và R1. Cả hai đều đóng vai trò quan trọng trong câu chuyện này, nhưng mọi sự chú ý đều đổ dồn vào R1. DeepSeek R1 là mô hình suy luận (reasoning model) của công ty, có khả năng tự đặt câu hỏi và tự trao đổi với chính nó trước khi đưa ra câu trả lời cho một lời nhắc, giống như mô hình o1 của OpenAI.

DeepSeek V3 là một mô hình ngôn ngữ lớn (LLM) đa năng thuộc kiến trúc Mixture of Experts (MoE) với 671 tỷ tham số. DeepSeek R1 được xây dựng dựa trên DeepSeek-V3-Base và có sẵn để tải xuống dưới dạng các mô hình với 1.5 tỷ, 7 tỷ, 8 tỷ, 14 tỷ, 32 tỷ và 70 tỷ tham số, được chưng cất (distilled) từ DeepSeek R1, dựa trên Qwen và Llama. Ngoài ra, cũng có một mô hình DeepSeek R1 671 tỷ tham số đầy đủ có sẵn để tải về. Cả R1 và V3 đều là các mô hình tương tự, nhưng khả năng suy luận của R1 mới là điều khiến nó đặc biệt ấn tượng.

Giao diện mô hình DeepSeek R1 đang chạy trên máy tính cục bộ, minh họa khả năng triển khai AI tại chỗGiao diện mô hình DeepSeek R1 đang chạy trên máy tính cục bộ, minh họa khả năng triển khai AI tại chỗ

Cách tốt nhất để sử dụng các mô hình R1 và V3 671 tỷ tham số của DeepSeek là truy cập trang web của DeepSeek, nơi bạn có thể tạo tài khoản và sử dụng nó tương tự như ChatGPT. Máy chủ của công ty đặt tại Trung Quốc, và một số lời nhắc có thể dẫn đến câu trả lời bị kiểm duyệt. Mô hình DeepSeek R1 671 tỷ tham số có thể chạy cục bộ, nhưng theo AWS, nó yêu cầu ít nhất 800 GB bộ nhớ HBM ở định dạng FP8 để hoạt động. Đây cũng là lúc bản chất “mở trọng số” (open weight) của mô hình phát huy tác dụng, vì bạn có thể tinh chỉnh các tham số để loại bỏ việc kiểm duyệt, với một số mô hình không kiểm duyệt đã có sẵn để tải xuống được tạo ra thông qua một quy trình gọi là “abliteration”.

Quá trình “chưng cất” (distillation) được đề cập khi nói đến các mô hình tham số nhỏ hơn có thể không quen thuộc với bạn. Chưng cất đề cập đến việc sử dụng một mô hình lớn hơn để đào tạo một mô hình nhỏ hơn, trong đó mô hình lớn hơn là “cha” và mô hình nhỏ hơn là “con”. Mô hình con hỏi mô hình cha một loạt câu hỏi, gắn nhãn các câu trả lời và học hỏi từ các phản hồi của nó. Nói cách khác, các mô hình DeepSeek R1 mà bạn có thể chạy cục bộ dựa trên Qwen và Llama, trong đó hai mô hình này đã học hỏi từ mô hình DeepSeek R1 lớn hơn.

DeepSeek R1 có “đánh cắp” từ OpenAI?

Ngay cả khi có, OpenAI cũng không có tư cách để phàn nàn

OpenAI hiện đang đối mặt với một số vụ kiện liên quan đến việc thu thập dữ liệu mà họ đã sử dụng để đào tạo các mô hình của mình. Tờ The Times đã kiện OpenAI, cùng với các hãng tin tức Canada, Intercept Media và ANI ở Ấn Độ. Còn vô số vụ kiện khác nữa, và tất cả đều cáo buộc ít nhiều cùng một điều: OpenAI đã sử dụng dữ liệu của họ mà không được phép để đào tạo các mô hình GPT của mình.

Hiện tại, chưa có ai từ OpenAI chính thức đưa ra tuyên bố rằng DeepSeek đã “đánh cắp” dữ liệu từ họ trên một kênh chính thức, nhưng cả BloombergFinancial Times đều đưa tin rằng OpenAI và Microsoft hiện đang điều tra khả năng này. Trước hết: đây là một vấn đề đáng cười. Ngay cả khi DeepSeek có “đánh cắp” từ OpenAI, thật khó để cảm thông với một công ty cảm thấy dữ liệu của mình bị lấy đi một cách “không được phép” khi các phần đáng kể dữ liệu của chính họ cũng được thu thập theo cách thức y hệt.

ChatGPT minh họa giải thích cách thực hiện một bài tập cụ thể, thể hiện khả năng xử lý ngôn ngữ và trả lời câu hỏi của mô hình AI OpenAIChatGPT minh họa giải thích cách thực hiện một bài tập cụ thể, thể hiện khả năng xử lý ngôn ngữ và trả lời câu hỏi của mô hình AI OpenAI

Thực tế, OpenAI đã tranh luận ủng hộ điều mà họ cáo buộc DeepSeek đã làm. “Việc đào tạo các mô hình AI bằng cách sử dụng các tài liệu internet có sẵn công khai là sử dụng hợp pháp (fair use), được hỗ trợ bởi các tiền lệ lâu đời và được chấp nhận rộng rãi. Chúng tôi xem nguyên tắc này là công bằng đối với người sáng tạo, cần thiết cho các nhà đổi mới và quan trọng đối với khả năng cạnh tranh của Hoa Kỳ,” OpenAI đã từng nói trong một bài đăng trên blog.

Tuy nhiên, không rõ DeepSeek có thể đã đào tạo dựa trên dữ liệu gì từ OpenAI. Mô hình suy luận o1 của OpenAI bị che giấu; khi bạn hỏi o1 một câu hỏi, nó không cung cấp cho bạn toàn bộ chuỗi suy nghĩ (chain-of-thought) như R1. Đó chỉ là một bản tóm tắt, và OpenAI cố tình che giấu cách hoạt động bên trong, thậm chí còn làm rõ rằng bất kỳ nỗ lực nào nhằm khai thác thông tin này sẽ dẫn đến việc tài khoản của bạn bị cấm.

Giao diện mô hình suy luận o1 của ChatGPT, minh họa phản hồi đã được tóm tắt mà không hiển thị chuỗi suy nghĩ đầy đủGiao diện mô hình suy luận o1 của ChatGPT, minh họa phản hồi đã được tóm tắt mà không hiển thị chuỗi suy nghĩ đầy đủ

Tuy nhiên, mọi chuyện không dừng lại ở đó, David Sacks, một nhà đầu tư mạo hiểm và “trùm AI và tiền điện tử” của Nhà Trắng, đã tuyên bố rằng có “bằng chứng đáng kể” về việc “chưng cất” (distillation) trong R1 từ OpenAI.

“Có một kỹ thuật trong AI gọi là chưng cất, mà bạn sẽ nghe nói rất nhiều, và đó là khi một mô hình học từ một mô hình khác, điều hiệu quả xảy ra là mô hình học sinh hỏi mô hình cha mẹ rất nhiều câu hỏi, giống như con người học, nhưng AI có thể làm điều này bằng cách hỏi hàng triệu câu hỏi, và chúng có thể bắt chước quá trình suy luận mà chúng học được từ mô hình cha mẹ và chúng có thể hút kiến thức của mô hình cha mẹ,” Sacks nói với Fox News. “Có bằng chứng đáng kể rằng những gì DeepSeek đã làm ở đây là họ đã chưng cất kiến thức từ các mô hình của OpenAI và tôi không nghĩ OpenAI rất hài lòng về điều này.”

Như chúng ta đã đề cập, quá trình suy luận này không thể được chưng cất. Chuỗi suy nghĩ bị che giấu mà mô hình o1 hiển thị cho người dùng không chứa một chuỗi suy nghĩ đầy đủ, mà thay vào đó tóm tắt những gì nó đang “suy nghĩ”. Điều này không đủ thông tin để đào tạo DeepSeek R1, đặc biệt là khi R1 thực sự sánh ngang (và thậm chí đôi khi vượt trội) nguồn gốc bị cáo buộc của quá trình suy luận của nó trong nhiều tiêu chuẩn.

Mặc dù vậy, chúng ta không biết dữ liệu đào tạo ban đầu đến từ đâu, nhưng đó không thực sự là điều mà các cáo buộc dữ liệu bị đánh cắp liên quan đến. DeepSeek thực sự đã rất cởi mở về cách khả năng suy luận của R1 ra đời, và trong bài báo khoa học (whitepaper) được nhóm nghiên cứu công bố, họ nói rằng các khả năng này xuất hiện thông qua học tăng cường (reinforcement learning) khi xây dựng R1-Zero. Điều này tập trung vào “tự tiến hóa” (self-evolution), một kỹ thuật mà bản thân mô hình “học” để đạt được mục tiêu một cách hiệu quả nhất.

Một hiện tượng đặc biệt thú vị được quan sát trong quá trình đào tạo DeepSeek-R1-Zero là sự xuất hiện của một “khoảnh khắc aha”. Khoảnh khắc này, như được minh họa trong Bảng 3, xảy ra trong một phiên bản trung gian của mô hình. Trong giai đoạn này, DeepSeek-R1-Zero học cách phân bổ nhiều thời gian suy nghĩ hơn cho một vấn đề bằng cách đánh giá lại cách tiếp cận ban đầu của nó. Hành vi này không chỉ là minh chứng cho khả năng suy luận ngày càng tăng của mô hình mà còn là một ví dụ hấp dẫn về cách học tăng cường có thể dẫn đến những kết quả bất ngờ và phức tạp.

Học tăng cường là một kỹ thuật học máy rất phổ biến, và neuroevolution, một phần của mô hình học tăng cường, thậm chí đã được sử dụng để dạy các mô hình cách chơi các trò chơi như Super Mario, dưới dạng MarI/O của SethBling. Đây không phải là một khái niệm mới, nhưng đã phần nào bị bỏ qua khi nói đến LLM. Rất nhiều LLM sử dụng RLHF (Reinforcement Learning by Human Feedback), nhưng RL thuần túy không yêu cầu bất kỳ sự giám sát hoặc phản hồi nào từ con người.

Có thật là chỉ tốn 5.576 triệu đô la để đào tạo DeepSeek V3? Và tại sao thị trường chứng khoán lại hoảng loạn?

Có và không, nhưng chủ yếu là không

Chip GPU Nvidia H100, minh họa công nghệ phần cứng hàng đầu được sử dụng trong đào tạo các mô hình AI phức tạpChip GPU Nvidia H100, minh họa công nghệ phần cứng hàng đầu được sử dụng trong đào tạo các mô hình AI phức tạpNvidia H100 // Nguồn: Nvidia

Tuyên bố này bắt nguồn từ báo cáo khoa học (whitepaper) của DeepSeek V3, trong đó nói rằng mô hình này tốn 5.576 triệu đô la để đào tạo, tiêu tốn 2788K giờ GPU Nvidia H800 ước tính với giá 2 đô la mỗi giờ. Đây là chi phí của một mô hình, không phải tất cả các lần chạy thử nghiệm khác, không phải tất cả các lần họ xây dựng mô hình và sau đó phải xây dựng lại. Đây là chi phí đầu ra cuối cùng để xây dựng mô hình, không hơn, và chắc chắn đã có sự đầu tư đáng kể hơn nhiều vào dự án này.

Sự bỏ sót này đã dẫn đến những cáo buộc rằng DeepSeek đã nói dối về chi phí của mình, mặc dù báo cáo khoa học đã nêu rất rõ ràng rằng chi phí đào tạo chỉ dành cho mô hình, không bao gồm bất kỳ chi phí chung nào khác như nghiên cứu và phát triển, các mô hình được đào tạo trong quá trình xây dựng V3 và các chi phí liên quan khác. Đây cũng không phải là chi phí của R1, mà là chi phí xây dựng V3. Eryck Banatt có một phân tích tuyệt vời về chi phí này, khẳng định rằng các con số của DeepSeek là hợp lý và nhiều khía cạnh trong các tuyên bố của họ có thể kiểm chứng được.

Tuy nhiên, những hiểu lầm cơ bản này (cùng với hiệu quả thực sự của các mô hình mới nhất của DeepSeek) và việc đào tạo trên các GPU cũ hơn đã gây ra sự hỗn loạn trên thị trường. Các GPU Nvidia H100, được mua hàng trăm nghìn chiếc bởi các ông lớn trong không gian AI như Google, Meta và OpenAI, là những GPU mạnh nhất hiện có và trước đây được coi là cần thiết trong việc phát triển công nghệ tiên tiến.

Mặc dù vậy, DeepSeek đã đạt được tất cả những điều này trên một loạt GPU H800, loại GPU giảm tốc độ truyền dữ liệu giữa các chip khoảng một nửa và tuân thủ các quy định xuất khẩu trong một thời gian ngắn trước khi một lỗ hổng mà Nvidia được cho là đã khai thác bị đóng lại. Điều này đặt ra câu hỏi về tầm quan trọng thực sự của công nghệ Nvidia mới nhất đối với AI, nếu các GPU chậm hơn vẫn có thể cạnh tranh với kết quả sử dụng những loại tốt nhất.

Và đó cũng là một điều khác; các cáo buộc nổi lên rằng DeepSeek đã lách các biện pháp kiểm soát xuất khẩu và mua lại GPU H100. CEO Scale AI, Alexandr Wang, đã tuyên bố rằng DeepSeek có khoảng 50.000 chiếc và đã tránh nói về chúng vì điều đó sẽ chứng minh họ đã vi phạm các biện pháp kiểm soát xuất khẩu đó. Có khả năng Wang đã hiểu nhầm một tweet từ Dylan Patel, trong đó nói rằng DeepSeek có hơn 50.000 GPU Hopper. GPU H800 vẫn là GPU Hopper, vì chúng là phiên bản sửa đổi của H100 được tạo ra để tuân thủ các biện pháp kiểm soát xuất khẩu của Hoa Kỳ.

Tất cả điều này đã khiến Nvidia phải đưa ra một tuyên bố, nói rằng họ mong đợi tất cả các đối tác tuân thủ các quy định và sẽ hành động tương ứng nếu phát hiện họ không tuân thủ. Nvidia cũng đã “tuyên bố rằng không có lý do để tin rằng DeepSeek đã có được bất kỳ sản phẩm nào thuộc diện kiểm soát xuất khẩu từ Singapore,” theo Bộ Thương mại và Công nghiệp Singapore.

Biểu đồ ước tính chi phí đào tạo các mô hình AI lớn như GPT-4o và GPT-o1, do nhà nghiên cứu Aran Komatsuzaki cung cấpBiểu đồ ước tính chi phí đào tạo các mô hình AI lớn như GPT-4o và GPT-o1, do nhà nghiên cứu Aran Komatsuzaki cung cấpNguồn: Aran Komatsuzaki

Ngay cả như vậy, chi phí này thực sự thấp một cách đáng kinh ngạc. Aran Komatsuzaki, một nhà nghiên cứu AI, ước tính rằng chi phí đào tạo GPT-4o và GPT-o1 là khoảng 15 triệu đô la mỗi mô hình, gấp ba lần chi phí của mô hình V3 của DeepSeek. Điều này một phần được thực hiện nhờ tối ưu hóa, vì DeepSeek đã đạt được một số tiến bộ trong lĩnh vực này. Điều đó bao gồm việc sử dụng PTX, một ngôn ngữ cấp thấp cho GPU Nvidia cho phép các nhà nghiên cứu làm những việc như sử dụng một số GPU H800 để quản lý giao tiếp giữa các chip.

DeepSeek Đại Diện Cho Những Bước Tiến Lớn Trong AI, Mang Lại Lợi Ích Cho Toàn Ngành

Ngay cả khi nó khiến đối thủ cạnh tranh lo lắng

Ví dụ minh họa khả năng suy luận của DeepSeek R1, cho thấy cách mô hình xử lý và đưa ra phản hồiVí dụ minh họa khả năng suy luận của DeepSeek R1, cho thấy cách mô hình xử lý và đưa ra phản hồiNguồn: DeepSeek

Bất chấp những gợi ý rằng Meta đã thành lập “phòng chiến tranh” và OpenAI có khả năng tìm cách chống lại DeepSeek, đây là một chiến thắng lớn cho cộng đồng AI. Tiến bộ giúp ích cho tất cả mọi người, và bản chất “mở” trong nghiên cứu của DeepSeek sẽ cho phép các đối thủ cạnh tranh sử dụng một số kỹ thuật đó để cải thiện mô hình của riêng họ. Trở lại khi tôi đề cập rằng DeepSeek là “mở trọng số” (open weights), lý do nó là “mở trọng số” chứ không phải “mã nguồn mở” (open source) là vì mã nguồn mở cũng yêu cầu dữ liệu gốc mà nó được đào tạo.

Ngược lại, “mở trọng số” có nghĩa là chúng ta có các tham số và giá trị số xác định cách mô hình hoạt động. Điều đó, cùng với các bài báo nghiên cứu, là quá đủ để bắt đầu khi cố gắng xây dựng một mô hình sao chép R1. Trên thực tế, ai đó đã và đang làm việc để xây dựng phiên bản R1 của riêng họ trong một dự án có tên “Open R1“, sử dụng tất cả thông tin được DeepSeek công bố để triển khai nó. Nó chưa hoàn thành, nhưng có một lộ trình và dàn ý rất rõ ràng để bạn có thể tự mình thực hiện.

Nếu một người bình thường như bạn hoặc tôi có thể đọc bài báo và hiểu những điều cơ bản đang diễn ra, thì bạn biết rằng các nhà nghiên cứu tại các công ty như Google, Meta và OpenAI chắc chắn có thể. Điều này sẽ cải thiện các mô hình trên diện rộng, giảm tiêu thụ điện năng, chi phí và dân chủ hóa AI hơn nữa. CEO OpenAI Sam Altman đã nói rằng các mô hình suy luận của OpenAI giờ đây sẽ chia sẻ nhiều chuỗi suy nghĩ hơn, cảm ơn R1 trong phản hồi của mình.

Bạn có thể chạy phiên bản DeepSeek R1 đã được chưng cất trong LM Studio ngay lúc này, và tôi đã chạy mô hình Qwen 32 tỷ tham số được chưng cất từ DeepSeek R1 trên MacBook Pro của mình với chip M4 Pro bằng cách sử dụng LM Studio.

Kết luận

DeepSeek R1 không chỉ là một mô hình AI mới mà còn là một làn sóng chấn động, làm thay đổi cục diện thị trường và đặt ra nhiều câu hỏi quan trọng về chi phí, nguồn gốc và đạo đức trong phát triển AI. Những tuyên bố về chi phí đào tạo thấp kỷ lục và khả năng hoạt động hiệu quả trên phần cứng cũ hơn đã thách thức quan điểm cố hữu về việc cần các siêu GPU đắt đỏ để tạo ra AI tiên tiến. Đồng thời, tranh cãi với OpenAI, dù gay gắt, cũng đã làm nổi bật những điểm yếu trong cách các ông lớn AI thu thập và sử dụng dữ liệu.

Tuy nhiên, vượt lên trên những lùm xùm, DeepSeek R1 đại diện cho những tiến bộ công nghệ đáng kể, đặc biệt là trong khả năng suy luận và tối ưu hóa mô hình. Bản chất “mở trọng số” của nó hứa hẹn sẽ thúc đẩy sự dân chủ hóa AI, cho phép các nhà nghiên cứu và nhà phát triển trên toàn cầu học hỏi, cải tiến và tạo ra những mô hình AI của riêng họ. Sự xuất hiện của DeepSeek R1 là minh chứng cho một kỷ nguyên mới của AI, nơi sự đổi mới không chỉ đến từ những gã khổng lồ mà còn từ những kẻ thách thức mạnh mẽ, mang lại lợi ích lâu dài cho toàn bộ cộng đồng công nghệ. Hãy cùng caphecongnghe.com tiếp tục theo dõi những bước tiến vượt bậc của trí tuệ nhân tạo trong tương lai.

Related posts

Overleaf & LaTeX: 6 Ứng Dụng Sáng Tạo Biến Tài Liệu Của Bạn Trở Nên Độc Đáo

Administrator

Nvidia GeForce RTX 50 Series: Bước Tiến Đột Phá Với Kiến Trúc Blackwell và DLSS 4

Administrator

7 Nhược Điểm Quan Trọng Cần Cân Nhắc Khi Dùng Phần Mềm Mã Nguồn Mở Cho Sáng Tạo

Administrator