Dự án Web3 với khái niệm AI trở thành mục tiêu thu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng động lực phân phối để phối hợp nguồn cung tiềm năng trong đuôi dài------qua dữ liệu, lưu trữ và tính toán; đồng thời, xây dựng mô hình mã nguồn mở cũng như thị trường phi tập trung cho AI Agent.
AI chủ yếu được áp dụng trong ngành Web3 vào tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Tính hữu ích của AI+Web3 thể hiện ở sự bổ sung cho nhau: Web3 hy vọng chống lại sự tập trung của AI, AI hy vọng giúp Web3 vượt ra ngoài giới hạn.
Giới thiệu
Trong hai năm qua, sự phát triển của AI dường như đã được nhấn nút tăng tốc, hiệu ứng cánh bướm do Chatgpt gây ra không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh tạo mà còn tạo ra những cơn sóng lớn trong lĩnh vực Web3.
Với sự hỗ trợ của khái niệm AI, việc huy động vốn trong thị trường tiền điện tử đã được cải thiện rõ rệt. Theo thống kê, chỉ trong nửa đầu năm 2024, đã có 64 dự án Web3+AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã huy động được 100 triệu USD trong vòng A.
Thị trường thứ cấp ngày càng sôi động, các trang web tổng hợp tiền điện tử cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD; các lợi ích rõ ràng đến từ sự tiến bộ của công nghệ AI chính thống, sau khi mô hình chuyển đổi văn bản thành video Sora của OpenAI được phát hành, giá trung bình của lĩnh vực AI đã tăng 151%; hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực hút vốn của tiền điện tử là Meme: MemeCoin đầu tiên có khái niệm AI Agent ------ GOAT nhanh chóng trở nên nổi tiếng và được định giá 1,4 tỷ USD, khơi dậy cơn sốt AI Meme.
Về nghiên cứu và chủ đề AI + Web3 cũng đang rất nóng, từ AI + Depin đến AI Memecoin và hiện nay là AI Agent và AI DAO, cảm xúc FOMO đã không theo kịp tốc độ thay đổi của những câu chuyện mới.
AI+Web3, cụm thuật ngữ đầy tiền nóng, cơn sốt và những ảo tưởng về tương lai này, khó tránh khỏi bị coi là một cuộc hôn nhân sắp đặt giữa các nhà đầu tư. Chúng ta dường như rất khó để phân biệt dưới bề ngoài hào nhoáng này, liệu đây là sân khấu của các nhà đầu cơ, hay là đêm trước của một cuộc bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ then chốt là, liệu có bên kia sẽ trở nên tốt hơn không? Liệu có thể hưởng lợi từ mô hình của bên kia không? Trong bài viết này, chúng tôi cố gắng xem xét cấu trúc này: Web3 có thể đóng vai trò như thế nào trong từng giai đoạn của công nghệ AI, và AI có thể mang lại sức sống mới cho Web3 điều gì?
Phần 1 Cơ hội nào cho Web3 dưới AI stack?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:
Giải thích toàn bộ quá trình bằng ngôn ngữ đơn giản: "Mô hình lớn" giống như bộ não của con người, trong giai đoạn đầu, bộ não này thuộc về một đứa trẻ sơ sinh vừa chào đời, cần quan sát và tiếp nhận một lượng lớn thông tin từ thế giới bên ngoài để hiểu biết về thế giới, đây là giai đoạn "thu thập" dữ liệu; do máy tính không có nhiều giác quan như con người, trước khi đào tạo, thông tin ngoài lớn không có nhãn cần được "tiền xử lý" để chuyển đổi thành định dạng mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" xây dựng một mô hình có khả năng hiểu và dự đoán, có thể coi như quá trình mà một đứa trẻ dần dần hiểu và học hỏi về thế giới xung quanh. Các tham số của mô hình giống như khả năng ngôn ngữ của đứa trẻ được điều chỉnh liên tục trong quá trình học. Khi nội dung học bắt đầu được phân chia theo chuyên ngành, hoặc nhận phản hồi từ việc giao tiếp với mọi người và điều chỉnh, thì sẽ vào giai đoạn "tinh chỉnh" của mô hình lớn.
Trẻ em khi lớn lên sẽ có thể nói chuyện, từ đó hiểu ý nghĩa và diễn đạt cảm xúc cũng như suy nghĩ của mình trong những cuộc hội thoại mới. Giai đoạn này tương tự như "suy luận" của mô hình AI lớn, khi mô hình có khả năng dự đoán và phân tích các đầu vào ngôn ngữ và văn bản mới. Trẻ sơ sinh thông qua khả năng ngôn ngữ để diễn đạt cảm xúc, mô tả đối tượng và giải quyết vấn đề, điều này cũng tương tự như việc mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể như phân loại hình ảnh, nhận diện giọng nói, sau khi hoàn thành quá trình đào tạo và đưa vào sử dụng ở giai đoạn suy luận.
AI Agent thì gần gũi hơn với hình thái tiếp theo của mô hình lớn ------ có khả năng thực hiện các nhiệm vụ một cách độc lập và theo đuổi các mục tiêu phức tạp, không chỉ có khả năng tư duy mà còn có thể ghi nhớ, lập kế hoạch và tương tác với thế giới thông qua việc sử dụng công cụ.
Hiện tại, đối với các điểm đau của AI trong các ngăn xếp, Web3 đã hình thành một hệ sinh thái đa tầng, kết nối lẫn nhau, bao gồm tất cả các giai đoạn của quy trình mô hình AI.
Một, Cơ sở hạ tầng: Airbnb cho sức mạnh tính toán và dữ liệu
Sức mạnh tính toán
Hiện tại, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết để đào tạo các mô hình và mô hình suy luận.
Meta's LLAMA3 cần 16.000 GPU H100 do NVIDIA sản xuất (đây là một đơn vị xử lý đồ họa hàng đầu được thiết kế đặc biệt cho các khối lượng công việc trí tuệ nhân tạo và tính toán hiệu suất cao) để hoàn thành việc đào tạo trong 30 ngày. Phiên bản 80GB sau đó có giá từ 30.000 đến 40.000 USD, điều này yêu cầu đầu tư phần cứng tính toán từ 400-700 triệu USD (GPU + chip mạng), đồng thời, việc đào tạo hàng tháng tiêu tốn 1,6 tỷ kWh, chi phí năng lượng gần 20 triệu USD mỗi tháng.
Đối với việc giải nén sức mạnh tính toán AI, đây cũng là lĩnh vực giao thoa đầu tiên giữa Web3 và AI ------ DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Hiện tại, trang web dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, trong đó các dự án đại diện cho việc chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó là: nền tảng cho phép cá nhân hoặc tổ chức sở hữu tài nguyên GPU không sử dụng đóng góp khả năng tính toán theo cách phi tập trung mà không cần giấy phép, thông qua một thị trường trực tuyến giữa người mua và người bán tương tự như Uber hoặc Airbnb, nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác. Người dùng cuối cũng vì vậy mà có được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking đảm bảo rằng nếu xảy ra vi phạm cơ chế kiểm soát chất lượng hoặc ngắt mạng, nhà cung cấp tài nguyên sẽ bị phạt tương ứng.
Đặc điểm của nó là:
Tập hợp tài nguyên GPU nhàn rỗi: Bên cung cấp chủ yếu là các trung tâm dữ liệu nhỏ và vừa độc lập của bên thứ ba, các nhà điều hành mỏ tiền điện tử với tài nguyên tính toán dư thừa, phần cứng khai thác với cơ chế đồng thuận PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án dành cho các thiết bị có ngưỡng gia nhập thấp hơn, như exolab sử dụng MacBook, iPhone, iPad và các thiết bị địa phương khác để thiết lập mạng lưới tính toán cho việc chạy suy diễn mô hình lớn.
Đối mặt với thị trường dài của sức mạnh tính toán AI:
a. Thị trường sức mạnh tính toán phi tập trung ở "khía cạnh kỹ thuật" phù hợp hơn cho các bước suy diễn. Đào tạo phụ thuộc nhiều hơn vào khả năng xử lý dữ liệu do GPU quy mô siêu lớn mang lại, trong khi suy diễn yêu cầu hiệu suất tính toán GPU tương đối thấp, như Aethir tập trung vào công việc render độ trễ thấp và ứng dụng suy diễn AI.
b. Những người có nhu cầu tính toán nhỏ "ở phía cầu" sẽ không tự mình huấn luyện mô hình lớn, mà chỉ chọn tối ưu hóa và tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này rất phù hợp với tài nguyên tính toán nhàn rỗi phân tán.
Quyền sở hữu phi tập trung: Ý nghĩa công nghệ của blockchain là chủ sở hữu tài nguyên luôn giữ quyền kiểm soát đối với tài nguyên, có thể điều chỉnh linh hoạt theo nhu cầu, đồng thời thu được lợi nhuận.
Dữ liệu
Dữ liệu là nền tảng của AI. Nếu không có dữ liệu, tính toán giống như bèo trôi, hoàn toàn vô dụng, và mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc đào tạo mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện tại, những khó khăn trong nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Khát dữ liệu: Huấn luyện mô hình AI phụ thuộc vào việc nhập dữ liệu khổng lồ. Tài liệu công khai cho thấy, số lượng tham số mà OpenAI sử dụng để huấn luyện GPT-4 đã đạt đến cấp độ ngàn tỷ.
Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời, tính đa dạng của dữ liệu, tính chuyên môn của dữ liệu theo ngành, và việc tiếp nhận các nguồn dữ liệu mới như cảm xúc từ mạng xã hội đã đặt ra những yêu cầu mới cho chất lượng của chúng.
Vấn đề quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của các bộ dữ liệu chất lượng cao, và đang áp dụng các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quy trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện nay, giải pháp web3 được thể hiện ở bốn khía cạnh sau:
Thu thập dữ liệu: Dữ liệu thu thập từ thế giới thực được cung cấp miễn phí đang nhanh chóng cạn kiệt, chi phí mà các công ty AI phải trả cho dữ liệu đang tăng lên hàng năm. Tuy nhiên, khoản chi phí này không được chuyển lại cho những người đóng góp thực sự cho dữ liệu, mà các nền tảng hoàn toàn tận hưởng giá trị tạo ra từ dữ liệu, như Reddit đã đạt được doanh thu tổng cộng 203 triệu USD thông qua các thỏa thuận cấp phép dữ liệu với các công ty AI.
Cho phép những người dùng có đóng góp thực sự tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân phối và cơ chế khuyến khích, để thu thập dữ liệu cá nhân và có giá trị hơn từ người dùng với chi phí thấp, là tầm nhìn của Web3.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể thông qua việc chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung gian để thu thập dữ liệu thời gian thực từ toàn bộ internet và nhận phần thưởng bằng token;
Vana đã giới thiệu khái niệm hồ chứa thanh khoản dữ liệu độc đáo (DLP), cho phép người dùng tải lên dữ liệu cá nhân (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt lựa chọn liệu có cho phép các bên thứ ba cụ thể sử dụng dữ liệu này hay không;
Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại trên X và @PublicAI để thực hiện thu thập dữ liệu.
Tiền xử lý dữ liệu: Trong quá trình xử lý dữ liệu AI, do dữ liệu thu thập thường bị nhiễu và chứa lỗi, trước khi huấn luyện mô hình, cần phải làm sạch và chuyển đổi nó thành định dạng có thể sử dụng, liên quan đến việc chuẩn hóa, lọc và xử lý các giá trị bị thiếu. Giai đoạn này là một trong số ít các công đoạn thủ công trong ngành AI, đã phát sinh ra nghề gán nhãn dữ liệu, với việc yêu cầu chất lượng dữ liệu của mô hình ngày càng cao, ngưỡng cho nghề gán nhãn dữ liệu cũng theo đó mà tăng lên, và nhiệm vụ này tự nhiên phù hợp với cơ chế khuyến khích phi tập trung của Web3.
Hiện tại, Grass và OpenLayer đều đang xem xét việc tham gia vào giai đoạn quan trọng này là gán nhãn dữ liệu.
Synesis đã đề xuất khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã gam hóa nhiệm vụ gán nhãn và cho phép người dùng đặt cược điểm để kiếm thêm điểm.
Quyền riêng tư và bảo mật dữ liệu: Cần làm rõ rằng quyền riêng tư dữ liệu và bảo mật dữ liệu là hai khái niệm khác nhau. Quyền riêng tư dữ liệu liên quan đến việc xử lý dữ liệu nhạy cảm, trong khi bảo mật dữ liệu bảo vệ thông tin dữ liệu tránh khỏi việc truy cập, phá hoại và đánh cắp trái phép. Do đó, lợi thế công nghệ quyền riêng tư Web3 và các trường hợp ứng dụng tiềm năng thể hiện ở hai khía cạnh: (1) Huấn luyện dữ liệu nhạy cảm; (2) Hợp tác dữ liệu: Nhiều chủ sở hữu dữ liệu có thể cùng tham gia huấn luyện AI mà không cần chia sẻ dữ liệu gốc.
Công nghệ bảo mật phổ biến trong Web3 hiện nay bao gồm:
Môi trường thực thi đáng tin cậy ( TEE ), chẳng hạn như Super Protocol;
Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network;
Công nghệ zero-knowledge (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra chứng minh zero-knowledge cho lưu lượng HTTPS, cho phép người dùng nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài một cách an toàn mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, một khó khăn hiện tại là chi phí tính toán quá cao, ví dụ:
Khung zkML EZKL cần khoảng 80 phút để tạo ra chứng minh cho mô hình 1M-nanoGPT.
Theo dữ liệu của Modulus Labs, chi phí của zkML cao hơn 1000 lần so với tính toán thuần túy.
Lưu trữ dữ liệu: Sau khi có dữ liệu, cần một nơi để lưu trữ dữ liệu trên chuỗi và LLM được tạo ra từ dữ liệu đó. Với vấn đề khả năng truy cập dữ liệu (DA) làm trung tâm, trước khi nâng cấp Danksharding trên Ethereum, thông lượng của nó là 0,08MB. Trong khi đó, việc huấn luyện mô hình AI và suy diễn thời gian thực thường cần từ 50 đến 100GB thông lượng dữ liệu mỗi giây. Sự chênh lệch mức độ này khiến các giải pháp hiện có trên chuỗi không đủ khả năng đáp ứng "các ứng dụng AI tiêu tốn tài nguyên".
0g.AI là dự án đại diện cho loại này. Nó là giải pháp lưu trữ tập trung được thiết kế cho nhu cầu hiệu suất cao của AI, với các đặc điểm chính bao gồm: hiệu suất cao và khả năng mở rộng, hỗ trợ tải lên và tải xuống nhanh chóng các tập dữ liệu quy mô lớn thông qua công nghệ phân mảnh nâng cao (Sharding) và mã sửa lỗi (Erasure Coding), tốc độ truyền dữ liệu gần 5GB mỗi giây.
Hai, Middleware: Đào tạo và suy luận mô hình
Thị trường phi tập trung mô hình mã nguồn mở
Cuộc tranh luận về việc mô hình AI có nên đóng hay mở nguồn chưa bao giờ biến mất. Sự đổi mới tập thể mà mã nguồn mở mang lại thì mô hình đóng không thể so sánh.
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
4 thích
Phần thưởng
4
3
Chia sẻ
Bình luận
0/400
BlockchainFoodie
· 14giờ trước
đang phục vụ một số thông tin web3 như một đầu bếp defi đạt sao michelin... sự kết hợp ai+web3 này trông như công thức hoàn hảo thật sự
Xem bản gốcTrả lời0
PaperHandsCriminal
· 14giờ trước
Lại bị Được chơi cho Suckers rồi, thấy gì tăng lên thì sao chép.
Phân tích cấu trúc AI+Web3: Cơ hội và thách thức từ cơ sở hạ tầng đến mô hình kinh doanh
AI+Web3: Tháp và Quảng trường
TL;DR
Dự án Web3 với khái niệm AI trở thành mục tiêu thu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng động lực phân phối để phối hợp nguồn cung tiềm năng trong đuôi dài------qua dữ liệu, lưu trữ và tính toán; đồng thời, xây dựng mô hình mã nguồn mở cũng như thị trường phi tập trung cho AI Agent.
AI chủ yếu được áp dụng trong ngành Web3 vào tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Tính hữu ích của AI+Web3 thể hiện ở sự bổ sung cho nhau: Web3 hy vọng chống lại sự tập trung của AI, AI hy vọng giúp Web3 vượt ra ngoài giới hạn.
Giới thiệu
Trong hai năm qua, sự phát triển của AI dường như đã được nhấn nút tăng tốc, hiệu ứng cánh bướm do Chatgpt gây ra không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh tạo mà còn tạo ra những cơn sóng lớn trong lĩnh vực Web3.
Với sự hỗ trợ của khái niệm AI, việc huy động vốn trong thị trường tiền điện tử đã được cải thiện rõ rệt. Theo thống kê, chỉ trong nửa đầu năm 2024, đã có 64 dự án Web3+AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã huy động được 100 triệu USD trong vòng A.
Thị trường thứ cấp ngày càng sôi động, các trang web tổng hợp tiền điện tử cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD; các lợi ích rõ ràng đến từ sự tiến bộ của công nghệ AI chính thống, sau khi mô hình chuyển đổi văn bản thành video Sora của OpenAI được phát hành, giá trung bình của lĩnh vực AI đã tăng 151%; hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực hút vốn của tiền điện tử là Meme: MemeCoin đầu tiên có khái niệm AI Agent ------ GOAT nhanh chóng trở nên nổi tiếng và được định giá 1,4 tỷ USD, khơi dậy cơn sốt AI Meme.
Về nghiên cứu và chủ đề AI + Web3 cũng đang rất nóng, từ AI + Depin đến AI Memecoin và hiện nay là AI Agent và AI DAO, cảm xúc FOMO đã không theo kịp tốc độ thay đổi của những câu chuyện mới.
AI+Web3, cụm thuật ngữ đầy tiền nóng, cơn sốt và những ảo tưởng về tương lai này, khó tránh khỏi bị coi là một cuộc hôn nhân sắp đặt giữa các nhà đầu tư. Chúng ta dường như rất khó để phân biệt dưới bề ngoài hào nhoáng này, liệu đây là sân khấu của các nhà đầu cơ, hay là đêm trước của một cuộc bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ then chốt là, liệu có bên kia sẽ trở nên tốt hơn không? Liệu có thể hưởng lợi từ mô hình của bên kia không? Trong bài viết này, chúng tôi cố gắng xem xét cấu trúc này: Web3 có thể đóng vai trò như thế nào trong từng giai đoạn của công nghệ AI, và AI có thể mang lại sức sống mới cho Web3 điều gì?
Phần 1 Cơ hội nào cho Web3 dưới AI stack?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:
Giải thích toàn bộ quá trình bằng ngôn ngữ đơn giản: "Mô hình lớn" giống như bộ não của con người, trong giai đoạn đầu, bộ não này thuộc về một đứa trẻ sơ sinh vừa chào đời, cần quan sát và tiếp nhận một lượng lớn thông tin từ thế giới bên ngoài để hiểu biết về thế giới, đây là giai đoạn "thu thập" dữ liệu; do máy tính không có nhiều giác quan như con người, trước khi đào tạo, thông tin ngoài lớn không có nhãn cần được "tiền xử lý" để chuyển đổi thành định dạng mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" xây dựng một mô hình có khả năng hiểu và dự đoán, có thể coi như quá trình mà một đứa trẻ dần dần hiểu và học hỏi về thế giới xung quanh. Các tham số của mô hình giống như khả năng ngôn ngữ của đứa trẻ được điều chỉnh liên tục trong quá trình học. Khi nội dung học bắt đầu được phân chia theo chuyên ngành, hoặc nhận phản hồi từ việc giao tiếp với mọi người và điều chỉnh, thì sẽ vào giai đoạn "tinh chỉnh" của mô hình lớn.
Trẻ em khi lớn lên sẽ có thể nói chuyện, từ đó hiểu ý nghĩa và diễn đạt cảm xúc cũng như suy nghĩ của mình trong những cuộc hội thoại mới. Giai đoạn này tương tự như "suy luận" của mô hình AI lớn, khi mô hình có khả năng dự đoán và phân tích các đầu vào ngôn ngữ và văn bản mới. Trẻ sơ sinh thông qua khả năng ngôn ngữ để diễn đạt cảm xúc, mô tả đối tượng và giải quyết vấn đề, điều này cũng tương tự như việc mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể như phân loại hình ảnh, nhận diện giọng nói, sau khi hoàn thành quá trình đào tạo và đưa vào sử dụng ở giai đoạn suy luận.
AI Agent thì gần gũi hơn với hình thái tiếp theo của mô hình lớn ------ có khả năng thực hiện các nhiệm vụ một cách độc lập và theo đuổi các mục tiêu phức tạp, không chỉ có khả năng tư duy mà còn có thể ghi nhớ, lập kế hoạch và tương tác với thế giới thông qua việc sử dụng công cụ.
Hiện tại, đối với các điểm đau của AI trong các ngăn xếp, Web3 đã hình thành một hệ sinh thái đa tầng, kết nối lẫn nhau, bao gồm tất cả các giai đoạn của quy trình mô hình AI.
Một, Cơ sở hạ tầng: Airbnb cho sức mạnh tính toán và dữ liệu
Sức mạnh tính toán
Hiện tại, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết để đào tạo các mô hình và mô hình suy luận.
Meta's LLAMA3 cần 16.000 GPU H100 do NVIDIA sản xuất (đây là một đơn vị xử lý đồ họa hàng đầu được thiết kế đặc biệt cho các khối lượng công việc trí tuệ nhân tạo và tính toán hiệu suất cao) để hoàn thành việc đào tạo trong 30 ngày. Phiên bản 80GB sau đó có giá từ 30.000 đến 40.000 USD, điều này yêu cầu đầu tư phần cứng tính toán từ 400-700 triệu USD (GPU + chip mạng), đồng thời, việc đào tạo hàng tháng tiêu tốn 1,6 tỷ kWh, chi phí năng lượng gần 20 triệu USD mỗi tháng.
Đối với việc giải nén sức mạnh tính toán AI, đây cũng là lĩnh vực giao thoa đầu tiên giữa Web3 và AI ------ DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Hiện tại, trang web dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, trong đó các dự án đại diện cho việc chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó là: nền tảng cho phép cá nhân hoặc tổ chức sở hữu tài nguyên GPU không sử dụng đóng góp khả năng tính toán theo cách phi tập trung mà không cần giấy phép, thông qua một thị trường trực tuyến giữa người mua và người bán tương tự như Uber hoặc Airbnb, nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác. Người dùng cuối cũng vì vậy mà có được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking đảm bảo rằng nếu xảy ra vi phạm cơ chế kiểm soát chất lượng hoặc ngắt mạng, nhà cung cấp tài nguyên sẽ bị phạt tương ứng.
Đặc điểm của nó là:
Tập hợp tài nguyên GPU nhàn rỗi: Bên cung cấp chủ yếu là các trung tâm dữ liệu nhỏ và vừa độc lập của bên thứ ba, các nhà điều hành mỏ tiền điện tử với tài nguyên tính toán dư thừa, phần cứng khai thác với cơ chế đồng thuận PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án dành cho các thiết bị có ngưỡng gia nhập thấp hơn, như exolab sử dụng MacBook, iPhone, iPad và các thiết bị địa phương khác để thiết lập mạng lưới tính toán cho việc chạy suy diễn mô hình lớn.
Đối mặt với thị trường dài của sức mạnh tính toán AI:
a. Thị trường sức mạnh tính toán phi tập trung ở "khía cạnh kỹ thuật" phù hợp hơn cho các bước suy diễn. Đào tạo phụ thuộc nhiều hơn vào khả năng xử lý dữ liệu do GPU quy mô siêu lớn mang lại, trong khi suy diễn yêu cầu hiệu suất tính toán GPU tương đối thấp, như Aethir tập trung vào công việc render độ trễ thấp và ứng dụng suy diễn AI.
b. Những người có nhu cầu tính toán nhỏ "ở phía cầu" sẽ không tự mình huấn luyện mô hình lớn, mà chỉ chọn tối ưu hóa và tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này rất phù hợp với tài nguyên tính toán nhàn rỗi phân tán.
Dữ liệu
Dữ liệu là nền tảng của AI. Nếu không có dữ liệu, tính toán giống như bèo trôi, hoàn toàn vô dụng, và mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc đào tạo mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện tại, những khó khăn trong nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Khát dữ liệu: Huấn luyện mô hình AI phụ thuộc vào việc nhập dữ liệu khổng lồ. Tài liệu công khai cho thấy, số lượng tham số mà OpenAI sử dụng để huấn luyện GPT-4 đã đạt đến cấp độ ngàn tỷ.
Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời, tính đa dạng của dữ liệu, tính chuyên môn của dữ liệu theo ngành, và việc tiếp nhận các nguồn dữ liệu mới như cảm xúc từ mạng xã hội đã đặt ra những yêu cầu mới cho chất lượng của chúng.
Vấn đề quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của các bộ dữ liệu chất lượng cao, và đang áp dụng các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quy trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện nay, giải pháp web3 được thể hiện ở bốn khía cạnh sau:
Cho phép những người dùng có đóng góp thực sự tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân phối và cơ chế khuyến khích, để thu thập dữ liệu cá nhân và có giá trị hơn từ người dùng với chi phí thấp, là tầm nhìn của Web3.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể thông qua việc chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung gian để thu thập dữ liệu thời gian thực từ toàn bộ internet và nhận phần thưởng bằng token;
Vana đã giới thiệu khái niệm hồ chứa thanh khoản dữ liệu độc đáo (DLP), cho phép người dùng tải lên dữ liệu cá nhân (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt lựa chọn liệu có cho phép các bên thứ ba cụ thể sử dụng dữ liệu này hay không;
Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại trên X và @PublicAI để thực hiện thu thập dữ liệu.
Hiện tại, Grass và OpenLayer đều đang xem xét việc tham gia vào giai đoạn quan trọng này là gán nhãn dữ liệu.
Synesis đã đề xuất khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã gam hóa nhiệm vụ gán nhãn và cho phép người dùng đặt cược điểm để kiếm thêm điểm.
Công nghệ bảo mật phổ biến trong Web3 hiện nay bao gồm:
Môi trường thực thi đáng tin cậy ( TEE ), chẳng hạn như Super Protocol;
Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network;
Công nghệ zero-knowledge (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra chứng minh zero-knowledge cho lưu lượng HTTPS, cho phép người dùng nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài một cách an toàn mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, một khó khăn hiện tại là chi phí tính toán quá cao, ví dụ:
Khung zkML EZKL cần khoảng 80 phút để tạo ra chứng minh cho mô hình 1M-nanoGPT.
Theo dữ liệu của Modulus Labs, chi phí của zkML cao hơn 1000 lần so với tính toán thuần túy.
Hai, Middleware: Đào tạo và suy luận mô hình
Thị trường phi tập trung mô hình mã nguồn mở
Cuộc tranh luận về việc mô hình AI có nên đóng hay mở nguồn chưa bao giờ biến mất. Sự đổi mới tập thể mà mã nguồn mở mang lại thì mô hình đóng không thể so sánh.