web3与AI结合-Sahara AI 项目介绍

news/2025/1/8 1:53:12 标签: 人工智能, web3, 区块链, 去中心化, 数据标注

背景介绍

Sahara AI 于 2023 年创立,是一个 "区块链+AI" 领域的项目。其项目愿景是,利用区块链和隐私技术将现有的 AI 商业模式去中心化,打造公平、透明、低门槛的 “协作 AI 经济” 体系,旨在重构新的利益分配机制以及交易、协作市场,在资产化和上链 AI 资源的同时,确保 AI 构建的每个环节都公开透明、可溯源。

目前已完成 A 轮融资,金额为 4300 万,由 Binance、Polychain 等机构领投。项目的核心创始人包括:

  • Sean Ren (CEO):南加州大学计算机系终身副教授,拥有 15 年 AI 领域的研究经验。(技术代表)
  • Tyler Zhou (联合创始人):前 Binance Labs 投资总监。(融资代表)

该项目于 2024 年 12 月 9 日开启第一期小范围测试,白名单人数约 1 万人,开放体验的功能为数据标注与审查。项目的核心技术方案细节和代码尚未公开。

项目概览

Sahara AI 平台的目标是打造一个涵盖整个 AI 生命周期的所有开发需求的一站式市场——从数据收集与标注,到模型训练与服务、AI 代理的创建与部署、多代理通信、AI 资产交易以及 AI 资源的众包。

通过使人工智能开发过程民主化并降低现有系统的进入门槛,Sahara AI 为个人、企业和社区提供平等的机会,共同建设人工智能的未来。

整个 AI 服务搭建的完整流水线流程如下:

首先对原始数据进行标注,然后将标注好的优质数据喂给特定的算法,并在算力的加持下进行训练,最终产出 AI 模型。随后,基于训练好的模型,设计服务于特定目的的 AI 代理(Agent)。

整个过程对标传统商业:

【Scale AI 等公司提供标注好的优质数据(依赖旗下大量廉价劳动力构建的众包网络) → Nvidia、云计算厂商等提供算力 → ChatGPT 等公司提供算法并训练模型】 → 开发者使用 ChatGPT 提供的模型和工具制作自己的 Agent 并提供特定服务 → 普通用户使用 Agent。

在整个 AI 产业链的上游,数据、算力、算法和模型基本上被这些大型商业公司所承包。普通人、小型公司以及社区很难参与其中并获得相应的收益。

Sahara AI 和传统的 AI 公司还有一个显著的区别:传统 AI 公司致力于打造 AI 模型与产品,而 Sahara AI 的目标是打造一个更为纯粹和开放的 AI 协作市场。它提供基础平台,并鼓励大众参与内容的生产(AI 资源和服务)。

任何有能力的人都可以自由地加入到 AI 服务搭建的任意环节中,并贡献自己的力量。同时,每个人的贡献将被公正记录,并参与到后续的收益分配中。

然而,如何整合资源、调配各个环节中不同个体之间的协作,如何界定利益分配的比例,仍然存在不小的技术挑战。从目前测试网的状况来看,Sahara AI 已初步构建了数据标注板块,但更大的挑战在于后续整个流水线和市场的搭建。

单单“数据标注”这一块市场,其份额也是相当可观的,但由于入局门槛较低,如何促成商业合作以及构建技术“护城河”才是关键。可以对标 Scale AI,这家公司是数据标注领域的独角兽,估值达到 138 亿美元,且在 AI 自动/辅助标注工具和数据质量审查方面积累了较强的技术优势。

如果 Sahara AI 能在数据标注领域站稳脚跟,并成功构建市场,那么其后续的长远布局或许就能建立一个稳固的基础。

发展现状

数据标注功能">测试网 - 仅开放数据标注功能

Sahara AI 于12月9日开启了测试网。由于完整落地的技术挑战较大,目前的测试功能仅开放数据标注。参与需要申请白名单,第一批参与者大约有1万人。为了帮助参与者更好地了解平台操作,官方提供了详细的交互操作教材和视频教学:Sahara Labs 数据服务。

为了确保数据标注的质量,Sahara AI 设计了双重审核机制,将参与者分为“标注者”和“审核者”两类:

  • 标注者:根据任务要求进行数据标注
  • 审核者:负责审核标注者提交的任务,确保标注质量。

此外,为了进一步保障数据质量,Sahara AI 设立了惩罚机制,低评分的标注者会被封禁,从而确保平台的标注工作维持高标准。参与者可以通过完成标注和审核任务获得积分和经验,进而参与空投转化和声誉提升。

与行业领先的 Scale AI 相比,Sahara AI 在工具和配套设施的完善度上还有较大差距。Scale AI 提供了成熟的工具帮助标注者完成数据标注,但目前 Sahara AI 缺乏这些工具,且测试中标注任务的难度较高,这可能会影响参与者的热情。

数据标注领域">其它项目 - 数据标注领域

web3数据标注项目 - Sapien AI,Human Protocol

Sahara AI 数据标注部分的设计,本质上就是依赖区块链构建了一个去中心化的劳动力众包平台。

  • Human Protocol:该项目在 2018 年便尝试通过区块链技术构建去中心化的劳动力众包平台。囿于当时的市场环境(AI 大模型还未火爆),项目主要专注于预言机领域,但也涵盖了数据标注
  • Sapien AI:与 Sahara AI 不同,Sapien AI 专注于数据标注领域,目的是打造数据标注领域的 “全球化 Uber” 并为市场提供更加多元化的标注数据。目前已融资近1500万美元。

传统数据标注公司 - Scale AI

数据标注领域,Scale AI 是目前传统公司里面的独角兽,也是大模型时代最大的受益者之一。

数据标注领域的市场竞争,无非就是争抢市场的上下游(数据需求方 和 标注劳动力)。

  • 对于上游,在意的无非就是数据的质量和价格。
  • 而下游,在意的无非就是标注工作的强度和收益。

除了 toB 销售以外,如何管理和辅助下游劳动力群体,也是中介平台的核心工作内容之一。因为这决定了能否为上游提供低价、优质的数据。

通过在线标注的模式,Scale AI 的众包劳动力主要来自东南亚等低收入地区,这对于降低标注成本有很大的裨益。

而同时,为了提高标注数据的质量和标注的效率,Scale AI 提供了很多成熟的管理和辅助标注工作开展的工具,例如:

  • Scale Rapid: ML 团队快速开发生产质量的训练数据的标注平台。它允许用户上传数据、设置标注说明,并在几小时内获得初步标签的反馈和校准,以便快速扩展数据标注过程以处理更大的数据量。Scale AI 提供了标注数据所需的标注员工。
  • Scale Studio:是用于管理公司标注项目和员工的平台。该产品提供了一个工具,用于跟踪和可视化标注员工的指标,并提供 ML 辅助标注工具以加速标注。它跟踪吞吐量、效率和准确性等指标。
  • Nucleus:允许进行数据探索、调试错误标签、比较不同版本 ML 模型的准确度指标,并找出失败案例,从而更好地管理和评估数据。

除了 Scale AI,标注市场上还有 Amazon Mechanical Turk、Labelbox、Appen 和 Hive 等。本质上开展标注业务的门槛很低,而 Scale AI 的主要竞争优势也是来自于其内部机器学习标注算法,使整个人工标注更加自动化和便宜,从而实现规模经济效益。随着时间的发展,Scale AI 掌握的大量标注数据优势会持续累积,在自动标注领域的优势也会不断扩大。

在这一方面上,Sahara AI 目前主要还是处于纯人力标注和审核的阶段,可以提升的空间还很大。

Sahara 能否维持住生态参与者的热情的同时,保证数据标注的质量很关键。毕竟,目前区块链领域的早期参与者对于收益的需求比较强烈,和传统的低收入地区的人群有一定的区别。虽然利用区块链技术,一定程度上去掉了劳动力市场和数据需求方之间的中介平台,但能否长期产出优质低价的数据还有待观望。

不过 Sahara AI 的独特之处在于其愿景——构建一个开放的 AI 协作市场,而不仅仅是一家数据标注公司。Sahara AI 并不单纯与 Scale AI 竞争,而是通过去中心化的方式重新定义 AI 生态系统的合作模式。如果能够成功实现这一愿景,传统的数据标注公司,如 Scale AI,或许可能成为 Sahara AI 生态的一部分。


http://www.niftyadmin.cn/n/5815572.html

相关文章

vue3中ref动态定义

文章目录 前言一、 前言 vue3项目开发过程中,经常会遇到遍历表格,这些表格上的文本框可能会绑定ref,当需要给制定的文本框赋值时,常常是选择不到的,因为vue3的ref是需要提前定义的,所以这里用一个数组存放…

Mysql面试相关

优化 定位慢查询 慢语句分析 索引概念及其底层数据结构 二叉搜索树、红黑树、B树、B树 聚簇索引非聚簇索引、回表查询 覆盖索引、超大分页优化 上面图片文字 此处应为 进行排序 索引创建的原则 索引失效 违法最左前缀法则 范围查询右边的列,不能使用索引 在索引列…

Koi技术教程-Tauri基础教程-第一节 Tauri项目创建及结构说明

1 “你日渐平庸,甘于平庸,将继续平庸。”——《以自己喜欢的方式过一生》 2. “总是有人要赢的,那为什么不能是我呢?”——科比布莱恩特 3. “你那么憎恨那些人,和他们斗了那么久,最终却要变得和他们一样,…

02、Redis的安装与配置

一、安装配置CentOS7 第一步:安装虚拟机 这个步比较简单,直接安装好VMware和使用CentOS7的镜像安装操作系统 相关资源如果有需要可以在如下位置下载: VMare虚拟机:VMare工具 CentOS7镜像:CentOS7镜像 JDK17_linux-x64:JDK17_linux-x64 linux服务器连接工具:MobaX…

halcon中图像处理及图像滤波

图像滤波简介 图像滤波的方法主要分为两大类:空间域方法和频域方法。 空间域方法是以对图像的像素直接进行处理为基础,包括均值滤波、中值滤波、高斯滤波等;频域方法则是以修改图像在傅里叶变换空间的值为基础的,包括高通滤波、低通滤波、同态滤波等。 1.空间域图像滤波 图…

【C语言程序设计——选择结构程序设计】求一元二次方程的根(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 sqrt() 函数 编程要求 测试说明 通关代码 测试结果 任务描述 本关任务:根据求根公式,计算并输出一元二次方程的两个实根,要求精确道小数点后2位。要求方程系数从键盘输入。如果输入的系数不满足求…

Leecode刷题C语言之不含特殊楼层的最大连续楼层数

执行结果:通过 执行用时和内存消耗如下: int cmp(const void *a,const void *b){return *((int*)a) - *((int*)b); } int maxConsecutive(int bottom, int top, int* special, int specialSize){int max0;qsort(special,specialSize,sizeof(int),cmp);maxspecial[0…

nvm如何安装

一、简介 在实际的开发和学习中可能会遇到不同项目的 node 版本不同,而出现的兼容性问题。 而 nvm 就可以很好的解决这个问题,它可以在同一台机器上下管理多个 node 版本,使得程序员可以轻松地安装、卸载和切换不同的 node 版本。 在下载和配…