比 Scale AI 更值得关注的 AI 数据标注公司Surge AI。至今没有融资,去年营收达到 10 亿美元,已超过Scale AI。
摘要:
- 数据标注领域的其他公司本质上只是「人力外包公司」,交付的不是数据,而仅仅是人力。Surge 定位其产品是:直接用于训练和评估 AI 模型的高质量数据,包括监督微调(SFT)数据、偏好数据等。
- 大语言模型竞技场,以及各种学术基准测试是「人工智能的一大祸害」。用户凭 5-10 秒的直觉选择,导致模型被训练得去优化排版、表情符号和回答长度等表面特征,牺牲了事实性和指令遵循能力,本质上是在训练模型产出「点击诱饵」。
- Edwin Chen 用「画边界框」和「写诗」来类比两类数据。前者数据质量天花板很低,而后者(如写诗、编程、数学证明)质量天花板极高,充满了主观性、创造力和智慧。生成式 AI 时代所需要的数据是后者。
- 你可以用 10%的资源和 10%的人力,建立一家完全不同的公司,但你的发展速度仍然可以快 10 倍,并且能生产出好 10 倍的产品。
来源:www.youtube.com