2746| 0
|
图解人工智能创业公司如何走出创业迷局 |
思维迷宫,是一张标注了创业公司在特定时期要做的所有重大决定和权衡的地图。 Balaji Srinivasan 在他的“Market Research, Wireframing and Design”中这样说到:
我认为如果举一个我感兴趣的领域的例子会更加生动:AI 创业公司。下图是一幅针对人工智能创业的迷宫草图,接下来我会详细的解释这张图。 正确率80%-90%的MVP (Minimum Viable Product,最简化可实行产品) 在机器学习界,有一句老话说“机器学习对几乎任何问题都可以给出很好的部分解答。”对于大多数问题,要建立出一个 80-90% 情况下都正确的模型并不难。在模型建立之后,随着时间,金钱,脑力和数据的不断投入,获得回报的速度却越来越慢。大概来说,要达到 80% 的正确率只需要几个月,但是为了获得最后的 20%,你不得不花上好几年,甚至永远达不到(这就是为什么你会在 Watson 和自动驾驶的部分演示中看到极端场景的原因,比如一只狗以闪电般的速度突然跳到车前。演示本身并没有什么意义,但是你要看到的是,他们是如何应对 10%-20% 的边缘情况的)。 在迷宫的这个阶段,你可以选择 1)试图把正确率提高到近乎 100%,或者 2)打造一个部分正确但是可用的产品。我把这个过程称为构建“容错的 UX(user experience, 客户体验)”。 建立容错的UX 关于用户体验的容错性有一些好的例子,比如 iOS 的自动改正,还有 Google 搜索的“did you mean X?”。你也可以说 Google 搜索本身就是一个容错的客户体验:每次搜索显示 10 条结果,而不是直接转到第一条连接,这样一来即使机器出错了,用户也可以手动控制。建立容错的用户体验并不代表投降,但它却是意味着一套不同的产品需求。(比如说如果你希望人机可以一起工作,那么间隔时间(latency)就变得很重要,它甚至可以影响你的技术框架)。 然而,如果你打算使精确度达到 100%,你又应该怎么做呢?算法是不会帮你拿到那剩下的 10-20% 的,你只能通过更多的数据训练你的模型。对于 AI 来说,数据是关键,这是因为 1)我们已经有了很好的算法和无尽的计算资源,数据唯一缺失的一环,2)数据又是最关键的一环。算法对于研究界来说是共享的资源,而公用数据集又难以达到很好的效果,好的数据集不是私有的,就是还没出现。 进一步细分领域 哪怕你已经处于一个细分领域中,尝试进一步地细分。即使的的目标是建立 X,有时候先打造一个细分领域下的 MVP,实现部分的 X,可能是最终做出 X 的最好方法。我的建议是,在保证用户的前提下,尽可能的细分你的产品, 因为将来以总可以扩大你的领域。 如何获取数据 方法大致分为两类:建立自己的数据集或者是众包。 我们可以对比 Google Maps 和 Waze,Google 雇佣了上千人四处绘制道路,建筑和交通;而 Waze 则想出了一个让数百万人为它这么做的方法。如果你要采取 Google 的方法,你需要的巨大资金量是一般小创业公司无法承受的。 因此,创业公司要想获取数据只有两条途径,公开数据集和众包。 对于前者,最常见的例子就是从大网站,比如像 Wikipedia 这样的网站上爬数据下来。你可以说这和 Google 搜索利用链接作为排名信号是一样的。许多创业公司都试图从 Wikipedia 上挖掘数据,但是据我所知并不成功。 对于创业公司来说更可行的方法可能是众包采集数据。这就归结为如何设计服务才能激励用户,将数据传回,完善系统。设计众包产品自己本身就是一个课题(因此这个迷宫也指向了自己,是一个嵌套迷宫),但是我可以说一个可行的方法,使我们去年投资的一家叫 Wit.ai 采用的。Wit 的想法是为开发者提供语音转文字和自然语言处理的服务。他们的 v1.0 系统正确率并不高,但是他们还提供了 dashboard 和 API 可供开发者更改错误。对于那些使用免费版服务的开发者们,他们提供的训练使得整个系统更加完善。随后他们被 Facebook 收购,已经成为这家大公司的一部分,但是他们使用的方法很巧妙并且可以为创业公司们借鉴。 这只是我对 AI 创业公司思维迷宫看法的一张草图,必需提醒大家 1)我也有可能犯错或者是忽略了一些重要的过程,你可以把这张草图作为讨论依据,但是不要把它看成信条 2)就像 Balaji 说的,新科技的发展可以拨开迷雾,改变假设。尤其是看看那些新的基础技术(互联网,智能手机,云计算,比特币等),他们可以在很多行业开辟新径,即使我们最初并不觉得他们有关系。 |
© 2013-2024 Comsenz Inc. Powered by Discuz! X3.4 Licensed