编译|阿尔法公社
AI,包括机器学习现在是重要的技术趋势,在这个领域已经有不少独角兽创业公司,科技巨头们更是早早布局。只要对这项技术稍有了解就会明白,数据是机器学习的养料,那么已经拥有大量数据的科技巨头公司会不会强者更强,甚至形成垄断,后来的创业公司还有机会么?
为什么数据对于机器学习很重要?
首先,为什么数据对于机器学习如此重要?举例说明。在过去,利用传统的方法构建一个系统来识别某样事物,需要一系列复杂的规则,例如要识别图片里的一只猫,需要构建识别猫的轮廓、毛发、腿、眼睛、耳朵等一系列的规则,并把它们整合在一起。但在实践中,这样的方法过于复杂,可行度不高。
如果用机器学习来识别猫,你不需要写规则,而是给一个统计引擎提供数据和例子,这个引擎就会生成一个具有分辨能力的模型。然后你给它10万张标有 "猫"的图片和10万张标有 "不是猫 "的图片,机器就能分辨出它们的区别。
机器学习用数据中自动确定的模式取代了手写的逻辑步骤,对于一些非常广泛的问题,机器学习的效果会更好,例如在计算机视觉、文字和语音方面,它都有非常典型的用例。
对于机器学习,你需要多少数量的数据才能达到目标是一个浮动的数字,有一些研究方向是让机器学习使用更小的数据集就可以完成工作,但是在目前,更多的数据几乎总是能得到更好的结果。
巨头拥有很多数据,这会帮助它们垄断么?
因此,问题来了:如果机器学习可以重构很多重要的事情,并且数据越多机器学习就给你越好的结果。那么,是否意味着已经是巨头,拥有巨量数据的公司会变得更加强大?这种赢家通吃的效应会有多强?因为这背后的道理似乎很清楚:"更多的数据=更准确的模型=更好的产品=更多的用户=更多的数据"。
于是有一些说法就会出现:“谷歌/Facebook/亚马逊拥有所有的数据,中国拥有所有的数据,那些拥有大量数据的科技公司和人口众多,数据丰富的国家将在竞争中获得优势。”
不过,虽然机器学习需要大量的数据,但你使用的数据必须是非常具体的,只有这样才能解决特定的问题。GE有很多燃气轮机的遥测数据,Google有很多搜索数据,Amex有很多信用卡欺诈数据。你不能用涡轮机的数据作为例子来发现欺诈性交易,也不能用网络搜索的数据来发现即将出现故障的燃气轮机。
也就是说,机器学习是一种通用的技术,你既能用它来欺诈监测也能进行人脸识别,但是用它构建的具体应用互相之间是不通用的。每一个特定的模型或应用只能做一件事。
这和之前的自动化技术普及大同小异:就如洗衣机只能洗衣服不能洗完一样,机器学习支持的翻译程序也不能识别猫的图片。你构建的应用程序和这些应用程序需要的数据集是非常具体的,他们只会胜任特定的任务(当然,现在有一些前沿研究试图使某些数据集能够拥有更广泛的通用性。)
也就是说,机器学习可以让每个行业的大公司变得更强大——沃达丰,GE,谷歌拥有各自行业“所有的数据”,这会让他们拥有更强的竞争优势,让已经存在的护城河变的更深。但是问题其实也不那么简单,我们可以提出疑问:到底谁拥有数据,这些数据到底多有用,在什么层面上它是有效的,怎样去聚合与分析它们才是正确的?
如何聚合与分析数据才是有意义的?
作为一个公司的创始人,可以思考以下的问题:作为一家行业公司,你是否有收集和管理好自己的数据,并建立机器学习系统来分析它,还是说你找了对口的AI供应商来做这件事;你的供应商提供的是一个已经在别的数据集上训练好的成品,还是根据你的数据定制训练,或者将你的数据与其他数据集混合起来一起训练?你的供应商是否需要你的数据来优化模型,还是说整个行业的数据已经非常丰富,用现成的数据集就已足够?在业务的不同部分,不同的行业,不同的细分业务中,这些问题的答案是不同的。
但是也可能出现另一种情况,到了某种分界点后,模型已经很成熟,厂商不需要更多的数据,就已经能够很好的构建产品了。
AI创业,到底应该怎么切入?
因此,回到核心,对于机器学习创业公司,都要面对两个问题:如何获得数据,需要多少数据?但这些只是技术性问题:你更应该考虑你的目标市场是什么,如何进入市场,你要解决的问题对你的客户有多大价值,等等。
也就是说,很快就不会再有 "人工智能 "创业公司了,它们将是工业流程分析公司,法律平台公司,或者销售优化公司等等。事实上,机器学习的普及并不意味着谷歌变强,而是意味着各种创业公司可以比以前更快地用这种先进技术来建立业务。
我用一个比喻来做最后的总结,我们可以把机器学习比作数据库。数据库非常重要,它是一种基础设施,融入了各种各样的场景。
如果你不使用它,而你的竞争对手使用它,你就会落后。在它还是一个新鲜事物时,有的公司曾经依靠这种技术获得过竞争优势,沃尔玛的部分成功来自于使用数据库,从而可以更有效的管理库存和物流。但在今天,如果你创办了一家零售商,并说,我们正在使用最先进的数据库技术;那这并不会让你变得与众不同。
数据库已经变成了一种普遍化的技术基础设施,它不再有特殊性,同样的事情在未来也会发生在机器学习上。
本文综合编译自知名投资人Benedict Evans的个人博客。

评论