AI时代，拥有更多数据的巨头会垄断么？创业公司是否还有机会？|界面新闻

编译｜阿尔法公社

AI，包括机器学习现在是重要的技术趋势，在这个领域已经有不少独角兽创业公司，科技巨头们更是早早布局。只要对这项技术稍有了解就会明白，数据是机器学习的养料，那么已经拥有大量数据的科技巨头公司会不会强者更强，甚至形成垄断，后来的创业公司还有机会么？

为什么数据对于机器学习很重要？

首先，为什么数据对于机器学习如此重要？举例说明。在过去，利用传统的方法构建一个系统来识别某样事物，需要一系列复杂的规则，例如要识别图片里的一只猫，需要构建识别猫的轮廓、毛发、腿、眼睛、耳朵等一系列的规则，并把它们整合在一起。但在实践中，这样的方法过于复杂，可行度不高。

如果用机器学习来识别猫，你不需要写规则，而是给一个统计引擎提供数据和例子，这个引擎就会生成一个具有分辨能力的模型。然后你给它10万张标有 "猫"的图片和10万张标有 "不是猫 "的图片，机器就能分辨出它们的区别。

机器学习用数据中自动确定的模式取代了手写的逻辑步骤，对于一些非常广泛的问题，机器学习的效果会更好，例如在计算机视觉、文字和语音方面，它都有非常典型的用例。

对于机器学习，你需要多少数量的数据才能达到目标是一个浮动的数字，有一些研究方向是让机器学习使用更小的数据集就可以完成工作，但是在目前，更多的数据几乎总是能得到更好的结果。

巨头拥有很多数据，这会帮助它们垄断么？

因此，问题来了：如果机器学习可以重构很多重要的事情，并且数据越多机器学习就给你越好的结果。那么，是否意味着已经是巨头，拥有巨量数据的公司会变得更加强大？这种赢家通吃的效应会有多强？因为这背后的道理似乎很清楚："更多的数据=更准确的模型=更好的产品=更多的用户=更多的数据"。

于是有一些说法就会出现：“谷歌/Facebook/亚马逊拥有所有的数据，中国拥有所有的数据，那些拥有大量数据的科技公司和人口众多，数据丰富的国家将在竞争中获得优势。”

某种程度上，这能成立。

不过，虽然机器学习需要大量的数据，但你使用的数据必须是非常具体的，只有这样才能解决特定的问题。GE有很多燃气轮机的遥测数据，Google有很多搜索数据，Amex有很多信用卡欺诈数据。你不能用涡轮机的数据作为例子来发现欺诈性交易，也不能用网络搜索的数据来发现即将出现故障的燃气轮机。

也就是说，机器学习是一种通用的技术，你既能用它来欺诈监测也能进行人脸识别，但是用它构建的具体应用互相之间是不通用的。每一个特定的模型或应用只能做一件事。

这和之前的自动化技术普及大同小异：就如洗衣机只能洗衣服不能洗完一样，机器学习支持的翻译程序也不能识别猫的图片。你构建的应用程序和这些应用程序需要的数据集是非常具体的，他们只会胜任特定的任务（当然，现在有一些前沿研究试图使某些数据集能够拥有更广泛的通用性。）

所以，利用机器学习可以实现的应用是非常广泛而分散的。谷歌不会“拥有所有的数据”，它只会拥有谷歌自己的数据。谷歌会利用机器学习技术获得更好的搜索结果，GE获得更好的引擎遥测，沃达丰获得更好的通话模式分析和网络规划，而这些都是不同公司建立的不同业务和功能。谷歌可以利用机器学习让它自己的业务变得更好，但不意味着谷歌可以利用机器学习垄断一切业务。

也就是说，机器学习可以让每个行业的大公司变得更强大——沃达丰，GE，谷歌拥有各自行业“所有的数据”，这会让他们拥有更强的竞争优势，让已经存在的护城河变的更深。但是问题其实也不那么简单，我们可以提出疑问：到底谁拥有数据，这些数据到底多有用，在什么层面上它是有效的，怎样去聚合与分析它们才是正确的？

如何聚合与分析数据才是有意义的？

作为一个公司的创始人，可以思考以下的问题：作为一家行业公司，你是否有收集和管理好自己的数据，并建立机器学习系统来分析它，还是说你找了对口的AI供应商来做这件事；你的供应商提供的是一个已经在别的数据集上训练好的成品，还是根据你的数据定制训练，或者将你的数据与其他数据集混合起来一起训练？你的供应商是否需要你的数据来优化模型，还是说整个行业的数据已经非常丰富，用现成的数据集就已足够？在业务的不同部分，不同的行业，不同的细分业务中，这些问题的答案是不同的。

换到另一端，如果你是一家AI创业公司，要切入某个细分行业解决实际问题，那么有两个关于数据的基本问题：如何获得你的第一个数据集来训练你的模型，并以此来获得你的第一个客户，另外你到底需要多少数据？

第二个问题可以分解成很多问题：是用相对较少的、获取相当容易的数据集（但很多竞争对手也能获取）来解决问题，还是用更难获取，规模更大的数据集，如果是后一种，是否可以从网络效应中获益，从而形成赢家通吃的态势？以此构建的产品，是会随着数据越来越多，变得越来越好，还是有一条S曲线？

这取决于以下这些因素：

有些数据集对企业或产品来说是独一无二的，或者能提供强大的专有优势。GE的发动机遥测数据可能对分析罗罗的航空发动机没有什么用处，即便有用处，它们也不会分享。这可能就是一个创业机会，但同时也是很多大公司内部IT和外包项目承包商眼馋的地方。

有些数据集则更具有共性，可以适用于更多的行业和公司。“这个客户有些奇怪”可能适用于所有信用卡公司，“客户听起来很生气”则适用于大多数呼叫中心。这种共性问题可以诞生很多公司，他们可以基于此解决不同行业的共性问题，这里有数据的网络效应。

但是也可能出现另一种情况，到了某种分界点后，模型已经很成熟，厂商不需要更多的数据，就已经能够很好的构建产品了。

AI创业，到底应该怎么切入？

在实际的创业中，随着机器学习的应用范围越来越广，创业公司总能在细分领域找到切入点。例如Everlaw进入的是法律相关的领域：一场官司会产生堆积如山的纸质卷宗，机器学习可以对这些卷宗进行分析，一方面，可以找出具有共性的卷宗，例如“包含焦虑情绪的文件”，另一方面可以做聚类分析，找到和选出的某一份卷宗差不多的其他卷宗。而这些不需要根据某一个特定案件的数据训练，用一些行业通用的数据集就可以解决。

Drishti，是一家利用计算机视觉来分析工厂生产线的公司，它的其中一些能力需要客户公司的数据进行训练，但它的能力具有较强的通用性，可以跨行业工作。

举一个极端的例子，我最近接触到一家大型的汽车主机厂，他们利用机器学习来优化爆胎监测传感器，使它更加准确。这些训练数据是他们自己制造的，做了很多爆胎和没有爆胎的试验。很明显，想要得到数据，你总能获得数据，只是数据，并不能构建护城河。

因此，回到核心，对于机器学习创业公司，都要面对两个问题：如何获得数据，需要多少数据？但这些只是技术性问题：你更应该考虑你的目标市场是什么，如何进入市场，你要解决的问题对你的客户有多大价值，等等。

也就是说，很快就不会再有 "人工智能 "创业公司了，它们将是工业流程分析公司，法律平台公司，或者销售优化公司等等。事实上，机器学习的普及并不意味着谷歌变强，而是意味着各种创业公司可以比以前更快地用这种先进技术来建立业务。

我用一个比喻来做最后的总结，我们可以把机器学习比作数据库。数据库非常重要，它是一种基础设施，融入了各种各样的场景。

如果你不使用它，而你的竞争对手使用它，你就会落后。在它还是一个新鲜事物时，有的公司曾经依靠这种技术获得过竞争优势，沃尔玛的部分成功来自于使用数据库，从而可以更有效的管理库存和物流。但在今天，如果你创办了一家零售商，并说，我们正在使用最先进的数据库技术；那这并不会让你变得与众不同。

数据库已经变成了一种普遍化的技术基础设施，它不再有特殊性，同样的事情在未来也会发生在机器学习上。

本文综合编译自知名投资人Benedict Evans的个人博客。