文/智物
”不要相信那种(基于海量数据的AI优势)炒作。”Landing AI创始人、CEO,曾经的谷歌大脑的创始人,百度首席科学家吴恩达简单明了地谈到自己对下一步AI趋势的看法。
他认为,AI的下一步趋势应该是围绕更小的数据集构建算法。他举的例子是,智能手机装配线上的划痕检测,不会有哪个工厂拥有上百万张的智能手机划痕图片数据。
他指的是之前的图像识别机器学习算法,需要靠百万张图片数据,用以训练模型和系统。但是,现在的手机巨头们应该没有哪个工厂,有这样多的瑕疵产品的图片。
除非是20年前的某家中国手机厂。
吴恩达认为,AI在这些传统行业中的价值将会比消费互联网中潜在的价值会更大。虽然,目前还处于一个比较初级的阶段。
麦肯锡预测,在医疗保健、制造业和农业当中,AI可以帮助实现13万亿美金的附加价值。
但问题在于,较小数据样本意味着数据的质量,比数据规模更重要。吴恩达指出,不同的人,即使是同一个工厂的两个检查员,记录数据的方式也会完全不同,让较小的数据集的采纳面临挑战。
吴恩达关于Small Data的观点,此前在工业界和学术界已有讨论。《财富》网站在评述的时候将其与此前数据石油观点对立,这一派观点的代表人物是创新工场创始人李开复。
李开复曾称,中国外卖订购的数量是美国的10倍,移动支付的数量是美国的50倍,共享单车的使用是美国的300倍,这些数据可以成为新的商业引擎,从而帮助改善用户体验。
据此,中国公司因为拥有海量的数据,而在AI时代拥有优势。李开复的结论是,中国会成为数据时代的沙特。《经济学人》也曾经用一篇封面文章,来解释数据作为新时代的石油的观点。
李开复这一观点一个附带的结论是,如今的互联网数据牢牢把握在位数不多的几家中、美巨头手中,比如阿里巴巴、腾讯、Facebook、谷歌、苹果等等。这也成为李开复口中所谓的数据黑洞,这些公司在AI领域的巨大优势,以及其他创始团队难以逾越的鸿沟。
吴恩达明确反对这一观点,他认为,不应该相信这一炒作,即使是没有海量数据集,初创企业和大公司仍然有机会去推动AI创新。庞大的数据集除了对互联网公司有用之外,没有太大的应用空间。
“庞大的搜索数据、经济数据对于检测时装缺陷毫无用处,对于医疗记录也没有太大的帮助。”