AI的新田园牧歌:反碎片化是AI+农业的关键
文/当下君图片/来源网络中国的农耕文化,是世界上最早的文化之一,也是对人类影响最大的文化体系之一。在距今10000~8000年间,中国早期农业已形成了以水稻为代表的南方水田农业和以粟为代表的北方旱作农业两大系统,并在这个格局中,孕育了辉煌灿烂的中华文明
文/当下君
图片/来源网络
中国的农耕文化,是世界上最早的文化之一,也是对人类影响最大的文化体系之一。
在距今10000~8000年间,中国早期农业已形成了以水稻为代表的南方水田农业和以粟为代表的北方旱作农业两大系统,并在这个格局中,孕育了辉煌灿烂的中华文明。
也许在你的印象中,农业就是田园牧歌,就是面朝黄土背朝天,这或许不假,但并非全部。
9月10日,国际粮食减损大会在济南开幕。会上指出,全球新冠疫情、国际性冲突战乱和气候变化三大挑战,使得全球粮食系统面临前所未有的压力,2020年全球共有7.2-8.11亿人口面临饥饿威胁,全球近1/3人口无法获得充足的食物与营养。
相比之下,中国的粮食无论从总产还是单产,都不断在提升。从我国粮食生产的能力和水平来看,我们国家粮食安全总体形势是好的。但是,对于一个15亿人口的大国,对于一个人均耕地在全球中下的现状,只有通过科技创新保障粮食安全,才能让中国人的饭碗始终能够端在自己手中。
而AI这种最新的前沿科技,已经在默默地为中国的农业发展贡献着力量,而其中开拓者的艰辛与努力,值得我们敬佩。
1
闯过农业AI化的第一道难关
在写AI是如何为农业插上科技的翅膀之前,我们首先有必要纠正一些刻板的印象。
很多人或许认为,作为古老的第一产业,农业距离AI这种数字技术极为遥远。
这个印象不能说完全错,但也并不完全正确。
首先,从国策的角度来说,让农业插上数字智慧的翅膀,并不是昨天或者今天才开始的。而是早在2014年,我国就提出了“智慧农业”概念,而到了2016年“智慧农业”就首次被写入“中央一号文件”。
如果对照一下时间表,会发现国内AI头雁百度在2013年成立深度学习研究院,在2016年推出了目前全球TOP3的深度学习平台——飞桨。
换句话说,智慧农业的提出和落实,几乎是和国内AI产业发展的前沿时间线是完全重叠在一起的。换言之,这是一个宏观环境和具体创新几乎完全同步的领域。
中国的智慧农业,开局就踩在了AI大发展的时间点上,这对我们来说,不能说不是一种幸事。
而2016年之后,每年中央都会出台新的政策规划鼓励智慧农业的发展,而中国的AI体系建设也不断发展,这两条路径始终伴随和交叠。
但也如大多数人想象的一样,农业的确和政企、金融等领域不一样,后者拥有完整的信息化基础设施,AI的加入,是在原有良好基础上的转型升级;而对于农业来说,数字化和智能化,几乎是同步拉出一条跃迁曲线。
大家大概都知道,AI的三要素是算法、算力和数据,其中数据扮演着燃料和土壤的角色,而对于古老的农业来说,AI破局的首要关口,也正是数据关。
伯乐相马,是一个千古流传的典故。“常有千里马,而不常有伯乐”,也从一个侧面说明,在没有科技手段加持的情况下,要分辨牲畜的品相,是一个相当困难的工作。
相传伯乐是春秋时代的人,距今有2000多年的历史。而在现实中,另一种历史悠久的农耕动物——牛,它的交易、流通环节,整体仍呈现出一种较为原始的模式。
就拿通辽市来说,这里的活牛年交易规模200万头,交易额200亿元,辐射全国大部分省市区,产业发展处于全国领先水平。
而在这里,大多数牛的交易仍集中在线下的牛市,每逢开集日,各大牛市人声、牛声、车声鼎沸,但是,牛的议价环节长期由“牛经纪人”掌控着,他们的“相牛技艺”让牛的定价不够清晰透明,极易造成信息不对称。
但是,人们也不得不承认,造成信息不对称的,是牛经纪人确有绝技,一位熟悉牛市的人告诉笔者,仅仅凭着肉眼的观察,这些经纪人就能知道一头牛有多重、一天能长多少斤,甚至还能知道小牛犊养到最后是赚是赔,其中的高手,一眼就能将牛只重量误差控制在5斤以内。
蓝奥云牧作为内蒙古畜牧服务行业重点企业,是中国畜牧业协会(CAAA)会员单位,他们一直在筹划一件大事——能不能用AI的一双慧眼,把沉淀千年的相牛绝技,实现标准化、数字化,提炼出其中的经验沉淀,最终变成一种可以便捷使用的能力,从而打通牛的流通环节中最难的一道关卡。
他们找到了百度,用“相牛人”的故事,打动了飞桨团队。
对于飞桨来说,算法和算力,都不存在问题,然而问题卡在第一道关口上——训练一套成熟的“相牛”模型,需要大量的数据。
这里就体现出农业AI化的门槛——对于一个落后、非标准的领域,没有任何数据积累,甚至如何采集数据、采集什么样的数据才能训练出有效的模型,都没有现成的路径可以依赖。
飞桨的工程师驻扎到了通辽,没想到,这个项目一做就是三年。
早期的数据收集,尚做不到开发“火眼金睛”,首先要解决的是体重、尺寸等比较好抓住特征的显性数据,而由于没有任何基础,飞桨团队必须通过人工拍照和测量来采集活牛数据。
笔者随着飞桨的工程师参加了一次数据采集——三点钟就要起床,很多人身上、腿上,都留下了牛踢伤的累累伤痕,然而尽管如此,好几个工程师与牛场工作人员起早贪黑,一天却最多只能测量不足十头牛的数据。
几个飞桨工程师——你或许对这个数据无感,但在AI人才非常稀贵的今天,即使在百度,这也是一笔非常惊人的人力资源开销,要知道数年后,百度支持国家跳水队开发出一套AI辅助训练系统,派出的工程师也是以个位数计算的。
显然,长此以往的操作,不仅会让项目严重拖期,也会产生巨大资源耗费。
为了突破数据难关,飞桨的团队成员经过几个月的摸索和尝试,终于研制出一套“立体三维点云数据采集装置”,这套装置包括专门定制的两台3D摄像头和3D成像模型系统,当牛从过道中有序经过时,过道两侧的摄像头便可以快速采集到牛的各种体尺数据和点云数据,并进行实时三维建模。
这里不得不提及一个利器——飞桨企业版EasyDL的EasyData智能数据服务平台,可以提供一站式数据服务工具,主要围绕AI开发过程中所需数据的采集、清洗、标注等提供完整的数据服务。
大家可能知道有个职业叫数据标注师,但对于大量中小型企业、项目来说,人工标注的成本极其高昂。
比如我们刚才提到了摄像头,其实,一个远低于相牛项目中使用的、最低端的130万像素的摄像头,在2M码流的情况下,连续工作一天24小时,将会生成约21G的视频文件,如果依靠人来标注将是巨大的工作量。
对于相牛项目来说,如果有一道分水岭,那就是手工采集+标注到自动采集+EasyData一站式处理的飞跃,这里面不仅是从几头、几十头牛的有效数据到数千头的差别,更是数据处理过程的高度自动化、智能化的过程。
经过近三年的“养牛”生活,飞桨团队成员已采集到2000余头有效的活牛数据,并在牛场进行初步测试,也终于使这套系统具备了扩大规模部署的能力,这是一个典型的AI赋能农业中,闯过数据关的故事。
同样,在北京的大兴区长子营镇,由裕农、京东方后稷、百度智能云联合打造的现代化水培植物工厂中,工程师们也遇到了数据难关。
这里,是现代农业的一个缩影,没有土壤,却有厂房——郁郁葱葱的芝麻菜、鸡毛菜和奶油生菜等平铺生长在数百块种植板上,种植板下流动的是精准配置的营养液,能提供蔬菜生长所需的所有营养。
然而,这样现代化的厂房,却有一个严重不足——终究需要人眼来判断蔬菜的长势,为此,厂里唯一一位农学专家李开每天都要走上两三万步亲自巡场,过年也不能休息。
为了开发出一套可以基于AI视觉观测蔬菜成长的系统,飞桨的工程师同样遇到了数据难关——在蔬菜生长的全周期,每天都要雷打不动的收集数据,每天上午、下午需要在固定高度、位置、光线下拍摄照片,并对照片完成标注。
笔者了解到,最开始、也是最常用的方法是,给蔬菜拍照,一张照片拍下6块种植板,每块种植板上有56棵菜,相当于需要标注300~400棵菜。
这里有一个专业术语——“克重”,这是指在一个标准的计量单位下,以克的重量单位的多少为计量标准,一种蔬菜的“克重”训练需要标注9万棵蔬菜的原图。
EasyData再次发威,通过这套系统,人力只用标注30%左右的数据,其余的数据都可通过智能标注功能自动完成。
但即使如此,飞桨的工程师还不满意,毕竟3万张原图的标注也是一个非常巨大的工作量,为了进一步减少标注的工作量,他们又开发了一种新方案:一张照片只需拍1块种植板,每块种植板种56棵菜,采集一个生长周期需要45张图,总计为2520棵菜。
从9万棵菜到2520棵,这种新方法的标注工作量直接降低了97%,从而实现了以极少的标注量获得成千上万张训练数据,现在已经有好几个模型开始使用新方案。
然而,数据只是农业进入AI的第一道关口。