中国石油在塔里木油田利用大模型对地下深层的走滑断裂进行识别、对酸盐岩缝洞体进行预测,相比传统的机器学习技术效率高出数十倍;大港油田应用油井智能调控技术增产降耗效果显著:工况变化识别有效率大于95%,产液量计算准确率超过90%,中小场站无人值守率70%,大站少人值守覆盖率32%……
如今,油气行业与人工智能(AI)的融合技术已取得多项成就,AI大模型的爆发与整个油气产业链的未来高度融合。但因油气工程的超复杂性,行业与大模型的融合过程也面临诸多挑战。行业、场景大模型如何开发才能成为未来油气行业与AI融合的重要抓手,助力传统油气行业焕发新质生产力?
如何实现从基础大模型到行业、场景大模型?
模型微调混迭、场景按需开发
“基础大模型企业可以与垂直企业合作调试大模型。”中国工程院院士邬贺铨指出,基础大模型通识能力强但缺乏行业专业知识,垂直行业企业自建基础大模型又面临缺乏通用语料、人才、算力、技术、成本等难题,在第三方基础大模型上加入垂直企业数据微调来开发行业、场景大模型是合理的选择。
但当垂直企业与基础大模型提供方合作时,通常会产生两种问题。“若企业直接将数据交给基础大模型提供方,后续模型微调和云边端部署等仍需模型提供方支撑,且企业数据外传存在数据泄露风险。若企业采用买断、租赁等方式获取基础大模型并自行微调、训练模型,也可能产生预训练和微调数据矛盾,微调用的专业语料不足等问题。”邬贺铨说。
基于此,他建议采用预训练与指令微调混迭进行,即将通用语料预训练、企业数据预训练等预训练数据和通用数据指令、企业数据指令等指令数据,随机混洗到一个训练数据中进行混合微调。通过多阶段逐渐训练,可缓解预训练和微调间数据不匹配问题,提高模型的表达、理解、迁移和泛化能力。
“要以需求为导向逐步开发生产场景大模型。”邬贺铨表示,油气企业有很长的生产流程,包括测井、油气藏、油气工程建设、油气开采、炼化生产、供应链、市场营销等,分别对应多种场景大模型。“从行业大模型导出场景大模型不如用多个场景大模型合成行业大模型。部分场景大模型因需先用,然后将其与行业大模型迭代效果更佳。”邬贺铨指出。
此外,他提醒,虽然生产制造场景专业性要求高,基础大模型难有直接进入的优势,但一些行业的大企业在这些场景的数据获得性好且数据质量可控。例如国内已开发出的地震数据处理解释、油气勘探开发、油气储运等场景模型。
行业、场景大模型面临哪些挑战?
数据不足、专家稀缺
在关注数据量的同时,也应注重质。中国工程院院士刘合表示:“大模型不应该一味追求参数量大。油气行业经常需要实时处理复杂数据,数据具有一定的保密性,很多实验室无法接入互联网,要求模型轻量化,很多时候轻量化和高准确性之间还存在矛盾。我们不应该一味地追求模型有多大,应该关注模型是否好用。”
“行业场景多样,但数据短缺。与基础大模型相比,行业数据明显不足且多数质量不高,跨企业共享同场景数据难。”邬贺铨说,“一些场景所用训练数据特别稀缺,例如陆相复杂构造非常规油气田需从常规地质体场景数据中进行迁移学习泛化扩展,还需利用该流程上下游的多场景数据集通过检测、分类、分割提取通用特征。”
“行业+AI”专家稀缺、标注困难也是个问题。邬贺铨指出,油气数据主要来自地下,具有多解性和难以验证等特点,其标注需要较高专业知识,人才的缺乏与成本制约了对行业数据的利用。目前可以通过优化提示词(上下文学习、思维链提示、指令调整、对齐调整等)训练大模型来自动生成标注,但仍需辅以人工微调和审核。邬贺铨指出:“标注前还需要有提示词。能不能出好‘题’,关系到标注出的结果是否好,所以出题这部分仍然离不开专家。”
如何打破发展困境,释放新质生产力?
强化数据治理、开放合作联合攻关
专家建议,要以大模型应用为契机,加强数据全生命周期管理,提升数据治理能力。刘合指出:“我们的核心竞争力是行业数据,要做好训练‘样本库’的基本功,并提升数据质量,构建大模型应用所需要的‘样本库’。”他表示,通用行业大模型的繁荣发展很大程度上得益于开源数据集。
刘合表示,不能期望大模型会在各个领域超过或替代传统深度学习,应该以业务需求为导向,以解决具体问题为准则,研发面向油气特定分析应用的模型。在逐步积累的基础上,具备条件后再着手研发满足多种应用需求的大模型。
此外,刘合指出,国内外AI大模型领域竞争激烈,能够搭建多机多卡并行算力并进行调优的技术人才以及具备AI大模型研发和能源行业知识的人才都十分缺乏。他建议通过开放性合作课题以及学术交流方式,与领域内外的产学研单位建立合作机制,并开展联合项目攻关,逐步培育“A1+能源产业”专业技术团队。
现阶段,信息化正迈向数字化、网络化、智能化全面跃升的新阶段,给生产力和生产关系带来了前所未有的变革,有力驱动着技术革命性突破、生产要素创新性配置、产业深度转型升级。
9月9日,工业和信息化部发布《中小企业数字化水平评测指标(2024年版)》(简称《测评指标》),给中小企业提供了更加清晰明确的数字化水平评测和转型指引工具。
9月5日,中国气体行业数字人工智能百人会在杭州成立。百人会旨在聚焦人工智能(AI)技术在气体行业中的应用,推动气体行业数字化转型,加速低碳化发展,推动科技创新与气体行业数字化、绿色化转型融合发展。