专属AI大模型,油气行业如何构建?

中国石油在塔里木油田利用大模型对地下深层的走滑断裂进行识别、对酸盐岩缝洞体进行预测,相比传统的机器学习技术效率高出数十倍;大港油田应用油井智能调控技术增产降耗效果显著:工况变化识别有效率大于95%,产液量计算准确率超过90%,中小场站无人值守率70%,大站少人值守覆盖率32%……
    如今,油气行业与人工智能(AI)的融合技术已取得多项成就,AI大模型的爆发与整个油气产业链的未来高度融合。但因油气工程的超复杂性,行业与大模型的融合过程也面临诸多挑战。行业、场景大模型如何开发才能成为未来油气行业与AI融合的重要抓手,助力传统油气行业焕发新质生产力?

如何实现从基础大模型到行业、场景大模型?

模型微调混迭、场景按需开发

“基础大模型企业可以与垂直企业合作调试大模型。”中国工程院院士邬贺铨指出,基础大模型通识能力强但缺乏行业专业知识,垂直行业企业自建基础大模型又面临缺乏通用语料、人才、算力、技术、成本等难题,在第三方基础大模型上加入垂直企业数据微调来开发行业、场景大模型是合理的选择。

但当垂直企业与基础大模型提供方合作时,通常会产生两种问题。“若企业直接将数据交给基础大模型提供方,后续模型微调和云边端部署等仍需模型提供方支撑,且企业数据外传存在数据泄露风险。若企业采用买断、租赁等方式获取基础大模型并自行微调、训练模型,也可能产生预训练和微调数据矛盾,微调用的专业语料不足等问题。”邬贺铨说。

基于此,他建议采用预训练与指令微调混迭进行,即将通用语料预训练、企业数据预训练等预训练数据和通用数据指令、企业数据指令等指令数据,随机混洗到一个训练数据中进行混合微调。通过多阶段逐渐训练,可缓解预训练和微调间数据不匹配问题,提高模型的表达、理解、迁移和泛化能力。

“要以需求为导向逐步开发生产场景大模型。”邬贺铨表示,油气企业有很长的生产流程,包括测井、油气藏、油气工程建设、油气开采、炼化生产、供应链、市场营销等,分别对应多种场景大模型。“从行业大模型导出场景大模型不如用多个场景大模型合成行业大模型。部分场景大模型因需先用,然后将其与行业大模型迭代效果更佳。”邬贺铨指出。

此外,他提醒,虽然生产制造场景专业性要求高,基础大模型难有直接进入的优势,但一些行业的大企业在这些场景的数据获得性好且数据质量可控。例如国内已开发出的地震数据处理解释、油气勘探开发、油气储运等场景模型。

行业、场景大模型面临哪些挑战?

数据不足、专家稀缺
    在关注数据量的同时,也应注重质。中国工程院院士刘合表示:“大模型不应该一味追求参数量大。油气行业经常需要实时处理复杂数据,数据具有一定的保密性,很多实验室无法接入互联网,要求模型轻量化,很多时候轻量化和高准确性之间还存在矛盾。我们不应该一味地追求模型有多大,应该关注模型是否好用。”
    “行业场景多样,但数据短缺。与基础大模型相比,行业数据明显不足且多数质量不高,跨企业共享同场景数据难。”邬贺铨说,“一些场景所用训练数据特别稀缺,例如陆相复杂构造非常规油气田需从常规地质体场景数据中进行迁移学习泛化扩展,还需利用该流程上下游的多场景数据集通过检测、分类、分割提取通用特征。”
    “行业+AI”专家稀缺、标注困难也是个问题。邬贺铨指出,油气数据主要来自地下,具有多解性和难以验证等特点,其标注需要较高专业知识,人才的缺乏与成本制约了对行业数据的利用。目前可以通过优化提示词(上下文学习、思维链提示、指令调整、对齐调整等)训练大模型来自动生成标注,但仍需辅以人工微调和审核。邬贺铨指出:“标注前还需要有提示词。能不能出好‘题’,关系到标注出的结果是否好,所以出题这部分仍然离不开专家。”

如何打破发展困境,释放新质生产力?

强化数据治理、开放合作联合攻关

专家建议,要以大模型应用为契机,加强数据全生命周期管理,提升数据治理能力。刘合指出:“我们的核心竞争力是行业数据,要做好训练‘样本库’的基本功,并提升数据质量,构建大模型应用所需要的‘样本库’。”他表示,通用行业大模型的繁荣发展很大程度上得益于开源数据集。

刘合表示,不能期望大模型会在各个领域超过或替代传统深度学习,应该以业务需求为导向,以解决具体问题为准则,研发面向油气特定分析应用的模型。在逐步积累的基础上,具备条件后再着手研发满足多种应用需求的大模型。

此外,刘合指出,国内外AI大模型领域竞争激烈,能够搭建多机多卡并行算力并进行调优的技术人才以及具备AI大模型研发和能源行业知识的人才都十分缺乏。他建议通过开放性合作课题以及学术交流方式,与领域内外的产学研单位建立合作机制,并开展联合项目攻关,逐步培育“A1+能源产业”专业技术团队。

相关推荐

全球首个数字孪生智能乙烯工厂建成

近日,石化领域全球首个数字孪生智能乙烯工厂在中科炼化建成,并在中国石化集团公司科技部组织召开的智能乙烯装置关键技术研发及工业应用验收会上,经专家组一致同意通过验收。

2024-12-18     中国化工报

《生成式人工智能应用发展报告(2024)》指出:生成式人工智能驱动行业降本增效

近日,中国互联网络信息中心发布《生成式人工智能应用发展报告(2024)》。报告指出,2023年至今,生成式人工智能相关产业在我国快速发展,新产品新模型不断迭代,新应用新业态持续涌现。包括石化行业在内的...

2024-12-18     中国化工报

工信部成立AI标准化技术委员会

12月13日,记者从工信部官网了解到,工信部决定成立部人工智能(AI)标准化技术委员会,主要负责人工智能评估测试、运营运维、数据集、基础硬件、软件平台、大模型、应用成熟度、应用开发管理、人工智能风险等...

2024-12-18     中国化工报

我国启动“纸质标准”数字化转型

12月15日,从国家标准委传来消息,由中国标准化研究院牵头,我国目前全面启动标准数字化转型研究,覆盖顶层设计、关键技术、场景应用全链条等项目,2024年已成功立项15项国家标准,初步奠定了我国标准数字...

2024-12-18     中国化工报

互联网绿色算力倡议征求意见

随着人工智能技术的快速发展,算力规模持续扩张,能耗问题日益凸显。为此,中国互联网协会联合中国信息通信研究院共同编制《中国互联网产业绿色算力倡议(征求意见稿)》,并于12月12日发布,以期推进绿色算力转...

2024-12-18     中国化工报

双化协同:一脉相承 同向而行

若要盘点2024年石化行业的发展热词,双化协同(即数字化绿色化协同)应榜上有名。

2024-12-11     中国化工报