DRL-Transformer: 用深度強化學習求解開放車間排程

Hannah Foster

2026年6月16日

173

original

本文介紹一種融合Transformer和深度強化學習的開放車間排程方法。模型僅以加工時間矩陣為輸入，在Taillard基準上訓練後可無需重訓練直接泛化至100x100規模，makespan優於多種經典啟發式規則。該研究展現了深度學習在運籌優化中的潛力，同時也揭示了當前方法在效能上限和實際部署中的挑戰。

開放車間排程問題（OSSP）在製造業和物流領域幾乎無處不在——一個車間裡有多臺機器、多個作業，每個作業的每道工序可以在任意空閒機器上完成，目標是最小化總完工時間（makespan）。這個問題看起來直觀，但計算上卻是NP-hard，隨著作業和機器數量的增加，精確求解很快變得不可行。傳統上，工程師依賴排程規則（如SPT、LPT）或元啟發式演算法（如遺傳演算法、模擬退火），但這些方法往往需要大量人工調參，且大規模下質量難以保證。

Transformer+強化學習：新思路解決老問題

最近arXiv上這篇論文，把Transformer架構和深度強化學習結合了起來。作者並沒有設計複雜的狀態編碼，而是將每個作業的加工時間矩陣直接輸入到一個編碼器-解碼器結構的Transformer中，通過多注意力頭捕捉作業與機器之間的相互依賴關係。強化學習部分則用策略梯度方法訓練模型，使其學會順序地指派工序到機器，目標是最終makespan最小。

這個思路的一個自然優勢是：模型完全是資料驅動的，不需要人工特徵或領域知識。只要給一組加工時間，它就能端到端地輸出一個完整排程方案。聽起來有點玄，但實際跑下來的結果讓人眼前一亮。

實驗結果與泛化能力：小樣本訓練，大規模應用

訓練是在經典的Taillard基準例項上進行的，規模從4x4到10x10。訓練後的模型在驗證集上生成的排程，其makespan與已知最優解的偏差通常在15%-30%之內。這個數值相比精確求解差得遠，但考慮到模型是在極小規模上訓練的，且完全依賴資料學習，其實已經相當有競爭力。

更值得關注的是泛化能力：研究者直接將訓練好的模型應用到隨機生成的大規模例項上（40x40，甚至100x100），不做任何引數調整或重訓練。與SPT、LPT、MWKR、EST四種經典排程規則相比，Transformer模型在多數規模下均能取得更優的makespan，尤其在大規模問題上優勢更為明顯。這暗示模型可能學習到了一些超越簡單優先順序規則的全域性策略。

現實意義與侷限

這項研究對工業排程從業者意味著什麼？目前來看，離直接替換現有系統還有距離。15%-30%的最優解差距在要求嚴格的生產環境中可能不夠用，但作為一種初始解生成器或啟發式的混合元件，它已經展現了實用潛力。對於運籌優化領域的研究者，這篇工作提供了一個清晰的基線：Transformer在組合優化問題上可行，且泛化性比想象中好。

當然，侷限也很明顯：模型只在單一目標（makespan）上優化，而實際排程往往需要同時考慮交期、能耗、機器負載均衡等多目標。此外，當前實驗侷限於Taillard風格例項，現實資料中的噪聲和動態擾動尚未考慮。

實用建議：如果你正為排程問題發愁，可以關注作者是否會開源模型和程式碼，嘗試在自己的小規模資料集上跑一跑。但別指望它直接給出最優解——更合理的用法是作為快速近似器，再搭配區域性搜尋進行精調。另一方面，留意該領域後續的多目標擴充套件和魯棒性研究，那才是真正落地的前奏。

總的來說，這篇論文讓我們看到：即便在最傳統的運籌優化領域，深度學習也能找到自己的位置。它不完美，但方向值得跟蹤。

開放車間排程深度強化學習Transformer排程優化運籌學AI應用製造業生產排程啟發式演算法機器學習

探索更多

相似工具

GeoInfer

GeoInfer 是一款面向調查人員、記者、執法部門和安保專家的 AI 地理定位工具，通過分析照片中的建築、地形、植被等視覺線索，快速推斷拍攝地點。無需手動比對地圖，支援批量處理，適用於開源情報（OSINT）調查、災難響應和新聞事實核查。

Riskified

Riskified 是基於人工智慧的電商欺詐防範與風險智慧平臺，幫助全球電商企業通過機器學習自動化稽覈交易，減少拒付損失並提升收入。平臺實時分析使用者行為，在安全與轉化率之間取得平衡，已服務眾多大型電商企業。

Fetcher

Fetcher是一款AI驅動的招聘工具，自動搜尋被動候選人，讓招聘者從繁瑣的蒐集中解放，專注於候選人體驗。支援多樣化搜尋，幫助團隊更高效地發現並接觸頂尖人才。

Kavout

Kavout 是一款金融AI工具，允許使用者以自然語言提問的方式研究股票、ETF、加密貨幣和外匯。無需在多個平臺間切換，直接詢問「NVDA是否高估」或「尋找低負債、低於50美元的股息股」，即可獲得財務資料與分析。

PixieBrix

PixieBrix 是一個低程式碼平臺，讓你快速構建並部署上下文感知的瀏覽器擴充套件，無縫整合 AI、API 和企業資料，支援規模化管理和自定義工作流。

Zida

Zida 是一款面向學生的 AI 學習助手，通過智慧問答、知識梳理和自適應練習，幫助使用者高效掌握知識點。支援多學科，提供實時反饋與學習路徑建議。

開源專案

OpenAlice: 開源AI全品種交易助手

OpenAlice 是一個開源 AI 交易代理，覆蓋股票、加密貨幣、大宗商品、外匯和巨集觀市場。它自動化從研究到倉位退出全流程，基於 TypeScript 構建，GitHub 星標超 5200，適合有程式設計能力的交易者。

openmed: 開源醫療 AI 框架

openmed 是一個專注於醫療健康領域的開源人工智慧專案，基於 Python 開發，在 GitHub 上獲得了超過 3400 星標。它旨在為醫療資料分析和 AI 模型部署提供基礎工具，降低醫療 AI 的開發門檻，適合研究人員和開發者探索智慧診斷、醫學影像分析等場景。

AIRI: 自託管虛擬角色數字伴侶

AIRI 是一個面向自託管的虛擬角色 / 數字伴侶專案，具有語音、對話、遊戲代理等能力

ValueCell: 社羣驅動多智慧體金融投研平臺

ValueCell 是一個以社羣為驅動的、多智慧體系統平臺，專注於金融領域的應用。它旨在將多個智慧體（如市場分析、情緒分析、新聞分析、基本面分析等）組合協作，形成一種「智慧投研團隊」機制，為使用者提供統一的投資組合管理、風險監控與策略開發。

Kronos: BTC/USDT 24小時概率預測

專案提供了一個 Web Demo，可以展示 BTC/USDT 在未來 24 小時的預測（概率 / 區間）效果

Open-AutoGLM: 手機螢幕自動操作代理

Open-AutoGLM 是由智譜科技（Zhipu AI）開源的一套手機智慧代理框架和模型，核心目標是讓 AI 不僅具備對話能力，更能自動理解手機螢幕內容並完成真實操作。與傳統只能「說話」的大模型不同，AutoGLM 能夠將自然語言指令轉化為實際操作，例如自動開啟 App、點選按鈕、輸入資訊、執行一系列跨應用任務等。