李育杰拜會唐鳳部長逐字稿
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
李育杰現在我的構想是,國網本身也 operate 半個臺灣杉 2 號,所以整個構想就除了學研界—像李宏毅老師就做了 Reinforcement Learning、所謂 AI 李白的蔡宗翰—那幾個開始在用,計算資源是希望來自於國網,我們的企圖是整個 GPT 3,但是要放臺灣的語料庫。
-
-
李育杰對,然後所有的資料都是用臺灣的語料庫。當然你要去講接下來做完要怎麼做應用,我們的想法是邀請數位部,因為想說可以將整個政府對民眾的服務、數位助手、數位助理就用 Chat Bot 的形式。
-
(使用白板)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
李育杰我跟部長說明一下,這分幾個階段,第一個,我們希望在 6 月有一個這種核心的 model 出來,今天來跟您請教也是希望怎麼樣擴大社群參與,他們把這些核心的程式放到 GitHub 上的時候,下面的應用社群就可以進來用,比方在 6 月核心程式出來,然後 8 月創造出⋯⋯我講很快,因為我知道您都沒有問題。
-
李育杰我們如果有 1,000 個帳號開放給 g0v 這些社群來使用,然後我們那些資料就可以再做一次 Reinforcement learning,然後到 12 月就可以做一些公開的 demo,接下來第三階段就是要把一些道德倫理什麼東西都要放上去。
-
李育杰我們希望數位部扮演的角色是,因為數位部知道對民眾的服務有哪一些需求,因此請數位部幫忙找各部會對話機器人服務、蒐集法規,我們也可以讓這個原型的 prototype 去做一些 domain 的 adaptation,就會產生所謂的垂直應用。
-
李育杰這樣的串接,未來就可以跟金融界輸入自己要的一些規定、平常用的對話資料,然後在這個 prototype 下再做 adaptation,中小企業也可以做類似的事情,我們想說串接這樣的經驗,其實還是希望盡量 open 出去。
-
-
-
李育杰我們只是希望有一些人在訓練 super large 的 model,然後 push 國網有那樣的能量,技術上可以串接手頭上的 GPU 來作服務,然後對民眾說明的時候,我們就說透過數位部⋯⋯我一開始是希望透過部長掌握的數位政府司,知道政府對民間有哪一些溝通上的需求,利用這個 model 來作一些服務。
-
-
李育杰沒有,就是用臺灣的。但是其實 2025 年規劃有臺灣杉 5 號,也是 GPU,我其實跟國網中心主任在談一個事情,過去臺灣杉 2 號在買的時候,並沒有需求,並不知道要做什麼,當時我還記得漢銘一直問你,當時我一直講說為什麼買一個帝寶的毛胚屋,我寧可小一點,上面的服務可以做好一點,上面要查一些法規很像是因為採購法的關係。
-
-
-
-
-
-
唐鳳我先問一下,我們都知道它的綜整能力、推理能力,其實以 ChatGPT 來講,因為有全部的 Github,等於用程式語言跟程式的註解當作中介語言,才有這麼好的推理能力,但是我們現在如果以正體字為主,沒有納入全部的 Github 的程式語言,湧現出來的大概就沒有推理、綜整能力?
-
-
-
李育杰3、9、12 月都是 check point。我早上有給部長那個 slide,9 月份我們希望有 1,000 個帳號讓社群來使用,然後 12 月就是 1 萬個,3 月份可以正式再做一個更大的。
-
-
-
-
-
唐鳳我有第二個問題,我們都用 3、6、9 月來當 check point。因為我們知道 3 月中,GPT4 就會釋出了,狀態是它推理能力比一般人力好了,所以我很難想像社群會願意用上一代的東西,因為大概 3 月中之後,所有人都會跑去用 GPT4 了。
-
-
-
-
-
-
-
李育杰微軟禮拜五去科技辦,那時因為蔡志宏主任 host,我直接跟微軟講我們要做的理由是,國內沒有人訓練這麼大的 model,我們的國網沒有做過這麼大的 model,所以我們有這樣的目標,我們不只是要當他的客戶。
-
李育杰他來我們這邊說要合作,他說他們要幫我們爭取,我們說我們可以蒐集問題,因為他們有企業專屬版,他可以很快的⋯⋯因為個人現在 40 個 request 就停,即使付錢,service 的順序也不會排前面,他們說我們可以蒐集問題,他們幫我們蒐集答案。
-
唐鳳OpenAI 現在有一個企業專屬方案,只要跟它租一定程度的算力就保證不會當機,也就是微軟現在要推出類似的,但是後面是同一個,也就是 GPT4。現在的差別只是 OpenAI 的是感謝肯亞朋友有做過 RLHF,但是微軟拿去接 Bing 的是另一個版本。
-
-
-
-
-
-
唐鳳對,OpenAI 的情況是付錢給肯亞同仁,但是臺灣社群的時薪高過肯亞不少,所以為什麼要免費幫你訓練這個?當到 9 月的時候,我們就假設 Azure 上所有的 modality 都已經是幾乎免費在提供了,因為這個是微軟主要的商業模式。為何 civtech 社群要理我們,這個是我想要問的。
-
李育杰今天我們要建造一個屬於臺灣版的 ChatGPT,我們想要透過參與,只是有時在那邊玩⋯⋯我本來提一個構想是,現在 ChatGPT 4 還沒有出來,我們就說我們每個禮拜結算,如果 submit 最多的,就給你 20 元去 unlimited service。
-
-
李育杰我說是不是要趕快架一個社群平臺?我們想要做這件事的理由是,現在都還沒有做,所以有這樣的機制,我就蒐集一些民眾去問 ChatGPT 的問題,我 12 月 當我自己去 demo,他們說有自己的橋段,所以答得很好,我說當時收了一大堆東西,我就 random 選,選 ChatGPT 3 回答,這個是台版的回答。
-
李育杰我很希望的是,如果在跨部會的科發基金中切一小塊錢,拜託數位部讓各個政府基層去使用我們的 ChatGPT,因此知道民眾常常問的問題是哪一類,他們又是怎麼答,然後把它蒐集起來,我們一方面也知道民眾會問什麼問題,這個我會在 9 月份開始做。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
唐鳳假設我是市政府,我為何不在 3 月的時候去租用 GPT4,不管是微軟賣的或者是 OpenAI 賣的,把我的東西放進去,因為有一套可以計算的,這樣人家 GPT4 連到搜尋引擎,我們 BLOOM 是沒有連網的 GPT3,人家立刻就可以回答問題了,也就是用既有的 knowledge base?
-
-
-
-
-
-
李育杰我們當時講說臺灣要有自己的一套,其實這個很多業界感興趣,除看到聯發科在講,台達電也在講,其實前兩天玉山銀行的數位長說玉山銀行內部為了這個 ChatGPT 做了黑客松,其實我看起來很簡單,一個使用方式是讓使用者輸入的時候,submit 給 ChatGPT 之前,就把玉山的 regulation 附上去,所以就在那邊做。
-
-
-
李育杰我也跟部長提一下,這件事我花了一、兩個月,一開始很大的憂心是,當抖音來臺灣的時候,我們沒有辦法跟民眾溝通叫人家不能用,但當你自己有一套百度的 ChatGPT 出來的時候,你可以說有第二個選項可以使用,我們的用詞比較臺灣風格,所以這是另外一層為何臺灣非做不可的原因。
-
-
-
-
-
唐鳳這個很好賣。目前我們看很多的分析,在微軟已經有優勢的領域,再加這一些東西,你就更難換掉它。但是有些比較沒有這麼優勢領域,也許有機會,像 Adobe,像 Premiere Pro 對 speech 也有著墨,雖然比不上 OpenAI Whisper,但在 video & photo domain 已經有一些人相信 Adobe 了,所以就算 Adobe 的品質稍差,只要有類似的東西,大家還是會繼續用。
-
唐鳳因為你剛剛講兩個領域,一個是 text 的 Q&A,但是 1999 很多都是打電話進來的,就是 speech to text to 回應,另外一個是中、英文字編修,因為這兩個有一點不一樣的領域,一個資訊量在 input 跟 output 一樣多,所以這種領域比較沒有幻想的問題,像機器翻譯是比較沒有道德疑慮,要驗測看有沒有翻對是很容易的。但是有沒有答對是比較困難的,因為你只問了一句話,要回應幾個 kilobytes。
-
-
-
-
-
-
-
李育杰所以我們用 BLOOM 這些來做。第二件事,我們不教你去寫程式、寫數學問題跟講笑話,這並不是期待未來臺灣版 ChatGPT 有的功能,因此我們做的時候會特別列中翻英、英翻中及文字編修跟要點,比大家現在正在玩的 ChatGPT 功能有限縮,但是我們希望做出來的東西,就是未來可能的應用。
-
唐鳳我有聽懂,但是這個是資訊量的問題,剛剛的意思是一個 kilobyte 進來、一個 kilobyte 還你,這種領域要拼得過 ChatGPT 滿容易的,只要資料量夠。但是這個進來 100 個 byte,然後你要回 10k 的資料,這個你要拼得過,因為後面沒有 Bing,所以這個是他幫你找來就好了,他只是負責換句話說,我們現在這個就算把換句話說弄到很好,但是也沒有更新的資料,這樣回答光是問他今天幾月幾日就會錯,你知道我的意思嗎?
-
-
-
-
-
-
唐鳳這個 tune 過的 modality 一定會變成 default modality 之一。而我們如果後面沒有一個搜尋引擎,我不太確定 1999 要用我們的,因為連日期都會答錯的情況…
-
-
-
-
-
-
-
-
-
李育杰目前真的是專注做,我只是說你做出來這些核心的 model,已經讓國網有這種技術上成長、落地的一些應用,因為畢竟拿政府的錢。政府對民眾服務與溝通的這一塊,你可以支持,有這樣自己的⋯⋯
-
-
李育杰對。我找你有兩個目的:第一個是看跨部會署科發基金,數位部是不是願意合提?因為目前的規劃是國科會主提,應該會委給國研院,數位部合提的部分,像做這些 1999、政府法規,讓一些基層的公務人員去玩一下 ChatGPT、蒐集這些比較有目的性與實用情境來切合民眾需求之資料,然後反饋回來,這個是數位部的角色。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
唐鳳我理解。但是我的點是,如果 Q 的 bytes 遠小於 A 的 bytes,我們再怎麼蒐集 Q&A,也比不上搜尋引擎,這個是我剛剛的點,我不可能蒐集到 Bing 的資料量,這樣還不如買 Bing 的 API。但是如果買 Bing 的 API,不如連 Azure GPT 一起買了。當你一起買了,這整個計畫就⋯⋯
-
-
-
-
-
-
-
-
唐鳳我理解。那個點是在修辭上,就是措詞、用語跟逗點,但是你最在意這個 Prompt Engineering 的部分,這個已經證明是可以跨語文的。就很像我現在跟你講話,其實我腦裡是用英語想,但是我講出來的是華語,目前看起來 ChatGPT 3 跟 4 這一塊很像都是透過 Github 上的程式碼當作中介語言,所以在英語受到的訓練,自動在中文那邊用,這是一個湧現狀態,其實學界也還在研究要怎麼解釋。
-
-
-
李育杰有,我們現在大量在蒐集,其實剛剛提到國網,其實國家實驗研究院有一個科政中心,他們有很多資料,而且他們也很知道如何跟人家談授權,所以 data 那一塊就拜託科政中心,然後算力這一塊就是國網中心,然後 model 的 fine tune 就找李宏毅這些人。再來是這些東西的使用情境。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
闕河鳴我同意你說臺灣一定要做,我也同意你現在做太空,關鍵的技術要分辨得出來,然後掌握在自己的手上。因為吳政委已經開記者會講了,所以你下半年勢必這個東西會被要求成果是什麼,如果要有一個快速在三個月,也就是年底倒推半年。
-
-
-
-
-
闕河鳴換個角度來看,如果是臺灣不同語言去翻譯或者是 mix,這個會有感,甚至是只要掛上既有的網站或者是 Q&A,這兩個可以做某種程度的結合,但是白板左邊那個其實地方政府的資料庫可能會比我們還多。
-
-
-
-
-
李育杰這個是另外一件事,也就是說,其實到年底我覺得一般民眾對這整個事情的期待並不是像現在這麼誇張了,從專家的角度,我根本不覺得 Google 拿出來的是 Big deal,事實上 ChatGPT 錯得更多。
-
-
-
-
-
-
-
-
-
-
唐鳳但是如果注入道德這一段不做驗測,然後 12 月先來 public demo 說數位部明年負責驗測它,然後結果是 12 月 demo 時要先提醒自己不要問哪一個問題,但是當時會拒絕不恰當問題的微軟 Bing 已經運行 9 個月,我們到時候看起來不是更糟嗎?我的 point 是這個。
-
-
唐鳳我們的點是,我們是不是挑有信心的領域來做?我剛剛一直強調的是,只要你進來的 bits 大於等於出去的 bits,我們就有信心做驗測,但是進來的只要小於出去的 bits,我們就沒有信心做驗測。
-
-
唐鳳像我有跟 Digital India 的執行長聊,他們很清楚沒有錢請翻譯員的印度另外 24 種語言,叫他接電話翻譯,他認為就算偶爾翻錯,也比這些人沒有辦法接取到政府的服務好,好比他沒有想說要跟 1999 合作,因為他覺得那個是關乎正確性的部分。
-
-
-
-
-
唐鳳但是像剛剛講的 mixed 語言,在臺灣的臺語社群、客語社群、原住民族語,甚至還可以擴大到移工社群,他們很願意訓練,因為這個是有關文化存續的問題,這個不管是文化部、教育部、原民會、客委會都有經費,就不需要我們這邊講說要多少錢。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
李育杰當時 JR 跟孔院士講說弄一個臺灣資訊安全學校,孔院士沒有拒絕,後來我跟他聊說人工智慧學校做,「AI in security、security in AI」,然後這個是他們 AIA 董事會同意,孔院士又補一個,除了「AI in security、security in AI」,他把 data security 獨立出來,因為前一陣子在寫同態加密,你也做過一陣子。
-
-
-
-
唐鳳資安院如果要有一組人來做,就是專門做資訊量對稱的,特別是翻譯跟校對、mixed 國家語言的正確性、AI 安全性,用你剛剛講的 NIST 那套的框架做驗測中心,這樣就跟 TTC 的無人載具完全分開了。
-
-
-
-
-
-
-
-
-
-
-
-
-
李育杰我就說那時陳良基第一次辦 AI Grand Challenge,我就說不可能做到,因為那個 Grand Challenge 是看那一幅畫,然後叫 AI 去講對這一幅畫的感覺,我說怎麼可能。
-
-
唐鳳所以我的意思是,這邊的 dataset 不需要我們給,你就拿 open data,這個本來在國網就有一份了,如果是要混合語料,其實 Grand Challenge 那一組人都在國研院,對來源都非常熟。像你剛剛講 meta 那一組人的 TAT Corpus 也可以直接用,所以這個就不用數位部,但是數位部可以提驗測。
-
-
-
-
發布單位:數位發展部
建立日期:2023-02-25
更新日期:2023-03-15