Databricks 日前發(fā)布 Apache Spark 的英文 SDK,這是一個變革性的工具,旨在豐富 Spark 體驗。
開發(fā)者可以使用英文指令編寫程序,例如「2022 USA national auto sales by brand」(美國 2022 年汽車銷量),編譯器會將英文指令轉(zhuǎn)換為 PySpark 或 SQL 代碼來執(zhí)行指令。
據(jù)官方介紹,Apache Spark?在全球 208 個國家和地區(qū)的年下載量超過 10 億次,極大地推動了大規(guī)模數(shù)據(jù)分析的發(fā)展。英文 SDK 創(chuàng)新性地應用了生成式人工智能(Generative AI),使 Spark 比以往任何時候都更加友好和易于使用。
GitHub Copilot 已經(jīng)徹底改變了人工智能輔助代碼開發(fā)領域。雖然它功能強大,但它希望用戶理解生成的代碼才能提交。審核人員也需要理解代碼才能進行審核。這可能是限制其更廣泛應用的一個因素。它偶爾也會在上下文方面遇到困難,尤其是在處理 Spark 表和 Dataframes 時。例如出現(xiàn)不存在的 dept_id 列,這需要開發(fā)者發(fā)現(xiàn)并進行修正。
這是 Databricks 希望解決的問題。他們發(fā)現(xiàn),大型語言模型非常了解 Spark,因為 Spark 社區(qū)在過去 10 年貢獻了大量開放且高質(zhì)量的文本,例如 API 文件、開源項目、問答和教程等。
因此,Databricks 團隊使用了語言模型開發(fā)了一套英文版 SDK,用戶可以直接在代碼中使用英文指令來獲取結(jié)果,從而減少所需編寫的代碼量。
Apache Spark 英文版 SDK 是一個極其簡單但功能強大的工具,可以顯著增強用戶的開發(fā)過程。它旨在簡化復雜的任務,減少所需的代碼量,并讓用戶更加專注于從數(shù)據(jù)中獲取見解。
Databricks 表示,雖然英文版 SDK 仍處于開發(fā)的早期階段,但對其潛力感到非常興奮。鼓勵用戶探索這個創(chuàng)新工具,親身體驗其好處,并考慮為該項目做出貢獻。不要只是觀察革命——成為革命的一部分。
此前 Databricks 同意以約 13 億美元的估值收購生成式人工智能初創(chuàng)公司 MosaicML,此舉旨在滿足企業(yè)構(gòu)建類似 ChatGPT 的工具的快速增長需求。