大規模言語モデル(OpenAI の GPT-4 など)の発明と一般化によって、最近までは手動での処理が非現実的または不可能ですらあった大量の非構造化データを使用できる革新的なソリューションの波が押し寄せています。 データ検索(検索拡張生成に関する優れた紹介については、Don Woodlock の ML301 コースをご覧ください)、センチメント分析、完全自律型の AI エージェントなど、様々なアプリケーションが存在します。
この記事では、IRIS テーブルに挿入するレコードに自動的にキーワードを割り当てる単純なデータタグ付けアプリケーションの構築を通じて、IRIS の Embedded Python 機能を使って、Python OpenAI ライブラリに直接インターフェース接続する方法をご紹介します。 これらのキーワードをデータの検索と分類だけでなく、データ分析の目的に使用できるる単純なデータタグ付けアプリケーションを構築します。ユースケースの例として、製品の顧客レビューを使用します。
要件
Review
クラス
顧客レビューのデータモデルを定義する ObjectScript クラスの作成から始めましょう。 簡潔さを維持するために、顧客の名前、製品名、レビュー本文、および生成するキーワードの 4 つの %String
フィールドのみを定義します。 クラスはオブジェクトをディスクに保存できるように、%Persistent
を拡張します。
Class DataTagging.Review Extends %Persistent
{
Property Name As %String(MAXLEN = 50) [ Required ];
Property Product As %String(MAXLEN = 50) [ Required ];
Property ReviewBody As %String(MAXLEN = 300) [ Required ];
Property Keywords As %String(MAXLEN = 300) [ SqlComputed, SqlComputeOnChange = ReviewBody ];
}
ObjectScriptObjectScript
ReviewBody
への挿入または更新時に、Keywords
プロパティが自動的に計算されるようにしたいため、これを SqlComputed
とします。計算される値についての詳細は、こちらをご覧ください。
KeywordsComputation
メソッド
次に、レビュー本文に基づいてキーワードを計算するために使用するメソッドを定義します。 公式の openai
Python パッケージを直接操作するために、Embedded Python を使用できます。 ただし、先にそれをインストールしておく必要があります。 以下のシェルコマンドを実行しましょう。
<your-IRIS-installation-path>/bin/irispip install --target <your-IRIS-installation-path>/Mgr/python openai
Shell SessionShell Session
OpenAI のチャット補完 API を使用して、キーワードを生成できるようになりました。
ClassMethod KeywordsComputation(cols As %Library.PropertyHelper) As %String [ Language = python ]
{
'''
This method is used to compute the value of the Keywords property
by calling the OpenAI API to generate a list of keywords based on the review body.
'''
from openai import OpenAI
client = OpenAI(
# Defaults to os.environ.get("OPENAI_API_KEY")
api_key="<your-api-key>",
)
# Set the prompt; use few-shot learning to give examples of the desired output
user_prompt = "Generate a list of keywords that summarize the content of a customer review of a product. " \
+ "Output a JSON array of strings.\n\n" \
+ "Excellent watch. I got the blue version and love the color. The battery life could've been better though.\n\nKeywords:\n" \
+ "[\"Color\", \"Battery\"]\n\n" \
+ "Ordered the shoes. The delivery was quick and the quality of the material is terrific!.\n\nKeywords:\n" \
+ "[\"Delivery\", \"Quality\", \"Material\"]\n\n" \
+ cols.getfield("ReviewBody") + "\n\nKeywords:"
# Call the OpenAI API to generate the keywords
chat_completion = client.chat.completions.create(
model="gpt-4", # Change this to use a different model
messages=[
{
"role": "user",
"content": user_prompt
}
],
temperature=0.5, # Controls how "creative" the model is
max_tokens=1024, # Controls the maximum number of tokens to generate
)
# Return the array of keywords as a JSON string
return chat_completion.choices[0].message.content
}
PythonPython
プロンプト内では、最初に「generate a list of keywords that summarize the content of a customer review of a product」で、製品の顧客レビューのコンテンツを要約するキーワードのリストを GPT-4 でどのように生成するかについての一般的な命令を指定してから、希望する出力と 2 つのサンプル入力を指定していることに注意してください。 次に cols.getfield("ReviewBody")
を挿入し、「Keywords:」の語でプロンプトを終了することで、私が提示した例と同じ形式でキーワードを提供して、文を完成させるように促しています。 これは、Few-Shot プロンプティング手法の単純な例です。
この記事を簡潔にするため、キーワードを JSON 文字列で格納するようにしていますが、本番では、DynamicArray に格納するのがお勧めです。ただ、これについては各開発者にお任せします。
キーワードの生成
それでは、管理ポータルで以下の SQL クエリを使用してテーブルに行を挿入し、データタグ付けアプリケーションをテストしてみましょう。
INSERT INTO DataTagging.Review (Name, Product, ReviewBody)
VALUES ('Ivan', 'BMW 330i', 'Solid car overall. Had some engine problems but got everything fixed under the warranty.')
SQLSQL
以下のとおり、4 つのキーワードが自動的に生成されました。 上出来です!
まとめ
まとめると、Python コードを埋め込む InterSystems IRIS の機能によって、非構造化データを処理する際に幅広い可能性を得られます。 OpenAI の力を活用して自動データタグ付けを行うのは、この強力な機能によって達成できることの一例にすぎません。 これにより、ヒューマンエラーを縮小し、全体的な効率をさらに高めることができます。