TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
第一个方案已经写完了,结果很迷。有的时候答案非常棒,有的时候完全找不到北。 目前可能的优化空间: 1. 把计算相似度的算法调整,默认是 cosine; 2. 把文本数据进一步清洗,尽可能去除噪音数据; 3. 调整 embedding 的 chunk 的大小 4. 准备更多高质量的文本数据。
第一个方案已经写完了,结果很迷。有的时候答案非常棒,有的时候完全找不到北。 目前可能的优化空间: 1. 把计算相似度的算法调整,默认是 cosine; 2. 把文本数据进一步清洗,尽可能去除噪音数据; 3. 调整 embedding 的 chunk 的大小 4. 准备更多高质量的文本数据。