当前位置: 首页 > news >正文

做俄罗斯外贸的网站设计网站seo策划

做俄罗斯外贸的网站设计,网站seo策划,食品网站制作,代做网站作业将Q算法和D算法结合应用到llm解码上之人在回路 参考地址代码解释 参考地址 https://dongfangyou.blog.csdn.net/article/details/136466609 代码 import numpy as np from tqdm import tqdmfrom sample import net, char2id_dict, get_real_p# 假设的词汇表 VOCABULARY lis…

将Q算法和D算法结合应用到llm解码上之人在回路

  • 参考地址
  • 代码
  • 解释

参考地址

https://dongfangyou.blog.csdn.net/article/details/136466609

代码

import numpy as np
from tqdm import tqdmfrom sample import net, char2id_dict, get_real_p# 假设的词汇表
VOCABULARY = list(char2id_dict.keys())# 初始化Q表
q_table = {}
for word1 in VOCABULARY:for word2 in VOCABULARY:q_table[(word1, word2)] = 0# Q学习参数
alpha = 0.1  # 学习率
gamma = 0.6  # 折扣因子# 用户反馈函数
def get_user_feedback(generated_text):# 这个函数应该根据用户的实际反馈来更新Q表# 在这个简化示例中,我们随机生成反馈# print(f"Generated Text: {generated_text}")print("Please give your feedback (1 for positive, -1 for negative, 0 for neutral):")feedback = int(input())# feedback = np.random.choice([-1, 0, 1])  # 负面、中性、正面反馈return feedback# Q学习更新函数
def q_learning_update(q_table, state, action, reward, next_state):current_q = q_table.get((state, action), None)if current_q is None:current_q = 0q_table[(state, action)]=0max_future_q = max([q_table.get((next_state, a), 0) for a in VOCABULARY])new_q = (1 - alpha) * current_q + alpha * (reward + gamma * max_future_q)q_table[(state, action)] = new_qreturn q_table# LLM解码器
class LanguageModel:def __init__(self):# 假设的生成概率分布passdef generate_text(self, start_word, q_table):text = [start_word]current_word = start_wordwhile len(text) < 10:  # 生成10个词汇的文本next_word = self.choose_next_word(current_word, q_table)text.append(next_word)current_word += next_wordreturn ' '.join(text)def choose_next_word(self, current_word, q_table):if np.random.rand() < 0.1:  # 10%的概率随机选择return np.random.choice(VOCABULARY)else:# 根据Q表和模型概率选择下一个词汇q_values = []voc_probs=get_real_p(current_word, net, char2id_dict)for word in tqdm(VOCABULARY):v=q_table.get((current_word, word), 0) + voc_probs[char2id_dict[word]]q=wordq_values.append((v, q))return max(q_values)[1]# D*算法的重新规划函数
def d_star_lite_replan(q_table, generated_text, user_feedback):# 根据用户反馈更新Q表words = generated_text.split()for i in range(len(words) - 1):state = words[i]action = words[i + 1]reward = user_feedbacknext_state = words[i + 2] if i + 2 < len(words) else Noneq_table = q_learning_update(q_table, state, action, reward, next_state)return q_table# 训练循环
model = LanguageModel()
for episode in range(100):generated_text = model.generate_text('当时明月在', q_table)print(f"Episode {episode}: {generated_text}")# 获取用户反馈reward = get_user_feedback(generated_text)# 使用D*算法重新规划解码策略q_table = d_star_lite_replan(q_table, generated_text, reward)# 最终生成的文本
final_text = model.generate_text('当时明月在', q_table)
print(f"Final Text: {final_text}")

解释

上述代码是一个简化的Q学习算法和D*算法的示例,用于生成文本。

首先,代码定义了一个词汇表VOCABULARY,以及一个初始Q表q_table,以及学习率alpha和折扣因子gamma。

接下来,代码定义了两个函数get_user_feedback和q_learning_update。get_user_feedback函数用于获取用户对生成的文本的反馈,可以选择负面、中性或正面反馈,或者根据实际情况自定义反馈。q_learning_update函数用于更新Q表,根据当前状态、动作、奖励和下一个状态来更新Q值。

然后,代码定义了一个LanguageModel类,其中包含生成文本和选择下一个词汇的函数。在生成文本的过程中,根据当前词汇和Q表来选择下一个词汇。其中,有10%的概率随机选择,90%的概率根据Q表和模型概率选择。

接下来,代码定义了一个d_star_lite_replan函数,用于根据用户反馈重新规划解码策略。根据生成的文本和用户反馈,更新Q表。

最后,代码使用循环进行训练。在每个循环中,生成文本并获取用户反馈,根据用户反馈重新规划解码策略。训练结束后,生成最终的文本。

需要注意的是,代码中的LanguageModel类和相关函数只是用于示例,实际应用中需要根据具体需求进行修改和优化。此外,代码中的模型生成概率分布和词汇表是假设的,实际应用中需要根据实际情况进行定义。

http://www.hengruixuexiao.com/news/46721.html

相关文章:

  • 儿童摄影网站模板竞价推广开户公司
  • 一家只做直购的网站微信广告朋友圈投放
  • 专业柳州网站建设哪家好百度广告费一般多少钱
  • 做双语网站用什么cms系统好seo的方法有哪些
  • 深圳公司注册名称查询如何做网站推广优化
  • 宿州市埇桥区建设局网站seo排名官网
  • 日本哪个浏览器可以在中国用seo关键词优化推广价格
  • 企业网站做seo网页设计模板网站免费
  • 石家庄今天最新疫情青岛网站优化公司
  • 济南做网站最好的公司如何免费推广一个网站
  • 关于加强政府网站建设的通知怎么开设自己的网站
  • 连云港专业网站制作公司整站seo技术
  • 机械设备如何做网站seo裤子的关键词首页排名有哪些
  • 做网站与做游戏那个好关联词有哪些三年级
  • 买模板建设网站网络营销推广的方法有哪些
  • 个人名义做网站能备案吗地推团队如何收费
  • 做网站推广的需要了解哪些知识网站推广公司
  • 公司网站是怎么制作和维护的网络培训研修总结
  • 有个网站是做视频相册的seo站长工具综合查询
  • 百度站点管理武汉服装seo整站优化方案
  • 网站建设首期款西安网站建设网络推广
  • 网站建设企业咨询长春关键词优化报价
  • wordpress多站点配置教程seo综合优化公司
  • 河南网站制作公司国内网络销售平台有哪些
  • 爱做片视频网站关键词排名是什么意思
  • 广东两学一做网站网络营销案例有哪些
  • b2c模式的网站有哪些营销号
  • php源码网站建设教程seo合作
  • 增加wordpress的用户百度seo优化排名软件
  • wordpress两个菜单栏seo网站关键字优化