Compare commits

...

5 Commits

Author SHA1 Message Date
ArvinLovegood
8aed4d2753 feat(dict):优化金融股票分词字典结构与内容
- 删除重复或冗余的词条,如“人工智能”、“云计算”等在多个分类中重复出现的词汇
- 调整并统一章节编号,确保从一至九的连续性和逻辑性
- 移除不再适用的覆盖场景描述,提升字典的专业性与准确性
- 更新权重说明注释,去除不必要的分数细节,保持清晰易懂
- 重新组织词条顺序,使同类项集中,提高检索效率
- 清理负权重词汇列表中的多余条目,强化过滤机制
- 精简A股龙头公司条目,聚焦更广泛的财务与估值指标词条
- 统一格式排版,增强可读性和维护便利性
2025-11-23 20:48:28 +08:00
ArvinLovegood
6bd1bdae02 feat(dict):优化金融股票分词字典结构与内容
- 删除重复或冗余的词条,如“人工智能”、“云计算”等在多个分类中重复出现的词汇
- 调整并统一章节编号,确保从一至九的连续性和逻辑性
- 移除不再适用的覆盖场景描述,提升字典的专业性与准确性
- 更新权重说明注释,去除不必要的分数细节,保持清晰易懂
- 重新组织词条顺序,使同类项集中,提高检索效率
- 清理负权重词汇列表中的多余条目,强化过滤机制
- 精简A股龙头公司条目,聚焦更广泛的财务与估值指标词条
- 统一格式排版,增强可读性和维护便利性
2025-11-23 20:40:57 +08:00
ArvinLovegood
9a40d343aa feat(dict): 优化金融股票分词字典结构与内容
- 删除重复或冗余的词条,如“人工智能”、“云计算”等在多个分类中重复出现的词汇
- 调整并统一章节编号,确保从一至九的连续性和逻辑性
- 移除不再适用的覆盖场景描述,提升字典的专业性与准确性
- 更新权重说明注释,去除不必要的分数细节,保持清晰易懂
- 重新组织词条顺序,使同类项集中,提高检索效率
- 清理负权重词汇列表中的多余条目,强化过滤机制
- 精简A股龙头公司条目,聚焦更广泛的财务与估值指标词条
- 统一格式排版,增强可读性和维护便利性
2025-11-23 20:39:06 +08:00
ArvinLovegood
e4cdad6ffe feat(data): 更新用户词典,新增热点概念与板块词汇
- 添加负权重词汇以降低无差别匹配干扰
- 新增核心热点概念词汇,权重设为700分
- 扩展重点赛道板块词汇,权重设为500分
- 增加事件驱动型概念词汇,权重设为400分
- 调整部分已有词汇格式,确保兼容性
2025-11-23 20:22:29 +08:00
ArvinLovegood
a0005dab96 feat(data): 更新用户词典文件
- 调整了原有词汇的权重值从0.1为-0.1
- 新增多个金融及行业相关词汇,如基金、保险等
- 增加了热点概念词汇,例如冰雪旅游、新能源汽车等
- 添加了具体公司或产品名称,如摩尔线程及其相关概念
- 保留并确认具身智能一词的权重与分类不变
2025-11-23 20:03:23 +08:00
3 changed files with 189 additions and 81 deletions

View File

@@ -1,6 +1,5 @@
# 金融股票全场景分词字典(最终去重优化版)
# 格式:单词 权重 词性 | 权重280-350分核心术语优先匹配无重复词汇
# 覆盖:净买卖、股指、财务指标、交易操作、政策宏观、热点概念、机构媒体、美股中概股、十五五规划等全场景
# 一、净买卖与资金流向(核心交易表述)
净卖出 340 v
@@ -96,6 +95,7 @@
操纵市场 300 n
亏损 100 n
加工 100 n
# 三、全球主要股指(含中英文缩写)
# 中国市场
A股 350 n
@@ -117,63 +117,43 @@ A股 350 n
科创50指数 330 n
上证综指 350 n
富时中国A50指数 340 n
FTSE China A50 330 n
恒生指数 340 n
HSI 330 n
恒生科技指数 340 n
恒生国企指数 330 n
H股指数 330 n
# 美洲市场
道琼斯工业平均指数 350 n
DJIA 340 n
标普500指数 350 n
S&P 500 340 n
纳斯达克综合指数 340 n
纳斯达克100指数 340 n
Nasdaq 100 330 n
罗素2000指数 320 n
Russell 2000 310 n
标普400中型股指数 310 n
标普600小型股指数 310 n
纽约证交所综合指数 310 n
NYSE Composite 300 n
纳斯达克中国金龙指数 310 n
# 欧洲市场
德国DAX指数 330 n
DAX 30 320 n
法国CAC40指数 330 n
CAC 40 320 n
富时100指数 330 n
FTSE 100 320 n
欧元斯托克50指数 320 n
Euro Stoxx 50 310 n
英国富时250指数 310 n
FTSE 250 300 n
意大利富时MIB指数 310 n
FTSE MIB 300 n
西班牙IBEX 35指数 310 n
IBEX 35 300 n
# 亚太其他市场
日经225指数 330 n
Nikkei 225 320 n
日经500指数 310 n
韩国综合股价指数 320 n
韩国kospi指数 320 n
KOSPI 310 n
澳洲标普200指数 310 n
S&P/ASX 200 300 n
印度孟买敏感指数 310 n
Sensex 300 n
印度Nifty 50指数 310 n
Nifty 50 300 n
# 全球综合指数
MSCI指数 320 n
MSCI全球指数 330 n
MSCI World Index 320 n
MSCI新兴市场指数 330 n
MSCI Emerging Markets 320 n
富时罗素全球指数 320 n
FTSE Russell Global Index 310 n
摩根大通全球债券指数 310 n
全球股指 300 n
发达市场指数 300 n
@@ -198,38 +178,7 @@ G20国家指数 300 n
指数估值 310 n
指数市盈率 310 n
# 四、A股龙头公司资讯高频
贵州茅台 310 n
宁德时代 350 n
比亚迪 340 n
隆基绿能 300 n
长江电力 290 n
中国平安 300 n
招商银行 300 n
五粮液 290 n
美的集团 290 n
格力电器 290 n
海康威视 290 n
迈瑞医疗 290 n
恒瑞医药 290 n
中芯国际 300 n
中兴通讯 290 n
东方财富 290 n
爱尔眼科 290 n
通威股份 290 n
药明康德 320 n
阳光电源 290 n
天齐锂业 290 n
赣锋锂业 290 n
中国中免 290 n
海螺水泥 280 n
万科A 280 n
保利发展 280 n
招商蛇口 280 n
上汽集团 280 n
宝钢股份 280 n
# 五、财务与估值核心指标
# 四、财务与估值核心指标
市盈率 350 n
PE 350 n
动态市盈率 340 n
@@ -269,7 +218,7 @@ EPS 330 n
量比 320 n
振幅 320 n
# 、政策与宏观经济
# 、政策与宏观经济
货币政策 330 n
财政政策 330 n
稳健货币政策 320 n
@@ -307,7 +256,7 @@ PMI 330 n
黄金价格 310 n
有色金属价格 300 n
# 、金融产品与机构
# 、金融产品与机构
股票 320 n
基金 320 n
公募基金 310 n
@@ -351,7 +300,7 @@ QFII 300 n
RQFII 290 n
北向资金机构 300 n
# 、热点概念与行业
# 、热点概念与行业
AI 330 n
人工智能 350 n
算力 330 n
@@ -395,7 +344,7 @@ CXO 300 n
5G 300 n
6G 340 n
# 、交易操作与行情
# 、交易操作与行情
上涨 310 v
下跌 310 v
涨停 310 v
@@ -473,7 +422,7 @@ CXO 300 n
震荡上行 320 v
震荡下行 320 v
# 、委托交易与规则
# 、委托交易与规则
限价委托 340 n
市价委托 340 n
止损委托 330 n

View File

@@ -1,26 +1,185 @@
公司 0.1 n
国家 0.1 n
国际 0.1 n
会议 0.1 n
市场 0.1 n
经济 0.1 n
技术 0.1 n
记者 0.1 n
时间 0.1 n
项目 0.1 n
问题 0.1 n
企业 0.1 n
财联社 0.1 n
上涨 0.1 v
下跌 0.1 v
期货 0.1 n
跌幅 0.1 n
跌超 0.1 adj
股票 0.1 n
# 补充热点概念与板块Jieba/gse兼容格式
# 权重说明核心热点500-700分事件类400分负权重词汇按需求保留
# 一、负权重低优先级词汇(减少无差别匹配干扰)
公司 -0.1 n
国家 -0.1 n
国际 -0.1 n
会议 -0.1 n
市场 -0.1 n
经济 -0.1 n
技术 -0.1 n
记者 -0.1 n
时间 -0.1 n
项目 -0.1 n
问题 -0.1 n
企业 -0.1 n
财联社 -0.1 n
上涨 -0.1 v
下跌 -0.1 v
期货 -0.1 n
跌幅 -0.1 n
跌超 -0.1 adj
股票 -0.1 n
基金 -0.1 n
电讯 -0.1 n
建筑 -0.1 n
平开 -0.1 n
保险 -0.1 n
行业 -0.1 n
其他 -0.1 n
# 二、核心热点概念700分最高优先级
比特币 700 n
摩尔线程 700 n
摩尔线程概念 700 n
AI算力 700 n
生成式AI 700 n
量子计算 700 n
脑机接口 700 n
6G通信 700 n
人形机器人 700 n
固态电池 700 n
ChatGPT概念 700 n
Web3.0 700 n
元宇宙 700 n
数字孪生 700 n
量子通信 700 n
# 三、重点赛道板块500分高优先级
冰雪旅游 500 n
特高压 500 n
跨境电商 500 n
俄乌冲突 400 n
新能源汽车 500 n
机器人 500 n
具身智能 500 n
具身智能 500 n
油气 500 n
商业航天 500 n
光伏储能 500 n
锂电材料 500 n
半导体设备 500 n
集成电路 500 n
创新药 500 n
CXO 500 n
医疗器械 500 n
数字经济 500 n
数字货币 500 n
区块链 500 n
低空经济 500 n
工业互联网 500 n
物联网 500 n
5G应用 500 n
充电桩 500 n
氢能源 500 n
核聚变 500 n
工业母机 500 n
新材料 500 n
生物制造 500 n
智能网联汽车 500 n
乡村振兴 500 n
国企改革 500 n
央企重组 500 n
跨境金融 500 n
自贸港 500 n
一带一路 500 n
绿色低碳 500 n
碳交易 500 n
数据要素 500 n
数字基建 500 n
东数西算 500 n
国产替代 500 n
信创 500 n
网络安全 500 n
算力网络 500 n
边缘计算 500 n
虚拟现实 500 n
增强现实 500 n
智能穿戴 500 n
智能家居 500 n
车联网 500 n
激光雷达 500 n
氮化镓 500 n
碳化硅 500 n
第三代半导体 500 n
EDA工具 500 n
光刻胶 500 n
芯片设计 500 n
封装测试 500 n
储能电池 500 n
钠离子电池 500 n
氢燃料电池 500 n
光伏组件 500 n
风电设备 500 n
特高压设备 500 n
电力物联网 500 n
智能电网 500 n
轨道交通 500 n
航空航天 500 n
海洋工程 500 n
高端装备 500 n
军工电子 500 n
卫星互联网 500 n
北斗导航 500 n
国产大飞机 500 n
生物医药 500 n
基因测序 500 n
疫苗 500 n
医疗美容 500 n
养老产业 500 n
教育信息化 500 n
体育产业 500 n
文化创意 500 n
旅游复苏 500 n
预制菜 500 n
白酒 500 n
食品饮料 500 n
家电下乡 500 n
房地产复苏 500 n
基建投资 500 n
新型城镇化 500 n
冷链物流 500 n
快递物流 500 n
跨境支付 500 n
金融科技 500 n
消费电子 500 n
元宇宙基建 500 n
数字藏品 500 n
NFT 500 n
绿色电力 500 n
节能降碳 500 n
抽水蓄能 500 n
生物质能 500 n
地热能 500 n
潮汐能 500 n
# 四、事件驱动型概念400分中优先级
俄乌冲突 400 n
中东局势 400 n
美联储加息 400 n
降息预期 400 n
贸易摩擦 400 n
供应链重构 400 n
能源危机 400 n
粮食安全 400 n
疫情复苏 400 n
政策利好 400 n
产业扶持 400 n
技术突破 400 n
并购重组 400 n
IPO提速 400 n
解禁潮 400 n
北向资金流入 400 n
南向资金流入 400 n
主力资金异动 400 n
行业景气度 400 n
业绩预增 400 n
商誉减值 400 n
退市风险 400 n
监管新规 400 n
税收优惠 400 n
补贴政策 400 n
基建刺激 400 n
消费刺激 400 n
新能源补贴 400 n
碳达峰政策 400 n
碳中和目标 400 n

View File

@@ -121,7 +121,7 @@ func InitAnalyzeSentiment() {
tags := &[]models.Tags{}
db.Dao.Model(&models.Tags{}).Find(tags)
for _, tag := range *tags {
err := seg.AddToken(tag.Name, basefreq+100, "n")
err := seg.AddToken(tag.Name, basefreq, "n")
if err != nil {
logger.SugaredLogger.Errorf("添加%s失败:%s", tag.Name, err.Error())
}
@@ -141,7 +141,7 @@ func InitAnalyzeSentiment() {
k := strutil.SplitAndTrim(line, " ")
switch len(k) {
case 1:
err = seg.ReAddToken(k[0], 100)
err = seg.ReAddToken(k[0], basefreq)
case 2:
freq, _ := convertor.ToFloat(k[1])
err = seg.ReAddToken(k[0], freq)