百度安全与企业率平台java搜索二面
《面试题目》
- 设计题:
设计接口计数器: 2. 100个租户,每个租户调用量差距很大(1 ~ 100w)
功能要求: 3. 5s做一次实时更新,可以看到最新结果
怎么保证数据不丢失 4. 每一分钟 一小时 一天做一次数据聚合 5. 每个用户调用有额度,怎么限制 2. rag设计 3. 怎么更好的识别文档,有没有考虑大模型多模态识别 4. 怎么提高返回给用户结果的置信度 3. 手撕
写一个滑动窗口 4. 用什么数据结构,时间复杂度是多少,队列的时间复杂度是多少,TreeMap呢
《参考解析》
-
RAG与大模型:RAG(检索增强生成)流程:文档切片→向量化(Embedding)→存向量数据库→检索时将query向量化→TopK语义检索→将相关文档拼入prompt→LLM生成。优化:混合检索(语义+关键词)、重排序Rerank、查询改写、上下文压缩。评估:召回率(relevant docs retrieved/total relevant)、精确率、Answer相关性。
-
算法题解析:常用算法思路:动态规划(状态转移方程,自底向上);BFS/DFS(图遍历,BFS找最短路,DFS回溯);双指针(有序数组去重/两数之和);滑动窗口(子串/子数组问题);二分查找(有序或单调性)。时间复杂度分析:关注最坏情况和平均情况。