Refactor storage implementations to support both single and multi-process modes

• Add shared storage management module • Support process/thread lock based on mode
2025-02-26 05:38:38 +08:00
parent 8050b0f91b
commit 2752a764ae
10 changed files with 608 additions and 623 deletions
--- a/lightrag/kg/networkx_impl.py
+++ b/lightrag/kg/networkx_impl.py
@@ -1,18 +1,13 @@
 import os
 from dataclasses import dataclass
 from typing import Any, final
-import threading
 import numpy as np

 from lightrag.types import KnowledgeGraph, KnowledgeGraphNode, KnowledgeGraphEdge
-from lightrag.utils import (
-    logger,
-)
-from lightrag.api.utils_api import manager as main_process_manager
+from lightrag.utils import logger
+from lightrag.base import BaseGraphStorage
+from .shared_storage import get_storage_lock, get_namespace_object, is_multiprocess

-from lightrag.base import (
-    BaseGraphStorage,
-)
 import pipmaster as pm

 if not pm.is_installed("networkx"):
@@ -24,25 +19,6 @@ if not pm.is_installed("graspologic"):
 import networkx as nx
 from graspologic import embed

-# Global variables for shared memory management
-_init_lock = threading.Lock()
-_manager = None
-_shared_graphs = None
-
-
-def _get_manager():
-    """Get or create the global manager instance"""
-    global _manager, _shared_graphs
-    with _init_lock:
-        if _manager is None:
-            try:
-                _manager = main_process_manager
-                _shared_graphs = _manager.dict()
-            except Exception as e:
-                logger.error(f"Failed to initialize shared memory manager: {e}")
-                raise RuntimeError(f"Shared memory initialization failed: {e}")
-    return _manager
-

@final
@dataclass
@@ -97,76 +73,98 @@ class NetworkXStorage(BaseGraphStorage):
        self._graphml_xml_file = os.path.join(
            self.global_config["working_dir"], f"graph_{self.namespace}.graphml"
        )
-        
-        # Ensure manager is initialized
-        _get_manager()
-        
-        # Get or create namespace graph
-        if self.namespace not in _shared_graphs:
-            with _init_lock:
-                if self.namespace not in _shared_graphs:
-                    try:
-                        preloaded_graph = NetworkXStorage.load_nx_graph(self._graphml_xml_file)
-                        if preloaded_graph is not None:
-                            logger.info(
-                                f"Loaded graph from {self._graphml_xml_file} with {preloaded_graph.number_of_nodes()} nodes, {preloaded_graph.number_of_edges()} edges"
-                            )
-                        _shared_graphs[self.namespace] = preloaded_graph or nx.Graph()
-                    except Exception as e:
-                        logger.error(f"Failed to initialize graph for namespace {self.namespace}: {e}")
-                        raise RuntimeError(f"Graph initialization failed: {e}")
-        
-        try:
-            self._graph = _shared_graphs[self.namespace]
-            self._node_embed_algorithms = {
+        self._storage_lock = get_storage_lock()
+        self._graph = get_namespace_object(self.namespace)
+        with self._storage_lock:
+            if is_multiprocess:
+                if self._graph.value is None:
+                    preloaded_graph = NetworkXStorage.load_nx_graph(self._graphml_xml_file)
+                    self._graph.value = preloaded_graph or nx.Graph()
+                    logger.info(
+                            f"Loaded graph from {self._graphml_xml_file} with {preloaded_graph.number_of_nodes()} nodes, {preloaded_graph.number_of_edges()} edges"
+                    )
+            else:
+                if self._graph is None:
+                    preloaded_graph = NetworkXStorage.load_nx_graph(self._graphml_xml_file)
+                    self._graph = preloaded_graph or nx.Graph()
+                    logger.info(
+                            f"Loaded graph from {self._graphml_xml_file} with {preloaded_graph.number_of_nodes()} nodes, {preloaded_graph.number_of_edges()} edges"
+                    )
+
+        self._node_embed_algorithms = {
                "node2vec": self._node2vec_embed,
-            }
-        except Exception as e:
-            logger.error(f"Failed to access shared memory: {e}")
-            raise RuntimeError(f"Cannot access shared memory: {e}")
+        }
+    
+    def _get_graph(self):
+        """Get the appropriate graph instance based on multiprocess mode"""
+        if is_multiprocess:
+            return self._graph.value
+        return self._graph

    async def index_done_callback(self) -> None:
-        NetworkXStorage.write_nx_graph(self._graph, self._graphml_xml_file)
+        with self._storage_lock:
+            graph = self._get_graph()
+            NetworkXStorage.write_nx_graph(graph, self._graphml_xml_file)

    async def has_node(self, node_id: str) -> bool:
-        return self._graph.has_node(node_id)
+        with self._storage_lock:
+            graph = self._get_graph()
+            return graph.has_node(node_id)

    async def has_edge(self, source_node_id: str, target_node_id: str) -> bool:
-        return self._graph.has_edge(source_node_id, target_node_id)
+        with self._storage_lock:
+            graph = self._get_graph()
+            return graph.has_edge(source_node_id, target_node_id)

    async def get_node(self, node_id: str) -> dict[str, str] | None:
-        return self._graph.nodes.get(node_id)
+        with self._storage_lock:
+            graph = self._get_graph()
+            return graph.nodes.get(node_id)

    async def node_degree(self, node_id: str) -> int:
-        return self._graph.degree(node_id)
+        with self._storage_lock:
+            graph = self._get_graph()
+            return graph.degree(node_id)

    async def edge_degree(self, src_id: str, tgt_id: str) -> int:
-        return self._graph.degree(src_id) + self._graph.degree(tgt_id)
+        with self._storage_lock:
+            graph = self._get_graph()
+            return graph.degree(src_id) + graph.degree(tgt_id)

    async def get_edge(
        self, source_node_id: str, target_node_id: str
    ) -> dict[str, str] | None:
-        return self._graph.edges.get((source_node_id, target_node_id))
+        with self._storage_lock:
+            graph = self._get_graph()
+            return graph.edges.get((source_node_id, target_node_id))

    async def get_node_edges(self, source_node_id: str) -> list[tuple[str, str]] | None:
-        if self._graph.has_node(source_node_id):
-            return list(self._graph.edges(source_node_id))
-        return None
+        with self._storage_lock:
+            graph = self._get_graph()
+            if graph.has_node(source_node_id):
+                return list(graph.edges(source_node_id))
+            return None

    async def upsert_node(self, node_id: str, node_data: dict[str, str]) -> None:
-        self._graph.add_node(node_id, **node_data)
+        with self._storage_lock:
+            graph = self._get_graph()
+            graph.add_node(node_id, **node_data)

    async def upsert_edge(
        self, source_node_id: str, target_node_id: str, edge_data: dict[str, str]
    ) -> None:
-        self._graph.add_edge(source_node_id, target_node_id, **edge_data)
+        with self._storage_lock:
+            graph = self._get_graph()
+            graph.add_edge(source_node_id, target_node_id, **edge_data)

    async def delete_node(self, node_id: str) -> None:
-        if self._graph.has_node(node_id):
-            self._graph.remove_node(node_id)
-            logger.info(f"Node {node_id} deleted from the graph.")
-        else:
-            logger.warning(f"Node {node_id} not found in the graph for deletion.")
+        with self._storage_lock:
+            graph = self._get_graph()
+            if graph.has_node(node_id):
+                graph.remove_node(node_id)
+                logger.debug(f"Node {node_id} deleted from the graph.")
+            else:
+                logger.warning(f"Node {node_id} not found in the graph for deletion.")

    async def embed_nodes(
        self, algorithm: str
@@ -175,14 +173,15 @@ class NetworkXStorage(BaseGraphStorage):
            raise ValueError(f"Node embedding algorithm {algorithm} not supported")
        return await self._node_embed_algorithms[algorithm]()

-    # @TODO: NOT USED
+    # TODO: NOT USED
    async def _node2vec_embed(self):
-        embeddings, nodes = embed.node2vec_embed(
-            self._graph,
-            **self.global_config["node2vec_params"],
-        )
-
-        nodes_ids = [self._graph.nodes[node_id]["id"] for node_id in nodes]
+        with self._storage_lock:
+            graph = self._get_graph()
+            embeddings, nodes = embed.node2vec_embed(
+                graph,
+                **self.global_config["node2vec_params"],
+            )
+            nodes_ids = [graph.nodes[node_id]["id"] for node_id in nodes]
        return embeddings, nodes_ids

    def remove_nodes(self, nodes: list[str]):
@@ -191,9 +190,11 @@ class NetworkXStorage(BaseGraphStorage):
        Args:
            nodes: List of node IDs to be deleted
        """
-        for node in nodes:
-            if self._graph.has_node(node):
-                self._graph.remove_node(node)
+        with self._storage_lock:
+            graph = self._get_graph()
+            for node in nodes:
+                if graph.has_node(node):
+                    graph.remove_node(node)

    def remove_edges(self, edges: list[tuple[str, str]]):
        """Delete multiple edges
@@ -201,9 +202,11 @@ class NetworkXStorage(BaseGraphStorage):
        Args:
            edges: List of edges to be deleted, each edge is a (source, target) tuple
        """
-        for source, target in edges:
-            if self._graph.has_edge(source, target):
-                self._graph.remove_edge(source, target)
+        with self._storage_lock:
+            graph = self._get_graph()
+            for source, target in edges:
+                if graph.has_edge(source, target):
+                    graph.remove_edge(source, target)

    async def get_all_labels(self) -> list[str]:
        """
@@ -211,9 +214,11 @@ class NetworkXStorage(BaseGraphStorage):
        Returns:
            [label1, label2, ...]  # Alphabetically sorted label list
        """
-        labels = set()
-        for node in self._graph.nodes():
-            labels.add(str(node))  # Add node id as a label
+        with self._storage_lock:
+            graph = self._get_graph()
+            labels = set()
+            for node in graph.nodes():
+                labels.add(str(node))  # Add node id as a label

        # Return sorted list
        return sorted(list(labels))
@@ -235,87 +240,86 @@ class NetworkXStorage(BaseGraphStorage):
        seen_nodes = set()
        seen_edges = set()

-        # Handle special case for "*" label
-        if node_label == "*":
-            # For "*", return the entire graph including all nodes and edges
-            subgraph = (
-                self._graph.copy()
-            )  # Create a copy to avoid modifying the original graph
-        else:
-            # Find nodes with matching node id (partial match)
-            nodes_to_explore = []
-            for n, attr in self._graph.nodes(data=True):
-                if node_label in str(n):  # Use partial matching
-                    nodes_to_explore.append(n)
+        with self._storage_lock:
+            graph = self._get_graph()
+            
+            # Handle special case for "*" label
+            if node_label == "*":
+                # For "*", return the entire graph including all nodes and edges
+                subgraph = graph.copy()  # Create a copy to avoid modifying the original graph
+            else:
+                # Find nodes with matching node id (partial match)
+                nodes_to_explore = []
+                for n, attr in graph.nodes(data=True):
+                    if node_label in str(n):  # Use partial matching
+                        nodes_to_explore.append(n)

-            if not nodes_to_explore:
-                logger.warning(f"No nodes found with label {node_label}")
-                return result
+                if not nodes_to_explore:
+                    logger.warning(f"No nodes found with label {node_label}")
+                    return result

-            # Get subgraph using ego_graph
-            subgraph = nx.ego_graph(self._graph, nodes_to_explore[0], radius=max_depth)
+                # Get subgraph using ego_graph
+                subgraph = nx.ego_graph(graph, nodes_to_explore[0], radius=max_depth)

-        # Check if number of nodes exceeds max_graph_nodes
-        max_graph_nodes = 500
-        if len(subgraph.nodes()) > max_graph_nodes:
-            origin_nodes = len(subgraph.nodes())
-            node_degrees = dict(subgraph.degree())
-            top_nodes = sorted(node_degrees.items(), key=lambda x: x[1], reverse=True)[
-                :max_graph_nodes
-            ]
-            top_node_ids = [node[0] for node in top_nodes]
-            # Create new subgraph with only top nodes
-            subgraph = subgraph.subgraph(top_node_ids)
-            logger.info(
-                f"Reduced graph from {origin_nodes} nodes to {max_graph_nodes} nodes (depth={max_depth})"
-            )
-
-        # Add nodes to result
-        for node in subgraph.nodes():
-            if str(node) in seen_nodes:
-                continue
-
-            node_data = dict(subgraph.nodes[node])
-            # Get entity_type as labels
-            labels = []
-            if "entity_type" in node_data:
-                if isinstance(node_data["entity_type"], list):
-                    labels.extend(node_data["entity_type"])
-                else:
-                    labels.append(node_data["entity_type"])
-
-            # Create node with properties
-            node_properties = {k: v for k, v in node_data.items()}
-
-            result.nodes.append(
-                KnowledgeGraphNode(
-                    id=str(node), labels=[str(node)], properties=node_properties
+            # Check if number of nodes exceeds max_graph_nodes
+            max_graph_nodes = 500
+            if len(subgraph.nodes()) > max_graph_nodes:
+                origin_nodes = len(subgraph.nodes())
+                node_degrees = dict(subgraph.degree())
+                top_nodes = sorted(node_degrees.items(), key=lambda x: x[1], reverse=True)[
+                    :max_graph_nodes
+                ]
+                top_node_ids = [node[0] for node in top_nodes]
+                # Create new subgraph with only top nodes
+                subgraph = subgraph.subgraph(top_node_ids)
+                logger.info(
+                    f"Reduced graph from {origin_nodes} nodes to {max_graph_nodes} nodes (depth={max_depth})"
                )
-            )
-            seen_nodes.add(str(node))

-        # Add edges to result
-        for edge in subgraph.edges():
-            source, target = edge
-            edge_id = f"{source}-{target}"
-            if edge_id in seen_edges:
-                continue
+            # Add nodes to result
+            for node in subgraph.nodes():
+                if str(node) in seen_nodes:
+                    continue

-            edge_data = dict(subgraph.edges[edge])
+                node_data = dict(subgraph.nodes[node])
+                # Get entity_type as labels
+                labels = []
+                if "entity_type" in node_data:
+                    if isinstance(node_data["entity_type"], list):
+                        labels.extend(node_data["entity_type"])
+                    else:
+                        labels.append(node_data["entity_type"])

-            # Create edge with complete information
-            result.edges.append(
-                KnowledgeGraphEdge(
-                    id=edge_id,
-                    type="DIRECTED",
-                    source=str(source),
-                    target=str(target),
-                    properties=edge_data,
+                # Create node with properties
+                node_properties = {k: v for k, v in node_data.items()}
+
+                result.nodes.append(
+                    KnowledgeGraphNode(
+                        id=str(node), labels=[str(node)], properties=node_properties
+                    )
                )
-            )
-            seen_edges.add(edge_id)
+                seen_nodes.add(str(node))

-        # logger.info(result.edges)
+            # Add edges to result
+            for edge in subgraph.edges():
+                source, target = edge
+                edge_id = f"{source}-{target}"
+                if edge_id in seen_edges:
+                    continue
+
+                edge_data = dict(subgraph.edges[edge])
+
+                # Create edge with complete information
+                result.edges.append(
+                    KnowledgeGraphEdge(
+                        id=edge_id,
+                        type="DIRECTED",
+                        source=str(source),
+                        target=str(target),
+                        properties=edge_data,
+                    )
+                )
+                seen_edges.add(edge_id)

        logger.info(
            f"Subgraph query successful | Node count: {len(result.nodes)} | Edge count: {len(result.edges)}"